企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊...

35
企業に着目した共同研究ネットワーク構造の解析と 非連続的成長の予測 チーム 技術動向観測隊 加藤亮 坂口誠一郎 林浩平 五十嵐康伸

description

All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯(2014年3月8日(土)開催) 銀賞受賞作品

Transcript of 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊...

Page 1: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

企業に着目した共同研究ネットワーク構造の解析と

非連続的成長の予測

チーム : 技術動向観測隊

加藤亮 坂口誠一郎 林浩平 五十嵐康伸

Page 2: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

Agenda

2

motivation analysis output

Page 3: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

Agenda

3

analysis output motivation

Page 4: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

アドベンチャー杯にかける意気込み

4

(本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)

「必ずしも変わる必要はない。生き残ることは強制ではないから。」

(William Edwards Deming / 1900-1993)

新しい発見、新しい自分

変化へのチャレンジ

既存

スキル 企業視点 × ×

Page 5: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

問題設定

企業 非連続的成長

「非連続的成長」は企業存続の重要なファクター

過去に無いスピードでの変化

連続的成長

↑高リスク

技術革新

グローバル化

規制緩和

成熟化 etc..

5

Page 6: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

問題設定:非連続的成長とは?

既存事業のビジネスモデル変革を通じて、 成長に向かう新たな提供価値を自ら実現すること

6

【参考資料】「非連続成長の事業革新モデル~『跳びの戦略』と『跳べる経営』~」

http://gce.globis.co.jp/column/view07_02.html

非連続的成長 ≒ 事業革新

市場の変更 製品・サービスの変更

ビジネスモデルの変更

改善(Improvement) 無し 無し 無し

拡張(Extension)

市場拡大 有り 無し 無し

新製品 有り/無し 有り 無し

革新(Leap) 有り 有り/無し 有り

【 成長戦略の類型 】

Page 7: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

問題設定

企業の 非連続的成長

過去~現在

社会的意義の大きい解析対象

未来(予測)

投資家 企業 大学 研究

機関 個人

7

Page 8: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

仮説

8

企業の共同研究ネットワーク構造 = 論文共著関係

企業 大学

大学

企業 大学

大学

企業

大学

企業

大学 企業

共同研究機関数の急増加

『共同研究の非連続的成長』:【仮説1】

『企業の非連続的成長』に貢献 :【仮説2】

Page 9: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析&予測ターゲット

9

共同研究機関数

2008 2009 2010 2011

企業A

企業A 企業A 企業A

企業A

予測

時間 【仮説1】 の検証を実施

Page 10: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

Agenda

10

analysis output motivation

Page 11: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析のプロセス

11

(複数ページにわたっても構いません。本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)

分析データ作成

Page 12: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : データ作成ツール

SASを利用してデータをハンドリング

・BASE SAS ・SAS/STAT

12

非発表資料

Page 13: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : SASコード例

データ作成の際には全ての工程でSASを利用

13

Page 14: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : 分析対象データ

分析に利用したデータ一覧

14

# データ種別 テーブルコード テーブル名 件数

1

JSTplus-科学技術文献書誌・付随データ

a_000 論文マスタ 6,537,160

2 e_au1s 著者名 25,092,461

3 g_cs1s 機関名 529,848

4 m_pd1 発行年 6,537,160

5 s_cc1gs JST分類 11,354,391

6 分野分類データ 分類コード JST分類コード 4,212

7 人名名寄せデータ nayose nayose 41,213,561

8 機関名データ 機関名情報 機関名情報 323,414

非発表資料

Page 15: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : 分析対象期間

論文数が一定の期間を分析に利用

・対象期間:2003~2011年

15

発行年 論文数 構成比%

1934 1 0

1939 1 0

2001 9455 0.11

2002 113983 1.27

2003 846910 9.42

2004 903615 10.05

2005 930269 10.35

2006 968199 10.77

2007 1020190 11.35

2008 998676 11.11

2009 1042099 11.59

2010 1037216 11.54

2011 990367 11.02

2012 120558 1.34

Page 16: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : 分析対象分野

情報工学(J)を対象分野として選定 ⇒ 近年はあらゆる産業の基礎となる分野に成長し、企業活動が活

発であることが予想されたため

16

JST分類 論文数 構成比% JST分類 論文数 構成比%

A:科学技術一般領域 89525 1 M:原子力工学 53118 0.59

B:物理学 844830 9.4 N:電気工学 485926 5.41

C:基礎科学 838898 9.33 P:熱機関,応用熱力学 88715 0.99

D:宇宙・地球の科学 215653 2.4 Q:機械工学 197762 2.2

E:生物科学 936679 10.42 R:建設工学 380299 4.23

F:農林水産 533532 5.93 S:環境工学 238897 2.66

G:医学 2847251 31.67 T:運輸交通工学 53243 0.59

H:工学一般領域 86408 0.96 U:鉱山工学 23985 0.27

I:システム・制御工学 82476 0.92 W:金属工学 198118 2.2

J:情報工学 265950 2.96 X:化学工学 78420 0.87

K:経営工学 79922 0.89 Y:化学工業 324850 3.61

L:エネルギー工学 34284 0.38 Z:その他の工業 11492 0.13

Page 17: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : データ作成手順

1. 企業名データ作成 • 「株」を機関名に持つ先を企業として抽出

• 機関名情報を利用して可能な範囲で企業名を名寄せ

2. 予測対象の作成 • 機関名(g_cs1s)の論文番号をキーに共同研究ペアを作成

• 機関名が異なるペアのみを抽出して対象期間毎にペアの件数を集計

• 予測対象年とその前年の共同機関数の差分値を元に目的変数を作成

3. 説明変数の作成 • 論文数 企業が発表した論文件数

• 著者数 企業に所属する著者数:自社のみ(名寄せ済)

• 共著者数 自社や自社外の共著者数(名寄せ済)

• JST分類数 企業が発表した論文に付与された分野分類の件数

17

非発表資料

Page 18: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析プロセス : データ出力・イメージ

目的変数および説明変数

18

予測対象(目的変数)

FM:企業名 PY:予測対象年 Y: アライアンスが急増した先 X1:論文件数3年合計 X2:自社著者数 … Xn:社外共著者数

1 企業A 2006 1 12 3 5

2 企業A 2007 0 3 7 4

3 企業B 2006 1 5 9 3

5998 企業Z 2008 0 6 10 1

5999 企業Z 2009 0 8 11 2

6000 企業Z 2010 1 9 12 3

#

基本事項 説明変数

非発表資料

Page 19: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

Agenda

19

analysis output motivation

Page 20: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析結果:分析ターゲット

20

共同研究機関数

2008 2009 2010 2011

企業A

企業A 企業A 企業A

企業A

予測

時間

Page 21: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

21

分析結果:共同研究機関数のヒストグラム

共同研究機関数

頻度 次数分布のべき乗則(=スケールフリー性)

追加シグナルを見出したため、これをクラスタとみなし解析

Page 22: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

22

分析結果:共同研究機関数のヒストグラム

共同研究機関数

頻度

C4 C3 C2

C1

C1: 0 ~ 1

C2: 2 ~ 14

C3: 15 ~ 25

C4: 26 ~ 241

※共同研究機関数

%:翌年における同クラスタ停滞率

⇒ C3:遷移率最大

《クラスタの定義》

80.6%

88.6% 59.6% 80.2%

Page 23: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

分析結果:分析ターゲット

23

企業A

2008 2009 2010 2011 = 予測対象年

企業A 企業A 企業A

企業A

共同研究機関数

時間

C1

C2

C3

C4

共同研究機関数を4クラスタに分類し、クラスタ間遷移を分析

クラスタ間遷移:あり

クラスタ間遷移:なし

Page 24: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

24

共同研究機関数 (未来=予測対象年)

共同研究 機関数(現在)

C1(0~1) C2(2~14) C3(15~25) C4(26~241) 合計

C1(0~1) 3021 80.6% 701 18.7% 25 0.7% 1 0.0% 3748

C2(2~14) 260 9.5% 2433 88.6% 49 1.8% 3 0.1% 2745

C3(15~25) 7 2.6% 81 29.8% 162 59.6% 22 8.1% 272

C4(26~241) 1 0.4% 5 2.2% 39 17.2% 182 80.2% 227

合計 3289 3220 275 208 6992

分析結果:クラスタ間遷移表

%:翌年における同クラスタ停滞率

2003~2011分析

Page 25: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

25

共同研究機関数 (未来=予測対象年)

共同研究 機関数(現在)

C1(0~1) C2(2~14) C3(15~25) C4(26~241) 合計

C1(0~1) 3021 80.6% 701 18.7% 25 0.7% 1 0.0% 3748

C2(2~14) 260 9.5% 2433 88.6% 49 1.8% 3 0.1% 2745

C3(15~25) 7 2.6% 81 29.8% 162 59.6% 22 8.1% 272

C4(26~241) 1 0.4% 5 2.2% 39 17.2% 182 80.2% 227

合計 3289 3220 275 208 6992

分析結果:クラスタ間遷移予測

%:翌年における同クラスタ停滞率

2003~2011分析

翌年の上位クラスへの遷移(非連続的成長)を予測

Page 26: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

26

分析結果:クラスタ間遷移予測(精度評価)

【予測&評価】

識別機:SVM (RBF Kernel)

妥当性検証:10-Fold Cross Validation

【目的変数】

1. 滞在クラスタから上位クラスタへの遷移(2値変数)

【説明変数】 n:注目年(2005…2011)

1. 共同研究機関数(n)

2. JST分類件数(n) - JST分類件数(n-1)

3. 著者数(n) - 著者数(n-1)

Page 27: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

27

分析結果:クラスタ間遷移予測(精度評価)

Sensitivity Specificity

C1 ⇒ C2,C3,C4 0.69 0.68

C2 ⇒ C3,C4 0.86 0.65

C3 ⇒ C4 0.66 0.73

【予測精度】

高精度な予測が可能

Sensitivity = TP/(TP+FN)

Specificity = TN/(FP+TN)

Average: 0.74 0.69

Page 28: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

28

まとめと展望

【まとめ】 仮説1の検証

【今後の展望】

・ 企業の共同研究機関数には4つの非連続なクラスタが存在

・ クラスタ間の遷移(=非連続的成長)は高精度で予測可能

『共同研究の非連続的成長』 と 『企業の非連続的成長』の関係性に関する検証 (= 仮説2の検証)

① ベンチャー企業の新規上場(IPO)予測

② 上場企業における株価の非連続的上昇の予測

《 具体例:オープンデータの追加活用 》

Page 29: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

29

Appendix.1

Page 30: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

Appendix.1 :分析結果に基づく知見1

1. 『共同研究機関数(予測対象) - 共同研究機関数(現在)』

⇔ 『ストック系変数』 = 負の相関

2. 『共同研究機関数(予測対象) - 共同研究機関数(現在)』

⇔ 『フロー系変数』 = 正の相関

が全てのストック系変数およびフロー系変数で成立

30

各変数を「ストック系変数」、「フロー系変数」に分類

Page 31: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

31

Appendix.2

Page 32: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

32

確率勾配ブースティング(SGBM)による変数重要度の算出

Appendix.2 :分析結果に基づく知見2

# 変数名 ラベル 重要度

1 DX323 DX323_共著者数差(L2-L3) 11.22

2 STD30 STD30_標準偏差_共著者数 8.27

3 DX412 DX412_著者数差(L1-L2) 7.07

4 X41 X41_著者数(L1) 6.79

5 DX123 DX123_論文数差(L2-L3) 6.25

6 X22 X22_JST分類件数(L2) 5.77

7 Z14S Z14S_論文生産性② 4.77

8 X3S X3S_共著者数3年合計 4.54

9 X12 X12_論文件数(L2) 3.85

10 DX523 DX523_社外共著者数差(L2-L3) 3.05

※Top:10

Page 33: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

33

Appendix.3

Page 34: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

Appendix.3 :可視化

34

共同研究ネットワーク構造の可視化

⇒ Webアプリを作成 URL:https://drive.google.com/file/d/0Bzmic2AYGwWoVzFGUEJIWFUwNnc/edit?usp=sharing

※表示ページ上段の「プレビュー」ボタン押下で起動画面表示

PW = trendchecker

Page 35: 企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊

35

fin.

ご清聴、ありがとうございました