基調講演:「多様化する情報を支える技術」/西川徹
-
Upload
preferred-infrastructure-preferred-networks -
Category
Documents
-
view
3.801 -
download
0
description
Transcript of 基調講演:「多様化する情報を支える技術」/西川徹
![Page 2: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/2.jpg)
セミナー内容のツイート大歓迎!
ハッシュタグ
#pfiopen2012
2
![Page 3: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/3.jpg)
自己紹介&会社紹介
3
![Page 4: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/4.jpg)
自己紹介
2006年 Preferred Infrastructure(PFI)を創業 - 大学の友人、ICPCの仲間と6名で起業
- 最初は検索エンジンの開発を進める
現在、代表取締役として
会社の経営に関わる
4
![Page 5: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/5.jpg)
朝9時の社内風景
5
![Page 6: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/6.jpg)
PFIのビジョン:PFIはどのような会社か?
テクノロジーとサービス・プロダクトとの間のギャップを埋め テクノロジーが持つポテンシャルを最大限に引き出すこと
研究ベースの技術が想定しているものと実世界には大きな壁が存在する
アカデミックの第一線で研究しているリサーチャーと、アカデミックな研究を理解し、実装・実用化できるエンジニアを集合させる
世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する
解を提供していくこと
6
Basic Technologies
Academic Researches
Products
Services
![Page 7: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/7.jpg)
ビジョンを達成するために
ベンチャーキャピタルに頼らない ⁃ 研究は多くのチャレンジがあって、よい研究ができる。製品開
発も同じ。多くのベンチャーキャピタルは、そのチャレンジを
表面的にしか許容しない。
製品に繋がるビジネスにこだわる ‒ フルスクラッチでの受託開発は行わない。
技術の多様性・人の多様性を重要視する ⁃ 1人では全分野を把握することは難しい。チーム・組織として
の生産性を重要視する。もちろん、個々の能力がとても優れて
いる上で。
7
![Page 8: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/8.jpg)
PFIの技術領域・ビジネス(概要)
1.製品開発・販売
Sedue/Bazil/Jubatusというプロダクトを提供
2.研究開発
自然言語処理 情報検索 データマイニング 機械学習 分散システム データ構造、データ圧縮 Big Dataへの取り組み
8
![Page 9: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/9.jpg)
“人”が生み出すデータと
“機械”が生み出すデータ
9
![Page 10: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/10.jpg)
大規模な「データ」に立ち向かうための、 様々な技術が発展しつつある
10
• 複雑なWeb
• 構造化されていない情報
• 人が書いたコンテンツ
• 大量の情報
中田敦氏 「“ビッグデータ”が話題になった理由」
![Page 11: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/11.jpg)
11
桑名栄二氏 「BigData処理技術とサイバーセキュリティ」
![Page 12: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/12.jpg)
データ活用の2つの潮流
12
![Page 13: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/13.jpg)
「人」が生み出すデータを
活用する技術
13
![Page 14: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/14.jpg)
![Page 15: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/15.jpg)
![Page 16: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/16.jpg)
情報検索技術と大規模データ
大規模データに対し,自由にアクセスできる格納手段・インデックス手法が必要
分散システムが必須だが、それをできるだけ管理に利用可能にする
データの大規模化だけでなく、多様化にも対応していく 「グローバル化する情報処理」
![Page 17: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/17.jpg)
データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」
「ためる」「取り出す」だけでは不十分
ウェブ検索やECサイトは、多大なコストをかけてデータを整理している
‒ データを「整理」することは、自明ではない。
‒ データ整理のコストが高いために、ほとんどの企業内検索エンジン
は十分に活用されていない。
17
![Page 18: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/18.jpg)
「整理」が面倒だから情報共有がうまくいかず、 情報検索がうまく機能しない
アップロードの手間は、無視できない
社内での情報共有の場合は、どこに、どのようなメタ情報をつけアップロードするかを考えて、アップロードす
る必要がある
それを考えるのはめんどくさい、、、 →形だけの情報共有になってしまう
18
情報アップロードを加速するために、 技術で支援する
![Page 19: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/19.jpg)
19
文書をアップロードしたい!
![Page 20: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/20.jpg)
20
アップロードしたいファイルを、 ブラウザにドラッグ&ドロップ
![Page 21: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/21.jpg)
21
どこのフォルダ・サーバーに配置すべきか、ツールが自動的に判断
![Page 22: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/22.jpg)
22
文書に付与されるべきタグを 自動的に判断して付与する
![Page 23: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/23.jpg)
「機械」が生み出すデータを活用する技術
23
![Page 24: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/24.jpg)
データの大規模化と共に解析の高度化が重要に
Complex Event Processing(センサデータ等のリアルタイム処理)
大規模データウェアハウス・Hadoop(分散処理)では、集計・ルール
処理・単純な統計処理が主要な利用方法
より高度な解析(分類・予測・マイニング)へシフト
差別化要素として機械学習・統計の高度な解析の導入が重要
- 機械学習の利用は当たり前になってきた
![Page 25: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/25.jpg)
一方、デバイスの性能向上により 集まるデータは爆発的に増加する
25
【次世台シーケンサー】 ゲノムデータなど
【生体情報モニター】 心拍数、血圧、体温など
【モバイル】 音声データ、位置情報、
メールのテキスト情報など
【監視カメラ】 動画、静止画などの画像データ
丸山宏氏 「ITアーキテクチャはどこへ向かうのか」
![Page 26: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/26.jpg)
2つの課題を解決するには?
データをすべて集めることは不可能
高度な分析を、省スペース・少ない計算量で 実現する必要がある
26
![Page 27: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/27.jpg)
分析処理のオンライン化・ストリーム化
27
![Page 28: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/28.jpg)
28
大規模・リアルタイムな機械学習を実現する
![Page 29: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/29.jpg)
データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」
理想的なアーキテクチャ
29
![Page 30: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/30.jpg)
まとめとこれからの展望
30
![Page 31: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/31.jpg)
まとめ
ウェブの技術は、大規模データを活用するための技術を大きく進展させた ‒ その対象の大部分は、人が作り出したデータ
近年のビッグデータブームで、機械が生み出すデータに
も注目が集まっている ‒ データをとる仕組みは前からあったが、それを大量に集めると
ウェブで起きたような Something Great ができるかもという
期待感
31
![Page 32: 基調講演:「多様化する情報を支える技術」/西川徹](https://reader036.fdocument.pub/reader036/viewer/2022062319/5564e147d8b42afb268b4623/html5/thumbnails/32.jpg)
まとめ
人が生み出すデータと機械が生み出すデータは、データの性質も生成されるスループットも異なる ‒ 必要な技術は異なり、課題も当然異なる
人が生み出すデータは、格納することは容易になった
しかし、どうやって整理するかは大きな課題 ‒ だから、エンタープライズ検索もうまくいかない
機械が生み出すデータは、Edge-Heavyになりつつある ‒ 貯めずにリアルタイムに処理をする、データを生のまま交換し
ない、ということがキーとなる
32