JAWS-UG Nagoya 20130406 物体認識システムを支えるAWS
-
Upload
youhei-yamaguchi -
Category
Documents
-
view
5.779 -
download
3
description
Transcript of JAWS-UG Nagoya 20130406 物体認識システムを支えるAWS
有限会社 来栖川電算 山口陽平 JAWS-UG NAGOYA 2012.4.6
好きなAWSサービス:cr1.8xlarge
AWS Simple Icons for Architecture Diagrams
自己紹介
来栖川電算におけるAWS活用事例
物体認識システムを支えるAWS
物体認識とは
AWSを活用した機械学習環境
AWSを活用した物体認識サービス
1000sors.com
宣伝
参考文献
あじぇんだ
自己紹介
必要なら何でも徹底的にやる研究者
プログラミング言語・データベース・分散
アルゴリズム・機械学習・CV・自然言語
名古屋工業大学出身・未踏ソフトウェア経験
世界を美しく記述することを夢見る34歳
人を驚かせるのが好き
ハードリアルタイムJavaVM
1000台越え構成のペタバイト分散DB
秒間1000万クエリ処理できるKVS
超多クラス対応の超高速物体認識エンジン
山 口 陽 平 @melleo1978
※あくまでもイメージです。 実物に髪の毛はありません。
概要:10周年! 名古屋工業大学発ベンチャー(2003年)
目的:ロボの頭脳を作る 知的インターフェイスによる社会の変革
ソフトウェアの品質・生産性の向上
スタッフ:27人 役員3人・正社員8人・アルバイト9人
データ作成6人・家政婦1人
IPA未踏ソフトウェア経験者多数
社風:難しことを楽しく 職人,挑戦,自由,昼食・夕食・飲み会は無料
来栖川電算
弊社が目指すロボ ※写真はあくまでもイメージです。
知的インターフェイスで、よりユーザのそばへ。
来栖川電算の事業戦略
来栖川電算における AWS活用事例
来栖川電算の開発環境update!
データマイニング環境:大学病院用・広告企業用・組込企業用・ECサイト用new!
オンライン機械学習フレームワーク用試験環境new!
文字認識サービス:タンゴチュウ for Twitter / forEvernote / Mobile
物体認識サービス:ShotSearchnew!・ECサイト用new!・教育機関用new!
モーション認識サービス:毎朝体操診断new!(近日リリース予定)
機械学習&認識サービス:機械学習パイプライン・1000sors.comnew!(近日リリース予定)
猛烈に増えてるよ!
来栖川電算におけるAWS活用事例
来栖川電算の開発環境
誰でも、いつでも、どこでも同じ環境で開発可能
全ての情報をサーバへ蓄積・いつでも復元可能
来栖川電算におけるAWS活用事例
来栖川電算の開発環境
EC2によりユーザ・お客様への提供手続きが簡素化
スクリプトによりデータ量を減らしつつ一貫性を維持
データ作成などの複雑なタスクのサポートが容易に
Glacierによるバックアップで経費節約
Hadoopによる冗長化で高アベイラビリティ
Pig+UDFにより手軽で自由な分析をサポート
来栖川電算におけるAWS活用事例
大学病院用データマイニング環境
最新手法でビッグデータを分析し、ニーズ・施策の発掘
分析期間・分析対象は何十倍にも増える予定
来栖川電算におけるAWS活用事例
広告企業用データマイニング環境
様々なアルゴリズムが並列計算に対応し始めている。
スポットでしか分析しないなら AWS は非常に安い。
来栖川電算におけるAWS活用事例
組込企業用データマイニング環境
Hadoopによる冗長化で高アベイラビリティ
Pig・hBase・MapReduceによるリアルタイム集計
来栖川電算におけるAWS活用事例
ECサイト用データマイニング環境
深夜に緩和申請して、寝て起きたら使えるようになってた。中の人の対応がはやい!
来栖川電算におけるAWS活用事例
オンライン機械学習 フレームワーク用試験環境
Twitterのタイムラインが文字認識ジョブのキューとなる。 タイムラインのクロールだけなので負荷の心配はない。
来栖川電算におけるAWS活用事例
タンゴチュウ for Twitter
Evernoteのノートでジョブを管理する。
人手によるポーリングなので負荷がかかりにくい。
来栖川電算におけるAWS活用事例
タンゴチュウ for Evernote
受付サーバをELBでスケール
アウト
画像処理に時間がかかる
受付サーバが各種SNSへアクセス
スマホからの通信を減らす
スマホへデータを返すときはzip化
認識サーバと受付サーバは別々に増減可能
認識に時間がかかることがある
来栖川電算におけるAWS活用事例
タンゴチュウ Mobile
文字認識のための大規模機械学習 30タスク(8段) 4~5日/回(普通のcore i7マシン) cc2.8xlargeのSPOTで節約(時間:1/4,費用:1/2) ※1時間以内にセーブポイントまで進める工夫が必要
来栖川電算におけるAWS活用事例
機械学習パイプライン
物体認識システム を支えるAWS
物体認識とは
画像の中に写っている物体の名称や姿勢を推定
ShotSearch:表紙画像 ⇒ 発売日確認・口コミ確認
通販アプリ:パッケージ画像 ⇒ 在庫確認・注文
しおりアプリ:ページ画像 ⇒ メモ確認・QA確認
物体認識とは
データが多い&時間がかかる
たくさんの写真を撮影(1TBになることも)
たくさんの画像に対して教師を作成
たくさんの画像から辞書を作成
巨大な辞書を何台ものサーバへ配備
たくさんの画像を使って精度を検証
上記を何度も繰り返す
物体認識とは:開発者目線
S3上に構築した分散ファイルシステムに全てを格納 画像・教師・設定・スクリプト・辞書・レポート・ログ
バッチ的なシステムのためのファイルシステムはすぐ作れる
AWSを活用した 機械学習環境
SWSとCloudFormationを組み合わせれば、物体認識サービスに必要なインスタンス群を簡単に制御可能
AWSを活用した 物体認識サービス
さっきの機械学習環境・物体認識サービスをセットにした認識クラウドサービス(近日リリース予定) 画像と教師をアップロードするだけで、すぐに物体認識サービスが作れる
抜群に性能がよい 数十~百万枚でも1秒未満の処理時間 もちろん普通のマシンで
数十万種類の分類精度が99%付近 ありがちな条件下で達成
きめ細かいトレードオフが可能 他社のではできなくても、うちのならやれる
1000sors.com
宣伝
時間があれば
写真をとって@tcfoxへつぶやくと文字認識するぞ!
Androidアプリ:写真をevernoteへ送信(ついでに文字認識)
Twitterとfacebookへも投稿するぞ。
Mobile版
本の表紙を撮影して、発売日や口コミをチェック!
ShotSearch
よく似ていてもイケル
毎朝体操診断アプリ
ラジオ体操のモーションを認識
スマホを手に持って踊るだけ
慣性センサーの情報から推定
毎朝体操診断アプリの開発を通して学べるよ!
機械学習の基礎
各種アルゴリズムの実装と実験
時系列データからの特徴抽出手法
仮説検証
結果とデータ・特徴・アルゴリズムの関係
機械学習を使った分析
成功へ導くための計画
人間と機械の協調の設計
自動的な教師の収集
適切な目標設定
データサイエンティスト養成カリキュラムあるぞ
気軽にオフィスへ遊びに来てね!
連絡があれば、見学できて、ご飯も食べれて、泊まれる。
スタッフ募集中!
名古屋本社(2013年フロア増設)
イオン千種・名大病院・名工大の近く
上野支社(2012年開設)
入谷駅・鶯谷駅・上野駅の近く
参考文献
リンクとか
来栖川電算
http://kurusugawa.jp/
タンゴチュウ(情景画像文字認識)
http://tangochu.jp/
ShotSearch
https://play.google.com/store/apps/details?id=jp.kurusugawa.teamR.shotsearch
参考文献
AWS Simple Icons for Architecture Diagrams http://aws.amazon.com/jp/architecture/icons/
変ゼミのロゴジェネレータ
http://bkaclub.web.fc2.com/henzemi_gen.html
ICON HOIHOI
http://iconhoihoi.oops.jp/
イラスト無料素材 こどもや赤ちゃんのイラストわんパグ
http://kids.wanpug.com/
素材たち 使わせて頂き、ありがとうございます!
ご清聴ありがとうございました