MapR Hadoop M7 in CyberAgent AdTech Studio

28
MapR Hadoop M7 in CyberAgent AdTech Studio 2016 April 4th CyberAgent, Inc. All Rights Reserved

Transcript of MapR Hadoop M7 in CyberAgent AdTech Studio

Page 1: MapR Hadoop M7 in CyberAgent AdTech Studio

MapR Hadoop M7in CyberAgent AdTech Studio

2016 April 4th

CyberAgent, Inc. All Rights Reserved

Page 2: MapR Hadoop M7 in CyberAgent AdTech Studio

自己紹介

Page 3: MapR Hadoop M7 in CyberAgent AdTech Studio

Ken Takao株式会社サイバーエージェント

アドテク本部 技術戦略部 技術戦略室

Central Infrastructure Agency

Infra Manager

アドテク本部の技術ボードメンバー

として分析基盤の構築や推進を行ってます。

Page 4: MapR Hadoop M7 in CyberAgent AdTech Studio

サイバーエージェントとは?

Page 5: MapR Hadoop M7 in CyberAgent AdTech Studio

OUR VISION当社は1998年の創業以来、インターネットを軸に事業を展開し、

現在では当社の代表的なサービスである「Ameba」をはじめ、ス

マートフォン向けに多数のコミュニティサービスやゲームを提供

しています。2011年よりスマートフォン事業へ経営資産を大きく

シフトし、2014年9月期には売上高の約7割がスマートフォン事

業に転換。変化対応力を強みに事業拡大を続けております。

Ameba事業は、先行投資期から収穫期に移行。インターネット

広告事業においては、スマートフォン広告市場の約3割を取り扱

い、インターネット広告市場国内ナンバーワンのシェアを拡大

し、アドテクノロジー分野や動画広告など、新しい広告手法にも

積極的に取り組んでおります。2009年から展開するゲーム事業

においても、ネイティブゲームにて複数本のヒットタイトルが出る

など、国内有数のゲーム事業へ成長いたしました。

Page 6: MapR Hadoop M7 in CyberAgent AdTech Studio

タイトル TITLE

Page 7: MapR Hadoop M7 in CyberAgent AdTech Studio

タイトル TITLE

Page 8: MapR Hadoop M7 in CyberAgent AdTech Studio

アドテクスタジオとは?

Page 9: MapR Hadoop M7 in CyberAgent AdTech Studio
Page 10: MapR Hadoop M7 in CyberAgent AdTech Studio
Page 11: MapR Hadoop M7 in CyberAgent AdTech Studio
Page 12: MapR Hadoop M7 in CyberAgent AdTech Studio

200名以上のエンジニア

20以上の広告システム

1000台以上の物理サーバー GCP,AWS,

IDCF Cloudなどマルチクラウド

10PB以上のデータ基盤

数百TBのデータウェアハウス

Page 13: MapR Hadoop M7 in CyberAgent AdTech Studio

Hadoop Platform in AdTech Studio

Page 14: MapR Hadoop M7 in CyberAgent AdTech Studio

アドテクスタジオのHadoop現在10以上のHadoopクラスターが存在

・広告のレポート集計基盤

・アドホックなデータ分析

・巨大データストレージ

Page 15: MapR Hadoop M7 in CyberAgent AdTech Studio

アドテクならではの要件

・想定容量10PB

・レイテンシー5ms以内

・構築期間2カ月

Page 16: MapR Hadoop M7 in CyberAgent AdTech Studio

アドテクならではの要件

・想定容量10PBクラウドだと2TBのディスクが24本のるサーバーが625台必要

・レイテンシー5ms以内HBaseだとGCのタイミングでレイテンシー悪化

・構築期間2カ月検証や構築、運用テストなど行うとギリギリ。

Page 17: MapR Hadoop M7 in CyberAgent AdTech Studio

購入したサーバー

HP ProLiantSL4540 Gen8

Page 18: MapR Hadoop M7 in CyberAgent AdTech Studio

なんとDiskが60本搭載可能

1台あたり0.36PB(6TBx60本)

Page 19: MapR Hadoop M7 in CyberAgent AdTech Studio

大量に購入

10PB!

Page 20: MapR Hadoop M7 in CyberAgent AdTech Studio

トピック

高密度型サーバーを活用し、容量を確保する一方でコストを削減

高密度型サーバーを使い切るMAPRのパフォーマンス

IOが高速化すればするほど伸びるパフォーマンス

Page 21: MapR Hadoop M7 in CyberAgent AdTech Studio

MAPR HadoopとDWHの連携

ログデータなど大規模なデータ量のファイルをMAPR-FSに集約。

DWHでMAPR-FSをPOSIX CLIENTでマウントし、超高速にデータをインポートし、必要な時だけデータを入れて集計

Page 22: MapR Hadoop M7 in CyberAgent AdTech Studio

DWHでデータを読み込むときのMAPR Hadoop側の転送スピード

Page 23: MapR Hadoop M7 in CyberAgent AdTech Studio

Result・約1TBのデータを30分程度でHadoopからDWHにIMPORT。超高速なデータ集計基盤に!

・MAPR-FSではNFSでのマウントが可能となり、データのログ転送

回りのフローが大幅に簡略化!

・ただのストレージではなく、Hadoopコマンドが利用可能!

・ストレージ容量が10PBなので、今までデータ量を気にして消して

いたファイルも気兼ねなく保存し続けることが可能に。

・これによりデータを活用して配信に活用するスパンが短くなり、広

告効果が向上。

Page 24: MapR Hadoop M7 in CyberAgent AdTech Studio

今後の展望

Page 25: MapR Hadoop M7 in CyberAgent AdTech Studio

今後の展望

・アドテクにはリアルタイム性が必要

・より新しいデータをリアルタイムに活用したい

・コンバージド・データ・プラットフォームとして

機能追加された「MapR Streams」の活用を

検討中

Page 26: MapR Hadoop M7 in CyberAgent AdTech Studio

Next Level

Page 27: MapR Hadoop M7 in CyberAgent AdTech Studio

Project Ganesha共通Hadoopクラスタとそれを取り巻くデータ処理環境を構築予定

ターゲット -個々に管理していたHadoopクラスタを集約することで  リソースの効率化を行う -遊休リソースを分析業務に再分配

Page 28: MapR Hadoop M7 in CyberAgent AdTech Studio

Project Ganeshaの全体像

Matrix

各システム

ストリーミング基盤

ログ

データ基盤