「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜...

Post on 12-Jul-2015

3.300 views 1 download

Transcript of 「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜...

「数字を見せろ」から 「コードを見せろ」へ

Show me your code, in addition to the numbers!

Keiichiro Ono (Twitter: @c_z) UC, San Diego

Department of Medicine

過程の透明性を確保したデータ可視化を目指す

Agenda 今日お話すること

自己紹介: 生物学と可視化

可視化実践者の目指すべきゴール

分野の壁を超える

結果の共有からプロセスの共有へ

Keiichiro Ono

BackgroundBioinformatics

Computer ScienceWork

ResearchBioinformatics workflow

Visualization pipeline

Data

VisualizationNetworks

Other Biological Data

Integration

Molecular Interactions

Pathways

Annotations

Software Development

CytoscapeNeXO

Cyberinfrastructure

All kinds of small tools

Like

ArtKandinsky

Mondrian

Music

Electronica

TechnoMinimal

Detroit

Jazz

Sci-fiMovie

Novel

Life

US

San DiegoSan Francisco Bay Area

Los Angeles

Orange County

JapanGifu

Tokyo

Keiichiro Ono

BackgroundBioinformatics

Computer ScienceWork

ResearchBioinformatics workflow

Visualization pipeline

Data

VisualizationNetworks

Other Biological Data

Integration

Molecular Interactions

Pathways

Annotations

Software Development

CytoscapeNeXO

Cyberinfrastructure

All kinds of small tools

Like

ArtKandinsky

Mondrian

Music

Electronica

TechnoMinimal

Detroit

Jazz

Sci-fiMovie

Novel

Life

US

San DiegoSan Francisco Bay Area

Los Angeles

Orange County

JapanGifu

Tokyo

Keiichiro Ono

BackgroundBioinformatics

Computer ScienceWork

ResearchBioinformatics workflow

Visualization pipeline

Data

VisualizationNetworks

Other Biological Data

Integration

Molecular Interactions

Pathways

Annotations

Software Development

CytoscapeNeXO

Cyberinfrastructure

All kinds of small tools

Like

ArtKandinsky

Mondrian

Music

Electronica

TechnoMinimal

Detroit

Jazz

Sci-fiMovie

Novel

Life

US

San DiegoSan Francisco Bay Area

Los Angeles

Orange County

JapanGifu

Tokyo

Keiichiro Ono

BackgroundBioinformatics

Computer ScienceWork

ResearchBioinformatics workflow

Visualization pipeline

Data

VisualizationNetworks

Other Biological Data

Integration

Molecular Interactions

Pathways

Annotations

Software Development

CytoscapeNeXO

Cyberinfrastructure

All kinds of small tools

Like

ArtKandinsky

Mondrian

Music

Electronica

TechnoMinimal

Detroit

Jazz

Sci-fiMovie

Novel

Life

US

San DiegoSan Francisco Bay Area

Los Angeles

Orange County

JapanGifu

Tokyo

Cytoscape: Open Source Platform for Network Analysis and Visualization

計算機科学 生物学

計算機科学 生物学

計算機科学 Bioinformatics

Bioinformatics?

ゲノムワイド関連解析

一塩基多型

エピジェネティクス

DNAマイクロアレイ

遺伝子オントロジーBALST

eQTL

パスウェイ解析

次世代シーケンサー

メタボロームトランスクリプトーム

?

Bioinformatics

https://flic.kr/p/5fJ4U4

>gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola virus/H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA ACTTATCATACAGGCCTTTGAAGCAGGTGTTGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTT TGTCTTCATCATGCGTACCAGGGAGATTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAG GGCACGGGTTCCGTTTTGAAGTCAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGT ATCTAGTGGAAAAAACATTAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCC GGTCAGTTTCTCTCCTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGA AGGTTCAAAGGCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGT AGGACACATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAA GGGATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCGTT TTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGTTCGTCT CCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACTCAGCTCCCTG GCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAATAATCTTGAGCATG GTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGGGAGTACCCTCGCAGGAGT AAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGCTGAGAAGCAACTCCAACAATAT GCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGAAAAGAAAATTCTTATGAACTTCCATC AGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTATGGTAACTCTAAGAAAAGAGCGCCTGGCCAA

Raw Data = Text

ISBN:978-0-596-00492-7

Data Visualization

Biology

Biology

Molecular Biology in 1 Min.

生命 = 精巧な分子機械

DNA mRNA Protein

Central Dogma

DNA Source Code

Protein Instance

DNA Source Code

Protein Instance

DNA 配列の類似

Sequence Similarity

Protein 機能の類似

Functional Similarity

http://www.plosgenetics.org/article/info%3Adoi%2F10.1371%2Fjournal.pgen.1000128

Model Organism

openworm.org

実験手法の革新

Illumina HiSeqX (http://systems.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/datasheet-hiseq-x-ten.pdf)

データ量の爆発配列: DNA / アミノ酸

タンパク質の三次元構造

分子間相互作用

SNPs (一塩基多型)

文献

解析と可視化への需要

膨大なデータ

http://www.ebi.ac.uk/fgpt/gwas/#

Costanzo et al. Science. 2010 Jan 22;327(5964):425-31

dx.doi.org/10.2210/rcsb_pdb/mom_2014_10

Biology

Data Visualization

Biology

Data Visualization

計算機を使った 可視化が目指すもの

What

可視化とは? もしくは「見る」ということ

世界

極大極小

世界

Powers of Tenby Charles and Ray Eames

Powers of Tenhttp://youtu.be/0fKBhvDjuy0

http://www.nikon.co.jp/channel/universcale/

http://learn.genetics.utah.edu/content/cells/scale/

極大極小

世界

極小

https://flic.kr/p/bk4yHS

https://flic.kr/p/iRtA9F

極小

極大

Hubble eXtreme Deep Fieldhttps://flic.kr/p/nyXrEr

https://flic.kr/p/5Sh9qb

Human Interactome (Source: irefindex)

データ可視化 = 光だけでは見えないものを見る

–Katy Börner

“Decision making in science, industry, and politics, as well as in daily life, requires that we make sense

of data sets representing the structure and dynamics of complex systems. Analysis, navigation,

and management of these continuously evolving data sets require a new kind of data-analysis and

visualization tool we call a macroscope”

Communications of the ACM, Vol. 54 No. 3, Pages 60-69 10.1145/1897852.1897871

–Katy Börner

“Decision making in science, industry, and politics, as well as in daily life, requires that we make sense

of data sets representing the structure and dynamics of complex systems. Analysis, navigation,

and management of these continuously evolving data sets require a new kind of data-analysis and

visualization tool we call a macroscope”

Communications of the ACM, Vol. 54 No. 3, Pages 60-69 10.1145/1897852.1897871

科学や産業、政治、更には日常生活における意思決定でも、複雑なシステムの構造やダイナミクスを表すデータセットを理解する必要がある。このような絶え間なく発展するデータセットを解析、ナビゲーション、そして管理するためには、我々が「マクロスコープ」と呼ぶ新たな可視化と解析のためのツールが必要である。

Macroscope?

Microscope 顕微鏡

Telescope 望遠鏡

極大極小

MacroscopeMicroscope 顕微鏡

Telescope 望遠鏡

極大極小

Microscope TelescopeMacroscope

「全体」を見渡す道具 =マクロスコープ =計算機ベースの可視化が目指すべき方向性

Why? なぜ可視化するのか?

–Tamara Munzner

“Visualization is suitable when there is a need to augment human capabilities

rather than replace people with computational decision-making methods.”

Visualization Analysis and Design. A K Peters/CRC Press, 10/2014.

可視化の利用は、(機械学習などの)計算機的手法で人を置き換える場合ではなく、 ヒトの能力を拡張して意思決定を行う必要がある時にこそ適切である。

意思決定のための ヒトの認知能力の拡張

可視化は機械で置き換えられない人による意思決定のために

How? ここまでの概念を念頭に置いた可視化を実際に作るには?

必要な知識

必要な知識• Human Computer Interaction

• Design

• Computer Science

• Domain Knowledge

• Software Engineering

• Cognitive Science

• Statistics

分野の壁

https://flic.kr/p/2SqQe

文化の違い• サイエンス

• ジャーナリズム

• ビジネス

• 教育

Science / Journalism 例:サイエンスとジャーナリズム

Similarity 公共性の高さ

透明性の重要度

可視化への需要

オープンデータセットの増加

Differences プロトコール共有の文化

データとコードの公開

厳密さに対する考え方

Exploratory / Presentation

サイエンスでの可視化• Exploratory

• 科学者が新たな知見を得るための可視化

• Presentation

• 論文で発表するための可視化

• 学会発表のための可視化

ジャーナリズムでの可視化

• Presentation

• 一般読者向けにデータを分かりやすく伝える

• Exploratory

• 有権者が意思決定(=投票等)するのを助ける

Is It Better to Rent or Buy? By MIKE BOSTOCK, SHAN CARTER and ARCHIE TSE

http://www.nytimes.com/interactive/2014/upshot/buy-rent-calculator.html

https://flic.kr/p/6rUPaH

分野を超える協力

分野の壁を超える鍵

Openness

自分の専門知識/経験 をシェアする

• 文献

• ドメインに関する知識

• 実例

• 技術 - コード/ライブラリ/ツール

• ベストプラクティス

良き質問者になれ

結果の共有

😐

結果とプロセスの共有

😃

結果とプロセスの透明性

生成 解析 可視化

生成

生成

• データの収集

• 実験

• 調査

• 取材

生成 解析 可視化

解析

解析

• データの前処理

• クレンジング

• 機械可読性

• 統計解析

生成 解析 可視化

可視化

可視化

• デザイン

• メディアの決定

• ツールの選定

• コーディング

生成 解析 可視化

生成 解析

可視化

生成 ?

可視化

Openness for Every Step

「数字を見せる」 だけでは不十分

生成 解析 可視化

プロセス全体をオープンにする

How to Implement Openness? どのようにプロセスの

オープン性を実現するのか?

テクノロジーと文化の 両面から解決する

テクノロジーからの アプローチ

可視化技術のレイヤ

Source Code

Environment

Data

可視化技術のレイヤData

Source Code

Environment

Data

Source Code

The Need for Openness in Data Journalism

http://bit.ly/1ipxwXP

Brian Keegan, Ph.D.

Source Code

Environment

Data

Environment

Software Distribution Problem

- “It-worked-on-my-machine” syndrome

- 設定の複雑さとそれによる再現性の低下は透明性の敵

What is Docker?

- Container to run applications in an isolated environment

- Application = Layer of images

- Sharable Environments

- Environments as code

https://www.docker.com/whatisdocker/

Docker Hub

- Sharing environments as code!

- Dockerfile - Definition of your container

How Docker-nized World Works?

Container 1: IPython + SciPy Stack

Your Machine

Container 2: R + Bioconductor

Container 3: Neo4j

Your Machine

Container 1: IPython + SciPy Stack

Container 2: R + Bioconductor

Container 3: Neo4j

Your Machine

Container 1: IPython + SciPy Stack

Container 2: R + Bioconductor

Container 3: Neo4j

Source Code

Environment

Data

テクノロジーは揃いつつある

• データの管理

• ソースの履歴管理

• 解析環境の抽象化

• 柔軟性のある計算機リソース

分野を超えた知識の共有

Affordance

aesthetics

Design Pattern

Design Pattern 例:デザインパターン

暗黙知の文書化

Summary まとめと提言

再現可能なプロセスの ために今すぐできること

–Mike Bostock

“Make your process reproducible.”

技術的に過程を再現可能にする• Scaffolding

• テンプレート化

• Source Code Management

• 機械による履歴管理

• Build Automation

• 自動化

Prepare Data for Machines データは機械のために準備し

Write Code for Human コードは人間のために書く

競争すべきところは競争し 必要のない部分はオープンに

–Someone in my lab

“Human is lazy by nature”

–クレイグ・ベンター

“偉大なアイデアとは実行されたアイデアだ”

Thank you!

2014 Keiichiro Ono kono@ucsd.edu

• このスライドでは一部WikipediaのPD画像を利用しています。

• リンクの無い画像は大野圭一朗によるもので、全てCC BY 4.0ライセンスにて自由に再利用可能です

• リンク付きの画像は全てCCの元配布されていますが、再利用にはリンク先のライセンスをご確認下さい。