適性検査1 - kohshichuto.city-niigata.ed.jp · する班の意見をまとめるために,資料1~4をふまえて,自分の意見をカードに書き終 わったところです。
「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜...
-
Upload
keiichiro-ono -
Category
Data & Analytics
-
view
3.300 -
download
1
Transcript of 「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜...
「数字を見せろ」から 「コードを見せろ」へ
Show me your code, in addition to the numbers!
Keiichiro Ono (Twitter: @c_z) UC, San Diego
Department of Medicine
過程の透明性を確保したデータ可視化を目指す
Agenda 今日お話すること
自己紹介: 生物学と可視化
可視化実践者の目指すべきゴール
分野の壁を超える
結果の共有からプロセスの共有へ
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Keiichiro Ono
BackgroundBioinformatics
Computer ScienceWork
ResearchBioinformatics workflow
Visualization pipeline
Data
VisualizationNetworks
Other Biological Data
Integration
Molecular Interactions
Pathways
Annotations
Software Development
CytoscapeNeXO
Cyberinfrastructure
All kinds of small tools
Like
ArtKandinsky
Mondrian
Music
Electronica
TechnoMinimal
Detroit
Jazz
Sci-fiMovie
Novel
Life
US
San DiegoSan Francisco Bay Area
Los Angeles
Orange County
JapanGifu
Tokyo
Cytoscape: Open Source Platform for Network Analysis and Visualization
計算機科学 生物学
計算機科学 生物学
計算機科学 Bioinformatics
Bioinformatics?
ゲノムワイド関連解析
一塩基多型
エピジェネティクス
DNAマイクロアレイ
遺伝子オントロジーBALST
eQTL
パスウェイ解析
次世代シーケンサー
メタボロームトランスクリプトーム
?
Bioinformatics
https://flic.kr/p/5fJ4U4
>gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola virus/H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA ACTTATCATACAGGCCTTTGAAGCAGGTGTTGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTT TGTCTTCATCATGCGTACCAGGGAGATTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAG GGCACGGGTTCCGTTTTGAAGTCAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGT ATCTAGTGGAAAAAACATTAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCC GGTCAGTTTCTCTCCTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGA AGGTTCAAAGGCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGT AGGACACATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAA GGGATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCGTT TTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGTTCGTCT CCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACTCAGCTCCCTG GCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAATAATCTTGAGCATG GTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGGGAGTACCCTCGCAGGAGT AAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGCTGAGAAGCAACTCCAACAATAT GCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGAAAAGAAAATTCTTATGAACTTCCATC AGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTATGGTAACTCTAAGAAAAGAGCGCCTGGCCAA
Raw Data = Text
ISBN:978-0-596-00492-7
Data Visualization
Biology
Biology
Molecular Biology in 1 Min.
生命 = 精巧な分子機械
DNA mRNA Protein
Central Dogma
DNA Source Code
Protein Instance
DNA Source Code
Protein Instance
DNA 配列の類似
Sequence Similarity
Protein 機能の類似
Functional Similarity
http://www.plosgenetics.org/article/info%3Adoi%2F10.1371%2Fjournal.pgen.1000128
Model Organism
openworm.org
実験手法の革新
Illumina HiSeqX (http://systems.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/datasheet-hiseq-x-ten.pdf)
データ量の爆発配列: DNA / アミノ酸
タンパク質の三次元構造
分子間相互作用
SNPs (一塩基多型)
文献
解析と可視化への需要
膨大なデータ
http://www.ebi.ac.uk/fgpt/gwas/#
Costanzo et al. Science. 2010 Jan 22;327(5964):425-31
dx.doi.org/10.2210/rcsb_pdb/mom_2014_10
Biology
Data Visualization
Biology
Data Visualization
計算機を使った 可視化が目指すもの
What
可視化とは? もしくは「見る」ということ
世界
極大極小
世界
Powers of Tenby Charles and Ray Eames
Powers of Tenhttp://youtu.be/0fKBhvDjuy0
http://www.nikon.co.jp/channel/universcale/
http://learn.genetics.utah.edu/content/cells/scale/
極大極小
世界
極小
https://flic.kr/p/bk4yHS
https://flic.kr/p/iRtA9F
極小
極大
Hubble eXtreme Deep Fieldhttps://flic.kr/p/nyXrEr
https://flic.kr/p/5Sh9qb
Human Interactome (Source: irefindex)
データ可視化 = 光だけでは見えないものを見る
–Katy Börner
“Decision making in science, industry, and politics, as well as in daily life, requires that we make sense
of data sets representing the structure and dynamics of complex systems. Analysis, navigation,
and management of these continuously evolving data sets require a new kind of data-analysis and
visualization tool we call a macroscope”
Communications of the ACM, Vol. 54 No. 3, Pages 60-69 10.1145/1897852.1897871
–Katy Börner
“Decision making in science, industry, and politics, as well as in daily life, requires that we make sense
of data sets representing the structure and dynamics of complex systems. Analysis, navigation,
and management of these continuously evolving data sets require a new kind of data-analysis and
visualization tool we call a macroscope”
Communications of the ACM, Vol. 54 No. 3, Pages 60-69 10.1145/1897852.1897871
科学や産業、政治、更には日常生活における意思決定でも、複雑なシステムの構造やダイナミクスを表すデータセットを理解する必要がある。このような絶え間なく発展するデータセットを解析、ナビゲーション、そして管理するためには、我々が「マクロスコープ」と呼ぶ新たな可視化と解析のためのツールが必要である。
Macroscope?
Microscope 顕微鏡
Telescope 望遠鏡
極大極小
MacroscopeMicroscope 顕微鏡
Telescope 望遠鏡
極大極小
Microscope TelescopeMacroscope
「全体」を見渡す道具 =マクロスコープ =計算機ベースの可視化が目指すべき方向性
Why? なぜ可視化するのか?
–Tamara Munzner
“Visualization is suitable when there is a need to augment human capabilities
rather than replace people with computational decision-making methods.”
Visualization Analysis and Design. A K Peters/CRC Press, 10/2014.
可視化の利用は、(機械学習などの)計算機的手法で人を置き換える場合ではなく、 ヒトの能力を拡張して意思決定を行う必要がある時にこそ適切である。
意思決定のための ヒトの認知能力の拡張
可視化は機械で置き換えられない人による意思決定のために
How? ここまでの概念を念頭に置いた可視化を実際に作るには?
必要な知識
必要な知識• Human Computer Interaction
• Design
• Computer Science
• Domain Knowledge
• Software Engineering
• Cognitive Science
• Statistics
文化の違い• サイエンス
• ジャーナリズム
• ビジネス
• 教育
Science / Journalism 例:サイエンスとジャーナリズム
Similarity 公共性の高さ
透明性の重要度
可視化への需要
オープンデータセットの増加
Differences プロトコール共有の文化
データとコードの公開
厳密さに対する考え方
Exploratory / Presentation
サイエンスでの可視化• Exploratory
• 科学者が新たな知見を得るための可視化
• Presentation
• 論文で発表するための可視化
• 学会発表のための可視化
ジャーナリズムでの可視化
• Presentation
• 一般読者向けにデータを分かりやすく伝える
• Exploratory
• 有権者が意思決定(=投票等)するのを助ける
Is It Better to Rent or Buy? By MIKE BOSTOCK, SHAN CARTER and ARCHIE TSE
http://www.nytimes.com/interactive/2014/upshot/buy-rent-calculator.html
分野の壁を超える鍵
Openness
自分の専門知識/経験 をシェアする
• 文献
• ドメインに関する知識
• 実例
• 技術 - コード/ライブラリ/ツール
• ベストプラクティス
良き質問者になれ
結果の共有
😐
結果とプロセスの共有
😃
結果とプロセスの透明性
生成 解析 可視化
生成
生成
• データの収集
• 実験
• 調査
• 取材
生成 解析 可視化
解析
解析
• データの前処理
• クレンジング
• 機械可読性
• 統計解析
生成 解析 可視化
可視化
可視化
• デザイン
• メディアの決定
• ツールの選定
• コーディング
生成 解析 可視化
生成 解析
可視化
生成 ?
可視化
Openness for Every Step
「数字を見せる」 だけでは不十分
生成 解析 可視化
プロセス全体をオープンにする
How to Implement Openness? どのようにプロセスの
オープン性を実現するのか?
テクノロジーと文化の 両面から解決する
テクノロジーからの アプローチ
可視化技術のレイヤ
Source Code
Environment
Data
可視化技術のレイヤData
Source Code
Environment
Data
Source Code
The Need for Openness in Data Journalism
http://bit.ly/1ipxwXP
Brian Keegan, Ph.D.
Source Code
Environment
Data
Environment
Software Distribution Problem
- “It-worked-on-my-machine” syndrome
- 設定の複雑さとそれによる再現性の低下は透明性の敵
What is Docker?
- Container to run applications in an isolated environment
- Application = Layer of images
- Sharable Environments
- Environments as code
https://www.docker.com/whatisdocker/
Docker Hub
- Sharing environments as code!
- Dockerfile - Definition of your container
How Docker-nized World Works?
Container 1: IPython + SciPy Stack
Your Machine
Container 2: R + Bioconductor
Container 3: Neo4j
Your Machine
Container 1: IPython + SciPy Stack
Container 2: R + Bioconductor
Container 3: Neo4j
Your Machine
Container 1: IPython + SciPy Stack
Container 2: R + Bioconductor
Container 3: Neo4j
Source Code
Environment
Data
テクノロジーは揃いつつある
• データの管理
• ソースの履歴管理
• 解析環境の抽象化
• 柔軟性のある計算機リソース
分野を超えた知識の共有
Affordance
aesthetics
Design Pattern
Design Pattern 例:デザインパターン
暗黙知の文書化
Summary まとめと提言
再現可能なプロセスの ために今すぐできること
–Mike Bostock
“Make your process reproducible.”
技術的に過程を再現可能にする• Scaffolding
• テンプレート化
• Source Code Management
• 機械による履歴管理
• Build Automation
• 自動化
Prepare Data for Machines データは機械のために準備し
Write Code for Human コードは人間のために書く
競争すべきところは競争し 必要のない部分はオープンに
–Someone in my lab
“Human is lazy by nature”
–クレイグ・ベンター
“偉大なアイデアとは実行されたアイデアだ”
Thank you!
2014 Keiichiro Ono [email protected]
• このスライドでは一部WikipediaのPD画像を利用しています。
• リンクの無い画像は大野圭一朗によるもので、全てCC BY 4.0ライセンスにて自由に再利用可能です
• リンク付きの画像は全てCCの元配布されていますが、再利用にはリンク先のライセンスをご確認下さい。