My Project

65
유전자 데이터 다루기 광우병에서 구글까지

Transcript of My Project

Page 1: My Project

유전자 데이터 다루기광우병에서구글까지

Page 2: My Project

전문가가 되어버리다

Page 3: My Project
Page 4: My Project

M/MMethionine=Met , Valine = Val

Page 5: My Project

영국인 은 40%한국 사람은 95%

Page 6: My Project

gtg/atg

Page 7: My Project

dbSNP

Page 8: My Project

단지 하나 차이일뿐인데...

Page 9: My Project

단일염기 다형성(SNP, Single Nucleotide

Polymorphism)

Page 10: My Project

모두 23쌍의 염색체를 지님인간은 누구나 서로 99.9%의 유전정보가 동일

Page 11: My Project

한 인구집단의 유전체에서 1% 이상의 빈도를 보이는 염기서열의 변이

대머리의 56%가 가족력 존재

22%가 유당분해효소 결핍증44%가 귓볼 존재 알츠하이머의 19%가 가족력 존재

Page 12: My Project

30억 염기쌍이라는 거대한 책의 색인을 작성

Page 13: My Project

인간 유전체 연구

Page 14: My Project

여자 3명, 남자 2명의 DNA 샘플을 시작으로 휴먼지놈프로

젝트 시작

Page 15: My Project

영국, 미국, 캐나다, 일본, 나이지리아 및 중국에서 약 200여 과학자들

아시아, 아프리카 및 미국에서 약 269명의 DNA표본을 이용

Page 16: My Project

1000명 유전체 프로젝트(1000 Genomes Project)

Page 17: My Project

한국인 만명에 대한...

Page 18: My Project

2003년 휴먼지놈프로젝트 $27억2004년 크레이그 벤터 박사 $1억2008년 왓슨 박사 $100만

5년후 $100

-MIT Technology Review 2008년 4월 17일 뉴스-

30억 염기서열 쌍이라는 대용량 데이터 생산과 분석이 현실

다른 오믹스(단백체, 발현체, 대사체 등) 정보와의 통합 분석을 구현할 시점

Page 19: My Project

점점 커져가는데...

Page 20: My Project

대량의 연구를 빠른 시간에...

SequencingMicroarrays

High throughput GenotypingPowerful ComputationLab Automation

Page 21: My Project

생물학 데이터에 대해서

Page 22: My Project

•1차원 배열 형태의 서열 데이터•다차원 배열 형태의 구조 데이터•매트릭스 형태의 발현 데이터•네트워크 형태의 상호작용 데이터•문서 형태의 텍스트 데이터

자료구조 관점

Page 23: My Project

서열 데이터DNA, RNA 등의 유전체 데이터

EST서열SNP 데이터

Page 24: My Project

구조 데이터단백질 3차 구조 데이터질량분석기 데이터

Page 25: My Project

발현 데이터마이크로어레이 데이터

array CGHChIP-chip

Page 26: My Project

네트워크 형태pathway

protein interaction

Page 27: My Project

텍스트 데이터논문, 문헌정보

Page 28: My Project

유전체 연구

Page 29: My Project

DatabaseHardware

Agent

Machine LearningAlgorithm

InformationRetrieval

IT와 유전체 연구

Genomic Variation Research

Personalized Medicine

GeneBankSWISS-PROT

Super ComputerCluster

ClusteringPattern recognition

Classfication

Sequence alignment

Biomedical text analysis

Information filteringMonitoring agent

Personal Genome

Page 30: My Project

Sequence Alignment-Simulated Annealing-Genetic Algorithms

Structure and Function Prediction-Hidden Markov Models-Multilayer Perceptrons-Decision Trees

Molecular Clustering and Classification

-Support Vector Machines-Nearest Neighbor Algorithms

Expression Analysis-Self-Organizing Maps-Bayesian Networks

Machine Learning

Toby SegaranBiotech software company

Page 31: My Project

Sequence Search with MPI

Page 32: My Project

GPU를 이용한 병렬 서열 정렬

Page 33: My Project

웹서비스를 이용한 생물학 매쉬업(Taverna, Myexperiment)

Page 34: My Project

컴퓨팅 파워 제공(Folding@Home, Korea@Home)

Page 35: My Project

집단지성을 이용한 퍼즐 맞추기 - foldit

Page 36: My Project

시맨틱웹(FreeBase)

Page 37: My Project

유전체 연구 플랫폼

50만개의 SNP Porbe를 포함하고 있는 Affymetrix Genome-Wide Human SNP Assay 5.0

고밀도 SNP array

Page 38: My Project

Multidimensional Scaling(MDS)북부및서유럽(CEU), 나이지라아계열(YRI), 일본계(JPT), 중국한족(CHB)

Page 39: My Project

한국인 SNP2,978개의 유전자에 대한12,995개의 SNP

KARE로 생산된 9,603명(Genotype 데이터 18GB)후속 13,000명 생산중

Page 40: My Project

임상, 역학 데이터

12개 질환군별 센터(심혈관, 뇌신경질환, 당뇨, 피부, 불임, 선천성 기형 등등)안산(대도시), 안성(농촌) 코호

트 등등

Page 41: My Project

질병 관련 연관성 연구

정상, 환자의 시료를 이용한 표현형(phenotype)에 연관된 SNP 발굴

질환가계 및 질환형제자매를 이용한 연구

Page 42: My Project

역학 정보 변수

Page 43: My Project

KSNP(Korean SNP) Browser

Page 44: My Project

질병 예측

Page 45: My Project

Genome Browser with Google Maps API

Page 46: My Project

BioBlogRSS: 전세계의 생물학 블로거

Page 47: My Project

모든것은 바로 컴퓨터의 힘!SimulationData AnalysisData AcquisitionData ManagementData Archiving

->Scientific Results, PublicationData Integration

Knowledge ManagementCollaboration

Page 48: My Project

유전체센터의 컴퓨팅파워

18 Node IA2 Cluster 32 Node X86 Cluster

100 Node PPC Cluster

NAS, DAS Storage

Workstation

Page 49: My Project

해결 해야 할 문제점

Page 50: My Project

단일 플랫폼

Capacity & Size 증가데이터 생산의 가속화

데이터 부족

Page 51: My Project

다중 플랫폼

비용 문제지리적 문제

협업을 통한 시너지 창출컴퓨팅 리소스

누구도 접근해보지 못한

Page 52: My Project

...ATTAGGACCAATAAGTCT...

...ATTAGGAGCAATAAGTCT...

...ATTAGGAGCAATAACTCT...

...ATTAGGAGCAATAAGTCT...

Person 1 +

Person 2 -

Single locus Pair of locii

(+,-)Cost = 0.5M x 5k x 10k

(+,-)Cost = 1/2 x 0.5M x 0.5M x 5k x 10k

0.5M SNP, cohort of 5K individuals, 10k random data set

1 day 120 yr

Computational problem

Text

Page 53: My Project

기상청

지역별 관측소 자료 + 작년도 오늘 날씨 =

내일 비올 확률 40%

Page 54: My Project

Realistic Solution

머리카락 + 몸무게 + 키 + 음주습관=

다음주 당뇨

Page 55: My Project

구글과 생명 공학의 만남

Page 56: My Project

Google Health BETA

Page 57: My Project

SNP 정보

Page 58: My Project

유전자 정보

Page 59: My Project

나는 누구인가?

Page 60: My Project

얼마나 유사한가?

Page 61: My Project
Page 62: My Project

원하는것은?

Page 63: My Project

Google 검색엔진 -> Google 플랫폼Nutch 검색엔진 -> Hadoop 플랫폼

분석도구의 손쉬운 접근새로운 알고리즘의 개발과 적용대용량의 데이터의 접근

->생물학 데이터 처리를 위한 플랫폼

Page 64: My Project

플랫폼 그 이상의 플랫폼

모든 연구자들이 아무런 댓가 없이자신의 연구를 수행하고

서로의 의견을 교류 할 수 있는 그런...

Page 65: My Project

!"#$%&'()*!'+,-.#&!"#"$%&"'()*&$+,-.#/,'(

/++0122"3#4-!'5*"#$%&'(-(*+

!"0*$1,.23"'

4.*(#/,'(5Questions?

Hong ChangBumCenter for Genome ScienceNIH, [email protected]://socmaster.homelinux.org/~hongiiv