My Project

유전자 데이터 다루기광우병에서구글까지

전문가가 되어버리다

M/MMethionine=Met , Valine = Val

영국인 은 40%한국 사람은 95%

gtg/atg

단지 하나 차이일뿐인데...

단일염기 다형성(SNP, Single Nucleotide

Polymorphism)

모두 23쌍의 염색체를 지님인간은 누구나 서로 99.9%의 유전정보가 동일

한 인구집단의 유전체에서 1% 이상의 빈도를 보이는 염기서열의 변이

대머리의 56%가 가족력 존재

22%가 유당분해효소 결핍증44%가 귓볼 존재 알츠하이머의 19%가 가족력 존재

30억 염기쌍이라는 거대한 책의 색인을 작성

인간 유전체 연구

여자 3명, 남자 2명의 DNA 샘플을 시작으로 휴먼지놈프로

젝트 시작

영국, 미국, 캐나다, 일본, 나이지리아 및 중국에서 약 200여 과학자들

아시아, 아프리카 및 미국에서 약 269명의 DNA표본을 이용

1000명 유전체 프로젝트(1000 Genomes Project)

한국인 만명에 대한...

2003년 휴먼지놈프로젝트 $27억2004년 크레이그 벤터 박사 $1억2008년 왓슨 박사 $100만

5년후 $100

-MIT Technology Review 2008년 4월 17일 뉴스-

30억 염기서열 쌍이라는 대용량 데이터 생산과 분석이 현실

다른 오믹스(단백체, 발현체, 대사체 등) 정보와의 통합 분석을 구현할 시점

점점 커져가는데...

대량의 연구를 빠른 시간에...

SequencingMicroarrays

High throughput GenotypingPowerful ComputationLab Automation

생물학 데이터에 대해서

•1차원 배열 형태의 서열 데이터•다차원 배열 형태의 구조 데이터•매트릭스 형태의 발현 데이터•네트워크 형태의 상호작용 데이터•문서 형태의 텍스트 데이터

자료구조 관점

서열 데이터DNA, RNA 등의 유전체 데이터

EST서열SNP 데이터

구조 데이터단백질 3차 구조 데이터질량분석기 데이터

발현 데이터마이크로어레이 데이터

array CGHChIP-chip

네트워크 형태pathway

protein interaction

텍스트 데이터논문, 문헌정보

유전체 연구

DatabaseHardware

Agent

Machine LearningAlgorithm

InformationRetrieval

IT와 유전체 연구

Genomic Variation Research

Personalized Medicine

GeneBankSWISS-PROT

Super ComputerCluster

ClusteringPattern recognition

Classfication

Sequence alignment

Biomedical text analysis

Information filteringMonitoring agent

Personal Genome

Sequence Alignment-Simulated Annealing-Genetic Algorithms

Structure and Function Prediction-Hidden Markov Models-Multilayer Perceptrons-Decision Trees

Molecular Clustering and Classification

-Support Vector Machines-Nearest Neighbor Algorithms

Expression Analysis-Self-Organizing Maps-Bayesian Networks

Machine Learning

Toby SegaranBiotech software company

Sequence Search with MPI

GPU를 이용한 병렬 서열 정렬

웹서비스를 이용한 생물학 매쉬업(Taverna, Myexperiment)

컴퓨팅 파워 제공(Folding@Home, Korea@Home)

집단지성을 이용한 퍼즐 맞추기 - foldit

시맨틱웹(FreeBase)

유전체 연구 플랫폼

50만개의 SNP Porbe를 포함하고 있는 Affymetrix Genome-Wide Human SNP Assay 5.0

고밀도 SNP array

Multidimensional Scaling(MDS)북부및서유럽(CEU), 나이지라아계열(YRI), 일본계(JPT), 중국한족(CHB)

한국인 SNP2,978개의 유전자에 대한12,995개의 SNP

KARE로 생산된 9,603명(Genotype 데이터 18GB)후속 13,000명 생산중

임상, 역학 데이터

12개 질환군별 센터(심혈관, 뇌신경질환, 당뇨, 피부, 불임, 선천성 기형 등등)안산(대도시), 안성(농촌) 코호

트 등등

질병 관련 연관성 연구

정상, 환자의 시료를 이용한 표현형(phenotype)에 연관된 SNP 발굴

질환가계 및 질환형제자매를 이용한 연구

역학 정보 변수

KSNP(Korean SNP) Browser

질병 예측

Genome Browser with Google Maps API

BioBlogRSS: 전세계의 생물학 블로거

모든것은 바로 컴퓨터의 힘!SimulationData AnalysisData AcquisitionData ManagementData Archiving

->Scientific Results, PublicationData Integration

Knowledge ManagementCollaboration

유전체센터의 컴퓨팅파워

18 Node IA2 Cluster 32 Node X86 Cluster

100 Node PPC Cluster

NAS, DAS Storage

Workstation

해결 해야 할 문제점

단일 플랫폼

Capacity & Size 증가데이터 생산의 가속화

데이터 부족

다중 플랫폼

비용 문제지리적 문제

협업을 통한 시너지 창출컴퓨팅 리소스

누구도 접근해보지 못한

...ATTAGGACCAATAAGTCT...

...ATTAGGAGCAATAAGTCT...

...ATTAGGAGCAATAACTCT...

...ATTAGGAGCAATAAGTCT...

Person 1 +

Person 2 -

Single locus Pair of locii

(+,-)Cost = 0.5M x 5k x 10k

(+,-)Cost = 1/2 x 0.5M x 0.5M x 5k x 10k

0.5M SNP, cohort of 5K individuals, 10k random data set

1 day 120 yr

Computational problem

Text

기상청

지역별 관측소 자료 + 작년도 오늘 날씨 =

내일 비올 확률 40%

Realistic Solution

머리카락 + 몸무게 + 키 + 음주습관=

다음주 당뇨

구글과 생명 공학의 만남

Google Health BETA

SNP 정보

유전자 정보

나는 누구인가?

얼마나 유사한가?

원하는것은?

Google 검색엔진 -> Google 플랫폼Nutch 검색엔진 -> Hadoop 플랫폼

분석도구의 손쉬운 접근새로운 알고리즘의 개발과 적용대용량의 데이터의 접근

->생물학 데이터 처리를 위한 플랫폼

플랫폼 그 이상의 플랫폼

모든 연구자들이 아무런 댓가 없이자신의 연구를 수행하고

서로의 의견을 교류 할 수 있는 그런...

!"#$%&'()*!'+,-.#&!"#"$%&"'()*&$+,-.#/,'(

/++0122"3#4-!'5*"#$%&'(-(*+

!"0*$1,.23"'

4.*(#/,'(5Questions?

Hong ChangBumCenter for Genome ScienceNIH, [email protected]://socmaster.homelinux.org/~hongiiv

mailto:[email protected]

mailto:[email protected]

My Project

Technology

Transcript of My Project