유전자 데이터 다루기광우병에서구글까지
전문가가 되어버리다
M/MMethionine=Met , Valine = Val
영국인 은 40%한국 사람은 95%
gtg/atg
dbSNP
단지 하나 차이일뿐인데...
단일염기 다형성(SNP, Single Nucleotide
Polymorphism)
모두 23쌍의 염색체를 지님인간은 누구나 서로 99.9%의 유전정보가 동일
한 인구집단의 유전체에서 1% 이상의 빈도를 보이는 염기서열의 변이
대머리의 56%가 가족력 존재
22%가 유당분해효소 결핍증44%가 귓볼 존재 알츠하이머의 19%가 가족력 존재
30억 염기쌍이라는 거대한 책의 색인을 작성
인간 유전체 연구
여자 3명, 남자 2명의 DNA 샘플을 시작으로 휴먼지놈프로
젝트 시작
영국, 미국, 캐나다, 일본, 나이지리아 및 중국에서 약 200여 과학자들
아시아, 아프리카 및 미국에서 약 269명의 DNA표본을 이용
1000명 유전체 프로젝트(1000 Genomes Project)
한국인 만명에 대한...
2003년 휴먼지놈프로젝트 $27억2004년 크레이그 벤터 박사 $1억2008년 왓슨 박사 $100만
5년후 $100
-MIT Technology Review 2008년 4월 17일 뉴스-
30억 염기서열 쌍이라는 대용량 데이터 생산과 분석이 현실
다른 오믹스(단백체, 발현체, 대사체 등) 정보와의 통합 분석을 구현할 시점
점점 커져가는데...
대량의 연구를 빠른 시간에...
SequencingMicroarrays
High throughput GenotypingPowerful ComputationLab Automation
생물학 데이터에 대해서
•1차원 배열 형태의 서열 데이터•다차원 배열 형태의 구조 데이터•매트릭스 형태의 발현 데이터•네트워크 형태의 상호작용 데이터•문서 형태의 텍스트 데이터
자료구조 관점
서열 데이터DNA, RNA 등의 유전체 데이터
EST서열SNP 데이터
구조 데이터단백질 3차 구조 데이터질량분석기 데이터
발현 데이터마이크로어레이 데이터
array CGHChIP-chip
네트워크 형태pathway
protein interaction
텍스트 데이터논문, 문헌정보
유전체 연구
DatabaseHardware
Agent
Machine LearningAlgorithm
InformationRetrieval
IT와 유전체 연구
Genomic Variation Research
Personalized Medicine
GeneBankSWISS-PROT
Super ComputerCluster
ClusteringPattern recognition
Classfication
Sequence alignment
Biomedical text analysis
Information filteringMonitoring agent
Personal Genome
Sequence Alignment-Simulated Annealing-Genetic Algorithms
Structure and Function Prediction-Hidden Markov Models-Multilayer Perceptrons-Decision Trees
Molecular Clustering and Classification
-Support Vector Machines-Nearest Neighbor Algorithms
Expression Analysis-Self-Organizing Maps-Bayesian Networks
Machine Learning
Toby SegaranBiotech software company
Sequence Search with MPI
GPU를 이용한 병렬 서열 정렬
웹서비스를 이용한 생물학 매쉬업(Taverna, Myexperiment)
컴퓨팅 파워 제공(Folding@Home, Korea@Home)
집단지성을 이용한 퍼즐 맞추기 - foldit
시맨틱웹(FreeBase)
유전체 연구 플랫폼
50만개의 SNP Porbe를 포함하고 있는 Affymetrix Genome-Wide Human SNP Assay 5.0
고밀도 SNP array
Multidimensional Scaling(MDS)북부및서유럽(CEU), 나이지라아계열(YRI), 일본계(JPT), 중국한족(CHB)
한국인 SNP2,978개의 유전자에 대한12,995개의 SNP
KARE로 생산된 9,603명(Genotype 데이터 18GB)후속 13,000명 생산중
임상, 역학 데이터
12개 질환군별 센터(심혈관, 뇌신경질환, 당뇨, 피부, 불임, 선천성 기형 등등)안산(대도시), 안성(농촌) 코호
트 등등
질병 관련 연관성 연구
정상, 환자의 시료를 이용한 표현형(phenotype)에 연관된 SNP 발굴
질환가계 및 질환형제자매를 이용한 연구
역학 정보 변수
KSNP(Korean SNP) Browser
질병 예측
Genome Browser with Google Maps API
BioBlogRSS: 전세계의 생물학 블로거
모든것은 바로 컴퓨터의 힘!SimulationData AnalysisData AcquisitionData ManagementData Archiving
->Scientific Results, PublicationData Integration
Knowledge ManagementCollaboration
유전체센터의 컴퓨팅파워
18 Node IA2 Cluster 32 Node X86 Cluster
100 Node PPC Cluster
NAS, DAS Storage
Workstation
해결 해야 할 문제점
단일 플랫폼
Capacity & Size 증가데이터 생산의 가속화
데이터 부족
다중 플랫폼
비용 문제지리적 문제
협업을 통한 시너지 창출컴퓨팅 리소스
누구도 접근해보지 못한
...ATTAGGACCAATAAGTCT...
...ATTAGGAGCAATAAGTCT...
...ATTAGGAGCAATAACTCT...
...ATTAGGAGCAATAAGTCT...
Person 1 +
Person 2 -
Single locus Pair of locii
(+,-)Cost = 0.5M x 5k x 10k
(+,-)Cost = 1/2 x 0.5M x 0.5M x 5k x 10k
0.5M SNP, cohort of 5K individuals, 10k random data set
1 day 120 yr
Computational problem
Text
기상청
지역별 관측소 자료 + 작년도 오늘 날씨 =
내일 비올 확률 40%
Realistic Solution
머리카락 + 몸무게 + 키 + 음주습관=
다음주 당뇨
구글과 생명 공학의 만남
Google Health BETA
SNP 정보
유전자 정보
나는 누구인가?
얼마나 유사한가?
원하는것은?
Google 검색엔진 -> Google 플랫폼Nutch 검색엔진 -> Hadoop 플랫폼
분석도구의 손쉬운 접근새로운 알고리즘의 개발과 적용대용량의 데이터의 접근
->생물학 데이터 처리를 위한 플랫폼
플랫폼 그 이상의 플랫폼
모든 연구자들이 아무런 댓가 없이자신의 연구를 수행하고
서로의 의견을 교류 할 수 있는 그런...
!"#$%&'()*!'+,-.#&!"#"$%&"'()*&$+,-.#/,'(
/++0122"3#4-!'5*"#$%&'(-(*+
!"0*$1,.23"'
4.*(#/,'(5Questions?
Hong ChangBumCenter for Genome ScienceNIH, [email protected]://socmaster.homelinux.org/~hongiiv