NGS(Next Generation Sequencing) 시대의 분석 전략syszone.co.kr/PDF/ngs_report.pdf · 2010....

NGS(Next Generation Sequencing) 시대의 분석 전략

본 문서는 국내 생물정보공학 관련 회사인 인센리코젠(insilicogen.com)에서 최근 이슈화 되는 NGS관련

생물정보 기술 정보를 연재한 내용입니다.

전반적인 생물 정보 기술에 대한 주요 단계와 기술에 대한 간략한 소개 정보로 유용한 자료입니다.

Frederick Sanger에 의해서 시퀀싱 기술이 개발된 이후 오랜 기간 동안 많은 종의 유전정보가 밝혀져 왔

습니다. Human Genome Project가 완성되었으며, 아직도 수많은 동물, 식물, 미생물에 대한 시퀀싱이 전

세계에 걸쳐 진행되고 있습니다. 최근에는 생산성을 획기적으로 개선한 Next Generation Sequencing

(NGS) 기술이 개발되어 기존에 비해 시간과 비용을 비약적으로 줄일 수 있게 되었습니다. NGS 기술은

단순히 시퀀싱의 방법만을 바꿔놓은 것이 아니라 유전체 연구의 새로운 토대를 만들어가고 있습니다.

하지만 아직도 NGS 기술이 기존의 분석 방법에서 어떠한 변화를 가져오는 것인지, 어떠한 분석 전략이

필요한 것인지 궁금해하는 연구자분들도 많은 것이라 생각됩니다. 'NGS 시대의 분석 전략 2'라는 제목으

로 발간된 Quipu Issue Paper 2호에서는 앞서 말씀드린 NGS에 대한 기본적인 이해를 도울 수 있도록 다

양한 변화를 습득하고 하고 계시는 연구에 조금이나마 도움이 되기를 바랍니다

연재1 : [Quipu Issue Paper] Assembly Ⅰ - Reference assembly

1. Assembly

2. Variation study

3. Expression study

4. Epigenomics

5. Genome Annotation

6. Next Generation Bioinformatics

7. Data Management for web 2.0 Era

8. Semantic Network for Integrated Biology Data

9. Gene Network Discovery by Text-mining

10. Centralization for High-throughput Data Analysis

Quipu Issue Paper 기술 소식지 첫 번째 연재로 NGS Assembly 중에 Reference assenbly 에 대해

알아보도록 하겟습니다.

1. Next Generation Sequencing?

1-2. Assembly

Next Generation Sequencing(NGS)으로 인한 무제한적인 서열 데이터 생산은 이후 생물정보학적

분석의 가장 큰 도전 과제가 되었다. 일차적으로 많은 양의 데이터 관리부터 분석과정 마다의

computing 속도가 문제로 제기 되었다. 그중 가장 첫 번째 단계가 assembly 이다. NGS 서열의

assembly 는 그 목적에 따라 크게 reference assembly 와 de novo assembly 로 구분 지어진다. Reference

assembly 의 경우 variation 및 epigenetics 연구에 주로 이용되고 de novo assembly 의 경우 기존의

genome project 에서 진행하던 whole genome sequencing 에 이용되고 있다. 세부적인 내용을 다음에서

알아보자.

1-2-1. Reference assembly

Re-sequencing 을 통한 기존의 reference 서열과의 비교로 유전체 상의 variation 연구를 목적으로

진행하는 시퀀싱은 주로 single reads 를 얻는 시퀀싱 보다는 paired-end 시퀀싱이 수행된다. 그 이유는

다양한 질병 관련 유전자의 SNP 및 CNV 분석을 위해서는 single reads 보다는 paired-end reads 가 더

유용하기 때문이며, 이들 데이터는 앞서 언급한 다양한 플랫폼에서 생산되고 있다. 이렇게 생산된 NGS

데이터를 분석할 수 있는 프로그램은 오픈 소스로 제공 되는 것과 그렇지 않은 것들로 여러 개가

존재한다. 그 중 오픈 소스로 제공하는 SOAP[1], MAQ[2] 그리고 ZOOM[3]은 paired-end short read 에

최적화 되어 있고, Newbler 는 long reads 인 454 reads 에 최적화 되어 있다. 이렇게 대부분 특정 NGS

플랫폼에서 생산된 데이터만을 다룰 수 있도록 고정화되어 있는 것에 반해 CLC bio 사의 CLC NGS

Cell[4]은 언급된 모든 플랫폼의 데이터를 분석할 수 있는 장점이 있다[14]. 이들 프로그램에 대하여 좀

더 자세히 알아보자.

NGS assembly 프로그램을 평가하는데 있어 가장 큰 이슈는 분석 속도와 결과의 정확성, 그리고 그 외

분석의 용이성을 들 수 있다. 이들에 대한 비교 분석을 위해 표 1 에서 보여 지는 paired-end 의 short

reads 을 대상으로 여러 가지 분석을 수행하 다. 이러한 분석은 64-bit Xeon E5420 CPUs 에 32 GB

memory system 에서 수행되었다[1].

첫 번째인 분석 속도에서는 CLC NGS Cell 이 가장 빠른 것으로 평가 되었다(표 2)[5].

SIMD 기술을 이용한 병렬 데이터 처리로 속도 면에서 월등히 높은 성능을 나타내었다. 그 외 SOAP 의

경우 reference 서열을 2-bit 로 전환하여 index 파일을 이용한 연산 처리로 좋은 결과를 보이고

있다(2009.11 현재 SOAP 의 경우 업그레이드를 통해 분석 속도가 많이 향상 되었다).

특히, Maq 의 경우 Illumina 와 SOLiD 의 paired-end reads 를 대상으로 human 유전체에 맵핑할 경우

CPU time 으로 10 시간 동안 백만 개 paired-end reads 를 assembly 할 수 있다고 밝혔다[2]. 같은

시험을 위해 자체적으로 SOLiD reads 를 대상으로 CLC NGS Cell 을 이용하여 분석했을 때 CPU

time 으로 5 시간 28 분에 분석이 완료됨을 확인하 다. 두 번째로 NGS read 의 alignment 비율 및

정확성을 살펴보았다. 최근 논문 PLoS ONE 에 기재된 ‘Mapping Accuracy of Short Reads from Massively

Parallel Sequencing and the Implications for Quantitative expression Profiling’에서는 BLAT[15],

SSAHA2[16], Bowtie[17], SeqMap[18], MAQ, CLC NGS Cell 을 대상으로 다양한 종의 데이터로 프로그램의

정확성을 다각도로 분석한 결과를 발표 하 다[6]. 그 결과 그림 1 에서 보여 지는 것과 같이 SSAHA2 와

CLC NGS Cell 이 높게 평가되었다. 이 중 SSAHA2 는 Sanger institute 에서 개발된 프로그램으로 현재

SOLiD data 를 제외한 모든 플랫폼의 데이터를 분석할 수 있다[7]. 기본적으로 Smith-Waterman

alignment 를 수행하며 2-bit 로 전환하여 정확한 assembly 를 수행한다. 그 다음 CLC NGS Cell 은 모든

플랫폼의 데이터를 처리함과 동시에 SSAHA2 와 같이 안정적으로 reads 길이에 관계없이 정확한

assembly 를 수행하고 있다. 또한 특이할만한 점은 yeast, drosophila, arabidopsis 그리고 human 을

대상으로 한 다양한 데이터로 short reads 와 long reads(>50bp)에 대한 프로그램 성능을 비교

하 음에도 불구하고(MAQ: short read 만이 분석 가능), 프로그램별로 일관성 있는 결과를 보여주고

있다는 것이다. 각기 다른 종과 read 길이로 약간의 차이는 보이나 전반적으로 동일한 분석 패턴을

보이고 있어, 이는 곧 데이터의 특성보다는 프로그램별 알고리즘의 차이가 분석 결과에 더 많은 향을

미치는 것으로 해석된다. 따라서 NGS 를 이용한 분석에서 다양한 프로그램을 이용하여 분석

파이프라인을 구축하는 것 보다는 사전에 충분한 테스트를 통해 동일한 알고리즘으로 구성된

프로그램을 이용하는 것이 결과의 안정성과 정확성을 높일 수 있는 하나의 방법이 될 수 있겠다.

NGS 를 이용한 연구에서 특히 re-sequencing 을 하는 경우 대부분 유전체 상의 variation 연구를

목적으로 진행된다. 따라서 re-sequencing 된 데이터는 기존의 reference 서열과는 다른 variation 을

가지는 특성이 있으므로 이를 고려한 assembly 알고리즘이 필요하다.

그림 1. 프로그램별 다양한 데이터 셑으로

구성된 reference assembly 시험 결과.

회색바는 alignment 된 비율, 붉은색바는

부정확한 alignment 를 각각 나타낸다

그림 2. Reads 의 다양한 mutation 비율에 따른

mapping 의 정확성 시험. Drosophila genome 과

transcripts 를 reference 로 하여 reads 의 mutation 비율을

각각 3%, 6%, 9%로 조정하여 mappping 을 수행.

회색바는 alignment 된 reads 의 비율을 의미하며 붉은색

바는 부정확하게 alignment 된 비율을 나타낸다.

그림 2 에서는 각 프로그램별 variation 을 고려한 assembly 결과를 보여주고 있다[6]. Drosophila 의

transcripts 와 유전체 서열을 각각 reference 로 하고 mutation 비율이 각기 다른 NGS reads 를 맵핑하여

프로그램의 정확성을 확인 하 다. 이도 역시 CLC NGS Cell 과 SSAHA2 가 가장 우수한 결과를 보이고

있다. 그러나 CLC NGS Cell 의 경우 mutation 비율에 상관없이 안정적인 정확성을 보이고 있는 반면,

SSAHA2 는 mutation 비율이 커짐에 따라 정확성이 떨어지는 문제점을 들어내고 있다. 따라서

SSAHA2 를 이용할 경우 사전에 데이터의 특성을 미리 파악하여 적절히 이용하는 것이 좋을 듯하다.

마지막으로 분석의 용이성을 여러 가지 측면으로 살펴보았다. NGS 분석을 목적으로 개발된 MAQ, SOAP,

그리고 CLC NGS Cell 은 모두 웹에서 다운로드가 가능하다. 이 중 CLC NGS Cell 은 압축만 해제하면

바로 실행할 수 있는 바이너리 파일을 제공하고 있고, SOAP 과 MAQ 은 각각 압축 해제 후 compile 을

통해 쉽게 설치가 가능하다.

이 후 분석에 필요한 입력 데이터 형식은 CLC NGS Cell 이 가장 호환성이 좋아 FASTA, FASTQ,

csfasta(SOLiD), Scarf, Sff 의 모든 형식의 파일을 입력 받을 수 있었으며 SOAP 과 MAQ 은 각각

프로그램에 맞는 형식이 따로 존재하여, 이들 형식으로 전환할 수 있는 프로그램을 따로 제공하고 있는

실정이다. 이때 paired-end reads 의 경우 분석 결과의 신뢰성과 정확성을 높이기 위해 assembly 수행

전에 서열이 쌍으로 존재하는지 여부를 체크하게 되는데, 이를 점검할 수 있는 프로그램을 CLC NGS

Cell 과 MAQ 은 제공하고 있다. 이는 분석자에게 NGS reads 의 전처리 과정을 수월하게 진행할 수 있게

하는 편의성도 고려된 것이다.

Reference 서열 또한 CLC NGS Cell 은 FASTA 형식과 genbank 형식의 파일을 바로 입력 받을 수 있는

장점을 가지고 있으며, 나머지 프로그램은 각각의 형식으로 전환할 프로그램을 제공하여 한 번의 분석

단계를 더 수행하도록 되어있다. 그 외 분석에 필요한 옵션사항은 약간의 차이를 보일뿐 큰 차이는

없었으나, 다음 분석을 위한 assembly 결과 파일의 데이터 호환성에서는 CLC NGS Cell 과 MAQ 이

SOAP 보다는 우위를 나타내었다. 마지막으로 NGS 분석 프로그램에서 중요하게 체크해야 할 사항 중에

하나는 assembly 과정을 나눠 진행하고 이후에 결과를 하나로 합쳐 볼 수 있는 기능이 있는지를

살펴보는 것이다.

제한된 computing power 로 이처럼 큰 사이즈의 유전체 서열과 NGS reads 를 분석해야 하므로 한 번에

데이터를 분석 한다는 것은 매우 어려운 일이다. 따라서 가능한 분산 처리로 데이터를 나눠 분석하고

이들을 통합할 수 있는 기능이 있어야만 한다. 다행히 이러한 기능은 CLC NGS Cell(join_assemblies)과

MAQ(mapmerge)에서 제공을 하고 있었다. 이들 각각의 특징은 표 3 에서 자세히 확인할 수 있다.

다음 연재에서는 Reference assembly에 이어서 NGS Assembly 중에 de novo assembly에 대해 알아보

도록 하겠습니다. 많은 관심 부탁드립니다.

연재2 : [Quipu Issue Paper] Assembly Ⅱ - De novo assembly

Quipu Issue Paper 기술 소식지 두 번째 연재로 NGS Assembly 중에 De novo assenbly 에 대해

알아보도록 하겟습니다.

1-1-2. De novo assembly

Human genome project 이후 다양한 종에서 Whole Genome Sequencing(WGS)이 진행되고 있다.

고전적인 방법으로 BAC library 를 제작하여 샷건 시퀀싱으로 진행되던 방식이 NGS 시대에 들어 새롭게

진화하 다. 일예로 Dr. Andreas 는 ‘Corynebacterium kroppenstedtii’의 유전체 시퀀싱을 단 7.5 시간

만에 수행하고 자동화된 genome annotation 파이프라인을 통해 단 3 일 만에 논문으로 발표하 다[13].

그러나 아쉽게도 미생물을 제외한 대부분의 종에서는 아직까지 NGS 를 이용한 de novo assembly 로

유전체 시퀀싱을 완성한 팀은 없다. 짧은 reads 의 제한적인 정보로 복잡한 유전체 구조를 모두

밝히기엔 어려움이 따른다. 따라서 reference 가 없는 새로운 종을 시퀀싱 할 경우에는 짧은 reads 를

생성하는 Solexa 나 SOLiD 보다는 Roche 454 를 이용한 long reads 시퀀싱이 유용하다. 2009 년 10 월

현재 Roche 454 의 GS Titanium 의 경우 평균 read 길이가 350bp 에 달하고 최대 700bp 까지 시퀀싱을

수행한다고 한다[8]. 단, 유전체 구조상 반복 서열 역과 같은 서열상의 정보로만 분석 되지 않는

부분은 paired-end reads 의 fragment size 를 다양하게 디자인하여 long reads 와 함께 분석 하여야 한다.

이렇게 de novo assembly 의 경우 long reads 와 short paired-end reads 를 동시에 처리할 수 있어야

하므로 assembler 또한 이들 모두를 처리할 수 있어야 한다.

대표적인 de novo assembler 로 Velvet(Solexa bundle program)[9], Newbler(454 bundle program)[10],

ABySS[11], CLC NGS Cell, 그리고 고전적인 프로그램인 Phrap 을 들 수 있다. 이들 assembler 의 특징에

대해 좀 더 자세히 살펴보기 위해 다음의 몇 가지 조건을 기준으로 살펴보았다. 단, phrap 의 경우 NGS

reads 의 특성상 대량의 데이터를 처리하기엔 메모리와 속도 면에서 비교하기가 어려울 만큼

효율적이지 않은 점을 고려하여 이후 비교 분석에서는 제외하 다.

최근 de novo assembler 의 개발이 가속화 되면서 human 유전체를 대상으로 de novo assembly 에

성공한 사례가 발표 되었다. CLC NGS Cell[12]과 ABySS[11]가 그 주인공으로 Illumina 의 paired-end

reads 를 분석에 이용하여 38X 의 human 유전체를 완성 하 다고 밝혔다. 그 두 프로그램의 결과를

비교해 보면 표 4 와 같다. CLC NGS Cell 은 최근 2.0 에서 3.0 beta 버전으로 업그레이드되면서 de novo

assembly 에 놀라울 만큼의 결과를 향상 시켰다[12]. 단적으로 38X 나 되는 많은 데이터를 de novo

assembly 로 분석하는데 단 78 시간(CPU time)밖에 소요되지 않았다는 것만으로도 매우 놀라운

일이다(표 4).

이는 ABySS 와 비교했을 때 약 172 배가 빨라진 결과이다[12]. 뿐만 아니라 분석된 contig 의 품질을

살펴보면 100bp 이상 되는 contig 는 ABySS 보다 많으며 최대 contig 길이 면에서 1.7 배 긴 contig 를

생성하고 있다. N50 또한 서로 비슷한 결과를 보여 주고 있어 단순히 빠른 속도만을 내세우는

프로그램이 아닌 분석 결과에 대한 정확성 면에서도 믿음을 주고 있다. 이를 한 번 더 검증하기 위해

짧은 유전체를 대상으로 Velvet 과의 정확성 테스트를 다시 수행하 다. 그 결과 Velvet 의 부정확한

assembly 에 비해 CLC NGS Cell 은 모두 정확한 assembly 를 수행하 음을 확인 할 수 있었다(표 5)[12].

비슷한 결과로 Shizosaccharomyces pombe 132, Fungi 유전체를 대상으로 테스트한 결과에서도 CLC

NGS Cell 이 Velvet 보다는 좋은 결과를 보 다(표 6). 마지막으로 long reads 와 short reads 를 동시에

분석하여 복잡한 유전체 구조를 분석 할 때 서로 다른 데이터 플랫폼이 함께 분석되어야 한다. 이를

위해 GS titanium 과 Illumina 데이터(Solexa)를 다양한 비율로 구성한 테스트 세트를 이용하여

분석하 다(표 7).

분석 결과 long reads 구성이 많을수록 긴 contig 를 구성하는 것을 확인할 수 있었다. 그러나 여기서

보여지진 않았으나 반복서열 역과 같은 시퀀싱이 쉽지 않은 역의 데이터를 long reads 보다는 short

reads 에서 확인할 수 있었다. 따라서 두 가지 플랫폼의 장점을 모두 수용할 수 있는 assembler 를

선택하여 분석의 정확성을 높이는 것이 좋을 듯하다.

1-1-3. Workflow

NGS 데이터의 분석 단계는 크게 pre-processing, assembly, 그리고 assembly 를 이용한 이차 분석으로

나눠진다. Pre-processing 단계에서는 다양한 플랫폼으로부터 single reads, long reads, paired reads

그리고 unpaired reads 들의 정보를 assembly 단계에 적용하기 위한 작업을 수행한다. 대부분의

assembler 는 대용량의 데이터 처리를 위해 index 파일을 자체 프로그램에 맞게 생산하는 단계를

거치거나, 다양한 플랫폼에서 생산된 데이터를 특정 포맷의 입력 포맷으로 전환하는 과정을 수행한다.

그러나 이러한 과정은 자칫 시퀀싱 자체의 raw 정보를 유실하는 경우가 발생할 수 있으므로

assembler 의 기능을 면 히 살펴 최대한 정보를 그대로 보존할 수 있는 assembler 를 선택하는 것이

좋다. 그중 CLC NGS Cell 은 대부분의 시퀀싱 raw 파일을 입력 포맷으로 지원하므로 이러한 정보

손실을 줄여 줄 수 있는 이점이 있다. 더욱이 zip file 형태의 파일을 바로 입력 포맷으로 지원하므로

분석 단계에서의 파일 관리가 수월한 점도 장점이라 하겠다.

다음으로 assembly 과정에 대해 알아보자. NGS reads 의 assembly 는 제한적인 computing power 를

고려하여 데이터를 여러 개로 분리하여 반복 수행하게 된다. 이후 이들 assembly 결과를 하나로 합치는

과정을 통해 전체적인 assembly 을 완성한다. 대부분의 프로그램이 한 번의 명령어 수행으로 contig

서열 혹은 assembly 파일을 얻을 수 있다. 그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을

지원하므로 assembly 수행을 위한 여러 단계의 전처리 과정이 없으며 assembly 이후 한 번의 스크립트

수행을 통해 원하는 다양한 정보를 이차적으로 생산할 수 있다.

마지막으로 assembly 결과를 이용한 다양한 이차정보 분석이다. SNP 와 같은 variation 분석, assembly

결과를 보여주는 그래픽 인터페이스 그리고 assembly quality 정보 분석이 주로 수행된다. 그 중

assembly quality 는 reference assembly 의 경우 assembly 에 참여된 reads 의 coverage 와 fold 로 나타낼

수 있으며 de novo assembly 의 경우 N50 및 fold value 가 지표가 될 수 있다. 이러한 분석 역시

간단한 명령어 수행으로 대부분의 프로그램에서 수행하고 있다(그림 3).

그림 3. CLC NGS Cell workflow. 다양한 입력 포맷을 지원하므로 assembly 수행을 위한 여러 단계의

전처리 과정이 없으며 assembly 이후 한 번의 스크립트 수행을 통해 원하는 다양한 정보를 이차적으로

생산할 수 있다.

또한 그림 4 는 alignment 결과와 그에 따른 SNP evidence 를 그래픽 인터페이스를 통해 보여주고 있다.

CLC NGS Cell 은 reference assembly 수행 시 유전자 구조 및 기능 정보를 담고 있는 NCBI 의 genbank

포맷의 파일을 reference 파일로 입력 받을 수 있는데, 이를 이용하게 되면 assembly 수행 후 결과를

CLC Genomics Workbench 를 통해 유전자 위치와 alignment 된 reads 정보를 따로 그래픽

인터페이스를 제작하지 않고도 쉽게 확인 할 수 있다. 또한 SNP 정보를 함께 CLC Genomics

Workbench 를 통해 확인할 수 있어 바로 프라이머를 제작하는 등의 차후 분석이 가능하도록 돕고 있다.

그림 4. CLC Genomics Workbench를 이용한 alignment view 와 SNP view. Reference assembly 수행

시 annotation 정보가 있는 .gbk 파일을 이용하여 분석한 후 assembly 파일을 Genomics Workbench를

통해 확인하면 유전자의 위치와 함께 alignment reads의 상세정보를 확인 할 수 있다. 아울러 SNP 정보

중 cSNP의 경우 translation 정보를 활용하여

non-synonymous/synonymous SNP를 구분하여 분석 할 수 있다.

다음주 연재에서는 Assembly에 이어서 Assembly를 수행하고 이후 서열간의 비교 분석을 통해 variation

분석을 진행하는 variation study에 대해 알아보도록 하겠습니다.

많은 관심 부탁드립니다.

연재3 : [Quipu Issue Paper] Variation study Ⅰ

이번 주 Quipu Issue Paper 기술 소식지에서는 Next Generation Sequencing 의 첫 번째 Application 인

Variation study 에 대해 5 번에 걸쳐 연재될 예정입니다. 다양한 variation study 에 대한 소개에 앞서

오늘은 NGS reads 를 이용한 assembly 에 기반을 둔 variation 분석은 어떻게 이루어지는지 알아보도록

하겠습니다.

2. Application of Next Generation Sequencing

2-1. Variation Study

Next Generation Sequencing 기술은 이제 유전체 연구의 밑바탕이 되고 있다. 수백 Mega base 에서

Giga base 에 이르기까지 엄청난 양의 염기서열 분석을 수행해내면서 전체 염기서열 결정 및 re-

sequencing 을 통해 유전체 상의 여러 가지 변이 연구를 활발히 하게 하 다. 이는 시간과 가격적으로

효과적인 마커를 개발할 수 있을 뿐만 아니라 개인 맞춤 의학에 빠르게 다가갈 수 있도록 하고 있다.

NGS 를 이용한 variation 연구는 대부분 양쪽 말단 서열을 동시에 해독하는 방법인 paired-end 시퀀싱을

사용하고, 평균 시퀀스 배수를 유전체의 20~40X 로 시퀀싱을 진행하여 reference 서열에 정확한 맵핑과

정렬을 통해 비교하는 것이 보통이다. 이 후 분석된 막대한 양의 정보들 가운데 의미 있는 SNP 나 CNV

분석을 위한 이차적 분석에 전문적 수준의 생물정보학적 도구가 필수적으로 이용되고 있다.

NGS reads 를 이용한 variation 분석은 기본적으로 assembly 에 기반을 둔다. 특정 원하는 역의

서열만을 골라 시퀀싱 하는 amplicon 시퀀싱 방법과 유전체 서열 전체를 대상으로 시퀀싱하는 두 가지

방법 모두 일차적으로 assembly 를 수행하고 이후 서열간의 비교 분석을 통해 variation 분석을

진행한다. 따라서 대부분의 assembler 는 assembly 뿐만 아니라 이후 SNP 와 같은 variation 분석이

가능하도록 추가 기능을 제공하고 있다. 그러나 서열 하나 정도의 variation 이 아닌 넓은 범위에 걸쳐

발생하는 variation 은 single reads 혹은 짧은 fragment 의 paired-end 시퀀싱으로는 한계가 있다. 이를

극복하기 위해 분석 목적에 따라

시퀀싱 타입을 다양하게 디자인하고 있다.

그림 1. NGS reads 를 alignment 를 이용한 genome 서열 내의 variation 탐색.

다양한 fragment size 설정으로 SNP, CNV 및 구조적 variation 탐색이 가능하다.

일반적으로, variation 분석에는 fragment size 를 다양하게 구성한 paired end 시퀀싱을 추천한다. SNP

뿐만 아니라 CNV 와 같은 넓은 지역에서의 variation 과 구조적 변화까지 분석하기에는 길이에 제한이

있는 single reads 보다는 다양한 길이로 구성된 paired reads 를 이용하여 기준이 되는 reference 서열에

모두 alignment 가 수행될 수 있도록 하는 것이 효율적이기 때문이다. 그림 1 에서 보여 지는 것과 같이

reference 서열과 비교했을 때 1.5kb 의 insertion 이 존재하는 경우 500bp fragment 의 paired-end

서열은 한쪽만 alignment 되고 다른 한쪽은 alignment 가 수행되지 않을 것이다. 그러나 2kb fragment

paired-end 서열의 경우 양쪽 서열이 모두 reference 서열에 alignment 되면서 1.5kb 의 insertion 이

일어났음을 인지할 수 있게 된다. 또한 양쪽 서열의 alignment 방향을 체크하여 inversion 이

일어났는지도 확인이 가능하다[7]. 표 1 에서는 분석 목적에 따른 최적화된 NGS reads 타입을 소개하고

있다[5]. 현재 paired-end 의 fragment size 는 200bp 에서 5kb 까지 가능한 수준이다. 그 중 2-5 kb 의

long fragments 의 시퀀싱은 fragment 양 끝 말단을 ligation 하여 circular 형태로 만들고 이후 다시

circular 형태의 서열을 400-600bp 길이로 절편을 만들어 그중 양쪽 끝 말단의 서열을 포함하고 있는

fragment 만을 선별하여 시퀀싱을 수행한다[5]. 이러한 방법은 긴 서열 중 필요한 양쪽 끝 말단만을

추출하여 시퀀싱의 샘플로 이용하는 것으로 ‘mate paired ends’라 하며, 시퀀싱의 품질을 높이는 하나의

방법이 된다.

결론적으로, ‘1-2. Assembly’ 에서도 언급 하 듯이 variation을 목적으로 분석하는 경우에는 분석하려는

서열들 간의 차이를 인지하고 이를 반 한 assembly가 수행되어야 한다. 따라서 reference assembly 수

행에서도 reference 서열과 시퀀싱 된 reads간의 차이는 SNP와 같은 서열하나일 수도 있고 CNV나 구조

적 변형 같은 넓은 범위의 variation도 있기 때문에 표 1에서 언급한데로 다양한 길이의 fragment size로

분석하는 것이 언급된 모든 variation을 분석하기에는 가장 적합하다[5].

다음 연재에서는 다양한 variation study 중에 SNP(Single Nucleotide Polymorphism) 분석법에 대해 알

아보도록 하겠습니다.


연재4 : [Quipu Issue Paper] Variation study Ⅱ - SNP(Single Nucleotide

Polymorphism) Analysis

이번 연재에서는 Next Generation Sequencing 의 첫 번째 Application 인 Variation study 중에

SNP(Single Nucleotide Polymorphism) 분석법에 대해 알아보도록 하겠습니다.

2-1-1. SNP (Single Nucleotide Polymorphism) Analysis

인간 유전체 상에 가장 많이 존재하는 형태의 다형성은 유전체상의 특정 염기서열 하나의 변화이며,

흔히 SNP(Single Nucleotide Polymorphism) 또는 단일염기다형성이라고 부른다. 한 논문에서는

SNP 를 검출하는 방법을 다섯 가지로 요약해 나타냈다(표 2)[3]. 이러한 방법들의 공통된 특징은 유전자

또는 염색체 부위를 증폭한 산물에 대한 염기서열을 분석하고 여러 염기서열을 정렬하여 염기서열

차이로서 SNP 존재 여부를 확인하는 것이다. 이러한 관점으로 볼 때 정렬되는 서열이 많을수록

통계적으로도 안정적이며 명확한 variation 을 분석할 수 있게 된다. 따라서 제한된 시간 동안 가장 많은

서열을 생산할 수 있는 NGS 는 이에 가장 부합하는 분석 도구가 될 것이다.

또한 HapMap project 에서 발표한 human 유전체의 SNP 분포를 확인해 보면 공개된 SNP 의 약

34.1%에 해당하는 SNP 가 30bp 안에 군집하여 분포한다는 것이다(그림 2)[8]. 이는 종전의

마이크로어레이 방식에서 NGS 방식의 SNP 탐색으로의 전환이 매우 필수적임을 시사한다. 그 이유는

마이크로어레이에 심어질 프로브 서열 내에 또 다른 SNP 가 포함될 가능성이 매우 높으며 이러한

SNP 는 고정되어 있는 프로브 서열로 인해 탐색이 되지 않는 치명적인 제한점을 NGS 방식의 시퀀싱을

통해 매우 효율적으로 해결할 수 있기 때문이다.

그림 2. Human Genome 의 SNP 분포.

30bp 내에 많은 SNP 이 군집을 이루며 모여 있다.

Variation 분석에 적합하도록 시퀀싱이 수행되고 나면 실제 많은 reads 를 이용한 assembly 가 수행되고

그 결과를 바탕으로 서열을 비교하여 variation 부분을 탐색하게 된다. 그 중 SNP 분석의 경우, 시퀀싱

중에 일어난 오류에 기인한 mis-match 인지 variation 으로 인한 mismatch 인지를 구별하기 위한 여러

가지 파라미터를 설정하게 된다. Mismatch frequency 및 coverage(해당 위치의 서열 coverage)를

중심으로 잠재적인 SNP 를 선별하게 된다. 이때, 조금 더 정확한 SNP 를 구별하기 위해 viewer 를 통해

서열 퀄리티를 확인하는 경우도 발생하게 되는데, 다양한 플랫폼에서 생성된 reads 들은 고유의 포맷을

유지하고 있고 대부분의 open source 로 제공되는 프로그램들은 특정 플랫폼의 데이터만을 다루도록

하고 있어 이를 확인하기에는 어려움이 따른다. 또한 특정 SNP 가 cSNP 인지 여부나 더 나아가 단백질

서열까지 변화되는 synonymous SNP 인지 여부를 판단하기에는 생물정보학자의 도움이 절실히

요구된다. 그러나 이러한 과정 모두를 해결해 줄 수 있는 프로그램들이 계속해서 개발되어지고 있다. 그

중 CLC NGS Cell 과 CLC Genomics Workbench 는 NGS 데이터의 assembly 와 사용자 편의의

인터페이스를 통해 분석된 SNP 의 아미노산 서열 변화 확인을 위한 translation 분석, SNP 검증을 위한

PCR 프라이머 디자인, in-silico 클로닝 등의 통합 분석을 생물정보 전문가가 아닌 일반 연구자들 스스로

진행할 수 있도록 하고 있다. 뿐만 아니라 assembly 를 수행할 때 reference 서열을 이미 annotation 이

완료된 ‘.gbk’ 데이터로 진행할 수 있어, SNP 로 생각되는 유전자의 위치 및 이미 등록된 SNP

정보들까지도 표시하여 함께 확인할 수 있기 때문에 NGS 기술을 이용한 SNP 분석에 추천할 만한 분석

파이프라인이라고 하겠다(그림 3).

그림 3. SNP 탐색을 위한 CLC Genomics Workbench

다음 연재에서는 SNP(Single Nucleotide Polymorphism) 이외에 정상 표현형인 인간의 유전체에

존재하면서 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될 가능성이 높은 유전자

복제수(Copy number) 변이 분석법에 대해 알아보도록 하겠습니다. 많은 관심 부탁드립니다.

연재5 : Quipu Issue Paper] Variation study Ⅲ - CNV(Copy Number Variation)

Analysis

이번 연재에서는 Next Generation Sequencing 의 첫 번째 Application 인 Variation study 중에 CNV

(Copy Number Variation) 분석법에 대해 알아보도록 하겠습니다.

2-1-2. CNV (Copy Number Variation) Analysis

SNP 가 유전적 다형성의 대명사로 여겨졌지만 이외에도 정상 표현형인 인간의 유전체에 유전자 복제

수(copy number) 변이가 존재하여 유전적 다양성에 기여하고, 암 또는 많은 질병 감수성과도 연관될

가능성이 높다는 연구 결과가 보고되면서 유전체의 구조적 변이에 대한 관심이 대두되었다. CNV(Copy

Number Variants)는 reference 유전체와 비교해서 copy number 의 차이를 보이는 1kb 이상의 DNA

조각으로 정의하며, 평균 크기는 29kb 에서 523kb 정도로 예상된다고 한다.

현재 전체 유전체에서 CNV 를 발굴하는 방식 중 가장 흔히 사용되는 방식은 CGH (comparative

genomic hybridization)의 원리에 DNA 칩의 기술을 접목시킨 array-CGH 이다. 마이크로어레이 기반

CGH 실험 분석 목적은 모든 유전체 안에서 각각의 유전자 조각들이 반복 횟수 변화를 보이는 부분을

선별해 내거나 반복 횟수의 양적 변화를 찾는 것이다. 이렇게 마이크로어레이 플랫폼을 이용해 발굴된

CNV 는 분석에 이용된 플랫폼 의존 특성을 가지게 되어 최종 데이터의 질적인 측면과 연관되어 분석

결과의 치우침 문제를 유발할 수 있다. 또한 hybridization 효율이 프로브 마다 다양하고, 실제 copy

number 의 프로브 서열이 아닐 가능성도 고려해야 하는 한계에 봉착하 다. 이에 이를 극복할 만한

대안이 필요한 상황에서 NGS 기술의 보급은 CNV 발굴의 차세대 플랫폼으로 등장하 다. 앞서 언급된

NGS 기술을 통한 SNP 분석과 마찬가지로 유전체 서열과 다양한 fragment size 의 paired-end reads 를

assembly 함으로써 시퀀싱 coverage 를 이용한 잠재적인 CNV 를 분석할 수 있다(그림 4).

그림 4. aCGH 와 CNV-seq 방법의 분석 과정 비교

그러나 SNP 와 같이 하나의 염기서열 차이로 변이를 확인하는 것이 아니기 때문에 assembly 분석 시

시퀀싱 오류로 인하여 다른 부분에 정렬되어 잘못된 variation 을 검출하게 되는 가능성도 배제할 수는

없다. 따라서 최근 Robust 통계 모델을 기본으로 하면서 aCGH 와 NGS 기술의 이점들만 조합하여

효율적인 CNV 분석에 대한 논문이 발표되었고 이러한 방법을 이용하여 두 개체(Dr. J. Craig Venter 와

Dr. James Watson) 사이의 CNV 를 분석한 평가 결과도 함께 확인할 수 있어 이 후 aCGH 와 NGS

기술을 접목한 CNV 분석 방법이 충분히 발전할 것으로 생각된다[4]. 이렇게 진행한 연구 방법과

결과들은 웹사이트를 통하여 무료로 이용할 수 있다(http://tiger.dbs.nus.edu.sg/CNV-seq).

다음 연재에서는 전체 유전체의 염기서열 분석이 아닌 관심있는 특정 유전체의 일부분을 분석하는 방

법인 Sequence Capture 기술에 대해 알아보도록 하겠습니다.


연재6 : [Quipu Issue Paper] Variation study Ⅳ - Targeted Sequencing (Sequence

Capture)

이번 연재에서는 Next Generation Sequencing 의 첫 번째 Application 인 Variation study

중에 Targeted Sequencing (Sequence Capture) 기술에 대해 알아보도록 하겠습니다.

2-1-3. Targeted Sequencing (Sequence Capture)

최근 염기서열 분석은 전체 유전체의 염기서열 분석에만 치중하지 않고, 관심이 있는 특정 유전체의

일부분을 분석하고자 하는 경향이 대두되고 있다. 또한 NGS 가 출현하면서 염기서열 분석의 작업량이

증가하자 PCR 을 이용한 타겟 시퀀싱에서 병목현상을 일으키기 시작하 다. 이러한 문제를 해결하기

위해 ‘Sequence Capture’라는 기술이 개발되었고 Roche NimbleGen 에서 처음 상용화 되어 관심 있는

특정 유전체의 일부분을 선택적으로 분석을 할 수 있어 NGS 를 이용한 유전체 분석에서 중요한 부분을

차지하게 이르렀다.

Sequence Capture 기술은 타겟으로 하는 유전체의 각 부위와 상보적으로 결합하도록 디자인된

프로브가 올려져있는 DNA chip 과 분석하고자 하는 샘플의 유전체 서열간의 hybridization 을 진행하여

특이적으로 결합한 DNA 절편들을 분리 후 NGS 를 이용하여 직접적으로 시퀀싱을 진행하는

방식이다(그림 5).

그림 5. Sequence Capture 원리.

Genome 서열을 무작위 적으로 절단하여 엑손 역만이 프로브로 심겨진 DNA chip 에

hybridization 한다. 이 후 DNA chip 의 프로브 서열과 결합된 유전체의 엑손 서열을 chip 에서 분리하여

NGS 방식의 시퀀싱으로 서열을 결정한다.

NGS로 염기서열을 분석하기 때문에 타겟 서열의 coverage가 굉장히 많이 향상되어 원하는 부분의 정

확한 서열 정보를 얻을 수 있다. 이러한 Sequence Capture 방법을 이용하여 워싱턴주립대학과 Agilent

사의 연구팀이 공동으로 Target Capture Array로부터 Illumina GA를 사용하여 8명의 HapMap Individual

과 4명의 희귀질환인 Freeman-Sheldon syndrome (FSS)을 가진 환자의 엑손 역만을 시퀀싱하여

protein coding variation을 찾은 연구를 수행하 다[8].

그 결과 Freeman-Sheldon syndrome(FSS)의 원인 유전자로 알려진 MYHS 유전자만이 정상인과 환자 사

이에서 차이를 보인다는 것을 확인하 다[7]. Human의 전체 유전체는 30억 염기쌍이지만 그 중 유전자

역인 엑손은 전체 염기의 약 1%에 해당하는 3천만 염기쌍 정도 이다. NGS 기술로 인해 유전체 시퀀

싱이 쉽고 빠르게 되었다고는 하지만, 아직 높은 비용이기 때문에 이러한 엑손 시퀀싱으로 유전체 전체

를 대상으로 보고자 하는 역만을 보다 빠르고 저렴하게 분석할 수 있다는 것이 매우 고무적이라 하겠

다.

다음 연재에서는 variation의 마지막 다양하게 구축되어 운 되고 있는 SNP 및 variation 데이터베이스

에 대해 알아보도록 하겠습니다.


연재7 : [Quipu Issue Paper] Variation study Ⅴ - Variation Database

이번 연재에서는 Next Generation Sequencing 의 첫 번째 Application 인 Variation study

중에 다양하게 구축되어 운 되고 있는 SNP 및 variation 데이터베이스에 대해 알아보도록 하겠습니다.

2-1-4. Variation Database

다양하게 얻어진 각종 variation 데이터들은 기존에 구축되어진 데이터베이스와 비교하거나 이미

알려진 유전자 구조 정보를 활용함으로써 조금 더 유용한 정보를 얻을 수 있다. 따라서 대량의

유전변이형 정보를 체계적으로 수집하고 일반 연구자에게 전달하기 위해서는 다양한 variation

데이터베이스를 구축하여 언제든 활용할 수 있는 시스템으로 서비스 되어져야 한다. 현재 다수의

연구기관 및 연구그룹에서 SNP 및 여러 variation 관련 데이터베이스가 만들어져 운 되고 있다(표 3).

dbSNP 는 미국 NCBI 에서 관리하는 세계 최대의 SNP 데이터베이스로 rs#를 부여받은 human 의

SNP 만해도 7,344,853 개(build130, 2009 년 12 월)가 수록되어 있다. 따라서 이렇게 축적된 대량의 SNP

데이터가 연구자들에게 제공됨에 따라 새롭게 특정 후보 유전자의 SNP 를 다시 발굴할 필요 없이

대부분의 SNP 정보를 데이터베이스를 통하여 쉽게 이용할 수 있다(그림 6).

또한 좀 더 나아가 HGMD는 문헌에 보고된 모든 생식세포내의 질병을 유발하는 돌연변이들과 질병관

련/기능성 다형성들을 기록하고 있다. 사실상 이는 학계에서 이용 가능한 중추적인 질병관련 돌연변이

데이터베이스로써, 암호화 시의 단일 염기쌍 치환(예, 미스센스 돌연변이와 넌센스 돌연변이), 인간 핵

유전자의 조절 및 접합관련 부위, 미세결실과 미세삽입, 결실과 삽입(indels), 반복 확장, 그리고 심한 유

전자 손상(결실, 삽입 그리고 복제) 및 복합적 유전자 재배열에 관한 자료들을 제공하고 있다. 학술적으

로 또는 비 리적인 목적으로 사용자 등록 후 무료로 이용 가능하다. 단, 이 돌연변이의 정보들은 데이

터베이스에 최초로 추가된 후 2년 6개월 후에 공용 웹사이트에서 제공되기 때문에 최신 버전을 이용하

려면 BIOBASE GmbH사로부터 인증을 받아 상업적 및 학술적 이용자에게 제공된다. 최신 돌연변이 자료

이외에도, HGMD Professional은 공용 사이트에서 제공하지 않는 첨단 검색 도구와 유전자 및 돌연변이

에 대한 특별한 정보를 부가적으로 제공하고 있다(그림 7). HGMD Professional은 3개월 단위로 업데이트

된다.

그 외 variation 정보를 위한 데이터베이스는 앞서 소개한 몇몇 큰 데이터베이스와 수백 가지의 유전자

각각에 대한 특화된 데이터베이스로 다원화 하여 존재하고 있다. 이들 정보의 통합 필요성이 인식 되면

서 2006년 6월부터 전 인류의 유전자 변이에 대한 정보를 모으고 이를 카달로그화 하여 제공하고자 하

는 국제적인 Human Variome Project(HVP, http://www.humanvariomeproject.org)가 출범되었고, 이

를 통해 variome 연구는 개인의 유전적 차이 및 질병과의 관련성이 더 정확하게 밝혀져 질병에 대한 개

인 간 차이 발생에 대해 더 세 하고 진보한 해답을 얻을 수 있을 것으로 전망하고 있다.

연재8 : [Quipu Issue Paper] Expression Study Ⅰ

이번주부터 2 주간 진행되는 연재에서는 Next Generation Sequencing 의 두 번째 Application 인

Expression study 에 대해 알아보도록 하겠습니다.

2-2. Expression Study

Functional genomics 의 유전자 발현 연구 분야에도 NGS 는 예외 없이 새로운 방향을 제시하면서

transcriptome 분야를 포함하여 많은 부분에서 PCR 이나 마이크로어레이 기술을 대체 하고 있다.

이러한 NGS 기술은 분석 할 종의 서열 정보가 없어도 분석 가능하여 어떤 생물종도 연구에 이용할 수

있다는 장점을 가지고 있다. 뿐만 아니라 한 번의 시퀀싱으로 수많은 read 를 얻는 높은 coverage 를

가지기 때문에 단 시간에 적은 비용으로 전체 염기서열을 결정할 수 있는 이점이 있다. 이러한

장점들은 마이크로어레이를 이용한 종전의 분석법에서 나타난 여러 문제점을 보완하면서 다양한

방향으로 연구를 수행할 수 있게 하 다. Development stage, stress, tissue 와 같이 특정 컨디션에서의

유전자 발현 양상을 보는 것에서부터 조직 특이 유전자 분석, house keeping 유전자 분석, 유전자

발현을 이용한 ortholog 분석, SNP 분석 그리고 alternative splicing 분석에 이르기까지 다양한 분야에

걸쳐 분석이 가능하게 되었다[1].

발현 분석은 언제, 어디서, 어느 정도로 유전자들이 발현되는 지를 전사 수준에서 총체적으로 탐색 하는

것을 목적으로 한다. 따라서 원하는 컨디션이 반 된 mRNA 를 추출하여 라이브러리를 제작하게 되고,

무작위 적으로 시퀀싱 하여 얻어진 서열을 클러스터링을 통해 발현 양을 추정하게 된다[2, 4, 5, 17, 18,

19].

그림 1. 유전자 발현 패턴 분석.

전사 수준에서의 발현 패턴 분석을 위해 mRNA sequencing 을 통해

세포내 유사한 발현 패턴을 보이는 유전자들을 분석

이러한 방법은 기존의 ESTs를 활용한 발현 분석과 동일한 방법으로, 클러스터링 방법 또한 EST 클러스

터링과 같이 유전체 서열이 존재하는 경우 references assembly을 수행하여 유전자 역을 기준으로 클

러스터링을 수행하게 되고, 만약 유전체 서열이 존재하지 않을 경우 de novo assembly을 수행 하게 된

다. 단 de novo assembly의 경우 assembly의 정확성을 위해 short reads 보다는 Roche 454의 long

reads를 이용하는 것이 보다 정확한 결과를 얻을 수 있다(1-2. Assembly 참조)[17, 18, 19].

클러스터링이 완료되면 각 클러스터 별로 포함되어 있는 NGS reads의 개수를 발현 수치 값으로 환산하

여 Digital Expression Profile(DEP)를 작성하게 되며 이는 마치 마이크로어레이의 intensity를 이용한 분

석법과 같이 분석하게 된다[17, 18]. 이때, 실험적인 바이어스와 생물학적 컨디션을 고려한 다양한 통계

적 방법이 이용된다.

다음 연재에서는 Expression study 중에 먼저 여러 조직에서 다양한 발형 양을 보이는 유전자의 경우

각 조직마다의 발현양을 계산하는 방법인 Digital Expression Profile(DEP) 작성하는 방법에 대해 알아보

도록 하겠습니다.


연재9 : [Quipu Issue Paper] Expression Study Ⅱ- Digital Expression Profile(DEP)

이번 연재에서는 Next Generation Sequencing 의 두 번째 Application 인 Expression study 중에 Digital

Expression Profile(DEP) 작성하는 방법에 대해 알아보도록 하겠습니다.

2-2-1. Digital Expression Profile (DEP)

동일한 유전자로 부터 발현된 mRNA 의 양은 중복된 NGS reads 의 개수를 계산함으로써 알 수 있다.

따라서 클러스터링 과정을 통해 중복된 reads 를 동일 유전자에서 유래한 하나의 서열로 만들 수 있고

이렇게 형성된 unigene 의 reads count profile 은 결국 mRNA 의 expression profile 과 동일시 볼 수

있다[3]. 여러 조직에서 다양한 발현 양을 보이는 유전자의 경우 각 조직마다의 발현양은 시퀀싱된

reads 개수를 계산하는 방법으로 Digital Expression Profile(DEP)의 초기 데이터인 Cluster member

matrix 를 만들 수 있다(그림 2)[10, 17]. 앞서 언급한 마이크로어레이 분석에서도 Intensity value 를 실제

분석에 앞서 다양한 정규화과정(Normalization)을 수행하는 것과 같이 DEP 에서도 두 단계의

정규화과정을 통해 최종적인 DEP 를 완성한다[2].

그림 2. Cluster Member Matrix(CMM).

Clustering 을 통한 유전자 발현 counting. De novo assembly 를 통해

각 cluster(consensus sequence) 마다의 NGS reads 를 조직별로 counting 하여

Digital Expression Profile(DEP)의 초기데이터인 clutser member matix 를 완성한다.

A. Library Normalization

특정 라이브러리가 다른 라이브러리들에 비해 유독 많이 시퀀싱되어 reads 의 양이 많다면,

클러스터링을 통해 얻어진 클러스터 내의 reads 또한 다른 라이브러리에 비해 많이 나타날 것이다. 이는

실제 세포내의 발현 양이라기보다는 데이터 세트 자체의 시퀀싱 개수가 많아서 생기는 것이므로

라이브러리별로 특정 유전자가 그 조직에서 얼마만큼의 발현이 이뤄졌는지를 비율을 통해 나타내야

한다. 따라서 특정 클러스터의 reads 개수에서 그 라이브러리 전체 reads 개수 만큼을 나눠주는

정규화방식이다.

B. Unigene Normalization

Library normalization 수행으로 각 라이브러리에서의 발현 비율로 unigene 의 발현 정도를 얻을 수

있다. 그러나 이때 house-keeping 유전자의 경우에 늘 많이 발현되는 유전자이므로 전체적으로 발현

비율이 높다. 반면 그렇지 않은 유전자의 경우 수치가 전체적으로 낮게 나타난다. 이럴 경우, 수치상의

차이가 너무 크기 때문에 라이브러리별 혹은 컨디션별로 유전자의 발현 패턴을 보고자 할 때 너무 높은

발현 수치로 인해 상대적으로 낮은 수치로 일정 패턴을 갖는 유전자는 그 의미가 퇴색되어진다. 이러한

점을 정규화 하기 위해 median value 로 나눠주거나, log ratio 취하여 유전자간 수치적 차이를 최소화

하게 한다. Median value 정규화 과정은 그림 3 에서 보는 것과 같이 각 클러스터(unigene) 별로 1 차

library 정규화 결과 값들을 대상으로 그 중간 값인 0.000341853(media value)로 나눠준다. 그러면 중간

정도의 발현 값을 보이는 라이브러리인 ‘ZG’ 에서는 값이 ‘1’이 나오고 되고, 세포내 전체적인 평균 발현

보다 높은 발현은 ‘1’보다 높은 수치로 정렬되며, ‘1’ 이하는 낮은 발현을 나타내게 된다. 이렇게 두

단계의 정규화 수행 후 최종적인 DEP 를 완성하게 된다.

그림 3. Digital Expression Profile (DEP).

Cluster Member Matrix(CMM)을 바탕으로 두 단계의

normalization 과정을 통해 표준화된 expression value 로 환산 된다.

이렇게 완성된 DEP 는 다양한 발현 패턴 분석에서부터 조직 특이 유전자 그리고 Ortholog 분석에도

이용된다.

다음 연재에서는 Expression study 중에 Digital Expression Profile(DEP)를 활용한 Expression pattern

분석에 대해 알아보도록 하겠습니다.


연재10 : [Quipu Issue Paper] Expression Study Ⅲ- Expression Pattern Analysis,

Tissue Specific Gene Analysis

이번 연재에서는 Next Generation Sequencing 의 두 번째 Application 인 Expression study 중에 Digital

Expression Profile(DEP)를 활용한 Expression pattern 분석과 Tissue Specific Gene 분석에 대해

알아보겠습니다.

2-2-2. Expression Pattern Analysis

DEP 를 활용하여 마이크로어레이 분석과 동일하게 다양한 조건에서의 유전자 발현을 분석한다. Fold

change 를 이용한 DEG 산출 및 hierarchical clustering, self-organizing maps, K-means clustering,

PCA(Principle component analysis) 분석을 통해 의미 있는 발현 패턴들을 정교하게 표현하기도 하고,

이들 패턴들 간의 관계를 분석하기도 한다.

그림 4 에서 보여 지는 것과 같이 모든 조직에서 일정한 비율로 발현되는 유전자는 house- keeping

유전자의 후보가 될 수 있으며, 유독 특정 조직에서만 발현되는 유전자들도 관찰 할 수 있다[2].

그림 4. DEP 를 활용한 유전자 발현 패턴 분석.

Hierarchical clustering 을 수행하여 동일한

패턴을 보이는 유전자들끼리 클러스터링 수행

조직뿐만 아니라 약물에 대한 반응성 실험을 수행 할 경우에도 time-series 라이브러리를 제작하고 여러

샘플을 한 번에 시퀀싱 할 수 있는 Multiplex Identifiers(MIDs)를 이용하여 단 시간에 많은 데이터로 이

같은 분석을 진행할 수 있다. Roche 454 의 경우 192 에서 최대 2300 개의 샘플을 한 번에 로딩하여

시퀀싱이 가능할 정도로 유연성이 있으므로 다양한 조건을 대상으로 분석에 활용할 수 있는 이점이

있다[9].

이러한 발현 분석은 종전의 마이크로어레이 분석 프로그램으로 분석이 가능하다. 대표적인 예로

Agilent 사의 GeneSpring GX 을 들 수 있다[14]. 기본적인 통계학적 분석으로 ANOVA 분석, multiple

testing corrections, FDR prediction 그리고 Tukey and Student-Newman-Keuls post hoc test 가 가능하며,

그래픽 데이터 표현으로는 2D/3D scatter plots, 2D dendrograms, 염색체 지도, pathway 다이어그램,

그리고 분류별 보기 기능으로 다양하게 표현이 가능하다.

그림 5. GeneSpring GX.

유전자 발현데이터 분석 프로그램으로 다양한 통계 분석과 가시화 프로그램이 수행된다.

발현 패턴 분석으로는 gene trees, experiment trees, self-organizing maps, K-means clustering, QT

clustering, 그리고 PCA 분석이 가능한 것으로 알려져 있다. 이 모든 기능은 데스크탑 컴퓨터에서

분석이 가능하며, 사용자 편의성이 강조된 인터페이스로 구성되어 있어, 비전문가도 쉽게 분석을 수행할

수 있다.

2-2-3. Tissue Specific Gene Analysis

조직 특이 유전자는 특정 조직에서 그 유전자의 세포내 평균 발현 양 보다 특이적으로 높게 발현 되어

특정 조직의 성격을 결정지을 수 있는 유전자를 선별하는 것을 목적으로 한다.

따라서 NGS reads 를 이용하여 분석하고자 할 때에는 조직별 라이브러리 제작 시 아무런

향을 주지 않은 정상적인 발현 상태의 라이브러리를 제작해야하며, normalization 이나 subtraction 과

같은 인위적인 선출 방식의 시퀀싱이 아닌 무작위적인 방식의 시퀀싱이 진행되어야만 한다. 무작위

적으로 일어나는 사건에 대한 확률 값을 계산하므로 포아송 분포(poisson distribution)를 이용한 Audic’s

test 를 통해 조직 특이 유전자를 선별한다[8]. 다음은 Audic’s test 를 이용한 확률 값을 구하는

수식이다.

이 때, 다양한 cutoff 파라미터를 통해 확률적으로 유의한 유전자를 선별하는데, p_value, enrichment,

frequency 그리고 클러스터내의 minimum reads count 등을 이용 할 수 있다. 이중 p_value 는 유의

수준을 나타내는 것으로 0.001 의 cutoff 는 유의 수준 99.9%를 의미하게 된다. 그러나 조직 특이 유전자

선별을 위해 한 두 개의 유전자를 대상으로 연관성 분석이 진행 되는 것이 아니라 앞서 언급된

파라미터를 통과한 모든 클러스터를 대상으로 연관성 분석이 진행하므로 검사의 개수가 증가할수록

임의로 발생하는 오류 또한 증가하여 p_value 의 의미가 감소하는 문제점이 발생하게 된다. 이를

극복하기 위해 Bonferroni correction, False Discovery Rate(FDR), 그리고 Permutation test 와 같은 다중

검정을 수행하게 된다[6, 7].

실제 분석을 위해 앞서 작성한 Cluster Member Matrix(CMM; DEP 작성시 초기 matrix)를 이용하여 각

클러스터별로 x, y, N1, N2 을 지정하여 계산할 수 있다[16]. 예를 들어 그림 3 의 표에서 클러스터 1 의

유전자가 ‘OC’ 조직에 특이적인 발현 양을 보이는지를 검사 한다고 했을 때 대상 조직의 reads 개수인

y 는 ‘10’이 되고 그 외 나머지 조직에 해당하는 reads 개수인 x 는 ‘82’가 된다. 그리고 N2, N1 은 각각

해당 조직 전체 reads 개수와 나머지 조직의 전체 reads 개수인 ‘55,840’과 ‘184,301’에 해당한다. 이러한

분석은 하나의 클러스터마다 검사해야할 조직 개수만큼 수행된다.

이번주에 이어서 다음 주에 진행될 연재에서도 Expression study 의 다양한 분석 방법에 대해 연재가

될 예정입니다. 많은 관심 부탁드립니다.

연재11 : [Quipu Issue Paper] Expression Study Ⅳ- Ortholog Analysis, Differentially

Expressed Genes(DEGs) Functional annotation

이 번주 연재에서도 지난주에 이어 Next Generation Sequencing 의 두 번째 Application 인 Expression

study 에 대한 내용으로 연재가 진행될 예정입니다. 오늘은 서로 다른 종에서 동일한 기능을 수행하는

ortholog 유전자를 분석하는 방법과 Differentially Expressed Genes(DEGs) Functional annotation 중에

Gene Categorization 을 이용한 Hypergeometric test 에 대해 알아보겠습니다.

2-2-4. Ortholog Analysis

서로 다른 종에서 동일한 기능을 수행하는 유전자들의 관계를 ortholog 유전자라고 한다. 일반적인

분석법으로는 서열 유사성을 근간으로 분석이 진행된다. COG 알고리즘에 의하면 최소 세 종 이상의

유전자가 서로 top match 로 연결이 될 때 비로소 하나의 ortholog 그룹을 형성하는 것으로 분석하고

있다[18]. 그러나 이러한 분석법에는 어느 정도의 노이즈가 존재 하므로 이를 해결하려는 시도로 여러

가지 분석법이 소개 되었다. 그중 서열 유사성에 synteny 를 접목한 분석법과 발현 패턴을 이용한

분석법이 있다. 여기서는 발현 패턴을 이용한 분석법에 대해 알아보자.

동일한 기능을 수행한다면 동일한 발현 패턴으로 조절될 것이라는 가정 하에 일정 수준 이상의 서열

유사성을 갖는 유전자들끼리 DEP 를 활용한 Pearson’s correlation coefficient 를 분석하여 ortholog

유전자를 찾는 방법이다. 다음은 Pearson's correlation coefficient 인 ‘r’을 구하는 수식이다.

두 단계로 진행되는 분석으로 일차 분석은 서열 유사성 검사이다. 단백질 수준으로 BLAST 를 수행하여

일정 수준 이상의 homology 를 갖는 유전자는 모두 분석 대상으로 한다.

그림 3 의 unigene 1 과 가장 서열상 유사한 유전자를 human 을 대상으로 분석하고자 할 때 보통 e-

value 를 파라미터로 하여 일정 수준(‘1e-10’)을 통과하는 유전자를 2 차 분석 대상자로 분류한다. 2 차

분석에서는 DEP 를 활용한 Pearson’s correlation coefficient 를 분석한다.

그림 6. DEP 를 활용한 ortholog 유전자 분석.

Tomato 와 arabidopsis 유전자 간의 DEP 를 5 개의 조직에 대해 작성하여 서열 유사성과 발현 패턴을

비교하여 ortholog 유전자를 분석하 다. (a) 서열유사성으로는 tomato 의 TC-116371 (peroxidase)과

arabidopsis 의 TC- 183341 이 가장 유사하지만 발현패턴과 함께 비교하면 TC183911 이 ortholog

유전자가 됨을 확인수 있었다. (b), (c) 모두 동일한 결과를 보이고 있다[2].

단, DEP 의 라이브러리 구성이 두 종간에 서로 일치하여야 한다. Cluster 1(Unigene 1)의 DEP 와

human 의 후보 유전자 DEP 를 1:1 로 correlation 분석을 진행하여 coefficient value ‘r’이 ‘1’에

가까울수록 서로 유사한 상관관계를 가지며, ‘-1’에 가까울수록 반대되는 상관관계를 가지고, ‘0’에

가까울수록 상관관계가 없는 것으로 해석한다[10, 19] 이러한 결과는 그림 6 의 예제에서 보다 정확한

ortholog 분석 결과를 보여 주고 있다.

2-2-5. Differentially Expressed Genes (DEGs) Functional annotation

앞서 소개한 DEP 를 활용하여 유전자 발현 패턴을 분석하면 특정 컨디션에서 높은 발현을 보이는

Differentially Expressed Genes(DEGs)을 얻을 수 있다. 같은 맥락의 조직특이 유전자들도 이에 해당

하는 것으로 이들은 특정 조건으로 묶인 만큼 공통된 생물학적 기능을 갖을 것이라 기대 하고 있다.

이를 분석 하기 위해 gene categorization 을 이용한 통계학적 분석과 텍스트 마이닝을 통한 대사회로

분석 및 발현 조절 부위 분석을 진행하게 된다.

A. Gene Categorization 을 이용한 Hypergeometric test

Gene Ontology(GO)와 같이 organism 내의 모든 유전자를 카테고리화하여 유전자 구성이 어떻게

되는지를 분석하는 것은 유전자의 기능 분석에서 일반적인 분석법 중 하나이다. 이러한 카테고리 구성

방식은 GO 와 함께 MIPS 의 FunCat 도 많이 이용되고 있는데, 이들을 이용하여 DEG 와 같은 특정

요건으로 묶인 유전자들의 기능이 어떤 카테고리에 집중되어 있는지를 hypergeometric test 를 이용하여

분석한다[12, 13]. Hypergeometric test 의 확률 값을 구하는 수식은 다음과 같다.

여기서 ‘N’은 organism 전체의 유전자 개수를 의미하며 ‘n’은 DEGs의 개수를 의미 한다. 그리고 ‘K’는 전

체 유전자 중 특정 카테고리 X(예:GO:00000345)에 해당하는 유전자 개수 이며, ‘i’는 DEGs 그룹 중 특정

카테고리 X에 해당하는 유전자 수를 의미한다. P-value cutoff와 enrichment를 이용하여 통계학적으로 유

의한 유전자의 기능을 규명한다. 이러한 분석은 다중 검정을 통해 발생할 수 있는 오류를 보정 하게 된

다(2-2-3. 조직특이 유전자 분석 참조).

다음 연재에서는 Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining을 통한

회사대로 분석, Promoter 영역 분석을 통한 발현 조절 메카니즘 분석과 RNA-Seq 분석 방법에 대해 알

아보도록 하겠습니다. 많은 관심 부탁드립니다.

연재12 : [Quipu Issue Paper] Expression Study Ⅴ- Text-mining을 통한 대사회로 분

석, Promoter 영역 분석을 통한 발현 조절 메카니즘 분석

이번 연재에서는 어제에 이어 Next Generation Sequencing 의 두 번째 Application 인 Expression

study 에 대한 내용으로 Differentially Expressed Genes(DEGs) Functional annotation 중에 Text-mining 을

통한 대사회로 분석과 Promoter 영역 분석을 통한 발현 조절 메카니즘 분석에 대해 알아보겠습니다.

B. Text-mining 을 통한 대사회로 분석

대사회로 분석은 세포내 유전자들이 생물학적으로 기능이 유사하거나 동일한 조절 기작을 통해 동일

시간상에서 유사한 발현 양상을 보일 것이라는 가정 하에 이루어진다. 선별된 유전자들(DEGs)

사이에서의 대사회로 분석을 통하여 대사회로 내에서 유전자들의 발현양상에 따라 up-regulation 혹은

down-regulation 되는지 분석할 수 있다. 또한 이들 간의 signal 관계가 upstream 에 존재하는지 down-

stream 에 존재하는지 여부를 분석할 수 있다. 이러한 분석이 가능한 프로그램으로는 Ariadne 사의

Pathway Studio 가 있다[16].

그림 7. DEG 유전자의 pathway 분석

DEGs 를 이용한 pathway 분석으로 유전자간의 조절 관계와 upsteam, downstream 단백질을 GUI 를

통한 그래픽으로 확인이 가능하다[16].

Pathway Studio 는 차등발현유전자들을 조절하는 상위 조절인자를 분석하거나 차등발현유전자들이

공통적으로 작용하고 있는 질병, 세포내 프로세스 등을 분석할 수 있는 유용한 프로그램이다.

C. Promoter 영역 분석을 통한 발현 조절 메카니즘 분석

선별된 유전자에 대해서 유전자의 발현 양을 조절하고 세포내의 항상성 유지를 위해 여러 유전자들

간의 긴 한 네트워크를 통해 이뤄지는 유전자 조절 메카니즘을 분석한다. 유전자의 구조 중에서 특히

유전자의 기능에 중요한 향을 미치는 부분은 유전자의 발현을 조절하는 프로모터 역이다.

프로모터를 포함한 유전자의 upstream 에 존재하는 전사인자 binding site 의 예측을 통해 유전자의

발현 조절이 어떠한 메카니즘을 통해 이뤄지는지를 분석한다.

그림 8. Upstream regulation 분석.

TransFac 을 활용한 DEGs 의 upstream 에 존재하는 공통된 transcription factor 를 탐색

가장 대표적인 프로그램으로 BIOBASE사의 TRNASFAC을 꼽을 수 있다[15]. 실험적으로 검증된 전사인

자들로 생물 전문가의 꼼꼼한 검증을 통해 구축된 데이터베이스는 현재 인간을 중심으로 식물, 효모R에

이르기까지 계속해서 확대 되고 있다. TRANSFAC의 서브 프로그램인 Patch와 Match를 활용하면 미지의

유전자 upstream 서열의 binding 가능한 전사인자를 검색할 수 있고, 이는 유전자 네트워크에서의 생물

학적인 의미를 찾을 수 있는 기초 데이터가 된다.

다음 연재에서는 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는

RNA-Seq기술에 대해 알아보겠습니다.


연재13 : [Quipu Issue Paper] Expression Study Ⅵ- RNA-Seq Analysis

이번 연재에서는 Next Generation Sequencing 의 두 번째 Application 인 Expression study 중에

유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할 수 있는 RNA-Seq 분석에

대해 알아보겠습니다.

2-2-6. RNA-Seq Analysis

Serial Analysis of gene Expression(SAGE), Cap Analysis of gene expression (CAGE), 그리고 Massively

Parallel Signature sequencing(MPSS)은 특정 유전자의 발현 양 정보를 얻고자 하는 목표로 수행되는

방법들이다. 이러한 방법들은 많이 이용되고 있지만 Sanger 방법에 바탕을 둔 것으로 높은 비용과 짧은

reads 는 reference 서열에 유일하게 매핑하기 힘들다는 문제점을 가지고 있다. 이러한 문제점들을

극복하기 위한 방법으로는 유전자와 엑손의 발현 및 발현된 유전자의 각종 변이 등을 한 번에 연구할

수 있는 RNA-Seq 기술이 있다[1].

표 1 에서 보는 것과 같이 RNA-Seq 을 분석 할 수 있는 프로그램에는 여러 가지 소프트웨어가 있는데

그 중에 CLC Genomics Workbench 는 annotation 된 Reference 유전체 서열과 mRNA 시퀀싱 reads 를

바탕으로 새로운 엑손의 발굴뿐만 아니라 유전자 발현 레벨을 계산할 수 있다. RNA-Seq 분석은 몇

가지 단계로 수행된다. 먼저, Reference 서열에서 모든 유전자를 추출한다. 이 때 유전자 서열의 다른

annotation 들은 보존된다[23].

다음으로 역 주변의 엑손-엑손 경계를 추출한다. 그 다음으로 모든 엑손-엑손 junctions plus 에 대한

Reference assembly 가 수행된다. 이 assembly 로부터 각각의 유전자에 대해 발현 수치가 계산되고

putative exon 을 확인할 수 있다. 발현 수치는 RPKM(reads per kilobase of exon model per milion

mapped reads)방법으로 측정된다(그림 9).

그림 9. RNA_seq analysis.

(a) exon-exon junction+gene 서열을 reference 서열로 한다.

(b) NGS reads 의 reference assembly 를 통한 alignment 를 통해

새로운 각 엑손 단위 혹은 유전자 단위의 발현양을 확인한다.

다음 연재에서는 한정적인 유전자를 좀 더 다양하게 활용할 수 있는 Alternative splicing 분석에 대해

알아보겠습니다. 많은 관심 부탁드립니다.

연재14 : [Quipu Issue Paper] Expression Study Ⅶ - Alternative splicing Analysis

이번 연재에서는 Next Generation Sequencing 의 두 번째 Application 인 Expression study 의 마지막

내용으로 한정적인 유전자를 좀 더 다양하게 활용할 수 있는 Alternative splicing 분석에 대해


2-2-7. Alternative splicing Analysis

한정적인 유전자를 좀 더 다양하게 활용하기 위한 방법으로 alternative splicing 이 이뤄지고 있다[20].

그러나 어느 유전자에서 어느 정도 alternative splicing 이 이뤄지는지는 명확하게 밝혀진 바가 없다.

NGS 이전 시대의 ESTs 와 기타 실험적인 분석으로 약 72%에 해당하는 human 유전자가 alternative

splicing 을 하는 것으로 알려졌었으나[21],

최근 NGS 를 이용한 분석으로 약 94%의 유전자가 해당하는 것으로 밝혀졌다[20]. 뇌, 간, 근육, 폐의

조직으로부터 분석한 결과 2 개 이상의 mRNA 를 만들어 내는 유전자가 92-94%에 해당한다는 것이다.

이후 이를 뒷받침하는 자료로 15 개의 조직으로부터 분석한 결과 94% 유전자가 alternative splicing 이

이뤄진다고 발표 되었다[22].

현재 까지 밝혀진 alternative form 은 대부분 8 가지 형태로 분류 되고 있다(그림 10)[20]. 가장 흔한

형태는 exon 이 카세트 형태로 들어갔다 나갔다 하는 exon skipping 이며, 그 외에도 intron 이 exon 처럼

읽혀지는 형태와 UTR 역의 variation 도 많은 부분 차지한다. 이러한 형태는 조직, 발달 단계, 그리고

기타 환경적인 자극에 의한 대처로 서로 다른 형태의 mRNA 를 발현하여 세포내 항상성을 유지하는

것으로 보고 있다[20].

실제 분석을 위해서는 위에서 언급 했듯이 다양한 조건에서 다양한 형태로 발현되므로 이를 반 하여

최대한 다양한 조건의 mRNA 를 수집하여 이를 genome 과 mapping 하고 패턴을 분석하는 것이다.

그러기 위해서는 short-reads 보다는 long reads 플랫폼을 이용한 mRNA 시퀀싱이 좀 더 많은 정보를

담고 있으므로 유용하다. 이후 reference assembly 를 통해 유전자 역에서의 transcriptom alignment

형태를 분석하여 alternative 분석을 수행한다(자세한 분석 방법은 2-4-1 C. Alternative splicing analysis

참조).

그림 10. Alternative splicing 형태[20].

다음주 연재에서는 유전자의 염기서열에는 변화를 주지 않으면서 유전자의 발현 등에 향을 주어 개체

의 차이를 나타내게 하는 현상에 대해 연구하는 Epigenomics의 분석 방법에 대해 알아보겠습니다.


연재15 : [Quipu Issue Paper] Epigenomics Ⅰ - Methylation Analysis

이번주 연재에서는 Next Generation Sequencing 의 세 번째 Application 으로 유전자의 염기서열에는

변화를 주지 않으면서 유전자의 발현 등에 향을 주어 개체의 차이를 나타내게 하는 현상에 대해

연구하는 Epigenomics 의 분석 방법에 대해 알아보겠습니다.

2-3. Epigenomics

2003 년 인간 유전체에 대한 서열해독 이후로, 유전체에 대한 기능적 분석에 연구가 증가하면서,

이른바 post genomics 시대가 도래하고 유전체 연구와 함께 이들의 발현과 작용에 대한 연구들이

활발해 지고 있다. Epigenetics 라는 분야는 이러한 흐름을 주도하는 분야로서, 유전되는 DNA 서열로만

설명이 불가능한 부분의 해석을 돕고, 보다 발전적인 유전체 연구를 목적으로 진행되고 있다.

Epigenetics 에서 가장 주요하게 여겨지는 부분은 유전자의 발현으로서, 유전자가 유전체에 존재하지만,

발현여부에 따라 세포내 역할이 달리지고, 달라진 발현양상은 유전물질처럼 후대에게도 향을 주는

것이다. 이는 기존의 유전체가 답하지 못했던 물음에 실마리를 제공하면서, 유전체를 좀 더 잘 이해하기

위한 수단으로 이용되고 있다[1].

그림 1. DNA methylation 에 의한 유전자 발현 및 억제

Epigenomic study 의 연구대상으로 가장 대표되는 것이 DNA-methylation 이다. DNA strand 에서 CpG

island 가 있고 이중 cytosine 이 5-methyl cytosine 으로 modification 되는 현상이다. 이러한 methylation

현상은 유전체 전반에 걸쳐 일어나는 것으로 유전자의 단백질 코딩 역이나 전사 조절 부위에서

관찰이 되며 이는 곧 유전자의 발현에 관여하게 된다[2]. 대표적인 예로 X-염색체 inactivation 을 통한

유전자 dosage 조절이나 발달과정에서 필요한 유전자들의 발현을 성장 시기에 맞춰 선택적으로 조절

하는 것이 이에 해당 한다. 뿐만 아니라 외부의 retro virus 나 transposon 의 발현 억제와 cancer 에 의한

repressor 유전자의 inactivation 기작 역시 DNA methylation 을 통해서 이루어지고 있어 질병과

관련하여 유전체 연구에서 중요하게 다뤄지고 있다.

2-3-1. Methylation Analysis

Genome methylation 을 알아보기 위한 기존의 방법은 Methylation Sensitive Restriction Enzyme

(MSRE)을 이용하거나, 살펴보고자 하는 특정 역에 해당하는 프라이머를 작성하여 PCR 을 수행 하는

방법 등이 이용되었다. 그러나 NGS 기술의 발달로 epigenetics 분야의 연구 또한 대량의 functional

gene study 가 일반화 되어가고 있다. 가장 대중적인 방법은 genomic DNA 를 추출하여 bisulfate 를

처리한 후에 NGS 를 통한 대량 sequencing 을 수행하는 것이다(그림 2).

그림 2. Genomic DNA 의 bisulfate 처리로 methylation 여부를 확인.

Methylation 되어 있지 않은 cytosines 은 bisulfite 처리로 uracil 로 바뀌게 되고 반면,

methylation 되어 있는 cytosines 에는 변화가 없어 genome 상의 서열변화로 methylation 여부를

확인한다[3].

시퀀싱 된 NGS reads 는 reference assembly 를 통해 유전체 내의 전체적인 5-methyl cytosine 의 분포를

확인 하는데 이용하게 된다. 이러한 분석은 ABI-SOLiD, Illumina 의 Solexa 그리고 Roche 454 모두

가능한 플랫폼이긴 하나 long reads 시퀀싱을 수행하는 Roche 454 가 조금 더 유용하게 이용되고

있다[3].

다음 연재에서는 단백질에 binding 된 DNA 서열을 분리하여 NGS 방식의 시퀀싱 통해 binding site 를

동정하는 방법인 CHIP-Seq 분석 방법에 대해 알아보겠습니다.


연재16 : [Quipu Issue Paper] Epigenomics Ⅱ - ChIP-seq

이번주 연재에서는 Next Generation Sequencing 의 세 번째 Application 인 Epigenomics 중에 단백질에

binding 된 DNA 서열을 분리하여 NGS 방식의 시퀀싱을 통해 binding site 를 동정하는 방법인 CHIP-

Seq 분석 방법에 대해 알아보겠습니다.

2-3-2. ChIP-seq

CHIP(chromatin-immunoprecipitation)은 특정 유전체 역에 binding 하는 히스톤이나 전사

인자(Transcription Factors, TFs)와 같이 특정 DNA 서열에 binding 하는 단백질과 genomic fragments 를

분리하기 위해 많이 응용 되어 왔다. 이 기술은 빠르게 발전하여 large-scale 의 TF-DNA interactions

혹은 chromatin packaging (histone modification 을 통한 genomic DNA 와의 packaging) 연구에 중심

기술로 자리 잡았다. CHIP-Seq 은 기존의 CHIP-chip 에서 보여 지던 해상도의 한계와 chip 에 올려 진

프로브에 대한 한계를 극복하는 방법으로 단백질에 binding 된 DNA 서열을 분리하여 NGS 방식의

시퀀싱 통해 binding site 를 동정하는 방법으로 발전하 다(그림 3). 그 결과 genome wide epigenetic

study 가 가능하게 되었다.

그림 3. CHIP-Seq 을 이용한 단백질 binding site 규명.

Genomic DNA 와 특정 단백질의 binding 후 단백질 specific antibody 를 이용하여

분리한다. 이후 단백질을 제거하고 NGS 기술을 이용하여 시퀀싱 한다[5].

CHIP-seq 은 실험적으로 짧은 DNA 절편에 binding 하는 특성 때문에 non-specific binding complex 의

background 처리가 반드시 필요하다. 이를 해결하기 위해 실험적으로는 antibody 만을 사용한 대조군을

설정하여 비교하는 방법과, 통계학적으로는 주어진 단백질이 주어진 위치에 정확하게 binding 할 확률을

계산하도록 하는 것이다. 이때 genome 전체 서열(g)에 주어진 서열(t)이 정확하게 mapping 될 확률은

t/g 로 포아송 분포 (poisson distribution) 혹은 negative binomial distribution 을 이용하여 추정하게

된다[3].

이후 consensus binding sequence 를 도출하게 되면 이를 데이터베이스로 하여 다른 종의 분석에

이용할 수 있게 된다. 이렇게 TF 와 그에 관련된 정보로 전문화 하여 구축된 데이터베이스 중 거의

유일한 곳이 BIOBASE 의 TRANSFAC 이다(그림 4)[6].

그림 4. TRANSFAC.

Transcription factor 와 binding site 및 관련

pathway 정보를 담고 있는 유일한 TF database.

TRANSFAC 은 genome 내의 유전자 upstream 분석에 기초 자료를 제공하여 유전자 조절 메카니즘

분석에 필수적으로 이용되고 있다. 실험적으로 검증된 TF 의 정보를 manual curation 을 통해 고품질의

데이터를 쌓아가고 있으며, 그간 CHIP-chip 방식의 데이터로 밝혀지던 정보들이 CHIP-seq 방식의

데이터로 전환 되면서 더욱 빠르게 진행되고 있어 이를 이용한 BIOBASE 의 데이터베이스 또한 더욱

빠르게 쌓여갈 것으로 예상된다. 뿐만 아니라 이미 human 의 경우 모든 유전자의 upstream 을 분석하여

binding 가능한 TF 를 제공하고 있으며, 이를 이용한 pathway 분석에도 많은 데이터와 분석 프로그램을

제공하고 있다. 그중 TRANSPATH 는 affymatrix data 를 이용한 발현 분석 시 DEGs 의 pathway 를

분석하는데 해당 유전자의 upstream 에 존재하는 TFs 와 관련 pathway 를 분석하여 세포내 전체적인

유전자의 기능을 살펴볼 수 있도록 하 다[6].

이러한 CHIP-Seq 은 다양한 플랫폼에서 분석이 가능한 가운데, CLC NGS Cell 을 이용하여 assembly 를

진행하게 되면 genbank 형식의 ‘.gbk' 파일을 reference 로 사용하여 GUI 형태로 유전체 전체의 분포를

확인할 수 있어 데이터 해석의 용이함을 얻을 수 있다(1-2. Assemble 참조). 또한 비슷하게 Illumina 의

Genome Analyzer 의 경우 ChIP-seq 분석을 통해 얻어진 작은 서열들을 ELAND 를 이용하여 유전체에

정렬하게 되고 그 결과는 UCSC genome browser 를 통해 유전체 내의 위치와 분포를 확인할 수

있다(그림 5).

그림 5. UCSC genome browser 를 통한 TF binding site 의 유전체 내 위치 확인.

붉은색으로 정렬된 바는 NGS 로 시퀀싱 되어진 reads 로

유전체와의 reference assemble 를 통해 위치를 확인한다.[4]

다음 연재에서는 약 2 주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 genome

annotation 에 대해 알아보겠습니다.


연재17 : [Quipu Issue Paper] Genome Annotation Ⅰ- Structural annotation

이번 연재에서는 약 2 주에 걸쳐 유전체 내의 유전자 위치와 기능을 해독하는 과정인 Genome

Annotation 에 대해 연재가 될 예정입니다. 오늘은 Genome Annotation 중에서도 첫번째 단계인

유전체 서열 내에서 유전자의 위치와 구조 정보를 밝혀내는 Structural annotation 에 대해


2-4. Genome Annotation

2009 년 현재 human 을 비롯한 mammalian 에서 microbial 까지 많은 유전체 프로젝트가 완료되었거나

진행되고 있으며, NCBI 의 사이트에서 그 내용을 확인할 수 있다. 이렇게 다양한 종에서 완료되었거나

진행 중인 유전체 프로젝트는 NGS 시대를 맞이하여 더욱 가속화 되었다. 유전체 프로젝트는 유전체

서열을 시퀀싱을 통해 추출하는 단계와 유전체 내의 유전자 위치와 기능을 해독하는 단계로 구성된다.

여기서 유전체 내의 유전자 위치와 기능을 해독하는 과정을 genome annotation 이라고 정의하며,

genome annotation 은 세 가지 과정으로 구분할 수 있다. 유전체 내의 유전자에 대한 구조적 정보를

분석하는 structural annotation, 유전자의 기능을 규명하는 functional annotation, 그리고 마지막으로

수학적 알고리즘으로 밝혀지지 않는 부분을 생물학 전문가가 면 히 분석하는 manual curation

과정으로 구성되어 있다. 이번 장에서는 genome annotation 에 대한 세 가지 과정에 대하여 구체적으로

알아보고자 한다.

2-4-1. Structural annotation

Genome annotation 의 첫 번째 단계인 structural annotation 은 유전체 서열 내에서 유전자의 위치와

구조 정보를 밝혀내는 것을 목적으로 하여 유전체 서열 전체의 유전자 지도를 완성한다. 유전체

서열에는 실제 단백질을 코딩하는 유전자 역과 그 외 나머지 역으로 크게 나눠진다. 그중 유전자는

exon 과 intron 으로 나눠지고 유전자의 발현을 조절하는 프로모터 역이 일반적으로 유전자의 앞단에

위치하고 있다(그림 1).

그림 1. Structural annotation.

유전체 내의 유전자의 위치 정보와 상세 구조정보를 규명한다.

또한 유전체 서열의 상당 부분을 차지하고 있는 반복 서열과 transposon elements 들도 유전체의

다양한 역에 존재하고 있다. 인간 유전체의 경우 약 30 억 쌍의 염기서열 중 실제 단백질로 코딩되는

역인 엑손 역은 전체 염기 중 단 1%에 불과하다. 99%의 나머지 서열은 non-cording RNA, intron,

repeat, regulation 역이 대부분 차지하고 있다. 따라서 유전체에서 여러 가지 형태의 서열들에 대한

위치 정보를 다양한 데이터베이스와 알고리즘을 이용하여 분석하고 있으며, 과정은 다음과 같다(그림 2).

그림 2. Structural annotation 워크플로우.

Ab initio 와 유전체 매핑을 결합한 방식.

다음 연재에서는 진핵생물의 유전체 서열 중 가장 많은 역을 차지하는 반복서열 분석법과 유전자 모

델링 중에서 유전자의 위치를 예측하는 유전자 예측에 대해 알아보겠습니다.


연재18 : [Quipu Issue Paper] Genome Annotation Ⅱ- 반복서열 분석, 유전자 모델링

(유전자 예측)]

A. 반복서열 분석

진핵생물의 유전체 서열 중 반복 서열이 가장 많은 역을 차지하고 있다. Transposon elements 를

포함하여 simple repeat region, low complexity 역이 전체 유전체의 약 70~ 80% 가량 해당된다.

따라서 반복서열 역을 우선적으로 선별한 뒤 마스킹 작업을 통해 반복서열 역에서의 유전자 예측은

예외로 처리한다. 물론, 반복서열 역 내에도 단백질로 코딩 되는 부분이 존재 하지만, 극히 일부에

해당하기 때문에 추후에 따로 수행한다. 반복서열의 마스킹 작업은 주로 RepeatMasker

(http://www.repeatmasker.org/) 분석 프로그램을 이용하여 진행한다. RepeatMasker 는 유사성 기반의

검색을 통해 반복서열 데이터베이스에 존재하는 서열과 비교하여 유전체 내에 존재하는 transposon

element 와 retrotransposon element, rolling circles 를 추출하고, TRF(tandem repeat finder)라는 서브

프로그램에 의해 단순반복 서열을 규명한다. 이때 종별로 특이적인 패턴을 가지는 반복서열이

(http://www.girinst.org/) 존재하므로 주기적으로 최신의 반복서열 데이터베이스를 업데이트하여

분석하는 것이 좋다. 2009 년 11 월 현재 Human 을 포함하여 모두 26 종에 대한 반복서열

데이터베이스를 제공하고 있으며, 연구자가 원하는 형태의 데이터베이스를 따로 구성하여 사용할 수도

있다.

B. 유전자 모델링

단백질로 코딩되는 유전자의 위치를 결정하는 일차적인 단계로 일반적으로 Ab initio 방식과 매핑

방식을 결합하여 사용한다. 이는 수학적 알고리즘을 통해 유전자의 위치를 예측하는 유전자 예측

과정과 실제 시퀀싱하여 밝혀진 mRNA, ESTs, 단백질 서열을 유전체 서열에 매핑하여 유전자 모델을

얻는 과정으로 구성된다.

B-1. 유전자 예측

유전자 예측 과정은 대부분 HMM 모델을 이용하여 서열상의 exon 과 intron 을 예측한다. exon 과

intron 사이의 ‘GT-AG’라는 splice signal 을 인식하고 프로모터 역과 3’ signal 을 인지하는 방식으로

예측을 수행한다. 각 종마다 유전자 모델이 다르므로 정확한 유전자 모델을 설정하고 트레이닝 과정을

통해 종 특이적인 매트릭스를 형성하여 유전자 예측을 수행한다. 이때 예측 프로그램에 따라 연구자가

직접 매트릭스를 생성할 수 있도록 트레이닝을 수행할 수 있는 프로그램을 지원하는 공개용 예측

프로그램(Augustus[4], SNAP[10], GlimmerHMM[7])과 유료로 매트릭스를 구축, 제공하는 유전자 예측

프로그램(Fgenesh[6]), 그리고 주기적으로 업데이트된 매트릭스를 제공하는 프로그램(GeneId[8])으로

구분할 수 있다. 이들 중에서 가장 많이 사용되는 Softberry 사의 Fgenesh 는 다른 예측 프로그램에

비해서 정확성 및 신뢰성이 높아 국제적인 유전체 프로젝트에서도 이용되고 있다. Fgenesh 는 유전자

예측 프로그램에서 가장 핵심이 되는 매트릭스를 제작하여 유료로 서비스하고 있으며, 일반적으로

매트릭스를 제작하는데 약 한 달 정도 분석을 수행한다. 고객은 mRNA, EST, 단백질 서열을 유전체

서열에 매핑 작업을 통해 정확한 유전자 모델을 제공하게 되고, Softberry 사에서는 고객이 제공한

데이터와 공개되어 있는 서열을 대상으로 해당 유전체의 대표적인 유전자 모델 집단을 만든 후

매트릭스를 제작하게 된다. 이때, 제작된 매트릭스의 evaluation 자료도 함께 제공한다. 이후 유전자

예측 과정은 리눅스 환경에서 매우 간단하고 빠르게 진행된다. 분석 결과 또한 그림 3 에서 보여 지는

것과 같이 유전자별로 TSS(transcription start site), CDS, polyA 등으로 유전체상의 위치 정보와 방향

정보를 알기 쉬운 구조로 제공하고 있다.

그림 3. Fgenesh 분석 결과

공개용 예측 프로그램으로 EBI 에서 개발한 GeneId 와 고전적인 예측 프로그램인 GenScan,

GlimmerHMM 과 Augustus 등이 주로 이용된다. 이들 모두 유전자 예측 프로그램의 사용 시에는 간단한

명령어로 유전자 예측을 수행한다. Augustus 의 경우 분석 속도가 다른 프로그램들에 비해 느린 단점이

있다. 유전자 예측은 일반적으로 하나의 프로그램만을 사용하지 않고 여러 개의 프로그램을 동시에

사용하여 여러 개의 유전자 예측 모델을 생성한다. 이 후 유전자의 엑손, 인트론 단위로 규정화

되어있는 scoring 방식을 통해 여러 프로그램에서 중복적으로 예측된 유전자 모델을 우선적으로

채택하게 된다. 이러한 scoring 방식은 뒷부분에서 자세히 다루도록 한다.

다음 연재에서는 서열 정보를 이용하여 유전체를 정렬(Genome alignment)하는 방법에 대해

알아보겠습니다. 많은 관심 부탁드립니다

연재19 : [Quipu Issue Paper] Genome Annotation Ⅲ- 유전체 정렬(Genome

alignment)

이번 연재에서는 유전자 모델을 얻는 과정으로 서열 정보를 이용하여 유전체를 정렬(Genome

alignment)하는 방법에 대해 알아보겠습니다.

B-2. 유전체 정렬(Genome alignment)

유전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것이 mRNA 를

비롯한 실제 서열정보이다. 유전체 프로젝트를 수행하면서 Full-length mRNA 시퀀싱을 함께 진행하는

이유라고 할 수 있다. 그 외 단백질과 ESTs 서열도 유전자 구조 정보를 제공하는 좋은 재료이다[11].

최대한 많은 양의 실제 데이터(evidence data)를 확보하여 유전체 서열과의 유사성(similarity)을 조사하고

그 위치를 파악한다. DNA 서열의 경우 BLAT[13], Sim4[14], GMAP[16], AAT[15]가 주로 이용되고,

단백질 서열의 경우 BLAST 와 wise2 package 에 존재하는 Genewise[17]를 이용한다. 유전체 서열이

매우 크므로 일차적으로 빠르게 매핑할 수 있는 BLAT 이나 BLAST 등으로 대략의 위치를 설정하고 그

외 다른 프로그램을 이용하여 좀 더 정교한 2 차 매핑을 수행하는 경우도 있다.

이때, 서열상의 유사성에 의해 유전자 모델(Evidenced Gene Model)이 결정되므로 HSP length,

coverage, identity 와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을

만드는 것이 일반적이다. 또한 언급한 대부분의 프로그램은 모두 exon/intron 신호를 인지하며 local

alignment 을 수행하고 있어 intron 이 존재하는 유전체 서열에 매핑 하기에 모두 적절한 프로그램이다.

특히 genewise 의 경우 매핑과 동시에 가능한 유전자 모델을 제시한다. 따라서 유전체 서열과

유연 관계가 가까운 이종의 단백질 서열을 매핑 하여도 좋은 결과를 얻을 수 있다. 다만, 이후

진행되는 consensus gene model 을 만들 때 score 를 적절히 조절 해야만 한다. 다양한 프로그램을

통해 얻어진 유전자 모델 정보는 모두 동일한 형태의 파일 포맷을 유지하는 것이 좋다. 대부분의

프로그램이 공통적으로 지원하는 파일 형태는 GFF3 포맷이다(그림 4).

그림. 4 GFF3 파일 포맷.

seqld/source(tool name)/type/start/end/score/strand/phase/attributes

다음 연재에서는 앞서 설명한 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene

Model 을 결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다. 많은 관심

부탁드립니다.

연재20 : [Quipu Issue Paper] Genome Annotation Ⅳ- 유전체 모델 결합(Gene model

merging)

이번 연재에서는 유전자 예측 프로그램과 단백질 서열을 유전체에 매핑하여 얻어진 Gene Model 을

결합하는 유전체 모델의 결합(Gene model merging)에 대해 알아보겠습니다.

B-3. 유전체 모델의 결합(Gene model merging)

앞서 설명한 유전자 예측 프로그램을 통해서 얻어진 Predicted Gene Model(PGM)과 mRNA, EST,

단백질 서열을 유전체에 매핑하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene

Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정하여 동일한 위치에서 중복적으로

지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM 으로 채택이 된다[3].

일반적으로 EGM 이 PGM 보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA > protein>

mRNA > EST 순으로 우선 순위를 배정한다. PGM 도 evaluation 을 통해 프로그램별 우선순위를

정해주기도 한다. CGM 을 만드는 과정은 full-length mRNA 를 가장 우선 순위로 채택하되, full-length

mRNA 가 없을 경우 단백질과 EST, PGM 이 제공하는 정보를 통해 complete CGM 을 형성한다(그림 5).

그림 5. Consensus Gene Model making

몇 가지 예시를 통해 대표 되는 유전자 모델 형성 과정을 알아보도록 하자.

첫 번째 full-length mRNA 를 통해 얻어진 EGM 이 partial 단백질과 ESTs 에 의해 공통적으로

exon/intron 정보를 제공 받아 complete CGM 을 형성하 다(그림 6 의 case1). 다음은 mRNA EGM 이

없고 단백질 EGM 이 가장 높은 가중치를 갖는 유전자 모델이 되어 EST 가 제공하는 3’ 정보를 통해

complete CGM 을 형성한 경우 이다. 이때 EST EGM 은 단백질 EGM 의 partial 형태로 동일한

exon/intron 구조를 보이고 있다. 세 번째는 mRNA, 단백질 모두 존재하지 않고 partial ESTs EGM 만

존재할 때 EST EGM 하나 하나는 모두 낮은 가중치이나 동일한 위치에서 동일한 exon/intron 구조로

여러 ESTs EGM 이 지지하고 있으므로 CGM 을 형성할 수 있다. 또한 일정부분 동일한 유전자 구조를

갖는 PGM 으로부터 3’ 정보를 제공 받아 complete CGM 을 형성하 다. 마지막 네 번째 경우 세 번째

경우와 동일하게 PGM 과 EST EGM 이 존재하는 가운데 두 gene model 이 서로 상이한

exon/intron 구조를 보이고 있어 어떠한 CGM 도 만들 수 없는 상황을 보여주고 있다. 만약 PGM 만이

존재할 경우라도 여러 프로그램을 통해 얻어진 PGM 이 모두 동일한 exon/intron 구조를 갖는다면

CGM 을 형성 할 수 있다. 대부분의 genome annotation 에서 evidence 데이터를 충분히 갖추고

진행되기란 쉽지 않다. 따라서 종종 Evidenced Gene Model(EGM) 없이 Predicted Gene Model(PGM)

만으로 Consensus Gene Model(CGM)을 만드는 경우가 존재한다.

그림 6. Consensus gene model 만들기

이러한 유전자 모델을 형성하는 프로그램으로는 Tigr 에서 공개 소스로 제공하는 EVModeler[9]가 있다.

Perl 스크립트로 구성된 프로그램은 GFF3 포맷의 gene model 정보를 입력받아 정해진 gene model 별

가중치를 토대로 Consensus Gene Model 을 제시한다.

C. Alternative splicing analysis

다양한 유전자 모델을 통해 Consensus Gene Model 을 형성하고 나면 이후 alternative splicing 분석을

위해 transcripts 를 분석한다[12]. mRNA, ESTs, 단백질, NGS reads 서열이 제공하는 다양한 transcripts 를

consensus gene model (CGM)에 비교하여 alternative transcript model 을 제시 한다. 이후 조직 특이적인

alternative transcripts 나 cancer specific alternative transcripts 분석으로 biological meaning 에 초점을

두고 분석을 진행하게 된다[3].

그림 7. Alternative splicing 분석

다음 연재에서는 유전자의 기능을 분석하는 방법 중에 먼저 상동성 기반의 Annotation 에 대해

알아보겠습니다. 많은 관심 부탁드립니다

연재20 : [Quipu Issue Paper] Genome Annotation Ⅴ- Functional annotation(상동성

기반의 Annotation)

이번 연재에서는 유전자의 기능을 분석하는 Functional annotation 중에 먼저 상동성 기반의

Annotation 에 대해 알아보겠습니다.

2-4-2. Functional annotation

A. 상동성(homology) 기반의 Annotation

유전체 서열에서 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤 그 서열 정보를

통해 유전자의 기능을 유추 한다. 가장 보편적으로 유전자의 기능을 분석하는 방법이 상동성 기반의

분석이다. 다만, 상동성 분석에 기반한 유전자 기능 유추 시 사용되는 데이터베이스에 따라 노이즈

발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기우려야 한다. 분석하려고 하는 종과

동일한 종의 단백질 서열을 1 차 데이터베이스로 구축하고 다음으로 유연 관계가 가까운 종을 대상으로

2 차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에

맞는 상동성 경계 값(cutoff) 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200 에서

낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DAN 수준에서의 상동성은 아무리 높은

e-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity,

HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다.

분석에 이용되는 데이터베이스는 그 특성에 따라 약간의 차이가 있다(표 1). 단백질의 기능 규명을

위해 단백질의 1 차 구조인 서열 정보부터 2 차 구조정보인 도메인 정보, 3 차 구조정보에 해당하는 PDB

정보 등 다양한 데이터베이스가 이용된다. 뿐만 아니라 세포내 위치 정보를 통해 기능을 유추하기도

하므로 세포내 위치 정보까지 가능한 모든 정보를 분석할 수 있는 흡사 유전자 기능 백화점과 같은

유전자 기능에 대한 정보 분석이 요구된다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는

다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은

데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히

복잡한 대규모 분석 시스템이 요구된다. BioMax 사에서는 초기 인간 유전체 기능 분석부터 수백 종의

미생물, 다양한 척추동물, 식물 등의 기능 분석을 수행한 Pedant-

Pro(http://www.biomax.com/products/pedantpro.php)라는 유전체 구조, 기능 분석 자동화 시스템을

서비스하고 있다.

Pedant-Pro 에서는 크게 세 가지 카테고리로 구성된 데이터베이스를 통해 단백질의 기능을 규명하고

있다. 첫 번째, 단백질의 1 차 구조인 서열정보를 이용한 분석으로 GO, MetaCat, FunCat, EC, COGs

데이터베이스를 활용한다(표 2).

단백질의 기능 분석은 DAG 구조를 이용한 계층화 방법으로 다중 기능을 수행하는 단백질의 특성에

맞게 GO 와 FunCat 을 이용하고 있으며, 그 중 MetaCat 은 metabolization 분석에 이용되며 EC 는

단백질의 enzymatic function 에 각각 초점을 두어 이차적인 세포내 대사회로 분석의 기초자료를

제공하고 있다. COGs 는 종간의 ortholog 그룹 정보를 데이터베이스로 구축한 것으로 유사 기능을 갖는

단백질들을 그룹화하여 기능을 유추하는데 도움을 주고 있다. 두 번째로는 단백질의 이차구조정보를

이용한 분석이다. 단백질의 hydrophobicity 에 기반을 둔 transmembrane helice 및 site prediction 을

수행하는 HMMTOP, TMHMM 그리고 단백질의 signal peptides 및 cleavage site 를 예측하는 SignalP

분석이 이에 해당된다.

그림 8. Pedant-Pro 유전자 기능 분석 결과 리포트.

Pedant-Pro 의 유전자 구조, 기능 분석 리포트는 웹으로 확인할 수 있으며, 윈도우 방식의 디렉토리/폴더

구조로 각 분석 결과들이 구성되어 있으므로, 연구자가 쉽게 다양한 정보를 습득할 수 있다. 분석 결과

리포트는 다양한 공개 데이터베이스와의 연계 정보와 단백질의 도메인 정보, FunCat 과 같은 기능 분류

정보등과 같은 다양한 특징적인 정보들을 볼 수 있다. 또한 단백질의 1 차, 2 차, 3 차 구조에 대한

정보와 단백질의 Paralog 클러스터 정보 등을 확인할 수 있다.

단백질의 서열 정보에 기반하여 얻어진 단백질 내의 도메인 정보는 프로파일 과정을 통해 서로 비슷한

도메인 프로파일을 갖는 단백질들 간의 클러스터 분석에 이용된다. 단순 서열 상동성에서 벗어나 좀 더

구체화된 기능을 중심으로 유전자의 기능을 유추하는 방법을 Pedant-Pro 에서 제시하고 있다(그림 9).

유사한 방법으로 synteny 구조를 이용한 ortholog 분석이 있다. 유연관계가 가까운 종과의 synteny

분석을 이용해 유전자의 기능 뿐 아니라 염색체 내의 물리적 위치정보까지 이용하여 유전자의 기능을

규명하게 된다. 이들 방법들은 종간 ortholog 분석에 기초한 비교유전체 분야에 주로 이용되며 그

자세한 내용은 다음에서 다루도록 한다.

그림 9. 도메인 profile 을 이용한 protein cluster 분석

다음 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를

밝히는 비교유전체 분석에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

연재21 : [Quipu Issue Paper] Genome Annotation Ⅵ - Functional annotation(비교유

전체 분석)

이번 연재에서는 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를

밝히는 비교유전체 분석에 대해 알아보겠습니다.

B. 비교유전체 분석

서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는

비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다. Ortholog 란 한 개체가 진화되어 여러

종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다.

미생물의 경우 단순 ortholog 분석에서 확장되어 오페론 단위의 유전자 그룹을 유전체 상의 위치

정보와 함께 분석하는 Positional linkage 방법이 매우 정확하게 분석되고 있다(그림 10).

그림 10. Positional linkage. 미생물의 경우 보통 operon 상에서 유사한 기능을 수행하는 단백질들끼리

서로 이웃하여 존재하므로 이를 positional linkage 를 통해 정보를 확인한다.

진화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게

된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여

프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도

최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을

갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다(그림

11).

그림 11. Phylogenetic 프로파일링

다음 연재에서는 수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이

발생한다. 이러한 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional

Curation 에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

연재22 : [Quipu Issue Paper] Genome Annotation Ⅶ - Professional Curation

이번 연재는 Genome Annotation 의 마지막 내용으로 수학적 알고리즘에 의한 유전자 예측으로 생각할

수 없었던 예외적인 부분을 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거치는 Professional

Curation 에 대해 알아보겠습니다.

2-4-3. Professional Curation

A. 상동성 기반의 Annotation 수정

수학적 알고리즘에 의한 유전자 예측으로 생각할 수 없었던 예외적인 사항이 많이 발생한다. 따라서

이러한 부분은 실제 유전자의 구조를 하나씩 살펴가며 수정 작업을 거쳐 최종적인 유전체 분석을

수행하게 된다. 분석 가능한 소프트웨어로는 Apollo[2] 와 Pedant-Pro 가 있다. Apollo 는 오픈 소스로

제공되며, Berkeley Drosophila Project 수행을 위해 Sanger Institute 에서 개발하 다.

유전자의 구조 정보를 편집하기 위한 프로그램으로 evidence 데이터의 alignment 정보와 structural

annotation 결과 형성된 Consensus Gene Model 정보를 같이 보며 수정 작업을 수행 한다(그림 12).

그림 12. Apollo. Consensus gene model 의 정확성을 manually curation 한다. 유전자의 길이, 위치를

직접 편집하면서 가능한 AS form 과 유전자 모델을 만들며, 이를 다시 xml 혹은 GFF 형태로 저장하여

genome browser 에 이용할 수 있도록 하 다.

입력 포맷으로 GFF3, Ensemble, XML 형식이 가능하며 Chado 데이터베이스로부터 직접 데이터를 읽어

들일수도 있다. 또한 삽입(Insertion), 삭제(Deletion), 확장(Extension), 분리(Split), 결합(Merge), 이동

그리고 변환(Replacement) 등 가능한 모든 유연한 편집 모드를 이용하여 유전자의 구조 정보를 편집할

수 있다. 또한 편집 시 필요한 주석 태그를 덧붙일 수 있는 것 또한 장점이라 할 수 있다.

B. 기능 분석 결과의 수정(functional annotation)

서열 상동성 및 도메인 정보를 통해 분석되어진 유전자의 기능 정보에서 전문가의 분석에 의존하여

알고리즘에 의한 오류를 수정하거나 분석 정보를 편집, 수정할 수 있다. 이전 페이지에서 언급한

Pedant-Pro 에서는 이와 같은 전문가의 수정 기능과 수정된 정보의 업데이트 기능을 지원하고 있어서

최종적으로 가장 정확한 유전체 분석 정보를 얻을 수 있다(그림 13). 수치상 상동성이 높은 단백질로

유전자 매핑이 이루어져야 하므로 발현 정보, 도메인 정보 등을 종합하여 단백질의 기능을 수정해야 할

때 이용하게 된다. 이러한 작업은 대부분 생물학적 지식을 갖춘 다수의 전문가들에 의해 진행되게 된다.

따라서 전문가에 의한 기능 분석 수정에 대한 이력 정보를 관리하는 것 또한 중요하다고 할 수 있다.

그림 13. Pedant-pro annotaton edition

다음주 연재에서는 NGS Application의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고

처리하는 Bioinformatics Knowledge Management에 대해 알아보겠습니다. 많은 관심 부탁드립니다.

연재23 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅰ - Next

Generation Bioinformatics

이번 연재에서는 NGS Application 의 마지막 내용으로 Next Generation Sequencing 데이터를 분석하고

처리하기 위해서 이에 적합한 새로운 형태의 생물정보학인 'Next Generation Bioinformatics'에 대해


3-1. Next Generation Bioinformatics

Applied Biosystems, Illumina 그리고 Roche 등과 같은 분석장비 개발회사에서 출시한 Next Generation

Sequencers의 출현으로 전통적인 유전체 데이터 분석법에 새로운 변화와 도전이 요구되고 있다. 이러한

Sequencer들은 전에는 생각할 수 없었던 많은 양의 시퀀스 데이터를 쏟아내고 있고 이것은 생물정보학

과 전산 생물학에 다양한 변화와 혁신을 초래하 다.

Next Generation Sequencing 데이터를 분석하고 처리하기 위해서 이에 적합한 새로운 형태의 생물정보

학, 즉 ‘Next Generation Bioinformatics’에 대한 준비를 해야 할 것이다. NGS 데이터를 다룰 수 있는

충분한 저장장치, 관리 솔루션 그리고 생물정보학 분석 파이프라인 구축이 성공적인 NGS 연구에 필수

적인 요소이다.

현재 대다수의 생물정보학 전문가들은 생물학자들이 다루기 힘든 커맨드 라인 방식의 데이터 처리로

실험 연구자들과의 분석 결과 검토를 위한 자료를 따로 작성하고 있다. 이는 생물학 데이터가 NGS의

도입에 의해 폭발적으로 증가된 상황에서는 매우 소모적인 것으로 실험 연구자들이 쉽게 분석결과를 검

토하고 판별할 수 있는 플랫폼 개발이 요구되며, 직관적이거나 그래픽 사용자 인터페이스에 대한 요구

를 좀 더 다양하게 충족시켜야 함을 나타낸다. 뿐만 아니라 대부분의 초기 분석이 리눅스와 같은 유닉

스 환경에서 이뤄지고 있고, 생물학적 의미론을 분석하는 단계에서는 대부분 실험 연구자들이 이용하는

윈도우 환경에서 이뤄지므로 이들 간의 유기적인 데이터 교류를 위한 포맷 변화도 필요한 실정이다. 따

라서 운 체제에 상관없이 NGS 데이터를 분석할 수 있으며, 서로 다른 운 체제에서도 데이터를 자유

롭게 입출력을 할 수 있는 시스템 마련이 필요하다. 또한 공동 연구 및 컨소시엄을 통한 분석 방법이

늘어나는 추세이므로, 분석 데이터를 공동으로 관리할 수 있는 데이터베이스의 구성, 분석 프로그램의

표준화 및 정규화 그리고 많은 프로그램들을 연계한 효율적인 데이터 분석 파이프라인 구축 또한 요구

된다.

앞으로 NGS 데이터는 임상 진단과 개인 맞춤 의약 연구에 직접적으로 이용되어질 전망이다. 이에 앞서

언급된 차세대 생물정보학에 대한 다양한 요구들이 쏟아질 것이다. 이러한 문제들이 해결되지 않는다면

조만간 생물정보학이 생물학 관련 연구에 큰 걸림돌이 될 수 있을 것이다[1].

다음 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에

대해 알아보겠습니다. 많은 관심 부탁드립니다.

연재24 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅱ- Data

Management for Web 2.0 Era

이번 연재에서는 웹 2.0 시대에 맞추어 다양한 분야에서 생산된 데이터를 효율적으로 관리하는 방법에

대해 알아보겠습니다.

3-2. Data Management for Web 2.0 Era

최근 들어 웹 2.0 에 대한 논란이 뜨겁다. 비단 IT 에서 뿐만 아니라 일상생활에서도 웹 2.0 이라는

용어는 어렵지 않게 들을 수 있게 되었다. ‘O'Reilly Media’에서 2003 년 처음 사용하기 시작하면서부터

대중화 된 웹 2.0 에 대한 정의를 위키피디아에서는 이렇게 정의하고 있다. 단순한 웹사이트의 집합체를

웹 1.0 으로 보고 있다면, 웹 2.0 은 웹 애플리케이션을 제공하는 하나의 완전한 플랫폼으로의

발전이다(그림 1)[2].

그림 1. Web 2.0 이란?

웹 2.0 이 세상에 알려진 지 불과 몇 년 밖에 되지 않았으나, 이제는 누구나가 쉽게 웹 2.0 으로 구축된

사이트에 자신의 데이터를 올리거나 다른 사람의 데이터를 다운로드 받는 등 이전보다 능동적으로 웹을

활용하고 있다. 위키라는 개념으로 접근한 웹 2.0 은 대 백과사전으로 알려져 있는 브리태니커

백과사전보다 더 많은 정보를 담고 있어 세계 최대의 백과사전으로 기네스북에 기록되어 있다. 2001 년

1 월 출범하여 2006 년 12 월에 기네스북에 인정되기까지 불과 6 년의 짧은 기간에 엄청난 정보가

모이게 된 가장 큰 원동력은 웹 2.0 시대에 맞춰 운 자가 절대 개입하지 않는다는 원칙하에 모든

방문자가 스스로 글을 읽고 쓸 수 있게 한 것이다. 정보의 양을 기준으로 한다면 다양한 사람들이

생산하는 데이터가 한 명이 작성한 글보다 훨씬 클 수 있으며, 다양한 사람들에 의해서 읽혀지고

수정되어 보다 정확한 정보들로 탈바꿈할 수 있다는 것이다.

(주)인실리코젠에서는 웹 2.0 시대에 맞추어 위키 시스템을 활용한 홈페이지 형식의 지식관리시스템을

재구성하 다. 이를 이용하여 프로젝트 단위의 연구에서 공동 연구자들 사이의 데이터 공유 또는

미팅과 관련된 로그 관리 등을 효율적으로 운 하고 있다. 개별 연구자들이 각자 분석업무를

업로드하고 관련 연구자들이 업데이트된 데이터를 다운로드 받거나 웹상에서 오류나 문제점을 수정,

지적하여 최종적으로는 다양한 연구 전문가 그룹에 의한 완성된 연구 결과를 도출하는 방식을 취하고

있다. 이와 같은 방식의 연구 관리는 데이터가 실험실에 존재하는 것이 아니라 웹상에 존재하면서,

인터넷만 연결된 환경에서는 장소, 시간에 관계없이 공통의 주제를 가지고 분석 업무를 수행하고

데이터를 보완 할 수 있다는 장점이 있다. 한 사람의 불완전한 지식에서 시작하여 공동 연구자 또는

다른 전문가의 지식을 포함하여 완전한 지식을 유도하는 방향을 추구하고 있는 것이다.

이처럼 다양한 분야의 생물학 역에서도 웹 2.0 의 장점을 백분 발휘하여 데이터를 축적하고, 보완하고,

관리하는 흐름을 엿볼 수 있다. 최근에는 웹 2.0 의 장점에 덧붙여서 다양한 분야에서 생산된 데이터를

어떻게 의미론적으로 재분류할 수 있는가에 보다 많은 관심이 집중되고 있다. 기존에 존재하는 지식

자원을 연구자가 검색, 통합 및 관리하기 편리하도록 의미기반 온톨로지 사이트로 구축하는 것이다.

그리하여, 최근의 많은 포탈검색사이트에서 입력된 검색어에 관한 다양한 관련 정보를 추출하여

보여주는 의미론적 검색 방법을 개발하 으며, 한국인들이 가장 많이 검색하는 네이버에서도

의미검색사이트를 개발하여 서비스하고 있다.

다음 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network

for Integrated Biology Data 에 대해 알아보겠습니다.


연재 25 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅲ- Semantic

Network for Integrated Biology Data

이번 연재에서는 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 Semantic Network

for Integrated Biology Data 에 대해 알아보겠습니다.

3-3. Semantic Network for Integrated Biology Data

쌓여있는 유전체 데이터와 각종 실험을 통해서 얻어진 수많은 데이터 사이에서 새롭게 응용할 수

있는 지식은 무엇일까? 인터넷이 발달된 최근에는 인터넷 쇼핑이 괄목할 만한 성장을 보이고 있으며,

고객들에게 좀 더 좋은 정보를 제공하고자 다양한 알고리즘 및 분석기법을 적용하고 있다. 예를 들어서

상품을 주문한 고객의 구매 목록에 대한 특징을 찾아서 비슷한 성향의 신제품이 있으면 자동으로

고객에게 이메일로 상품광고를 전달하는 것과 같은 맞춤형 광고기법이 한 예일 것이다.

이와 맞물려 생물학의 많은 데이터를 활용하여 새로운 의미를 발굴할 수 있는 방법을 찾고자 하는

연구들이 진행되고 있으며, 이와 관련한 의미론적 지식 정보 추출을 위한 시스템이 개발되고 있다. 또한

최근의 연구 동향은 단순히 데이터를 생성하고 쌓아두는 것 보다 각 생물학 데이터들의 연관관계를

도출하여 어떻게 각 데이터들을 연결하여 새로운 정보를 발굴할 것인가라는 ‘How to link between the

data’에 초점이 맞추어져 있다.

축적된 생물학 데이터에서 새로운 의미를 발굴할 수 있도록 지원하는 시스템 가운데 Biomax

Informatics AG 사 BioXM 지식관리 시스템을 꼽을 수 있다. BioXM 은 연구실 및 센터의 다양한 생물,

생명, 의학 관련 데이터에서 의미론적 정보를 추출할 수 있도록 데이터의 시맨틱 네트워크를 구축하는

플랫폼이다(그림 2).

그림 2. 데이터의 시멘틱 네트워크 흐름도

이미 미국 국립암센터(NCI)와 연계하여 시스템을 운용, 활용하여 암에 관련된 실험정보 및 분석정보,

문헌정보를 통합한 시스템을 구축한 바 있다(그림 3).

그림 3. BioXM 의 데이터 통합 개념

이와 같은 지식관리 시스템은 기존에 구축한 수많은 실험정보, 분석정보, 문헌정보들 사이의 연관관계를

도출하여 새로운 의미를 찾고자 하는 바램을 충족시켜준다. 대다수의 시스템들이 RDBMS 형식의

데이터베이스로 구축되어 있으므로, 모든 데이터의 통합에 의한 새로운 형태의 의미를 발굴하기

위해서는 기존 시스템보다 더 확장된 형태의 데이터베이스 구축 및 IT 시스템 구축이 선행되어진다.

하지만 이와 같이 단순히 시스템의 확장 구축을 통해서는 얻어질 수 있는 데이터의 유기적 연관관계는

한계를 보이게 된다. 또한 데이터베이스의 확장이 진행될수록 생물학자들의 지식이 더 많이 요구되지만

IT 와 BT 전문가의 상호 생각의 차이로 인해 최종적으로는 생물학자들이 원하는 형태가 아닌 별개의

시스템으로 구축되는 경우가 다반사이다. 이에 반해 BioXM 지식관리 시스템은 기존 데이터들을 새로운

데이터베이스 스키마를 설계하여 통합 연계하는 것이 아니라 각 생물학 데이터의 기존 의미를 알고

있는 연구자가 퍼즐을 맞춰가는 방식과 같이 edge 와 node 의 꼬리에 꼬리를 무는 방식으로 데이터들을

선택하여 서로 연계된 데이터들을 통합하고 관리하는 지식관리시스템이다. 이와 같은 방식으로

BioXM 은 Genomics, Transcriptomics, Proteomics 등 다양한 omics 데이터들과 문헌정보 등을 손쉽게

통합할 수 있을 뿐만 아니라 다양한 방법으로 데이터를 조합하여 연구자가 알고자 원하는 질문에

알맞은 답을 얻도록 지원한다.

그림 4. Object 와 Relation 에 대한 개략적인 데이터 모델

그림 5 는 환자에 관한 질병과 질병에 관련된 유전자와 대상 약물 및 임상실험과 같은 다양한 정보를

이용하여 그래픽 사용자 인터페이스 형태로 모델링을 구현한 사례를 보이고 있다. 지금 그림에서

보이고 있는 데이터 이외에 다양한 정보가 있을 경우에도 동일한 방법으로 모델링을 구현하여 좀 더

폭넓은 데이터 연관 관계도를 생성할 수 있다.

그림 5. BioXM 데이터 모델링 구현

BioXM 지식관리 시스템의 특징 및 장단점은 표 1 과 같다.

암을 연구하는 연구자들은 자신이 가지고 있는 데이터를 이용하여 다음과 같은 다양한 궁금증을 표현할

수 있으며, BioMax 사의 BioXM 과 같은 시스템을 이용하여 각 데이터들의 네트워크를 구축하면

궁금증에 대한 답변을 얻을 수 있을 것이다. 이와 같은 지식 발굴 시스템은 다음과 같은 문제점을

해결하는데 도움을 줄 수 있다(그림 6).

그림 6. BioXM 시스템을 이용한 지식 네비게이션

다음 연재에서는 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를

이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining 에 대해

알아보겠습니다. 많은 관심 부탁드립니다.

연재 26 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅳ- Gene

Network Discovery by Text-mining

이번 연재에서는 현재까지 공개 데이터베이스에 축적된 공개된 데이터 및 자신이 보유한 데이터를

이용하여 새로운 정보 및 생물학적 의미를 찾는 Gene Network Discovery by Text-mining 에 대해


3-4. Gene Network Discovery by Text-mining

최근의 생물학 연구의 이슈는 데이터를 생산하는 것보다 현재까지 공개 데이터베이스에 축적된 공개된

데이터 및 자신이 보유한 데이터를 이용하여 새로운 정보 및 생물학적 의미를 찾는 부분에 있다. 즉

데이터의 ‘생산’에서 ‘연결’로 생물정보학의 관점이 옮겨가고 있다고 할 수 있다. 따라서 다양한 분야의

실험데이터, 문헌데이터, 공개데이터 등을 네트워크 형식으로 연결하여 새로운 지식을 발굴할 수 있는

시스템이 주목받고 있다.

현재 NCBI 의 PubMed 에는 18,000,000 건 이상의 논문들이 수록되어 있으며, 하루에도 수 십편의

논문들이 새롭게 업데이트되고 있다. PubMed 에 수록되어 있는 저널들은 의학, 생명, 생물에 관련된

연구 논문들이며, 오랜 기간에 걸쳐 저널의 정보에 대한 공신력이 검증된 논문들이라고 할 수 있다.

따라서 연구자가 새로운 주제를 기반으로 하여 연구를 시작하고자 할 경우, 가장 선행되어져야 하는

것은 논문 리뷰라고 할 수 있다. 다른 사람이 비슷한 연구를 수행한 경험이 있는지, 어떠한 방법에

의해서 연구가 진행되었는지, 또한 그 결과는 어떠하 는지 등을 참조하게 된다. 이와 같은 논문 리뷰가

선행된 후 자신의 연구 방향을 설정하게 된다. 그만큼 다른 사람에 의해서 분석되어진 연구 정보가

최근 들어서는 상당히 중요하다고 할 수 있다. 더구나, 최근에는 인터넷을 이용한 데이터의 정보교환이

활발하여 엄청나게 많은 문헌 정보들을 손쉽게 찾아볼 수 있기 때문에 일정한 부분에서는 직접 실험을

하지 않더라도 그와 유사한 실험을 수행한 결과물을 얻을 수 있다. 따라서 이와 같은 문헌 정보의 모래

언덕을 잘 살펴서 보물을 찾아낼 수 있는 방법들이 주목을 받고 있다.

한 예로 Ariadne 사의 MedScan 과 Pathway Studio 는 텍스트 마이닝이라는 컴퓨터 알고리즘을 이용하여

주어진 문헌 정보에서 유전자와 질병, 화학물질, 세포내 프로세스, 대사회로와 같은 엔티티(Entity)들의

관계를 자동으로 추출하여 테이블과 다양한 그래프로 관계들을 보여주는 프로그램으로 대사회로,

유전자 조절 네트워크, 단백질 상호작용 맵과 같은 실험결과를 이해하는데 상당히 유용하다(그림 7).

Pathway Studio 는 척추동물, 식물 연구의 생물학적 연관관계, ontology 와 pathway 들의 정보를

포함하고 있는 ResNet 데이터베이스와 자연언어처리기술을 이용하여 과학문헌을 자동으로 읽고

생물학적인 관계를 추출하는 기능을 가진 MedScan 으로 구성되어 있다. MedScan 의 경우에는 약

1 천개의 논문 초록을 대상으로 생물학적인 관계를 추출하는데 2~3 분밖에 걸리지 않으므로, 대량의

수집된 논문에서 특정한 바이오마커를 발굴하거나 특정 단백질 또는 질병과 관련된 네트워크 정보를

검토하기에는 상당히 유용하다고 할 수 있다.

보통 하나의 유전자와 관계하는 다양한 정보를 찾아보기 위해서는 수많은 데이터베이스와 문헌,

웹사이트를 검색하여 그 연관관계를 하나씩 도출해야 되지만, Pathway Studio 와 같은 프로그램은 그와

같은 일련의 시간과 노동력이 상당히 투자되어야 하는 업무를 효율적으로 지원함으로써 연구자의 보다

빠르고 충실한 결과물을 얻을 수 있도록 지원한다.

그림 7. Architecture of MedScan and Pathway Studio

그림 8 은 Cholestasis 에 관련된 약물과 단백질 등의 연관관계를 Pathway Studio 를 이용하여 연구자가

쉽게 이해할 수 있는 방식의 그래프로 재구성한 것이다. 이와 같은 방법으로 복잡한 질병과 약물,

단백질 및 대사 작용의 네트워크를 시각적으로 이해하기 쉽게 제공하고 있다.

그림 8. Pathway Studio workflow diagram

그림 9 는 EMB 라는 유전자를 대상으로 관련 있는 다양한 유전자 및 질병, 약물, 세포내 프로세스 등을

연결한 그래프로서 연결되어있는 라인을 클릭하면 그림과 같이 연관관계를 표현하는 문헌정보를 확인할

수 있어 연관관계의 정확성 및 신뢰성을 뒷받침하고 있다.

그림 9. Entity 와 Relation 의 네트워크 및 관련 문헌의 확인

그림 10 은 PubMed 에서 Curcumin 과 Prostate Cancer 에 관련된 논문을 검색하여 수집된 수 십 여

편의 논문에서 MedScan 의 텍스트 마이닝 알고리즘을 이용하여 네트워크를 재구성한 것이다. 그림에서

보는 것과 같이 Curcumin 과 Prostate Cancer 사이에 있는 단백질이 Prostate Cancer 를 억제하는 역할을

한다는 정보를 검증된 문헌을 통해서 확인하는 것이다.

그림 10. MedScan 을 통한 문헌정보의 네트워크 구성

다음 연재에서는 NGS Edition 의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-

throughput Data Analysis 에 대해 알아보도록 하겠습니다.

연재 27 : [Quipu Issue Paper] Bioinformatics Knowledge Management Ⅴ-

Centralization for High-throughput Data Analysis

이번 연재에서는 NGS Edition 의 마지막 연재로 대용량의 데이터를 다루기 위한 Centralization for High-

throughput Data Analysis 에 대해 알아보도록 하겠습니다.

3-5. Centralization for High-throughput Data Analysis

최근 들어 분석하고자 하는 데이터의 용량이 기하급수적으로 늘어남에 따라 데스크탑 컴퓨터 사양으로

분석하기가 어려워지고 있다. 따라서 생물정보 전문가들의 도움이 많이 요구되지만, 한 두 명의

생물정보 전문가들이 처리하기에는 분석하고자 하는 데이터가 급격하게 증가되고 이를 활용한 연구

분야가 다양하여 대규모의 생물정보 전문가를 가용하고 있는 센터가 아닌 곳에서 모든 분석을 지원하는

것은 쉽지가 않다. 또한 유전체 분석과 같은 대규모 프로젝트가 컨소시엄 형식으로 수행되고 있는

상황에서는 다른 연구팀과의 상호 협조를 통한 공동 연구가 중요하며, 이를 위한 데이터의 공유와

관리도 중요시되고 있다. 따라서 연구자들이 공동으로 데이터를 업데이트하거나 다운로드할 수 있는

데이터베이스와 대규모의 용량을 분석할 수 있는 서버, 그리고 서버에서 분석한 결과를 개별

컴퓨터에서 확인할 수 있는 시스템의 유기적인 관계가 요구된다. 하지만 생물데이터의 형식과 이를

분석하는 프로그램의 종류가 다양하므로 데이터의 공유와 관리, 그리고 분석 프로그램의 연계가 상당히

복잡하다.

대다수의 생물학자들이 윈도우 운 체제의 컴퓨터를 사용하고 있으며 Vector NTI, DNA Star 와 같은

생물데이터를 분석하는 상용화 프로그램을 많이 이용하고 있다. 하지만 이런 상용화 소프트웨어는

윈도우에서만 사용가능하며, 분석하는 데이터의 용량 및 길이에 제한을 두고있으므로, 대규모의

데이터를 분석하는 것은 적절하지 않다.

CLC bio 사에서는 대규모의 NGS 데이터 및 대규모의 데이터를 서버에서 분석할 수 있는 CLC

Genomics Server(그림 11)와 데스크탑 컴퓨터에서 결과를 확인하고 Vector NTI, DNA Star 와 같은

다양한 분석 프로그램에서 나온 결과 데이터를 사용할 수 있는 CLC Genomics Workbench 를

개발하 다.

그림 11. Genomics Server 시스템 아키텍처

CLC Genomics Workbench 에서 CLC Genomics Server 에 NGS 데이터 및 대규모 분석 데이터를

업데이트하고 분석을 수행한 뒤 CLC Genomic Server 에서 분석되어진 결과를 CLC Genomics

Workbench 에서 확인할 수 있는 플러그인이 있다. 이를 활용하면 대규모 리소스를 필요로 하는

데이터의 분석과 데스크탑 컴퓨터에서 가능한 데이터 분석을 구분하여 연구 업무의 효율성을 증대시킬

수 있다. 또한 윈도우, 리눅스, 매킨토시 등 운 체제에 관계없이 설치가 가능하기 때문에 다양한

운 체제에서 데이터를 분석하는 연구자들이 분석결과를 공유할 수 있다. 대부분의 상용화 프로그램은

연구자들이 원하는 분석 알고리즘이 없을 경우 이후 버전의 업그레이드 내용을 기다리거나, 다른

프로그램을 이용하여 분석할 수밖에 없으므로 분석의 일관성을 유지하기 어렵고, 번거로움이

가증되었다.

하지만, CLC Genomics Server 에서는 External Application 플러그인을 적용하여 CLC Genomics

Workbench 에 설치되어 있지 않는 알고리즘 및 분석법을 커맨드라인 방식으로 설치한 후 간단한

설정을 통해 별도의 인터페이스를 만들지 않더라도 CLC Genomics Workbench 에서 데이터의 입력과

출력을 수행할 수 있으며, 분석 결과를 다른 분석에 응용할 수 있다.

그림 12 는 CLC Genomics Server 에서 external application 모듈을 설정하는 것을 보이고 있으며, 그림

13 은 external application 을 통해서 구축한 새로운 모듈을 이용하여 분석하는 화면을 보이고 있다.

이와 같이 서버급에서 분석할 수 있는 시스템과 데스크탑 컴퓨터에서 분석할 수 있는 프로그램의

연계를 통해서 생물학자들이 복잡하고 다양한 데이터를 분석하는데 많은 도움을 줄 수 있을 것이다.

그림 12. External Application of CLC Genomics Server. 자주 사용되는 커맨드라인 방식의 프로그램은

CLC Genomics Server 의 External Application 설정을 통해 별도의 인터페이스를 만들지 않고 CLC

Genomics Workbench 에서 수행할 수 있다. 이를 이용하여 사용자에 맞춰진 workbench 로 재구성할 수

있다.

그림 13. CLC Genomics Workbench 플러그인 적용. External application 플러그인으로 구축된 새로운

모듈은 CLC Genomics Workbench 에서 분석이 가능하다.

NGS(Next Generation Sequencing) 시대의 분석 전략syszone.co.kr/PDF/ngs_report.pdf · 2010....

Documents

Transcript of NGS(Next Generation Sequencing) 시대의 분석 전략syszone.co.kr/PDF/ngs_report.pdf · 2010....