Sk biomed 03 10

65
СОДЕРЖАНИЕ ФУНДАМЕНТАЛЬНЫЕ НАУЧНЫЕ ИССЛЕДОВАНИЯ  С ИСПОЛЬЗОВАНИЕМ ОМИКСНЫХ ТЕХНОЛОГИЙ Н.Янковский НАУКА 02 ВВЕДЕНИЕ  Ю.Никольский РОЛЬ БИОИНФОРМАТИКИ И АНАЛИЗА  «БОЛЬШИХ ДАННЫХ», ПРОИЗВОДИМЫХ В ОМИКСНЫХ ЭКСПЕРИМЕНТАХ М.Гельфанд БИОИНФОРМАТИКА РАЗВИТИЕ ГЕНОМИКИ И ОМИКСНЫХ ТЕХНОЛОГИЙ В РОССИИ В.Милейко МЕЖДУНАРОДНОЕ СОТРУДНИЧЕСТВО  В КОЛЛАБОРАТИВНЫХ ОМИКСНЫХ ПРОЕКТАХ Й.Хаяшизаки, О.Гусев ГЕНОМИКА 04 08 10 12 ОМИКСНЫЕ ТЕХНОЛОГИИ В  ФАРМАЦЕВТИЧЕСКОЙ ИНДУСТРИИ В.Пруцкий ФАРМАКОЛОГИЯ 14 ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕ КРУПНОГО ГОСПИТАЛЯ  И «ТРАНСЛЯЦИОННАЯ МЕДИЦИНА» Т.Татаринова ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ  ДЛЯ НАСЕЛЕНИЯ: ПОТРЕБИТЕЛЬСКАЯ ГЕНОМИКА И ГЕНЕТИЧЕСКОЕ  ТЕСТИРОВАНИЕ В КЛИНИКАХ А.Афанасьев КЛИНИКА 16 18

Transcript of Sk biomed 03 10

Page 1: Sk biomed 03 10

СОДЕРЖАНИЕ

ФУНДАМЕНТАЛЬНЫЕ НАУЧНЫЕ ИССЛЕДОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОМИКСНЫХ ТЕХНОЛОГИЙН.Янковский

НАУКА

02 ВВЕДЕНИЕ Ю.Никольский

РОЛЬ БИОИНФОРМАТИКИ И АНАЛИЗА «БОЛЬШИХ ДАННЫХ», ПРОИЗВОДИМЫХВ ОМИКСНЫХ ЭКСПЕРИМЕНТАХМ.Гельфанд

БИОИНФОРМАТИКА

РАЗВИТИЕ ГЕНОМИКИ И ОМИКСНЫХТЕХНОЛОГИЙ В РОССИИВ.Милейко

МЕЖДУНАРОДНОЕ СОТРУДНИЧЕСТВО В КОЛЛАБОРАТИВНЫХ ОМИКСНЫХ ПРОЕКТАХЙ.Хаяшизаки, О.Гусев

ГЕНОМИКА

04

08

10

12

ОМИКСНЫЕ ТЕХНОЛОГИИ В ФАРМАЦЕВТИЧЕСКОЙ ИНДУСТРИИВ.Пруцкий

ФАРМАКОЛОГИЯ

14

ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕКРУПНОГО ГОСПИТАЛЯ И «ТРАНСЛЯЦИОННАЯ МЕДИЦИНА»Т.Татаринова

ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ ДЛЯ НАСЕЛЕНИЯ: ПОТРЕБИТЕЛЬСКАЯГЕНОМИКА И ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ В КЛИНИКАХА.Афанасьев

КЛИНИКА

16

18

Page 2: Sk biomed 03 10

ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕПРЕНАТАЛЬНОЙ ДИАГНОСТИКИ: МНЕНИЕ СЕРВИСНОЙ КОМПАНИИЕ.Померанцева

ПЕРСОНАЛИЗИРОВАННАЯ МЕДИЦИНА В ОНКОЛОГИИ: ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ РАКОВЫХ ОПУОЛЕЙ И РОЛЬ ОМИКСНЫХ ТЕХНОЛОГИЙТ.Серебрийская

МИКРОБИОМ ЧЕЛОВЕКА: ПРАКТИКАИ ОМИКСНЫЕ МЕТОДЫ ИЗУЧЕНИЯД.Алексеев

20

22

24

26 КАКОВЫ ПЕРСПЕКТИВЫ ОМИКСНЫХ ТЕХНОЛОГИЙ В РОССИИ?

КАК ГОСУДАРСТВО МОЖЕТ СОДЕЙСТВОВАТЬ ИХ РАЗВИТИЮ?

НАСКОЛЬКО УБЕДИТЕЛЬНЫМ НА МИРОВОМ ФОНЕ ВЫГЛЯДИТ ОТЕЧЕСТВЕННЫЙНАУЧНЫЙ ЗАДЕЛ В ЭТОЙ ОБЛАСТИ?

МНЕНИЯ

ГЕНОМИКА В РОССИИ: ОБРАЗОВАНИЕ, НАУКА, БИЗНЕСА.Афанасьев, Е.Власова, Ю.Пеков, Е.Цымбалов, Р.Яворский

СООБЩЕСТВО

34

INDIVIDUALIZED MEDICINE FROM PREWOMB TO TOMBE.J.Topol

МИРОВОЙ ОПЫТ

42PERSONAL OMICS PROFILING REVEALS DYNAMICMOLECULAR AND MEDICAL PHENOTYPES

R.Chen, G.I.Mias, J.Li-Pook-Than, L.Jiang,H.Y.K.Lam, R.Chen, E.Miriami, K.J.Karczewski,M.Hariharan, F.E.Dewey, Y.Cheng, M.J.Clark, H.Im,L.Habegger, S.Balasubramanian, M.O’Huallachain,J.T.Dudley, S.Hillenmeyer, R.Haraksingh, D.Sharon,G.Euskirchen, P.Lacroute, K.Bettinger, A.P.Boyle,M.Kasowski, F.Grubert, S.Seki, M.Garcia, M.Whirl-Carrillo, M.Gallardo, M.A.Blasco, P.L.Greenberg,P.Snyder, T.E.Klein, R.B.Altman, A.J.Butte, E.A.Ashley,M.Gerstein, K.C.Nadeau, H.Tang, and M.Snyder

52

НАД АЛЬМАНАХОМ РАБОТАЛИ:Кирилл Каем, Юрий Никольский, Евгения Маейр, Юлия Мучник, Дэвид Новак, Александр Чернов,Роман Щербаков, Ольга Устинкова,Денис Ковардаков.

Выражаем искреннюю признатель-ность авторам статей.

НА ОБЛОЖКЕ: Сhromosomes 3D renderedon black background, www.dreamstime.com

Подписано в печать 03.10.2014.Отпечатано в ООО «Август Борг».121009, г. Москва, Шубинский пер., д. 2/3.© Составление и оформление. Фонд Сколково, 2014

Фонд «Сколково» Партнер Фонда «Сколково»

Page 3: Sk biomed 03 10

BiOMEDВВЕДЕНИЕ

2

В течение нескольких десятилетий после от-крытия структуры ДНК экспериментальнаябиология развивалась по «редукционному»пути, все более (и, заметим, очень эффек-тивно) углубляясь в детали биологическихсистем — от физиологии, цитологии и био-химических реакций до структуры белков икомплексов. Такое развитие изменилось ко-ренным образом в конце 1980-х, когда былиразработаны технологии, позволившие мно-гократно увеличить пропускную способностьдвух стандартных лабораторных методов —секвенирования ДНК и гибридизации нук-леиновых кислот. В 1986 г. Лерой Худ (LeroyHood, Калифорнийский технологический ин-ститут, Caltech) изобрел первый автоматиче-ский секвенатор ДНК. В 1989 г. Стив Фодор(Stephen P.A.Fodor, компания Affymax) создал

первый ДНК-чип (microarray), использующийтехнологию полупроводников для одновре-менного анализа экспрессии тысяч генов спомощью гибридизации нуклеиновых кис-лот. Эти две технологии положили началоэре так называемой омиксной биологии ибеспрецедентной аккумуляции «большихданных», производимых в биомедицинскихэкспериментах. В течение последующих 25лет омиксный инструментарий обогатилсямногопараллельными методами для опреде-ления концентрации и активности белков(протеомика), метаболитов (метаболомика),регуляции экспрессии генов (эпигеномика) идр. Особенно феноменален был прогресс всеквенировании ДНК, где скорость «прочи-тывания» на одном инструменте выросла в 5тысяч раз при удешевлении операции в мил-лионы раз. Сегодня полный геном человекаможет быть «прочитан» за одни сутки прицене в $1,000.

Омиксные методы революционизировалиметодологию экспериментальной биологии,анализа данных и технологию развития ле-карств; они все больше внедряются в прак-тику медицины и повседневную жизнь. В науке более 70% заявок на исследова-тельские гранты в США и Европе предпола-гают использование, по крайней мере,одной омиксной технологии. Фармацевтиче-ские компании применяют новые методы вразных целях: от токсикогеномики и репози-ционирования лекарств до мониторинга па-циентов в клинических испытаниях(ведущие компании проводят до 10 различ-ных омиксных тестов для каждого пациентав фазе II). В онкологической клиническойпрактике секвенирование и генотипирова-ние на чипах широко используются дляопределения мутаций и патологического пе-репрофилирования экспрессии генов в ра-ковых опухолях.

Омиксное генотипирование также повсе-местно проводится для обследования роди-телей и новорожденных в пренатальнойдиагностике. Наконец, взрослое населениеразвитых стран уже осведомлено о тестах23andMe и других компаний «потребитель-

ВВЕДЕНИЕ

Автор: Юрий Никольский, кандидат биологических наук, директор по наукекластера биомедицинских технологий Фонда «Сколково»

Page 4: Sk biomed 03 10

BiOMED

3

Партнер Фонда «Сколково»

ской геномики», проводящих недорогое ге-нотипирование для всех желающих, показы-вающее генетическое родство,объясняющее фенотипические черты ипредсказывающее предрасположенность копределенным болезням.

Новые технологии дали мощный толчок раз-витию нескольких областей индустрии.Омиксная биология привела к появлениюновых инструментов, роботизированныхстанций, программного обеспечения для об-работки и анализа данных и развития спе-циализированных сервисов. Быстроеразвитие омиксной экосистемы способство-вало рыночному буму биомедицинских тех-нологий в конце 1990-х, достигшему пика в2000-е гг., после первой публикации геномачеловека в 1998 г. Спекулятивный всплескрынка, совпавший с интернет-бумом, создалнебывалую рыночную стоимость таких ком-паний — пионеров в области омиксных тех-нологий, как Affymetrix (геномика), Incyte(секвенирование ДНК), Informax (биоинфор-матика), Milennium Science (геномика, про-теомика) и многих других. В настоящеевремя омиксный сектор представляет собоймногомиллиардную индустрию с такими ли-дерами, как Illumina (инструменты и сервисыдля секвенирования нового поколения),ThermoFisher Scientific Inc. (секвенирование,протеомика), Agilent (тесты, биоинформа-тика), Accelrys (био- и химиоинформатика) идругих.

Омиксные технологии развиваются и в Рос-сии, хотя и неравномерно. В отличие от не-которых «опоздавших» стран (Япония,Китай, Корея), в нашей стране не ведутсяработы по созданию «национального секве-натора», а производятся «тематические»микрочипы на существующих платформах. В то же время сервисный омиксный бизнеспредставлен в России достаточно широко, ав области анализа данных и биоинформа-тики российские компании и лабораторииоперируют на мировом уровне.

В этом альманахе мы решили собрать мне-ния широкого круга специалистов, активно

вовлеченных в развитие и практическое ис-пользование омиксных технологий. Нашиавторы представляют академическуюнауку: экспериментальную биологию, био-информатику, экономику, практическую ге-номику, а также ведущие клиники,сервисные компании и фармацевтическуюиндустрию. В основном мы фокусировалисьна состоянии дел на российском рынке с не-которым сравнением с западными анало-гами.

Альманах предназначен для широкого кругачитателей и не отражает мнения Фонда«Сколково» или государственных организаций.

Author: Yuri Nikolsky, Cand. Biol. Sci., Science

Director of Biomedical Technologies Cluster,

The Skolkovo Foundation

Genomics and other methods of multiparallelmolecular assays, dubbed as «omics techno-logy», have revolutionized experimental bio-logy since 1980s. New technology had deepimplementations in drug discovery, diagno-stics, data analysis and, increasingly, practiceof medicine. Omics-focused innovation ecosy-stem evolved into a multi-billion dollar industry,which is now enjoying a major breakthroughfrom research to clinical market. Russia was late with omics hardware develop-ment and is not visible on international omicsservices markets. However, Russian omicsdata analysts and bioinformaticians are regar-ded as some of the best in the world, and thecountry is fast progressing in development ofclinical applications based on omics techni-ques. In this review, we collected opinions of adiverse group of Russian professionals dealingwith new technology: academic and industrialscientists, bioinformaticians; omics serviceproviders; vendors of omics products and ser-vices for oncology, prenatal diagnostics andmicrobiome analysis. We are glad to summarize that our experts areoverall optimistic about perspectives of omicsevolution in Russia, citing our advantage in en-gineering and math-centered education andhigh level of market development, especially inconsumer genomics and clinical applications.

Page 5: Sk biomed 03 10

НАУКА

4

Самой первой из омиксных технологий сталаизвестна геномика. Она изучает не отдель-ные гены, а всю совокупность генетическойинформации, которая называется геномом.Термин «геном» был предложен почти столет назад, а выделение геномики как от-дельного направления науки произошло в1980-х, при обсуждении проекта «Геном че-ловека». Суффикс «ом» во всех «омиксных»терминах указывает, что рассматриваетсявся совокупность данных в целом.

Конечно, геномика изучает не только геномчеловека, но и геномы всех других организ-мов. Ее достижения находят применение вомногих сферах: в медицине, криминали-стике, животноводстве и растениеводстве,экологии, в решении фундаментальных во-просов происхождения и эволюции жизни.

Когда исследовательские методы позво-ляли изучать только отдельные гены, припоиске генетических основ заболеванийприходилось перебирать по одному те гены,которые могут быть связаны с болезнью.Для этого надо было предположить, какиезвенья метаболизма нарушены, и какие из-ученные к тому времени гены могут быть во-влечены в эти нарушения. Достижениеуспеха в значительной мере зависело от ин-туиции и везения исследователя.

При анализе всего генома генетический де-фект может быть найден даже в том случае,когда природа нарушения неизвестна. Вы-явив этот дефект, можно определить, какойген поврежден, на какие функции онвлияет, и, исходя из этого, разрабатыватьуже не общие стратегии лечения, а при-цельно направленные на коррекцию кон-кретного звена метаболизма.

Впервые полная последовательность нук-леотидов генома человека была определенав 2003 году. Секвенирование (определениепоследовательности, от английского словаsequence) проводилось общими усилиямилучших лабораторий мира, заняло более 10лет и обошлось в 3 млрд долларов. Сейчасразвитие технологий привело к тому, чтовесь геном человека может быть «прочтен»за несколько дней, а стоимость его секвени-рования снизилась до нескольких тысячдолларов и продолжает снижаться.

ФУНДАМЕНТАЛЬНЫЕ НАУЧНЫЕ ИССЛЕДОВАНИЯС ИСПОЛЬЗОВАНИЕМОМИКСНЫХ ТЕХНОЛОГИЙ

Автор: Николай Янковский, доктор биологиче-ских наук, член-корреспондент РАН, директорИнститута общей генетики им. Н.И.ВавиловаРАН, Москва, Россия

Суффикс «ом» во всех «омиксных»терминах указывает, что рассматрива-ется вся совокупность данных в целом.

Page 6: Sk biomed 03 10

5

Партнер Фонда «Сколково»

Секвенирование полного генома человекадает информацию предельного разрешенияо последовательности нуклеотидов. Однакомногие участки генома неинформативны.Ведь на уровне последовательностей нук-леотидов люди отличаются друг от другалишь одним нуклеотидом из тысячи. Имеетсмысл сэкономить и анализировать лишь тенуклеотиды, по которым есть различия. Длятакого анализа применяют микрочипы —короткие фрагменты ДНК, закрепленные натвердом носителе и нацеленные на распо-знавание того, какой нуклеотид стоит в за-ранее выбранных позициях в геноме.Генотип индивида определяют по тому,какие фрагменты ДНК прореагировали придобавлении к ним геномной ДНК.

Стоимость такого анализа исчисляется ужене тысячами, а сотнями долларов на обра-зец, а проанализировать одновременноможно до миллиона участков генома. Мик-рочипы для определения генотипа могутбыть нацелены не на изучение полного ге-нома (когда распознаваемые участки равно-мерно рассеяны вдоль всей геномной ДНК),а на анализ десятков или сотен генов, свя-занных с интересующим исследователя за-болеванием (например, если мы говорим окардиочипе). Еще один способ сэкономить — читать невесь геном, а только его наиболее важныечасти. Эти участки, кодирующие белки, на-зывают экзонами, а всю их совокупность —экзомом.

Секвенирование экзома позволяет выявитьмутации, нарушающие структуру белков, нодля нормального функционирования клеткиважна не только структура белка, но и егоколичество. Это количество зависит отуровня активности гена — насколько интен-сивно синтезируются на нем молекулымРНК, и от процессов, следующих за синте-зом РНК и приводящих к появлению функ-ционального белка. Эти этапы реализациигенетической информации изучают такие

разделы наук, как транскриптомика и про-теомика. Сейчас известно, что транскриби-руются не только белок-кодирующиеучастки генома, но и другие участки, связан-ные с регуляцией активности генов, продол-жительностью жизни и активностью мРНК имногими другими клеточными процессами.Важные функции выполняют некодирующиеРНК, которые не служат матрицей для син-теза белка, а сами активно вмешиваются вжизнь клетки. Они связываются с мРНК иподавляют экспрессию закодированной вней информации, модулируют — в зависи-мости от условий — всплески активностигенов, участвуют в формировании струк-

Секвенирование полного генома человека дает информацию предельного разрешения о последова-тельности нуклеотидов.

drea

mstim

e.com

Page 7: Sk biomed 03 10

НАУКА

6

туры, распознающих участков и функцио-нальных центров молекулярных машин.

Для того чтобы определить спектр и количе-ство синтезируемых в клетке мРНК, исполь-зуют различные подходы. Например,микрочипы, аналогичные тем, которые при-меняют при генотипировании, позволяютвыявить, какие мРНК присутствуют в анали-зируемом образце, и тем самым узнать,какие из генов «работают», а какие «мол-чат». Другим методом анализа спектра и ко-

ткани и изменений их спектра, количества иактивности; метаболомика, изучающая со-став и концентрации метаболитов. В послед-ние годы возникла коннектомика,направленная на изучение совокупностинервных связей (коннектома) головногомозга высших животных, включая человека.Важное направление — изучение микро-биома, то есть совокупности всех микроорга-низмов в каком-либо месте их обитания(кишечнике человека, определенномучастке и т.п.). Для этого проводится тоталь-ное секвенирование «диагностических» дляразных групп микроорганизмов участковДНК, выделенной из соответствующего био-логического материала. При ряде заболева-ний состав и количественное соотношениекомпонентов микробиома нарушаются, авосстановление или приближение к нор-мальному соотношению за счет приема про-биотиков способствует излечению.

Понятно, что всем этим «омикам» прихо-дится иметь дело с динамичными показате-лями, меняющимися на протяжении жизни, втом числе в случае болезни. Поэтому омикс-ные методы используют для поиска прогно-стических и диагностических маркеров,указывающих на развитие заболевания илина успех (либо неуспех) его лечения. Омикс-ные технологии незаменимы при поиске эф-фективных маркеров. Лучших из всехвозможных — потому что они как раз всевозможные охватывают. А после того, какмаркер (или маркеры) найден, может бытьразработана дешевая и применимая в широ-ких масштабах технология его анализа. Сей-час уже используются методы анализатранскриптома для оценки эффективностихимиотерапии при некоторых видах рака.Если лечение успешно, должна изменитьсяэкспрессия определенных генов. Если пре-парат на пациента не действует (что виднопо отсутствию ожидаемых изменений в ра-боте генов), то можно быстро изменитьсхему терапии, не ожидая недели или ме-сяцы, чтобы обнаружить неэффективностьлечения по ухудшению состояния пациента.На современном уровне развития омиксныхтехнологий становится ясно, что нужен ком-плексный подход. На геномном уровнепоследовательность нуклеотидов ДНК опре-деляет безусловное развитие болезни длямоногенных заболеваний или таких, в разви-

личества РНК является тотальное секвени-рование всех РНК образца. Поскольку моле-кулы РНК намного менее стабильны, чемДНК, то для анализа часто используюттакой прием, как синтез кДНК, то есть ДНК,комплементарной РНК и синтезированнойна РНК-матрице с помощью фермента об-ратной транскриптазы.

Еще одним уровнем сложности в реализа-ции генетической информации являетсяприжизненное модулирование активностигенов за счет химической модификации (ме-тилирования) регуляторных участков генов(сама последовательность нуклеотидовостается при этом неизменной) или модифи-кации гистонов — белков, поддерживающихструктуру ДНК. Такая модификация зависитот жизненных событий: от изменений кон-центрации гормонов или метаболитов до из-менений внешней среды, особенностейжизненного стиля или пережитых стрессов,и, что представляет особый интерес, нали-чия или отсутствия изменений, ведущих кболезни. Эти изменения изучает эпигено-мика. Еще несколько «омиков» изучают дру-гие уровни функционирования клетки иорганизма: протеомика, направленная наописание совокупности белков клетки или

При ряде заболеваний состав и количественное соотношениекомпонентов микробиома нарушается,а восстановление или приближение к нормальному соотношению за счет приема пробиотиковспособствует излечению.

Page 8: Sk biomed 03 10

7

Партнер Фонда «Сколково»

тие которых вовлечены немногие гены.Таких заболеваний около 5-7 тысяч, и встре-чаются они с низкой частотой — один слу-чай на несколько тысяч или реже. Суммарноносителями таких заболеваний являются не-сколько процентов новорожденных.

Гораздо шире распространены мультиген-ные заболевания, в которые вовлечены мно-гие гены, обычно со слабыми эффектами,взаимодействующие со средовыми факто-рами риска. К этой группе относятся сер-дечно-сосудистые, онкологические,аутоиммунные, психические и ряд других со-циально значимых заболеваний. Средитаких заболеваний небольшую долю состав-ляют моногенные формы.

Например, повреждение гена BRCA1 обна-ружено в семейных формах рака груди, амутации в генах калиевых каналов — в син-дромах нарушения ритма сердца с высокимриском внезапной смерти. То есть один итот же результат — болезнь получается при«сильной» мутации в очень важном гене илипри сочетании средовых факторов риска снабором «слабых» мутаций во множествегенов. Как и мутации, средовые факторыриска (впрямую или через эпигенетическиеизменения активности генов) меняют мета-болические процессы организма. Выявле-ние мутаций в генах, ведущих к развитиюмультифакторных заболеваний, не дает аб-солютного диагностического инструмента вруки исследователя, но позволяет «заце-

пить» тот метаболический путь, который за-действован в развитии болезни. А это ужепуть к определению фармакологической ми-шени, которая будет работать вне зависи-мости от того, вызвано заболеваниегенетическими или средовыми причинами.От генетических особенностей зависит и ин-дивидуальная реакция на лекарства.Омиксные технологии имеют огромноезначение для развития медицины и фарма-цевтики. Знание структуры геномов разныхвидов и популяций растений и животных не-обходимо для современной селекционнойработы, для понимания механизмов устой-чивости к патогенам, плодовитости или уро-жайности, районирования сортов и многихдругих направлений агробиотехнологий.

Author: Nikolay Yankovsky, Professor, Dr. Biol. Sci., Cor-

responding Member of the Russian Academy of Sci-

ences, The Vavilov Institute of General Genetics of the

Russian Academy of Sciences

Genomics, which studies the wholeness of ge-netic information, was developed as the first“omics” technology. It became widely known inmid-1980s due to human genome project. Ge-nomics methods, especially DNA sequencing,are directly applicable in medicine, criminalistics,agriculture. Genomics was followed by methodsmeasuring next steps of genome expression,RNA transcription and epigenetics; proteomicsand metabolomics. It is clear now that multiplelevels of omics data should be used together inintegrative studies resulting in biomarkers, drugtargets and other applications.

drea

mstim

e.com

Page 9: Sk biomed 03 10

БИОИНФОРМАТИКА

8

Омиксные технологии — основной источник«больших данных» в биомедицине, они по-рождают огромный объем сложных много-уровневых данных геномики, транскрипто-мики, эпигеномики, протеомики и т.д. Как ис-следуют такие данные, какую информациюможно извлечь из их совместного анализа?Какова роль биоинформатики в обеспечениитакого качества анализа, которое позволяетиспользовать его в клинической практике?

Для начала стоит рассмотреть возможностии ограничения этих технологий. Геномика —это в каком-то смысле расширение тради-ционной медицинской генетики. Разница втом, что тут рассматриваются не мутации вотдельных генах, а полный набор генетиче-ских особенностей организма. Проблема жев том, что лишь в немногих случаях эти осо-бенности позволяют делать существенныевыводы. В случае классических, так назы-ваемых менделевских, мутаций все понятно:наличие такой мутации вызывает болезнь.Однако именно в силу этой определенноститакие мутации относительно редки. Основ-ной же массив генетических вариантов вы-зывает лишь предрасположенности,проявление которых зависит от других генови от внешней среды. Некоторые предраспо-ложенности достаточно сильны, чтобы при-вести к реальным медицинским решениям(скажем, при некоторых мутациях, вызываю-щих предрасположенность к раку молочнойжелезы, назначают более частые и глубокиеобследования: в этом случае риск несвоевре-менного обнаружения опухоли перевешиваетрасходы и возможные осложнения от диагно-стических процедур). Большинство же из-вестных предрасположенностей значимылишь статистически, на больших выборках, имало что дают в конкретных случаях.

РОЛЬ БИОИНФОРМАТИКИ И АНАЛИЗА «БОЛЬШИХ ДАННЫХ», ПРОИЗВОДИМЫХ ВОМИКСНЫХ ЭКСПЕРИМЕНТАХ

Автор: Михаил Гельфанд, доктор биологическихнаук, профессор, факультет биоинформатики ибиоинженерии МГУ им. М.В.Ломоносова,Москва, Россия

drea

mstim

e.com

Page 10: Sk biomed 03 10

9

Партнер Фонда «Сколково»

Другое, недавно появившееся и стреми-тельно развивающееся ответвление гено-мики — геномика рака. Она тесно связана странскриптомикой, т.е. изучением того, скакой интенсивностью работают гены. Рак —это в первую очередь молекулярная болезнь,следствие разладки сигнальных и регулятор-ных систем клетки (кстати, ничего не напо-минает?). Нормальная клетка не делитсябесконтрольно, имеет фиксированное времяжизни, обменивается информацией с сосед-ними клетками. Более того, в каждую клеткузаложен механизм, который уничтожает ее,если какие-то системы нарушены — подобнотому, как ракета осуществляет самоподрыв,если при старте произошла нештатная ситуа-ция и ракета отклонилась от курса. В рако-вых клетках за счет мутаций в геноме и, какследствие, изменений в работе генов этотмеханизм нарушен, клетка становится бес-смертной, часто делится, приобретает спо-собность жить в несвойственном окружении(так возникают метастазы). Так вот, оказы-вается, что раки, которые традиционно счи-тали однородными, на самом деле могутвызываться разными молекулярными полом-ками и, наоборот, в раках разного тканевогопроисхождения могут быть нарушены одни ите же молекулярные системы. Исследованиеракового генома и транскриптома дает воз-можность более точной диагностики и болеетонкого назначения лекарств.

Протеомика — это следующий шаг в этом на-правлении, когда изучается не интенсив-ность, с которой с гена считываетсяинформация в виде мРНК, а количество ко-нечного продукта, белка. Но пока что, на-сколько мне известно, массовыхисследований и тем более применения ана-лиза ракового протеома не проводилось.

Можно представить себе и другие примене-ния транскриптомики, скажем, раннюю диаг-ностику потенциальных отторжений припересадке органов. Но пока что я такихработ не видел. Эпигеномика, т.е. изучениефункционального состояния генома, пока неимеет самостоятельных применений, потомучто это в каком-то смысле промежуточныеданные. В то же время исследование эпиге-номики важно для понимания биологическихмеханизмов работы генома, клеточной диф-ференциации, развития организма.

Наконец, метаболомика — это исследованиеконцентраций небольших молекул; это клас-сические биохимические анализы, только впринципиально большем масштабе. Такие ис-следования активно проводятся во многихмедицинских центрах, в том числе в некото-рых российских лабораториях. Цель их —точная постановка диагноза.

Без обширного и глубокого статистическогоанализа, т.е. без биоинформатики, исследо-вания в области омиксных технологий невоз-можны в принципе. Одной из особенностейсовременной биологии является то, что ис-чезла грань между генерацией эксперимен-тальных данных и их обработкой: соответ-ственно, биоинформатики являются интег-ральной частью команды исследователей.Впрочем, рассуждая об этих интересных во-просах, полезно иметь в виду, что доля бюд-жета России, направляемого на науку издравоохранение, сокращается. При этомуровень коррупции в медицине и в медицин-

ском образовании, по всей видимости,весьма велик; соответственно, падает квали-фикация врачей (тривиальным подтвержде-нием этому являются медицинскиеколлекции Диссернета). Полезно также по-нимать, что самый простой способ резко по-высить эффективность лечения рака — этосвоевременная диагностика и адекватная те-рапия на ранних стадиях.

Author: Mikhail Gelfand, Dr. Biol. Sci., Professor of Bio-

engineering and Bioinformatics, Lomonosov Moscow

State University, Russia

Every omics technology features has its own ad-vantages and limitations. However, all omics stu-dies are united in the requirement forbioinformatics they would be impossible without.In well-designed projects, analysis is embodied inexperimental planning from the very beginning.Fading the line between experimental data gene-ration and analysis is a characteristic feature ofmodern biology.

В правильно организованных проектахпостановка эксперимента с самого начала учитывает то, как будут анали-зироваться его результаты.

Page 11: Sk biomed 03 10

ГЕНОМИКА

10

РАЗВИТИЕ ГЕНОМИКИ И ОМИКСНЫХ ТЕХНОЛОГИЙВ РОССИИ

Автор: Владислав Милейко, кандидат биологи-ческих наук, директор Геномного центра Нано-технологического центра «Техноспарк», Москва,Троицк, Россия

– Каков современный ландшафт омиксныхтехнологий в России? Кто игроки в областисеквенирования, генотипирования, протео-мики, метаболомики и т.д.? Как развиваетсясервисный бизнес?

– На волне мирового бума омиксных техно-логий Россия активно вливается в эту пер-спективную, но непростую историю.Несмотря на то что в России стоит уже неодна сотня секвенаторов NGS (next genera-tion sequencing), большая их часть пылится вожидании запуска или работает на считан-ные проценты от своей мощности. Причин нато несколько: и перекосы в статьях финан-сирования исследований (есть деньги на до-рогую технику, но нет на расходники), иглобальный дефицит «качественных» про-ектов. А самое главное — это нехватка спе-циалистов, способных не только работать сэтими технологиями и биоинформатикойданных, но и инициировать наполненныесмыслом и востребованные исследования.

Следует, конечно, отметить и другую важ-ную особенность омиксной науки: чтобы де-лать классные проекты в секвенировании,не нужен секвенатор. Более того, необходи-мость обслуживать секвенатор, обучатьсвоих специалистов работе на нем и т.д. —зачастую непозволительная роскошь для не-больших групп исследователей. Вся пре-лесть высокопроизводительных методовзаключается в возможности уместить целыйпроект в один (а то и меньше) запуск при-бора, поэтому он запросто может стоять хотьна другом континенте. По большому счету,«домашний» секвенатор нужен только двумкатегориям исследователей. Тем, кто зани-

мается разработкой новых методологий и имнужно регулярно запускать прибор, глубокопонимая особенности его работы в разныхрежимах (НоМоТех). И тем, кто внедряетприкладные технологии в практику и дол-жен следовать строгим стандартным опера-ционным процедурам, обеспечиваябескомпромиссную надежность и воспроиз-водимость результатов (например, такимкомпаниям, как «Парсек-Лаб»).Наверное, в масштабах страны наиболееправильная стратегия — не наращиваниепарка приборов, а развитие квалифициро-ванных сервисных компаний и центров кол-лективного пользования, реализующихкомплексные решения: от участия в дизайнеэксперимента (с учетом имеющегося практи-ческого опыта) до полноценного биоинфор-матического сопровождения и анализаданных. Такой подход позволит не только

Чтобы делать классные проекты в секвенировании, не нужен секвенатор.

Page 12: Sk biomed 03 10

11

Партнер Фонда «Сколково»

увеличить доступность технологии широ-кому кругу коллективов, но и повысить самокачество реализуемых проектов.

– Нужен ли нам собственный секвенатор идругое оборудование?

– Несмотря на успешный опыт использова-ния NGS в России и неутихающую «гонку во-оружений» в разработке новых технологийсеквенирования, перспектива создания оте-чественного секвенатора выглядит туман-ной. Такой проект может быть реализовантолько большим консорциумом, включаю-щим высококлассных физиков, инженеров,химиков и молекулярных биологов. Главноетребование к такой команде — не только идаже не столько квалификация (с этим у наспроблем нет), сколько реальный опыт успеш-ного сотрудничества в аналогичных разра-ботках. На текущий момент такого опыта, ксожалению, накоплено мало.

На мой взгляд, более оправданы усилия посозданию собственной версии расходных ма-териалов для секвенирования (например,под платформу Ion Torrent), рынок для кото-рых намного больше, чем для «машин», а по-требность в дешевых расходниках невызывает сомнения, и не только в России.Может быть, таким путем мы первыми вмире сможем сделать «геном за $100».

Отдельно следует отметить перспективысоздания новых подходов к секвенированиюна базе существующих платформ. Наиболееярким примером стал успех стартапа Mole-culo. Команда из Стэнфорда с русскими кор-нями (Chief Technology Officer ДмитрийПушкарев — выпускник МФТИ) создала нанастольном секвенаторе комплексное реше-ние для «чтения» необычайно длинныхпоследовательностей — более 10Kb. Разра-ботка открыла новые возможности длясборки геномов de novo, анализа наслед-ственных заболеваний и др. Уже через годпосле первых запусков секвенатора Moleculoкупил лидер индустрии компания Illumina.В России есть все предпосылки для работынад такого рода задачами. В биологии и био-информатике, как нигде, пригодятся и рус-ская смекалка, и инженерный уклон нашегообразования. Одним таким проектом яв-ляется компания НоМоТех, разработки кото-

рой позволяют с высокой точностью секве-нировать высокогетерогенные образцы.

– Какие у нас особенности и перспективыразвития и на чем стоит сфокусироватьсяРоссии, по Вашему мнению?

– С подачи лидеров индустрии NGS стало«модно» использовать чуть ли не для любыхзадач в биологии и не только. Иной раз ка-жется, что каждый исследователь готов при-думать приложение для NGS в своейобласти, зачастую без оглядки на целесооб-разность. Тем временем в нашей стране рядважных задач остается без должного внима-ния. Это в первую очередь касается сель-ского хозяйства, пищевой промышленностии промышленной биотехнологии.Кроме того, следует бросить всю мощьомиксных технологий в ресурсодобывающуюотрасль. России, крупнейшему экспортерунефти и газа, непозволительно уделять такмало внимания новым возможностям иссле-дования как фундаментальных процессовобразования углеводородов, так и приклад-ных технологий поиска и обследования ме-сторождений. Удельная концентрацияпроектов в области медицинских омиксныхрешений в России очень высока, хотя абсо-лютное количество нам еще предстоит нара-щивать, пока NGS и другие современныеподходы не станут реальной медицинскойпрактикой.

Author: Vladislav Milejko, Cand. Biol. Sci., CEO of

the Genome Center of the Technospark Nanotech-

nology Center, Moscow, Russia

In Russia, it makes sense to develop high qualityomics service companies and shared use cen-ters. These entities should be able to run integra-ted projects with a scope of services fromexperiment design to data analysis. We can alsoparticipate in development of novel sequencingtechnologies, and international collaboration isvery important to bring the know-how to the in-dustry. We have an advantage of our engene-ering-focused education to be succesful in suchenterprises.

В биологии и биоинформатике,как нигде, пригодится русскаясмекалка.

Page 13: Sk biomed 03 10

CAГЕНОМИКА

12

МЕЖДУНАРОДНОЕ СОТРУДНИЧЕСТВО В КОЛЛАБОРАТИВНЫХОМИКСНЫХ ПРОЕКТАХ

– Омиксные проекты сложные и дорогие. Какнигде в биомедицине, в геномных исследова-ниях важно сотрудничество между на-учными коллективами. Вы представляетеколлектив, объединивший организатора кон-сорциума функционального анализа геномовмлекопитающих FANTOM и новых участни-ков проекта. Расскажите, пожалуйста, проэтот проект и ваш опыт ведения и участия вширокомасштабных международных иссле-дованиях.

– Скорость и объем получаемых в наши днигеномных данных диктуют свои условия, не-обходимые для достойного осмысления по-лучаемой информации. Мы уверены, чтопроведение широких полногеномных иссле-дований должно осуществляться в рамкахмеждународной кооперации. Проект FANTOM, ставящий целью получение де-тальных знаний о функционировании гено-мов модельных млекопитающих и человека,на наш взгляд, является успешным приме-ром такого подхода. FANTOM — это между-народный консорциум, организованныйдоктором Хаяшизаки (РИКЕН) и его колле-гами в 2000 году для функциональной анно-тации полноразмерных кДНК, полученных врамках проекта Mouse Encyclopedia. C техпор FANTOM развился и теперь включает всебя весь спектр анализа активности генома— от активности отдельных генов до полно-геномной реконструкции регуляторныхтранскрипционных сетей.

Эти ресурсы задействованы во многих про-ектах. Так, например, группа нобелевскоголауреата Синъи Яманаки (Shinya Yamanaka)использовала данные FANTOM для выборапредварительного набора из 24 факторовтранскрипции для создания плюрипотент-ных стволовых клеток. Проект развивается

Автор: Йошихиде Хаяшизаки, директор программы персонифицированной медициныРИКЕН и руководитель международного кон-сорциума Functional Annotation of the Mammalian Genome (FANTOM), Япония

Автор: Олег Гусев, со-руководитель совместнойлаборатории КФУ—РИКЕН Functional Genomics,Россия

Page 14: Sk biomed 03 10

CA13

Партнер Фонда «Сколково»

этапами, эволюционируя от анализа не-скольких тысяч кДНК в 2000 году до рекон-струкции активности транскрипционныхсетей основных типов клеток человека, ра-ковых клеток и различных этапов эмбрио-нального развития млекопитающих,законченного в 2014 году. В настоящеевремя консорциум включает более 500 человек из 20 стран.

На следующем этапе планируется анализтранскрипционной активности в более чем1000 патологических случаях в клетках.Кроме того, одним из актуальных направле-ний является получение данных об этноспе-цифических особенностях активностигенома. Это прекрасная возможность, в томчисле для потенциальных российскихучастников проекта: полученные данныебудут представлять огромный интерес как вфундаментальном плане, так и в практиче-ской области персонифицированной меди-цины. Мы уверены, что ряд геномныхцентров в России способны стать полноцен-ными партнерами проекта и самостоя-тельно осуществлять полный цикл сбора ианализа данных.

– Каковы ваши общие научные интересы и какомиксные технологии помогают их решать?

– Одним из главных стимулов в создании со-вместной лаборатории и старта совместныхисследований стала разработка специали-стами РИКЕН метода полногеномного ана-лиза активности промоторов (CAGE). Группав Казанском федеральном университетеведет несколько проектов с привлечениемгеномных методов, направленных на понима-ние основ уникальных способностей ряда жи-вотных выживать в поистине экстремальныхусловиях. Три основных проекта включаютанализ генома насекомого, африканской хи-рономиды, способной выживать при полномобезвоживании; изучение генетическихоснов устойчивости уникального вида пиявокк глубокой заморозке без потери жизнеспо-собности и исследования в области генети-ческого контроля спячки млекопитающих.

Во всех этих проектах ключевыми вопро-сами являются особенности регуляциитранскрипции в геноме. Метод CAGE яв-ляется одним из универсальных и позволяет

идентифицировать различные типы РНК(включая некодирующие), напрямую вовле-ченные в контроль работы генов в экстре-мальных условиях. А уникальныеадаптивные особенности исследуемых орга-низмов вызывают глубокий интерес япон-ских коллег.

– Известно, что планируется организация со-вместной компании для реализации одной изразработок РИКЕН в России. Расскажите,пожалуйста, об этом подробнее.

– Да, такие планы есть. Дело в том, что вЯпонии существует ряд компаний, активновнедряющих разработки научных институтов(в том числе РИКЕН) в конкретные приклад-ные проекты, например, в области геннойдиагностики. Не так давно группа россий-ских специалистов выразила интерес ктрансферу ряда технологий и в Россию, имы планируем осуществлять консультацион-ную поддержку этой инициативы. Крометого, несколько наших совместных проектовпо изучению сценариев развития при рядеформ рака на основе полногеномного ана-лиза CAGE уже в ближайшем будущем могутстать основой для разработки новых диагно-стических подходов в онкологии.

Authors: Dr. Yoshihide Hayashizaki, Preventive Medi-

cine and Diagnosis Innovation Program, RIKEN,

Program Director and General organizer of Functio-

nal Annotation of the Mammalian Genome (FAN-

TOM) International Research Consortium, and Oleg

Gusev, co-head of the joint Kazan Federal Univer-

sity—RIKEN Functional Genomics laboratory

Nowadays, large scale genomic projects wouldbe carried out as international collaborations. Forinstance, one of the largest projects, FANTOM,attracted scientists from over 20 countries. A gro-wing number of researchers use the FANTOMresults, including Nobel Prize winner Shinya Ya-manaka. Russian scientific centers should joinsuch projects. Moreover, Russian biologists areinterested in transferring some of omics techno-logies to Russia.

Ряд геномных центров в России способны стать полноценными партне-рами проекта и осуществлять полныйцикл сбора и анализа данных.

Page 15: Sk biomed 03 10

ФАРМАКОЛОГИЯ

14

ОМИКСНЫЕ ТЕХНОЛОГИИВ ФАРМАЦЕВТИЧЕСКОЙИНДУСТРИИ– Какие задачи помогают решать омиксныетехнологии в процессе открытия лекарств?

– Омиксные и, в первую очередь, геномныетехнологии появились в качестве стандарт-ных инструментов в фармацевтических ком-паниях во второй половине 1990-х годов.Поначалу их применяли для поиска и вали-дации мишеней в научных исследованиях иразработках. Однако одним из первых прак-тических применений геномики (точнее, вы-сокопроизводительного мультиплексного(high throughput) экспрессионного профили-

рования) стал анализ токсичности и без-опасности новых лекарственных веществ,так называемая «токсикогеномика». Токси-когеномика использует экспрессионныйанализ для предсказания потенциальнойтоксичности лекарственных веществ иуровня безопасности новых лекарственныхпрепаратов, находящихся на стадии разра-ботки. Параллельно омиксные технологиинашли применение в оценке фармакодина-мических параметров новых соединений,т.е. их способности индуцировать биологи-ческие изменения в модельных системах,таких как клеточные линии и лабораторныеживотные. Относительно недавно геномныетехнологии стали применяться и в клиниче-ских исследованиях: от определения био-маркеров (в первую очередь, ответа налекарства) до персонализированной тера-пии. Пожалуй, сегодня можно сказать, чтоименно поздние стадии разработки новыхлекарственных препаратов выиграют отомиксных технологий больше всех.

– Омиксные технологии – сложные, и они бы-стро эволюционируют. В какой степени фар-мацевтические компании развивают ихвнутри и насколько используют сервисныекомпании? Каковы тенденции и перспективыразвития омиксных компаний в контрактно-исследовательских организациях (КИО)?

– В целом фармацевтические компании неразвивают омиксные технологии сами: этопросто не их работа. Обычно фармацевти-ческие компании приобретают технологииили вступают в партнерство с компаниями,которые специализируются на данных тех-нологиях. В большинстве случаев фарма-цевтические компании начинают стестирования технологий внутри компанийсамостоятельно. Позже, когда технологии«созревают» до состояния «ценного мате-риала», компании предпочитают отдавать

Автор: Виталий Пруцкий, кандидат биологических наук, глава по информа-ционному обеспечению R&D, «АстраЗенека», Санкт-Петербург, Россия

Page 16: Sk biomed 03 10

15

Партнер Фонда «Сколково»

проекты на аутсорсинг в специализирован-ные сервисные организации. В некоторыхслучаях, после оценки вариантов сотрудни-чества, мы выбираем то, что реально не-обходимо, и приносим технологии обратно внаши лаборатории. Но в целом большинствопроектов сегодня осуществляется специа-лизированными сервисными поставщиками.Стандартной практикой является покупка«классическими» КИО омиксных технологийили КИО сервисных компаний. Такие транс-акции совершили, например, одни из круп-нейших мировых КИО — Covance и Quintiles.

– В какой степени российские фармацевти-ческие компании «в тренде»? Есть ли отста-вание от глобальных фармацевтическихкомпаний в отношении внедрения и исполь-зования омиксных технологий? В частности,известно, что глобальные компании широковедут секвенирование биопсий и крови вклинических испытаниях с целью определе-ния групп пациентов, хорошо отвечающих налекарство. Как обстоит дело в клиническихиспытаниях, ведущихся в России?

– С моей точки зрения, существует огром-ная пропасть в степени понимания и исполь-зования омиксных технологий междуглобальными и российскими фармацевтиче-скими компаниями. Возможно, такая боль-шая разница отражает тип развитиялекарственных препаратов в российскойфармацевтической индустрии: очень редко

это оригинальные исследования, с вовлече-нием всех стадий научно-исследователь-ского процесса. Однако с недавнеговремени мы наблюдаем примеры использо-вания омиксных технологий для демонстра-ции фармакодинамической эквивалент-ности биосимиляров, производимых россий-скими компаниями, и оригинальных препа-ратов. К сожалению, я не слышал окаком-либо широкомасштабном и система-тическом использовании омиксных техноло-гий в клинических испытаниях, проводимыхроссийскими компаниями.

Author: Vitali Proutski, Cand. Biol. Sci., Head of the

AstraZeneca Russia R&D Information Management

Omics (first of all, genomics) technologies be-came standard tools in pharmaceutical compa-nies in the second half of 1990s. First, they wereapplied for target validation in preclinical rese-arch; later they expanded to clinical trials. I be-lieve that the latter stages of drug developmentwill actually win the most from omics assays.From my perspective, there is a wide gap in un-derstanding of omics technologies between glo-bal and local pharmaceutical companies.

Существует огромная пропасть в сте-пени использования омиксных техно-логий между глобальными ироссийскими компаниями.

drea

mstim

e.com

Page 17: Sk biomed 03 10

КЛИНИКА

16

ОМИКСНЫЕ ТЕХНОЛОГИИВ ПРАКТИКЕ КРУПНОГОГОСПИТАЛЯ И «ТРАНСЛЯ-ЦИОННАЯ МЕДИЦИНА» – Какие омиксные технологии и как исполь-зуются в практике современного детскогогоспиталя? Что они добавляют к стандарт-ным методам клинической диагностики илечения?

– Детский госпиталь Лос-Анджелеса(CHLA) – это один из лучших и самых боль-ших детских госпиталей в США, который на-ходится в центре города. CHLA — частныйгоспиталь, работающий совместно со Шко-лой медицины KEKA Университета ЮжнойКалифорнии (USC). Более 60 тысяч детейежегодно получают помощь в CHLA. Иссле-довательский Институт Сабан (TSRI) — этоотделение CHLA, отвечающее за научную

деятельность госпиталя. Ученые из TSRI всотрудничестве с генетиками и лечащимиврачами проводят анализ геномных и транс-криптомных последовательностей, геннойэкспрессии, метилирования ДНК и другиеисследования. В зависимости от типа забо-левания проводятся полногеномное иссле-дование, панельное исследование группыгенов или анализ одного гена. Новые техно-логии постоянно разрабатываются, оцени-ваются, внедряются и становятся частьюежедневной работы госпиталя. Например,около полугода назад ученые из Группы молекулярной патологии и генетики приду-мали быстрый и эффективный тест для об-наружения мутаций в гене RB1, который

drea

mstim

e.com

Page 18: Sk biomed 03 10

17

Партнер Фонда «Сколково»

позволил улучшить диагностику и лечениепациентов, страдающих ретинобластомой.Практически все случаи двусторонней рети-нобластомы вызваны наследуемой мута-цией в гене RB1. Наши ученыеиспользовали подход NGS — высокопроиз-водительное секвенирование второго поко-ления, которое способно обнаруживатьточечные мутации, вставки и делеции раз-ного размера и дупликации гена RB1. Методпозволяет детектировать даже небольшойуровень мозаичных мутаций напрямую изобразцов крови. Сэнгеровское секвенирова-ние, широко использовавшееся до середины2000-х годов, обычно пропускает такие му-тации. Весь анализ занимает менее трехдней с момента выделения ДНК. Такая ско-рость позволяет провести раннюю молеку-лярную диагностику ретинобластомы исвоевременно подобрать индивидуальныйметод лечения. Каждую неделю в CHLAприезжают докладчики из разных универси-тетов и исследовательских лабораторий;проводятся семинары, школы и тренинги поознакомлению врачей и исследователей сновыми технологиями.

– Каким образом вы анализируете данные?Ведь даже в случае одного пациента могутнакапливаться гигантские массивы сиквенс-ных и других данных. Каким образом оникоррелируют с клиникой?

– CHLA имеет несколько мощных серверовисключительно для анализа и хранения кли-нических геномных данных. У нас такжеесть доступ к HPCС (High Performance Com-puter Cluster) Университета Южной Кали-форнии, где мы обсчитываем особеннобольшие массивы данных.

Мы постоянно тестируем новые биоинфор-матические программы (например, для вы-равнивания последовательностей) и базыданных мутаций и встраиваем подходящиеэлементы в наш набор программ для разныхслучаев. Биоинформатическая компьютер-ная процедура создает отчет по каждомупациенту. Этот отчет посылается медику-ге-нетику и лечащему врачу для выбора персо-нального терапевтического подхода. Всенайденные мутации и клиническая картинакаждого пациента хранятся во внутреннейбазе данных CHLA. Это позволяет анализи-

ровать старые случаи и лучше подбирать те-рапевтические методы для пациентов.

– Что такое «трансляционная медицина» икак она внедрена в практику госпиталя?

– Ученые и доктора из Детского госпиталяЛос-Анджелеса вовлечены в работу Южно-Калифорнийского Института клинической итрансляционной медицины (Southern Califor-nia Clinical and Translational Science Institute,SC CTSI). Задача SC CTSI — обеспечениелучшего здравоохранения для жителей Лос-

Автор: Татьяна Татаринова, кандидат биологических наук, профессор, Школамедицины Кека Университета Южной Калифорнии; директор лабораториивычислительной биологии, Детский госпиталь Лос-Анджелеса, США

Новые технологии постоянно разраба-тываются, оцениваются, внедряются истановятся частью ежедневнойработы госпиталя.

Page 19: Sk biomed 03 10

КЛИНИКА

18

Анджелеса, происходящих из разных иму-щественных, социальных и этническихгрупп. SC CTSI — это своего рода мост, со-единяющий ученых с лечащими врачами инаселением. Работа ведется по несколькимнаправлениям: 1) создание эффективного сотрудничествамежду учеными, докторами и пациентами; 2) ознакомление и вовлечение широкогокруга людей в научные исследования; 3) идентификация наиболее срочных задачздравоохранения и областей научных иссле-дований в Лос-Анджелесе.

Примером работы института является ис-следование сердечно-сосудистых заболева-ний латиноамериканцев, проведенное сучастием широкого круга пациентов, где ис-пытуемые сами становятся исследовате-

– Насколько методы получения и обсчетаомиксных клинических данных применимы внаше время в России?

– Проведение омиксных исследований иразработка индивидуального подхода клечению — чрезвычайно важный, но оченьдорогостоящий элемент медицины. К томуже это динамично развивающаяся область.Новые технологии устаревают в течениебуквально нескольких лет, и для приобрете-ния нового оборудования нужны дополни-тельные вложения. Мне кажется, чтопередовые российские медицинские центрыбудут использовать омиксные технологии втом же объёме, что и западные госпитали,но в массы эти технологии придут уже послеокончания экспериментальной фазы.

Author: Tatiana Tatarinova, Cand. Biol. Sci., Professor of

The Keck School of Medicine of the University of

Southern California; director of the Computational

Biology Laboratory of the Children’s Hospital

Los Angeles, USA

At our hospital, new (omics) technologies arepart of everyday life. Thus, our scientists appliednext generation sequencing (NGS) to develop aquick and efficient test monitoring mutations inRB1 gene. This test is needed for early diagno-stics of retinoblastoma and selection of indivi-dualized treatment strategy. We have severalpowerful servers for storage and analysis of cli-nical genomic data and have access to HPCС(High Performance Computer Cluster) of theUniversity of Southern California (USC) for highvolume projects. In time, omics technologies willbecome standard practice in advanced Russianresearch clinics.

Проведение омиксных исследований иразработка индивидуального подходак лечению — чрезвычайно важный, нодорогостоящий элемент медицины.

лями. SC CTSI также проводил исследова-ния эффективности различных методов те-стирования на вирус СПИД; тестированиеиспользования текстовых сообщений дляконтроля диабетиков. Во всех случаяхтрансляционная природа исследований вы-ражается в скорейшем доступе новых меди-цинских технологий, участии пациентов и ихлечащих врачей в проведении исследова-ний и ознакомлении широкой публики сважными научными результатами.

drea

mstim

e.com

Page 20: Sk biomed 03 10

19

Партнер Фонда «Сколково»

– Поясните, пожалуйста, что означает тер-мин consumer genomics? Каков спектрваших услуг, и зачем люди вообще анализи-руют свои геномы?

– Мы работаем с врачами, делаем для нихсистему анализа экзомных данных, помогаю-щую диагностировать редкие наследствен-ные заболевания. Consumer genomics — этото, чем занимаются компании 23andMe, «Ге-нотек», «Мой Ген» и др., — работа непос-редственно с частными лицами, анализ ихДНК из слюны на микрочипах и предостав-ление информации о родословной, о пред-расположенностях к тем или иныммультифакторным заболеваниям, статусеносителя по нескольким десяткам генетиче-ских заболеваний.

– Против пионера в области анализа гено-мов, американской компании 23andMe, впрошлом году FDA было вынесено указаниео частичной приостановке деятельности из-за их интерпретации генетической предис-позиции к болезням и сборе коммерческойбазы данных пациентов. Прокомментируйте,пожалуйста, этот случай. Как обстоят дела вРоссии в этом контексте?

– 23andMe обвинили в том, что они предо-ставляют пациентам медицински значимуюинформацию в обход врачей, а пациенты еемогут неправильно интерпретировать и на-нести себе вред. Собирать коммерческуюбазу данных никто никому не запрещал, за-претили выдавать именно медицинскизначимую информацию. Вокруг этого до сихпор ведутся бурные дебаты, позиция FDA невсеми принята однозначно. Что касаетсяРоссии, то у нас фактически никаких мер ре-гуляции к компаниям не применяется.

– Каковы перспективы рынка интерпретациигеномов в России и мире? Быть может, этовыглядит несколько наивно, но может пока-заться, что это «одноразовый» продукт: у насведь всего один геном, достаточно сделатьгенетический анализ лишь раз в жизни?

– Да, геном у человека действительно один,и если сделать полногеномное секвенирова-ние, то другие генетические тесты можно неделать. Но пока полногеномное секвениро-вание стоит несколько тысяч долларов. По-этому в «развлекательных» целях делаютмикрочиповое исследование (отдельные то-чечные мутации), а в медицинских — таргет-ное секвенирование (отдельные гены) илисеквенирование экзома (все гены). Надеюсь,что рано или поздно мы дойдем до поголов-ного секвенирования всех новорожденных.

Author: Andrew Afanasiev, Cand. Biol. Sci., CEO of

iBinom

Consumer genomics tests empowers doctorswith tools for analysis of exome sequence data.Patients get information about their pedigree,their mutation bearer status in regards to severaldozen monogenic diseases and predisposition topolygenic diseases. Consumer genomics marketwill become more and more attractive.

ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕДЛЯ НАСЕЛЕНИЯ:ПОТРЕБИТЕЛЬСКАЯ ГЕНОМИКА И ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕВ КЛИНИКАХ

Автор: Андрей Афанасьев, кандидат биологическихнаук, генеральный директор компании iBinom,Москва, Россия

Page 21: Sk biomed 03 10

КЛИНИКА

20

– Вы занимаетесь пренатальной ДНК-диагно-стикой и другими клиническими исследова-ниями. Какие омиксные технологии Выиспользуете в продуктах и сервисах?

– Мы используем микрочипы как для геноти-пирования точечных мутаций, так и для мо-лекулярного кариотипирования.Генотипирование на микрочипах в нашемслучае — это реакции минисеквенированияна большую панель точек. Эта технологияпозволяет нам проводить скрининг носитель-ства моногенных заболеваний. Молекуляр-ное кариотипирование мы используем дляскрининга на хромосомные аномалии эм-брионов, полученных при экстракорпораль-ном оплодотворении. При этом первымэтапом является полногеномная амплифика-ция, что позволяет получать большое коли-чество данных, используя в качествестартового материала одну лишь клетку.Кроме того, мы используем и разрабатываем

киты для ПЦР. А наиболее «чистая» гено-мика в нашем случае — это биоинформати-ческий анализ результатов полноэкзомногосеквенирования.

– Кто ваши клиенты: врачи, пациенты? В какой степени они принимают новые тех-нологии? Откуда получают информацию?

– Мы работаем и с пациентами, и с врачами.В целом и те, и другие иногда разбираются вновых технологиях по-разному. Конечно,если эти две группы сравнить напрямую,врачи ориентируются в современных мето-дах лучше. С другой стороны, если сравнить,насколько уровень знаний отличается отожидаемого, то пациенты чаще отличаются влучшую сторону, а врачи — в худшую.

Примеры высказываний пациентов по мето-дам преимплантационной генетической диаг-ностики для семей с транслокациями: «–Ты немного не права. ПЦР видит только не-сбалансированных эмбрионов. Эмбрион безтранслокации или эмбрион со сбалансиро-ванной транслокацией считаются хорошими.FISH отличает сбалансированных от несба-лансированных. Скорее всего, методики FISHотличаются в разных клиниках. – В первом проте у нас был именно FISH, мыдля него перед протом сдавали кровь, поэтой крови делали определённые маркерыдля определения транслокации, и в ответе поПГД было указано, имеет ли эмбрион транс-локацию, и если да, то какую: сбалансирован-ную или несбалансированную.»

А так воспринимают пациенты рекламную ак-тивность в форме научных публикаций:«…хоть бы не позорились, публикуют на-учные данные по разовому успеху ("впервыев России") проведения диагностики…»

ОМИКСНЫЕ ТЕХНОЛОГИИВ ПРАКТИКЕ ПРЕНАТАЛЬНОЙДИАГНОСТИКИ:МНЕНИЕ СЕРВИСНОЙ КОМПАНИИ

Автор: Екатерина Померанцева, кандидат биоло-гических наук, заведующая лабораторией меди-цинской генетики Института стволовых клетокчеловека, Москва, Россия

Page 22: Sk biomed 03 10

21

Партнер Фонда «Сколково»

Уровень владения вопросом, мне кажется,замечательный. Понятно, что не все паци-енты старательно вникают в технологии. Нов целом очевидна тенденция — увеличениеинформированности, чувства ответственно-сти за свое здоровье (в том числе за диагно-стику), уход от желания переложитьответственность на врача. Специалисты де-монстрируют более негативный тренд, кото-рый я бы условно назвала «огораживание».Полагаю, это связано с нежеланием расши-рять компетенции и желанием застрахо-ваться от ответственности за ошибки.

Медицина вообще может быть охарактеризо-вана как искусство принимать решения вусловиях неполноты информации. Почему-тов последние годы об этом стали забывать. Толи зарегулированность и схематичность про-токолов лечения тому виной, то ли избыточ-ный пресс личной ответственности.Отдельный вопрос, откуда эта неполнота бе-рется? Казалось бы, геномные данные соз-дают, скорее, избыток информации. Но этообманчивое впечатление. Большая часть ин-формации, получаемой из таких данных, – этосведения о малоизученных мутациях, клини-ческий эффект которых исследован недоста-точно, и его надо предполагать на основесобственного анализа ситуации, опыта и зна-ний. И в других областях — протеомике, ме-таболомике наблюдаемые закономерностичасто являются новыми, ранее не исследо-ванными, клинически не изученными. Тем неменее они могут быть инкорпорированы вклиническую практику, если есть аналитиче-ские, научные аргументы в их пользу.Так что образование, безусловно, в этойобласти необходимо. И прежде всего —именно врачам.

– Насколько в вашем бизнесе важна регуля-ция в отношении продуктов, созданных наоснове омиксных технологий? Известно, чтосеквенирование ДНК регулируется во мно-гих странах, поскольку позволяет однозначноидентифицировать пациентов. Как обстоит сэтим вопросом дело в России?

– В России пока таких ограничений нет, и нехотелось бы, чтобы ограничения появилисьраньше, чем продуманные системы оценкикачества, подготовленные квалифицирован-ными специалистами.

Author: Ekaterina Pomerantseva, Cand. Biol. Sci.,

Head of laboratory, the Human Stem Cells Institute

In prenatal diagnostics, omics technologies areused in many ways, including screening for mo-nogenic disorders and chromosomal aberrationsin embrios taken during in vitro fertilization. In ourcase, «pure» genomics consists of bioinformaticsanalysis of exome sequencing. We work with pa-tients and doctors, and, surprizingly, patients un-derstand new technologies better. Probably, it isdue to some doctors' resistance to develop newcompetencies and unwillingness to take an addi-tional risk of mistakes.

Медицина вообще может быть охарак-теризована как искусство приниматьрешения в условиях неполноты информации.

drea

mstim

e.com

Page 23: Sk biomed 03 10

КЛИНИКА

22

между мутациями и нарушениями на транс-криптомном и белковом уровнях, а такжеоценить функциональную значимость этихаберраций для процесса канцерогенеза,определить сигнальные пути, играющиеключевую роль в развитии заболевания.

– Раковые заболевания могут развиватьсяочень быстро, и опухоли быстро мутируют. В этом контексте насколько релевантнываши анализы и часто ли надо их повторятьдля одного и того же пациента?

– Внутриопухолевая гетерогенность яв-ляется одной из проблем диагностики рака

– В чем состоит ваш бизнес и насколько оноснован на использовании секвенированияи других омиксных технологий? Насколькоиндивидуальны пациенты с точки зрения му-таций, и в какой степени индивидуальнолечение?

– Компания «РосГенДиагностика» работаетв области персонализированной онкологии.Мы разрабатываем технологию подборанаиболее эффективной терапии рака дляконкретного пациента на основе его молеку-лярно-генетических особенностей. Раковаяопухоль каждого пациента уникальна и об-условлена индивидуальным сочетаниемэпигенетических, генетических (наследст-венных и приобретенных) и экспрессионных

ПЕРСОНАЛИЗИРОВАННАЯМЕДИЦИНА В ОНКОЛОГИИ:ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕРАКОВЫХ ОПУОЛЕЙ И РОЛЬОМИКСНЫХ ТЕХНОЛОГИЙ

Автор: Татьяна Серебрийская, кандидат биологи-ческих наук, старший научный сотрудник лабо-ратории трансляционных исследований иперсонализированной медицины Московскогофизико-технического института, директор ООО«РосГенДиагностика», Долгопрудный, Россия

изменений (уровень РНК, белка). Уже сей-час очевидно, что тесты на основе единич-ных биомаркеров (single-gene tests) илианализ одного типа данных, таких как экс-прессионные или генетические, не даютполноты картины происходящих в опухолиизменений.

В своей разработке мы используем интегри-рованный анализ изменений, происходящихна уровне мутаций генов (NGS секвенирова-ние) и на уровне их экспрессии (экспрес-сионный анализ, масс-спектральный анализ)в опухолевой ткани. Это дает возможностьустановить причинно-следственную связь

Раковая опухоль каждого пациента уникальна и обусловлена сочетанием эпигенетических, генетических и экспрессионных изменений.

Page 24: Sk biomed 03 10

23

Партнер Фонда «Сколково»

и правильного подбора терапии. Еще боль-шей проблемой является гетерогенность,индуцированная селективным давлениемтаргетной терапии. Назначаемые препаратымогут убить часть раковых клеток, чувстви-тельных к действиям препаратов. При этомклетки, устойчивые к действию препарата исуществующие в небольшом количестве впопуляции раковых клеток, получают селек-тивное преимущество в росте и вызываютрецидив заболевания. В этой связи исполь-зование мультигенных панелей или экзом-ного сиквенса в совокупности с транскрип-ционным анализом может помочь отследитьизменение молекулярно-генетического про-филя опухоли и скорректировать терапию.

– Каковы перспективы развития персонали-зированной медицины в России и в мире?Какие болезни, кроме рака, находятся в фо-кусе внимания ваших методов?

– Мы наблюдаем активный рост мировогорынка персонализированной медицины, ос-нову которой составляют молекулярная ди-агностика и таргетная терапия, — какпродажа сопутствующих диагностических те-стов (companion diagnostics), так и оказаниеуслуг по тестированию, так называемые«4P» (predictive, preventive, personalized, parti-cipatory care). По данным агентства MarketsandMarkets, рынок сопутствующих ди-агностических тестов составляет 3,136.9 млн

долларов США в 2014 г. и достигнет 8,730.7 млн долларов США к 2019 г.Совершенствование технологии секвениро-вания, разработка современного оборудова-ния и реактивов, а также снижениестоимости секвенирования генома и его от-дельных биомаркерных участков дает на-дежду говорить о возможном широкомвнедрении молекулярно-генетических те-стов в клиническую практику.

Методы с использованием секвенированияприменяются также для диагностики сер-дечно-сосудистых, иммунных, нейрологиче-ских, орфанных заболеваний, заболеванийорганов слуха и зрения. В 2012 г. в СШАбыло применено около 50 разных болезнь-ориентированных тестов, в основе которыхлежит секвенирование.

Author: Tatiana Serebryjskaya, Cand. Biol. Sci., se-

nior research fellow of the Translational Research

and Personalized Medicine laboratory, Moscow

Institute of Physics and Technology, RosGenDia

We work in the area of personalized oncology.Tests based on single biomarkers (single gene)or even the only data type (genetic or expres-sion) are not sufficient to describe the whole pic-ture of molecular changes in the tumor. In orderto establish causality relations between muta-tions, gene expression and protein level in can-cer, one needs to combine DNA and RNAsequencing, and MS proteomics analysis.

drea

mstim

e.com

Page 25: Sk biomed 03 10

КЛИНИКА

24

ром варятся тысячи бактериальных видов(у каждого человека в своих пропорциях),и каждый из этих видов содержит в ге-номе тысячу ферментов. Мы получаем гигантское химическое раз-нообразие, которое еще и зависит от полу-чения субстрата (нашего питания). Вся этасистема миллионами лет эволюциониро-вала и отбиралась — и, более того, этакоэволюция происходит и сейчас.

С учетом того, что бактерии делятся и му-тируют гораздо быстрее, чем организм хо-зяина, можно сказать, что этоадаптогенный орган — и мы считаем, чтоему комплементарна система иммунитета,в тесном взаимодействии с которой он инаходится с самого рождения человека.Мы пока только предполагаем механизмы,но уже на приличных когортах были пока-заны корреляции микробиома и, скажем,топ-10 заболеваний.

– Какие омиксные методы используются дляизучения микробиома и насколько они при-менимы в клинике?

– Основной подход – секвенирование. Ко-нечно, это метод в первую очередь иссле-довательский. Но, с другой стороны,сейчас цена самого простого анализа ДНКдошла до вполне потребительскогоуровня. Так что клиницисты скоро получатновые панели тестов, которые будут вы-являть особенности микробиоты — не уве-рен, что сам состав микробов будет нуженклиницистам — скорее, важнее выбор на-правления в лечении с использованиемданных по микробам. Для клиники биотастанет очень важной и тоже персонализи-рованной. Она одновременно обладает идиагностическим (т.е. показывает, чтосейчас с человеком происходит), и тера-певтическим (ее изменение может приве-сти к улучшению) потенциалами.

– Анализ врожденных мутаций и генетиче-ских изменений при раке и других человече-ских болезнях интуитивно понятны. А причем здесь микробы? Что такое микробиом изачем его изучать?

– На самом деле, микробиом за последниегоды набирает значимость; есть исследо-ватели, которые называют микробиоту ки-шечника человека новым органом, ранеенедооцененным. Не стану говорить ба-нальности про то, что клеток бактерий вкишечнике больше, чем клеток человека,и так далее — сразу расскажу понятнуюмне аналогию. Мы думаем, что кишечник —это огромный химический реактор, в кото-

МИКРОБИОМ ЧЕЛОВЕКА:ПРАКТИКА И ОМИКСНЫЕМЕТОДЫ ИЗУЧЕНИЯ

Автор: Дмитрий Алексеев, кандидат биологических наук, заведующий лабораториейбиоинформатики НИИ физико-химической медицины, Москва, Россия

С учетом того, что бактерии делятся имутируют гораздо быстрее, чем орга-низм хозяина, можно сказать, что кишечник – это адаптогенный орган.

Page 26: Sk biomed 03 10

25

Партнер Фонда «Сколково»

– Насколько специфичны для России за-дачи, над которыми Вы работаете?

– Мы находимся в огромном научном полеисследователей микробиоты — и, ко-нечно, конкуренция очень высока. По-этому мы стараемся выбиратьклинические темы очень узко и очень за-висим от партнеров в клинике. Насколькоинтересный случай заболевания они най-дут, насколько качественно смогут рабо-тать с протоколами, настолькокачественный сиквенс и анализ мы смо-жем произвести. Пока у нас есть прове-ренные партнеры в гастроэнтерологии; мы с ними сделали очень хороший пилот-ный проект российского консорциума metagenome.ru. Отсюда и спектр заболе-ваний: различные кишечные и желудоч-ные заболевания и последствияантибиотикотерапии.

Author: Dmitry Alexeev, head of Bioinformatics labo-

ratory, SRI of Physical-Chemical Medicine

Preliminary research shows relationships bet-ween the status of human microbiome and tenmost widely spread diseases. With rapid se-quencing cost reduction, microbiome tests willsoon be included in standard practice of the-rapy selection. We mostly work with gastroen-terological diseases and side effects ofantibiotic use.

Мы находимся в огромном научномполе исследователей микробиоты, иконкуренция очень высока. Поэтомумы стараемся выбирать клиническиетемы очень узко и очень зависим отпартнеров в клинике.

drea

mstim

e.com

Page 27: Sk biomed 03 10

МНЕНИЯ

26

Николай Янковский (Институт общей генетики им. Н.И.Вавилова, Россия): 

Развитие омиксных технологий включает ла-бораторную работу и биоинформатику – ком-пьютерный анализ полученных влаборатории данных. Отечественная школабиоинформатики очень сильна и достойновыглядит на мировом уровне. А вот исследо-вания, для которых необходимы разнообраз-ные реактивы и оборудование, довольнопроблематично найти в России, и обходятся

биологам, потому что они меньше зависят отинфраструктуры. Подробнее об этом — чутьниже. Специалистов готовят на факультете био-инженерии и биоинформатики МГУ и на ка-федре информационной биологиифакультета естественных наук Новосибир-ского государственного университета. Крометого, имеются программы дополнительногообразования. Есть программы подготовкибиоинформатиков и в других университетах(например, в Казанском государственномуниверситете и Московском физико-техни-ческом университете), но пока не оченьсильные. Специалисты востребованы — био-информатика является очень дефицитнойпрофессией, а уровень подготовки хорошихвыпускников позволяет им поступать в аспи-рантуру на Западе; аналогично, аспиранты,защитившиеся в сильных российских лабо-раториях, могут найти хорошее место постдока. В России многие эксперименталь-ные лаборатории пришли к мысли о том, чтоим необходимо либо тесное сотрудничествос биоинформатиками, либо биоинформатикив штате.

Вторая часть вопроса, про роль государствав регуляции технологий, — это оксюморон.Если же речь идет о применении техноло-гий, то это зависит от того, где и как эти тех-нологии применяются. Скажем, диагностику,основанную на омиксных данных, регулиро-вать надо так же, как другие диагностиче-ские процедуры, анализы и т.п. Сохранениемедицинской тайны — так же, как при гене-тических и прочих исследованиях.

ОМИКСНЫЕ ТЕХНОЛОГИИВ РОССИИКаковы перспективы омиксных технологий в России,как государство может содействовать их развитию и на-сколько убедительным на мировом фоне выглядит оте-чественный научный задел в этой области? SkАльманах задал эти одинаковые вопросы своим респон-дентам и получил крайне любопытную палитру мнений.

Для выбора наиболее актуальных и эффективных проектов необходиморазвитие института рецензирования.

они от 2,5 до 20 раз дороже, чем на Западе.Необходимо изменение таможенных пошлинна реагенты и оборудование для научных ис-следований, снижение забюрократизирован-ности их закупок. Для выбора актуальных иэффективных проектов необходимо разви-тие института рецензирования с привлече-нием квалифицированных экспертовроссийского и международного сообщества.

Михаил Гельфанд (факультет биоинформатики и биоинженерииМГУ им. М.В.Ломоносова, Россия): 

Перспективы любой науки в России не оченьрадужны. Биоинформатикам в этом смысленемного проще, чем экспериментальным

Page 28: Sk biomed 03 10

27

Партнер Фонда «Сколково»

Что до роли государства в развитии, то,опять же, тут нет никакой специфики. Госу-дарство должно развивать фундаменталь-ные аспекты науки, основанной на омиксныхданных, путем открытых, прозрачных конкур-сов с адекватным уровнем финансированияи компетентной, добросовестной эксперти-зой, желательно международной. Без этого,как показывает опыт всех последних конкур-сов, включая гранты Российского научногофонда, невозможно обеспечить выполнениеуказанных условий и даже просто избежатьбанального конфликта интересов. Если жеречь идет именно о создании и практическомиспользовании конкретных технологий, тотут имеют место стандартные проблемы:слабая заинтересованность экономики вновых технологиях; отсутствие реального ин-тереса у медицинских администраторов(проще зарабатывать на откатах при закуп-ках дорогого оборудования, при проведенииклинических испытаний, на одобрении ле-карств). Сюда также следует добавить ко-роткие горизонты планирования и общуюнеуверенность бизнеса, в том числе старта-пов; бюрократические барьеры и попытки из-влечения административной ренты и т.п. В случае биологических разработок сложно-сти создают накрутки на стоимость оборудо-

вания (приборы стоят минимум на 50% до-роже, чем в Европе или США) и таможенныебарьеры (запрет на вывоз образцов; долгоеоформление поступающих реактивов при не-адекватном их хранении).

Владислав Милейко (Геномныйцентр Нанотехнологического центра«Техноспарк», Россия): 

Я искренне верю, что современный уровеньоткрытости международного научного со-общества и потенциал российских командпозволит нам сократить существующее от-ставание в области биомедицинских иссле-дований, а в некоторых областях и добитьсяпрорыва. Следует понимать, что на сего-дняшний день современные инструменты ис-следования по своим возможностямопережают задачи, которые мы готовы имставить. Это означает, что во многом уро-

Государство должно развивать фунда-ментальные аспекты науки, основаннойна омиксных данных, путем открытых,прозрачных конкурсов.

drea

mstim

e.com

Page 29: Sk biomed 03 10

МНЕНИЯ

28

вень достижений определяется качествомидеи, а не оснащенностью лаборатории.Таким образом, появляется шанс делать вы-дающиеся работы, обладая ограниченнымиресурсами.

Важным конъюнктурным фактором, которыймог бы в позитивном смысле переломить си-туацию, является заинтересованное участиебольшого бизнеса в больших же проектах поомиксным исследованиям. Это относится и кфарминдустрии, и не только.Государство — важный участник развития вдорогостоящих областях, к которым отно-сятся и омиксные технологии. На мойвзгляд, главная задача государства в этомконтексте – обеспечить востребованностьразработок. Это относится и к актуализациирегуляторной сферы в соответствии с совре-менным состоянием технологий, и даже кпиару передовых технологий в индустриаль-ных кругах. На начальном этапе (на котороммы как раз находимся) важно, чтобы госу-дарство поддержало широкое внедрениеприкладных технологий. Когда готовые ре-шения, на практике покажут «товар лицом»,сам собой начнет расти интерес со сторонывсех участников процесса: от исследовате-лей до инвесторов и бизнеса как потреби-теля новых технологий.

Йошихиде Хаяшизаки (RIKEN, Япо-ния) и Олег Гусев (лаборатория“Functional Genomics”, Россия): 

Перспективы развития омиксных технологийв России в той области, которой мы занима-емся, представляются очень позитивными. В стране активно появляются омиксныецентры. Да, по количеству и техническим по-казателям оборудования многим таким груп-пам еще далеко до ведущих мировыхлидеров в области, например, геномики. В тоже время технический потенциал позволяетрешать большинство вопросов, связанных сомиксными технологиями. Пример: россий-ско-японская статья о расшифровке геномакриптобиотической хирономиды, которая всентябре 2014 года вышла в журнале NatureCommunications1. Несмотря на то что коллек-тив авторов включает представителей рядаведущих университетов Японии, основнаячасть секвенирования генома и анализа дан-ных проводилась в России, на базе МГУ им.М.В.Ломоносова. И это далеко не единичныйпример! Многие группы в стране уже имеют

1Gusev O., Suetsugu Y., Cornette R. et al. Comparative genomesequencing reveals genomic signature of extreme desiccationtolerance in the anhydrobiotic midge. Nature Communications5, Article number: 4784. doi:10.1038/ncomms5784.

drea

mstim

e.com

Page 30: Sk biomed 03 10

29

Партнер Фонда «Сколково»

заслуженную высокую репутацию и обла-дают всеми возможностями для работы вмеждународных консорциумах и осуществ-ления собственных амбициозных проектов.

Что до роли государства в регуляции и раз-витии омиксных технологий и биоинформа-тики, то хотелось бы видеть поменьшеограничений в международной кооперациидля российских групп и побольше грантов,направленных на развитие этого направле-ния. И обязательно с привлечением ведущихиностранных экспертов.

Одна из сложностей, с которой мы столкну-лись, — это высокий (часто запредельный)консерватизм врачей. Развитие омиксныхтехнологий невозможно без активной обрат-ной связи со стороны медиков. Именно онидолжны являться «заказчиками» исследова-ний. Кроме того, одной из интересных ини-циатив может стать инициацияфедеральных программ по анализу этноспе-цифических особенностей активности ге-нома в норме и при разных патологияхпараллельно в ряде регионов России. С на-учной и практической точек зрения, такиеданные будут представлять высокую цен-ность и смогут стать основой новых подхо-дов в генетической диагностике.

Виталий Пруцкий («АстраЗенека»,Россия): 

Перспективы развития омиксных технологийв той области, которой я занимаюсь, — этопроблема спроса и предложения. До тех пор,пока российская фармацевтическая про-мышленность остается в основном сфокуси-рована на дженериках, не стоит ожидатьширокого применения этих технологий вРоссии. Интересно, что возможность приме-нения таких технологий в России значи-тельно выше, чем спрос на них. Хотя и ненастолько широко, как на Западе, но совре-менные высокопроизводительные омиксныеметоды и оборудование используются вомногих академических институтах и некото-рых компаниях. Проблема в том, что обору-дование очень плохо загружено из-занехватки квалифицированного персонала,высокой стоимости расходных материалов,недостатка опыта и, хуже всего, научныхидей для применения этих технологий.

Парадоксально, но клиническое примене-ние, возможно, будет развиваться в Россиибыстрее, чем во многих других странах. Унас есть несколько стартапов в области «по-требительской геномики», которые предла-гают омиксные сервисы по предсказаниюответов на лекарственную терапию илидаже составлению рекомендаций по пита-нию и здоровью. В целом я поддерживаютакое быстрое развитие. Но мы должны

быть осторожны с интерпретацией предска-заний, поскольку поставщики таких серви-сов имеют мало опыта и часто неосведомлены о нуждах и требованиях дляаналитической и клинической валидациитестов, которые они предлагают.

Государственные структуры могут и, воз-можно, должны играть важную роль в не-скольких ипостасях. Во-первых,государство может помочь создать реаль-

Оборудование очень плохо загружено из-за нехватки квалифицированногоперсонала, высокой стоимости расход-ных материалов, недостатка опыта.

drea

mstim

e.com

Page 31: Sk biomed 03 10

МНЕНИЯ

30

ный спрос на омиксные сервисы путем под-держки инноваций биофармацевтическихкомпаний и развития оригинальных терапев-тических и диагностических продуктов. Это,конечно, непросто, поскольку разработка ин-новаций в биомедицине занимает длитель-ное время. Будет также необходимо существенное раз-витие научной и технологической экспер-тизы, которую Россия частично утратила, ачастично никогда не имела. Экспертиза неприходит в виде книг и руководств. Необхо-димы люди с реальным опытом работы в на-учных исследованиях и разработках вглобальных фармацевтических компаниях,которые знают, «как это делается», и могутнаучить коллег. Государственные программыуже помогли привлечь некоторых россий-ских ученых, успешно работающих за рубе-жом. Но эти программы явно недостаточныпо сравнению с масштабом задач. Если правительство заинтересовано в раз-витии фармацевтической индустрии, осно-

ванной на инновациях (и омиксных техноло-гий как одного из инструментов), онодолжно привлекать на лидерские позиции вроссийских институтах и компаниях россий-ских и зарубежных специалистов, реальноучаствовавших в развитии терапевтическихпрепаратов и диагностических продуктов.Важно, что, несмотря на трудности, естьпричины верить в то, что Россия быстро ра-зовьет омиксные технологии в применении кперсонализированной медицине.

Татьяна Татаринова (Школа меди-цины Кека Университета Южной Калифорнии, США): 

Россия могла бы выйти в лидеры омиксныхтехнологий, приняв государственную про-грамму глобального генотипирования насе-ления, детального анализа заболеваемостии реакции на препараты у разных этниче-ских групп. Насколько мне известно, ни однаиз крупных стран мира не имеет подобноймасштабной планомерной программы.

Результаты глобального генотипирования спомощью микрочипов и полногеномного сек-венирования также будут иметь огромноефундаментальное значение для изученияистории расселения и смешения народовРоссии. Десятки малочисленных народов

Необходимы эксперты с реальным опытом работы в научных исследованиях и разработках в глобальных фармацевтических компаниях.

drea

mstim

e.com

drea

mstim

e.com

Page 32: Sk biomed 03 10

31

Партнер Фонда «Сколково»

находятся на грани исчезновения, и в тече-ние ближайших 10 лет у нас есть последняявозможность изучить их историю методамигенетики. Такие работы уже ведутся: группыЕ.В. и О.П.Балановских из Медико-генетиче-ского научного центра РАМН, С.А.Лимбор-ской из Института молекулярной генетикиРАН и А.С.Кондрашова из МГУ им. М.В.Ло-моносова описывают генотипы разных наро-дов, населяющих Россию. Моя лабораторияв CHLA сотрудничает с группой профессораА.С.Кондрашова в области исследования на-родов Таймыра и Енисея. Мы только чтовернулись из Сибири, где собрали около 130образцов ДНК малых народов.

Россия – одна из самых этнически неодно-родных стран в мире. Уже достоверно уста-новлено, что реакция на многиемедицинские препараты и частота заболева-ний различаются между этническими груп-пами. Приведу несколько примеров.Эндометриоз чаще встречается у азиатскихженщин и менее распространен у африканокпо сравнению с европейками2. А, например,пациентам с африканскими корнями необхо-димо принимать более высокие дозы варфа-рина по сравнению с пациентами европей-ского и азиатского происхождения для до-

стижения одинакового антикоагуляционногоэффекта3. Пациенты с азиатскими корнямиболее чувствительны к токсичности препа-ратов антираковой химиотерапии, содержа-щим платину, чем европейцы4. Многиепроизводители лекарств уже тестируют пре-параты независимо для разных рас. К сожа-лению, этого уровня детальностинедостаточно для многих препаратов, и не-обходимо отойти от грубого деления нарасы. Например, обнаружено, что концентра-ция препарата такролимус через 12 часовпосле приема различается в 3-5 раз у паци-ентов из различных областей Африки. Аесли принять во внимание, что представи-тели разных этнических групп смешиваютсяи забывают свои корни, задача вырисовыва-ется очень сложная.

Если говорить о роли государства, то онодолжно поддерживать фундаментальные иприкладные исследования в России и по-ощрять внедрение успешных западных раз-работок и технологий. Наверное, не стоитпытаться изобрести в России то, что ужеизобретено и проверено на Западе, это

2Gerlinger C., Faustmann T., Hassall J.J., Seitz C. Treatment ofendometriosis in different ethnic populations: a meta-analysisof two clinical trials. BMC Womens Health. 2012 Apr 19;12:9.doi: 10.1186/1472-6874-12-9. Review.

3Yasuda S.U., Zhang L., Huang S.M. The role of ethnicity in vari-ability in response to drugs: focus on clinical pharmacologystudies. Clin. Pharmacol. Ther. 2008 Sep;84(3):417-23. doi:10.1038/clpt.2008.141. Epub 2008 Jul 9.

4O'Donnell P.H., Gamazon E., Zhang W. et al. Population differ-ences in platinum toxicity as a means to identify novel geneticsusceptibility variants. Pharmacogenet. Genomics. 2010May;20(5):327-37. doi: 10.1097/FPC.0b013e3283396c4e.

drea

mstim

e.com

Page 33: Sk biomed 03 10

МНЕНИЯ

32

только усилит технологическое отставание.Сотрудничество с западными компаниями,госпиталями и университетами гораздо пер-спективнее поиска собственного пути. В Рос-сии много замечательных ученых в областифундаментальной биологии и биоинформа-тики. Они выжили и сохранили международ-ное лидерство в годы перестройки(например, биоинформатическая лаборато-рия профессоров М.С.Гельфанда и А.А.Ми-ронова в МГУ им. М.В.Ломоносова). Многиеиз них работают на одном энтузиазме. Их не-обходимо поддерживать. Тогда Россиябудет выступать равным партнером в меж-дународном сотрудничестве.

Екатерина Померанцева (Институтстволовых клеток человека, Россия)

Перспективы развития омиксных технологийв России кажутся мне хорошими. С точкизрения научных кадров в России уже сейчасесть хорошие команды, квалифицированныеспециалисты, готовые создавать продукты иуслуги на основе таких технологий. Но ограничения в этой области тоже есть.Некоторые из них — общемировые, другие –скорее, локальные. Например, проблема па-

тентной защиты едина для специалистов погеномике из всех стран. С другой стороны,наше ограничение — это недостаток знанийу клиницистов о возможностях геномныхтехнологий. Проблемы с оценкой качестватаких услуг также очень актуальны. Сейчаспрактически нет возможности отличить хо-роший, информативный и научно обоснован-ный тест от плохо продуманного, клиническибессмысленного. Приоритеты государства врегуляции и развитии омиксных технологийи биоинформатики вполне очевидны. Во-первых, это снижение зависимости от им-порта. Во-вторых, государственнаяподдержка больных, которые прибегают кгеномным исследованиям при наследствен-ных заболеваниях: требуется рассмотретьвозможность хотя бы частичной компенса-ции расходов на диагностику. В числе прио-ритетов – обучение специалистов,правильному пониманию геномных данных.

Татьяна Серебрийская («РосГенДиаг-ностика», Россия)

Необходимо отметить сложности внедренияклинико-диагностических тестов на основеомиксных данных в клиническую практику. Кним можно отнести стоимость оборудованияи отсутствие достаточного количества высо-коквалифицированных специалистов-гене-тиков. Другой большой проблемой являетсяотсутствие четких стандартов проведенияисследований, которые относятся к областикак гистопатологической практики, так ибиоинформационной обработки результатов.

Роль государства — поддерживать внедре-ние инновационных методов в клиническуюпрактику, но при этом жестко контролиро-вать качество молекулярно-диагностическихтестов. Государство может помочь в преодо-лении трудностей, стоящих перед исследо-вателями и разработчиками, посредствомразличных программ и грантов, спонсируязакупку дорогостоящего оборудования испособствуя повышению квалификации вра-чей-генетиков.

Более глобальной для России проблемой яв-ляется зависимость от поставки импортныхреактивов для секвенирования. В отличиеот оборудования, которое покупается одно-кратно, реактивы нужны постоянно.

Отсутствие своего производства реактивов для молекулярной генетикиставит страну в полную зависимость отпоставщиков-монополистов.

drea

mstim

e.com

Page 34: Sk biomed 03 10

33

Партнер Фонда «Сколково»

Андрей Афанасьев (iBinom, Россия): 

Омиксные технологии в России будут разви-ваться и со временем должны войти в кли-ническую практику. Пока что большинствоприменений находится на стадии научных имедицинских исследований. В этой связибыло здорово увидеть государственную под-держку этих направлений. Наиболее важ-ными представляются индивидуальнаядиагностика наследственных заболеванийна основе геномного секвенирования, атакже персонализированная диагностикаонкологических заболеваний на основе сек-венирования экзомов и транскриптомов опу-холевой и здоровой тканей.

О государственной регуляции, по моему мне-нию, говорить пока рано, тем более что из-быточная регуляция в данной областиможет только навредить, как навредил об-суждавшийся закон о клеточных техноло-гиях, по сути сделавший невозможнымиклинические исследования в этой области.

Дмитрий Алексеев (НИИ физико-химической медицины, Россия): 

Опыт общения с европейскими и американ-скими коллегами показывает: если раньшевладение омиксными технологиями былоопределенным козырем, то сейчас оно ста-новится сервисной услугой. Исследователивключаются в процесс либо на стадии пла-нирования и подготовки эксперимента, либозанимаются анализом данных. Много омикс-ных решений приходит в клинику. Мне кажется, что в России будет то жесамое: ученые просто будут заказывать ис-следования и получать результаты, клиници-сты, вероятно, получат какие-то in vitroдиагностические (IVD) устройства, где не-возможно менять параметры, но и выходбудет прогнозируемым.

Вопрос о роли государства в регуляции иразвитии омиксных технологий и биоинфор-матики, а также о приоритетах в этой обла-сти довольно сложен. Хотелось бы, чтобыгосударство ставило задачи другого уровня.Например, запуск ракеты на Юпитер, сниже-ние заболеваемости раком вдвое, улучше-ние производительности труда на 30%. Вотгде хорошо бы выбирать приоритеты.

Дальше профессиональная команда моглабы отбирать решения, направленные на до-стижение результата. И тут точно никак безомиксных технологий и биоинформатики необойтись. Фундаментальные исследованиясейчас уже проводятся на основе конкурсов.Те конкурсы, что я видел, прозрачны, пра-вила их более-менее ясны. Так что тут регу-ляция не нужна — самые активные иумеющие доносить свои идеи люди добьютсяреализации своих идей.Что касается биоинформатики, то мы имеемогромный и мощный сектор IT. Здесь мы пре-одолеем все барьеры легко и не только заме-стим импорт, но и создадим товары наэкспорт. Это уже происходит. Что касаетсяомиксных технологий, то в этой области про-цессы займут чуть больше времени. Думаю,конструкцию больших приборов нам уже нестоит догонять, а вот в гонке за миниатюр-ные, носимые, вживляемые устройства мывполне можем соревноваться. В этих вопросах роль государства состоит втом, чтобы создать цели, разумные и про-зрачные правила и исполнять их. Вот и все. Аостальное мы сами в состоянии освоить, об-думать и понять, как наши идеи из фунда-ментального поля могут сообразно задаче перейти в практическую плоскость.

Если раньше владение омиксными технологиями было определенным козырем для группы, то сейчас оно становится сервисной услугой.

drea

mstim

e.com

Page 35: Sk biomed 03 10

СООБЩЕСТВО

34

ГЕНОМИКА В РОССИИ:ОБРАЗОВАНИЕ, НАУКА, БИЗНЕС

Профессиональное сообщест-во — это сложный организм, ко-торый состоит из людей разныхспециальностей, разных компе-тенций, с разными целями и ин-тересами, из компаний (большихи маленьких), университетов, на-учных центров, технопарков, биз-нес-инкубаторов, инвестицион-ных фондов и проводимых ими

мероприятий. В данном обзоресобрана информация о ключевыхсоставляющих «профессиональ-ного сообщества геномики» вРоссии: образовательных учреж-дениях, научных центрах, ком-мерческих организациях, чьядеятельность в той или иной сте-пени связана с геномными иссле-дованиями.

ОБРАЗОВАНИЕРазделим образовательные услуги по направ-лению генетики и биоинформатики на 2блока: основного и дополнительного образо-вания. Основным образованием мы назовемпрограммы специалитета, балакалавриата имагистратуры государственных высших учеб-ных заведений. Дополнительным — отдель-ные очные и заочные курсы разной дли-тельности и сложности и циклы семинаров.

Основное образованиеОсновное образование в области геномики ибиоинформатики в той или иной степенипредставлено в 17 государственных высшихучебных заведениях (табл. 1), 6 из этих вузовнаходятся в Москве, Московской области илиСанкт-Петербурге. Остальные расположены вНовосибирске, Нижнем Новгороде, Тюмени,Волгограде, Воронеже, Саратове, Калинин-граде, Саранске, Калуге и Уфе.В связи с междисциплинарностью этого на-правления образовательные программыпредставлены не только на биоинформатиче-ских, биотехнологических, биологических фа-культетах (МГУ им. М.В.Ломоносова, СПбГУ,НГУ им. Н.И.Лобачевского, МГМУ им.И.М.Сеченова, МФТИ, ТюмГУ, НИ МГУ имениН.П.Огарева, БФУ им. И.Канта, КГПУ им.К.Э.Циолковского, СГУ им. Н.Г.Чернышев-

ского) и естественно-научных факультетах(НГУ им. Н.И.Лобачевского, БГПУ им. М.Ак-муллы), но и на физико-механическом фа-культете (СПбГУ), факультетах свободныхискусств и наук (СПбГУ), приоритетных тех-нологий (ВолГУ), вычислительной матема-тики и кибернетики (НГУ им.Н.И.Лобачевского), биологической и меди-цинской физики (МФТИ).Пока полный цикл высшего образования (отбакалавра или специалиста до аспиранта) поданному направлению можно пройти только вМГУ им. М.В.Ломоносова, СПбГУ, МФТИ иВолГУ.

Дополнительное образованиеВ Москве и Санкт-Петербурге за последние 5лет широкое распространение получилиочные курсы по биоинформатике и циклы се-минаров продолжительностью от семестра до2 лет (табл. 2)При условии прохождения конкурса все изних можно посещать бесплатно. Также познакомиться с основами биоинфор-матики можно дистанционно, решая задачина уникальной платформе для самообразова-ния в области биоинформатики Rosalind, раз-работанной командой из Санкт-Петербурга,или пройдя подготовленный в СПбГУ шести-недельный курс на платформе Coursera.

Авторы: Андрей Афанасьев, iBinom; Евгения Власова, Высшая школа экономики; Юрий Пеков, МГУ им. М.В.Ломо-носова; Евгений Цымбалов, Высшая школа экономики; Ростислав Яворский, Высшая школа экономики

Page 36: Sk biomed 03 10

35

Партнер Фонда «Сколково»

специалитет

бакалавриат

магистратура

бюджетные

платныеУчебное заведение

Факультет или образовательная программа,

страница в Интернете

Стоимость 

1 года обучения

(руб.)

Проходной балл 

в 2013/2014 г.

Уровниподготовки

Московский государственный университет имениМ.В.Ломоносова

Биологический факультет (с кафедрами ге-нетики, биоинженерии и биотехнологий)www.bio.msu.ru/doc/index.php?ID=33 * * 181 38 325 000 421/500

Факультет биоинженерии и биоинформатикиwww.fbb.msu.ru/doc/index.php?ID=98 * 30 25 325 000 447/500

Санкт-Петербургский государственный университет

Биологический факультет (с кафедрой генетики и биотехнологий)www.bio.spbu.ru * * 75 15 201 500 229/300

Факультет свободных искусств и наук (с биоинформатическим направлениемНауки о жизни) www.artesliberales.spbu.ru/adm/bachelors/major/ls

* * 60 — 239 500 273/300

Новосибирский государственный университет

Факультет естественных наук (с кафедрой информационной биологии)www.kib.nsu.ru * * 150 65 100 000 213/300

Первый Московский государственный меди-цинский университет им. И.М.Сеченова

Биоинженерия и биоинформатикаwww.mma.ru/education/pocty * нет 10 90 000 —

Биотехнология www.mma.ru/education/pocty * 10 15 96 000 —

Московский физико-технический университет,Долгопрудный, Московская область

Факультет биологической и медицинскойфизики (с кафедрой биоинформатики)www.mipt.ru/education/chairs/bioinformatics * * — — — —

Санкт-Петербургскийакадемический университет РАН

Кафедра математических и информационных технологий www.mit.spbau.ru * * 0 25 20 000 —

Тюменский государствен-ный университет

Биоинженерия и биоинформатикаwww.go.utmn.ru/?pageid=8898 * 11 10 74 850 —

Национальный исследо-вательский Мордовскийгосударственный университет им. Н.П.Огарева, Саранск

Факультет биотехнологии и биологии (специальность Биотехнология)www.mrsu.ru/ru/i_faculty/detail.php?ID=3485 * * 30 10 112 000 193/300

Факультет биотехнологии и биологии (специ-альность Биоинженерия и биоинформатика)www.mrsu.ru/ru/i_faculty/detail.php?ID=3486 * 18 15 67 060 221/300

Балтийский федеральныйуниверситет им. И.Канта,Калининград

Химико-биологический институт (специальность Биоинженерия и биоинформатика)www.kantiana.ru/education/high

* 25 — 86 000 194/300

Саратовский государст-венный университет им.Н.Г.Чернышевского

Биоинженерия и биоинформатикаwww.sgu.ru/structure/biological/courses/bachelor-bio-inzheneriya-i-bioinformatika-specialitet * 10 10 68 400 183/300

Воронежский государст-венный университет инженерных технологий

Биоинженерия и биоинформатикаwww.vsuet.ru/obuch/spec.asp * 25 — 53 650 129/300

Волгоградский государственный университет

Институт приоритетных технологий (направ-ление Биоинженерия и биоинформатика)www.volsu.ru/struct/institutes/ipt * 21 — 78 400 194/300

Башкирский государствен-ный педагогический уни-верситет им. М.Акмуллы

Естественно-географический факультет (с кафедрой генетики)www.bspu.ru/node/5651 * 66 10 67 060 167/300

Калужский государствен-ный университет им.К.Э.Циолковского

Генетикаwww.tksu.ru/ie/default.aspx * 16 14 87 460 205/300

Санкт-Петербургский государственный поли-технический университет

Физико-механический факультетwww.amd.stu.neva.ru/education/bioinformatics * 162 35 42 500 172/300

Нижегородский государст-венный университет им.Н.И.Лобачевского

Факультет вычислительной математики и кибернетики (направление Биоинформатика)www.vmk.unn.ru/bioinformatics * * 213 110 85 000 196/300

Таблица 1. Основное образование по направлению генетики и биоинформатики

Количествомест

«–»: нет информации.

Page 37: Sk biomed 03 10

СООБЩЕСТВО

36

Таблица 2. Дополнительное образование по направлению генетики и биоинформатики

НАУКАНаучные центрыПодробный анализ научных исследованийпо геномике в России предоставляет сер-вис eLibrary http://www.elibrary.ru. По за-просу «геном» и с ограничением поиска настатьи, выпущенные за последние 3 года,на сентябрь 2014 года выборка включает5928 публикаций, большинство из которых — журнальные статьи. Ориентировочно полсотни организацийвыпустили за этот период не менее 30 пуб-ликаций (в среднем не менее 10 статей вгод). По этому критерию можно судить,что геномика относится к сфере их на-учной деятельности и в их составе естьактивно работающая группа ученых. Спи-сок этих организаций приведен в табл. 3.Не является неожиданным, что основныенаучные центры расположены в Москве,Санкт-Петербурге и Новосибирске. На пе-речисленные в табл. 3 организации прихо-дится 46% всех публикаций (2748 из 5928).

Рисунок 1.Типы публикаций в выборке, сформированной по запросу «геном»по данным сервиса eLibrary

5426

18114811459

статья в журнале

патент

диссертация

статья в сборнике конференции

другие публикации (книги, отчеты, главы)

Учебное заведение, официальный сайтВид 

занятий

Форма 

обученияСтоимость Длительность

обучения

Moscow Bioinformatic Schoolhttp://www.bioinformaticseminar.com/ru/wiki Семинары Вечерняя Бесплатно 2 года

Школа анализа данных («Yandex»)wwwbioinformaticseminar.com/ru/

Полный курс Вечерняя Бесплатно 2 года

NgsCourse (факультет биоинженерии и биоинформатики МГУ им. М.В.Ломоносова)www.bioinf.fbb.msu.ru/wiki/index.php/NgsCourse

Полный курс Заочная Бесплатно Семестр

Центр геномной биоинформатики им. Ф.Г.Добржанского Санкт-Петербургского государственного университетаwww.dobzhanskycenter.bio.spbu.ru/ru/obrazovanie

Семинары Заочная Бесплатно Индивиду-ально

Введение в биоинформатику: биоинформатика в биологии и медицине (Санкт-Петербургский государственный университет, Coursera)www.coursera.org/course/bioinfo

Дистанци-онный курс Заочная Бесплатно Индивиду-

ально

Московский семинар по биоинформатике (факультет биоинженерии и биоинформатикиМГУ им. М.В.Ломоносова)www.rtcb.iitp.ru/msb/index.htm

Семинары Очная Бесплатно Индивиду-ально

Институт биоинформатики Санкт-Петербург-ского академического университетаwww.bioinformaticsinstitute.ru

Полныйкурс

20 часовв неделю

Бесплатно/10 000 руб. 2 года

Rosalindwww.rosalind.info/problems/locations

Дистанци-онный курс Заочная Бесплатно Индивиду-

ально

Page 38: Sk biomed 03 10

37

Партнер Фонда «Сколково»

Таблица 3. Организации, работающие по направлению генетики и биоинформатики

Организация

Москва Московский государственный университетим. М.В.Ломоносова 127Первый Московский государственный ме-дицинский университет им. И.М.Сеченова 124

Медико-генетический научный центр РАМН 106Российский онкологический научный центрим. Н.Н.Блохина РАМН 102Институт генетики им. Н.И.Вавилова РАН 77Научный центр акушерства, гинекологии иперинатологии им. академика В.И.Кулакова 58Институт молекулярной биологии им. В.А.Энгельгардта РАН 57Российский университет дружбы народов 57Российский национальный исследователь-ский медуниверситет им. Н.И.Пирогова 55Государственный научно-исследователь-ский институт генетики и селекции промышленных микроорганизмов

48

Институт биоорганической химии им. акад.М.М.Шемякина и Ю.А.Овчинникова РАН 48

Институт биологии гена РАН 44Российский государственный аграрный университет — Московская сельскохозяй-ственная академия им. К.А Тимирязева

44

Гематологический научный центр 42Институт молекулярной генетики РАН 41Научно-исследовательский институт общейпатологии и патофизиологии РАМН 41

Институт иммунологии ФМБА 38Центр "Биоинженерия" РАН 37Институт биологии развития им. Н.К.Кольцова РАН 36Институт микробиологии им. С.Н.Виноградского РАН 35Эндокринологический научный центрМинздрава РФ 34Институт физиологии растений им. К.А.Тимирязева РАН 33Московский медико-стоматологическийуниверситет им. А.И.Евдокимова 29

Центральный научно-исследовательскийинститут эпидемиологии Роспотребнадзора 29

Санкт-ПетербургСанкт-Петербургский государственный университет 81Северо-Западный государственный меди-цинский университет им. И.И.Мечникова 49

Первый Санкт-Петербургский государст-венный медицинский университет им. акад. И.П.Павлова

46

Санкт-Петербургский государственный педиатрический медицинский университет 34Федеральный центр сердца, крови и эндокринологии им. В.А.Алмазова 32Научно-исследовательский институт экспериментальной медицины СЗО РАМН 31

Организация

НовосибирскИнститут цитологии и генетики СО РАН 152Институт химической биологии и фунда-ментальной медицины СО РАН 78

Новосибирский национальный исследова-тельский государственный университет 64

Новосибирский государственный медицин-ский университет 50

Научно-исследовательский институт тера-пии и профилактической медицины СО РАМН

43

Научно-исследовательский институт моле-кулярной биологии и биофизики СО РАМН 32

Другие города Белгородский государственный националь-ный исследовательский университет 41

Научный центр проблем здоровья семьи ирепродукции человека СО РАМН, Иркутск 37

Казанский (Приволжский) федеральныйуниверситет 67

Казанский государственный медицинскийуниверситет 65

Красноярский государственный медицин-ский университет им. В.Ф.Войно-Ясенецкого 42

Курский государственный медицинскийуниверситет 35

Омская государственная медицинская ака-демия 34

Донской государственный аграрный университет, Ростов-на-Дону 33

Саратовский государственный медицин-ский университет им. В.И.Разумовского 33

Сибирский государственный медицинскийуниверситет, Томск 63

Научно-исследовательский институт меди-цинской генетики Томского научногоцентра СО РАМН

47

Институт биохимии и генетики УфимскогоНЦ РАН 84

Башкирский государственный медицинскийуниверситет, Уфа 48

Башкирский государственный университет, Уфа 36

Читинская государственная медицинскаяакадемия 49

число

публикации

число

публикации

Page 39: Sk biomed 03 10

СООБЩЕСТВО

38

ЖурналыДля формирования списка основных журналов мы воспользовались тем же критерием:не менее 30 публикаций с начала 2012 года. На эти журналы приходится четверть (1502из 5928) всех публикаций из рассматриваемой коллекции (табл. 4).

Таблица 4. Журнальные публикации в выборке, сформированной по запросу «геном, с начала 2012 года» по данным сервиса eLibrary

Издатель Название журнала Количествопубликаций

МАИК Наука/Интерпериодика Генетика 226

МАИК Наука/Интерпериодика Молекулярная биология 145

ФГБНУ «Центральная научная сельскохозяйственная библиотека» Ветеринария. Реферативный журнал 132

МАИК Наука/Интерпериодика Биохимия 85

Издательство РАМН Бюллетень экспериментальной биологии и медицины 77

Российская академия естествознания Фундаментальные исследования 77

Институт цитологии и генетики СО РАН, Новосибирск Вавиловский журнал генетики и селекции 72

МАИК Наука/Интерпериодика Микробиология 71

Издательство «Медицина» Гематология и трансфузиология 56

Российская академия естествознания Современные проблемы науки и образования 52

ФГБУ «Медико-генетический научный центр» Медицинская генетика 51

Отделение биологических наук РАН Цитология 49

ООО «Бионика Медиа» Акушерство и гинекология 46

Восточно-Сибирский научныйцентр СО РАМН

Бюллетень Восточно-Сибирского научногоцентра СО РАМН 41

МАИК Наука/Интерпериодика Физиология растений 41

Санкт-Петербургский научныйцентр РАН Экологическая генетика 41

Российская академия сельскохозяйственных наук Сельскохозяйственная биология 40

Издательский дом «Русский врач» Молекулярная медицина 38

МАИК Наука/Интерпериодика Доклады Академии наук 37

Издательство Park Media Ltd,Moscow Acta Naturae (русскоязычная версия) 33

Издательство Союза педиатровРоссии «ПедиатрЪ»

Вестник Российской академии медицинскихнаук 32

Издательство «Медиа Сфера» Журнал неврологии и психиатрииим. C.C.Корсакова 30

Московский институт педиатриии детской хирургии

Российский вестник перинатологии и педиатрии 30

Page 40: Sk biomed 03 10

39

Партнер Фонда «Сколково»

Направления исследованийКак уже видно из названий журналов, основной фокус исследований генома лежитв области биологии и химии, математические науки и биоинформатика практическине представлены (рис. 2).

Рисунок 2. Распределение по тематическим рубрикам в коллекции«геном, с начала 2012 года» по данным сервиса eLibrary (5 наиболее представленных тематик)

Медицина и здравоохранение

Биология

Сельское и лесное хозяйство

Химия

Экономика. Экономические науки

5637

3856  

1319

501

390

Использованный подход к поиску публика-ций обладает множеством недостатков, неможет охватить многочисленные нюансы испецифику научной деятельности и дажене учитывает различный уровень значимо-сти статей, для измерения которогообычно используют индексы цитированияи импакт-факторы. Количество статей дляразных организаций и изданий ни в коемслучае не может быть главной характери-стикой научной деятельности. Тем неменее данный вид анализа позволяет впервом приближении оценить численностьнаучных центров и тематику исследованийпо темам, связанным с геномикой.

БИЗНЕС

Объем российского рынка геномики и био-информатики пока не превышает 500 млнруб. и находится в стадии активного фор-мирования. Темпы роста рынка доста-

точно высоки и превышают 30%. Основ-ные драйверы роста: фантастическое па-дение стоимости геномногосеквенирования и накопление доказа-тельств медицинской эффективности дан-ных диагностических технологий, а такжерост осведомленности врачей и граждан овозможностях современной геномики.

Список компанийВ табл. 5 включены компании, занимаю-щиеся геномикой и биоинформатикой,большинство сотрудников которых рабо-тают в России, независимо от их организа-ционно-правовой формы и странырегистрации юридического лица. Большин-ство игроков существует менее 3 лет. Почтивсе они сосредоточены в Москве, Санкт-Пе-тербурге и Новосибирске — регионах с до-статочными компетенциями в областибиоинформатики. Коллектив и руководствобольшинства компаний моложе 35 лет.

Page 41: Sk biomed 03 10

Ugene www.ugene.unipro.ru Константин Оконечников Новосибирск 2008 Продажи

Свободное программное обеспечение для молекулярных биологов. Компания разрабатывает программный про-дукт, в который интегрированы наиболее используемые алгоритмы анализа генетических данных в единой ви-зуальной рабочей среде, удобной для прикладного специалиста.

СООБЩЕСТВО

40

Таблица 5. Компании, занимающиеся геномикой и биоинформатикой

Компания, официальный сайт Ключевые лица Город

Годосно-вания

Стадия готовностипродукта

РосГенДиагностика www.community.sk.ru/net/1120425

Татьяна Никольская, Татьяна Серебрийская Москва 2012 Разработка

Технологии ранней диагностики рака на основе персонализированной медицины. Компания также анализируетгеномные и экспрессионные данные, полученные из образца опухоли или биопсии онкологического больного и ре-комендует лечащему врачу набор наиболее важных генов-мишеней и комбинаций доступных на рынке лекарств,которые будут максимально эффективны для лечения данного пациента.Personal Biomedicinewww.personalbiomed.ru Михаил Пятницкий Москва 2013 Разработка

Подбор персонализированной противораковой терапии на основе анализа данных секвенирования экзома и транс-криптома больной и здоровой тканей пациента. Компания выявляет изменения генетического материала в образцахопухолевой ткани, создает базы данных генов, вовлечённых в онкогенез различных типов опухолей, и предлагаетврачам варианты лекарственной терапии в зависимости от обнаруженных генетических нарушений.GeneStack www.genestack.com Михаил Капущевский Кембридж,

Санкт-Петербург 2012 Разработка

Компания разрабатывает программную платформу (веб-сервис) для разработки и запуска сложных биоинформа-тических приложений, безопасного хранения и распространения внутри организации или публично большогообъема биологических данных. Для сторонних разработчиков выпущены спецификации, которые позволяютвстроить в платформу собственное приложение.

iBinomwww.ibinom.com

Андрей Афанасьев, Игнат Колесниченко, Валерий Ильинский

Москва 2012 Продажи

Облачный сервис по анализу геномных данных для врачей. Компания создает программный продукт для под-держки принятия решений при диагностике наследственных заболеваний, позволяющий врачам-генетикам быстрополучать из данных секвенирования список мутаций, являющихся потенциальными кандидатами на причину на-следственного заболевания.MirOBwww.mirob.interactome.ru Александр Фокин Москва 2012 Разработка

Программная платформа анализа генных сетей для решения задач персонализированной медицины. Компаниясоздает базу данных валидированных молекулярно-генетических взаимодействий, сфокусировавшись на микроРНК и транскрипционных факторах. Разработан визуализатор генных сетей по различным критериям. Реа-лизован поиск кратчайших путей между группами указанных генов.Oftalmicwww.oftalmic.ru Марианна Иванова Москва 2008 Продажи

Генетическая диагностика и поиск путей эффективного патогенетически направленного лечения глазных забо-леваний. Клиент прислает по почте пробирку с образцами своего биологического материала, после анализа кото-рого сотрудники компании проводят поиск изменений в геноме, приводящих к заболеваниям глаз, разъясняютрезультаты генетических тестов и определяют, к каким заболеваниям глаз клиент имеет предрасположенность.Компания также проводит консультации о возможностях генетической диагностики и эффективных способах лече-ния глазных заболеваний.Первый онкологический научно-консультационныйцентрwww.ponkc.com/index.html

Антон Буздин, Андрей Гаража, Алекс Жаворонков

Москва 2012 Разработка

Услуги по персонализированному подбору терапии для пациентов с онкологическими заболеваниями на основеметодов транскриптомного профилирования и анализа интерактома клетки. Компания проводит детальный мо-лекулярно-генетический анализ тканей пациента, индивидуализированный крупномасштабный скрининг экспрес-сии генов, генетическую паспортизацию и разрабатывает индивидуальную карту лечения.Knomicswww.knomics.ru

Дмитрий Алексеев, Эдуард Ашрафьян Москва 2011 Продажи

Поддержка биомедицинских исследований, проводимых с использованием омиксных технологий: протеомика, ге-номика, транскриптомика, метаболомика. Компания также оказывает услуги по комплексному биоинформатиче-скому анализу бактериальных геномов на основе данных, полученных с помощью NGS, услуги по обучению основамбиоинформатического анализа данных высокопроизводительного секвенирования и услуги по организации и про-ведению биоинформатических школ для обучения основам биоинформатического анализа данных высокопроиз-водительного секвенирования NGS.

ParSeq www.parseq.pro

Александр Павлов, Антон Брагин Санкт-Петербург 2012 Продажи

Комплексные решения для молекулярно-генетических исследований на основе технологии NGS. Компания разра-батывает диагностические панели для выявления тяжелых наследственных заболеваний, комплексные базы дан-ных с информацией о наиболее значимых генетических мутациях и полиморфизмах, а также программную средуи биоинформатические ресурсы для интерпретации генетической информации пациента, полученной в ходе сек-венирования, для использования ее в медицинских целях.

Page 42: Sk biomed 03 10

41

Партнер Фонда «Сколково»

Biosoft www.biosoft.ru

Александр Кель, Федор Колпаков Новосибирск 2002 Продажи

Создание унифицированной платформы для анализа биомедицинских данных. Компания также проводит интег-рированный анализ данных по геномике, транскриптомике, протеомике, метаболомике и эпигеномике, разраба-тывает базы биологических данных, строит математические и вычислительные модели молекулярных ифизиологических процессов в клетках и органах человеческого тела.Xgencloud www.xgen.ru Игорь Угаров Москва 2010 ПродажиКомплексные решения в области медицинских информационных технологий. Компания создает среду разра-ботки диагностических систем для наследственных и мультифакториальных заболеваний, облачный сервис дляавтоматического назначения и интерпретации результатов генетических анализов, а также информационно-по-исковую диагностическую систему для наследственных глазных болезней и синдромов.Еврогенwww.evrogen.ru

Сергей Лукьянов, Тимофей Панфилов Москва 2000 Продажи

Основными направлениями деятельности компании являются разработка и коммерциализация технологий ипродуктов для молекулярной и клеточной биологии. Компания оказывает услуги в области секвенирования ибиоинформатики. Ныне Евроген является одной из ведущих биотехнологических компаний в России. Геноаналитикаwww.genoanalytica.ru

Александр Мазур, Сергей Бровцев, Юлия Ахтительнова

Москва 2007 Продажи

Выполняет секвенирование геномов, транскриптомов, определяет модификации гистонов в ChIP-Seq экспери-менте. Также компания оказывает консультации по планированию экспериментов в области секвенирования и ана-лиза биоинформатических данных. В качестве решения для массового рынка предлагает анализы «Мой Ген».Генотекwww.genotek.ru

Артем Елмуратов, Валерий Ильинский, Кирилл Петренко

Москва 2010 Продажи

DTC генетическое тестирование — определение предрасположенностей к различным заболеваниям, видамспорта, этническая информация и др.Genetico www.genetico.ru Артур Исаев Москва 2013 ПродажиGenetico является первой в России частной сетью медико-генетических центров. Предоставляют услуги по предимплантационной диагностике, генетическому консультированию, а также по определению статуса носи-теля генетических заболеваний и этнической информации.Atlaswww.atlas.ru

Сергей Мусиенко, Андрей Перфильев Москва 2013 Продажи

Разработка и внедрение скрининговых и диагностических панелей, основанных на определении молекулярно-гене-тических маркеров. Клиническая деятельность в центре персонализированной медицины Atlas Medical Center. Colorfoodwww.colorfood.ru Куват Момыналиев Москва 2012 Продажи

Технология подбора персонализированной диеты на основе ДНК-тестирования.My Geneticswww.mygenetics.ru Александр Цветкович Новосибирск 2013 Продажи

Cоставление персонального генетического отчета с доступными интерпретациями результатов и рекоменда-циями по ведению здорового образа жизни на основе ДНК-анализа. Lifegen www.lifegen.ru Арсений Духинов Москва 2014 ПродажиПродажа, обработка и анализ результатов генетических исследований.

Компания, официальный сайт Ключевые лица Город

Годосно-вания

Стадия готовностипродукта

Список компаний можно разделить на двекрупные группы: 1) компании, занимающиесяB2C продажами генетических тестов в раз-влекательных и информационных целях; 2)компании, занимающиеся разработкой илипродажами B2B диагностических инструмен-тов для использования в медицинских и на-учных целях. Компании из первой группы восновной массе фокусируются исключи-тельно на российском рынке, в то время какряд компаний из второй группы делает по-пытки выхода на международный рынок.Перспективы развития рынка весьма много-обещающи и включают следующие области:генетическая консультация при планирова-нии семьи, скрининг эмбрионов при экстра-

корпоральном оплодотворении, пренатальнаяи неонатальная диагностика наследственныхзаболеваний, диагностика раковых опухолей.

ЗАКЛЮЧЕНИЕ

Приведенная аналитика дает первое общеепредставление о ландшафте науки и бизнесав сфере геномики в России и может быть ис-пользована в качестве стартовой точки длядальнейшего более содержательного изуче-ния сообщества в России. Перспективы раз-вития рынка весьма широки, с 2000 годаколичество как образовательных программ,так и компаний, занимающихся геномными ис-следованиями, стабильно растет.

Продолжение таблицы 5.

Page 43: Sk biomed 03 10

МИРОВОЙ ОПЫТ

42

That each of us is truly biologically unique, extending to even monozy-gotic, “identical” twins, is not fully appreciated. Now that it is possible toperform a comprehensive “omic” assessment of an individual, includingone’s DNA and RNA sequence and at least some characterization ofone’s proteome, metabolome, microbiome, autoantibodies, andepigenome, it has become abundantly clear that each of us has truly one-of-a-kind biological content. Well beyond the allure of the matchless fin-gerprint or snowflake concept, these singular, individual data andinformation set up a remarkable and unprecedented opportunity to im-prove medical treatment and develop preventive strategies to preservehealth.

FROM DIGITAL TO BIOLOGICAL TO INDIVIDUALIZED MEDICINE In 2010, Eric Schmidt of Google said “The power of individual targeting —the technology will be so good it will be very hard for people to watch orconsume something that has not in some sense been tailored for them”[50]. Although referring to the capability of digital technology, we have nowreached a time of convergence of the digital and biologic domains. It hasbeen well established that 0 and 1 are interchangeable with A, C, T, andG in books and Shakespeare sonnets and that DNA may represent theultimate data storage system [13, 34]. Biological transistors, also knownas genetic logic gates, have now been developed that make a computerfrom a living cell [6]. The convergence of biology and technology was fur-ther captured by one of the protagonists of the digital era, Steve Jobs,who said “I think the biggest innovations of the 21st century will be at theintersection of biology and technology. A new era is beginning” [48]. With whole-genome DNA sequencing and a variety of omic technologiesto define aspects of each individual’s biology at many different levels, wehave indeed embarked on a new era of medicine. The term “personalizedmedicine” has been used for many years but has engendered consider-able confusion. A recent survey indicated that only 4% of the public under-stand what the term is intended to mean [90], and the hackneyed,commercial use of “personalized” makes many people think that thisrefers to a concierge service of medical care. Whereas “person” refers toa human being, “personalized” can mean anything from having mono-grammed stationary or luggage to ascribing personal qualities. Therefore,it was not surprising that a committee representing the National Academy

of Sciences proposed using the term “precision medicine” as defined by“tailoring of medical treatment to the individual characteristics of each pa-tient” [69]. Although the term “precision” denotes the objective of exact-ness, ironically, it too can be viewed as ambiguous in this contextbecause it does not capture the sense that the information is derived fromthe individual. For example, many laboratory tests could be made moreprecise by assay methodology, and treatments could be made more pre-cise by avoiding side effects — without having anything to do with a spe-cific individual. Other terms that have been suggested include genomic,digital, and stratified medicine, but all of these have a similar problem orappear to be too narrowly focused. The definition of individual is a single human being, derived from the Latinword individu, or indivisible. I propose individualized medicine as the pre-ferred term because it has a useful double entendre. It relates not only tomedicine that is particularized to a human being but also the future impactof digital technology on individuals driving their health care. There will in-creasingly be the flow of one’s biologic data and relevant medical informa-tion directly to the individual. Be it a genome sequence on a tablet or theresults of a biosensor for blood pressure or another physiologic metricdisplayed on a smartphone, the digital convergence with biology will de-finitively anchor the individual as a source of salient data, the conduit ofinformation flow, and a — if not the — principal driver of medicine in thefuture.

THE HUMAN GISPerhaps the most commonly used geographic information systems (GIS)are Google maps, which provide a layered approach to data visualization,such as viewing a location via satellite overlaid with street names, land-marks, and real-time traffic data. This GIS exemplifies the concept ofgathering and transforming large bodies of data to provide exquisite tem-poral and location information. With the multiple virtual views, it gives onethe sense of physically being on site. Although Google has digitized andthus created a GIS for the Earth, it is now possible to digitize a humanbeing. As shown in Figure 1, there are multiple layers of data that cannow be obtained for any individual. This includes data from biosensors,scanners, electronic medical records, social media, and the various omicsthat include DNA sequence, transcriptome, proteome, metabolome,

Над решением каких задач работаютлучшие мировые специалисты вобласти омиксной науки и на какиевопросы дают ответы сами эти тех-нологии? SkАльманах публикует двелучшие и наиболее убедительные, понашему мнению, работы последнеговремени, иллюстрирующие направ-

ление развития научной мысли. Этостатьи “Individualized Medicine fromPrewomb to Tomb” (Cell 157, March 27,2014) и “Personal Omics Profiling Reve-als Dynamic Molecular and MedicalPhenotypes” (Cell 148, March 16, 2012),а также их краткое содержание нарусском языке.

INDIVIDUALIZED MEDICINE FROMPREWOMB TO TOMBEric J. TopolThe Scripps Translational Science Institute, The Scripps ResearchInstitute and Scripps Health, La Jolla, CA 92037, USA. Correspondence: [email protected]

Reprinted from Cell, 157, Topol E.J., Individualized Medicine fromPrewomb to Tomb, 241-253, 2014, with permission from Elsevier.http://dx.doi.org/10.1016/j.cell.2014.02.012

Page 44: Sk biomed 03 10

43

Партнер Фонда «Сколково»

epigenome, microbiome, and exposome. Going forward, I will use theterm “panoromic” to denote the multiple biologic omic technologies. Thisterm closely resembles and is adopted from panoramic, which refers to awide-angle view or comprehensive representation across multiple appli-cations and repositories. Or more simply, according to the Merriam-Web-ster definition of panoramic, it “includes a lot of information and coversmany topics.” Thus the term panoromic may be well suited for portrayingthe concept of big biological data. The first individual who had a human GIS-like construct was Michael Sny-der. Not only was his whole genome sequenced, he also collected serialgene expression, autoantibody, proteomic, and metabolomic [11] sam-ples. A portion of the data deluge that was generated is represented in theCircos plot of Figure 2 or an adoption of the London Tube map [85]. Theintegrated personal omics profiling (iPOP) or “Snyderome,” as it becameknown, proved to be useful for connecting viral infections to markedly ele-vated glucose levels. With this integrated analysis in hand, Michael Sny-der changed his lifestyle, eventually restoring normal glucosehomeostasis. Since that report in 2012, Snyder and his team have pro-ceeded to obtain further omic data, including whole-genome DNA methy-lation data at multiple time points, serial microbiome (gut, urine, nasal,skin, and tongue) sampling, and the use of biosensors for activity trackingand heart rhythm. Snyder also discovered that several extended familymembers had smoldering, unrecognized glucose intolerance, therebychanging medical care for multiple individuals. Of note, to obtain the data and process this first panoromic study, it re-quired an armada of 40 experienced coauthors and countless hours ofbioinformatics and analytical work. To give context to the digital data bur-den, it took 1 terabyte (TB) for DNA sequence, 2 TB for the epigenomicdata, 0.7 TB for the transcriptome, and 3 TB for the microbiome. Accord-ingly, this first human GIS can be considered a remarkable academic featand yielded key diagnostic medical information for the individual. But, it can hardly be considered practical or scalable at this juncture. Withthe cost of storing information continuing to drop substantially, the bottle-neck for scalability will likely be automating the analysis. On the other hand, each omic technology can readily be undertaken nowand has the potential of providing meaningful medical information for anindividual.

THE OMIC TOOLSWhole-Genome and Exome SequencingPerhaps the greatest technologic achievement in the biomedical domainhas been the extraordinary progress in our ability to sequence a humangenome over the past decade. Far exceeding the pace of Moore’s Lawfor the relentless improvement in transistor capacity, there has been a >4log order (or 0.00007th) reduction in cost of sequencing [10], with a costin 2004 of ~$28.8 million compared with the cost as low as $1,000 in2014 [45]. However, despite this incomparable progress, there are stillmajor limitations to how rapid, accurate, and complete sequencing can beaccomplished. High-throughput sequencing involves chopping the DNAinto small fragments, which are then amplified by PCR. Currently, it takes3 to 4 days in our lab to do the sample preparation and sequencing at 303to 403 coverage of a human genome. The read length of the fragments isnow ~250 base pairs for the most cost-effective sequencing methods, butthis is still suboptimal in determining maternal versus paternal alleles, orwhat is known as phasing. Because so much of understanding diseasesinvolves compound heterozygote mutations, cis-acting sequence variantcombinations, and allele-specific effects, phasing the diploid genome, orwhat we have called “diplomics” [93], is quite important. Recently, Mole-culo introduced a method for synthetically stitching together DNA se-quencing reads yielding fragments as long as 10,000 base pairs. Thesesynthetic long reads are well suited for phasing. Unfortunately, the term“whole-genome sequencing” is far from complete because ~900 genes,or 3–4% of the genome, are not accessible [65]. These regions are typi-cally in centromeres or telomeres. Other technical issues that detract fromaccuracy include long sequences of repeated bases (homopolymers) andregions rich in guanine and cytosine. Furthermore, the accuracy for med-ical grade sequencing still needs to be improved. A missed call rate of 1 in10,000, which may not seem high, translates into a substantial number oferrors when considering the 6 billion bases in a diploid genome. These er-rors obfuscate rare but potentially functional variants. Beyond this issue,the accurate determination of insertions, deletions, and structural variantsis impaired, in part due to the relatively short reads that are typically ob-tained. The Clinical Sequencing Exploratory Research (CSER) programat the National Institutes of Health is aimed at improving the accuracy ofsequencing for medical applications [68]. Despite these shortcomings, the ability to identify rare or low-frequencyvariants that are pathogenic has been a major outgrowth of high-through-put sequencing. Well beyond the genome scans and genome-wide asso-ciation studies that identified common variants associated with mostcomplex, polygenic diseases and human traits, sequencing leads to highdefinition of the uncommon variants that typically have much higher pene-trance. For example, rare Mendelian conditions have seen a remarkablesurge of definition of their genomic underpinnings [8]. In the first half of2010, the basis for four rare diseases was published, but in the first half of2012, that number jumped to 68 [8]. With the power of sequencing, it isanticipated that the molecular basis for most of the 7,000 knownMendelian diseases will be unraveled in the next few years.

The 1.5% versus 98.5% Genome Sequencing Dilemma The exome consists of only 40 Mb, or 1.5% of the human genome. Thereis continued debate over the use of whole exome sequencing comparedwith whole-genome sequencing, given the lower cost of sequencing anexome, that can be readily captured via kits from a few different compa-nies (Agilent SureSelect, Illumina TruSeq, and Roche NimbleGen).Exome sequencing is typically performed at much deeper coverage,>1003 (as compared with 303-403 for whole genome), which enhancesaccuracy, and the interpretation of variants that affect coding elements isfar more advanced compared with the rest of the genome. However, thecollective output from genome-wide association studies of complex traitshas indicated that 80% of the incriminated loci are in noncoding regions,outside the confifnes of genes [56]. It is fair to say that we have long un-derestimated the importance of the rest of the genome, but its high den-

Figure 1. Geographic information system of a human being.The ability to digitize the medical essence of a human being is predicated

on the integration of multiscale data, akin to a Google map, which consists

of superimposed layers of data such as street, traffic, and satellite views.

For a human being, these layers include demographics and the social

graph, biosensors to capture the individual’s physiome, imaging to depict

the anatomy (often along with physiologic data), and the biology from the

various omics (genome-DNA sequence, transcriptome, proteome, metabo-

lome, microbiome, and epigenome). In addition to all of these layers, there

is one’s important environmental exposure data, known as the “exposome.”

Page 45: Sk biomed 03 10

МИРОВОЙ ОПЫТ

44

sity of key regulatory features provides intricate and extraordinarily tightcontrol over how genes operate. Recent whole-genome sequencing studies have identified many critical variants in noncoding portions of thegenome [54]. A typical whole human genome sequence will contain 3.5 million variants compared with the reference genome, predominantlycomposed of single-nucleotide polymorphisms but also including inser-tion-deletions, copy number variants, and other types of structural vari-ants [29]. Today, analysis of most of the 3.5 million variants is left with the“variant of unknown significant” (VUS) diagnosis. As more people get se-quenced with the full range of disease phenotypes, the proportion of VUSwill drop, and each sequence will become more informative. Figure 3 pro-vides a theoretical plot of how further reduction of the cost of whole-genome sequencing will also be accompanied by large numbers ofindividuals undergoing sequencing. In 2014, still well under 100,000 peo-ple have had whole-genome sequencing with only a very limited numberof phenotypes addressed. At some point in the future, sequence data getprogressively more informative at a lower price point, thus establishingparticular value of whole-genome sequencing. It is not just about getting a large number of people with diverse medical conditions and diverse an-cestries sequenced. Here, too much focus on the individual can result in a loss of context, back to our analogy of the Google map of maximalzoom obscuring understanding. By anchoring the genomics of familymembers, such as was done with the important discovery of PCSK9 rarevariants [40] in cholesterol metabolism, progress in genomic medicine willbe catalyzed.

At this juncture, however, it appears that exome and whole-genome se-quencing provide complementary information. As the cost of whole-genome sequencing is further reduced, along with the availability ofenhanced analytical tools for the nongene 98.5% content interpretation,exome sequencing may ultimately become obsolete.

Single-Cell SequencingThe ability to perform sequencing of individual cells has provided remark-able new insights about human biology and disease [4, 71, 83]. The unex-pected heterogeneity in DNA sequence from one cell to another, such ashas been well documented in tumor tissue and even in somatic cells inhealthy individuals, has enlightened us about intraindividual genomic vari-ation. The concept of “mosaicism” has gained rapid acceptance — withmultiple mechanisms — ranging from gamete formation, embryonic de-velopment, to somatic mutation in cells in adulthood, that account for whyeach of us has cells with different DNA sequences [62, 63, 73, 97]. It re-mains unclear whether mosaicism has functional significance beyondbeing tied to certain congenital conditions and cancers, but this is an ac-tive area of research that is capitalizing on single-cell sequencing technol-ogy. This is especially the case in neuroscience in order to explain theobserved frequent finding of transposons, which appear to involve be-tween 80 and 300 unique insertions for each neuron and are potentiallyassociated with neurologic diseases [73]. Sperm, which tend to swim solo, are particularly well suited for single-cellgenomics. This work has quantified recombination rates of 25 events persperm, identified the hot spots where these events are most likely tooccur, and determined genomic instability as reflected by the rate of denovo mutations [73, 97]. Such de novo mutations, which increase insperm with paternal age, are associated with autism, schizophrenia, andintellectual disability [8, 57, 73, 94]. Intriguing, and possibly revolutionary, single-cell methods using in situ se-quencing protocols are set to offer precise spatial information in addition tolinear sequence data. In situ sequencing holds the potential to resolve thespatial distribution of copy number variants, circular DNA, tumor hetero-geneity, and RNA localization. A number of methods have been publishedin the last year, and progress is likely to accelerate in the near future.

Transcriptomics, Proteomics, and Metabolomics As opposed to the DNA sequence, which is relatively static, RNA reflectsthe dynamic state of the cell. Gene expression of a particular tissue of thewhole genome has been available via microarrays for several years, butRNA sequencing (RNA-seq) is a relatively new tool that transcends sim-

Figure 2. Plots of panoramic information.Top: Circos plot of the Snyder genome. From outer to inner rings: chromo-

some ideogram; genomic data (pale blue ring), structural variants >50 bp

(deletions [blue tiles], duplications [red tiles]), indels (green triangles); tran-

scriptomic data (yellow ring), expression ratio of viral infection to healthy

states; proteomic data (light purple ring), ratio of protein levels during

human rhinovirus (HRV) infection to healthy states; transcriptomic data (yel-

low ring), differential heteroallelic expression ratio of alternative allele to ref-

erence allele for missense and synonymous variants (purple dots) and

candidate RNA missense and synonymous edits (red triangles, purple dots,

orange triangles, and green dots, respectively). From [11] with permission.

Bottom: Adopted London Tube model of integrated omics from Shendure

and Aiden Integration of the many applications of next-generation DNA se-

quencing, which include sites of DNA methylation (methyl-seq), protein-

DNA interactions (ChIP-seq), 3D genome structure (Hi-C), genetically

targeted purification of polysomal mRNAs (TRAP), the B cell and T cell

repertoires (immunoseq), and functional consequences of genetic variation

(synthetic saturation mutagenesis) with a small set of core techniques, rep-

resented as open circles of “stations.” Like subway lines, individual se-

quencing experiments move from station to station until they ultimately

arrive at a common terminal — DNA sequencing. From [85] with permis-

sion.

Page 46: Sk biomed 03 10

45

Партнер Фонда «Сколково»

ple expression by capturing data on gene fusions, alternative spliced tran-scripts, and posttranscriptional changes, along with the whole gamut ofRNAs (including microRNA [e.g., miRNAseq], small RNA, lincRNA, ribo-somal RNA, and transfer RNA). A particularly valuable metric related to RNA is the expression quantitativetrait locus (eQTL). By having both genome-wide association study(GWAS) data and whole-genome gene expression at baseline with orwithout particular stimuli, functional genomic assessment has been en-abled. For example, Westra et al. [99] used eQTLs and loci derived fromGWAS to provide functional genomic, mechanistic insights for multiplecomplex traits, including lupus and type1diabetes. The proteome, metabolome, and autoantibody landscape can be as-sessed for an individual approaching the whole-genome level via recentadvances in mass spectrometry and protein arrays. Using these tech-niques, posttranslational modifications of proteins, protein-protein interac-tions, or the small-molecule metabolites produced by these proteins canbe revealed. Emerging technologies such as RNA-mediated oligonu-cleotide annealing, selection, and ligation sequencing (RASL-seq), bar-coded small hairpin RNA (shRNA) libraries, and combinatorial antibodylibraries provide inexpensive and efficient views of biology. Longer readsequencing provides the opportunity to sequence antibodies, which typi-cally have variable and constant regions composed of 2,000 nucleotides.

MicrobiomePerhaps no area of biology has received more attention in recent yearsthan the microbiome. Just the gut microbiome has orders of magnitudemore DNA content than germline human DNA and has markedly height-ened diversity. Our commensal bacterial flora has been shown to play animportant role in various medical conditions [12]. From fecal samples usinga 16S ribosomal amplicon sequencing method, the gut micro-biome hasbeen the subject of intensive prospective clinical assessment. It was deter-

mined that there were three major enterotypes of the intestinal microbiomebased on the predominant bacterial species, such as Bacteroides, Ru-minococcus, or Prevotella [3]. The resident species appear to be quite sta-ble over an extended period of time and to be initially transmitted via themother at childbirth [23]. As the interface between genomics and the host’senvironment, the microbiome clearly plays a pivotal role in defining eachindividual. The influence of the diet on the gut microbiome, such as thecontent of fiber, along with the underpinning of malnutrition, has been doc-umented [35, 76]. For example, even an individual’s response to medica-tions, such as digoxin [39], or multiple drugs used for cancer, has beenshown to be linked to the bacterial flora of the gut microbiome [47, 95].

EpigenomeThere has been extraordinary progress in our ability to map the humanepigenome from DNA methylation to histone modifications and chromatinstructure [78, 104]. The prolific ENCODE project has provided troves ofdata detailing the role of regulatory elements such as enhancers and insu-lators and how they are tied to DNA methylation and histone changes [16].Like gene expression, epigenomic findings are highly cell-type specific,with more than 200 different cell types in the human body. For methylation,whole-genome bisulphite sequencing has recently been performed for 30diverse human cell types [78]. Epigenomic reprogramming has a clear-cutrole in cancer, be it via transcription factors or chromatin regulators [16,91]. Although access to tissue to define epigenomic signatures is a limitingfactor outside of the cancer space, it is apparent that many other diseasesare affected by epigenomic dynamics, such as complications of diabetes,rheumatoid arthritis, or hypertension [28, 60, 72]. Furthermore, epigenomicchanges affect susceptibility to diseases, as has been shown with openchromatin related to the TCF7L2 gene [37] and parental origin of se-quence variants for Type2 diabetes mellitus and breast and prostate can-cer [57]. This parent-of-origin issue may be tied to transgenerationalepigenomic instability, as has been well documented in plants, and is cer-tainly a key element of human biology and heritability [81].

Physiome and ExposomeUnderstanding and quantifying an individual’s physiology and environ-mental interactions are crucial to digitizing a human being. Through wear-able biosensors and smartphones, this has become eminently practical.Continuous tracking is now obtainable for most key physiologic metrics,including blood pressure, heart rhythm, glucose, blood oxygen saturation,brain waves, intraocular eye pressure, and lung function indices. Similarly,there are environmental sensors that connect with smartphones to quan-tify such indices as air pollution, pollen count, radiation, water quality, am-bient humidity, electromagnetic fields, and the presence of pesticides infood.

BioinformaticsFundamental to individualized medicine is the ability to analyze the im-mense data sets and to extract all of the useful, salient information. This isexemplified by the task of sifting through a trio of whole-genome se-quences to find a causative mutation in a proband with an undiagnoseddisease. Typically, this translates to finding one critical nucleotide variantout of well over one to two million single base variants and simplifying theanalysis by only considering variants that change amino acid sequence orlead to obvious splicing defects [64]. Identifying the signal from the noise,with the vast majority of variants categorized as “unknown significance”(VUS), is the crux of the challenge. Moreover, the tools to assess struc-tural variants and indels are not as extensively developed and validated.So there are considerably more data that come from the sequencer for anindividual than can be fully and accurately mined. Beyond this, there isthe need for better integration of the multiple GIS layers, such aspanoromic and biosensor data, and the ability to provide an integrativemultiscale approach to an individual’s data set. Although not the compre-hensive multilayer as depicted in Figure 2, Zhang et al. [103] recentlyused an integrated systems approach, including omics of both human

Figure 3. Hypothetical plot of cost of sequencing and number of individu-als sequenced over the next 6 years.As of early 2014, <100,000 individuals have had whole-genome sequencing,

leaving the information difficult to fully interpret (of limited informativeness or

value). When millions of people undergo sequencing, with the full gamut of di-

verse phenotypes and ancestries, and the cost for sequencing continues to

drop, a virtuous cycle of informativeness is established. With the new capabil-

ity in 2014 to have whole-genome sequencing at a cost of $1,000, along with

extremely high throughput, it is likely that millions of individuals will be se-

quenced in the next 3-4 years. The cost of sequencing will continue to drop

throughout this time, as increasing numbers of individuals undergo sequenc-

ing. Projections suggest that at least 20,000 individuals with each phenotype

may be necessary to reliably identify rare, functional genomic variants. Ac-

cordingly, once millions of individuals across all main phenotypes and ances-

tries are sequenced, there is a new set point, or threshold, of informativeness.

Page 47: Sk biomed 03 10

МИРОВОЙ ОПЫТ

46

and mice brains to discover genetic networks in Alzheimer’s disease. Al-though in the past there were generally insufficient efforts to understandepistasis, gene-gene interactions have been upstaged by the complexityof a higher-order bioinformatics challenge.

HOW THE OMIC TOOLS REBOOT MEDICINEA Prewomb-to-Tomb AssessmentAt many points in the span of a lifetime, the unique biology of the individ-ual will play an increasing role. As depicted in the time-line of Figure 4, Iwill go through each topic sequentially.

PreconceptionThe ability to determine carrier mutations for each prospective parent hasbeen greatly enhanced through multiple direct-to consumer sources, in-cluding 23andMe, Counsyl, GenePeeks, and Good Start Genetics. Thiscan be considered the ultimate form of prevention for major recessiveconditions and has only received modest attention to date. Counsylscreens for more than 100 recessive Mendelian traits, and 23andMescreens 50 carrier conditions. The carrier rates for many serious condi-tions are higher than most people would suspect, such as 1 in 35 forspinal muscular atrophy, 1 in 40 for cystic fibrosis, and 1 in 125 individualsfor Fragile X syndrome [92]. Gene-Peeks uses carrier data from 100,000DNA sequence variants for each prospective parent to perform a com-puter simulation of 10,000 ‘‘digital babies,’’ determining the probabilisticodds of significant Mendelian disorders [14]. They are already using theiranalytic methodology to screen sperm from the Manhattan cryobank; untilnow, sperm banks have been completely unregulated and without ge-nomic assessment [2, 77]. The concept of higher DNA resolution precon-ception screening is attractive, given that there are many morepathogenic variants in the genes that are implicated in disease, such ascystic fibrosis (2,000 variants), than are conventionally assessed [89].

Fetal Sequencing Whereas the diagnosis of chromosomal aberrations such as trisomy-21,18, 13 required amniocentesis or chorionic villi sampling, there are nowfour different maternal blood sampling assays to accomplish the same as-sessment with extremely high (>99%) accuracy [67]. Relying on the

plasma fetal DNA present in adequate quantity from a maternal bloodsample at 8–10 weeks of pregnancy, such testing has been transforma-tive, preempting the need for amniocentesis in all but the rare exceptionwhen results are ambiguous. Here is a great example of using plasma-free DNA sequencing to avoid an invasive test that carries a small but im-portant risk of miscarriage. However, with more than 4 million births in theUnited States each year, only a tiny fraction (<2%) of prenatal maternalblood sampling has yet been performed in clinical practice. Multiplegroups have demonstrated the ability to do a fetal whole-exome se-quence from a maternal blood sample [24] or whole-genome sequencingfrom both parents’ DNA along with the maternal plasma-free DNA [55,61], but this takes a rather extensive computing and bioinformatics effortthat is not presently scalable. Undoubtedly, that will be resolved over timebut will engender the serious bioethical issues of what constitutes the ap-propriate reasons for termination of pregnancy. But, at the same time, itwill afford the opportunity to make the molecular diagnoses of conditionsin utero and facilitate treatment then or at the earliest time after birth.

Neonatal Sequencing Monogenic diseases, many of which present in the first month of life, area major cause of neonatal fatality and morbidity [80]. Despite routine heelsticks for blood sent out for analysis, with attendant delays of several daysto weeks in obtaining results, there has not been any improvement in re-ducing neonatal mortality related to genetic disorders in the past 20 years[51, 89]. Now, it has been shown that whole-genome sequencing of new-borns can be accomplished in <48 hr and can lead to highly actionable in-formation for managing a neonate’s condition, such as in the classicexample of phenylketonuria or galactosemia, whereby irrevocable dam-age might otherwise occur [51, 80, 89].

Undiagnosed, Idiopathic, and Rare DiseasesThe diagnosis of an XIAP mutation in a child with fulminant pan-colitis withsuccessful, curative treatment is often cited as the first case of sequencingto save an individual’s life [101]. Since that report, there have been severalother cases that used whole-genome or exome sequencing, along withother omic tools, for making the molecular diagnosis of idiopathic condi-tions [49]. For example, the National Institutes of Health Undiagnosed Dis-

Figure 4. Timeline of Sequencing Applications inMedicine from Prewomb to Tomb.The medical application of genomics is relevant to

many points during an individual’s lifespan. Prior to

conception, a couple can have genomic screening

for important recessive alleles. An expectant mother,

at 8–12 weeks of pregnancy, can now have single

tube of blood used to accurately assess chromoso-

mal abnormalities of the fetus, determine gender,

and even have whole-genome sequencing of the

fetus performed. At birth, sequencing the genome of

the newborn can be used to rapidly diagnosis many

critical conditions for which a time delay, which fre-

quently can occur with the present heel stick

screening methods, might lead to irrevocable dam-

age. The molecular basis for serious, undiagnosed

conditions can often be established by sequencing

the individual with parents of siblings. Ultimately,

omic information at a young age will be useful by

providing susceptibility to various medical condi-

tions that have actionable prevention strategies. Se-

quencing can be done to define a pathogen for

more rapid and accurate approaches to infectious

diseases. The driver mutations and key biologic un-

derpinning pathways of an individual’s cancer can

frequently be pinpointed by omics. The root causes

of common polygenic conditions such as diabetes

or coronary heart disease may ultimately be defined

at the individual level. Specific sequence variants of

germline DNA or the gut microbiome have rele-

vance for response to prescription medication.

Defining the genomics of healthspan, rather than

the traditional focus on diseases, may prove to be

especially worthwhile to understand protective alle-

les and modifier genes. For an individual with sud-

den death, a molecular autopsy via sequencing can

be performed, along with family survivors, to deter-

mine the cause of death and potentially prevent un-

timely or avoidable deaths of members of the family

and subsequent generations.

Page 48: Sk biomed 03 10

47

Партнер Фонда «Сколково»

ease Program uses exome sequencing to facilitate the diagnosis [30]. Re-cently, the group at Baylor College of Medicine published a series of 250individuals, of whom 80% were pediatric and largely affected by neurologicconditions, who underwent whole-exome sequencing. In that cohort, therewere many affected patients with a known Mendelian trait but without aspecific root cause established. A molecular diagnosis was made in 25%of the cohort [102]. At the Scripps Health and Scripps Research Institute,we have screened more than 100 individuals for the potential of having anidiopathic disease. This requires review by a multidisciplinary physicianpanel to assure that a comprehensive evaluation of the patient has beenperformed before turning to DNA sequencing. The first of 15 individualswho we enrolled into our protocol was 16 years old and had an incapaci-tating neurologic condition. She and her parents were sequenced, and inFigure 5, the bioinformatics challenge of interpreting the three whole-genome sequences is presented, along with the molecular diagnosis of anADCY5 mutation that had not been previously described. In our 15probands at Scripps, we have had a successful molecular diagnosis in 8individuals. However, establishing the diagnosis represents only the firststep of the desired strategy, as providing an effective treatment is the fun-damental goal. Unfortunately, the number of individuals for whom that hasbeen achieved is quite limited to date, but strategies using repurposing ofexisting drugs, drugs that were partially developed but not commercialized,or acceleration of the development of genomically guided therapies are allactively being pursued. With an estimate of at least one million individualsin the United States with a serious medical condition left without a diagno-sis, such progress is encouraging [49].

Disease PreventionAt some point in the future, it is hoped that having DNA sequence infor-mation will pave the way for prevention of an individual’s predisposedconditions. To date, however, that concept has not been actualized for afew principal reasons. First, most of the complex, polygenic traits have nothad much more than 10% of their heritability explained by the commonvariants assessed by GWAS. The “missing” or unsolved heritability de-tracts from the ability to assign an individual any certainty or risk or protec-tion from a particular condition. There are some notable exceptions, suchas age-related macular degeneration or type 1 diabetes mellitus, in whichcombinations of common and rare variants can provide a well-character-ized, quantified risk profile. Second, there is the appropriate question ofwhether the knowledge of a risk allele is actionable. Prototypic here is theapoε4 allele, which carries an unequivocal high risk for Alzheimer’s dis-ease, yet there is no proven strategy to prevent the disease. So, evenarmed with known risk, there is a lack of knowledge for how to mitigate it.Third, the way data for genomic susceptibility are analyzed via a popula-tion approach makes it difficult to extrapolate such average findings to aparticular individual. For example, someone may have low-frequencymodifier genes for a condition at risk or unusual environmental interac-tions that markedly affect susceptibility. Notwithstanding these issues, asmillions of individuals with diverse phenotypes undergo whole-genomesequencing (Figure 3), the ability to provide meaningful risk data will in-crease. Having the full GIS of each individual will further enrich the proba-bilistic approach of providing vulnerability data early in one’s life. Forexample, if one’s sequence data indicate a risk for hypertension, that riskmay be further modulated by knowledge of his/her proteins, metabolites,microbiome, and epigenomics. Specific treatments could be used that arebiologically based from one’s GIS. Similarly, for asthma, the panoromic in-formation, coupled with biosensors that track air quality, pollution, forcedexpiratory volume, and other relevant physiologic metrics, could proveuseful to prevent an attack. A futuristic way in which genomics and biosensors will ultimately convergeis through injectable nanosensors that put the blood in continuous surveil-lance mode [25]. Such sensors have the ability to detect a DNA, RNA, autoantibody, or protein signal and to wirelessly transmit the signal to theindividual’s smartphone. This sets up the potential for detecting endothe-lial sloughing from an artery before a heart attack [15], plasma tumor DNAin a patient being treated for or in remission from cancer, or a child withknown genomic risk of autoimmune diabetes that is developing autoanti-bodies to pancreatic b-islet cells long before there has been destruction.The blood under continuous surveillance concept highlights the potentialability to temporally detect a risk signal for a major clinical event. Thatcould be intensive antiplatelet medication to prevent a heart attack, ge-nomic-guided treatment of cancer recurrence at the earliest possible junc-ture, or immunomodulation therapy for autoimmune diabetes.

Infectious DiseasesWhole-genome sequencing has proven to be particularly useful for track-ing pathogen outbreaks, such as for tuberculosis [32], methicillin-resistantStaphylococcus aureus, antibiotic-resistant Klebsiella pneumonia, andClostridium difficile [22, 44, 87]. Beyond identifying the particular bacterialor viral strain that accounts for an outbreak’s origin and spread, sequenc-ing is likely to prove to be quite useful for rapid, early characterization ofthe cause of infection and specific, effective antibiotic therapy. For sepsis,the current standard of care is to take blood or other body fluids for cul-ture, which typically takes 2 days to grow out. Additionally, there is at leastanother day required to determine sensitivities to a range of antibiotics. Inthe future, with lab-on-a-chip sequencing platforms that attach to or are in-tegrated with a smartphone (Biomeme and QuantuMD), it may be feasi-ble to do rapid sequencing of the pathogen and determination of theoptimal treatment. Such a strategy would preempt the need for broad-spectrum antibiotic use, and the rapid diagnosis and targeted treatmentwould likely have a favorable impact on prognosis in these very high-risk,critically ill patients.

Figure 5. Legend from Whole-Genome Sequencing to Identification of aCausative Variant. As of early 2014, <100,000 individuals have had whole-genome sequencing,

leaving the information difficult to fully interpret (of limited informativeness or

value). When millions of people undergo sequencing, with the full gamut of di-

verse phenotypes and ancestries, and the cost for sequencing continues to

drop, a virtuous cycle of informativeness is established. With the new capabil-

ity in 2014 to have whole-genome sequencing at a cost of $1,000, along with

extremely high throughput, it is likely that millions of individuals will be se-

quenced in the next 3-4 years. The cost of sequencing will continue to drop

throughout this time, as increasing numbers of individuals undergo sequenc-

ing. Projections suggest that at least 20,000 individuals with each phenotype

may be necessary to reliably identify rare, functional genomic variants. Ac-

cordingly, once millions of individuals across all main phenotypes and ances-

tries are sequenced, there is a new set point, or threshold, of informativeness.

Page 49: Sk biomed 03 10

МИРОВОЙ ОПЫТ

48

CancerWith cancer’s basis in genomics, there have been extensive efforts tocharacterize the principal driver mutations and biologic pathways, espe-cially through The Cancer Genome Atlas (TCGA) [1, 52, 53]. Our under-standing of the biology of cancer has expanded exponentially and, with it,so has the appreciation for its extreme complexity. Perhaps the two clas-sical “Hallmarks of Cancer” Reviews in Cell, one in 2000 and the sequelin 2011, best exemplify this [41, 42]. The diagram to explain the principalmechanisms of cancer was already exceptionally complex in 2000 andbecame at least a log order more intricate a decade later. In a more re-cent review of the cancer genome landscape, the Johns Hopkins groupprovided perspective for the 84 known oncogenes and 54 tumor suppres-sor genes that have been fully validated [96]. There will unquestionablybe more, but estimates of the total number of genes involved in pivotalmutations may wind up being 200. Beyond this, the principal pathways in-volving cell survival, cell fate, and DNA damage repair are recognized.Certain cancers have a relative low burden of mutations per megabase ofthe tumor genome, such as acute myelogenous leukemia (<1), whereasother are quite high, like lung adenocarcinoma or squamous cell carci-noma (50) [53, 96]. Mutations of certain genes, such as the P53 tumorsuppressor, are found in some patients with any of 12 common forms ofcancer [53]. Our old taxonomy of cancer based upon the organ of originmay be considered inapt, for knowledge of the driver mutation(s) andpathway could be more useful for individualizing treatment. “Nof1” casereports with whole-genome sequencing have been particularly illuminat-ing for the clonal origin of an individual’s cancer [9, 38]. In the past 2years, the FDA has approved almost 20 new drugs that target a specificmutation for cancer. So, with these leaps in understanding biology and introduction of new ther-apies, why has there been relatively little impact in the clinic to date? Onemajor barrier is that we do not have drugs that can target tumor suppres-sor genes, making up 40% of mix of principal, driver mutations. Some-times there are workarounds for this issue, such as the tumor suppressorgene PTEN, which results in PI3-kinase activation, but more often, this isnot the case. Even for oncogenes, less than 40% have a specific drug an-tagonist, as most are part of protein complexes [96]. A second critical issueis that there is marked heterogeneity in tumors, both within an individual’sprimary tumor and certainly intermetastatic. This appears to be a founda-tion for the common occurrence of relapse after an initial marked re-sponse, reflecting success directed to an oncogene but also that otherundetected mutations become capable of propagating the tumor. TheBRAF mutations, which are drivers in a variety of tumors, notablymelanoma, thyroid, and colon, can be treated with a specific BRAF in-hibitor. In the first 2 weeks of oral therapy, there is usually a marked re-sponse, but at 9-12 months, a relapse is quite typical [88]. Interestingly,when targeting BRAF for colon cancer, there appears to be primary resist-ance to these inhibitors [74] related to EGFR expression and emphasizingthat the stroma, microenvironment of the tumor can still exert an importantrole. The issues of heterogeneity and resistance lend credence to the useof combinations of targeted drugs in the future, but that has yet to be ex-plored at scale in prospective trials. A third largely unaddressed issue inthe clinic is the involvement of the epigenome in tumorigenesis. At least 40epigenome regulator genes are known that have highly recurrent somaticmutations in tumors across a variety of cancers, affecting multiple targetgenes simultaneously [32, 53, 84, 96]. These are not screened for clini-cally, nor are there drugs available to modulate their effect. In the clinic today, the bare bones of mutation screening are typically used,such as HER2 for breast cancer or KRAS for colon cancer. Recently,Foundation Medicine commercialized a targeted gene panel of 287 genesthat have an established role in cancer [27]. Using predominantly fixed-for-malin, paraffin-embedded samples, mutation cell concordance was estab-lished compared with mass spectrometric methodology (Sequenom), andthe typical driver mutations were identified in a cohort of more than 2,000individuals, such as TP53, KRAS, CDKN2A, and PIK3CA [27]. However,there was a long tail of uncommon mutations that was identified, reflecting

the profound diversity of cancers. This panel represents a step forwardcompared with a very limited gene mutation screen for commonly occur-ring drivers, which might even miss other pathogenic mutations within in-criminated genes. The 287 genes assessed represent only <15% of genesand only the coding elements. This is in contrast to research studies ofwhole-genome and whole-exome sequencing, with paired germline DNAfor each individual, to more precisely determine driver mutations [53]. Fur-ther, multiple recent studies have highlighted the role of noncoding ele-ments of the genome to play a prominent role, such as TERT promoters inmelanoma [46], a long, noncoding RNA SChLAP1 for aggressive prostatecancer [75], and identification of 100 non-coding driver variants for cancerusing a new bioinformatics tool known as FunSeq [54]. Clearly, even acomprehensive exome would only represent a limited swath of samplingfor root causes of cancer in an individual. Cancer genomic medicine of the future will likely involve a GIS of thetumor with assessment of DNA sequence, gene expression, RNA-seq,microRNAs, proteins, copy number variations, and DNA methylationcross-referenced with the individual’s germline DNA. But the issue of ad-dressing heterogeneity still looms [5, 96], and for that, there are a fewpossible steps, including deep sequencing of the tumor at multiple loca-tions, single-cell sequencing, or the use of the “liquid biopsy” of cancer[26, 59, 82]. Cell-free tumor DNA in plasma, which is present in the vast majority of pa-tients with cancer, has been shown to be a useful biomarker for followingpatients [26, 59, 82] and appears to have independent prognostic signifi-cance [17]. It may be that plasma tumor DNA is the best representative ofthe cancer for targeted treatment because avoidance of metastasis is ofutmost concern. The ease of isolating and sequencing cell-free tumorDNA is likely to make this a very attractive and routine in the future. Alsoof particular interest, at some point, will be screening healthy people forcell-free tumor DNA to determine whether we are constantly facing micro-scopic tumor burden but are able to effectively keep the disease in checkby a variety of homeostatic mechanisms.

Molecular DiagnosisWhen a patient receives a diagnosis of a chronic illness today, it is non-specific and is based on clinical and not molecular features. Take, for ex-ample, diabetes mellitus type 2, which could reflect anything from insulinresistance, failure of β-islet cells, or a variety of subtypes, including α-adrenergic receptor (ADRA2A) diabetes [36] or a zinc transporter subtype(SLC30A8) [86]. Common genomic variants have been identified in path-ways involving signal transduction, cell proliferation, glucose sensing, andcircadian rhythm [20]. Some individuals with a high fasting glucose have aG6PC2 variant that is associated with protection from diabetes [7].Agenotype score, amalgamating the number of risk variants, has beenshown to be helpful for identifying high susceptibility [66]. Moreover, thereare 13 classes of drugs to treat diabetes, and the treatment could bemade considerably more rational with knowledge of the individual’s un-derlying mechanism(s). This brief summary of the diabetes example re-flects the need for a new molecular taxonomy across all diseases. Whenan individual is diagnosed (or at some point when risk can be defined),the molecular basis will be assessed and, ideally, when possible, the rootcause will be established. Clearly, for many common diseases, there aremultiple pathways implicated, and this may prove to be difficult. But therehas yet to be a systematic attempt of providing such a molecular diagno-sis in clinical care. Despite multiple reports of molecular subtypes ofasthma [98], multiple sclerosis [70], and colon [79] and uterine cancer[52], which appear to be linked with therapy and prognosis, this has yet tobe made part of medical practice.

PharmacogenomicsJust as molecular subtyping of chronic disease is not part of medical prac-tice, pharmacogenomics screening for either assurance of efficacy oravoidance of major side effects is predominantly ignored. With the use ofGWAS, there has been an avalanche of discovery of alleles that are piv-

Page 50: Sk biomed 03 10

49

Партнер Фонда «Сколково»

otal to individual drug response. Unlike polygenic disease, for which thepenetrance for a common sequence variant is quite low (approximateodds ratio of 1.15), the typical genotype odds ratio for prescription drugscan be as high as 80, and for many, the range is 3- to 40-fold (reviewed indepth in [43]). The likely explanation for this pronounced impact of com-mon variants on individual drug response is based on selection — ascompared with diseases, the human genome has had very limited time toadapt to medication exposure. Despite there being more than 100 drugsthat carry a genomic “label” by the FDA, meaning that there is a recom-mendation for genotype assessment before the drug is used, there israrely any pharmacogenomic assessment in clinical practice. This needsto improve, and perhaps the availability of point-of-care testing will help,along with reduced cost, to eventually promote routine use. Beyond thisbarrier, there needs to be more genomic sequencing for commonly useddrugs, with associated phenotypic determination of efficacy and side ef-fects, along with systematic omic assessment for drugs in development.From the marked success of discovering genomic-drug interactions foundto date, there is certainly the sense that, the more you look, the more youwill find. The potential here is to reduce the waste of pharmaceuticals, notjust by avoiding drugs that will not provide efficacy for particular individu-als but also by avoiding serious toxicity that can be either fatal or lifethreatening.

HealthspanThe human reference genome is based upon multiple young individualswho had no phenotypic characterization. Accordingly, we know nothingabout the reference human’s natural history of disease, and one can con-sider this as a flawed standard for comparison. Ideally, we should have areference genome that has had rigorous phenotyping. This is especiallythe case in an era of using sequencing in medical practice but with an in-adequate comparator. Perhaps the optimal phenotype would behealthspan. At Scripps, we have defined healthy elderly as age >80 yearswith no history of chronic illness or use of medications. The cohort (knownas “Wellderly”) that we have assembled over the past 7 years of 1,400 in-dividuals has an average age of 88, and we have completed whole-genome sequencing for 500 of these individuals. The intent is to provide amore useful reference genome with a clearly defined, uniform, and rele-vant phenotype. Moreover, there is another important application of healthspan genomics.Multiple studies have established that a research investment in under-standing healthy aging would be more prudent than in any specific dis-ease category [33]. Because the cohort that we have enrolled carries asimilar burden of common risk variants for chronic diseases comparedwith the general population, there are most likely a substantial number ofmodifier genes and protective alleles that may be ultimately identified.One example is from APP, a gene that has a variant for both high risk ofAlzheimer’s and another rare variant with marked protection from cogni-tive impairment of Alzheimer’s [19]. Unquestionably, there are many moresuch variants left to be discovered, and therein lies the potential for drugdiscovery efforts that can follow such findings from nature of particulargenes and pathways that prevent diseases.

Molecular AutopsiesAlthough physical autopsies have lost favor and become exceptionallyrare, there is an opportunity to use sequencing to determine the cause of

death, particularly when this occurs suddenly. Targeted or whole-genomesequencing for heritable heart disorders implicated in sudden death, in-cluding ion channel mutations and hypertrophic cardiomyopathy, can beperformed in the deceased individual and family members. This approachis now actively being pursued in New York City for all sudden cardiacdeaths [21] and may prove helpful in preventing this condition in familymembers.

Future DirectionsThis prewomb-to-tomb review has emphasized that there is a dispropor-tionate relationship between knowledge and implementation into clinicalpractice. For individualized medicine to take hold, it will require intensive,rigorous validation that these new approaches improve patient outcomesand are demonstrated to be cost effective. This proof will be essential forthe medical community to embrace the opportunities but will also requireeducational programs that squarely address the knowledge chasm thatcurrently exists for practicing physicians. A second theme is that our ef-forts have been largely sequence centric and have not adequately takeninto account or integrated the data from other omics, no less biosensorsand imaging. Related to this deficiency, there is a profound shortage ofdata scientists in biomedicine, with unparalleled opportunities to processenormous, high-yield data sets. While we will increasingly rely on algo-rithms, artificial intelligence, and machine learning, the rate-limiting stepnecessitates talented biocomputing and bioinformatic human expertise. One of the most attractive outgrowths of defining each individual’s uniquebiology in an era with unprecedented digital infrastructure is to be able toshare the data. By taking the deidentified data from each individual, in-cluding panoromic, biosensors, social graph, treatment, and outcomes,an extraordinary resource can now be developed. Such a massive openonline medical information (MOOM) repository could provide matchingcapability to approximate a newly diagnosed individual’s data as com-pared with all of those previously amalgamated. For a patient with cancer,for example, this could provide closest matches to the tumor GIF, demo-graphics, treatment, and outcomes to select an optimal strategy; thiswould potentially take Bayesian principles to a new, enriched potential.Such a MOOM resource does not need to be confined to cancer, but thefirst to be announced was with the Leukemia & Lymphoma Society andOregon Health Sciences University for 900 patients with liquid tumors[100]. Hopefully, this will be one of many data-sharing initiatives in medi-cine to go forward, now that such rich unique information can be capturedat the individual level, and our computing infrastructure is so well suited toperform such functions. Although we are still at the nascent stages of indi-vidualized medicine, there has never been more promise and opportunityto reboot the way health care can be rendered. Only with systematic vali-dation of these approaches at the intersection of biology and digital tech-nology can we actualize this more precise, futuristic version of medicine.

ACKNOWLEDGMENTS I want to express my gratitude to my colleagues Ali Torkamani, PhD, andErick Scott, MD, who reviewed the manuscript and offered editorial inputand to Katrina Schreiber, who helped prepare the typescript and graphics.This work was supported by NIH/NCATS1UL1TR001114. Dr. Topol is anadvisor to Illumina, Genapsys, and EdicoGenomics and is a cofounder ofCypherGenomics.

Эрик ТополИндивидуальная медицина: от планирования семьи до смерти

Не все осознают, насколько биологически уникален каждыйчеловек, даже однояйцевые близнецы. Степень этой индиви-дуальности стала ясна лишь сейчас, благодаря персонализи-рованному омиксному профилированию, в первую очередьДНК- и РНК-секвенированию и описанию (в большей или

меньшей степени) протеома, метаболома, эпигенома, микро-биома и профиля антител. Доступность этой информациисоздала беспрецедентные возможности для улучшения ме-дицинской технологии и развития превентивных стратегийсохранения здоровья. Масштаб этих новых возможностейзначительно шире, чем у уникального генотипирования, с ко-торым обычно ассоциируют персональную геномику.

Page 51: Sk biomed 03 10

МИРОВОЙ ОПЫТ

50

REFERENCES

1. Alexandrov L.B. et al. (2013). Signatures of muta-tional processes in human cancer. Nature. 500, 415-421.

2. Almeling R. (2013). The unregulated sperm industry. New York Times, November 30, 2013.

3. Arumugam M. et al. (2011). Enterotypes of the human gut microbiome. Nature. 473, 174-180.

4. Battich N. et al. (2013). Image-based transcriptomics in thousands of single human cells at single-molecule resolution. Nat. Methods. 10, 1127-1133.

5. Bedard P.L. et al. (2013). Tumour heterogeneity in the clinic. Nature. 501, 355-364.

6. Bonnet J. et al. (2013). Amplifying genetic logic gates. Science. 340, 599-603.

7. Bouatia-Naji N. et al. (2008). Apolymorphismwithin the G6PC2 gene is associated with fasting plasma glucose levels. Science. 320, 1085-1088.

8. Boycott K.M. et al. (2013). Rare-disease genetics in the era of next-generation sequencing: discovery to translation. Nat. Rev. Genet. 14, 681-691.

9. Brannon A.R. et al. (2013). “N of 1” case reports in the era of whole-genome sequencing. J. Clin. Invest. 123, 4568-4570.

10. Butte A.J. (2013). Should healthy people have their genomes sequenced at this time? The Wall Street Journal. February 15, 2013.

11. Chen R. et al. (2012). Personal omics profiling reveals dynamic molecular and medical phenotypes. Cell. 148, 1293-1307.

12. Cho I. et al. (2012). The human microbiome: at the interface of health and disease. Nat. Rev. Genet. 13, 260-270.

13. Church G.M. et al. (2012). Next-generation digital information storage in DNA. Science. 337, 1628.

14. Couzin-Frankel J. (2012). Genetics. New company pushes the envelope on pre-conceptiontesting. Science. 338, 315-316.

15. Damani S. et al. (2012). Characterization of circulating endothelial cells in acute myocardial infarction. Sci. Transl. Med. 4, 126ra33.

16. Dawson M.A. et al. (2012). Cancer epigenetics: from mechanism to therapy. Cell. 150, 12-27.

17. Dawson S.J. et al. (2013). Analysis of circulating tumor DNA to monitor metastatic breast cancer. N. Engl. J. Med. 368, 1199-1209.

18. de Ligt J. et al. (2012). Diagnostic exome sequencing in persons with severe intellectual disability. N. Engl. J. Med. 367, 1921-1929.

19. De Strooper B. et al. (2012). Alzheimer’s disease:Aprotective mutation. Nature. 488, 38-39.

20. Dupuis J. et al. (2010). New genetic loci impli-cated in fasting glucose homeostasis and their impact on type 2 diabetes risk. Nat. Genet. 42, 105-116.

21. Erdmann J. (2013). Telltale hearts. Nat. Med. 19, 1361-1364.

22. Eyre D.W. et al. (2013). Diverse sources of C. difficile infection identified on whole-genome sequencing. N. Engl. J. Med. 369, 1195-1205.

23. Faith J.J. et al. (2013). The long-term stability of the human gut microbiota. Science. 341, 237439.

24. Fan H.C. et al. (2012). Non-invasive prenatal measurement of the fetal genome. Nature. 487, 320-324.

25. Ferguson B.S. et al. (2013). Real-time, aptamer-based tracking of circulating therapeutic agents in living animals. Sci. Transl. Med. 5, 213ra165.

26. Forshew T. et al. (2012). Noninvasive identification and monitoring of cancer mutations by targeted deep sequencing of plasma DNA. Sci. Transl. Med. 4, 136ra68.

27. Frampton G.M. et al. (2013). Development and validation of a clinical cancer genomic profilingtest based on massively parallel DNA sequencing. Nat. Biotechnol. 31, 1023-1031.

28. Fratkin E. et al. (2012). The implications of ENCODE for diagnostics. Nat. Biotechnol. 30, 1065.

29. Frazer K.A. et al. (2009). Human genetic variation and its contribution to complex traits. Nat. Rev. Genet. 10, 241-251.

30. Gahl W.A. et al. (2011). The NIH Undiagnosed Diseases Program: lessons learned. JAMA. 305, 1904-1905.

31. Gardy J.L. et al. (2011). Whole-genome sequencing and social-network analysis of a tuberculosis outbreak. N. Engl. J. Med. 364, 730-739.

32. Garraway L.A. et al. (2013). Lessons from the cancer genome. Cell. 153, 17-37.

33. Goldman D.P. et al. (2013a). Substantial health and economic returns from delayed aging may warrant a new focus for medical research. Health Aff. (Millwood). 32, 1698-1705.

34. Goldman N. et al. (2013b). Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature. 494, 77-80.

35. Gordon J.I. et al. (2012). The human gut microbiota and undernutrition. Sci. Transl. Med. 4, 137ps12.

36. Gribble F.M. (2010). Alpha2A-adrenergic receptors and type 2 diabetes. N. Engl. J. Med. 362, 361-362.

37. Groop L. (2010). Open chromatin and diabetes risk. Nat. Genet. 42, 190-192.

38. Haffner M.C. et al. (2013). Tracking the clonal origin of lethal prostate cancer. J. Clin. Invest. 123, 4918-4922.

39. Haiser H.J. et al. (2013). Predicting and manipulating cardiac drug inactivation by the human gut bacterium Eggerthella lenta. Science. 341, 295-298.

40. Hall S.S. (2013). Genetics: a gene of rare effect. Nature. 496, 152-155.

41. Hanahan D. et al. (2000). The hallmarks of cancer. Cell 100, 57-70.

42. Hanahan D. et al. (2011). Hallmarks of cancer: the next generation. Cell. 144, 646-674.

43. Harper A.R. et al. (2012). Pharmacogenomics in clinical practice and drug development. Nat. Biotechnol. 30, 1117-1124.

44. Harris S.R. et al. (2013). Whole-genome sequencing for analysis of an outbreak of meticillin-resistant Staphylococcus aureus: a descriptive study. Lancet Infect. Dis. 13, 136.

45. Hayden E.C. (2014). Is the $1,000 genome for real? Nature News. January 15, 2014.

46. Huang F.W. et al. (2013). Highly recurrent TERT promoter mutations in human melanoma. Sci-ence. 339, 957-959.

47. Iida N. et al. (2013). Commensal bacteria control cancer response to therapy by modulating the tumor microenvironment. Science. 342, 967-970.

48. Issacson W. (2011). Steve Jobs (Simon&Schuster).

49. Jacob H.J. et al. (2013). Genomics in clinical practice: lessons from the front lines. Sci. Transl. Med. 5, 194cm5.

50. Jenkins H.W. (2010). Google and the search for the future. Wall Street Journal, August 14, 2010.

51. Kaiser J. (2013). Genomics. Researchers to explore promise, risks of sequencing newborns’ DNA. Science. 341, 1163.

52. Kandoth C. et al. (2013a). Integrated genomic characterization of endometrialcarcinoma. Nature. 497, 67-73.

53. Kandoth C. et al. (2013b). Mutational landscape and significance across 12 major cancer types. Nature. 502, 333-339.

Page 52: Sk biomed 03 10

51

Партнер Фонда «Сколково»

54. Khurana E. et al. (2013). Integrative annotation of variants from 1092 humans: application to cancer genomics. Science. 342, 1235587.

55. Kitzman J.O. et al. (2012). Noninvasive whole-genome sequencing of a human fetus. Sci. Transl. Med. 4, 137ra76.

56. Koboldt D.C. et al. (2013). The next-generation sequencing revolution and its impact on genomics. Cell. 155, 27-38.

57. Kong A. et al. (2009). Parental origin of sequence variants associated with complex diseases. Nature. 462, 868-874.

58. Kong A. et al. (2012). Rate of de novo mutations and the importance of father’s age to disease risk. Nature. 488, 471-475.

59. Leary R.J. et al. (2010). Development of personalized tumor biomarkers using massively parallel sequencing. Sci. Transl. Med. 2, 20ra14.

60. Liu Y. et al. (2013). Epigenome wide association data implicate DNA methylation as an intermedi-ary of genetic risk in rheumatoid arthritis. Nat. Biotechnol. 31, 142-147.

61. Lo Y.M. et al. (2010). Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus. Sci. Transl. Med. 2, 61ra91.

62. Lupski J.R. (2013). Genetics. Genome mosaicism — one human, multiple genomes. Science 341, 358-359.

63. Macosko E.Z. et al. (2012). Exploring the variation within. Nat. Genet. 44, 614-616.

64. Maher B. (2011). Human genetics: Genomes on prescription. Nature. 478, 22-24.

65. Marx V. (2013). Next-generation sequencing: The genome jigsaw. Nature. 501, 263-268.

66. Meigs J.B. et al. (2008). Genotype score in addition to common risk factors for prediction of type 2 diabetes. N. Engl. J. Med. 2208-2219.

67. Morain S. et al. (2013). A new era in noninvasive prenatal testing. N. Engl. J. Med. 369, 499-501.

68. National Human Genome Research Institute. (2013). Clinical sequencing exploratory research (CSER). http://www.genome.gov/27546194.

69. National Research Council (2011). Toward precision medicine: building a knowledge network for biomedical research and a new taxonomy of disease (Washington, D.C.).

70. Ottoboni L. et al. (2012). An RNA profile identifies two subsets of multiple sclerosis patients differing in disease activity. Sci. Transl. Med. 4, 153ra131.

71. Owens B. (2012). Genomics: The single life. Nature. 491, 27-29.

72. Pirola L. et al. (2010). Epigenetic phenomena linked to diabetic complications. Nat. Rev. Endocrinol. 6, 665-675.

73. Poduri A. et al. (2013). Somatic mutation, genomic variation, and neurological disease. Science. 341, 1237758.

4. Prahallad A. et al. (2012). Unresponsiveness of colon cancer to BRAF(V600E) inhibition through feedback activation of EGFR. Nature. 483, 103.

75. Prensner J.R. et al. (2013). The long noncoding RNA SChLAP1 promotes aggressive prostate ancer and antagonizes the SWI/SNF complex. Nat. Genet. 45, 1392-1398.

76. Ridaura V.K. et al. (2013). Gut microbiota from twins discordant for obesity modulate metabolism in mice. Science. 341, 1241214.

77. Rincon P. (2013). Genepeeks firm to offer ‘digital baby’ screen for sperm donors. BBC News, October 4, 2014.

78. Rivera C.M. et al. (2013). Mapping human epigenomes. Cell. 155, 39-55.

79. Sadanandam A. et al. (2013). A colorectal cancer classification system that associates cellular phenotype and responses to therapy. Nat. Med. 19, 619-625.

80. Saunders C.J. et al. (2012). Rapid whole-genome sequencing for genetic disease diagnosis in neonatal intensive care units. Sci. Transl. Med. 4, 154ra135.

81. Schmitz R.J. et al. (2011). Transgenerational epigenetic instability is a source of novel methylation variants. Science. 334, 369-373.

82. Schwarzenbach H. et al. (2011). Cell-free nucleic acids as biomarkers in cancer patients. Nat. Rev. Cancer. 11, 426-437.

83. Shapiro E. et al. (2013). Single-cell sequencing-based technologies will revolutionize whole-or-ganism science. Nat. Rev. Genet. 14, 618-630.

84. Shen H. et al. (2013). Interplay between the cancer genome and epigenome. Cell 153, 38-55.

85. Shendure J. et al. (2012). The expanding scope of DNA sequencing. Nat. Biotechnol. 30, 1084.

86. Sladek R. et al. (2007). A genome-wide association study identifies novel risk loci for type 2 diabetes. Nature. 445, 881-885.

87. Snitkin E.S. et al. (2012). Tracking a hospital outbreak of carbapenem-resistant Klebsiella pneumoniae withwhole-genome sequencing. Sci. Transl. Med. 4, 148ra116.

88. Sosman J.A. et al. (2012). Survival in BRAF V600-mutant advanced melanoma treated with vemurafenib. N. Engl. J. Med. 366, 707-714.

89. Sosnay P.R. et al. (2013). Defining the disease liability of variants in the cystic fibrosis transmembrane conductance regulator gene. Nat. Genet. 45, 1160-1167.

90. Stanton D. (2013). GFK survey. GFK. August 22, 2013.

91. Suvá M.L. et al. (2013). Epigenetic reprogramming in cancer. Science. 339, 1567-1570.

92. Test T.C. (2013). The Counsyl Test. https://www.counsyl.com.

93. Tewhey R. et al. (2011). The importance of phase information for human genomics. Nat. Rev. Genet. 12, 215-223.

94. Veltman J.A. et al. (2012). De novo mutations in human genetic disease. Nat. Rev. Genet. 13, 565-575.

95. Viaud S. et al. (2013). The intestinal microbiota modulates the anticancer immune effects of cyclophosphamide. Science. 342, 971-976.

96. Vogelstein B. et al. (2013). Cancer genome landscapes. Science. 339, 1546-1558.

97. Wang J. et al. (2012). Genome-wide single-cell analysis of recombination activity and de novomutation rates in human sperm. Cell. 150, 402-412.

98. Wenzel S.E. (2012). Asthma phenotypes: the evolution from clinical to molecular approaches. Nat. Med. 18, 716-725.

99. Westra H.J. et al. (2013). Systematic identification of trans eQTLs as putative drivers of known disease associations. Nat. Genet. 45, 1238-1243.

100. Winslow R. (2013). Patients share DNA for cures. Wall Street Journal. September 16, 2013.

101. Worthey E.A. et al. (2011). Making a definitive diagnosis: successful clinical application of whole exome sequencing in a child with intractable inflammatory bowel disease. Genet. Med. 13, 255-262.

102. Yang Y. et al. (2013). Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N. Engl. J. Med. 369, 1502-1511.

103. Zhang B. et al. (2013). Integrated systems approach identifies genetic nodes and networks in late-onset Alzheimer’s disease. Cell. 153, 707-720.

104. Ziller M.J. et al. (2013). Charting a dynamic DNA methylation landscape of the human genome. Nature. 500, 477-481.

Page 53: Sk biomed 03 10

МИРОВОЙ ОПЫТ

52

PERSONAL OMICS PROFILINGREVEALS DYNAMIC MOLECULARAND MEDICAL PHENOTYPES

SUMMARYPersonalized medicine is expected to benefit from combining genomic in-formation with regular monitoring of physiological states by multiple high-throughput methods. Here, we present an integrative personal omicsprofile (iPOP), an analysis that combines genomic, transcriptomic, pro-teomic, metabolomic, and autoantibody profiles from a single individualover a 14 month period. Our iPOP analysis revealed various medicalrisks, including type 2 diabetes. It also uncovered extensive, dynamicchanges in diverse molecular components and biological pathwaysacross healthy and diseased conditions. Extremely high-coverage ge-nomic and transcriptomic data, which provide the basis of our iPOP, re-vealed extensive heteroallelic changes during healthy and diseasedstates and an unexpected RNA editing mechanism. This study demon-strates that longitudinal iPOP can be used to interpret healthy and dis-eased states by connecting genomic information with additional dynamicomics activity.

INTRODUCTIONPersonalized medicine aims to assess medical risks, monitor, diagnoseand treat patients according to their specific genetic composition and mo-lecular phenotype. The advent of genome sequencing and the analysis ofphysiological states has proven to be powerful [8]. However, its imple-mentation for the analysis of otherwise healthy individuals for estimationof disease risk and medical interpretation is less clear. Much of thegenome is difficult to interpret and many complex diseases, such as dia-betes, neurological disorders and cancer, likely involve a large number ofdifferent genes and biological pathways [6, 17, 33], as well as environ-mental contributors that can be difficult to assess. As such, the combina-tion of genomic information along with a detailed molecular analysis ofsamples will be important for predicting, diagnosing and treating diseasesas well as for understanding the onset, progression, and prevalence ofdisease states [45]. Presently, healthy and diseased states are typically followed using a lim-ited number of assays that analyze a small number of markers of distincttypes. With the advancement of many new technologies, it is now possi-ble to analyze upward of 105 molecular constituents. For example, DNAmicroarrays have allowed the subcategorization of lymphomas andgliomas [38], and RNA sequencing (RNA-Seq) has identified breast can-cer transcript isoforms [29, 33, 52, 56]. Although transcriptome and RNA

splicing profiling are powerful and convenient, they provide a partial por-trait of an organism’s physiological state. Transcriptomic data, when com-bined with genomic, proteomic, and metabolomic data are expected toprovide a much deeper understanding of normal and diseased states[46]. To date, comprehensive integrative omics profiles have been limitedand have not been applied to the analysis of generally healthy individuals. To obtain a better understanding of: (1) how to generate an integrativepersonal omics profile (iPOP) and examine as many biological compo-nents as possible, (2) how these components change during healthy anddiseased states, and (3) how this information can be combined with ge-nomic information to estimate disease risk and gain new insights into dis-eased states, we performed extensive omics profiling of bloodcomponents from a generally healthy individual over a 14 month period(24 months total when including time points with other molecular analy-ses). We determined the whole-genome sequence (WGS) of the subject,and together with transcriptomic, proteomic, metabolomic, and autoanti-body profiles, used this information to generate an iPOP. We analyzed theiPOP of the individual over the course of healthy states and two viral in-fections (Figure 1A). Our results indicate that disease risk can be esti-mated by a whole-genome sequence and by regularly monitoring healthstates with iPOP disease onset may also be observed. The wealth of in-formation provided by detailed longitudinal iPOP revealed unexpectedmolecular complexity, which exhibited dynamic changes during healthyand diseased states, and provided insight into multiple biologicalprocesses. Detailed omics profiling coupled with genome sequencing canprovide molecular and physiological information of medical significance.This approach can be generalized for personalized health monitoring andmedicine.

RESULTSOverview of Personal Omics ProfilingOur overall iPOP strategy was to: (1) determine the genome sequence athigh accuracy and evaluate disease risks, (2) monitor omics componentsover time and integrate the relevant omics information to assess the vari-ation of physiological states, and (3) examine in detail the expression ofpersonal variants at the level of RNA and protein to study molecular com-plexity and dynamic changes in diseased states. We performed iPOP on blood components (peripheral blood mononu-clear cells [PBMCs], plasma and sera that are highly accessible) from a

Rui Chen,1,11 George I. Mias,1,11 Jennifer Li-Pook-Than,1,11 LihuaJiang,1,11 Hugo Y.K. Lam,1,12 Rong Chen,2,12 Elana Miriami,1 Konrad J.Karczewski,1 Manoj Hariharan,1 Frederick E. Dewey,3 Yong Cheng,1

Michael J. Clark,1 Hogune Im,1 Lukas Habegger,6,7 Suganthi Balasub-ramanian,6,7 Maeve O’Huallachain,1 Joel T. Dudley,2 Sara Hillenmeyer,1

Rajini Haraksingh,1 Donald Sharon,1 Ghia Euskirchen,1 Phil Lacroute,1

Keith Bettinger,1 Alan P. Boyle,1 Maya Kasowski,1 Fabian Grubert,1

Scott Seki,1 Marco Garcia,1 Michelle Whirl-Carrillo,1 Mercedes Gal-lardo,9,10 Maria A. Blasco,9 Peter L. Greenberg,4 Phyllis Snyder,1 Teri E.Klein,1 Russ B. Altman,1,5 Atul J. Butte,2 Euan A. Ashley,3 Mark Ger-stein,6,7,8 Kari C. Nadeau,2 Hua Tang,1 and Michael Snyder1

1Department of Genetics, Stanford University School of Medicine; 2Divi-sion of Systems Medicine and Division of Immunology and Allergy, De-partment of Pediatrics; 3Center for Inherited Cardiovascular Disease,

Division of Cardiovascular Medicine; 4Division of Hematology, Depart-ment of Medicine; 5Department of Bioengineering Stanford University,Stanford, CA 94305, USA; 6Program in Computational Biology and Bio-informatics; 7Department of Molecular Biophysics and Biochemistry;8Department of Computer Science Yale University, New Haven, CT06520, USA; 9Telomeres and Telomerase Group, Molecular OncologyProgram, Spanish National Cancer Centre (CNIO), Madrid E-28029,Spain; 10Life Length, Madrid E-28003, Spain; 11These authors contribu-ted equally to this work; 12Present address: Personalis, Palo Alto, CA94301, USA. *Correspondence: [email protected]

Reprinted from Cell, 148, Chen R. et al., Personal Omics Profiling Re-veals Dynamic Molecular and Medical Phenotypes, 1293-1307, 2012,with permission from Elsevier. ttp://dx.doi.org/10.1016/j.cell.2012.02.009

Page 54: Sk biomed 03 10

53

Партнер Фонда «Сколково»

54-year-old male volunteer over the course of 14 months (IRB-8629). Thesamples used for iPOP were taken over an interval of 401 days (days 0–400). In addition, a complete medical exam plus laboratory and additionaltests were performed before the study officially launched (day 123) andblood glucose was sampled multiple times after the comprehensive omicsprofiling (days 401–602) (Figure 1A). Extensive sampling was performedduring two viral infections that occurred during this period: a human rhi-novirus (HRV) infection beginning on day 0 and a respiratory syncytialvirus (RSV) infection starting on day 289. A total of 20 time points were ex-tensively analyzed and a summary of the time course is indicated in Figure1A. The different types of analyses performed are summarized in Figures1B and 1C. These analyses, performed on PBMCs and/or serum compo-nents, included WGS, complete transcriptome analysis (providing informa-tion about the abundance of alternative spliced isoforms, heteroallelicexpression, and RNA edits, as well as expression of miRNAs at selectedtime points), proteomic and metabolomic analyses, and autoantibody pro-files. An integrative analysis of these data highlights dynamic changes andprovides information about healthy and diseased phenotypes.

Whole-Genome SequencingWe first generated a high quality genome sequence of this individualusing a variety of different technologies. Genomic DNA was subjected todeep WGS using technologies from Complete Genomics (CG, 35 ntpaired end) and Illumina (100 nt paired end) at 150-and 120-fold total cov-erage, respectively, exome sequencing using three different technologiesto 80-to 100-fold average coverage (see Extended Experimental Proce-dures available online) and analysis using genotyping arrays and RNA se-quencing. The vast majority of genomic sequences (91%) mapped to the hg19(GRCh37) reference genome. However, because of the depth of our se-quencing, we were able to identify sequences not present in the referencesequence. Assembly of the unmapped Illumina sequencing reads(60,434,531,9% of the total) resulted in 1,425 (of 29,751) contigs (span-ning 26 Mb) overlapping with RefSeq gene sequences that were not an-notated in the hg19 reference genome. The remaining sequencesappeared unique, including 2,919 exons expressed in the RNA-Seq data(e.g., Figure S1A). These results confirm that a large number of undocu-mented genetic regions exist in individual human genome sequences and

can be identified by very deep sequencing and de novo assembly [34]. Our analysis detected many single nucleotide variants (SNVs), small in-sertions and deletions (indels) and structural variants (SVs; large inser-tions, deletions, and inversions relative to hg19), (summarized in Table 1and Experimental Procedures). 134,341 (4.1%) high-confidence SNVsare not present in dbSNP, indicating that they are very rare or private tothe subject. Only 302 high-confidence indels reside within RefSeq proteincoding exons and exhibit enrichments in multiples of three nucleotides(p<0.0001). In addition to indels, 2,566 high-confidence SVs were identi-fied (Experimental Procedures and Table S1) and 8,646 mobile elementinsertions were identified [47]. Analysis of the subject’s mother’s genome by comprehensive genome se-quencing (as above) and imputation allowed a maternal/paternal chromo-somal phasing of 92.5% of the subject’s SNVs and indels (see ExtendedExperimental Procedures for details). Of 1,162 compound heterozygousmutations in genes, 139 contain predicted compound heterozygous dele-terious and/or nonsense mutations. Phasing enabled the assembly of apersonal genome sequence of very high confidence (c.f., [41]).

WGS-Based Disease Risk Evaluation We identified variants likely to be associated with increased susceptibilityto disease [12]. The list of high confidence SNVs and indels was analyzedfor rare alleles (<5% of the major allele frequency in Europeans) and forchanges in genes with known Mendelian disease phenotypes (data sum-marized in Table 2), revealing that 51 and 4 of the rare coding SNV andindels, respectively, in genes present in OMIM are predicted to lead toloss-of-function (Table S2A). This list of genes was further examined formedical relevance (Table S2A; example alleles are summarized in Figure2A), and 11 were validated by Sanger sequencing. High interest genes in-clude: (1) a mutation (E366K) in the SERPINA1 gene previously known inthe subject, (2) a damaging mutation in TERT, associated with acquiredaplastic anemia [57], and (3) variants associated with hypertriglyceridemiaand diabetes, such as GCKR (homozygous) [54], and KCNJ11 (homozy-gous) [18] and TCF7 (heterozygous) [13].Genetic disease risks were also assessed by the RiskOGram algorithm,which integrates information from multiple alleles associated with diseaserisk [6] (Figure 2B). This analysis revealed a modest elevated risk forcoronary artery disease and significantly elevated risk levels of basal cell

Type Total Variants  Total High Confidence 

Heterozygous High Confidence

Homozygous High Confidence 

Total SNVs  3,739,701 3,301,521 1,971,629 1,329,892 Total gene-associated SNVs  1,312,780 1,183,847 717.485 466.362Total coding/UTR  49.017 44.542 27.383 17.159Missense  10.592 9.683 5.944 3.739Nonsense  83 73 49 24Synonymous  11.459 10.864 6.747 4.1175´UTR  4.085 2.978 1.802 1.1763´UTR  22.798 20.944 12.841 8.103Intron  1,263,763 1,139,305 690.102 449.203Ts/Tv  — 2.14 — — dbSNP  3,493,748 3,167,180 — — Candidate private SNV  245.953 134.341 — — Indels (-107~ +36 bp)  1,022,901 216.776 — — Coding  3.263 302 — — Structural variants (>50 bp)  44.781 2.566 — — In 1000G projecta 4.434 1.967 — —

Table 1. Summary and Breakdown of DNA Variants

High confidence values are from variants identified across multiple plat-forms (Illumina and CG) and/or Exome and RNA-Seq data. Annotationswere based from variant call formatted (vcf) files for heterozygous calls:

0/1, reference (ref)/alternative (alt); 1/2, alt/alt and homozygous calls; 1/1,alt/alt; 1/, (alt/alt-incomplete call). Polyphen-2 was used to identify the lo-cation of the SNVs. a1000G (1000 Genomes Project Consortium, 2010).

Page 55: Sk biomed 03 10

МИРОВОЙ ОПЫТ

54

Figure 1. Summary of Study (A) Time course summary. The subject was monitored for a total of 726 days,

during which there were two infections (red bar, HRV; green bar, RSV). The

black bar indicates the period when the subject: (1) increased exercise, (2) in-

gested 81 mg of acetylsalicylic acid and ibuprofen tablets each day (the latter

only during the first 6 weeks of this period), and (3) substantially reduced

sugar intake. Blue numbers indicate fasted time points.

(B) iPOP experimental design indicating the tissues and analyses involved in

this study.

(C) Circos [26] plot summarizing iPOP. From outer to inner rings: chromosome

ideogram; genomic data (pale blue ring), structural variants >50 bp (deletions

[blue tiles], duplications [red tiles]), indels (green triangles); transcriptomic data

(yellow ring), expression ratio of HRV infection to healthy states; proteomic data

(light purple ring), ratio of protein levels during HRV infection to healthy states;

transcriptomic data (yellow ring), differential heteroallelic expression ratio of al-

ternative allele to reference allele for missense and synonymous variants (pur-

ple dots) and candidate RNA missense and synonymous edits (red triangles,

purple dots, orange triangles and green dots, respectively).

Page 56: Sk biomed 03 10

55

Партнер Фонда «Сколково»

carcinoma (Figure 2B), hypertriglyceridemia, and type 2 diabetes (T2D)(Figures 2B and 2C). In addition to coding region variants we also analyzed genomic variantsthat may affect regulatory elements (transcription factors [TF]), which hadnot been attempted previously (Data S1). A total of 14,922 (of 234,980)SNVs lie in the motifs of 36 TFs known to be associated with the bindingdata (see Experimental Procedures), indicating that these are likely hav-ing a direct effect on TF binding. Comparison of SNPs that alter bindingpatterns of NFkB and Pol II sites [24], also revealed a number of other in-teresting regulatory variants, some of which are associated with humandisease (e.g., EDIL) [48] (Figure S1B).

Medical Phenotypes Monitoring Based on the above analysis of medically relevant variants and theRiskOGram, we monitored markers associated with high-risk diseasephenotypes and performed additional medically relevant assays. Monitoring of glucose levels and HbA1c revealed the onset of T2D as di-agnosed by the subject’s physician (day 369, Figures 2A and 2C). Thesubject lacked many known factors associated with diabetes (nonsmoker;BMI = 23.9 and 21.7 on day 0 and day 511, respectively) and glucose lev-els were normal for the first part of the study. However, glucose levels ele-vated shortly after the RSV infection (after day 301) extending for severalmonths (Figure 2D). High levels of glucose were further confirmed usingglycated HbA1c measurements at two time points (days 329, 369) duringthis period (6.4% and 6.7%, respectively). After a dramatic change in diet,exercise and ingestion of low doses of acetylsalicylic acid a gradual de-crease in glucose (to ~93 mg/dl at day 602) and HbA1c levels to 4.7%was observed. Insulin resistance was not evident at day 322. The patientwas negative for anti-GAD and anti-islet antibodies, and insulin levels cor-related well with the fasted and nonfasted states (Figure S2C), consistentwith T2D. These results indicate that a genome sequence can be used toestimate disease risk in a healthy individual, and by monitoring traits as-sociated with that disease, disease markers can be detected and the phe-notype treated. The subject contained a TERT mutation previously associated with aplas-tic anemia [57]. However, measurements of telomere length suggested lit-tle or no decrease in telomere length and modest increase in numbers ofcells with short telomeres relative to age-matched controls (Figures S2Aand S2B). Importantly, the patient and his 83-year-old mother share thesame mutation but neither exhibit symptoms of aplastic anemia, indicating

that this mutation does not always result in disease and is likely contextspecific in its effects. Consistent with the elevated hypertriglyceridemia risk, triglycerides werefound to be high (321 mg/dl) at the beginning of the study. These levelswere reduced (81–116 mg/dl) after regularly taking simvastatin (20mg/day). We also examined the variants for their potential effects on drug response(see Extended Experimental Procedures). Among the alleles of interest,(Figure 2A and Table S2B) two genotypes affecting the LPIN1 andSLC22A1 genes were associated with favorable (glucose lowering) re-sponses to two diabetic drugs, rosiglitazone and metformin, respectively.We followed the levels of 51 cytokines along with the C-reactive protein(CRP) using ELISA assays, which revealed strong induction of proinflam-matory cytokines and CRP during each infection (Figures 2E and 2F). Wealso observed a spike of many cytokines at day 12 after the RSV infection(day 301 overall). These data define the physiological states and serve asa valuable reference for the omic profiles integrated into a longitudinalmap of healthy and diseased states described in the next sections.

Dynamic Omics Analysis: Integrative Omics Profiling of Molecular Responses We profiled the levels of transcripts, proteins, and metabolites across theHRV and RSV infections and healthy states using a variety of ap-proaches. RNA-Seq of 20 time points generated over 2.67 billion uniquelymapped 101b paired-end reads (123 million reads average per timepoint) and allowed for an analysis of the molecular complexity of the tran-scriptome in normal cells (PBMCs) at an unprecedented level. The rela-tive levels of 6,280 proteins were also measured at 14 time points throughdifferential labeling of samples using isobaric tandem mass tags (TMT),followed by liquid chromatography and mass spectrometry (LC-MS/MS)[10, 49]. A total of 3,731 PBMC proteins could be consistently monitoredacross most of the 14 time points (see Figure S3A and Data S3). In addi-tion, 6,862 and 4,228 metabolite peaks were identified for the HRV andRSV infection, and a total of 1,020 metabolites were tracked for both in-fections (see Figure S4 and Data S4, [3]). Finally, as described below, wealso analyzed miRNAs during the HRV infection. This wealth of omics information allowed us to examine detailed dynamictrends related directly to the physiological states of the individual and re-vealed enormous changes in biological processes that occurred duringhealthy and diseased states. For each profile (transcriptome, proteome,metabolome), we systematically searched for two types of nonrandompatterns: (1) correlated patterns over time and (2) single unusual events(i.e., spikes that may occur at any given time point defined as statisticallysignificantly high or low signal instances compared to what would be ex-pected by chance). To perform this analysis, we developed a generalscheme for integrated analysis of data (see Figure S5 and Extended Ex-perimental Procedures for further details). We used a Fourier spectralanalysis approach that both normalizes the various omics data on equalbasis for identifying the common trends and features, and, also accountsfor data set variability, uneven sampling, and data gaps, in order to detectreal-time changes in any kind of omics activity at the differential timepoints (see Supplemental Information). Autocorrelations were calculatedto assess nonrandomness of the time-series (p<0.05 one-tailed based onsimulated bootstrap nonparametric distribution by sampling with replace-ment of the original data, n>100,000), with significant signals classified asautocorrelated (I). The remaining data was searched for spike events,which were classified as spike maxima (II) or spike minima (III) (p<0.05one-tailed based on differences from simulated, n>100,000 random distri-bution of the time-series). After classification, the data were agglomeratedinto hierarchical clusters (using correlation distance and average linkage)of common patterns and biological relevance was assessed through GO[5] analysis (Cytoscape [44], BiNGO [36] p<0.05, Benjamini-Hochberg [7]adjusted p<0.05) and pathway analysis (Reactome [11] functional interac-tion [FI], networks including KEGG [23, 44], p<0.05, FDR<0.05). The uni-fied framework approach was implemented on all the different data sets

*In curated Mendelian disease genes.

Category Count

Total high confidence rare SNVs 289,989

Coding 2,546Missense 1,320Synonymous  1,214Nonsense 11Nonstop 1Damaging or possibly damaging 233Putative loss-of-function SNVsa*  51Total high confidence rare indels 51,248

Coding indels 61 Frameshift indels 27miRNA indels 3 miRNA target sequence indels 5Putative loss-of-function indels* 4

Table 2. Summary of Disease-Related Rare Variants

Page 57: Sk biomed 03 10

МИРОВОЙ ОПЫТ

56

Figure 1. Summary of Study (A) High interest disease- and drug-related variants in the subject’s genome.

(B) RiskGraph of the top 20 diseases with the highest posttest probabilities. For

each disease, the arrow represents the pretest probability according to the sub-

ject’s age, gender, and ethnicity. The line represents the posttest probability after

incorporating the subject’s genome sequence. Listed to the right are the numbers

of independent disease-associated SNVs used to calculate the subject’s posttest

probability.

(C) RiskOGram of type 2 diabetes. The RiskOGram illustrates how the subject’s

posttest probability of T2D was calculated using 28 independent SNVs. The mid-

dle graph displays the posttest probability. The left side shows the associated

genes, SNVs, and the subject’s genotypes. The right side shows the likelihood

ratio (LR), number of studies, cohort sizes, and the posttest probability.

(D) Blood glucose trend. Measurements were taken from samples analyzed at ei-

ther nonfasted or fasted states; the nonfasted states (all but days 186, 322, 329,

and 369 and after day 400) were at a fixed time after a constant meal. Data was

presented as moving average with a window of 15 days. Red and green arrows

and bars indicate the times of the HRV and RSV infections, respectively. Black ar-

rows and bars indicate the period with life style changes.

(E) C-reactive protein trend line. Error bars represent standard deviation of 3 assays.

(F) Serum cytokine profiles. Red box and day number, HRV infection; green box

and day number, RSV infection; question mark, elevated cytokine levels indicating

an unknown event at day 301. Red is increased cytokine levels.

Page 58: Sk biomed 03 10

57

Партнер Фонда «Сколково»

both individually and in combination, and our results revealed a number ofdifferential changes that occurred both during infectious states and thevarying glucose states. We first analyzed the different individual transcriptome, proteome (serumand PBMC) and metabolome data sets; the proteome and metabolomeresults are presented in the Supplemental Information (Figures S3, S4,S6 and Data S3-S6). A total of 19,714 distinct transcript isoforms [55] cor-responding to 12,659 genes (Figure S1C) were tracked for the entire timecourse, and their dynamic expression response was classified into eitherautocorrelated (I) and spike sets, further subdivided as displaying maxima(II) or minima (III) (Figure 3). The clustering and enrichment analysis dis-played a number of interesting pathways in each class. In the autocorre-lated group (Figure 3B, [I]; see also Figure S6A and Data S6, [1 and 2]),we found two main trends: an upward trend (2,023 genes), following theonset of the RSV infection, and a similar coincidental downward trend(2,207 genes). The upward autocorrelated trend revealed a number ofpathways as enriched (p<0.002, FDR<0.05), including protein metabo-lism and influenza life cycle. Additionally, the downward autocorrelationcluster showed a multitude of enriched pathways (p<0.008, FDR<0.05),such as TCR signaling in naive CD4+ T cells, lysosome, B cell signaling,androgen regulation, and of particular interest, insulin signaling/responsepathways. These different pathways, which are activated as a responseto an immune infection, often share common genes and additionally weobserve many genes hitherto unknown to be involved in these pathwaysbut displaying the same trend. Furthermore, we observed that the down-ward trend, that began with the onset of the RSV infection and appearedto accelerate after day 307, coincided with the beginning of the observedelevated glucose levels in the subject. In the dynamic spike class we again saw patterns that were concordantwith phenotypes (Figure 3B, [II] and [III]; see also Figure S6A and DataS6, [3-14]). A set of expression spikes displaying maxima (547 genes),that are common to the onset of both the RSV and HRV infections are as-sociated with phagosome, immune processes and phagocytosis,(p<1×10-4, FDR<6×10-3). Furthermore, a cluster that exhibits an elevatedspike at the onset of the RSV infection involves the major histocompatibil-ity genes (p<7×10-4, Benjamini-Hochberg adjusted p<0.03). A large num-ber of genes with a coexpression pattern common to both infections in thetime course have yet to be implicated in known pathways and providepossible connections related to immune response. Finally, our spike classdisplaying minima showed a distinct cluster (1,535 genes) singular to day307 (day 14 of the RSV infection), associated with TCR signaling again,TGF receptors, and T cell and insulin signaling pathways (p<0.02,FDR<0.03). Overall, the transcriptome analysis captures the dynamic re-sponse of the body responding to infection as also evidenced by our cy-tokine measurements, and also can monitor health changes over longperiods of time, with various trends. To further leverage the transcriptome and genome data, we performed anintegrated analysis of transcriptome, proteomic and metabolomics datafor each time point, observing how this corresponded to the varying physi-ological states monitored as described in the above sections. Because ofthe availability of many time points through the course of infection, we ex-amined in detail the onset of the RSV infection, as well as extended ourcomplete dynamics omics profile during the times that our subject beganexhibiting high glucose levels. Figure 4 shows an integrated interpretationof omics data (see also Figure S6B and Data S7), where all trends arecombined for each omics data set and the common patterns emerge pro-viding complementary information. In addition to the common patterns ob-served in our transcriptome analysis, new patterns emerged, someunique to protein data, some to metabolite, and some common to all. Inparticular we found the following interesting results: for autocorrelatedclusters we found the same trends as observed in the transcriptome, ad-ditionally augmented with concordant protein expressions. Pathwayssuch as the phagosome, lysosome, protein processing in endoplasmicreticulum, and insulin pathways emerged as significantly enriched(p<0.002, FDR<0.0075), and showed a downward trend post-infection,

and further accelerated after 3 weeks following the initial onset of the RSVinfection (this cluster comprised of 1,452 transcriptomic and 69 proteomiccomponents, corresponding to 1,444 genes). The elevated spike classshowed a maxima cluster on day 18 post RSV infection (one time pointafter the cytokine maximum), with enrichment in pathways such as thespliceosome, glucose regulation of insulin secretion, and various path-ways related to a stress response (p<1×10-4, FDR<0.02) — this clusterincluded 1,956 transcriptomic, 571 proteomic and 23 metabolomic com-ponents, corresponding to 2,344 genes. Even though current proteomicinformation is more limited than the full transcriptome because it followsfewer components, as evidenced in Figure 4 (II), several pathways, in-cluding the glucose regulation of insulin secretion pathway, clearlyemerge from the proteomic information and would not have been ob-served by only monitoring the transcriptome. Additionally, in this clusterwe find significant GO enrichment in splicing and metabolic processes(p<6×10-47, Benjamini-Hochberg adjusted p<10-45). Furthermore, inspec-tion of metabolites reveals 23 that show the same exact trend (i.e., spikesat day 18 post RSV infection); at least one, lauric acid has been impli-cated in fatty acid metabolism and insulin regulatory pathways [27]. Fi-nally, we observe minima spikes as well, with yet another interestinggroup on day 18, which showed downregulation in several pathways(p<0.003, FDR<0.05), such as the formation of platelet plug. This clusterdisplayed a high degree of synergy between the various omics data, com-prised of 3,237 transcriptomic and 761 proteomic components correspon-ding 3,400 genes and 83 metabolomic components. In summary, our integrated approach revealed a clear systemic responseto the RSV infection following its onset and postinfection response, includ-ing a pronounced response evident at day 18 post RSV infection. A vari-ety of infection/stress response related pathways were affected along withthose associated to the high glucose levels in the later time points, includ-ing insulin response pathways.

Dynamic Omics Analysis: Extensive Heteroallelic Variationand RNA Editing The considerable amount of transcriptome and proteome data allowed usto analyze and follow changes in allele-specific expression (ASE), splic-ing, and editing at the RNA and protein levels during healthy and dis-eased states.Of the 49,017 genomic variants associated with coding or UTR regions(Table 1), 12,785 (26%) were expressed in PBMCs (R40 read coverage;Table S3). A total of 8,509 of the variants are heterozygous (1,113 mis-sense) and the remainder (4,686; 684 missense) are homozygous. Eightof the 83 nonsense mutations were expressed indicating that not all non-sense mutations result in transcript loss. The numerous heterozygous variants allowed an analysis of the dynamics of differential ASE, (shrunk ratios, Experimental Procedures;Figures 5A and S7B) in PBMCs during healthy and diseased states. Wefound 497 and 1,047 genes that exhibited differential ASE during HRVand RSV infection, respectively (posterior probability ≥0.75, beta-binomialmodel; ≥40 reads, ≥7 time points); many of these are immune responsegenes, e.g., PADI4 and PLOD1 (Figure 5B). Among the differential ASEsites 100 and 218 were specific to HRV and RSV infected states, respec-tively (Figures 5C and 5D). Differential ASE genes in the HRV comparedto healthy phase were enriched for those encoding SNARE vesiculartransport proteins (DAVID analysis; Benjamini p<0.05). Summing over allcomputed ASE alternative to total ratios revealed that nonreference het-eroallelic variants were expressed at 98% of reference variants. The ex-pression of over 50 heterozygous variants, including some of the rare/private SNVs (which form 0.72% of the genomic total), and differentiallyexpressed variants (SVIL and TRIM5), was confirmed by Sanger cDNAsequencing and/or digital PCR [19] of cDNA (Figures 5B and S7). Overall,these results demonstrate that differential ASE is pervasive in humansand is particularly distinct during healthy and infected states, with many ofthese changes residing in immune response genes. The depth of our RNA-Seq data enabled us to re-evaluate the extent of

Page 59: Sk biomed 03 10

МИРОВОЙ ОПЫТ

58

Figure 3. Transcriptome Time Course Analysis (A) Summary of approach for identification of differentially expressed components.

The various omics sets were processed through a common framework involving

spectral analysis, clustering, and pathway enrichment analysis.

(B) Pattern classification. The different emergent patterns from the analysis of the

transcriptome for the entire time course are displayed for the autocorrelation (I),

spike maxima (II), and spike minima (III) classes. For different clusters, examples of

gene connections in selected pathways based on Reactome [11] FI (Cytoscape

plugin [44]) are shown as networks. Example GO [5] enrichment analysis results

from Cytoscape [44] BiNGO [36] plugin and pathway enrichment results (Reac-

tome FI [11]) are included.

Page 60: Sk biomed 03 10

59

Партнер Фонда «Сколково»

Figure 4. Integrated Omics Analysis For days 186-400, the different emergent patterns from an integrated analysis of

the transcriptome, proteome, and metabolome data are displayed for the autocor-

relation (I), spike maxima (II), and spike minima (III) classes. For different clusters,

examples of gene connections in selected pathways based on Reactome [11]

and FI Cytoscape [44] plugin are shown as networks, with constituents marked as

assessed from proteome data, transcriptome data or both. Example GO [5] en-

richment analysis results from Cytoscape [44] BiNGO [36] plugin and pathway

enrichment results (Reactome FI [11]) are included.

Page 61: Sk biomed 03 10

МИРОВОЙ ОПЫТ

60

RNA editing (Figure 6 and Data S8 and S11A), typically an adenosine toinosine (A-to-I) conversion [32] or infrequently cytidine to uridine (C-to-U),in normal human cells. We found 2,376 high-confidence coding-associ-ated RNA edits, including 795 A-to-I (A-to-G) and 277 C-to-U deamina-tion-like edits (Figure 6A). A total of 587 edits in 175 genes were predictedto cause amino acid substitutions (Polyphen-2 [3]); the remainder werenonsense (11), synonymous (435), or located in 50/30 UTRs (103/1,240).Ten edited bases causing amino acid substitutions were validated bySanger cDNA sequencing and/or digital droplet PCR, as well as by identi-fication of their peptide counterparts by mass spectrometry (Figure 6B).Interestingly, we identified A-to-G edits (Figure 6B), e.g., IGFBP7, BLCAP,and AZIN1 in PBMCs that were known to occur in other tissues [16, 30],indicating that the same RNA can be edited in other cell types. BLCAPexhibited two edited changes (Figure 6C) with edited/total ratios of 0.12-0.2 and 0.18-0.31, respectively, comparable to the 0.21 ratio previouslyobserved in the brain [14]. Furthermore, we found and validated two missense-causing edits, U-to-Cin SCFD2 and G-to-A in FBXO25 (Figure 6D), indicating an amination-likeRNA-editing mechanism, previously not observed in human cells. Our re-sults reveal that a large number of edits occur and exhibit dynamic anddifferential changes in populations of PBMCs (Figure 6B). The total num-ber of edited RNAs, while extensive, is significantly lower than that re-ported in human lymphoblastoid lines and very different in its distribution[33]. We believe that in addition to tissue-specific variation, the observeddifferences are also likely due to overcalling of false-positive SNVs, aproblem we corrected with deep exome sequencing, removal of repeatregions and pseudo-genes, and strings of close-proximity variants (DataS11A). Finally, to determine whether the nonreference allele and edited RNAsserve as templates for protein synthesis, we generated proteome data-bases for 4,586 missense SNVs and all 30,385 edits and used them tosearch our mass spectra from the untargeted protein profiling experi-ments as well as in a targeted approach to directly search for 500 editedproteins (see Extended Experimental Procedures). Peptides for 48 SNVs

and 51 edits were identified (FDR<0.01 and requiring one unique peptideper protein; Data S9 and S11B). A total of 17/17 selected SNVs (100%)were validated by Sanger sequencing. Seven peptides derived from theSNV and six peptides derived from edited transcripts were unique to asingle protein in the IPI database [25] and classified as high confidence.These results indicate that a large fraction of personal variants are ex-pressed as transcripts and a number of these are also translated as pro-teins.

miRNA Variant AnalysisIn addition to the omics profiling above, we identified 619-681 known miR-NAs from PBMCs per time point (>10 reads, days 4, 21, 116, 185, and186), 106 of which showed dynamic changes (e.g., Figures S2D andS2E). Examination of miRNA editing revealed 50 edited miRNAs (C-to-Uor A-to-I) with stringent criteria (edited reads >5% of total reads or >399modified reads) indicating that at least 4% of expressed miRNAs are po-tentially edited. Eighteen miRNAs contain edits located within the func-tionally critical “seed sequences,” potentially affecting their mRNA targets.Interestingly, expression of SNV-containing miRNAs was generally highercompared to SNV-free miRNA (Figures 6E and 6F). In addition to edits,analysis of the SNVs located in miRNAs revealed that most (25 of 31)SNV-containing miRNAs were not expressed. These miRNAs wereamong those discovered in cancer cell lines [22] and may not normally behighly expressed in PBMCs from healthy individuals.

DISCUSSION

To our knowledge, our study is the first to perform extensive personaliPOP of an individual through healthy and diseased states. It revealed ex-tensive complex and dynamic changes in the omics profiles, especially inthe transcriptomes, between healthy states and viral infections, and be-tween nondiabetic and diabetic states. iPOP provides a multidimensionalview of medical states, including healthy states, response to viral infec-tion, recovery, and T2D onset. Our study indicates that disease risk can

Figure 5. Heteroallelic ExpressionStudy of PBMCs (A) Frequency of allele-specific expression(ASE) based on shrunk alternative/total ra-tios of RNA-Seq data. A total of 143 posi-tions fall outside the three standarddeviations (s) range (see Figure S7B;<0.33, >0.66), suggesting that certain het-erozygous alleles (DNA level) are preferen-tially expressed in PBMCs. Standarddeviations (s) are denoted with dotted linesand the average ratio overlapping acrossall time points is 0.49. (B) Digital droplet PCR validation of twoheteroallelic expressed genes PADI4 andPLOD (relative to alternative allele). (C) Heat map of the HRV infection timecourse (seven time points) showing differ-ential ASE during HRV infection day 0 (redarrow) relative to average shrunk ratios ofhealthy states (days 116-255). (D) Heat map of the RSV infection timecourse (13 time points) showing differentialASE specific to RSV infection day 289 (redarrow) relative to average shrunk ratios ofhealthy states (days 311-400), onset of highglucose on day 307 is also shown (redarrow). Heat map ratios are relative to thealternative allele (alternative/ total, posteriorprobability >0.75). Example of enrichedKEGG pathway gene cluster [21] (Ben-jamini p<0.05) shown below Figure 5C.

Page 62: Sk biomed 03 10

61

Партнер Фонда «Сколково»

be assessed from a genome sequence and illustrates how traits associ-ated with disease can be monitored to identify varying physiologicalstages. We show that large numbers of molecular components are pres-ent in blood samples and can be measured (>3 billion measurementstaken over 20 time points). For the transcriptome many of these arisefrom differential splicing, ASE, and editing events. By observing dynamicmolecular changes that correspond to physiological states, this proof-of-principle study offers a pilot implementation of personalized medicine. Theinformation obtained may greatly help in the design and application ofpersonalized health monitoring, diagnosis, prognosis, and treatment.We speculate that differential expression of ASE/edits may be importantin monitoring and assessing diseased states. In this respect thegenes/proteins in which one isoform is abundant in one condition (e.g.,diseased or healthy state) whereas another is abundant in another (e.g.,diseased state) may provide unique physiological advantages to the indi-vidual in distinct environmental conditions. Because multiple genes in ourstudy that exhibit ASE and editing changes are involved in immune func-tion, we speculate that these components are particularly valuable for me-diating immune responses to environmental conditions such as exposureto pathogens. Likewise miRNA SNVs and edits, which also undergo dif-ferential expression, may confer unique biological responses.Although we analyzed a single individual, insights were gained by inte-grating the multiple omics profiles associated with distinct physiologicalstates. Through examination of molecular patterns, clear signatures of dy-namic biological processes were evident, including immune responsesduring infection, insulin signaling response alterations after the RSV infec-tion. Indeed, careful monitoring of omics changes across multiple timepoints for the same individual revealed detailed responses, which mightnot have been evident had the analyses been performed on groups dueto interindividual variability. Hence, we expect that our longitudinal person-alized profiling approach provides valuable information on an individualbasis. We focused on a generally healthy subject who exhibited no apparent dis-ease symptoms. This is a critical aspect of personalized medicine, whichis to perform iPOP and evaluate the importance and changes of all theprofiles in ordinary individuals. These results have important implicationsand suggest new paradigm shifts: first, genome sequencing can be usedto direct the monitoring of specific diseases (in this study, aplastic anemiaand diabetes) and second, by following large numbers of molecules amore comprehensive view of disease states can be analyzed to followphysiological states. Our study revealed that many distinct molecular events and pathways areactivated both through viral infection and the onset of diabetes. Indeed,the monitoring of large numbers of different components revealed asteady decrease of insulin-related responses that are associated with dia-betes-insulin response pathways occurring from the early healthy state toa high glucose state. Although many of the activated and repressed path-ways could be detected through transcript profiling, some were detectedonly with the proteomics data and some with the combined set of data. Inaddition a large number of connections with diabetes and insulin signalingusing metabolites, miRNAs, and autoantibodies were observed. One par-ticularly interesting response detected with the proteomics data was theonset of the elevated glucose response that was tightly associated withthe RSV infection and a particular subclinical response at day 12/18postinfection. It is tempting to speculate that the RSV infection and/or theassociated event at day 12/18 triggered the onset of high glucose/T2D.Although viral infections have been associated with T1D [52]), we are un-aware of viral infection associated with T2D. Inflammation and activatedinnate immunity have been associated with T2D (Pickup, 2004), and wespeculate that perhaps RSV triggered aberrant glucose metabolismthrough activation of a viral inflammation response in conjunction with apredisposition toward T2D. Although this cannot be proven with the analy-ses from a single individual, this study nonetheless serves as proof-of-principle that iPOP can be performed and provide valuable information.Because diabetes is a complex disease there may be many ways to ac-

quire high glucose phenotype; longitudinal iPOP analysis of a large num-ber of individuals may be extremely valuable to dissecting the diseaseand its various subtypes, as well providing information into the molecularmechanism of its onset. Finally, we believe that the wealth of data generated from this study willserve as a valuable resource to the community in the developing field ofpersonalized medicine. A large database with the complete time-dynamicprofiles for more individuals that acquire infections and other types of dis-eases will be extremely valuable in the early diagnostics, monitoring andtreatment of diseased states.

EXPERIMENTAL PROCEDURES 

The subject and mother in this study were recruited under the IRB proto-col IRB-8629 at Stanford University. Full methods and associated refer-ences can be found in the Extended Experimental Procedures section. WGS was performed at Complete Genomics and Illumina. High-confi-dence SNVs were mostly correct as evidenced by: (1) Illumina Omni1-Quad genotyping arrays (99.3% sensitivity), (2) a Ti/Tv ratio of 2.14 asexpected (1000 Genomes Project Consortium, 2010), (3) Illumina captureand DNA sequencing (92.7% accuracy), and (4) Sanger sequencing of 36randomly selected SNVs (36/36 validated, Table S1). In contrast, the lowconfidence SNVs had a Ti/Tv of only 1.46 and an accuracy of 63.8% (19of 33 confirmed by Sanger sequencing, Table S1A). Similarly, the majorityof the 216,776 high-confidence indels are likely to be correct as (1)Sanger sequencing validated 14 of 15 (93%) tested indels and (2)exome-sequencing validated most indels (4,706, 82%); meanwhile the806,125 low confidence indels had a low validation rate (5,225, 0.65%).SVs were called using: (1) paired-end mapping [9] (2) read depth [2], (3)split reads [59], and (4) junction mapping [28] to the breakpoint junctiondatabase from the 1000 G [37]. A total of 2,566 were found by two differ-ent methods or platforms (CG or Illumina) and were called high confi-dence; >90% of these were in the database of genome variants. Strand-specific RNA-Seq libraries were prepared as described previously[39] and sequenced on 1-3 lanes of Illumina’s HiSeq 2000 instrument.The TopHat package [50] was used to align the reads to the hg19 refer-ence genome, followed by Cufflinks for transcript assembly and RNA ex-pression analysis [50]. The Samtools package [31] was used to identifyvariants including single nucleotide variants (SNV) and Indels. SmallRNAs were prepared from PBMCs for the first five time points; sequenc-ing was performed according to Illumina’s Small RNA v1.5 Sample Prepa-ration Guide. The Luminex 51-plex Human Cytokines assay was performed at theStanford Human Immune Monitoring Center. For mass spectrometry, pro-teins were prepared from PBMC cell lysates, labeled at lysines using theTMT isobaric tags by Pierce, and digested with trypsin and analyzedusing reverse phase LC coupled to a Thermo Scientific (LTQ)-OrbitrapVelos instrument. In order to profile serum, 14 major glycoproteins werefirst removed using the Agilent Human 14 Multiple Affinity Removal Sys-tem (MARS) column in order to analyze the less abundant constituents.Metabolites were extracted by four times serum volume of equal mixtureof methanol, acetonitrile, and acetone and separated using our Agilent1260 liquid chromatography. Hydrophobic molecules were profiled usingreversed phase UPLC followed by APCI-MS and hydrophilic moleculewere analyzed using HILIC UPLC followed by ESI-MS in either the posi-tive or negative mode. For the integrated analysis, per omics set, for each time-series curve theLomb-Scargle transformation [20, 35, 42, 43] for unevenly sampledgapped time-series data was implemented [4, 15, 53, 58, 60]. This al-lowed us to obtain a periodogram, which was used to calculate autocorre-lations and then reconstruct the time-series with even sampling, allowingstandard time-series analysis and performing data clustering, while takingthe time intervals into account (see Extended Experimental Procedures). Autoantibodyome profiling was performed using the Invitrogen ProtoArrayProtein Microarray v5.0 according to the manufacturer’s instructions.

Page 63: Sk biomed 03 10

МИРОВОЙ ОПЫТ

62

Figure 3. Transcriptome Time Course Analysis (A) Distribution of candidate RNA editing types in missense (red) and synony-

mous and UTRs (blue), based on seven or more time points (total 20 time points).

(B) Selected summary of known and novel RNA edits expressed in PBMCs. RNA

edits were validated by digital PCR (green) and mass spectrometry (yellow).

(C) Detail of two missense-causing edit sites in BLCAP. Selected data from RNA-

Seq at day 4 and day 255 (top left), Sanger sequencing of day 255 cDNA (bottom

left), and digital PCR (right panel) are shown.

(D) Digital droplet PCR analysis of novel edit sites in SCFD2 (left) and FBXO25

(right) genes show no variants in DNA, whereas in RNA, editing is evident (top left

quadrant).

(E and F) Expression of SNV-containing and SNV-free miRNA, respectively, for

days 4, 21, 116, 185, and 186. Red lines, mean; error bars, standard error of the

mean. Genome browsers, chromatograms, and digital PCR data were analyzed

with software from DNAnexus, Inc., Chromas 2.33, and QuantaLife, respectively.

Page 64: Sk biomed 03 10

63

Партнер Фонда «Сколково»

ACCESSION NUMBERS

The SRA accession number for the WGS sequence reported in this paperis SRP008054.4. The GEO accession number for the RNA-Seq andmiRNA-Seq data sequence reported in this paper is GSE33029. See Ex-tended Experimental Procedures for data dissemination details.

SUPPLEMENTAL INFORMATION 

Supplemental information includes Extended Experimental Procedures,seven figures, four tables, and eleven data files and can be found withthis article online at doi:10.1016/j.cell.2012.02.009.

ACKNOWLEDGMENTS

M.S. is funded by grants from Stanford University and the NIH. M.G. isfunded by grants from the NIH. G.I.M. is funded by NIH training grant.K.J.K., J.T.D., and S.H. are supported by the NIH/NLM training grant T15-

LM007033. T.E.K. and R.B.A are funded by NIH/NIGMS R24-GM61374.M.A.B.’s laboratory is funded by the Spanish Ministry of Science and In-novation Projects SAF2008-05384 and CSD2007-00017, EuropeanUnion FP7 Projects 2007A-201630 (GENICA) and 2007-A-200950(TELOMARKER), European Research Council Advanced GrantGA232854, the Körber Foundation, the Fundación Marcelino Botín, andFundación Lilly (Espanã). F.E.D. was supported by NIH/NHLBI traininggrant T32 HL094274. E.A.A. was supported by NIH/NHLBI KO8HL083914, NIH New Investigator DP2 Award OD004613, and a grantfrom the Breetwor Family Foundation. We dedicate this manuscript to Dr.Tara A.Gianoulis, an enthusiastic advocate for genomic science. R.B.A.,E.A.A., A.B., and M.S. serve as founders and consultants for Personalis.R.B.A. is a consultant to 23andMe. M.S. is a member of the scientific ad-visory board of GenapSys and a consultant for Illumina. M.A.B. acts asconsultant and holds stock in Life Length.

Received: October 11, 2011. Revised: January 27, 2012. Accepted: Feb-ruary 4, 2012. Published: March 15, 2012

Руи Чен и соавторыЛаборатория Майкла Шнайдера Стенфордского университета,США и др.Персональное омиксное профилирование выявляет изменяю-щиеся молекулярные и медицински значимые фенотипы

Ожидается, что персонализированная медицина выиграет отсочетания геномной информации с регулярным мониторингомфизиологического состояния организма с помощью высоко-пропускных экспериментальных технологий. Представлено ин-тегративное персональное омиксное профилирование (иПОП),которое комбинирует геномные, экспрессионные, протеомные,метаболомные и аутоиммунные тесты, проведенные на одном

человеке в течение 14 месяцев. иПОП-анализ выявил риски здоровья, включая диабет 2-го типа. Также анализ показалзначительные динамические изменения в различных молеку-лярных компонентах и биологических путях в условиях нормыи болезни. Геномные и экспрессионные данные самого высо-кого разрешения, лежащие в основе анализа, продемонстри-ровали обширные гетероаллельные изменения междуздоровым и больным состояниями и неожиданно позволиливыявить механизм редактирования РНК. Исследование пока-зало, что долговременное иПОП-профилирование может ис-пользоваться для интерпретации здорового и больногосостояний путем сочетания геномной информации и дополни-тельных динамических омиксных тестов.

REFERENCES

1. 1000 Genomes Project Consortium. (2010). A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073.

2. Abyzov A. et al. (2011). CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing. Genome Res. 21, 974-984.

3. Adzhubei I.A. et al. (2010). A method and server for predicting damaging missense mutations. Nat. Methods. 7, 248-249.

4. Ahdesmäki M. et al. (2007). Robust regression for periodicity detection in non-uniformly sampled time-course gene expression data. BMC Bioinformatics. 8, 233.

5. Ashburner M. et al. (2000). Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat. Genet. 25, 25-29.

6. Ashley E.A. et al. (2010). Clinical assessment incorporating a personal genome. Lancet. 375, 1525-1535.

7. Benjamini Y. et al. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Roy. Statist. Soc. Ser. B 57, 289-300.

8. Cancer Genome Atlas Research Network. (2011). Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609-615.

9. Chen K. et al. (2009). Break-Dancer: an algorithm for high-resolution mapping of genomic structural variation. Nat. Methods. 6, 677-681.

10. Cox J. et al. (2010). Quantitative, high-resolution proteomics for data-driven systems biology. Annu. Rev. Biochem. 80, 273-299.

11. Croft D. et al. (2011). Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res. 39 D691-D697.

12. Dewey F.E. et al.. (2011). Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 7, e1002280.

13. Erlich H.A. et al. Type I Diabetes Genetics Consortium. (2009). Evidence for association of the TCF7 locus with type I diabetes. Genes Immun. 10 (Suppl. 1), S54-S59.

14. Galeano F. et al. (2010). Human BLCAP transcript: new editing events in normal and cancerous tissues. Int. J. Cancer. 127, 127-137.

15. Glynn E.F. et al. (2006). Detecting periodic patterns in unevenly spaced gene expression time series using Lomb-Scargle periodograms. Bioinformatics. 22, 310-316.

16. Gommans W.M. et al. (2008). Screening of human SNP database identifies recoding sites of A-to-I RNA editing. RNA. 14, 2074-2085.

17. Grayson B.L. et al. (2011). Peripheral blood gene expression profiles in metabolic syndrome, coronary artery disease and type 2 diabetes. Genes Immun. 12, 341-351.

18. Hani E.H. et al. (1998). Missense mutations in the pancreatic islet beta cell inwardly rectifying K+ channel gene (KIR6.2/BIR): a meta-analysis suggests a role in the polygenic basis of Type II diabetes mellitus in Caucasians. Diabetologia. 41, 1511-1515.

Page 65: Sk biomed 03 10

МИРОВОЙ ОПЫТ

64

19. Hindson B.J. et al. (2011). High-throughput droplet digital PCR system for absolute quantitation of DNA copy number. Anal. Chem. 83, 8604-8610.

20. Hocke K. et al. (2009). Gap filling and noise reduction of unevenly sampled data by means of the Lomb-Scargle periodogram. Atmos. Chem. Phys. 9, 4197-4206.

21. Huang W. et al. (2009). Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, 1-13.

22. Jima D.D. et al. (2010). Deep sequencing of the small RNA transcriptome of normal and malignant human B cells identifies hundreds of novel microRNAs. Blood. 116, e118-e127.

23. Kanehisa M. et al. (2000). KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28, 27-30.

24. Kasowski M. et al. (2010). Variation in transcription factor binding among humans. Science. 328, 232-235.

25. Kersey P.J. et al. (2004). The International Protein Index: an integrated database for proteomics experiments. Proteomics. 4, 1985-1988.

26. Krzywinski M. et al. (2009). Circos: an information aesthetic for comparative genomics. Genome Res. 19, 1639-1645.

27. Kusunoki M. et al. (2007). Relationship between serum concentrations of satu-rated fatty acids and unsaturated fatty acids and the homeostasis model insulinre sistance index in Japanese patients with type 2 diabetes mellitus. J. Med. Invest. 54, 243-247.

28. Lam H.Y. et al. (2010). Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library. Nat. Biotechnol. 28, 47-55.

29. Lapuk A. et al. (2010). Exon-level microarray analyses identify alternative splicing programs in breast cancer. Mol. Cancer Res. 8, 961-974.

30. Levanon E.Y. et al. (2005). Evolutionarily conserved human targets of adenosine to inosine RNA editing. Nucleic Acids Res. 33, 1162-1168.

31. Li H. et al. (2009a). The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25, 2078-2079.

32. Li J.B. et al. (2009b). Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing. Science. 324, 1210-1213.

33. Li M. et al. (2011). Widespread RNA and DNA sequence differences in the human transcriptome. Science. 333, 53-58.

34. Li R. et al. (2010). Building the sequence map of the human pan-genome. Nat. Biotechnol. 28, 57-63.

35. Lomb N. (1976). Least-squares frequency analysis of unequally spaced data. Astrophys. Space Sci. 39, 447-462.

36. Maere S. et al. (2005). BiNGO: a Cytoscape plugin to assess overrepresentation of gene ontology categories in biological networks. Bioinformatics. 21, 3448-3449.

37. Mills R.E. et al. (2011). Mapping copy number variation by population-scale genome sequencing. Nature. 470, 59-65.

38. Mischel P.S. et al. (2003). Identification of molecular subtypes of glioblastoma by gene expression profiling. Oncogene. 22, 2361- 2373.

39. Parkhomchuk D. et al. (2009). Transcriptome analysis by strand-specific sequencing of complementary DNA. Nucleic Acids Res. 37, e123.

40. Pickup J.C. (2004). Inflammation and activated innate immunity in the pathogenesis of type 2 diabetes. Diabetes Care. 27, 813-823.

41. Rozowsky J. et al. (2011). AlleleSeq: analysis of allele-specific expression and binding in a network framework. Mol. Syst. Biol. 7, 522.

42. Scargle J.D. (1982). Studies in astronomical time series analysis. II-Statistical aspects of spectral analysis of unevenly spaced data. Astrophys. J. 263, 835-853.

43. Scargle J.D. (1989). Studies in astronomical time series analysis. III-Fourier transforms, autocorrelation functions, and cross-correlation functions of unevenly spaced data. Astrophys. J. 343, 874-887.

44. Smoot M.E. et al. (2011). Cytoscape 2.8: new features for data integration and network visualization. Bioinformatics. 27, 431-432.

45. Snyder M. et al. (2009). Personal phenotypes to go with personal genomes. Mol. Syst. Biol. 5, 273.

46. Snyder M. et al. (2010). Personal genome sequencing: current approaches and challenges. Genes Dev. 24, 423-431.

47. Stewart C. et al. (2011). A comprehensive map of mobile element insertion polymorphisms in humans. PLoS Genet. 7, e1002236.

48. Sun J.C. et al. (2010). High expression level of EDIL3 in HCC predicts poor prognosis of HCC patients. World J. Gastroenterol. 16, 4611-4615.

49. Theodoridis G. et al. (2011). Mass spectrometry-based holistic analytical approaches for metabolite profiling in systems biology studies. Mass. Spectrom. Rev. 30, 884-906.

50. Trapnell C. et al. (2009). TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, 1105-1111.

51. Trapnell C. et al. (2010). Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28, 511-515.

52. van der Werf N. et al. (2007). Viral infections as potential triggers of type 1 diabetes. Diabetes Metab. Res. Rev. 23, 169-183.

53. Van Dongen H.P. et al. (1999). A procedure of multiple period searching in unequally spaced time-series with the Lomb-Scargle method. Biol. Rhythm Res. 30, 149-177.

54. Vaxillaire M. et al. (2008). The common P446L polymorphism in GCKR inversely modulates fasting glucose and triglyceride levels and reduces type 2 diabetes risk in the DESIR prospective general French population. Diabetes. 57, 2253-2257.

55. Wang E.T. et al. (2008). Alternative isoform regulation in human tissue transcriptomes. Nature. 456, 470-476.

56. Wu J.Q. et al. (2010). Dynamic transcriptomes during neural differentiation of human embryonic stem cells revealed by short, long, and paired-end sequencing. Proc. Natl. Acad. Sci. USA. 107, 5254-5259.

57. Yamaguchi H. et al. (2005). Mutations in TERT, the gene for telomerase reverse transcriptase, in aplastic anemia. N. Engl. J. Med. 352, 1413-1424.

58. Yang R. et al. (2011). LSPR: an integrated periodicity detection algorithm for unevenly sampled temporal microarray data. Bioinformatics. 27, 1023-1025.

59. Ye K. et al. (2009). Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics. 25, 2865-2871.

60. Zhao W. et al. (2008). Detecting periodic genes from irregularly sampled gene expressions: a comparison study. EURASIP J. Bioinform. Syst. Biol. 2008, 769293.