ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы:...

19
Â. Å. Ñòåôàíîâ, À. À. Òóëóá, Ã. Ð. Ìàâðîïóëî-Ñòîëÿðåíêî Ìîñêâà Þðàéò ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ УЧЕБНИК ДЛЯ АКАДЕМИЧЕСКОГО БАКАЛАВРИАТА Ðåêîìåíäîâàíî Ó÷åáíî-ìåòîäè÷åñêèì îòäåëîì âûñøåãî îáðàçîâàíèÿ â êà÷åñòâå ó÷åáíèêà äëÿ ñòóäåíòîâ âûñøèõ ó÷åáíûõ çàâåäåíèé, îáó÷àþùèõñÿ ïî òåõíè÷åñêèì è åñòåñòâåííîíàó÷íûì íàïðàâëåíèÿì Êíèãà äîñòóïíà â ýëåêòðîííîé áèáëèîòå÷íîé ñèñòåìå biblio-online.ru 2017

Transcript of ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы:...

Page 1: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

Â. Å. Ñòåôàíîâ, À. À. Òóëóá, Ã. Ð. Ìàâðîïóëî-Ñòîëÿðåíêî

Ìîñêâà Þðàéò 2016

ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ

УЧЕБНИК ДЛЯ АКАДЕМИЧЕСКОГО БАКАЛАВРИАТА

Ðåêîìåíäîâàíî Ó÷åáíî-ìåòîäè÷åñêèì îòäåëîì âûñøåãî îáðàçîâàíèÿ â êà÷åñòâå ó÷åáíèêà äëÿ ñòóäåíòîâ âûñøèõ ó÷åáíûõ çàâåäåíèé,

îáó÷àþùèõñÿ ïî òåõíè÷åñêèì è åñòåñòâåííîíàó÷íûì íàïðàâëåíèÿì

Êíèãà äîñòóïíà â ýëåêòðîííîé áèáëèîòå÷íîé ñèñòåìåbiblio-online.ru

2017

Page 2: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

УДК 57.08(075.8)ББК 30.16я73 С79

Авторы:Стефанов Василий Евгеньевич — кандидат биологических наук, доцент, заведую-

щий кафедрой биохимии биологического факультета Санкт-Петербургского государ-ственного университета;

Тулуб Александр Александрович — доктор физико-математических наук, веду-щий научный сотрудник кафедры биохимии биологического факультета Санкт-Пе-тер бург ского государственного университета;

Мавропуло-Столяренко Григорий Ростиславович — старший преподаватель ка-федры биохимии биологического факультета Санкт-Петербургского государственно-го университета.

Рецензенты:Максимович Н. В. — доктор биологических наук, заведующий кафедрой ихтиоло-

гии и гидробиологии Санкт-Петербургского государственного университета;Тимковский А. Л. — доктор физико-математических наук, профессор кафедры био-

физики Института физики, нанотехнологий и телекоммуникаций Санкт-Пе тер бург-ского политехнического университета Петра Великого.

С79 Стефанов, В. Е.

Биоинформатика : учебник для академического бакалавриата / В. Е. Стефанов, А. А. Тулуб, Г. Р. Мавропуло-Столяренко. — М. : Издательство Юрайт, 2016. — 252 с. — Серия : Бакалавр. Академический курс.

ISBN 978-5-9916-6986-3

Приведены основы биоинформатики — науки, изучающей живые системы мето-дом компьютерного эксперимента. Объем курса соответствует уровню академиче-ского бакалавриата, а четкое структурирование информации и обоснованный выбор разделов, описывающих ключевые концепции базовых дисциплин — молекулярной биологии, математики, квантовой физики, — делает книгу полезной для широкого круга читателей разного уровня подготовки и специализации. Содержит описания реальных и общедоступных ресурсов биологических баз данных и репозиториев био-информатических инструментов.

Содержание учебника соответствует актуальным требованиям Федерального го-сударственного образовательного стандарта высшего образования.

Для студентов высших учебных заведений, обучающихся по инженерно-техниче-ским и естественнонаучным направлениям.

УДК 57.08(075.8)ББК 30.16я73

ISBN 978-5-9916-6986-3

© Стефанов В. Е., Тулуб А. А., Мавропуло-Столяренко Г. Р., 2016

© ООО «Издательство Юрайт», 2016

Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.Правовую поддержку издательства обеспечивает юридическая компания «Дельфи».

ISBN 978-5-534-00860-9

ISBN 978-5-534-00860-9

2017.

ООО «Издательство Юрайт», 2017

Page 3: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

Îãëàâëåíèå

Предисловие ..................................................................................... 7Глава 1. Предмет биоинформатики ....................................................10

1.1. Макромолекулы — носители информации в клетке ............................................101.1.1. Информация на клеточном уровне ................................................................101.1.2. Структура ДНК. Азотистые основания ........................................................131.1.3. Структура РНК .....................................................................................................181.1.4. Структура белков ..................................................................................................20

1.2. Информационные матричные процессы на молекулярном уровне ................261.2.1. Репликация .............................................................................................................261.2.2. Транскрипция ........................................................................................................291.2.3. Процессы модификации РНК. Сплайсинг ..................................................321.2.4. Трансляция .............................................................................................................341.2.5. Формирование пространственных структур ДНК. Структура ДНК-белковых комплексов .........................................................................................371.2.6. Формирование пространственных структур РНК ...................................431.2.7. Формирование пространственных структур белков ................................48

1.3. Междисциплинарный характер биоинформатики ...............................................531.3.1. Задачи биоинформатики ....................................................................................541.3.2. Геномика ..................................................................................................................551.3.3. Протеомика .............................................................................................................561.3.4. Молекулярная филогения .................................................................................57

Вопросы и задания для самопроверки ................................................................................58Литература к главе 1 ..............................................................................................................58

Глава 2. Математический аппарат биоинформатики ............................602.1. Простые статистические модели в биоинформатике ...........................................60

2.1.1. Метод скользящего окна ....................................................................................602.1.2. Применение теоретико-информационного подхода ................................62

2.2. Алгоритмы выравнивания последовательностей ..................................................652.2.1. Алгоритм глобального выравнивания последовательностей ................662.2.2. Алгоритм локального выравнивания последовательностей .................692.2.3. Варианты реализации штрафующей функции за пропуски в выравнивании ................................................................................................................712.2.4. Алгоритмы множественного выравнивания последовательностей ....72

2.3. Марковские цепи и скрытые модели Маркова.......................................................742.3.1. Марковские цепи ..................................................................................................742.3.2. Скрытые модели Маркова .................................................................................762.3.3. Алгоритмы, применяемые при работе со скрытыми моделями Маркова ...............................................................................................................................78

Page 4: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

2.4. Искусственные нейронные сети ..................................................................................832.4.1. Одиночный нейрон ..............................................................................................842.4.2. Обучение нейрона ................................................................................................862.4.3. Иерархические сети, многослойный пецептрон ........................................882.4.4. Сеть Хопфилда ......................................................................................................892.4.5. Самоорганизующиеся карты ............................................................................91

2.5. Байесова статистика ........................................................................................................932.5.1. Классическая и байесова вероятности. Байесов вывод ...........................932.5.2. Формула Байеса для непрерывных распределений .................................96

2.6. Симуляция Монте-Карло и алгоритмы имитации отжига ................................972.6.1. Симуляция Монте-Карло ..................................................................................972.6.2. Методы Монте-Карло, использующие марковские цепи .......................992.6.3. Алгоритм имитации отжига ........................................................................... 101

2.7. Эволюционные и генетические алгоритмы .......................................................... 1032.7.1. Общие принципы ............................................................................................... 1032.7.2. Эволюционные алгоритмы ............................................................................. 1032.7.3. Чередование поколений в эволюционных алгоритмах ........................ 1042.7.4. Оценка и ранжирование особей согласно степени их «приспособленности».................................................................................................. 1052.7.5. Способы отбора особей .................................................................................... 1072.7.6. Воспроизводство особей ................................................................................. 1102.7.7. Генетические алгоритмы ................................................................................. 111

2.8. Алгоритмы кластерного анализа .............................................................................. 1122.8.1. Введение в кластерный анализ. .................................................................... 1122.8.2. Примеры алгоритмов ....................................................................................... 116

Вопросы и задания для самопроверки ............................................................................. 118Задачи ........................................................................................................................................ 118Литература к главе 2 ........................................................................................................... 118

Глава 3. Примеры моделей в биоинформатике .................................. 1193.1. Общие модели ................................................................................................................. 119

3.1.1. Сравнение последовательностей биологических полимеров ............ 1193.1.2. Методы быстрого поиска в базах данных .................................................. 1273.1.3. Статистическая оценка значимости значений оценочной функции при выравнивании последовательностей .......................................... 1293.1.4. Применение скрытых моделей Маркова для идентификации последовательностей ................................................................................................... 1373.1.5. Представление входных данных и интерпретация результатов в моделях, основанных на искусственных нейронных сетях ........................ 1403.1.6. Логотипы последовательностей. Информационно-теоретическая интерпретация консервативных участков последовательностей биологических полимеров .............................................. 142

3.2. Геномика — примеры моделей .................................................................................. 1443.2.1. Поиск открытых рамок считывания. Поиск кодирующих фрагментов ...................................................................................................................... 1443.2.2. Предсказание оперонной структуры прокариотических геномов ... 1483.2.3. Предсказание вторичной структуры молекул РНК .............................. 151

Page 5: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

5

3.3. Протеомика — примеры моделей ............................................................................. 1563.3.1. Профили аминокислотных последовательностей, позиционно-зависимые матрицы замещения .............................................................................. 1563.3.2. Предсказание наличия сигнальных пептидов в исследуемой последовательности ..................................................................................................... 1583.3.3. Применение сети Кохонена для ускорения поиска в базе .................. 1613.3.4. Предсказание вторичной структуры белков ............................................ 1623.3.5. Предсказание трансмембранных фрагментов белков ........................... 168

3.4. Моделирование структуры белка в свете информационных технологий . 1703.4.1. Подходы к решению проблемы моделирования пространственной структуры белка. Задача сравнительного моделирования структуры белка по его аминокислотной последовательности ..................................................................................................... 1733.4.2. Альтернативные способы подбора матричной структуры .................. 180

3.5. Эволюционные модели ................................................................................................ 1883.5.1. Множественные выравнивания .................................................................... 1893.5.2. Построение филогенетических деревьев ................................................... 191

Вопросы и задания для самопроверки ............................................................................. 195Литература к главе 3 ........................................................................................................... 195

Глава 4. Биологические базы данных ............................................... 1974.1. Основы структур баз данных ..................................................................................... 1974.2. Базы данных, содержащие информацию о биологических структурах

и последовательностях ................................................................................................ 1984.3. Основные форматы данных биоинформатики .................................................... 2024.4. Каталог известных баз данных .................................................................................. 203

Глава 5. Биоинформатические программы и сервисы ........................ 2085.1. Анализ последовательностей биологических полимеров ............................... 2085.2. Расширенный поиск с применением алгоритмов семейства BLAST .......... 2115.3. Предсказание физико-химических свойств белков на основании

аминокислотных последовательностей ................................................................. 2145.4. Поиск белков, обладающих сходными физико-химическими

свойствами ....................................................................................................................... 2155.5. Предсказание особых типов структур и свойств белков ................................. 2165.6. Каталог репозиториев веб-сервисов ....................................................................... 219Вопросы и задания для самопроверки к главам 4 и 5 ................................................. 220Задачи ........................................................................................................................................ 220Литература к главам 4 и 5 ................................................................................................ 221

Глава 6. Квантовый мир и биология — две сущности одной и той же реальности ........................................................................ 222

6.1. Информация и вычисления: от классического компьютинга к квантовому .................................................................................................................... 2226.1.1. Что представляет собой информация — попытка определения ........ 2226.1.2. Классическая информация и вычисления ................................................ 2236.1.3. Квантовая информация и вычисления ...................................................... 224

6.2. Сознание как проявление квантового мира и человеческий мозг в качестве квантового компьютера .......................................................................... 229

Page 6: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

6.2.1. Квантовая информация и работа сознания находят друг друга ........ 2296.2.2. Одна проблема: как совместить локальность и нелокальность ......... 2336.2.3. Пути преодоления противоречий. Грани нелинейности: логика, множества, числа ........................................................................................... 2336.2.4. Фрактальная р-адическая феноменология единства естественных систем .................................................................................................... 2346.2.5. P-адическая система разбирается не только в работе сознания, но и в конформациях белков .................................................................................... 235

6.3. Спин — носитель квантовой информации ............................................................ 2376.3.1. Квантовый спин и фаза .................................................................................... 2376.3.2. Триплетные и синглетные состояния ......................................................... 2386.3.3. Спин заставляет спирали ДНК закручиваться в спираль ................... 241

Вопросы и задания для самопроверки ............................................................................. 244Литература к главе 6 ........................................................................................................... 245

Приложение. Примеры вычислений на p-адических числах .............. 247Новые издания по дисциплине «Биоинформатика» и смежным дисциплинам ................................................................. 252

Page 7: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

7

Ïðåäèñëîâèå

Данная книга посвящена, пожалуй, одной из самых необычных дисци-плин спектра наук о живом — биоинформатике. Что интересно, «необычай-ность» биоинформатики не очевидна даже из ее формального определения как науки, находящейся на стыке биологии и математики, в которой матема-тические подходы глубинного анализа данных и машинного обучения приме-няются к биологическим объектам. Фактически же приведенное выше опре-деление биоинформатики у неподготовленного читателя должно вызывать естественный вопрос: в чем же тут отличие от биологической статистики — биометрии, рутинно применяемой при любой количественной оценке тех или иных характеристик объектов и процессов, наблюдаемых в живой природе?

Ключевым отличием биоинформатики является применение концепции компьютерного эксперимента в качестве основного инструмента познания. Компьютерный (численный) эксперимент — процедура расчета выходных параметров математической модели объекта или явления на основании определенных входных параметров. Применение компьютерного экспери-мента имеет серьезные плюсы в виде возможности рассчитать, численно оценить характеристики исследуемого явления, трудно или совсем недо-ступные, с помощью прямых экспериментов. Обратной же стороной подоб-ного подхода является необходимость учитывать то, что даже самая точная модель является достаточно грубым приближением реальности. В отли-чие от методов биометрии, как правило, применяемых на завершающих стадиях «конвейера получения новых знаний» для фиксирования общих принципов на основании серий частных наблюдений, результаты примене-ния методов биоинформатики сами требуют валидации (пускай и косвен-ной) с применением инструментария обычной биологии.

Двумя другими важными следствиями применения математического моделирования в биоинформатике являются абсолютная воспроизводи-мость результатов с одной стороны и существенная нестабильность мето-дологии — с другой. Абсолютная воспроизводимость результатов озна-чает, что при одних и тех же условиях (модель и параметры ее запуска) вы всегда получаете идентичный результат 1. В действительности же для большинства современных биоинформатических методов данный эффект является ограниченно достижимым из-за ряда факторов:

• постоянного прогресса в разработке новых инструментов, что приво-дит к изменению, сокращению поддержки или даже утрате части старого

1 Даже в случае алгоритмов, подразумевающих элемент случайности в генерации резуль-тата, при достаточном количестве итераций будут формироваться «типичные» для данной модели и входных параметров множества результатов.

Page 8: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

8

инструментария, чаще всего представленного в виде веб-сервисов и как следствие — практически не воспроизводимого;

• явного или неявного включения в модели практически всех совре-менных методик, так называемой эволюционной информации, что под-разумевает определенную агрегацию данных из известных банков данных последовательностей и структур, претерпевающих экспоненциальный рост объема накопленной информации последние десятилетия.

Практически это означает, что, пройдя по ссылке NCBI Blast и запустив десять раз поиск по определенной последовательности (и не меняя параме-тров запусков), вы получите десять идентичных результатов. Фактически данные результаты будут независимо полученными исходами десяти пол-ноценных компьютерных экспериментов по модели «похожести» после-довательностей, заложенной в алгоритм BLAST, в соответствии с выбран-ными параметрами и с поиском, произведенным по текущим состояниям банков данных, задействованных в запросе. Если же вы повторите те же действия через день, месяц, год, то, хотя в сериях экспериментов резуль-таты по-прежнему будут идентичны, между сериями могут обнаружиться различия, связанные как с «улучшением» самого инструмента (BLAST), так и с появлением новых последовательностей в банках данных, по кото-рым производится поиск. Конечно же, ввиду преемственности научного познания принципиальная картина распределения наиболее значимых совпадений не должна претерпеть существенных изменений, но практика показывает, что в реальной научной работе нередко большую научную цен-ность имеют истинные совпадения на пороге значимости, чем очевидные результаты. И только четкое понимание принципов работы используемого инструмента позволит продвинуться в правильном направлении в сложной ситуации.

В соответствии с выбранным авторами курсом на формирование у чита-телей в первую очередь адекватного понятийного аппарата реализована следующая структура учебника:

• первая глава дает представление о том, почему вообще биоинфор-матика «работает», т.е. какие свойства реальных биологических объектов и процессов позволяют строить эффективные математические модели;

• вторая глава дает ответ на вопрос, как работает биоинформатика, предлагая базовое описание основных математических подходов и абстрак-ций, получивших наибольшее распространение;

• в третьей главе показаны конкретные схемы реализации биоинфор-матического инструментария для решения задач всего спектра актуальных вопросов современной молекулярной биологи;

• четвертая и пятая главы носят скорее прикладной характер, давая читателю практический выход к интернет-ресурсам биоинформатики;

• шестую главу авторы рассматривают как факультативную. В ней затрагиваются выходящие за рамки стандартных курсов биоинформа-тики вопросы, которые авторам доводится слышать от студентов. Сами эти вопросы и ответы на них требуют углубленного знания математики и физики. Мы сочли целесообразным включить факультативную главу в книгу, поскольку читатели, имеющие необходимую подготовку в ука-

Page 9: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

занных областях, могут найти в ней ответы на интересующие их вопросы, других же студентов проблемы, освещаемые в ней, будут мотивировать к приобретению, возможно, недостающих им знаний в современной физике и математике. Такие знания позволяют заглянуть в будущее биоинформа-тики, связанное с переходом от классического компьютинга к квантовому, в котором спин является носителем квантовой информации, а человече-ский мозг рассматривается как квантовый компьютер.

В книге содержатся контрольные вопросы и задания, способствующие лучшему усвоению материала, а также приведена обширная библиография.

В результате изучения дисциплины студент бакалавриата должен:знать• основы молекулярной биологии;• цели и задачи, методы и подходы биоинформатики;• основные математические абстракции и модели, применяемые для

анализа биологических систем;• основы квантовой физики;уметь• анализировать особенности реализации методов биоинформатики;• грамотно интерпретировать их допущения и ограничения;• решать задачи поиска необходимой информации о биологических

системах, последовательностях, структурах;• применять базовый инструментарий биоинформатики;владеть• типичными подходами к решению задач глубинного анализа данных

(data mining) в современной биологии;• основами анализа последовательностей и структур нуклеиновых кис-

лот и белков;• навыками работы с биоинформатическими интернет-ресурсами

и базами данных.

Page 10: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

10

Ãëàâà 1. ÏÐÅÄÌÅÒ ÁÈÎÈÍÔÎÐÌÀÒÈÊÈ

1.1. Ìàêðîìîëåêóëû — íîñèòåëè èíôîðìàöèè â êëåòêå

Биоинформатика работает с моделями биологических систем, т.е. со специально упрощенными формализованными описаниями биологиче-ских объектов и процессов, поэтому нам необходимо понять информацион-ную сущность моделируемых систем. Концепция информации приобрела в современном мире множество значений — как бытовых, так и специально-технических. Обычно определение информации основывается на понятиях сообщения, паттерна, взаимодействия. Поскольку живые организмы явля-ются открытыми системами, активно обменивающимися с внешним миром не только материей и энергией, но и информацией, то вопросы информа-ционного взаимодействия нашли широкое отражение в современной био-логии.

Проявления информационной природы живых систем достаточно раз-нообразны и покрывают все уровни организации живого, от необходимости упорядочивать потребляемую материю для создания достаточно сложных структур, формирующих тела организмов, до построения информационной картины мира нашим сознанием. Далее мы подробнее изучим основные (в биологических масштабах) носители информации — протяженные био-логические полимеры.

1.1.1. Информация на клеточном уровнеНа клеточном уровне наиболее заметными носителями информации

являются апериодические полимерные молекулы: ДНК (дезоксирибонукле-иновая кислота), РНК (рибонуклеиновая кислота) и белки. Далее мы под-робно рассмотрим физико-химические основы строения этих полимеров, а уже сейчас отметим, что существенная часть информационной сущности данных молекул заключена в определении «апериодические полимеры». Апериодические полимеры — это цепочечные молекулы, составленные из звеньев различных типов 1, следующих в разном порядке (рис. 1.1).

Важной особенностью белков и полинуклеиновых кислот (ДНК, РНК), встречаемых в живых организмах, является «неслучайность» их последова-тельностей, т.е. они не являются статистически случайными полимерами, а наоборот, именно порядок следования звеньев часто определяет функци-

1 По четыре типа звеньев у ДНК и РНК и 20 типов звеньев для белков.

Page 11: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

11

ональность и (или) информационную составляющую молекулы. Наличие закономерностей в последовательности звеньев делает данные молекулы исключительно удобным объектом для анализа с помощью математических подходов. Другим аспектом, подчеркивающим необходимость анализа обо-значенных полимеров, является тот факт, что в ДНК каждого организма закодирована практически вся информация как о его строении, так и о воз-можных сценариях функционирования. Реализуется же эта информация именно через синтез молекул РНК и белков.

M S Q A E F E K A A E E V R H L K T K P S D E E M L F I Y G H Y K Q A T V G D I N T EM S Q A E F D K A A E E V K H L K T K P S D E E M L F I Y S H Y K Q A T V G D I N T E

M T L Q A D F D E A A E E V K K L K T R P T D E E L K E L Y G H Y K Q A T V G D I N I EM V S Q L F E E K A K A V N E L P T K P S T D E L L E L Y A L Y K Q A T V G D N D K E

ACBPа

ЧеловекКороваУткаДрожжи

E5

S2

Q3

F6

E7

E12A10

E11

V13

H15

L16

R14

A4

A9

K8

б

Рис. 1.1. Фрагмент последовательностей белка ACBP (ацил-Коа связывающий белок) из разных организмов:

а — схематичное изображение. Каждая буква — символичное обозначение определенного типа мономера. Следует обратить внимание на то, что последовательности белка из разных организмов частично совпадают;

б — каркасная модель химической структуры фрагмента человеческого ACBP со 2-го по 16-й мономер. Тип мономера указан в однобуквенном коде, число отражает

позицию мономера от начала (N-конца) последовательности. Например, хорошо видны идентичные мономеры глутаминовой кислоты (E5, E7, E12),

в позициях 5, 7 и 12 соответственно

Итак, ДНК, РНК и белки являются основными носителями информа-ции в клетке. При этом в ходе функционирования организма происходят постоянные перенос и обработка этой информации. Основные пути (про-цессы) этого переноса сформулированы в центральной догме молекуляр-ной биологии и приведены на рис. 1.2.

Рассмотрим эти пути несколько подробнее. Как было указано выше, ключевым носителем информации в клетке являются молекулы ДНК. Как правило, при делении клетки каждая молекула ДНК удваивается, создавая

Page 12: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

12

полную свою копию (копия относительно последовательности звеньев) — этот процесс удвоения называют репликацией ДНК. В результате репли-кации ДНК каждая новая клетка получает свой «набор информации», практически полностью идентичный исходному набору. В ходе функцио-нирования клетки с отдельных фрагментов молекул ДНК делаются корот-кие РНК-копии 1. Этот процесс фрагментарного копирования называется транскрипцией. РНК-копия впоследствии может претерпевать ряд моди-фикаций, например, с помощью специальных процессов, таких как сплай-синг (см. подпараграф 1.2.3). После этого на основе информации, содер-жащейся в РНК-копии, происходит синтез молекул белка 2 — трансляция. Молекулы белков в зависимости от последовательности звеньев способны выполнять различные функции:

• структурную (участвуя в формировании тела организма);• ферментативную (катализируя и локализуя определенные химиче-

ские реакции);• двигательную (сократительную, связанную с изменением формы

белка при определенных условиях).

ДНК

РНК

Белок

Репликация ДНК

Транскрипция

Трансляция

Обратная транскрипция

Репликация РНК

Рис. 1.2. Центральная догма молекулярной биологии. Основные носители информации в клетке (ДНК, РНК и белки),

а также процессы переноса информации: — основные; — дополнительные

1 Следует напомнить, что молекулы и РНК и ДНК состоят из четырех типов звеньев, и природа процессов, происходящих в клетке, такова, что позволяет установить взаимно однозначное соответствие между типами мономеров ДНК и РНК (см. также подпараграфы 1.1.2—1.1.3).

2 Каждый мономер последовательности белка кодируется тремя последовательно иду-щими мономерами РНК-кодоном. Поскольку три мономера РНК (четырех типов) позволяют закодировать 64 различных символа, то наблюдается избыточность генетического кода — неко-торые мономеры белков могут кодироваться различными кодонами. В то же время генетиче-ский код обладает однозначностью — определенный тип кодона всегда кодирует определенную аминокислоту. Подробнее кодирование аминокислот рассмотрено в подпараграфе 1.2.4.

Page 13: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

13

Следует знать, что в некоторых случаях реализация информации, закоди-рованной в ДНК, заканчивается на этапе создания РНК-копии. Возможность такого сценария вызвана тем, что молекулы РНК могут иметь дополнитель-ные функции помимо переноса информации от ДНК к белкам. Эти дополни-тельные функции, выполняемые не кодирующими белки молекулами РНК, весьма разнообразны, в том числе некоторые молекулы РНК (так называе-мые рибозимы) способны выполнять даже ферментативную функцию.

К неклассическим потокам переноса информации можно отнести дупли-кацию молекул РНК: РНК-репликацию, а также создание ДНК-копий с молекул РНК — обратную транскрипцию.

Интересно отметить, что изложенные выше принципы применимы ко всем живым организмам, однако детали реализации перечисленных про-цессов у эволюционно далеких групп организмов могут иметь отличия.

Как уже говорилось, информация, закодированная в ДНК, проявляется в виде синтезируемых на ее основе молекул РНК и белков. Функциониро-вание биологических полимеров определяется пространственной структу-рой, которую принимает полимерная цепь, а пространственная структура цепи в общем случае — последовательностью звеньев. Таким образом, к информационным процессам, происходящим на клеточном уровне, можно также отнести формирование пространственной структуры биоло-гическими полимерами.

1.1.2. Структура ДНК. Азотистые основанияМономерами ДНК являются нуклеозиды (рис. 1.3). В химической струк-

туре нуклеозидов можно выделить два крупных фрагмента: остаток сахара и азотистое основание. Первый компонент — остаток сахара дезоксири-бозы — является общим для всех типов нуклеозидов ДНК. Второй ком-понент нуклеозида — азотистое основание, определяющее его тип. Четыре типа азотистых оснований дают четыре типа нуклеозидов.

При переходе от мономеров ДНК к полимеру появляется еще один компонент структуры — остаток фосфорной кислоты, который обеспечи-вает связь остатков дезоксирибозы. Эта связь всегда задействует 3-атом углерода одного сахарного остатка и 5-атом другого остатка, что позволяет выделять направление в полимерной молекуле (линейная молекула имеет одно «свободное» 3-окончание и одно 5) 1. Нуклеозид, связанный с остат-ком фосфорной кислоты, называют нуклеотидом.

В дальнейшем мы будем придерживаться термина «нуклеотид», когда речь будет идти о мономерах нуклеиновых кислот, а также названий азоти-стых оснований (аденин, тимин, цитозин и гуанин), когда речь будет идти о различиях соответствующих мономеров.

Помимо общности строения, второй важной особенностью мономе-ров ДНК является их способность формировать водородные связи между азотистыми (рис. 1.4, а) основаниями. При этом спаривание происходит весьма специфично: аденин формирует две водородные связи с тимином,

1 Подчеркнем важность наличия «направления» в нуклеиновых кислотах, так как прак-тически все процессы с их участием идут только в определенную сторону.

Page 14: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

14

а гуанин — три водородные связи с цитозином 1. Такая специфичность позволяет сформировать для каждой последовательности нуклеотидов «комплементарную» ей последовательность (рис. 1.4, б).

Цитозин

Аденин

Гуанин Гуанин

Дезоксирибоза

Дезоксирибоза

Дезоксирибоза

Аденин

Цитозин

Тимин

H2N

NH2

NH2O

Тимин

С5

С5

С5

С5С3

С3

С3

С3

N

N

N

NH

N

N

N

N

O

O

O

O

O

HO

HO

HO

OH

OH

OHДезоксирибоза

NH2

N

NN

N

OHO

OH

Рис. 1.3. Нуклеотиды — мономеры ДНК:в центре (в рамке) — фрагмент полимера: черный цвет — азотистые основания

(подписаны), серый — остаток дезоксирибозы и светло-серый — остаток фосфорной кислоты. Слева и справа приведены химические формулы соответствующих

нуклеозидов (дезоксицитидин, дезоксиаденозин, дезоксигуанозин, дезокситимидин)

Аденин

Аденин

Аденин

Гуанин Гуанин

ГуанинТимин

Тимин

Тимин

ЦитозинЦитозин

Цитозин

а бO

O

O

H

H

H

H

H

H

H H

N

N

N

N

N

N

N

N

N

N

N

N

N

N

N

H O

PO

O–

O

O

PO

O–

O

O

PO

O–

O

O

PO

O

–O

O

PO

O

–O

O

PO

O

–O

O

PO

O

–O

O

NO

O O

NH2

HNOH

NN

N N

35

53

O

OO

NN

N

N

N

NN

N

N N

NN

N

N

NO

O

O

O

OO

O

O

O

OH

O

NH2

NH2

H2N

H2N

H2N

HN

NH

NH

Дезоксирибоза-фосфатный

остовP

O

O–

O

O

Рис. 1.4. Пары комплементарных азотистых оснований и формируемые ими водородные связи (пунктир) (а); пример антипараллельных

комплементарных цепей ДНК (б):следует обратить внимание, что цепи имеют разные направления (3—5 и 5—3)

1 Упомянутые взаимодействия называются классическими (или по фамилиям первоот-крывателей уотсон-криковскими). Следует также иметь в виду, что в природе встречаются и другие комплементарные пары, однако классические (канонические) пары в количествен-ном отношении доминируют.

Page 15: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

15

Следует отметить, что для формирования водородных связей «ком-плементарная» цепь должна иметь обратное направление (см. рис. 1.4, б). В живых организмах молекулы ДНК, как правило, встречаются в «двуце-почечной» форме, а различия в направлении цепей обозначают, называя цепи антипараллельными. Именно на принципе комплементарности бази-руются основные матричные процессы, происходящие с участием ДНК (и РНК, см. подпараграфы 1.2.1—1.2.4).

а

вb3b2

b1

CH3

Анти Син Гош

CH3CH3

CH3

H3C

CH3

H

HH H H

H

HH

H

H

HH

г

б

ij kl

109,5°

120°

l

kj

i

Рис. 1.5. Основы пространственной геометрии молекул:валентные углы внешних орбиталей атомов в состоянии sp 3-гибридизации:

а — тетраэдрическая структура, валентные углы близки к 109°, и sp 2-гибридизации; б — плоская структура, валентные углы близки к 120°;

в — двугранный угол — угол вращения вокруг связи j — k (вектор b2), определяемый как угол между плоскостями, в которых лежат тройки атомов i — j — k и j — k — l;

г — возможные конформации молекулы при различных значениях торсионного угла (направление взгляда вдоль связи j — k)

Если переходить от химической структуры ДНК к пространственной, то, как и в случае любой другой молекулы, ее геометрия определяется длинами химических связей, валентными углами входящих в нее атомов, а также двугранными (торсионными) углами химических связей (см. рис. 1.5). Поскольку внешние орбитали всех атомов, формирующих остов цепи ДНК

Page 16: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

16

и фуранозное кольцо (C, O, P), находятся в состоянии sp 3-гибридизации (см. рис. 1.5, а), длины химических связей различаются незначительно, а учитывая высокую протяженность молекул, наибольшее влияние на при-нятие цепью определенных конформаций оказывают именно двугранные углы. Так, конформация полинуклеотидной цепи определяется набором торсионных углов остова цепи (, , , , и ), внутренними торсионными углами сахарного остатка (0—4) и торсионным углом , определяющим ориентацию азотистого основания (рис. 1.6).

O OB

а б

в

B

O5

O5 O5

O3

O3

O5

P PO O–O–O

O3 O3

4 0

1

2

3

O OB B3Е

С3ʼ-endoNorth (N)

2Е С2ʼ-endoSouth (S)

Рис. 1.6. Торсионные углы, определяющие конфигурацию остова нуклеотидной цепи, и угол , определяющий ориентацию азотистого

основания (а); торсионные углы фуранозного кольца (б); возможные конформации фуранозного кольца (в)

Несмотря на то что двугранные углы остова цепи должны иметь воз-можность свободного, пусть и стерически ограниченного, вращения, углы фосфатной связи и дополнительно заторможены в силу аномерного эффекта (рис. 1.7), стремящегося соориентировать свободную электрон-ную пару О3 атома со связью P—O5 (и наоборот — пару O5-атома со свя-зью P—O3). К этому эффекту добавляется антиперипланарная (транс-) конфигурация С5—O5- и С3—O3-связей (углы и на рис. 1.8), что в сочетании с ограничениями угла (см. далее) приводит к фиксации этих фрагментов цепи в ригидный участок. Вращение вокруг оставшейся связи С4—C5 () также стерически ограничено синклинальным ротамером (см. рис. 1.5, г и 1.8, а). В результате последовательности связей P—O5—С5—C4 и P—O3—С3—C4 часто рассматривают как пару «виртуальных» связей между атомами P и С4.

Page 17: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

17

С5

O5

C3

OP2 OP1

O3

P

Рис. 1.7. Пример аномерного эффекта для атома О3 и связи P—O5

Видно, что одна из свободных sp 3 орбиталей кислорода (темно-серая), ориентируется вдоль связи P—O5.

O3O3

C3O5

HH

C

HH

H

C5

C4

OP2

OP2OP1

OP1

P P

а б

Рис. 1.8. Транс-конфигурация связей С5—O5 (а) и С3—O3 (б)

Наиболее распространенными формами конфигурации молекулы ДНК являются A- и B-формы. В обоих случаях это двуцепочечная антипарал-лельная двойная правая суперспираль (рис. 1.9).

A-форма

2,56A 28,2A3,4A

34A

B-форма

Рис. 1.9. Схематичное изображение А- и В-форм ДНК

Page 18: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

18

Хорошо видны отличия между малой и большой бороздами в В-форме.Отличия конфигураций А- и В-форм обеспечиваются различной кон-

формацией фуранозного кольца — С3-эндо для А-формы ( +80°; –80°) и С2-эндо для В ( +130°; –120°) (см. рис. 1.6, в). В пользу формирова-ния спиральных конформаций действует пятичленность сахарного остатка, поскольку торсионный угол в этом случае превышает 60°. Также спираль стабилизируется межцепочечными водородными связями и стэкинг-взаи-модействиями циклов азотистых оснований. Как правило, в растворе ДНК находится в В-форме, однако практически всегда есть участки с деформа-цией классической структуры. Обычно на двойной суперспирали выде-ляют большую и малую борозды. Для нас большая борозда важна тем, что выстилка ее дна формируется азотистыми основаниями и, таким образом, ее «ландшафт» определяется последовательностью мономеров. Именно через взаимодействие с большой бороздой чаще всего происходит узнава-ние специфичных последовательностей ДНК различными молекулярными машинами.

1.1.3. Структура РНКПо своему химическому строению молекулы РНК (рис. 1.10) похожи

на молекулы ДНК, однако имеются и отличия:• в качестве сахарного остатка используется рибоза;• вместо азотистого основания тимина встречается азотистое основание

урацил.

Цитозин Цитозин

Гуанин Гуанин

Аденин Аденин

Азотистые основания

Комплементарное спаривание

Сахаро-фосфатныйостов

ТиминУрацил

Н Н

Н Н

Н Н

Н НO O

O OH HC C

C CC C

C CC C

C C

CC

CO

OC C

C CC C

C CC CN N

N N

N NN N

N N

N N

N NN N

N NN N

H H

H H

H H

HH

HH

H

HN

N

H H

HO HO

HO HOOH

OH OH

HHN

NCC

C C

O

O

H H

H H

H H

Н НN N

N N

N N

С С

С СС С

С С

С С

G G

A A

TU

РНК —рибонуклеиновая кислота

ДНК —дезоксирибонуклеиновая кислота

O O

Рис. 1.10. Сравнение химических структур компонентов нуклеотидов РНК (слева) и ДНК (справа)

Page 19: ÁÈÎÈÍÔÎÐÌÀÒÈÊÀ · УДК 57.08(075.8) ББК 30.16я73 С79 Авторы: Стефанов Василий Евгеньевич — кандидат биологических

19

Таким образом, для РНК комплементарные пары составляют цитозин-гуанин и аденин-урацил. Существенным дополнением принципа компле-ментарности является тот факт, что основное отличие мономеров РНК и ДНК — наличие/отсутствие ОН-группы у 2-углерода сахарного остатка. Поскольку сахарный остаток не принимает непосредственного участия в комплементарном взаимодействии, то столь незначительное отличие химических структур мономеров ДНК и РНК делает возможным форми-рование комплементарных гибридных ДНК-РНК пар цепей (рис. 1.11). Наличие подобного типа взаимодействия позволяет контролировать ста-бильность информации при переносе ее с ДНК на РНК (и обратно).

DA

DG

DC

DTA

G

U

C

Рис. 1.11. Каркасная модель фрагмента гибридной ДНК (левая цепь)/ РНК (правая цепь) спирали:

Подписаны соответствующие нуклеотиды ДНК (DT, DC, DA, DG) и РНК (A, G, U, C)

Пространственная структура, формируемая дуплексами РНК-ДНК и РНК-РНК, похожа на А- и В-формы двуцепочечной ДНК, т.е. это также двойная правая спираль, часто с четко выделяемыми малой и большой бороздами.

Комплементарные пары антипараллельных РНК-цепей, как уже упо-миналось, могут формировать дуплексы между собой, однако чаще всего в природе встречаются именно одиночные молекулы РНК. Это приводит к тому, что при наличии внутри одной молекулы обращенных (т.е. имею-щих разное направление) комплементарных фрагментов у молекулы РНК появляется сложная пространственная структура за счет формирования антипараллельных дуплексов внутри одной молекулы (рис. 1.12).

Рис. 1.12. Пространственная структура молекулы тРНК (слева) и ее схематичное изображение (справа):

видно что комплементарные антипаралельные фрагменты (на схеме — кружки, соединенные серыми линиями) формируют

спиралевидные элементы пространственной структуры