Использование биоинформатики в практической...

Использование биоинформатики в

практической молекулярной биологии

И.И. Артамонова,

ИОГен РАН

План

Гомологи и сходство последовательностей

Что можно выяснить на основании множественного выравнивания гомологов

Филогенетический анализ и восстановлении эволюции

Почему нас интересует локальное сходство последовательностей?

Мы верим, что:1. функцию, структуру и многие другие

свойства белка/ДНК определяет последовательность;

2. родственные белки имеют похожие свойства

молекулы, похожие по последовательности, похожи и по свойствам

Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка)

Признаки гомологичности белков

• сходная 3D-структура • в той или иной степени похожая

аминокислотная последовательность• аналогичная функция • разные другие соображения…

Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию

Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

http://www.library.csi.cuny.edu/~davis/Bioinfo_326/lectures/lect5_6/orthologs3.gif

Средство поиска сходства - выравнивание

«Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались друг под другом.

домовойскупидом водомерка

лесовоз ---лесо---воз ледоход лед---оход---

Схожие 3D структуры

Вставка в «синей» последовательности

Как выровнять две последовательности?

Цель - максимальное количество совпадений

• Просто написать их друг под другом

• Двигать друг относительно друга

• Вставлять пробелы

лесовоз ---лесо---воз ледоход лед---оход---

Гэп – пропуск в

последовательности

Типы выравнивания

Локальное – поиск фрагментов наиболее похожих друг на друга

домовой домовой домовойскупидом водомерка водомерка

Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару

лесовоз ---лесо---воз ледоход лед---оход---?

Критерии качества выравнивания

Количество идентичных (похожих) аминокислот/нуклеотидов – Для белков – более 25% id при длине > 100 aa– Для ДНК – более 70% id при длине > 100 nt

Длина выравниванияВероятность наблюдать такое сходство

случайным образом– Зависит от базы данных

Score – общая мера сходства:– Зависит от программы

BLAST – Basic Local Alignment and Search Tool

Локальное выравниваниеГлавная задача – поиск похожих

последовательностей в базах данных (=> главное достоинство – скорость)

Очень неточно восстанавливает сходствоОсновная программа поиска по БДДля специализированных БД часто

предлагается на сайте БДДля поиска среди известных

последовательностей есть специальные сервера

Выбор параметров

• Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций)

• Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Какие параметры менять? Фильтрация

• Low-complexity region – другой aa-состав

Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации

Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную

ДНК – геном-специфичные повторы!

Параметры выравнивания Матрица:BLOSUM для локального выравнивания обычно

лучше, чем PAM– Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80

вместо BLOSUM45 – более короткие выравнивания)– РАМ – чем ниже, тем строже

Штрафы за делеции:– Чем больше штраф за внесение, тем короче выравнивания– Меняете матрицу – надо менять и штраф– Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за

внесение делеции– Штраф за удлинение ~10 раз ниже, чем за внесение

Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение

Близкие гомологи – штрафы ближе друг к другу

Параметры output-формата

• Количество хитов

• Выбор базы данных (организм)

• Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные)

• Entrez query – ключевые слова (например, “protease AND human”)

Что такое множественное выравнивание?

Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом:

Гомологичные остатки один под другим Остатки в одинаковом пространственном

положении один под другим Остатки, имеющие одинаковую

функциональную нагрузку, один под другим Одинаковые или похожие остатки один под

другим

Какое выравнивание интереснее?

Какие бывают выравнивания?

локальные глобальныелокальныеглобальные

множественныепарные

Выравнивания

Зачем нужно множественное выравнивание?

Перенос аннотацииПредсказание функции каждого остатка

(например, выявление остатков, составляющих активный центр фермента)

Моделирование 3D – структурыРеконструкция эволюционной истории

последовательности (филогения)Выявление паттерна функциональных

семейств и сигналов в ДНКПостроение доменных профайловАккуратный дизайн праймеров для PCR

анализа

Как выбрать последовательности для множественного выравнивания?

Выравнивайте белки, а не ДНК, если есть выбор

Последовательностей лучше много, но не слишком (~ 10-15)

В выборке лучше избегать: слишком похожих последовательностей

(>90% id) слишком разных последовательностей

(<30% id c большинством) неполных последовательностей

(фрагментов) тандемных повторов

Изучая новую последовательность

Выборка на основе BLASTПодробно охарактеризованные

последовательности - аннотацияСовсем неохарактеризованные

(hypothetical proteins) – достаточный уровень разнообразия

Выравнивание по всей длине e-value – 10 -40 – 10 -6

Избегать partial sequences

Современные методы построения множественного выравнивания

(MSA, multiple sequence alignment):

Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html)

Muscle – быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html)

T-COFFEE – заметно точнее, но существенно медленнее(http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)

http://www.ebi.ac.uk/Tools/clustalw/index.html

http://www.ebi.ac.uk/Tools/clustalw/index.html

http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py

http://www.ebi.ac.uk/Tools/muscle/index.html

http://www.ebi.ac.uk/Tools/muscle/index.html

http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi

TCoffee

Построение множественных выравниваний

Оценка достоверности существующего выравнивания

Использование 3-D структуры при построении выравнивания

Сравнение и комбинирование выравниваний

JalView – редактирование выравниваний

Другие программы для редактирования выравниваний (stand-alone):GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSEСписок - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl

Как “читать” множественное выравнивание?

Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями

ДНК – консервативные “островки”Качество – score, локально важно“consensus” – строка с символами “*”, “:”,

“.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

Если консервативны только отдельные столбцы

W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой

G,P - фланкируют бета-стренды и альфа-спирали

С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между

H,S – каталитические центры протеазK, R, D, E – заряженные аминокислоты,

участвуют в связывании лигандовL – редко консервативны. Формируют leucine

zipper – белок-белковые взаимодействия

Что такое филогенетическое дерево?

• Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий.

• Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств

Зачем нужны филогенетические деревья?

Биологические задачи:

сравнение 3-х и более объектов (кто на кого более похож .... )

реконструкция эволюции (кто от кого, как и когда произошел…)

Основные терминыУзел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию.Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа.Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический общий предок.Клада (clade) - группа двух или более таксонов или последователь-ностей ДНК, которая включает как своего общего предка, так и всех его потомков.

Рутинная процедура, или как строят деревья?

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы:

Визуализация и редактура дерева

(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей

(((C,D),E)),(A,B)); только топология

Скобочная формула (Newick format)

ABC

D

E

5.2 7.5

6.3

6.1

7.7

8.0

3.2

5.5

Как выбирать последовательности для дерева?

Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (< 50 последовательностей)

Избегайте:– фрагментов;– ксенологов;– рекомбинантных последовательностей;– многодоменных белков и повторов

Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

Самое главное – хорошее выравнивание!

Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию

Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.

Основные алгоритмы построения филогенетических деревьев

Методы, основанные на оценке расстояний (матричные методы):Вычисляются эволюционные расстояния между всеми листьями(OTUs) и строится дерево, в которомрасстояния между вершинаминаилучшим образом соответствуютматрице попарных расстояний.• UPGMA • Neighbor-joining• Минимальная эволюция• Квартеты («топологический»)• ...

Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости),

maximal parsimony, MP Выбирается дерево с минимальным количеством

мутаций, необходимых для объяснения данных

Как понимать расстояние между объектами?

• Как время, в течение которого они эволюционировали• Как число «эволюционных событий» (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно)

Но время непосредственно измерить невозможно

Метод ближайших соседей (Neighbor-joining, NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено.

Могут появиться ветви с длиной <0

Филограмма:Длина ребер пропорциональна эволюционному расстоянию между узлами.

Кладограмма: представлена только топология, длина ребер игнорируется.

Arabidopsis

Caenorhabditis

Drosophila

Anopheles

Tenebrio

Trout

Mus0.1 substitutions per site

Arabidopsis

Caenorhabditis

Drosophila

Anopheles

Tenebrio

Trout

Mus

Как можно нарисовать построенное дерево?

Достоверность топологии. Bootstraps

• Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний - случайный набор столбцов из исходного (выборка с возвращением!)• Построим N деревьев:на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…

Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?

MEGA: филогенетический анализ последовательностей

http://www.megasoftware.net/

Использование биоинформатики в практической...

Documents

Transcript of Использование биоинформатики в практической...