Использование биоинформатики в практической...
description
Transcript of Использование биоинформатики в практической...
![Page 1: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/1.jpg)
Использование биоинформатики в
практической молекулярной биологии
И.И. Артамонова,
ИОГен РАН
![Page 2: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/2.jpg)
План
Гомологи и сходство последовательностей
Что можно выяснить на основании множественного выравнивания гомологов
Филогенетический анализ и восстановлении эволюции
![Page 3: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/3.jpg)
Почему нас интересует локальное сходство последовательностей?
Мы верим, что:1. функцию, структуру и многие другие
свойства белка/ДНК определяет последовательность;
2. родственные белки имеют похожие свойства
молекулы, похожие по последовательности, похожи и по свойствам
Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную
![Page 4: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/4.jpg)
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка)
Признаки гомологичности белков
• сходная 3D-структура • в той или иной степени похожая
аминокислотная последовательность• аналогичная функция • разные другие соображения…
![Page 5: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/5.jpg)
Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию
Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.
![Page 6: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/6.jpg)
Средство поиска сходства - выравнивание
«Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались друг под другом.
домовойскупидом водомерка
лесовоз ---лесо---воз ледоход лед---оход---
![Page 7: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/7.jpg)
Схожие 3D структуры
Вставка в «синей» последовательности
![Page 8: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/8.jpg)
Как выровнять две последовательности?
Цель - максимальное количество совпадений
• Просто написать их друг под другом
• Двигать друг относительно друга
• Вставлять пробелы
лесовоз ---лесо---воз ледоход лед---оход---
Гэп – пропуск в
последовательности
![Page 9: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/9.jpg)
Типы выравнивания
Локальное – поиск фрагментов наиболее похожих друг на друга
домовой домовой домовойскупидом водомерка водомерка
Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару
лесовоз ---лесо---воз ледоход лед---оход---?
![Page 10: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/10.jpg)
Критерии качества выравнивания
Количество идентичных (похожих) аминокислот/нуклеотидов – Для белков – более 25% id при длине > 100 aa– Для ДНК – более 70% id при длине > 100 nt
Длина выравниванияВероятность наблюдать такое сходство
случайным образом– Зависит от базы данных
Score – общая мера сходства:– Зависит от программы
![Page 11: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/11.jpg)
BLAST – Basic Local Alignment and Search Tool
Локальное выравниваниеГлавная задача – поиск похожих
последовательностей в базах данных (=> главное достоинство – скорость)
Очень неточно восстанавливает сходствоОсновная программа поиска по БДДля специализированных БД часто
предлагается на сайте БДДля поиска среди известных
последовательностей есть специальные сервера
![Page 12: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/12.jpg)
Выбор параметров
• Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций)
• Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу
![Page 13: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/13.jpg)
Какие параметры менять? Фильтрация
• Low-complexity region – другой aa-состав
Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации
Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную
ДНК – геном-специфичные повторы!
![Page 14: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/14.jpg)
Параметры выравнивания Матрица:BLOSUM для локального выравнивания обычно
лучше, чем PAM– Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80
вместо BLOSUM45 – более короткие выравнивания)– РАМ – чем ниже, тем строже
Штрафы за делеции:– Чем больше штраф за внесение, тем короче выравнивания– Меняете матрицу – надо менять и штраф– Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за
внесение делеции– Штраф за удлинение ~10 раз ниже, чем за внесение
Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение
Близкие гомологи – штрафы ближе друг к другу
![Page 15: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/15.jpg)
Параметры output-формата
• Количество хитов
• Выбор базы данных (организм)
• Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные)
• Entrez query – ключевые слова (например, “protease AND human”)
![Page 16: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/16.jpg)
Что такое множественное выравнивание?
Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом:
Гомологичные остатки один под другим Остатки в одинаковом пространственном
положении один под другим Остатки, имеющие одинаковую
функциональную нагрузку, один под другим Одинаковые или похожие остатки один под
другим
![Page 17: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/17.jpg)
Какое выравнивание интереснее?
![Page 18: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/18.jpg)
Какие бывают выравнивания?
локальные глобальныелокальныеглобальные
множественныепарные
Выравнивания
![Page 19: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/19.jpg)
Зачем нужно множественное выравнивание?
Перенос аннотацииПредсказание функции каждого остатка
(например, выявление остатков, составляющих активный центр фермента)
Моделирование 3D – структурыРеконструкция эволюционной истории
последовательности (филогения)Выявление паттерна функциональных
семейств и сигналов в ДНКПостроение доменных профайловАккуратный дизайн праймеров для PCR
анализа
![Page 20: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/20.jpg)
Как выбрать последовательности для множественного выравнивания?
Выравнивайте белки, а не ДНК, если есть выбор
Последовательностей лучше много, но не слишком (~ 10-15)
В выборке лучше избегать: слишком похожих последовательностей
(>90% id) слишком разных последовательностей
(<30% id c большинством) неполных последовательностей
(фрагментов) тандемных повторов
![Page 21: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/21.jpg)
Изучая новую последовательность
Выборка на основе BLASTПодробно охарактеризованные
последовательности - аннотацияСовсем неохарактеризованные
(hypothetical proteins) – достаточный уровень разнообразия
Выравнивание по всей длине e-value – 10 -40 – 10 -6
Избегать partial sequences
![Page 22: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/22.jpg)
Современные методы построения множественного выравнивания
(MSA, multiple sequence alignment):
Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html)
Muscle – быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html)
T-COFFEE – заметно точнее, но существенно медленнее(http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)
![Page 23: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/23.jpg)
TCoffee
Построение множественных выравниваний
Оценка достоверности существующего выравнивания
Использование 3-D структуры при построении выравнивания
Сравнение и комбинирование выравниваний
![Page 24: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/24.jpg)
JalView – редактирование выравниваний
Другие программы для редактирования выравниваний (stand-alone):GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSEСписок - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl
![Page 25: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/25.jpg)
Как “читать” множественное выравнивание?
Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями
ДНК – консервативные “островки”Качество – score, локально важно“consensus” – строка с символами “*”, “:”,
“.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно
![Page 26: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/26.jpg)
Если консервативны только отдельные столбцы
W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой
G,P - фланкируют бета-стренды и альфа-спирали
С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между
H,S – каталитические центры протеазK, R, D, E – заряженные аминокислоты,
участвуют в связывании лигандовL – редко консервативны. Формируют leucine
zipper – белок-белковые взаимодействия
![Page 27: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/27.jpg)
Что такое филогенетическое дерево?
• Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий.
• Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств
![Page 28: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/28.jpg)
Зачем нужны филогенетические деревья?
Биологические задачи:
сравнение 3-х и более объектов (кто на кого более похож .... )
реконструкция эволюции (кто от кого, как и когда произошел…)
![Page 29: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/29.jpg)
Основные терминыУзел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию.Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа.Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический общий предок.Клада (clade) - группа двух или более таксонов или последователь-ностей ДНК, которая включает как своего общего предка, так и всех его потомков.
![Page 30: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/30.jpg)
Рутинная процедура, или как строят деревья?
Составление выборки последовательностей
Множественное выравнивание
Построение дерева фрагмент записи в виде скобочной формулы:
Визуализация и редактура дерева
(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,
![Page 31: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/31.jpg)
(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей
(((C,D),E)),(A,B)); только топология
Скобочная формула (Newick format)
ABC
D
E
5.2 7.5
6.3
6.1
7.7
8.0
3.2
5.5
![Page 32: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/32.jpg)
Как выбирать последовательности для дерева?
Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки (< 50 последовательностей)
Избегайте:– фрагментов;– ксенологов;– рекомбинантных последовательностей;– многодоменных белков и повторов
Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)
![Page 33: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/33.jpg)
Самое главное – хорошее выравнивание!
Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию
Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.
![Page 34: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/34.jpg)
Основные алгоритмы построения филогенетических деревьев
Методы, основанные на оценке расстояний (матричные методы):Вычисляются эволюционные расстояния между всеми листьями(OTUs) и строится дерево, в которомрасстояния между вершинаминаилучшим образом соответствуютматрице попарных расстояний.• UPGMA • Neighbor-joining• Минимальная эволюция• Квартеты («топологический»)• ...
Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели
Максимальной экономии (бережливости),
maximal parsimony, MP Выбирается дерево с минимальным количеством
мутаций, необходимых для объяснения данных
![Page 35: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/35.jpg)
Как понимать расстояние между объектами?
• Как время, в течение которого они эволюционировали• Как число «эволюционных событий» (мутаций)
В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно)
Но время непосредственно измерить невозможно
![Page 36: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/36.jpg)
Метод ближайших соседей (Neighbor-joining, NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено.
Могут появиться ветви с длиной <0
![Page 37: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/37.jpg)
Филограмма:Длина ребер пропорциональна эволюционному расстоянию между узлами.
Кладограмма: представлена только топология, длина ребер игнорируется.
Arabidopsis
Caenorhabditis
Drosophila
Anopheles
Tenebrio
Trout
Mus0.1 substitutions per site
Arabidopsis
Caenorhabditis
Drosophila
Anopheles
Tenebrio
Trout
Mus
Как можно нарисовать построенное дерево?
![Page 38: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/38.jpg)
Достоверность топологии. Bootstraps
• Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний - случайный набор столбцов из исходного (выборка с возвращением!)• Построим N деревьев:на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…
Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?
![Page 39: Использование биоинформатики в практической молекулярной биологии](https://reader035.fdocument.pub/reader035/viewer/2022062305/56814732550346895db47101/html5/thumbnails/39.jpg)
MEGA: филогенетический анализ последовательностей
http://www.megasoftware.net/