Что можно делать с одиночной последовательностью ДНК ?

34
Что можно делать с одиночной последовательностью ДНК? Как исключить векторные фланки? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ ДНК-состава Повторы в ДНК Как искать гены? (прокариоты, эукариоты) Тривиальные случаи применения сборки фрагментов

description

Что можно делать с одиночной последовательностью ДНК ?. Как исключить векторные фланки ? Рестрикционная карта Вашей последовательности Дизайн праймеров Анализ ДНК-состава Повторы в ДНК Как искать гены ? ( прокариоты, эукариоты) Тривиальные случаи применения сборки фрагментов. - PowerPoint PPT Presentation

Transcript of Что можно делать с одиночной последовательностью ДНК ?

Page 1: Что можно делать с одиночной последовательностью ДНК ?

Что можно делать с одиночной последовательностью ДНК?

• Как исключить векторные фланки?• Рестрикционная карта Вашей

последовательности• Дизайн праймеров• Анализ ДНК-состава• Повторы в ДНК• Как искать гены? (прокариоты, эукариоты)• Тривиальные случаи применения сборки

фрагментов

Page 2: Что можно делать с одиночной последовательностью ДНК ?

Как выявить векторные сегменты в Вашей последовательности?

• Просто сравнить с исходным вектором?VecScreen:http

://www.ncbi.nlm.nih.gov/VecScreen/VecScreen_docs.html

“VecScreen is a system for quickly identifying segments of a nucleic acid sequence that may be of vector origin. NCBI developed VecScreen to minimize the incidence and impact of vector contamination in public sequence databases. GenBank Annotation Staff use VecScreen to verify that sequences submitted for inclusion in the database are free from contaminating vector sequence. Any sequence can be screened for vector contamination using the VecScreen Web site”

Page 3: Что можно делать с одиночной последовательностью ДНК ?

Как это выглядит?

Page 4: Что можно делать с одиночной последовательностью ДНК ?

VecScreen - output• “Non-significant similarity found” – ok!• В нашем случае:

Page 5: Что можно делать с одиночной последовательностью ДНК ?

Как интерпретировать результаты VecScreen?

• Если сегменты гомологии с векторов по краям – просто удалить их

• Если в нескольких местах по всей длине – проще всего… все это выбросить

(!) Не надо выбрасывать, если: • Вектор не ваш – он может быть просто родственным (100%

сходство!)• Ваш ген мог быть основой для вектора• Но: если Вы видите неожиданную гомологию к E.coli или

дрожжам – задумайтесь!

Page 6: Что можно делать с одиночной последовательностью ДНК ?

Почему надо бояться загрязнения ДНК чужеродными сегментами?

• Быть уверенным в том, что Вы анализируете (и не тратить время зря)

• Ошибки распространяются по базам данных с экспоненциальной скоростью: неверная информация, проблемы сборки и т.п.

• В Swiss-Prot даже были специальные записи (P39188 – P39195: Alu-derived белки)

• Будьте внимательны при работах с базами данных! (неожиданно высокая гомология к бактериям в эукариотах и т.п.)

Page 7: Что можно делать с одиночной последовательностью ДНК ?

Карта рестрикционных фрагментов

• Еще одна возможность проверить сиквенс на идентичность с тем, что Вы ожидаете (годится, также, для длинных геномных кусков вплоть до бактериальных геномов)

• Все сайты рестрикции лежат в базе данных REBASE (http://rebase.neb.com/)

• Как предсказать список рестрикционных фрагментов?

Page 8: Что можно делать с одиночной последовательностью ДНК ?

REBASE

Page 9: Что можно делать с одиночной последовательностью ДНК ?

RestrictionMapper

Page 10: Что можно делать с одиночной последовательностью ДНК ?

Output

Page 11: Что можно делать с одиночной последовательностью ДНК ?

Дизайн праймеров для PCR

http://biotools.umassmed.edu/

Page 12: Что можно делать с одиночной последовательностью ДНК ?

Primer3

Output – простой текстовый формат, предлагает четыре варианта пар праймеров, первый из которых размечен на последовательности

Page 13: Что можно делать с одиночной последовательностью ДНК ?

Что можно варьировать?• Искать только левый или правый праймер, или

пробу для гибридизации• Предлагать свой собственный левый или

правый праймер• Выбрать последовательность, которую Вы

хотите включить или наоборот исключить из амплифицированного фрагмента

• Выбрать диапазон длины фрагмента• Выбрать диапазон размера олигонуклеотидов,

GC-состав, точку плавления• …

Page 14: Что можно делать с одиночной последовательностью ДНК ?

Анализ ДНК-состава

• G+C – состав• Статистика ди- и три- нуклеотидов (не путайте статистику тринуклеотидов

и codon usage)• Частота более длинных слов

Page 15: Что можно делать с одиночной последовательностью ДНК ?

Зачем анализировать статистику ДНК?

• GC-состав: (динамика плавления)• Ди- и тринуклеотиды - уникальная геномная

подпись:– Идентификация загрязнения вектором– Свидетельство параллельного переноса– Островки патогенности– Классификация метагеномных контигов

• Выявление origin репликации• Более длинные слова – регуляторные

сигналы

Page 16: Что можно делать с одиночной последовательностью ДНК ?

Как это делать?

• Это самые элементарные программы – обычно установлены на компьютере

• EMBOSS (European Molecular Biology Open Software Suite) – бесплатный пакет (~ 100 модулей, только под Unix)

• Web:http://www.genomatix.de/cgi-bin/tools/tools.pl http://bioweb.pasteur.fr/intro-uk.html

• Осмысленно смотреть “скользящим окном”

Page 17: Что можно делать с одиночной последовательностью ДНК ?

Какие программы выбрать?

Page 18: Что можно делать с одиночной последовательностью ДНК ?

Как искать повторы в ДНК?• Внутренние повторы – сегменты,

встречающиеся чаще, чем ожидается• Могут быть несовершенными –

отличаться одной или несколькими буквами

• Что лучше – 5 точных букв, 9 из 10 или 111 из 145? Разные score. Какой выбрать порог?

• => Много программ и несопоставимые результаты. Нельзя верить отрицательным результатам

Page 19: Что можно делать с одиночной последовательностью ДНК ?

Dot-Plot approachhttp://arbl.cvmbs.colostate.edu/molkit/

Page 20: Что можно делать с одиночной последовательностью ДНК ?

Как оценить сколько одинаковых слов много, а сколько нет

• Статистическая модель – следует вероятность слова

• Самый простой расчет: CTGA - 10 раз в последовательности длины 5000. Оценим вероятность: в каждой позиции - ¼*¼*¼*¼ = 1/256. Всего должно быть – 5000*1/256 ~ 20 раз

• Если от ожидания отличается меньше, чем в 2 раза – все нормально. То есть от 10 до 40 раз - ок

Page 21: Что можно делать с одиночной последовательностью ДНК ?

Геном-специфические повторы: RepeatMasker

http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker

Page 22: Что можно делать с одиночной последовательностью ДНК ?

Поиск (белок-кодирующих) генов

• Прокариоты – просто поиск длинных открытых рамок считывания (ORF) (> 100 aa)

• ORFing – например, ORF finder на сайте NCBI

http://www.ncbi.nlm.nih.gov/gorf/gorf.html

Page 23: Что можно делать с одиночной последовательностью ДНК ?

OutputОткрытые рамки

сортированы по длине

Графическое представление – ссылка на

белковую последовательность,

соответствующую ORF

Можно сразу запустить бласт этой

последовательности по разным подмножествам

GenBank

Если надо найти CDS в эукариотической мРНК – абсолютно аналогично

Page 24: Что можно делать с одиночной последовательностью ДНК ?

Более точное предсказание –GeneMark (HMM)

http://opal.biology.gatech.edu/GeneMark/

• Использует Hidden Markov Models• Более короткие рамки• Выбор из нескольких перекрывающихся рамок• Более точное предсказание старта

Page 25: Что можно делать с одиночной последовательностью ДНК ?

Heuristic Model input window

Если Вы знаете геном, то лучше выбрать не Heuristic Model и указать организм

Page 26: Что можно делать с одиночной последовательностью ДНК ?

Output

Графический формат – посмотреть дома!

Page 27: Что можно делать с одиночной последовательностью ДНК ?

Предсказание внутренних экзонов (позвоночные)

• Принцип: – ищут те участки, которые статистически

похожи на белок-кодирующие сегменты (codon usage, статистика ДНК)

– Выбирают только те из них, которые фланкированы подходящими последовательностями (splicing sites)

• То есть (!), ищут только внутренние, белок-кодирующие экзоны

Page 28: Что можно делать с одиночной последовательностью ДНК ?

MZEF

http://rulai.cshl.edu/tools/genefinder/human.htm

Page 29: Что можно делать с одиночной последовательностью ДНК ?

MZEF - output

• Результат работы программы на сегменте генома человека ~2 Kbp, включающем 2 полных экзона и экзон на границе сегмента

• Типичный выход – ~1/2

Page 30: Что можно делать с одиночной последовательностью ДНК ?

Поиск генов: GenomeScan

• На основе HMM (учитывает статистику ДНК) и динамического программирования

• Разные объекты предсказывают разные модули

• Использует белковую гомология

http://genes.mit.edu/genomescan.html

Page 31: Что можно делать с одиночной последовательностью ДНК ?

GenomeScan - output

Page 32: Что можно делать с одиночной последовательностью ДНК ?

Сборка геномных фрагментов в контиги: EGassembler

http://egassembler.hgc.jp/

• Чистит последовательности

• Маскирует повторы• Маскирует векторные

сегменты• Маскирует сегменты

геномов органелл• Собирает контиги

Page 33: Что можно делать с одиночной последовательностью ДНК ?

EGassembler - output

Page 34: Что можно делать с одиночной последовательностью ДНК ?

Поиски регуляторных сигналов

• Пока поиск слишком несовершенен• Самые лучшие программы не доступны

on-line• Результаты программ должен

курировать специалист• Почти все подходы используют

Positional Weight Matrix (PWM)