2 встреча — Биоинформатика (А. Фединцев)

Post on 16-Jun-2015

372 views 0 download

description

2 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику ВКонтакте: http://vk.com/scsc2 Видео: https://www.youtube.com/watch?v=b3TZEeeIQ1c

Transcript of 2 встреча — Биоинформатика (А. Фединцев)

Что такое биоинформатика?

- математические методы компьютерного анализа в сравнительной геномике

(геномная биоинформатика).- разработка алгоритмов и программ для предсказания пространственной структуры

белков (структурная биоинформатика).- исследование стратегий, соответствующих

вычислительных методологий, а также общее управление информационной

сложности биологических систем.

ДНК

Синтез белка

Краткая история секвенирования генома

2000-е: расшифровывается всё большее число геномов млекопитающих.

Секвенирование генома: иллюстрацияМного копий генома

Секвенирование генома: иллюстрацияМного копий генома

Чтение ридов

Секвенирование генома: иллюстрацияМного копий генома

Риды

Чтение ридов

Секвенирование генома: иллюстрацияМного копий генома

Риды

Чтение ридов

Сборка фрагментов

Секвенирование генома: иллюстрацияМного копий генома

Риды

Собранный геном

…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…

Чтение ридов

Сборка фрагментов

Секвенирование сложнее задачи о газете

• В каждом геноме есть много повторяющихся подстрок (50% человеческого генома — повторения).

• Пример: GCTT встречается четыре раза в строке

AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG

• Аналогия: треугольный пазлсодержит множествоповторяющихся фигур.Это сильно затрудняет егорешение (даже с 16 кусочками).

ДНК-чипы: реализация 1. Синтезировать все k-меры в каждой из

4k ячеек матрицы. 2. Покрыть матрицу многими копиями

флуоресцентно помеченного фрагмента неизвестной ДНК.

3. ДНК гибридизирует с k-мером,если они дополняют друг друга.

4. Использовать спектроскоп, чтобыопределить, какие ячейкиизлучают свет — дополненияк этим ячейкам выявят k-мерынеизвестного фрагмента ДНК.Это и есть искомые риды!

ДНК-чипы: иллюстрация

ДНК-чипы: примерПрочитанные риды:

AAA AGA CAA CGA GAA GGA TAA TGA

AAC AGC CAC CGC GAC GGC TAC TGC

AAG AGG CAG CGG GAG GGG TAG TGG

AAT AGT CAT CGT GAT GGT TAT TGT

ACA ATA CCA CTA GCA GTA TCA TTA

ACC ATC CCC CTC GCC GTC TCC TTC

ACG ATG CCG CTG GCG GTG TCG TTG

ACT ATT CCT CTT GCT GTT TCT TTT

Гамильтонов цикл в графе HВ графе H есть гамильтонов цикл:

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Гамильтонов цикл в графе HВ графе H есть гамильтонов цикл:• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGATGGCGTGCAATG

Геном:

AT

G

G

CG

T

G

C

A

Второй подход: граф EСформируем иной граф E следующим образом:Вершины = все префиксы и суффиксы всех k-меров.Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Второй подход: граф EСформируем иной граф E следующим образом:

Вершины = все префиксы и суффиксы всех k-меров.Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGGGGC

GCG

CGT

GTG

TGC GCA

CAAAAT

Вопрос Де Брюйна1946: голландский математик Николаас де Брюйн задаётся вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц?

Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110).

Николаас де Брюйн

Вопрос Де БрюйнаДе Брюйн ввёл специальный граф B(n, k):Вершины = все nk – 1 возможных (k – 1)-меров надn-буквенным алфавитом.Ребро идет из v в w,если есть k-мер, чейпрефикс = v, асуффикс = w.

Справа приведен B(2, 4)Подразумеваетсяалфавит {0, 1}

Вопрос Де БрюйнаПри любых n и k, B(n, k) является сблансированным и связным, а значит, эйлеровым.Почему? Потому чтовходящая и исходящаястепень каждой вершиныравняется n — размеруалфавита.Красные числапоказывают порядокрёбер в эйлеровом цикле.