Распознавание регуляторных сигналов
description
Transcript of Распознавание регуляторных сигналов
Распознавание Распознавание регуляторных сигналоврегуляторных сигналов
Распознавание Распознавание регуляторных сигналоврегуляторных сигналов
Д. А. Равчеев, М. С. ГельфандВ. Ю. Макеев (некоторые слайды)
Факультет биоинженерии и биоинформатики МГУ
2-й курс (набор 2007 года)
Осенний семестр 2008
Транскрипция и трансляция в прокариотах
ЭукариотыПрокариоты
1. Сопряжение транскрипции и трансляции
2. Котранскрипция нескольких генов (опероны)
1.Транскрипция
2. Процессинг пре-мРНК
3. Экспорт мРНК
4.Трансляция
(синтез пре-мРНК)
– кэпирование
– сплайсингсплайсинг
– полиаденилирование
Сплайсинг ( эукариоты )
Сборка сплайсосомы
Разрез на 5’ конце интрона, образование «аркана»
Разрез на 3’ конце интрона, соединение экзонов
Транскрипция в прокариотах :Инициация транскрипции
Направление транскрипции
Старт транскрипции
Промотор
Транскрипция в прокариотах :Регуляция транскрипции
РепрессияАктивация
Структура ДНК-связывающего домена
CI, фаг
Структура ДНК-связывающего домена
Cro, фаг
Белок-ДНКовые взаимодействия
CI Cro
Регуляция транскрипции у эукариот
Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях
Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований
Регуляция транскрипции у эукариот
Регуляторные модули ( В. Ю. Макеев )
Консенсус
Pattern (“образец” - консенсус с вырoжденными позициями)
Матрица частот, nucleotide frequency matrix
Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile
Логические правила
РНКовые сигналы – вторичная структура
Представление сигналов
Консенсус
CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC
ACGAAAACGTTTTCGT
Сайты связывания PurR E. coli
cvpApurMpurTpurLpurEpurCpurBpurHpurA1
purA2
guaBpurR1
purR2
consensus
Образец
cvpApurMpurTpurLpurEpurCpurBpurHpurA1
purA2
guaBpurR1
purR2
consensus
pattern
CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC
ACGAAAACGTTTTCGT
amGAAAaCGkTTwCwT
Сайты связывания PurR E. coli
Матрица частотСайты связывания PurR E. coli
a m G A A A a C G k T T w C w Tb
A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11
Информационное содержание :
I = j b f (b, j) [log f (b, j) / p (b)]
f (b, j) – частота нуклеотида b в позиции j
p (b) – частота нуклеотида в геноме
где
Диаграмма Лого ( Logo )
Сайты связывания PurR E. coli
I = j b f (b, j) [log f (b, j) / p (b)]
Позиционная весовая матрица(профиль )
a m G A A A a C G k T T w C w T j
A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11
A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2
C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4
G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2
T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9
W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2
C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4
G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2
T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9
Позиционная весовая матрица(профиль )
Термодинамическая мотивировка : свободная энергия
Предположение :независимость соседних позиций
Сравнение частотной и весовой матриц
... A ... A ... A ...... G ... G ... G ...... G ... G ... C ...... G ... C ... T ...
A 1 1 1C 0 1 1G 3 2 1T 0 0 1
Частоты
A 0,34 0,15 0,00C -0,76 0,15 0,00G 1,18 0,66 0,00T -0,76 -0,95 0,00
Веса
Начало:
Исправление ошибок
Проверка литературных данных
Удаление дубликатов
Составление выборки
GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи)
предсказанные сайты
Первоначальное выравнивание по биологическим признакам
Выделение сигнала в скользящем окне
Перевыраванивание
и т.д. пока не сойдётся
Перевыравнивание
промоторы : старт транскрипции
участки связывания рибосом : стартовый кодон
сайты сплайсинга : экзон-интронные границы
Начала генов Bacillus subtilis
Позиционное информационное содержание до и после перевыравнивания
после
до
ОптимизацияExpectation - Maximization
Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль)
Матрица частот
A 0,8 -0,3 -0,3 -0,3C -0,3 0,8 -0,3 -0,3G -0,3 -0,3 0,8 -0,3T -0,3 -0,3 -0,3 0,8
Матрица (профиль) весов
k-мер : ACGT
A 1 0 0 0C 0 1 0 0G 0 0 1 0T 0 0 0 1
ОптимизацияExpectation - Maximization
Для каждого профиля :
Повторять пока не сойдётся
найти наилучшего представителя в каждой последовательности
обновить профиль
http://meme.sdsc.edu/meme/meme.html
ОптимизацияExpectation - Maximization
Недостатки метода :
Алгоритм сходится, но не может покинуть область локального максимума
Поэтому если начальное приближение было плохим, он сойдётся к ерунде
Решение: стохастическая оптимизация
Имитация теплового отжига
Цель : максимизировать информационное содержание I
или любой другой функционал, измеряющий однородность множества сайтов
I = j b f (b, j) [log f (b, j) / p (b)]
Имитация теплового отжигаАлгоритм
A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A
B – сигнал, отличающийся от А выбором сайта в одной последовательности
I (B) – информационное содержание B
если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью
P = exp [ (I(B) – I(A)) / T ]
Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1).
Gibbs sampler
A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A
На каждом шаге в одной последовательности выбирается новый сайт с вероятностью
P ~ exp [ (I (Anew) ]
Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.
Использование свойств сигнала
ДНК-связывающие белки и их сигналы
Кооперативные однородные
Палиндромы
Кооперативные неоднородные
Кассеты
Прямые повторы
Другие
РНК-сигналы
Распознавание сайтов :весовые матрицы (профили)
W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
Позиционные веса нуклеотидов
Вес потенциального сайта (k-мера) b1…bk – сумма соответствующих позиционных весов :
S (b1…bk) = i=1…k W (bi , j)
Распознавание сайтов : весовые матрицы (профили)
GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT
A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2
C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4
G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2
T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9
carAEscherichia coli K-12
Вес данного потенциального сайта :
S = 21,2
Распределение весовсайтов связывания рибосом
сайтыне сайты
вес
Кол-во сайтов
Оценка качества алгоритмов
Чувствительность =правильно предсказанные
все правильные
Специфичность =правильно предсказанные
все предсказанные
Трудно составить тестирующую выборку:
— неизвестные сайты— активация в определенных условиях— неспецифическое связывание
Промоторы Escherichia coli K-12
Профиль предсказывает 1 сайт на 2000 нт
Чувствительность:
– 25% на всех промоторах
– 60% на конститутивных (неактивируемых) промоторах
Эукариотические промоторы
Случайные предсказания
Сайты связывания рибосом
Надежность предсказания зависит от информационного содержания
Информационное содержание
Пр
ави
льн
о п
редс
каз
анн
ые
стар
ты т
ран
сляц
ии
(в
%)
0102030405060708090100110
3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5
ПОРОГ
OV
UN
CRP (Escherichia coli)
%
OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных)
UN = 1 – чувствительность недопредсказание (% потерянных правильных)
gene complement(120178..121551) /note="b0112" /gene="aroP" CDS complement(120178..121551) /gene="aroP" /product="aromatic amino acid transport protein" protein_bind complement(121599..121617) /bound_moiety="TyrR documented site" protein_bind complement(121622..121640) /bound_moiety="TyrR documented site" protein_bind complement(121653..121664) /bound_moiety="PutA predicted site" promoter complement(121683..121711) /note="factor Sigma70; promoter aroP; documented +1 at 121671" protein_bind complement(121810..121823) /bound_moiety="OxyR predicted site" protein_bind complement(121813..121835) /bound_moiety="ArgR predicted site"
Запись GenBank для гена aroP E. coli
aroP TyrR TyrR PutA OxyR ArgR
promoter
Что же делать ?
Выход :
филогенетическое картирование (филогенетический футпринтинг) : “правильные” сайты консервативны
Консервативная область
purL
STY CAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCGG-TGATT---------TTATTTCT-- ECO CAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATGG-TGATT---------TTATTTCC-- YPK CAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGCGGCTGTTTCTGACTGAATTATTAATAA **** *** * ** * * * * ** ** ** ***** STY -----ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTTTCCCCCC-------------- ECY -----ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCC------------- YPK TAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGTTTTGCCCTGTTGTTGCGCCAAT ***************** *** ******** ******* ** ***** *** STY -----TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT ECO -----TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT YPK GAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGATTATGGAAATACTGCGT *** * ** ** **** ************ **** * ******** ******
PurR
Менее консервативная область
yjcD
STY AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG-- ECO AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA--- YPK AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACA *** * *** * *** ***** * * **** ** ************* ** * STY -CCACCC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G ECO -CCACCC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-A YPK TCTGCCCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATG * *** * *** * ** ** ****** ******** **** * *** STY -TTGTCGTAAATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATAC ECO ATTGTCGCAAACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCT YPK AGTCAGGGAGAGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGC * * * * * * ** * * * **** * * ** * * ** STY CGACGAATAATAAATTCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACT ECO TGACGAAAATTAAACTCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACT YPK TATTTTAAAATGA-CACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCT ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ * * * * * ******* * * ****** * ** *** * * ** * **
PurR
PurR
rbsD в энтеробактериях
RbsRSTY AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN GGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC ECO AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC YPE TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** STY ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG STM ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG YPE GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** *** **** * **** ** *********** ***** *** *
Сложная ситуациясайты консервативны …
GGTTGATCGATTCACC
YPK AGCCAACAAAAAATTTTTCTTGTTGGGTTGATCGATTCACCTGTCCATAGGTTATGGATCATTGTGCT PCA GCCATGAAATCAGTTTTTTTTCATAGGTTGATCGATTCACCTGTCCATGTTCATCAAAACGCTATGCT PLU TACCTAAGAAAAAAATAATGTGTTGGGTTGATCGATTCACCTTTCTATGTGTGCGAAAACATTGTGTT SMA CTCTTAAAAACCACTTTCTTCAGTGGGTTGATCGATTCACCTTTCCATTTTCCCCAGATCAGTGTGCT STY TCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTTTAAGTATGCCA ECO GTCTTAAAAAGTAAAAAAAATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGTTAAATATGCAA * * * **** ********* * *
Сайты связывания FruR перед ppsA
Сложная ситуация… но не на выравнивании
YPK TTGGGTTGATCGATTCACCTGTCCATAGGTTA--TGGATCATTGTGCTAGTCTGAAATGGCT-GAT--TTTTCAG PCA CGATATTGG--ATTTTTACCG-CGTTAAGCAA--TCATTCGCCATGA-AATCAGTTTTTTTT-CAT-AGGTTGAT PLU TGAAACCGA--GAGT---C-GATTTTCTGCAA--AGTATACCTAAGA-AAAAAATAATGTGT-TG---GGTTGAT SMA CGATTGGGAACGGTTCCCAGGCAAATCAGCCGGTTAGGACATTCTCTTAAAAACCACTTTCTTCAGTGGGTTGAT STY CTTGAAACGCAGTTTATGCCGGGAGTGATTAA--GGGAATGCCGTGCTATGCGCGGGTTTGCGCAACTACGTAAA ECO -TTATGGTTTCGTTTATACCGATGGTTTATGT--GGAAAT-TGTCGAAGAGAGCAGATTTGCGCAACGCTGGGAT * * * * YPK CGACGATAACGGTTGTCCGTACCCTACAGACTGTTCGTCACTCGTCGGCGATGT-AATAACTAATCGACGGTGTA PCA CGATTCACCTGTCCATGTTCATCAAAACGCT-ATGCTAACCTGATTGTGTTGA------------------GGCG PLU CGATTCACCTTTCTATGTGTGCGAAAACATT-GTGTTAGTCTATTTGTGACT-------------------GCTC SMA CGATTCACCTTTCCATTTTCCCCAGATCAGT-GTGCTAGTCTGATTCGGCTC--------CGTGTTAGCGGCGCC STY CAATCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTT-TAAGTAT-GCCAGG ECO CAGTCTTAAAAAGTAAAAAAATATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGT-TAAATAT-GCAAAG * YPK ATA-ACTAATCGGCG-------ATGTAATAACTAATCGACAATGTA-AAAGGATTGTT-TCGATGTCCAACAATG PCA ---ATTCTCAACCGAACTCT---TTCATACCCTAATTGT--ATGCAGAAAGGATTATTTTCGATGTCCAATAACG PLU ----TATGCAGTGCTAATTT---CCCGATTTGTACCCAA--ATGCTAAAAGGATTGTTTT-AATGCCCAATAATG SMA GTAAAGCAAGCGAATTAAATCCGTCTTTACCCTACTGAT--A-GCAATAAGGATTGTC-TCGATGTCCAACAATG STY ATA-AATACGCAACTATGTG-TTTCTTAAACTCGTTCATTTATCACAAAAGGATTGT--TCGATGTCCAACAATG ECO ATA-AATGCGCAGAAATGTG-TTTCTCAAAC-CGTTCATTTATCACAAAAGGATTGT—-TCGATGTCCAACAATG * ********* * *************
регулируется НЕ регулируется ?
Базовый геном
Метод проверки соответствия
Геномы родственных организмов
http://genome.lbl.gov/vista/rvista/submit.shtml
rVista
Матрицы TRANSFAQ (частотные)
или консенсус
rVista
all sites
aligned sites
conserved sites
CNS = conserved non-coding sequences
rVista
Conserved sites :располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н.
Aligned sites :ключевые позиции идентичны в обеих последовательностях
All sites :все сайты : conserved+aligned+все остальные предсказанные
rVista