Konservierte und Konsensus RNA Strukturen · Konservierte und Konsensus RNA Strukturen Caroline...
Transcript of Konservierte und Konsensus RNA Strukturen · Konservierte und Konsensus RNA Strukturen Caroline...
Konservierte und Konsensus RNA
Strukturen
Caroline Thurner
Institut fur Theoretische Chemie und Molekulare Strukturbiologie
Universitat Wien
Wien, 2004
Uberblick
• Sekundarstrukturen von RNA
• Vorhersage von Sekundarstrukturen
• Anwendung auf Genome der Virenfamilie Flaviviridae
• Pseudoknoten
• Erweiterung des Algorithmus um Pseudoknoten vorherzusagen
• Anwendung auf RNA Beispiele die Pseudoknoten enthalten
RNA Sekundarstrukturen
GCGGGAAUAGCUCAGUUGGUAGAGCACGACCUUGCCAAGGUCGGGGUCGCGAGUUCGAGUCUCGUUUCCCGCUCCA
G C G G A U UUA GCUC
AGDD G
GGA
GAGC G
C C A G ACU G
AA
YAUCUGGAG
GUCCU
GU
GTPCG
AUC C
ACAGAAUUCGC
ACCA
primarystructure
secondary structure
tertiary structure
Sekundarstrukturen formen sich vor Tertiarstrukturen.
Eine Sekundarstruktur ist eine Liste von Basenpaaren, die folgende Bedin-
gungen erfullen:
• Eine Base darf hochstens an einem Basenpaar teilnehmen.
• Basenpaare durfen sich nicht uberkreuzen, das heißt, keine zwei Paare (i.j) und (k.l)
durfen folgendermaßen angeordnet sein: i < k < j < l (keine Pseudoknoten)
Darstellung von Sekundarstrukturen
GCGGAUUU
AGCUC
AGUUG
G G AG A G C
GC
CA
GAC
UG
A AGA
UCUGG A G
GUC
CU
GU
G UUC
GAUCC
AC
AGA
AUUCGC
AC
CA
..............................................................................
( ( ( ( ( ( ( ( . ( ( ( ( . . . . . . . . ) ) ) ) . ( ( ( ( ( . . . . . . . ) ) ) ) ) . . . . . . ( ( ( ( . . . . . . . ) ) ) ) ) ) ) ) ) ) ) ) . . . .
0 10 20 30 40 50 60 70
G C G G A U U U A G C U C A G U U G G G A G A G C G C C A G A C U G A A G A U C U G G A G G U C C U G U G U U C G A U C C A C A G A A U U C G C A C C A
G C G G A U U U A G C U C A G U U G G G A G A G C G C C A G A C U G A A G A U C U G G A G G U C C U G U G U U C G A U C C A C A G A A U U C G C A C C A
AC
CA
CG
CU
UA
AG
AC
AC
CU
AG
CU
UG
UG
UC
CU
GG
AG
GU
CU
AG
AA
GU
CA
GA
CC
GC
GA
GA
GG
GU
UG
AC
UC
GA
UU
UA
GG
CG
GC
GG
AU
UU
AG
CU
CA
GU
UG
GG
AG
AG
CG
CC
AG
AC
UG
AA
GA
UC
UG
GA
GG
UC
CU
GU
GU
UC
GA
UC
CA
CA
GA
AU
UC
GC
AC
CA
(((((((..((((........)))).(((((.......)))))......((((.......))))))))))))....
Der Effekt von Mutationen
GCGGGAAU
AGCUC
AGUUGG U A
G A G CA
CGA
CC
UU
GC C
AAGGUCGGGGU
CG C G A G
U U CGA
GUCUCGU
UUCCCGC
UC
CA
original Struktur
GCGGGUAUA
GCUCAGU
UGG U A
G A G CA C G
A C CUU G CC A A
G GU
C G G G GU CG C G A G
U U CGA
GUCUCGU
UUCCCGCUCC
A
Einzelmutation- grosser Effekt in Struktur
GUGGUAAU
AGCUC
AGUUGG U A
G A G CA
CGA
UC
UU
GC C
AAGGUCGGGGU
CG C C A G
U U CGA
GUCUGGU
UUACCGC
UC
CA
Einige kompensatorische Mutationen
- gleiche Struktur
Was sagt uns das uber konservierte Strukturen?
• 10% Zufallsmutationen in der Sequenz fuhren mit großer Sicherheit zu
verschiedenen Strukturen.
• Gemeinsame Sekundarstrukturen in einer Gruppe von Sequenzen mit
weniger als 95 % durchschnittlicher paarweiser Identitat sind sehr wahr-
scheinlich das Ergebnis einer stabilisierten Selektion.
• Wenn Selektion Strukturelemente aufrechterhalt, dann mussen diese
eine Funktion haben.
Suche nach konservierten Sekundarstrukturen
• Multiples Sequenzalignment (ClustalW)
• Ermittlung von Basenpaar-Wahrscheinlichkeits Matrix
• Verknupfung von Strukturvorhersage und Sequenzalignment zur Erstel-
lung einer Liste moglicher Kandidaten konservierter Strukturen
• Kompensatorische und inkonsistente Mutationen geben Auskunft, ob ei-
ne Struktur angenommen oder verworfen wird.
Free Software, C source code and fold servers available at
http://www.tbi.univie.ac.at/~ivo/RNA/
Thermodynamisches Falten: RNAfold
Vorhersage der Basenpaar Wahrscheinlichkeits Matrix basierend
auf McCaskills Algorithmus zur Bestimmung von Zustandsfunktionen
AGCAUGA
CCACGC
CAC
C GCUC
GG U G
UGAGC
CAG
UCGUGA
UUGUGCU Thermodynamisches Gleichgewicht:
alternative niedrige Energiezustande
sind besetzt
Verbindung von Strukturvorhersage und Sequenz Alignment
SEQ1 GCCAGCAUGA-CCACGCCAACCGCUCGGUGUGAGCCCCAGUCGUGAUUGUGCU-- SEQ2 ---AGUACGACCCACGCCA-CCGAUCGUUGUGGUCC-AAGUUGUGCUUCUGCUAA
SEQ1
G C C A G C A U G A C C A C G C C A A C C G C U C G G U G U G A G C C C C A G U C G U G A U U G U G C U
G C C A G C A U G A C C A C G C C A A C C G C U C G G U G U G A G C C C C A G U C G U G A U U G U G C U
GC
CA
GC
AU
GA
CC
AC
GC
CA
AC
CG
CU
CG
GU
GU
GA
GC
CC
CA
GU
CG
UG
AU
UG
UG
CU
GC
CA
GC
AU
GA
CC
AC
GC
CA
AC
CG
CU
CG
GU
GU
GA
GC
CC
CA
GU
CG
UG
AU
UG
UG
CU
SEQ2
A G U A C G A C C C A C G C C A C C G A U C G U U G U G G U C C A A G U U G U G C U U C U G C U A A
A G U A C G A C C C A C G C C A C C G A U C G U U G U G G U C C A A G U U G U G C U U C U G C U A A
AG
UA
CG
AC
CC
AC
GC
CA
CC
GA
UC
GU
UG
UG
GU
CC
AA
GU
UG
UG
CU
UC
UG
CU
AA
AG
UA
CG
AC
CC
AC
GC
CA
CC
GA
UC
GU
UG
UG
GU
CC
AA
GU
UG
UG
CU
UC
UG
CU
AA
SEQ1 GCCAGCAUGACCACGCCAACCGCUCGGUGUGAGCCCCAGUCGUGAUUGUGCU
SEQ2 AGUACGACCCACGCCACCGAUCGUUGUGGUCCAAGUUGUGCUUCUGCUAA
. . . ( ( ( ( ( ( ( . . . . . . ( ( ( . . . . . . . . . . . ) ) ) . . . . . . . ) ) ) ) ) ) ) . . . . . . . .
. . . ( ( ( ( ( ( ( . . . . . . ( ( ( . . . . . . . . . . . ) ) ) . . . . . . . ) ) ) ) ) ) ) . . . . . . . .
..
..
..
..
))
))
))
).
..
..
..
))
).
..
..
..
..
..
((
(.
..
..
.(
((
((
((
..
.
..
.(
((
((
((
..
..
..
((
(.
..
..
..
..
..
))
).
..
..
..
))
))
))
).
..
..
..
.
6, 44: CG7, 43: AU8, 42: UG9, 41: GC
10, 40: AU
3, 40: UG4, 39: AU5, 38: CG6, 37: GU7, 36: AU
Alignment
McCaskills Algorithmus
Dot Plots
ClustalW
kombinierte Paartafel
6, 45: CG, UG7, 44: AU, AU8, 43: CG, UG9, 42: GC, GU
10, 41: AU, AU
Alidot
UG
UG
GU
CG
AU
AU 0.99
0.01
0.45
0.00
0.77
0.34
* inkonsistenten Mutationen* mittlerer Wahrscheinlichkeit
Credibility Ranking
* kompensatorischen Mutationen
reiht Basenpaare nach:
ermittelt Sekund
ä
rstruktur
. . .. . .. . .. . .
. . .
. . .. . .. . .
.
..
.. .. ..
... . .
. . .. . .
. . .
. . ... .. ... . .. . ..
.
....
...
. .
.... .
....
.
..
.. . .
......
.. . . ..
...
......
.
. . ... .. ... . ... .. ..
Dot Plots
Multiples Sequenzalignment
RNA Sequenzen kombinierte Paartafel
und PaarwahrscheinlichkeitenSequenz
konservierte Substrukturen
ClustalW
McCaskills Algorithmus
Familie Flaviviridae
Genus Species homol. Transl.
Hepatitis G Virus 89.8 IRESHepatitis C Virus 87.1 IRESPestivirus 74.9 IRESFlavivirus Dengue Virus 85.4 CAP
Jap. Enceph. Virus 95.6 CAPYellow Fever Virus 91.7 CAPTick-borne Enceph. Virus 69.8 CAP
Flavivirus: Genomorganisation
NS5NS3E1 NS1 NS2A NS2BC
AP
SID NS4A NS4BprM
NS5NS3NS1 NS2A NS2BEprM
CA
PS
ID
NS4BNS4A
NS5NS3NS2BNS2AE
CA
PS
ID
prM NS4BNS4ANS1
NS5NS3E1 NS1prM
CA
PS
ID
NS2A NS2B NS4A NS4B
JAPANESE ENCEPHALITIS VIRUS
YELLOW FEVER VIRUS
TICK−BORNE ENCEPHALITIS VIRUS
DENGUE VIRUS
Genomkarte von Flaviviren mit konservierten Strukturelementen
Konservierte Strukturen im Genus Flavivirus
5’ 3’
DV1
DV2
DV6
CS
P2
P1DV7
AUG.
genomeVirus-
5’ 3’
YF1
YF2
YF3
CS
P2
P1
YF27
YF28
.AUG
Virus-genome
Dengue Virus Yellow Fever Virus
5’ 3’
JE1
JE2 CS
P2
P1
P1’
JE7
JE8.
AUG
Virus-genome
5’ 3’
TB1TB2 P2
CS"A"
P1’
TB18
TB19
TB20
TB21
.AUG
Virus-genome
Japanese Encephalitis Virus Tick-borne Encep. Virus
Hepatitis G Virus, Hepatitis C Virus und Pestivirus
NS2E2E1 NS5BNS5ANS4BNS4ANS3p7CORE
NS5B
CO
RE E1 E2 NS5ANS4BNS2 NS4ANS3
C
Np
ro NS3E1E0 E2 NS5BNS5ANS4BNS4ANS2p7
HEPATITIS C VIRUS
HEPATITIS G VIRUS
PESTIVIRUS: non−cytopathic
GUA
UA
CGA
GG
-UU
AGCUC
A--U U C
UCGUAUACA
UGAUU
GG
ACAA
AU
CAAAAU
UCCAA
UU U G G U U
UAGGGC
A-- - - - CCCCUCC
AG
CG
ACGGCCG
AA
CUG-GGC
UAG
CC A U
G C C C AUAG
UAGG A C U A GC
A-AACG G A G G G A
CU
AG
CCG U
AG
UG
G
CGA
GCUCCC
U
GGGUGGUCUA
A
GU
CC
UG
AG U
ACAGGACA GU
CGUC
AGUAGUUCGA
CGUG
AGC
A G AAGC
CCACC
UCGAGAUG
CUACG
UGG
ACGA G
GGC A
UGC
CC
AAGACACACCUU AA C C C U A G C G G
G GGUCGCUAGGGUG
AAA U C A - -
C A CAA
CG---UGAU
GG
GA
GUA
CGA
C C U GAUA
GGGU
G C U GCA
GAGGCC
CA
CU
AUUAG
GC
UA
GU A U A A
AA
AU C U C U G C U G U A C A
UG
GC
ACAUGGAGU
UG
AA
UC
AUUUUGAACUUUU
AU
ACAA
UAC
G
U A
UA
GC
AU
AU
--
AU
UA
GU
IIIa
IIIb
IIIc
IIId
IIIe
IIIf
Ia
Ib
II
III3
III2
III1
II1 II2<- start codon
5’ 3’
IRES
P1(I)
P2(II)P3(III)
(IIIa)
(IIIc)
(IIIb)(IIIb)(IIIb)
Pseudoknoten in tmRNA von E. coli
AG
GC U
C
G
UCG
AUU
U
AGC
AG
C
GCAG
UC
UC
AG
C G
UGCAA
GUU
GAU
CUG
G U
GC
UG
GCGC
CG
AU
CU
A G
A
A
U
G
U
A
A
G250
270
280
290pk4
CGGGG
UCCACC
A
CAG
GUC
C
C G
A
G
CC
G
CG A
CΨm5U
360
tmRNA (Escherichia coli)
G
C
340
UGGGC
UCG
AAU
UUA
CA
G
U G
330
AUUC
UGGAU
U AGC
10
20
UGC
GA
G
AUG
AA
CGC
C G
UGUGG
ACC
A
AU
G
AG
AA
GC
CG
A
GU
U
GC C
G
GUAC
U
GG
U
CCAUG
GA
GAGC
GCUCG
C AA
AA
G
C
G A
GG
G
UC G
G
GG
C
U
C A
U
C
CG
U
G
G G
U
G
GA
A G
A
AU
C C U
U CC U A
AA
U U C A A AA
U
200210
220230
240
UAGAG
CUC
UA C
CGGA
CU
CGGGG
CCU
A
C
AA
AA
A
A
U C G C A A A C G A C G A A A A C U A C
U
A
G
30
40
50
60
70
80
90 100
U
UU A A U
AA
C
120
GA
GCG
A
CUC
CU
GA
U
140
A
CU
CA
AG 150
CG
160
170
180
A
A
C
C
C
A
A
A
C
U
190
300
310
320
350
pk1
pk2
130
A
12
1
2a
2c
2b
2d
3
4
5a
5b
6a
6b
6c
7
8a8b9
10a
10b
10c
11a
11b
pk3
A N D E N Y A L A A
110
5'
3'
Ψ
Zwieb, C. et al., NAR (1999)27(10):2063
pk1 pk4pk2 pk3
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
1 2
3 5 6 8 10
12114 7 9abcd
ababa bb acab
Was sind Pseudoknoten?
C
G
G
C
C
U
G
C G
G
G
A
AG
G
C
G
C
C
AC
A
C
A
A
CL1
S1
S2
L2
L3
G5’
3’...........................
+...........................
...........................
aliknot
[[[.......]]]..........
....(((((......)))))...
...........{{........}}
[[[.(((((.]]]..)))))...
UG
UG
GU
CG
AU
AU 0.99
0.01
0.45
0.00
0.77
0.34
Sequenz und Paar−
wahrscheinlichkeit
ermittelt
Sekundär−
struktur
Strukturen
ermittelt einige
Schichten mit
* inkonsistenten Mutationen
* mittlerer Wahrscheinlichkeit
Credibility Ranking
* kompensatorischen Mutationen
reiht Basenpaare nach
kombinierte Paartafel
konservierte Substrukturen
Zwei Wege:
1. Zuerst ursprungliche Se-
kundarstruktur in erste Zeile
schreiben, dann andere Paare
nach ihrem Ranking in hohere
Zeilen fullen (LD).
2. Zuerst alle moglichen Stacks
finden und bewerten, dann
ganze Stacks in Zeilen fullen,
wobei die erste Schicht wie-
der die wahrscheinlichste Se-
kundarstruktur enthalt (SD).
Ergebnisse von aliknot
LD............................................................................................................................................................................................................................................................................................................................................................................
SD............................................................................................................................................................................................................................................................................................................................................................................
tmRNA verglichen zu tmRNA aus E. coli
N korrekte korrekte falsch positive korrekteBasenpaare Stems Helices Pseudoknoten
SRP RNA 7 90.1% 6/6 0 1/1RNase P RNA 8 74.2% 16/18 3 1/2tmRNA 8 78% 12/12 2 4/4
Vergleich mit anderen Algorithmen
Am Beispiel SRP RNA berechnet mit SDkorrekte korrekte falsch positive korrekte
Basenpaare Helices Helices Pseudoknotenaliknot 86 % 8/8 0 1/1hxmach 91.9% 8/8 0 1/1ilm 86% 7/8 1 0/1
Danke:
• Peter F. Stadler
• Ivo L. Hofacker
• Christina Witwer, Christoph Flamm
• und allen meinen Freunden am TBI
Acknowledgements an Andrea Tanzer
Mutationen zur Uberprufung der vorhergesagten Struktur
Virus-genomTeil II
Virus-genomTeil I
UAUGAGUGUCGUGCAGAUGCUCGUAGCACGUCC G C U U
G C G A A
HC1(I)HC2(II)
HC3(III)
HC4(IV).
IIIa
IIIb
IIIc
AUG
3’Ende 5’Ende
Pos orig m1 m2 m395 U G G98 G C C
104 C G G107 G A A110 G A A
8528 C U U8531 C U U8534 G C C8540 C G G8543 A C C
Energie 23.9 8.1 19.9 8.8
Strang Neudoerfl,
ein Tick-borne
Encephalitis Virus
M2 M3 M8M4+5 M6+7
NS3 NS5NS2A/2B NS4A/4BNS1EC
M2
NS3 NS5
M3 M8M4+5 M6+7
NS2A/2B NS4A/4BNS1E
EprM NS3 NS5
M1 M2 M3 M8M4+5 M6+7
NS2A/2B NS4A/4BC NS1
M1
prMC
Neudoerfl: U27495
dCME
NS3 NS5
M2 M3 M8M4+5 M6+7
NS2A/2B NS4A/4BNS1EC
C17
NS3 NS5
M2 M3 M8M4+5 M6+7
NS2A/2B NS4A/4BNS1EC
C15
NS3 NS5
M2 M3 M8M4+5 M6+7
NS2A/2B NS4A/4BNS1EC
C15
cDNA clone