Lyginamosios genomikos metodai ir algoritmai

43
Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-409a Email: robertas.damasevicius(at)ktu.lt

description

Lyginamosios genomikos metodai ir algoritmai. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robe rtas.damasevicius@(at)ktu.lt. Genomika. G enomi ka y r a rūšies viso genomo molekulinė analizė Genolapio sudarymas - PowerPoint PPT Presentation

Transcript of Lyginamosios genomikos metodai ir algoritmai

Page 1: Lyginamosios genomikos metodai ir algoritmai

Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt

Page 2: Lyginamosios genomikos metodai ir algoritmai

TurinysGenomikaGenų identifikavimo metodaiGENSCANZ-kreiveHao histograma

Bioinformatika (B110B001) 2

Page 3: Lyginamosios genomikos metodai ir algoritmai

Genomika yra rūšies viso genomo molekulinė analizė Genolapio sudarymas Sekvenavimas (nukleotidų sekos nustatymas)

Struktūrinė genomika prasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu

Funkcinė genomika tiria, kaip genų sąveikos skuria organizmo požymius

Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui

Genomika

Page 4: Lyginamosios genomikos metodai ir algoritmai

10-3

1995 m. mokslininkai vadovaujami C. Venterio ir H. Smitho nustatė pirmojo organizmo bakterijos Haemophilus influenza pilną DNR seką

1.83 mln. bp

~ 1,743 genų

Istoriniai duomenys

Page 5: Lyginamosios genomikos metodai ir algoritmai

1996 m. buvo pabaigtas pirmojo eukariotinio organizmo genomo tyrimas. (A. Goffeau, Belgija)Saccharomyces cerevisiae Genomą sudaro 16 linijiškų chromosomų

~ 12 milijonų bp, ~ 6,200 genų

Vėliau buvo sekvenuoti kitų organizmų genomai, įskaitant žmogų

10-4

Istoriniai duomenys

Page 6: Lyginamosios genomikos metodai ir algoritmai

Genomų dydžiai estimated chromosome

gene number number

Homo sapiens(human)

Rattus norvegicus(rat)

Mus musculus(mouse)

Drosophila melanogaster(fruit fly)

Arabidopsis thaliana(plant)

Caenorhabditis elegans

(roundworm)

Saccharomyces cerevisiae(yeast)

Escherichia coli(bacteria)

H. influenzae(bacteria)

organism estimated sizeaverage gene

density

2900 million bases ~30,0001 gene per 100,000

bases

2500 million bases ~30,0001 gene per 100,000

bases 40

46

2,750 million bases ~30,0001 gene per 100,000

bases 42

125 million bases 25,5001 gene per 4000

bases 5

180 million bases 13,6001 gene per 9,000

bases 8

12 million bases 63001 gene per 2000

bases 16

97 million bases 19,1001 gene per 5000

bases 6

1.8 million bases 17001 gene per 1000

bases 1

4.7 million bases 32001 gene per 1400

bases 1

Page 7: Lyginamosios genomikos metodai ir algoritmai

Lyginamosios genomikos metodai ir algoritmaiLyginamoji genomika yra skirtingų organizmų rūšių

genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan.

Lyginama:Genų vieta chromosomoje.Genų struktūra (įvairių genų komponentų skaičius ir

ilgis).Genų charakteristikos (kodonų naudojimas ir pan.).

 Lyginamosios genomikos uždaviniai yra:Genų suradimas (identifikavimas).Genų motyvų suradimas

Bioinformatika (B110B001) 7

Page 8: Lyginamosios genomikos metodai ir algoritmai

Genų identifikavimo metodai (1)Genų identifikavimas: bioinformatikos šaka

apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus).

Išoriniai metodai. Turint baltymo seką galima atlikti atvirkštinį

transliavimą ir nustatyti DNR sekų-kandidačių aibę. Turint sekas-kandidates atliekama paieška tiriamame

genome ir nustatomi visiški arba daliniai sutapimai. Didelis panašumas reiškia, kad genomo fragmentas

yra genas. Trūkumas: reikalauja labai daug eksperimentinių

duomenų, todėl nėra efektyvūs

Bioinformatika (B110B001) 8

Page 9: Lyginamosios genomikos metodai ir algoritmai

Genų identifikavimo metodai (2)Metodai „nuo pradžios“ (Ab initio).

Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų).

Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais.

GENSCAN, Z-kreivė

Bioinformatika (B110B001) 9

Page 10: Lyginamosios genomikos metodai ir algoritmai

GENSCAN algoritmasGenų numatymui naudoja Furjė transformaciją. N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj,

j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j.

Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.:Ua(xj) = 1, jei xj = a

Ua(xj) = 0, jei xj ≠ a Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos

funkcijos UA, UT, UG, UC. Jų pagalba seka transformuojama į 4 skirtingas dvejetaines

sekasBioinformatika (B110B001) 10

Page 11: Lyginamosios genomikos metodai ir algoritmai

DNR sekos transformavimas į dvejetaines sekas (1)

Funkcija Seka

- GGATACACTTTAGAG

UA 001010100001010

UT 000100001110000

UG 110000000000101

UC 000001010000000

Bioinformatika (B110B001) 11

Page 12: Lyginamosios genomikos metodai ir algoritmai

Purinai – A ir G – DNR sudėtyje sudaro vandenilinius ryšius su jiems komplimentariais pirimidinais – T ir C. A sudaro du vandenilinius ryšius su T (RNR - U), o G tris ryšius su C.

DNR seką galima koduoti 2 sekomis:A ir G yra purinai – koduojama (1)C ir T yra pirimidinai – koduojama (0)

Seka G G A T A T T C A C T T T A

Upurine 1 1 1 0 1 0 0 0 1 0 0 0 0 1

Upyrimidine 0 0 0 1 0 1 1 1 0 1 1 1 1 0

DNR sekos transformavimas į dvejetaines sekas (2)

Page 13: Lyginamosios genomikos metodai ir algoritmai

Sekų analizė naudojant Furjė metodus(1)

Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras.

Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma:

kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T).

Bioinformatika (B110B001) 13

a a

N

j

ifjjaa exU

NfSfS

2

1

22

1

Page 14: Lyginamosios genomikos metodai ir algoritmai

Sekų analizė naudojant Furjė metodus(2)Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio

dažnį ρα:

Galia P :

Galios reikšmė, kai dažnis f=1/3 naudojama atskirti koduojančioms sekoms (t.y.) genams, nuo nekoduojančių sekų

F=1/3 dažnio reikšmė imama todėl, kad genai yra sudaryti iš 3 simbolio ilgio žodžių kodonų, todėl koduojančios sekos spektro grafike ties 1/3 turi būti maksimumas

Bioinformatika (B110B001) 14

2

1

211

12ˆ

N

k aaNNN

kS

NS

S

SP

ˆ3

1

Page 15: Lyginamosios genomikos metodai ir algoritmai

DNR sekos spektro pavyzdys

Bioinformatika (B110B001) 15

Page 16: Lyginamosios genomikos metodai ir algoritmai

GENSCAN pavyzdyshttp://www.imtech.res.in/raghava/ftgpred

Page 17: Lyginamosios genomikos metodai ir algoritmai

Geno prognozavimo tikslumas

True positives (TP) – nukleotidai, kurie teisingai prognozuojami, kad yra gene

Actual positives (AP) – nukleotidai, kurie yra gene

Predicted positives (PP) – nukleotidai, kurie prognozuojami, kad yra gene

Sensitivity = TP / AP (jautrumas) Specificity = TP / PP

(specifiškumas)

Page 18: Lyginamosios genomikos metodai ir algoritmai

Metodų tikslumo palyginimas

GenScan Website

Page 19: Lyginamosios genomikos metodai ir algoritmai

Z-kreivės metodasZ-kreivė: trimatė kreivė, kuri unikaliai

atvaizduoja DNR seką. Turint Z-kreivę galima rekonstruoti pradinę DNR

seką. Z-kreivės metodas bioinformatikoje yra

naudojamas genomo analizei ir genų numatymui. Z-kreivės pranašumai:

galima lengvai pastebėti DNR sekos šablonus. metodas yra paprastas ir labai jautrus.

Bioinformatika (B110B001) 19

Page 20: Lyginamosios genomikos metodai ir algoritmai

Z-kreivėZ-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių

koordinatės xn, yn ir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją:

kur: An, Cn, Gn ir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio.

 Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis.

Bioinformatika (B110B001) 20

NnNNzyx

GCTAz

TGCAy

TCGAx

nnn

nnnnn

nnnnn

nnnnn

,...,0,,,,

,

,

,

Page 21: Lyginamosios genomikos metodai ir algoritmai

Z-kreivės braižymasZ-kreivė yra brėžiama trimatėje erdvėje,

kurios ašys turi tokią reikšmė:x-ašis rodo purino/pirimidino (R/Y) bazių

pasiskirstymą sekoje; y-ašis rodo amino/keto (M/K) bazių

pasiskirstymą sekoje; z-ašis rodo stiprios vandenilinės

jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje.

Bioinformatika (B110B001) 21

Page 22: Lyginamosios genomikos metodai ir algoritmai

Z-kreivė: pavyzdys (3D kreivė)

Bioinformatika (B110B001) 22

Page 23: Lyginamosios genomikos metodai ir algoritmai

Dvimatis atvaizdavimas

Bioinformatika (B110B001) 23

Page 24: Lyginamosios genomikos metodai ir algoritmai

Z-kreivė: pavyzdys (1 ašis)

Bioinformatika (B110B001) 24

Page 25: Lyginamosios genomikos metodai ir algoritmai

Genų suradimo algoritmas naudojant Z-kreivę (1)

1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3.

2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pi trimatėje erdvėje Vi, i = 1, 2, 3.

Bioinformatika (B110B001) 25

Page 26: Lyginamosios genomikos metodai ir algoritmai

Genų suradimo algoritmas naudojant Z-kreivę (1)3) Pi koordinatės yra apskaičiuojamos naudojant

DNR sekos Z-transformaciją:

4) DNR sekos fragmentas atvaizduojamas vektoriumi 9D erdvėje V, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip:

Bioinformatika (B110B001) 26

.3,2,1,1,1,,

,

,

,

izyx

gctaz

tgcay

tcgax

iii

iiiii

iiiii

iiiii

.,,

,,,

,,,

393837

262524

131211

zuyuxu

zuyuxu

zuyuxu

Page 27: Lyginamosios genomikos metodai ir algoritmai

Z-kreivė: demonstracijahttp://tubic.tju.edu.cn/zcurve/

Page 28: Lyginamosios genomikos metodai ir algoritmai

Z-kreivės metodo įvertinimasPagrindinė genų numatymo naudojant Z-kreivę idėja:

koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose.

2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą.

Pranašumai: labai paprastas ir lengvas naudoti DNR vizualizavimo

metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas;

galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives.

Bioinformatika (B110B001) 28

Page 29: Lyginamosios genomikos metodai ir algoritmai

DNA walk metodas (1)DNA Walk – vektorinis DNR sekos

atvaizdavimo metodasLeidžia vizualiai pastebėti tam tikrus

pasikartojimus DNR sekoje

Bioinformatika (B110B001) 29

Page 30: Lyginamosios genomikos metodai ir algoritmai

DNA walk metodas (2)DNA Walk grafikas brėžiamas atidedant

sekantį grafiko tašką tokia kryptimi:

Bioinformatika (B110B001) 30

                                                                                                                                                                                                                                  

                                                                                                                                                      

Figure 1Figure 1: DNA walk of the sequence: DNA walk of the sequence

  GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGGTCTGGTGTCTGGAGTTCCTGGGTCTTGAG

ACCACAGGACCCACCAGACCACAGGACCCACCAGGGACCCAGGACCCGGACCCAGGACCC

Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)

Page 31: Lyginamosios genomikos metodai ir algoritmai

DNA walk metodas (3)Papildomai galima analyzuoti TA ir GC nukleotidų

kompozicijąGC skew parodo C nukleotidų perviršį lyginant su

G.Skaičiuojama pagal formulę

(C-G)/(C+G)AT Skew parodo A nukleotidų perviršį lyginant su TSkaičiuojama pagal formulę

(A - T)/(A + T)Naudojama nustatyti geno pradžiai ir pabaigai

Bioinformatika (B110B001) 31

Page 32: Lyginamosios genomikos metodai ir algoritmai

Motyvai (1)Sekos motyvas yra nukleotidų arba amino rūgščių

sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę.

Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą.

Bioinformatika (B110B001) 32

Page 33: Lyginamosios genomikos metodai ir algoritmai

Motyvai (2) Motyvų aprašymo susitarimai:

Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę.

Simbolių eilutė aprašo atitinkamų amino rūgščių seką.

Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių.

Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą.

Bioinformatika (B110B001) 33

Page 34: Lyginamosios genomikos metodai ir algoritmai

Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu

Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijasPvz., asparaginas–X–serinas (kur X yra bet kuri

aminorūgštis) yra eukariotų baltymų glikozilinimo vietaProsite duomenų bazėje yra kaupiamos žinios apie

aminorūgščių motyvus, turinčius funkcinę reikšmę

Sekų motyvai

Page 35: Lyginamosios genomikos metodai ir algoritmai

Motyvo pavyzdysMotyvo pavyzdys (aprašo N-glikosilacijos vietą):

N{P}[ST]{P}

čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį

išskyrus X; [XY] – reiškia X arba Y.

Bioinformatika (B110B001) 35

Page 36: Lyginamosios genomikos metodai ir algoritmai

PROSITE notacijaNaudoja:

IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir

papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių.

Be to dar naudojami tokie simboliai:x – bet kokia amino rūgštis;{ } - reiškia bet kurią amino rūgštį išskyrus

apskliaustą;e(m) – reiškia e amino rūgštį pakartotą m kartų;e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur

m <= k <= n;Bioinformatika (B110B001) 36

Page 37: Lyginamosios genomikos metodai ir algoritmai

PROSITE notacija: pavyzdysPROSITE šablonas CBD_FUNGAL (prieigos kodas

PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1):

C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C

Bioinformatika (B110B001) 37

Page 38: Lyginamosios genomikos metodai ir algoritmai

Motyvo suradimo metodaiSekos profilio analizė: pirmiausiai surandamas

globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose.

Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą.

Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą.

Bioinformatika (B110B001) 38

Page 39: Lyginamosios genomikos metodai ir algoritmai

Sekų motyvai, nustatomi kompiuterinės analizės metuSekos tipas Pavyzdys

Aktyvatoriai Daugelis E.coli aktyvatorių turi TTGACA (-35 bp) ir TATAAT (-10 bp) sekas. Eukariotų aktyvatoriai gali turėti CAAT, GC, TATA motyvus

Atsako elementai Gliukortikoidų atsako elementai (AGRACA), cAMP atsako elementai (GTGACGTRA)

Starto kodonas ATG

Stop kodonai TAA, TAG, TGA

Splaisingo vieta GTRAGT------------------YNYTRAC(Y)nAG

Poliadenilinimo signalas AATAAAA

Aukšto dažnio kartotinės sekos

Santykinai trumpos sekos, pasikartojančios genome daugelį kartų

Transpozabilūs elementai

Paprastai nustatomi pagal tai, kad tiesioginės pasikartojančios sekos yra apsuptos invertuotų pasikartojančių sekų

R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas

Page 40: Lyginamosios genomikos metodai ir algoritmai

Motyvo vizualizacija: Hao histograma

40

Ilgų sekų posekių dažnumo grafinio vizualizavimo metodas

Kiekvienam matricos (2n x 2n) elementui priskiriamas genetinės abecėlės simbolis (n=1) arba iš simbolių sudaryti galimi posekiai (n>1)

Skaičiuojamas posekių sekoje dažnumas ir skirtingo dažnumo posekiai vaizduojami kita spalva (pvz., didesnis dažnumas sodresne spalva)

Page 41: Lyginamosios genomikos metodai ir algoritmai

Pavyzdys

41

Page 42: Lyginamosios genomikos metodai ir algoritmai

Hao histogramos realizacija

42

National Institute for Standard and Technology (NIST) http://math.nist.gov/~FHunt/GenPatterns/

Page 43: Lyginamosios genomikos metodai ir algoritmai

Tikimybinis metodas Remiasi pastebėjimu, kad skirtingų kodonų tikimybės

genus koduojančiose ir nekoduojančiose DNR sekose skiriasi

Tarkime turime kodonų seką

Geno tikimybė apskaičiuojama kaip

Tikimybė, kad seka nėra genas:

Geno reikšmingumas:

))(

)(log(

0 CP

CPGPS