Lyginamosios genomikos metodai ir algoritmai

Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt

TurinysGenomikaGenų identifikavimo metodaiGENSCANZ-kreiveHao histograma

Bioinformatika (B110B001) 2

Genomika yra rūšies viso genomo molekulinė analizė Genolapio sudarymas Sekvenavimas (nukleotidų sekos nustatymas)

Struktūrinė genomika prasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu

Funkcinė genomika tiria, kaip genų sąveikos skuria organizmo požymius

Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui

Genomika

10-3

1995 m. mokslininkai vadovaujami C. Venterio ir H. Smitho nustatė pirmojo organizmo bakterijos Haemophilus influenza pilną DNR seką

1.83 mln. bp

~ 1,743 genų

Istoriniai duomenys

1996 m. buvo pabaigtas pirmojo eukariotinio organizmo genomo tyrimas. (A. Goffeau, Belgija)Saccharomyces cerevisiae Genomą sudaro 16 linijiškų chromosomų

~ 12 milijonų bp, ~ 6,200 genų

Vėliau buvo sekvenuoti kitų organizmų genomai, įskaitant žmogų

10-4

Istoriniai duomenys

Genomų dydžiai estimated chromosome

gene number number

Homo sapiens(human)

Rattus norvegicus(rat)

Mus musculus(mouse)

Drosophila melanogaster(fruit fly)

Arabidopsis thaliana(plant)

Caenorhabditis elegans

(roundworm)

Saccharomyces cerevisiae(yeast)

Escherichia coli(bacteria)

H. influenzae(bacteria)

organism estimated sizeaverage gene

density

2900 million bases ~30,0001 gene per 100,000

bases

2500 million bases ~30,0001 gene per 100,000

bases 40

46

2,750 million bases ~30,0001 gene per 100,000

bases 42

125 million bases 25,5001 gene per 4000

bases 5

180 million bases 13,6001 gene per 9,000

bases 8

12 million bases 63001 gene per 2000

bases 16

97 million bases 19,1001 gene per 5000

bases 6

1.8 million bases 17001 gene per 1000

bases 1

4.7 million bases 32001 gene per 1400

bases 1

Lyginamosios genomikos metodai ir algoritmaiLyginamoji genomika yra skirtingų organizmų rūšių

genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan.

Lyginama:Genų vieta chromosomoje.Genų struktūra (įvairių genų komponentų skaičius ir

ilgis).Genų charakteristikos (kodonų naudojimas ir pan.).

Lyginamosios genomikos uždaviniai yra:Genų suradimas (identifikavimas).Genų motyvų suradimas


Genų identifikavimo metodai (1)Genų identifikavimas: bioinformatikos šaka

apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus).

Išoriniai metodai. Turint baltymo seką galima atlikti atvirkštinį

transliavimą ir nustatyti DNR sekų-kandidačių aibę. Turint sekas-kandidates atliekama paieška tiriamame

genome ir nustatomi visiški arba daliniai sutapimai. Didelis panašumas reiškia, kad genomo fragmentas

yra genas. Trūkumas: reikalauja labai daug eksperimentinių

duomenų, todėl nėra efektyvūs


Genų identifikavimo metodai (2)Metodai „nuo pradžios“ (Ab initio).

Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų).

Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais.

GENSCAN, Z-kreivė


GENSCAN algoritmasGenų numatymui naudoja Furjė transformaciją. N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj,

j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j.

Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.:Ua(xj) = 1, jei xj = a

Ua(xj) = 0, jei xj ≠ a Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos

funkcijos UA, UT, UG, UC. Jų pagalba seka transformuojama į 4 skirtingas dvejetaines

sekasBioinformatika (B110B001) 10

DNR sekos transformavimas į dvejetaines sekas (1)

Funkcija Seka

- GGATACACTTTAGAG

UA 001010100001010

UT 000100001110000

UG 110000000000101

UC 000001010000000


Purinai – A ir G – DNR sudėtyje sudaro vandenilinius ryšius su jiems komplimentariais pirimidinais – T ir C. A sudaro du vandenilinius ryšius su T (RNR - U), o G tris ryšius su C.

DNR seką galima koduoti 2 sekomis:A ir G yra purinai – koduojama (1)C ir T yra pirimidinai – koduojama (0)

Seka G G A T A T T C A C T T T A

Upurine 1 1 1 0 1 0 0 0 1 0 0 0 0 1

Upyrimidine 0 0 0 1 0 1 1 1 0 1 1 1 1 0

DNR sekos transformavimas į dvejetaines sekas (2)

Sekų analizė naudojant Furjė metodus(1)

Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras.

Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma:

kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T).


a a

N

j

ifjjaa exU

NfSfS

2

1

22

1

Sekų analizė naudojant Furjė metodus(2)Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio

dažnį ρα:

Galia P :

Galios reikšmė, kai dažnis f=1/3 naudojama atskirti koduojančioms sekoms (t.y.) genams, nuo nekoduojančių sekų

F=1/3 dažnio reikšmė imama todėl, kad genai yra sudaryti iš 3 simbolio ilgio žodžių kodonų, todėl koduojančios sekos spektro grafike ties 1/3 turi būti maksimumas


2

1

211

12ˆ

N

k aaNNN

kS

NS

S

SP

ˆ3

1

DNR sekos spektro pavyzdys


GENSCAN pavyzdyshttp://www.imtech.res.in/raghava/ftgpred

Geno prognozavimo tikslumas

True positives (TP) – nukleotidai, kurie teisingai prognozuojami, kad yra gene

Actual positives (AP) – nukleotidai, kurie yra gene

Predicted positives (PP) – nukleotidai, kurie prognozuojami, kad yra gene

Sensitivity = TP / AP (jautrumas) Specificity = TP / PP

(specifiškumas)

Metodų tikslumo palyginimas

GenScan Website

Z-kreivės metodasZ-kreivė: trimatė kreivė, kuri unikaliai

atvaizduoja DNR seką. Turint Z-kreivę galima rekonstruoti pradinę DNR

seką. Z-kreivės metodas bioinformatikoje yra

naudojamas genomo analizei ir genų numatymui. Z-kreivės pranašumai:

galima lengvai pastebėti DNR sekos šablonus. metodas yra paprastas ir labai jautrus.


Z-kreivėZ-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių

koordinatės xn, yn ir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją:

kur: An, Cn, Gn ir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio.

Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis.


NnNNzyx

GCTAz

TGCAy

TCGAx

nnn

nnnnn

nnnnn

nnnnn

,...,0,,,,

,

,

,

Z-kreivės braižymasZ-kreivė yra brėžiama trimatėje erdvėje,

kurios ašys turi tokią reikšmė:x-ašis rodo purino/pirimidino (R/Y) bazių

pasiskirstymą sekoje; y-ašis rodo amino/keto (M/K) bazių

pasiskirstymą sekoje; z-ašis rodo stiprios vandenilinės

jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje.


Z-kreivė: pavyzdys (3D kreivė)


Dvimatis atvaizdavimas


Z-kreivė: pavyzdys (1 ašis)


Genų suradimo algoritmas naudojant Z-kreivę (1)

1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3.

2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pi trimatėje erdvėje Vi, i = 1, 2, 3.


Genų suradimo algoritmas naudojant Z-kreivę (1)3) Pi koordinatės yra apskaičiuojamos naudojant

DNR sekos Z-transformaciją:

4) DNR sekos fragmentas atvaizduojamas vektoriumi 9D erdvėje V, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip:


.3,2,1,1,1,,

,

,

,

izyx

gctaz

tgcay

tcgax

iii

iiiii

iiiii

iiiii

.,,

,,,

,,,

393837

262524

131211

zuyuxu

zuyuxu

zuyuxu

Z-kreivė: demonstracijahttp://tubic.tju.edu.cn/zcurve/

Z-kreivės metodo įvertinimasPagrindinė genų numatymo naudojant Z-kreivę idėja:

koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose.

2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą.

Pranašumai: labai paprastas ir lengvas naudoti DNR vizualizavimo

metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas;

galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives.


DNA walk metodas (1)DNA Walk – vektorinis DNR sekos

atvaizdavimo metodasLeidžia vizualiai pastebėti tam tikrus

pasikartojimus DNR sekoje


DNA walk metodas (2)DNA Walk grafikas brėžiamas atidedant

sekantį grafiko tašką tokia kryptimi:


Figure 1Figure 1: DNA walk of the sequence: DNA walk of the sequence

GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGGTCTGGTGTCTGGAGTTCCTGGGTCTTGAG

ACCACAGGACCCACCAGACCACAGGACCCACCAGGGACCCAGGACCCGGACCCAGGACCC

Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)Starting from the bottom left (bold blue line), the curve end at the bottom left (pink line)

DNA walk metodas (3)Papildomai galima analyzuoti TA ir GC nukleotidų

kompozicijąGC skew parodo C nukleotidų perviršį lyginant su

G.Skaičiuojama pagal formulę

(C-G)/(C+G)AT Skew parodo A nukleotidų perviršį lyginant su TSkaičiuojama pagal formulę

(A - T)/(A + T)Naudojama nustatyti geno pradžiai ir pabaigai


Motyvai (1)Sekos motyvas yra nukleotidų arba amino rūgščių

sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę.

Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą.


Motyvai (2) Motyvų aprašymo susitarimai:

Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę.

Simbolių eilutė aprašo atitinkamų amino rūgščių seką.

Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių.

Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą.


Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu

Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijasPvz., asparaginas–X–serinas (kur X yra bet kuri

aminorūgštis) yra eukariotų baltymų glikozilinimo vietaProsite duomenų bazėje yra kaupiamos žinios apie

aminorūgščių motyvus, turinčius funkcinę reikšmę

Sekų motyvai

Motyvo pavyzdysMotyvo pavyzdys (aprašo N-glikosilacijos vietą):

N{P}[ST]{P}

čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį

išskyrus X; [XY] – reiškia X arba Y.


PROSITE notacijaNaudoja:

IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir

papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių.

Be to dar naudojami tokie simboliai:x – bet kokia amino rūgštis;{ } - reiškia bet kurią amino rūgštį išskyrus

apskliaustą;e(m) – reiškia e amino rūgštį pakartotą m kartų;e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur

m <= k <= n;Bioinformatika (B110B001) 36

PROSITE notacija: pavyzdysPROSITE šablonas CBD_FUNGAL (prieigos kodas

PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1):

C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C


Motyvo suradimo metodaiSekos profilio analizė: pirmiausiai surandamas

globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose.

Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą.

Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą.


Sekų motyvai, nustatomi kompiuterinės analizės metuSekos tipas Pavyzdys

Aktyvatoriai Daugelis E.coli aktyvatorių turi TTGACA (-35 bp) ir TATAAT (-10 bp) sekas. Eukariotų aktyvatoriai gali turėti CAAT, GC, TATA motyvus

Atsako elementai Gliukortikoidų atsako elementai (AGRACA), cAMP atsako elementai (GTGACGTRA)

Starto kodonas ATG

Stop kodonai TAA, TAG, TGA

Splaisingo vieta GTRAGT------------------YNYTRAC(Y)nAG

Poliadenilinimo signalas AATAAAA

Aukšto dažnio kartotinės sekos

Santykinai trumpos sekos, pasikartojančios genome daugelį kartų

Transpozabilūs elementai

Paprastai nustatomi pagal tai, kad tiesioginės pasikartojančios sekos yra apsuptos invertuotų pasikartojančių sekų

R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas

Motyvo vizualizacija: Hao histograma

40

Ilgų sekų posekių dažnumo grafinio vizualizavimo metodas

Kiekvienam matricos (2n x 2n) elementui priskiriamas genetinės abecėlės simbolis (n=1) arba iš simbolių sudaryti galimi posekiai (n>1)

Skaičiuojamas posekių sekoje dažnumas ir skirtingo dažnumo posekiai vaizduojami kita spalva (pvz., didesnis dažnumas sodresne spalva)

Pavyzdys

41

Hao histogramos realizacija

42

National Institute for Standard and Technology (NIST) http://math.nist.gov/~FHunt/GenPatterns/

Tikimybinis metodas Remiasi pastebėjimu, kad skirtingų kodonų tikimybės

genus koduojančiose ir nekoduojančiose DNR sekose skiriasi

Tarkime turime kodonų seką

Geno tikimybė apskaičiuojama kaip

Tikimybė, kad seka nėra genas:

Geno reikšmingumas:

))(

)(log(

0 CP

CPGPS

Lyginamosios genomikos metodai ir algoritmai

Documents

Transcript of Lyginamosios genomikos metodai ir algoritmai