Sekų paieškos, sugretinimo ir analizės metodai
description
Transcript of Sekų paieškos, sugretinimo ir analizės metodai
Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt
TurinysSekų analizė ir sugretinimasMetodai
Taškų matricosPorinis sugretinimasPAM ir BLOSOM matricosGlobalus ir lokalus sugretinimasDaugybinis sugretinimas
Taikymai filogenetinėje analizėje
Bioinformatika (B110B001) 2
Informacijos apie sekas analizė Apima:
Įvairių organizmų genų paiešką DNR sekose.Metodų sukūrimą neseniai atrastų baltymų ir
struktūrinės RNR sekų struktūros ir/arba funkcijos prognozavimui.
Baltymų sekų grupavimą į artimų sekų šeimas ir baltymų modelių kūrimą.
Panašių baltymų palyginimą ir filogenetinių medžių kūrimą siekiant nustatyti evoliucinius ryšius tarp organizmų.
Bioinformatika (B110B001) 3
Biomolekulinių sekų kitimas (1)Priežastys: mutacijos, natūrali atranka ir
genų dreifas Mutacija informacine prasme yra tiesiog
DNR sekos pokytis Mutacijos priežastis gali būti mutagenai
(cheminės medžiagos kenksmingos DNR molekulei) arba yra pats DNR replikacijos procesas, kurio metu neišvengiamos klaidos
Bioinformatika (B110B001) 4
Biomolekulinių sekų kitimas (2)Natūrali atranka yra procesas, kurio metu dėl
ekologinių veiksnių poveikio keičiasi biologinės populiacijos individų su tam tikrais paveldimais bruožais (genotipu) dažnis dėl organizmo požymių (fenotipo) įtakos išlikimui ir dauginimuisi Sąlygos natūraliajai atrankai susidaro dėl genetinių
skirtumų tarp individų, o genetiniai skirtumai atsiranda dėl atsitiktinių mutacijų
Genų dreifas yra atsitiktinis alelių (genų variantų) dažnio pokytis
Pasireiškia: simboliu įterpimu, ištrynimu ir pakeitimu biomolekulinėse sekose
Bioinformatika (B110B001) 5
Biomolekulinių sekų kitimas (3)
Bioinformatika (B110B001) 6
Biomolekulinių sekų panašumasHomologija
Skirtingų organizmų biomolekulinių sekų panašumas dėl evoliucinių ryšių tarp organizmų (homologija)
Homoplazija Organizmų panašumas atsiradęs dėl kitokių priežasčių,
pavyzdžiui dėl organizmų supanašėjimo (konvergencijos).
Homologinės sekos Sekos, kurios yra panašios dėl organizmų
homologijosPraktiškai: jei sekos ilgesnės negu 100 nukleotidų
(amino rūgščių) yra panašios > 25%Bioinformatika (B110B001) 7
Panašumų paieškaPanašumų biomolekulinėse sekose paieškos
biomolekulinės informacijos duomenų bazėse procesas
Panašumų paieškos rezultatas yra: Tikimybės reikšmė (E-reikšmė), kuri apibūdina
atsitiktinio panašumo tarp dviejų lyginamų sekų reikšmę.
Panašaus segmento tarp dviejų sekų ilgis.Konvertavimo į amino rūgštis šablonai.Simbolių įterpimų/ištrynimų skaičius.
Bioinformatika (B110B001) 8
Praktinė panašumų paieškos naudaInformacijos perdavimo tarp artimų baltymų
nustatymas. Pavyzdžiui, duotam baltymui, apie kurį žinome labai mažai,
galima bandyti surasti atitikmenų, kurie jau būtų mums geriau pažįstami, ir turimas žinias pritaikyti pirmajam
Sekų grupavimas į medžius, kurie atspindi panašumo laipsnį tarp kiekvienos sekos, parodo evoliucijos ryšius.
Homologų nustatymas kiekvienam genui gerai išreikštuose metaboliniuose keliuose teikia informaciją apie tokio kelio vyravimą kituose organizmuose
Bioinformatika (B110B001) 9
Sekų analizės algoritmaiTaškų matricos metodasPorinis sekų sugretinimasGlobalus ir lokalus sekų sugretinimas
Needleman-Wunch algoritmasSmith-Waterman algoritmasHibridiniai sugretinimo metodaiŽodiniai sugretinimo metodai
BLASTDaugybinio sekų sugretinimo metodai
Progresyviniai metodaiIteraciniai metodaiPaslėpti Markovo Modeliai
Bioinformatika (B110B001) 10
Taškų matricos pavyzdys
Bioinformatika (B110B001) 11
Taškų matricos sudarymasTaškų matricos (Dot-Matrix) sudarymas:
Dvi lyginamos sekos yra surašomos atitinkamai viršutinėje eilutėje ir kairiausiame dvimatės matricos stulpelyje.
Kai sekų simboliai sutampa, atitinkamame stulpelyje ir eilutėje padedamas taškas.
Labai panašios sekos taškiniame grafike atrodys kaip ištisinė linija išilgai pagrindinės matricos įstrižainės.
Kitos įstrižos linijos arba įstrižos taškų grupės rodo, kad sekos turi panašių fragmentų.
Bioinformatika (B110B001) 12
Panašių sekų taškų matrica
Bioinformatika (B110B001) 13
Taškų matricos metodas (1)Taškų matricos gali būti naudojamos
pasikartojamumui vienoje sekoje įvertinti Tuomet abscisėje ir ordinatėje atidedama ta
pati sekaPanašūs sekos fragmentai grafike matosi kaip
ne pagrindinėje matricos įstrižainėje esančios linijos
Bioinformatika (B110B001) 14
Taškų matricos metodas (2)Metodo modifikacija:
Pradiniai duomenys filtruojami naudojant slenkančio lango algoritmą
Vienu metu lyginami keli sekos simboliaiJeigu sutampančių simbolių skaičius lange
viršija tam tikrą slenkstinę reikšmę, matricoje padedamas taškas, o langas pasislenka per vieną simbolį į priekį
Naudojamas gretinant labai ilgas sekas
Bioinformatika (B110B001) 15
Taškų matricos metodas (3)Sudėtingumas
Kvadratinis O(n2), kur n yra sekos ilgis, nes jame palyginamas kiekvienas vienos sekos simbolis su kiekvienu kitos sekos simboliu
PranašumaiLabai paprastasLeidžia vizualiai nustatyti tam tikrus sekų bruožus –
įterpimus, ištrynimus, pasikartojimus arba invertuotus pasikartojimus
Trūkumai: taškų matricos analizę vizualiai atlieka žmogussunku surasti optimalų sekų sugretinimąsunku įvertinti sugretinimo kokybędidelių sekų sugretinimui reikia daug laiko
Bioinformatika (B110B001) 16
Porinio sugretinimo uždavinysDuota:
2 sekos,Dviejų sekos simbolių sutapimo (arba
nesutapimo) įvertinimo sistema,Baudos funkcija už tarpus sekoje.
Rasti: optimalų sekų poros išdėstymą leidžiant į sekas
įterpti tarpus taip, kad būtų gaunama maksimali įvertinimo reikšmė.
Bioinformatika (B110B001) 17
Porinis sekų sugretinimas (1)Sekų sugretinimas:
sekų išdėstymas taip, kad nustatyti panašius sekų fragmentus, kurių priežastis yra funkciniai, struktūriniai arba evoliuciniai ryšiai tarp sekų.
Interpretacija:Jei abi sekos turi bendrą protėvį, tada sekų
nesutapimus galima interpretuoti kaip mutacijų vietas, o tarpus – kaip įterpimo arba ištrynimo (indel) mutacijas, kurios atsirado skirtingose protėvio palikuonių šakose
Bioinformatika (B110B001) 18
Porinis sekų sugretinimas (2)Panašumas tarp tam tikrą vietą sekoje
užimančių amino rūgščių gali būti interpretuojamas kaip sekos motyvas arba sekos fragmento konservatyvumas
Pakyčių nebuvimas arba tik labai konservatyvūs pokyčiai (t.y., vienos amino rūgštys pakeistos kitomis amino rūgštimis, kurios turi panašias biochemines savybes) reiškia, kad šis fragmentas yra svarbus funkcine arba struktūrine prasme
Bioinformatika (B110B001) 19
Sutapimo įvertinimas
Bioinformatika (B110B001) 20
N
iii
ii
ii
tarpaiSSbauda
SStaškai
SStaškai
score1
,2,1
,2,1
,2,1
,,
,
,
Čia: S1 ir S2 – gretinamos sekos
Įvertinimo matricos reikšmių parinkimasM. O. Dayhoff metodasSkaičiuojamas kiekvieno simbolio ir jų poros dažnis
sekoje:
i ir j – simboliai, pi ir pj – jų dažnis sekoje,
qij – i ir j simbolių poros dažnis sekoje,
Sij – vertinimo matricos elemento reikšmė
Teigiama Sij reikšmė reiškia, kad ši simbolių pora yra dažna sekoje, o neigiama – kad simbolių pora yra reta.
Bioinformatika (B110B001) 21
ji
ijij pp
qS log
PAM matricosPAM (Percent Accepted Mutation) matricos
Amino rūgščių vertinimo matricos sudarytos pagal Dayhoff metodą
Matricos elementai reiškia tikimybę, kad stulpelio amino rūgštis bus pakeista eilutės amino rūgštimi
1 PAM vienetas atitinka apie 1% baltymo pokytį Standartinės PAM matricos
PAM1: sudaryta analizuojant 85% panašią baltymų aibę PAM100 matrica gauta 100 kartų sudauginus PAM1 matricą
PanašumaiPAM120: 40% panašumasPAM80: 50% panašumasPAM60: 60% panašumas
Bioinformatika (B110B001) 22
PAM-250 matrica
BLOSUM matricosBLOSUM (BLOcks SUbstitution Matrix)Realiai daugiausiai naudojamos Gautos ištyrus didelius baltymų sekų duomenų
kiekius. Sukonstruotos atlikus daugybinį proteinų
šeimynų palyginimą ir išskyrus sekų fragmentus be pertrūkio.
Išskirti sekų fragmentai buvo toliau apjungiami remiantis jų procentiniu panašumu.
BLOSUM su mažesniu skaičiumi naudojamos labiau nutolusioms sekoms sugretinti
Bioinformatika (B110B001) 24
BLOSUM62 matrica Naudojama BLAST programoje Turi mažiausiai 62% tarpusavio panašumą Analogas yra PAM160 matrica
Bioinformatika (B110B001) 25
BLOSUM ir PAM matricų palyginimas
Bioinformatika (B110B001) 26
BLOSUM ir PAM matricų palyginimasBLOSUM: pagrįstas trumpais konservatyviais
sekų fragmentaisPagrįstas keliais evoliuciniais periodaisKiekviena marica konstruojama atskiraiSusijusių mutacijų tikimybės padidintosOvercounts related mutations
PAM: evoliucinis modelisPagrįstas trumpo evoliucijos periodo ekstrapoliavimuMatricų daugyba didina paklaidasLaikoma kad evoliucija yra tikimybinis Markovo
procesasSekų sudėtis gali labai skirtisRetų pakeitimų tikimybės užfiksuotos netiksliai
Kokio tipo matricą naudotiPAM-1BLOSUM-100
Mažas evoliucinis atstumas
Didelis sutapimas tarp trumpų sekų
PAM-250
BLOSUM-20
• Didelis evoliucinis atstumas
• Mažas sutapimas tarp ilgų sekų
Sugretinimo įvertinimasNormalizuojant suminis įvertinimą naudojama speciali
konstanta λ, kurios reikšmė apskaičiuojama sprendžiant lygtį:
Normalizuotas įvertinimas:
Tikimybė, kad surastas sekų sugretinimas yra atsitiktinis (E-reikšmė) apskaičiuojama pagal Karlin-Altschul formulę:
K – konstanta, m – gretinamos sekos ilgis, n – duomenų bazės dydis.
Bioinformatika (B110B001) 29
SS '
11 11 1
n
i
i
j
Sji
n
i
i
jij
ijeppq
SenmKE
Sugretintų sekų vaizdavimo formatasVaizduojama grafiškai arba tekstiniu formatu Tekstiniame formate:
Tarpai įterpiami taip, kad panašūs fragmentai būtų tose pačiuose matricos stulpeliuose
Žvaigždutė arba vertikalus brūkšnelis rodo vienodus fragmentus.
Dvitaškis rodo konservatyvius amino rūgščių pakeitimus,Taškas rodo pusiau konservatyvius amino rūgščių pakeitimus.
Spalvos gali būti naudojamos parodyti įvairias amino rūgščių savybes
Gale rodoma apskaičiuota sugretinimo įvertinimo reikšmė
Bioinformatika (B110B001) 30
ClustalPopuliariausia daugybinio sekų sugretinimo
programaParsisiuntimas, dokumentacija
http://www.clustal.org/ Internetinis serveris
http://www.ebi.ac.uk/Tools/clustalw2/index.htmlSugretinimo rezultato pavyzdys
Bioinformatika (B110B001) 31
Globalus ir lokalus sekų sugretinimasSekų porų sugretinimo algoritmai:
globalaus sugretinimo algoritmai, lokalaus sugretinimo algoritmai“hibridiniai” sugretinimo metodai.
Sekų porų sugretinimo problemai spręsti naudojami dinaminio programavimo, heuristiniaitikimybiniai metodai.
Bioinformatika (B110B001) 32
Dinaminio programavimo metodai„Skaldyk ir valdyk“ principas:
Kai problema yra pernelyg sudėtinga išspręsti tiesiogiai, ją galima padalinti į mažesnes problemas, išspręsti jas atskirai ir apjungti mažesnių problemų sprendimo rezultatus
Garantuotai suranda optimalų sugretinimą esant duotai vertinimo funkcijai
Geros vertinimo funkcijos parinkimas yra atliekamas empiriškai
Bioinformatika (B110B001) 33
Dinaminio programavimo metodaiEksponentinis sudėtingumas
Pernelyg lėtas lyginant daug sekų arba labai ilgas sekas
Paieškos erdvei sumažinti galima atlikti sekų sugretinimą poromis, o paskui ieškoti sugretinimo tik greta surastų optimalių sprendinių
Praktiškai naudojami:kai reikia atlikti labai kokybiškus nedidelio sekų
kiekio sugretinimus kaip naujų metodų įvertinimo standartas
Bioinformatika (B110B001) 34
Globalus sekų sugretinimasGlobalaus sugretinimo algoritmai priklauso
globalaus optimizavimo algoritmų klasei. Jie ieško panašumo visame sekų ilgyje ir yra
naudojami, kai sekos yra beveik lygios ir apytiksliai tokio paties ilgio.
Plačiausiai naudojamas globalaus sugretinimo metodas yra Needleman-Wunsch algoritmas (1970 m. pasiūlė S. Needleman ir C. Wunsch)
Šio algoritmo sudėtingumas yra O(nm), kur n ir m – gretinamų sekų ilgiai.
Bioinformatika (B110B001) 35
Needleman-Wunsch algoritmas1) Sukuriama ir užpildoma sugretinimo matrica (F-
matrica). Pirmoji matricos eilutė ir pirmasis stulpelis užpildomi spragos baudos daugikliais. Toliau matrica užpildoma naudojant rekurentinę lygtį: Fij = max(Fi − 1,j − 1 + S(Ai,Bj), Fi,j − 1 + d,Fi − 1,j + d) F – sugretinimo matrica, S – sutapimo funkcija, d – spragos
bauda.
2) Randame geriausią įvertinimo reikšmę paskutinėje eilutėje arba paskutiniame stulpelyje.
3) Sugretinimas gaunamas rodyklėmis grįžtant nuo didžiausios reikšmės iki langelio su 0 reikšmę.
Bioinformatika (B110B001) 36
1 žingsnio pseudokodas
Bioinformatika (B110B001) 37
for i=0 to length(A)-1 F(i,0) <- d*i for j=0 to length(B)-1 F(0,j) <- d*j for i=1 to length(A) for j = 1 to length(B) { Choice1 <- F(i-1,j-1) + S(A(i), B(j)) Choice2 <- F(i-1, j) + d Choice3 <- F(i, j-1) + d F(i,j) <- max(Choice1, Choice2, Choice3) }
3 žingsnio pseudokodas
38
AlignmentA <- "" AlignmentB <- "" i <- length(A) - 1 j <- length(B) - 1 while (i > 0 AND j > 0) { Score <- F(i,j) ScoreDiag <- F(i - 1, j - 1) ScoreUp <- F(i, j - 1) ScoreLeft <- F(i - 1, j) if (Score == ScoreDiag + S(A(i), B(j))) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- B(j-1) + AlignmentB i <- i - 1 j <- j - 1 } else if (Score == ScoreLeft + d) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- "-" + AlignmentB i <- i - 1 } otherwise (Score == ScoreUp + d) { AlignmentA <- "-" + AlignmentA AlignmentB <- B(j-1) + AlignmentB j <- j - 1 } } while (i > 0) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- "-" + AlignmentB i <- i - 1 } while (j > 0) { AlignmentA <- "-" + AlignmentA AlignmentB <- B(j-1) + AlignmentB j <- j - 1 }
PavyzdysTarkime turime, dvi sekas AACG ir AGGC. Spragos bauda yra lygi -1, Sutapimo premija +1, o Nesutapimo įvertinimas 0.
Bioinformatika (B110B001) 39
Matricos paruošimas
Bioinformatika (B110B001) 40
A A C G
A
-3 -4
G
G
C
-1
-2
-3
-2-10
-4
Po pirmo žingsnio
Jeigu rodyklė rodo įstrižai, ji reiškia sugretinimą tarp dviejų sekų.
Jeigu rodyklė vertikali, ji rodo spragą viršuje užrašytoje sekoje.
Jeigu rodyklė yra horizontali, ji rodo spragą kairėje užrašytoje sekoje.
Bioinformatika (B110B001) 41
A A C G
A
-3 -4
G
G
C
-1
-2
-3
1
0
-1
0
1
0
-1
0
1
-2
0
1
-2-10
-4 -2 -1 1 1
Lokalus sugretinimasGlobalus sugretinimas ne visada leidžia pasiekti
norimus rezultatus, kadangi sudėtinga gauti teisingus sugretinimus tarp tolimai susijusių sekų
Lokalaus sugretinimo algoritmai naudojami lyginant ilgas nepanašias sekas, kuriose gali būti panašių fragmentų
Smith-Waterman algoritmasDinaminio programavimo algoritmasGlobalaus Needleman-Wunsch algoritmo variantasgarantuotai suranda optimalų lokalų sugretinimą
duotai vertinimo sistemai
Bioinformatika (B110B001) 42
Smith-Waterman algoritmasGaunamas iš globalaus sugretinimo algoritmo atlikus
šiuos pakeitimus: Matricoje negali būti neigiamų reikšmių. Jeigu reikšmė yra
neigiama, vietoje jos yra rašomas 0. Didžiausias įvertinimas ieškomas visoje sugretinimo matricoje, o
ne tik paskutinėje eilutėje arba paskutiniame stulpelyje. Dalinis sugretinimas gaunamas rodyklėmis grįžtant nuo
didžiausios reikšmės iki langelio su 0 reikšmę.
Sudėtingumas: O(mn), kur m ir n yra gretinamų sekų ilgiai.
Praktiškai vietoje Smith-Waterman algoritmo naudojamas BLAST algoritmas, kuris yra žymiai efektyvesnis, nors ir negarantuoja optimalaus sprendinio suradimo.
Bioinformatika (B110B001) 43
Praktinis algoritmų išbandymasB.A.B.A.http://
baba.sourceforge.net/
Bioinformatika (B110B001) 44
Sugretinimo patikimumo įvertinimasLokalaus sugretinimo statistinį
patikimumą galima įvertinti naudojant Karlin-Altschul statistinį modelį.
Jeigu dviejų sekų lokalaus sugretinimo E-reikšmė yra labai maža, tikėtina, kad dvi nagrinėjamos sekos yra homologinės, t.y galėjo turėti bendrą protėvį.
Bioinformatika (B110B001) 45
Hibridiniai sugretinimo metodaiHibridiniai (pusiau globalūs, glokalūs) metodai bando surasti
geriausią sugretinimą, kuris apima vienos ar kitos sekos pradžią ar pabaigą
Naudingi, kai vienos sekos galas persidengia su kitos sekos pradžia
Tokiu atveju globalaus ir lokalaus sugretinimo metodai netinkami: globalaus sugretinimo met. bandys lyginti sekas ir už persidengimo
ribų lokalaus sugretinimo metodas nevisiškai apims persidengiantį
fragmentąNaudojami dinaminio programavimo metodai Paskiriama pakeitimų matrica, kurioje surašomi amino rūgščių
sutapimų vertinimo taškai ir spragos bauda už praleistą sekos simbolį
Bioinformatika (B110B001) 46
Žodiniai sugretinimo metodai (1)Žodiniai (k-kortežo) metodai:
negarantuoja optimalaus sugretinimo sprendimo suradimožymiai efektyvesni negu dinaminio programavimo metodai
Naudingi atliekant didelio mąsto paiešką duomenų bazėse, kuriose labai daug sekų praktiškai neturės jokio panašumo su lyginama seka
Realizuoti FASTA ir BLAST įrankiuose
Bioinformatika (B110B001) 47
Žodiniai sugretinimo metodai (2)Algoritmas:
Pirmiausiai lyginamoje sekoje nustatomas trumpų nepersidengiančių fragmentų (“žodžių”) rinkinys
Žodžiai lyginami su duomenų bazėje saugomomis sekomis.
Santykinės dviejose lyginamose sekose esančio žodžio padėtys yra atimamos ir gaunamas poslinkis.
Jeigu daug skirtingų žodžių turi tą patį poslinkį, vadinasi sekos turi panašų fragmentą.
Aptikus panašų fragmentą taikomi jautresni sugretinimo kriterijai.
Bioinformatika (B110B001) 48
BLAST algoritmas (1)BLAST (Basic Local Alignment Search Tool)
Algoritmas (ir programų šeimyna) leidžiantis atlikti pirminių biomolekulinių sekų palyginimą.
Paieška leidžia palyginti užklausos seką su žinomų sekų duomenų seka ir nustatyti duomenų bazės sekas, kurios yra labiausiai panašios į užklausos seką.
Naudoją heuristinį metodą sukurtą Smith-Waterman algoritmo pagrindu
Ne toks tikslus, kaip Smith-Waterman algoritmas, tačiau 50 kartų greitesnis
Viena iš plačiausiai naudojamų bioinformatikos programų.
Bioinformatika (B110B001) 49
BLAST algoritmo principas
Bioinformatika (B110B001) 50
BLAST algoritmas (2)BLAST algoritmas yra sudarytas iš 3 etapų:
Sėjimas. BLAST ieško tikslių W (W – mažas skaičius) ilgio sutapimų tarp užklausos sekos ir duomenų bazėje saugomų sekų. Surasti fragmentai yra vadinami „sėklomis“.
Išplėtimas. BLAST bando išplėsti sutampantį fragmentą be spragų abejomis kryptimis, kad padidinti sugretinimo įvertinimą. Įterpimai ir ištrynimas šio etapo metu dar nenagrinėjami.
Įvertinimas. Radus aukštą sugretinimo reikšmę BLAST naudodamas Smith-Waterman algoritmą atlieką sugretinimą įvedant spragas. Statistikai reikšmingi sugretinimai yra išvedami vartotojui.
Bioinformatika (B110B001) 51
BLAST algoritmas (3)Gaunamas paieškos rezultatas yra sudarytas iš:
Užklausos apžvalga – vartotojo užklausos apibendrinimas.Toliau išvardijami BLAST įrankio surasti reikšmingi
panašumai. Nurodomas sekos kodas duomenų bazėje, sekos pavadinimas, sugretinimo rezultatas ir tikimybės reikšmė. Sugretinimo rezultatas rodo sekų panašumą, tačiau biologinės prasmės neturi. E-reikšmė rodo tikimybę, kad surastas panašumas yra atsitiktinis. Mažesnė negu 0,001 E-reikšmė rodo, kad tarp sekų tikriausiai yra evoliucinis ryšys.
Po kiekvieno surasto reikšmingo panašumo pateikiami detalūs kiekvieno sugretinimo rezultatai, iš kurių yra skaičiuojama E-reikšmė
Pabaigoje pateikiami statistiniai rezultatai
Bioinformatika (B110B001) 52
BLAST statistinės paieškos rezultatai1) Naudotos duomenų bazės, 2) užklausos data, 3) simbolių ir sekų skaičius duomenų bazėje, 4) statistinio parametro λ reikšmė, 5) naudota matrica, 6) sugretinimo metu naudojami svoriniai
koeficientai, 7) sekų statistika, 8) paieškos statistika, 9) kiti statistiniai paieškos parametrai.
Bioinformatika (B110B001) 53
Daugybinis sekų sugretinimas (1)Naudojamas:
Konservatyvių sekų fragmentų nustatymui duotoje sekų aibėje, kai turima daugiau negu dvi sekos. Tokie fragmentai gali padėti nustatyti katalitiškai aktyvias enzimų vietas.
Evoliucinių ryšių tarp organizmų nustatymas konstruojant filogenetinius medžius.
Naudojami metodai:dinaminio programavimo, progresyviniai, iteraciniai, motyvų suradimo metodai, paslėpti Markovo modeliai,genetiniai algoritmai.
Bioinformatika (B110B001) 54
Daugybinis sekų sugretinimas (2)Naudojant dinaminio programavimo metodą:
Sukonstruojama n-matė sekos matrica, kur n yra sekų skaičius
Visos sekos yra lyginamos poromis ir užpildoma visa “sugretinimų erdvė”.
Sudėtingumas: eksponentinisPranašumas:
Garantuotai suranda geriausią sugretinimo sprendimą
Trūkumas:Reikalauja daug skaičiavimo laiko ir kompiuterio
atminties, todėl yra retai naudojamas lyginant daugiau negu 3-4 sekas
Praktikoje naudojami įvairūs euristiniai metodaiBioinformatika (B110B001) 55
Progesyviniai metodai (1)Progresyviniai (hierarchiniai) metodai:
Pirmiausiai sulygina panašiausias sekasLygina poromis vis mažiau panašias sekas tol, kol
sprendimas apima visas lyginamas sekasArtimiausios poros nustatymui yra naudojamas
klasterizavimo metodas, pvz.., kaimynų apjungimo algoritmas
Progresyvinis metodas naudojamas Clustal įrankyje, kuris atlieka filogenetinių medžių konstravimą ir baltymų struktūrų prognozavimą
Bioinformatika (B110B001) 56
Progesyviniai metodai (2)Pranašumas:
Progresyviniai metodai efektyvūs gretinant daug ilgų sekų
Trūkumai:Didelė priklausomybė nuo pradinių
sugretinimų poromis tikslumo, pradinio sugretinimo rezultatų ir nuo sekų pasiskirstymo aibėje pagal panašumą
Negarantuoja globalaus sprendinio suradimo
Bioinformatika (B110B001) 57
Iteraciniai metodaiVeikia panašiai kaip progresyviniai metodaiSkirtumai:
gali sugrįžti prie savo anksčiau atliktų sugretinimų poromis gali optimizuoti savo tikslo funkcijos svorinius koeficientus
Optimizavimui naudojamas laiptinis (hill-climbing) algoritmas, kuris leidžia surasti lokalų optimumą
Tikslesni negu progresyviniai metodai, tačiau mažesnio greičio sąskaita
Geriausiai naudoti jau atlikto sugretinimo pagerinimui, kai pirminis sugretinimas yra atliekamas naudojant kokį nors greitą algoritmą
Bioinformatika (B110B001) 58
Sekų sugretinimo įvertinimasSekų sugretinimas naudojamas:
sekų panašumų nustatymui, filogenetinių medžių konstravimui ir baltymų struktūrų homologijų modelių kūrimui.
Biologinė sekų sugretinimų reikšmė nėra visada aiški. Sekų panašumą galima paaiškinti konverguojančia evoliucija,
kai evoliuciškai tarpusavyje nesusiję baltymai atlieka panašias funkcijas ir turi panašią struktūrą.
Rezultatų patikimumasAtsitiktinio sugretinimo tikimybė didėja, jeigu duomenų bazė
yra sudaryta tik iš to paties organizmo sekų. Pasikartojančios sekos duomenų bazėje arba užklausoje gali
iškreipti paieškos rezultatus ir statistinio reikšmingumo įvertinimą.
Bioinformatika (B110B001) 59
Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,
Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt
Filogenetinė analizė (1)Tikslas: nustatyti evoliucinius sąryšius tarp
organizmus ir atvaizduoti juos kaip filogenetinį medį.
Filogenetinis (evoliucinis) medis: medis parodantis evoliucinius ryšius tarp įvairių rūšių, kurie manoma turi bendrą protėvįKiekvienas mazgas atitinka jo šakų protėvįšakų ilgis kartais atitinka laiko vienetus.
Bioinformatika (B110B001) 61
Filogenetinė analizė (2)Filogenetinių medžių tipai:
šakninis medis yra kryptinis medis su unikaliu mazgu, atitinkančiu bendrą visų medžio lapų protėvį;
bešaknis medis tik iliustruoja medžio lapų panašumą, tačiau nedaro prielaidų apie jų protėvius.
Filogenetinių medžių vaizdavimui naudojamos diagramos:Dendrograma yra bet kokio tipo filogenetinį medį
vaizduojanti diagrama.Kladograma yra diagrama, kurioje vaizduojamas tik
medžio šakojimasis, tačiau nėra vaizduojamas laikas.Filograma – diagrama, kurioje vaizduojamas evoliucinių
pasikeitimų skaičius.
Bioinformatika (B110B001) 62
Bioinformatika (B110B001) 63
Kladograma/dendrograma
Filograma
Evoliucinių medžių sudarymasFilogenetinių medžių sudarymą tiria skaičiuojamoji
filogenetikaNagrinėja skaičiavimo algoritmų, metodų ir programų
taikymą filogenetinei analizei atlikti. Tikslas: sukonstruoti filogenetinį medį, atvaizduojantį
hipotetinį evoliucinį ryšį tarp genų arba atskirų rūšių.
Problemos:Daugybinis sekų sugretinimas tarp genų arba amino rūgščių
sekų. Panašumo (homologijos) tarp sekų apibrėžimas.
Godumo (parsimony) principas trumpiausias hipotetinis pokyčių kelias, kuris paaiškina
dabartinį fenotipą laikomas tikėtiniausiu evoliuciniu keliu.
Bioinformatika (B110B001) 64
Evoliucinių medžių tipaiMinimalaus maksimumo evoliuciniai medžiai
– minimizuojama maksimali reikšmė.Minimalios sumos evoliuciniai medžiai –
minimizuojama bendroji atstumų tarp visų lapų suma.
Minimalaus dydžio evoliuciniai medžiai – minimizuojamas bendrasis medžio ilgis.
Čia apibrėžia atstumą tarp si ir sj evoliuciniame medyje, o - atstumą tarp si ir sj atstumų matricoje.
Bioinformatika (B110B001) 65
),( ji ssdt
),( ji ssd
)),(),(( jiji ssdssdt
Filogenetinių medžių sudarymo algoritmai (1)
Atstumų matricos metodai remiantis biomolekulinių sekų daugybinio sugretinimo rezultatais apskaičiuoja genetinį atstumą tarp tiriamų organizmų Kaimynų apjungimo metodasUPGMA (Unweighted Pair Group Method with Arithmetic
Mean) metodas Iš turimų sekų yra sukonstruojama atstumų matrica, iš kurios
yra konstruojamas filogenetinis medis. Medžio šakų ilgis atkartoja stebimus atstumus tarp sekų. Pranašumai: lengva realizuoti, nenaudoja jokio specialaus
evoliucinio modelio. Trūkumas: negalima efektyviai panaudoti informacijos apie
aukšto kintamumo sekų sritis.
Bioinformatika (B110B001) 66
Filogenetinių medžių sudarymo algoritmai (2)Evoliuciniu modeliu grįsti metodai naudoja
aiškų evoliucijos modelį. Maksimalaus godumo metodasŠakų ir ribų (Branch and bound) algoritmasFitch-Margoliash metodasMaksimalaus panašumo metodas
Bioinformatika (B110B001) 67
Šakų ir ribų algoritmasNaudojamas artimų optimaliam sprendimų paieškos
efektyvumui padidinti. Labai gerai tinka filogenetinių medžių konstravimo
problemai spręsti, nes padalina probleminę sritį į medžio struktūros mažesnes posritis.
Įvestis yra šakojimosi taisyklė (naujai pridedama seka) ir riba (taisyklė, kuri pašalina tam tikras paieškos srities dalis laikant, kad juose negali būti optimalaus sprendimo).
Ribų nustatymui galima taikyti Zharkikh taisykles, kurios apriboja paieškos erdvę apibrėždamos „godžiausių“ medžių charakteristikas: 1) pašalinti visas besidubliuojančias sekas (išskyrus
vieną)2) pašalinti visus fragmentus, kurie neatsikartoja
mažiausiai dviejose rūšyse. Bioinformatika (B110B001) 68
Fitch-Margoliash metodasKlasterizavimui naudoja svorinį mažiausių kvadratų
metodą. Medžio konstravimo metu artimoms sekoms yra
suteikiamas didesnis svoris, kad ištaisyti didesnį atstumų matavimo netikslumą tarp tolimų sekų.
Jeigu sekų evoliucijos greičiai skiriasi, atstumus reikia koreguoti
Duomenų korekcijai naudojama pakitimų matrica gautą iš Jukes-Cantor DNR evoliucijos modelio.
Metodas yra tikslesnis negu kaimynų apjungimo metodas, tačiau ne toks efektyvus (sudėtingumas -eksponentinis).
Bioinformatika (B110B001) 69
Maksimalaus panašumo metodasPanašus į maksimalaus godumo metodą, tačiau
evoliucijos greitis skirtingose šakose gali skirtis. Naudoja standartinius statistinius metodus skirtus
tikimybių reikšmių priskyrimui galimiems filogenetiniams medžiams.
Naudoja pakeitimų modelį, kuriame įvertinama tam tikrų mutacijų galimybė.
Medis, kuriam suformuoti reikia daugiau mutacijų, yra laikomas mažiau tikėtinu.
Gerai tinka tolimai susijusių sekų analizei, tačiau kadangi reikia atlikti pilną paiešką medyje, jis retai naudojamas daugiau negu su keliomis sekomis.
Bioinformatika (B110B001) 70
Newick formatasFilogenetiniai medžiai gali būti atvaizduojami
kompiuterio skaitomu formatu naudojant Newick formatą.
Šiame formate naudojami tokie specialūs simboliai:skliaustai ( ... ) – reiškia visą medį arba atskirą
pomedį;kablelis – atskiriamos medžio šakos;dvitaškis – naudojamas šakos ilgiui nurodyti;kabliataškis – žymi medžio pabaigą.
Bioinformatika (B110B001) 71
Newick formato gramatinis aprašasmedis => palikuonių_sąrašas [ žymė ] [ :
šakos_ilgis ] ;palikuonių_sąrašas => ( pomedis { , pomedis } )pomedis => palikuonių_sąrašas [ žymė ] [ : šakos_ilgis ] | lapaslapas => žymė [ : šakos_ilgis ]žymė => simbolių_eilutėšakos_ilgis => skaičius
Rodyklė => reiškia gramatinę taisyklę; laužtiniais skliaustais [ ] skiriamos nebūtinos gramatinės taisyklės
dalys; riestiniais skliaustais { } skiriamos dalys, kurios gali kartotis daug
kartų; vertikalus brūkšnys | reiškia alternatyvą.
Bioinformatika (B110B001) 72
Filogenetinio medžio pavyzdys
((simpanze,zmogus),((orangutangas,gibonas),gorila));
Bioinformatika (B110B001) 73