Sekų paieškos, sugretinimo ir analizės metodai

73
Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-409a Email: robertas.damasevicius(at)ktu.lt

description

Sekų paieškos, sugretinimo ir analizės metodai. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robe rtas.damasevicius(at)ktu.lt. Informacijos apie sekas analizė. Apima: Įvairių organizmų genų paiešką DNR sekose. - PowerPoint PPT Presentation

Transcript of Sekų paieškos, sugretinimo ir analizės metodai

Page 1: Sekų paieškos, sugretinimo ir analizės metodai

Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt

Page 2: Sekų paieškos, sugretinimo ir analizės metodai

TurinysSekų analizė ir sugretinimasMetodai

Taškų matricosPorinis sugretinimasPAM ir BLOSOM matricosGlobalus ir lokalus sugretinimasDaugybinis sugretinimas

Taikymai filogenetinėje analizėje

Bioinformatika (B110B001) 2

Page 3: Sekų paieškos, sugretinimo ir analizės metodai

Informacijos apie sekas analizė Apima:

Įvairių organizmų genų paiešką DNR sekose.Metodų sukūrimą neseniai atrastų baltymų ir

struktūrinės RNR sekų struktūros ir/arba funkcijos prognozavimui.

Baltymų sekų grupavimą į artimų sekų šeimas ir baltymų modelių kūrimą.

Panašių baltymų palyginimą ir filogenetinių medžių kūrimą siekiant nustatyti evoliucinius ryšius tarp organizmų.

Bioinformatika (B110B001) 3

Page 4: Sekų paieškos, sugretinimo ir analizės metodai

Biomolekulinių sekų kitimas (1)Priežastys: mutacijos, natūrali atranka ir

genų dreifas Mutacija informacine prasme yra tiesiog

DNR sekos pokytis Mutacijos priežastis gali būti mutagenai

(cheminės medžiagos kenksmingos DNR molekulei) arba yra pats DNR replikacijos procesas, kurio metu neišvengiamos klaidos

Bioinformatika (B110B001) 4

Page 5: Sekų paieškos, sugretinimo ir analizės metodai

Biomolekulinių sekų kitimas (2)Natūrali atranka yra procesas, kurio metu dėl

ekologinių veiksnių poveikio keičiasi biologinės populiacijos individų su tam tikrais paveldimais bruožais (genotipu) dažnis dėl organizmo požymių (fenotipo) įtakos išlikimui ir dauginimuisi Sąlygos natūraliajai atrankai susidaro dėl genetinių

skirtumų tarp individų, o genetiniai skirtumai atsiranda dėl atsitiktinių mutacijų

Genų dreifas yra atsitiktinis alelių (genų variantų) dažnio pokytis

Pasireiškia: simboliu įterpimu, ištrynimu ir pakeitimu biomolekulinėse sekose 

Bioinformatika (B110B001) 5

Page 6: Sekų paieškos, sugretinimo ir analizės metodai

Biomolekulinių sekų kitimas (3)

Bioinformatika (B110B001) 6

Page 7: Sekų paieškos, sugretinimo ir analizės metodai

Biomolekulinių sekų panašumasHomologija

Skirtingų organizmų biomolekulinių sekų panašumas dėl evoliucinių ryšių tarp organizmų (homologija)

Homoplazija Organizmų panašumas atsiradęs dėl kitokių priežasčių,

pavyzdžiui dėl organizmų supanašėjimo (konvergencijos).

Homologinės sekos Sekos, kurios yra panašios dėl organizmų

homologijosPraktiškai: jei sekos ilgesnės negu 100 nukleotidų

(amino rūgščių) yra panašios > 25%Bioinformatika (B110B001) 7

Page 8: Sekų paieškos, sugretinimo ir analizės metodai

Panašumų paieškaPanašumų biomolekulinėse sekose paieškos

biomolekulinės informacijos duomenų bazėse procesas

Panašumų paieškos rezultatas yra: Tikimybės reikšmė (E-reikšmė), kuri apibūdina

atsitiktinio panašumo tarp dviejų lyginamų sekų reikšmę.

Panašaus segmento tarp dviejų sekų ilgis.Konvertavimo į amino rūgštis šablonai.Simbolių įterpimų/ištrynimų skaičius.

Bioinformatika (B110B001) 8

Page 9: Sekų paieškos, sugretinimo ir analizės metodai

Praktinė panašumų paieškos naudaInformacijos perdavimo tarp artimų baltymų

nustatymas. Pavyzdžiui, duotam baltymui, apie kurį žinome labai mažai,

galima bandyti surasti atitikmenų, kurie jau būtų mums geriau pažįstami, ir turimas žinias pritaikyti pirmajam

Sekų grupavimas į medžius, kurie atspindi panašumo laipsnį tarp kiekvienos sekos, parodo evoliucijos ryšius.

Homologų nustatymas kiekvienam genui gerai išreikštuose metaboliniuose keliuose teikia informaciją apie tokio kelio vyravimą kituose organizmuose

Bioinformatika (B110B001) 9

Page 10: Sekų paieškos, sugretinimo ir analizės metodai

Sekų analizės algoritmaiTaškų matricos metodasPorinis sekų sugretinimasGlobalus ir lokalus sekų sugretinimas

Needleman-Wunch algoritmasSmith-Waterman algoritmasHibridiniai sugretinimo metodaiŽodiniai sugretinimo metodai

BLASTDaugybinio sekų sugretinimo metodai

Progresyviniai metodaiIteraciniai metodaiPaslėpti Markovo Modeliai

Bioinformatika (B110B001) 10

Page 11: Sekų paieškos, sugretinimo ir analizės metodai

Taškų matricos pavyzdys

Bioinformatika (B110B001) 11

Page 12: Sekų paieškos, sugretinimo ir analizės metodai

Taškų matricos sudarymasTaškų matricos (Dot-Matrix) sudarymas:

Dvi lyginamos sekos yra surašomos atitinkamai viršutinėje eilutėje ir kairiausiame dvimatės matricos stulpelyje.

Kai sekų simboliai sutampa, atitinkamame stulpelyje ir eilutėje padedamas taškas.

Labai panašios sekos taškiniame grafike atrodys kaip ištisinė linija išilgai pagrindinės matricos įstrižainės.

Kitos įstrižos linijos arba įstrižos taškų grupės rodo, kad sekos turi panašių fragmentų.

Bioinformatika (B110B001) 12

Page 13: Sekų paieškos, sugretinimo ir analizės metodai

Panašių sekų taškų matrica

Bioinformatika (B110B001) 13

Page 14: Sekų paieškos, sugretinimo ir analizės metodai

Taškų matricos metodas (1)Taškų matricos gali būti naudojamos

pasikartojamumui vienoje sekoje įvertinti Tuomet abscisėje ir ordinatėje atidedama ta

pati sekaPanašūs sekos fragmentai grafike matosi kaip

ne pagrindinėje matricos įstrižainėje esančios linijos

Bioinformatika (B110B001) 14

Page 15: Sekų paieškos, sugretinimo ir analizės metodai

Taškų matricos metodas (2)Metodo modifikacija:

Pradiniai duomenys filtruojami naudojant slenkančio lango algoritmą

Vienu metu lyginami keli sekos simboliaiJeigu sutampančių simbolių skaičius lange

viršija tam tikrą slenkstinę reikšmę, matricoje padedamas taškas, o langas pasislenka per vieną simbolį į priekį

Naudojamas gretinant labai ilgas sekas

Bioinformatika (B110B001) 15

Page 16: Sekų paieškos, sugretinimo ir analizės metodai

Taškų matricos metodas (3)Sudėtingumas

Kvadratinis O(n2), kur n yra sekos ilgis, nes jame palyginamas kiekvienas vienos sekos simbolis su kiekvienu kitos sekos simboliu

PranašumaiLabai paprastasLeidžia vizualiai nustatyti tam tikrus sekų bruožus –

įterpimus, ištrynimus, pasikartojimus arba invertuotus pasikartojimus

Trūkumai: taškų matricos analizę vizualiai atlieka žmogussunku surasti optimalų sekų sugretinimąsunku įvertinti sugretinimo kokybędidelių sekų sugretinimui reikia daug laiko

Bioinformatika (B110B001) 16

Page 17: Sekų paieškos, sugretinimo ir analizės metodai

Porinio sugretinimo uždavinysDuota:

2 sekos,Dviejų sekos simbolių sutapimo (arba

nesutapimo) įvertinimo sistema,Baudos funkcija už tarpus sekoje.

 Rasti: optimalų sekų poros išdėstymą leidžiant į sekas

įterpti tarpus taip, kad būtų gaunama maksimali įvertinimo reikšmė.

Bioinformatika (B110B001) 17

Page 18: Sekų paieškos, sugretinimo ir analizės metodai

Porinis sekų sugretinimas (1)Sekų sugretinimas:

sekų išdėstymas taip, kad nustatyti panašius sekų fragmentus, kurių priežastis yra funkciniai, struktūriniai arba evoliuciniai ryšiai tarp sekų.

Interpretacija:Jei abi sekos turi bendrą protėvį, tada sekų

nesutapimus galima interpretuoti kaip mutacijų vietas, o tarpus – kaip įterpimo arba ištrynimo (indel) mutacijas, kurios atsirado skirtingose protėvio palikuonių šakose

Bioinformatika (B110B001) 18

Page 19: Sekų paieškos, sugretinimo ir analizės metodai

Porinis sekų sugretinimas (2)Panašumas tarp tam tikrą vietą sekoje

užimančių amino rūgščių gali būti interpretuojamas kaip sekos motyvas arba sekos fragmento konservatyvumas

Pakyčių nebuvimas arba tik labai konservatyvūs pokyčiai (t.y., vienos amino rūgštys pakeistos kitomis amino rūgštimis, kurios turi panašias biochemines savybes) reiškia, kad šis fragmentas yra svarbus funkcine arba struktūrine prasme

Bioinformatika (B110B001) 19

Page 20: Sekų paieškos, sugretinimo ir analizės metodai

Sutapimo įvertinimas

Bioinformatika (B110B001) 20

N

iii

ii

ii

tarpaiSSbauda

SStaškai

SStaškai

score1

,2,1

,2,1

,2,1

,,

,

,

Čia: S1 ir S2 – gretinamos sekos

Page 21: Sekų paieškos, sugretinimo ir analizės metodai

Įvertinimo matricos reikšmių parinkimasM. O. Dayhoff metodasSkaičiuojamas kiekvieno simbolio ir jų poros dažnis

sekoje:

i ir j – simboliai, pi ir pj – jų dažnis sekoje,

qij – i ir j simbolių poros dažnis sekoje,

Sij – vertinimo matricos elemento reikšmė

Teigiama Sij reikšmė reiškia, kad ši simbolių pora yra dažna sekoje, o neigiama – kad simbolių pora yra reta.

Bioinformatika (B110B001) 21

ji

ijij pp

qS log

Page 22: Sekų paieškos, sugretinimo ir analizės metodai

PAM matricosPAM (Percent Accepted Mutation) matricos

Amino rūgščių vertinimo matricos sudarytos pagal Dayhoff metodą

Matricos elementai reiškia tikimybę, kad stulpelio amino rūgštis bus pakeista eilutės amino rūgštimi

1 PAM vienetas atitinka apie 1% baltymo pokytį Standartinės PAM matricos

PAM1: sudaryta analizuojant 85% panašią baltymų aibę PAM100 matrica gauta 100 kartų sudauginus PAM1 matricą

PanašumaiPAM120: 40% panašumasPAM80: 50% panašumasPAM60: 60% panašumas

Bioinformatika (B110B001) 22

Page 23: Sekų paieškos, sugretinimo ir analizės metodai

PAM-250 matrica

Page 24: Sekų paieškos, sugretinimo ir analizės metodai

BLOSUM matricosBLOSUM (BLOcks SUbstitution Matrix)Realiai daugiausiai naudojamos Gautos ištyrus didelius baltymų sekų duomenų

kiekius. Sukonstruotos atlikus daugybinį proteinų

šeimynų palyginimą ir išskyrus sekų fragmentus be pertrūkio.

Išskirti sekų fragmentai buvo toliau apjungiami remiantis jų procentiniu panašumu.

BLOSUM su mažesniu skaičiumi naudojamos labiau nutolusioms sekoms sugretinti

Bioinformatika (B110B001) 24

Page 25: Sekų paieškos, sugretinimo ir analizės metodai

BLOSUM62 matrica Naudojama BLAST programoje Turi mažiausiai 62% tarpusavio panašumą Analogas yra PAM160 matrica

Bioinformatika (B110B001) 25

Page 26: Sekų paieškos, sugretinimo ir analizės metodai

BLOSUM ir PAM matricų palyginimas

Bioinformatika (B110B001) 26

Page 27: Sekų paieškos, sugretinimo ir analizės metodai

BLOSUM ir PAM matricų palyginimasBLOSUM: pagrįstas trumpais konservatyviais

sekų fragmentaisPagrįstas keliais evoliuciniais periodaisKiekviena marica konstruojama atskiraiSusijusių mutacijų tikimybės padidintosOvercounts related mutations

PAM: evoliucinis modelisPagrįstas trumpo evoliucijos periodo ekstrapoliavimuMatricų daugyba didina paklaidasLaikoma kad evoliucija yra tikimybinis Markovo

procesasSekų sudėtis gali labai skirtisRetų pakeitimų tikimybės užfiksuotos netiksliai

Page 28: Sekų paieškos, sugretinimo ir analizės metodai

Kokio tipo matricą naudotiPAM-1BLOSUM-100

Mažas evoliucinis atstumas

Didelis sutapimas tarp trumpų sekų

PAM-250

BLOSUM-20

• Didelis evoliucinis atstumas

• Mažas sutapimas tarp ilgų sekų

Page 29: Sekų paieškos, sugretinimo ir analizės metodai

Sugretinimo įvertinimasNormalizuojant suminis įvertinimą naudojama speciali

konstanta λ, kurios reikšmė apskaičiuojama sprendžiant lygtį:

Normalizuotas įvertinimas:

Tikimybė, kad surastas sekų sugretinimas yra atsitiktinis (E-reikšmė) apskaičiuojama pagal Karlin-Altschul formulę:

K – konstanta, m – gretinamos sekos ilgis, n – duomenų bazės dydis.

Bioinformatika (B110B001) 29

SS '

11 11 1

n

i

i

j

Sji

n

i

i

jij

ijeppq

SenmKE

Page 30: Sekų paieškos, sugretinimo ir analizės metodai

Sugretintų sekų vaizdavimo formatasVaizduojama grafiškai arba tekstiniu formatu Tekstiniame formate:

Tarpai įterpiami taip, kad panašūs fragmentai būtų tose pačiuose matricos stulpeliuose

Žvaigždutė arba vertikalus brūkšnelis rodo vienodus fragmentus.

Dvitaškis rodo konservatyvius amino rūgščių pakeitimus,Taškas rodo pusiau konservatyvius amino rūgščių pakeitimus.

Spalvos gali būti naudojamos parodyti įvairias amino rūgščių savybes

Gale rodoma apskaičiuota sugretinimo įvertinimo reikšmė

Bioinformatika (B110B001) 30

Page 31: Sekų paieškos, sugretinimo ir analizės metodai

ClustalPopuliariausia daugybinio sekų sugretinimo

programaParsisiuntimas, dokumentacija

http://www.clustal.org/ Internetinis serveris

http://www.ebi.ac.uk/Tools/clustalw2/index.htmlSugretinimo rezultato pavyzdys

Bioinformatika (B110B001) 31

Page 32: Sekų paieškos, sugretinimo ir analizės metodai

Globalus ir lokalus sekų sugretinimasSekų porų sugretinimo algoritmai:

globalaus sugretinimo algoritmai, lokalaus sugretinimo algoritmai“hibridiniai” sugretinimo metodai.

 Sekų porų sugretinimo problemai spręsti naudojami dinaminio programavimo, heuristiniaitikimybiniai metodai.

Bioinformatika (B110B001) 32

Page 33: Sekų paieškos, sugretinimo ir analizės metodai

Dinaminio programavimo metodai„Skaldyk ir valdyk“ principas:

Kai problema yra pernelyg sudėtinga išspręsti tiesiogiai, ją galima padalinti į mažesnes problemas, išspręsti jas atskirai ir apjungti mažesnių problemų sprendimo rezultatus

Garantuotai suranda optimalų sugretinimą esant duotai vertinimo funkcijai

Geros vertinimo funkcijos parinkimas yra atliekamas empiriškai

Bioinformatika (B110B001) 33

Page 34: Sekų paieškos, sugretinimo ir analizės metodai

Dinaminio programavimo metodaiEksponentinis sudėtingumas

Pernelyg lėtas lyginant daug sekų arba labai ilgas sekas

Paieškos erdvei sumažinti galima atlikti sekų sugretinimą poromis, o paskui ieškoti sugretinimo tik greta surastų optimalių sprendinių

Praktiškai naudojami:kai reikia atlikti labai kokybiškus nedidelio sekų

kiekio sugretinimus kaip naujų metodų įvertinimo standartas

Bioinformatika (B110B001) 34

Page 35: Sekų paieškos, sugretinimo ir analizės metodai

Globalus sekų sugretinimasGlobalaus sugretinimo algoritmai priklauso

globalaus optimizavimo algoritmų klasei. Jie ieško panašumo visame sekų ilgyje ir yra

naudojami, kai sekos yra beveik lygios ir apytiksliai tokio paties ilgio.

Plačiausiai naudojamas globalaus sugretinimo metodas yra Needleman-Wunsch algoritmas (1970 m. pasiūlė S. Needleman ir C. Wunsch)

Šio algoritmo sudėtingumas yra O(nm), kur n ir m – gretinamų sekų ilgiai.

Bioinformatika (B110B001) 35

Page 36: Sekų paieškos, sugretinimo ir analizės metodai

Needleman-Wunsch algoritmas1) Sukuriama ir užpildoma sugretinimo matrica (F-

matrica). Pirmoji matricos eilutė ir pirmasis stulpelis užpildomi spragos baudos daugikliais. Toliau matrica užpildoma naudojant rekurentinę lygtį: Fij = max(Fi − 1,j − 1 + S(Ai,Bj), Fi,j − 1 + d,Fi − 1,j + d)  F – sugretinimo matrica, S – sutapimo funkcija, d – spragos

bauda.

2) Randame geriausią įvertinimo reikšmę paskutinėje eilutėje arba paskutiniame stulpelyje.

3) Sugretinimas gaunamas rodyklėmis grįžtant nuo didžiausios reikšmės iki langelio su 0 reikšmę.

Bioinformatika (B110B001) 36

Page 37: Sekų paieškos, sugretinimo ir analizės metodai

1 žingsnio pseudokodas

Bioinformatika (B110B001) 37

for i=0 to length(A)-1 F(i,0) <- d*i for j=0 to length(B)-1 F(0,j) <- d*j for i=1 to length(A) for j = 1 to length(B) { Choice1 <- F(i-1,j-1) + S(A(i), B(j)) Choice2 <- F(i-1, j) + d Choice3 <- F(i, j-1) + d F(i,j) <- max(Choice1, Choice2, Choice3) }

Page 38: Sekų paieškos, sugretinimo ir analizės metodai

3 žingsnio pseudokodas

38

AlignmentA <- "" AlignmentB <- "" i <- length(A) - 1 j <- length(B) - 1 while (i > 0 AND j > 0) { Score <- F(i,j) ScoreDiag <- F(i - 1, j - 1) ScoreUp <- F(i, j - 1) ScoreLeft <- F(i - 1, j) if (Score == ScoreDiag + S(A(i), B(j))) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- B(j-1) + AlignmentB i <- i - 1 j <- j - 1 } else if (Score == ScoreLeft + d) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- "-" + AlignmentB i <- i - 1 } otherwise (Score == ScoreUp + d) { AlignmentA <- "-" + AlignmentA AlignmentB <- B(j-1) + AlignmentB j <- j - 1 } } while (i > 0) { AlignmentA <- A(i-1) + AlignmentA AlignmentB <- "-" + AlignmentB i <- i - 1 } while (j > 0) { AlignmentA <- "-" + AlignmentA AlignmentB <- B(j-1) + AlignmentB j <- j - 1 }

Page 39: Sekų paieškos, sugretinimo ir analizės metodai

PavyzdysTarkime turime, dvi sekas AACG ir AGGC. Spragos bauda yra lygi -1, Sutapimo premija +1, o Nesutapimo įvertinimas 0.

Bioinformatika (B110B001) 39

Page 40: Sekų paieškos, sugretinimo ir analizės metodai

Matricos paruošimas

Bioinformatika (B110B001) 40

A A C G

A

-3 -4

G

G

C

-1

-2

-3

-2-10

-4

Page 41: Sekų paieškos, sugretinimo ir analizės metodai

Po pirmo žingsnio

Jeigu rodyklė rodo įstrižai, ji reiškia sugretinimą tarp dviejų sekų.

Jeigu rodyklė vertikali, ji rodo spragą viršuje užrašytoje sekoje.

Jeigu rodyklė yra horizontali, ji rodo spragą kairėje užrašytoje sekoje.

Bioinformatika (B110B001) 41

A A C G

A

-3 -4

G

G

C

-1

-2

-3

1

0

-1

0

1

0

-1

0

1

-2

0

1

-2-10

-4 -2 -1 1 1

Page 42: Sekų paieškos, sugretinimo ir analizės metodai

Lokalus sugretinimasGlobalus sugretinimas ne visada leidžia pasiekti

norimus rezultatus, kadangi sudėtinga gauti teisingus sugretinimus tarp tolimai susijusių sekų

Lokalaus sugretinimo algoritmai naudojami lyginant ilgas nepanašias sekas, kuriose gali būti panašių fragmentų

Smith-Waterman algoritmasDinaminio programavimo algoritmasGlobalaus Needleman-Wunsch algoritmo variantasgarantuotai suranda optimalų lokalų sugretinimą

duotai vertinimo sistemai

Bioinformatika (B110B001) 42

Page 43: Sekų paieškos, sugretinimo ir analizės metodai

Smith-Waterman algoritmasGaunamas iš globalaus sugretinimo algoritmo atlikus

šiuos pakeitimus: Matricoje negali būti neigiamų reikšmių. Jeigu reikšmė yra

neigiama, vietoje jos yra rašomas 0. Didžiausias įvertinimas ieškomas visoje sugretinimo matricoje, o

ne tik paskutinėje eilutėje arba paskutiniame stulpelyje. Dalinis sugretinimas gaunamas rodyklėmis grįžtant nuo

didžiausios reikšmės iki langelio su 0 reikšmę.

Sudėtingumas: O(mn), kur m ir n yra gretinamų sekų ilgiai.

Praktiškai vietoje Smith-Waterman algoritmo naudojamas BLAST algoritmas, kuris yra žymiai efektyvesnis, nors ir negarantuoja optimalaus sprendinio suradimo.

Bioinformatika (B110B001) 43

Page 44: Sekų paieškos, sugretinimo ir analizės metodai

Praktinis algoritmų išbandymasB.A.B.A.http://

baba.sourceforge.net/

Bioinformatika (B110B001) 44

Page 45: Sekų paieškos, sugretinimo ir analizės metodai

Sugretinimo patikimumo įvertinimasLokalaus sugretinimo statistinį

patikimumą galima įvertinti naudojant Karlin-Altschul statistinį modelį.

Jeigu dviejų sekų lokalaus sugretinimo E-reikšmė yra labai maža, tikėtina, kad dvi nagrinėjamos sekos yra homologinės, t.y galėjo turėti bendrą protėvį.

Bioinformatika (B110B001) 45

Page 46: Sekų paieškos, sugretinimo ir analizės metodai

Hibridiniai sugretinimo metodaiHibridiniai (pusiau globalūs, glokalūs) metodai bando surasti

geriausią sugretinimą, kuris apima vienos ar kitos sekos pradžią ar pabaigą

Naudingi, kai vienos sekos galas persidengia su kitos sekos pradžia

Tokiu atveju globalaus ir lokalaus sugretinimo metodai netinkami: globalaus sugretinimo met. bandys lyginti sekas ir už persidengimo

ribų lokalaus sugretinimo metodas nevisiškai apims persidengiantį

fragmentąNaudojami dinaminio programavimo metodai Paskiriama pakeitimų matrica, kurioje surašomi amino rūgščių

sutapimų vertinimo taškai ir spragos bauda už praleistą sekos simbolį

Bioinformatika (B110B001) 46

Page 47: Sekų paieškos, sugretinimo ir analizės metodai

Žodiniai sugretinimo metodai (1)Žodiniai (k-kortežo) metodai:

negarantuoja optimalaus sugretinimo sprendimo suradimožymiai efektyvesni negu dinaminio programavimo metodai

Naudingi atliekant didelio mąsto paiešką duomenų bazėse, kuriose labai daug sekų praktiškai neturės jokio panašumo su lyginama seka

Realizuoti FASTA ir BLAST įrankiuose

Bioinformatika (B110B001) 47

Page 48: Sekų paieškos, sugretinimo ir analizės metodai

Žodiniai sugretinimo metodai (2)Algoritmas:

Pirmiausiai lyginamoje sekoje nustatomas trumpų nepersidengiančių fragmentų (“žodžių”) rinkinys

Žodžiai lyginami su duomenų bazėje saugomomis sekomis.

Santykinės dviejose lyginamose sekose esančio žodžio padėtys yra atimamos ir gaunamas poslinkis.

Jeigu daug skirtingų žodžių turi tą patį poslinkį, vadinasi sekos turi panašų fragmentą.

Aptikus panašų fragmentą taikomi jautresni sugretinimo kriterijai.

Bioinformatika (B110B001) 48

Page 49: Sekų paieškos, sugretinimo ir analizės metodai

BLAST algoritmas (1)BLAST (Basic Local Alignment Search Tool)

Algoritmas (ir programų šeimyna) leidžiantis atlikti pirminių biomolekulinių sekų palyginimą.

Paieška leidžia palyginti užklausos seką su žinomų sekų duomenų seka ir nustatyti duomenų bazės sekas, kurios yra labiausiai panašios į užklausos seką.

Naudoją heuristinį metodą sukurtą Smith-Waterman algoritmo pagrindu

Ne toks tikslus, kaip Smith-Waterman algoritmas, tačiau 50 kartų greitesnis

Viena iš plačiausiai naudojamų bioinformatikos programų.

Bioinformatika (B110B001) 49

Page 50: Sekų paieškos, sugretinimo ir analizės metodai

BLAST algoritmo principas

Bioinformatika (B110B001) 50

Page 51: Sekų paieškos, sugretinimo ir analizės metodai

BLAST algoritmas (2)BLAST algoritmas yra sudarytas iš 3 etapų:

Sėjimas. BLAST ieško tikslių W (W – mažas skaičius) ilgio sutapimų tarp užklausos sekos ir duomenų bazėje saugomų sekų. Surasti fragmentai yra vadinami „sėklomis“.

Išplėtimas. BLAST bando išplėsti sutampantį fragmentą be spragų abejomis kryptimis, kad padidinti sugretinimo įvertinimą. Įterpimai ir ištrynimas šio etapo metu dar nenagrinėjami.

Įvertinimas. Radus aukštą sugretinimo reikšmę BLAST naudodamas Smith-Waterman algoritmą atlieką sugretinimą įvedant spragas. Statistikai reikšmingi sugretinimai yra išvedami vartotojui.

Bioinformatika (B110B001) 51

Page 52: Sekų paieškos, sugretinimo ir analizės metodai

BLAST algoritmas (3)Gaunamas paieškos rezultatas yra sudarytas iš:

Užklausos apžvalga – vartotojo užklausos apibendrinimas.Toliau išvardijami BLAST įrankio surasti reikšmingi

panašumai. Nurodomas sekos kodas duomenų bazėje, sekos pavadinimas, sugretinimo rezultatas ir tikimybės reikšmė. Sugretinimo rezultatas rodo sekų panašumą, tačiau biologinės prasmės neturi. E-reikšmė rodo tikimybę, kad surastas panašumas yra atsitiktinis. Mažesnė negu 0,001 E-reikšmė rodo, kad tarp sekų tikriausiai yra evoliucinis ryšys.

Po kiekvieno surasto reikšmingo panašumo pateikiami detalūs kiekvieno sugretinimo rezultatai, iš kurių yra skaičiuojama E-reikšmė

Pabaigoje pateikiami statistiniai rezultatai

Bioinformatika (B110B001) 52

Page 53: Sekų paieškos, sugretinimo ir analizės metodai

BLAST statistinės paieškos rezultatai1) Naudotos duomenų bazės, 2) užklausos data, 3) simbolių ir sekų skaičius duomenų bazėje, 4) statistinio parametro λ reikšmė, 5) naudota matrica, 6) sugretinimo metu naudojami svoriniai

koeficientai, 7) sekų statistika, 8) paieškos statistika, 9) kiti statistiniai paieškos parametrai.

Bioinformatika (B110B001) 53

Page 54: Sekų paieškos, sugretinimo ir analizės metodai

Daugybinis sekų sugretinimas (1)Naudojamas:

Konservatyvių sekų fragmentų nustatymui duotoje sekų aibėje, kai turima daugiau negu dvi sekos. Tokie fragmentai gali padėti nustatyti katalitiškai aktyvias enzimų vietas.

Evoliucinių ryšių tarp organizmų nustatymas konstruojant filogenetinius medžius.

Naudojami metodai:dinaminio programavimo, progresyviniai, iteraciniai, motyvų suradimo metodai, paslėpti Markovo modeliai,genetiniai algoritmai.

Bioinformatika (B110B001) 54

Page 55: Sekų paieškos, sugretinimo ir analizės metodai

Daugybinis sekų sugretinimas (2)Naudojant dinaminio programavimo metodą:

Sukonstruojama n-matė sekos matrica, kur n yra sekų skaičius

Visos sekos yra lyginamos poromis ir užpildoma visa “sugretinimų erdvė”.

Sudėtingumas: eksponentinisPranašumas:

Garantuotai suranda geriausią sugretinimo sprendimą

Trūkumas:Reikalauja daug skaičiavimo laiko ir kompiuterio

atminties, todėl yra retai naudojamas lyginant daugiau negu 3-4 sekas

Praktikoje naudojami įvairūs euristiniai metodaiBioinformatika (B110B001) 55

Page 56: Sekų paieškos, sugretinimo ir analizės metodai

Progesyviniai metodai (1)Progresyviniai (hierarchiniai) metodai:

Pirmiausiai sulygina panašiausias sekasLygina poromis vis mažiau panašias sekas tol, kol

sprendimas apima visas lyginamas sekasArtimiausios poros nustatymui yra naudojamas

klasterizavimo metodas, pvz.., kaimynų apjungimo algoritmas

Progresyvinis metodas naudojamas Clustal įrankyje, kuris atlieka filogenetinių medžių konstravimą ir baltymų struktūrų prognozavimą

Bioinformatika (B110B001) 56

Page 57: Sekų paieškos, sugretinimo ir analizės metodai

Progesyviniai metodai (2)Pranašumas:

Progresyviniai metodai efektyvūs gretinant daug ilgų sekų

Trūkumai:Didelė priklausomybė nuo pradinių

sugretinimų poromis tikslumo, pradinio sugretinimo rezultatų ir nuo sekų pasiskirstymo aibėje pagal panašumą

Negarantuoja globalaus sprendinio suradimo

Bioinformatika (B110B001) 57

Page 58: Sekų paieškos, sugretinimo ir analizės metodai

Iteraciniai metodaiVeikia panašiai kaip progresyviniai metodaiSkirtumai:

gali sugrįžti prie savo anksčiau atliktų sugretinimų poromis gali optimizuoti savo tikslo funkcijos svorinius koeficientus

Optimizavimui naudojamas laiptinis (hill-climbing) algoritmas, kuris leidžia surasti lokalų optimumą

Tikslesni negu progresyviniai metodai, tačiau mažesnio greičio sąskaita

Geriausiai naudoti jau atlikto sugretinimo pagerinimui, kai pirminis sugretinimas yra atliekamas naudojant kokį nors greitą algoritmą

Bioinformatika (B110B001) 58

Page 59: Sekų paieškos, sugretinimo ir analizės metodai

Sekų sugretinimo įvertinimasSekų sugretinimas naudojamas:

sekų panašumų nustatymui, filogenetinių medžių konstravimui ir baltymų struktūrų homologijų modelių kūrimui.

Biologinė sekų sugretinimų reikšmė nėra visada aiški. Sekų panašumą galima paaiškinti konverguojančia evoliucija,

kai evoliuciškai tarpusavyje nesusiję baltymai atlieka panašias funkcijas ir turi panašią struktūrą.

Rezultatų patikimumasAtsitiktinio sugretinimo tikimybė didėja, jeigu duomenų bazė

yra sudaryta tik iš to paties organizmo sekų. Pasikartojančios sekos duomenų bazėje arba užklausoje gali

iškreipti paieškos rezultatus ir statistinio reikšmingumo įvertinimą.

Bioinformatika (B110B001) 59

Page 60: Sekų paieškos, sugretinimo ir analizės metodai

Prof. Robertas DamaševičiusKTU Programų inžinerijos katedra,

Studentų 50-409aEmail: robertas.damasevicius(at)ktu.lt

Page 61: Sekų paieškos, sugretinimo ir analizės metodai

Filogenetinė analizė (1)Tikslas: nustatyti evoliucinius sąryšius tarp

organizmus ir atvaizduoti juos kaip filogenetinį medį.

Filogenetinis (evoliucinis) medis: medis parodantis evoliucinius ryšius tarp įvairių rūšių, kurie manoma turi bendrą protėvįKiekvienas mazgas atitinka jo šakų protėvįšakų ilgis kartais atitinka laiko vienetus.

Bioinformatika (B110B001) 61

Page 62: Sekų paieškos, sugretinimo ir analizės metodai

Filogenetinė analizė (2)Filogenetinių medžių tipai:

šakninis medis yra kryptinis medis su unikaliu mazgu, atitinkančiu bendrą visų medžio lapų protėvį;

bešaknis medis tik iliustruoja medžio lapų panašumą, tačiau nedaro prielaidų apie jų protėvius.

Filogenetinių medžių vaizdavimui naudojamos diagramos:Dendrograma yra bet kokio tipo filogenetinį medį

vaizduojanti diagrama.Kladograma yra diagrama, kurioje vaizduojamas tik

medžio šakojimasis, tačiau nėra vaizduojamas laikas.Filograma – diagrama, kurioje vaizduojamas evoliucinių

pasikeitimų skaičius.

Bioinformatika (B110B001) 62

Page 63: Sekų paieškos, sugretinimo ir analizės metodai

Bioinformatika (B110B001) 63

Kladograma/dendrograma

Filograma

Page 64: Sekų paieškos, sugretinimo ir analizės metodai

Evoliucinių medžių sudarymasFilogenetinių medžių sudarymą tiria skaičiuojamoji

filogenetikaNagrinėja skaičiavimo algoritmų, metodų ir programų

taikymą filogenetinei analizei atlikti. Tikslas: sukonstruoti filogenetinį medį, atvaizduojantį

hipotetinį evoliucinį ryšį tarp genų arba atskirų rūšių.

Problemos:Daugybinis sekų sugretinimas tarp genų arba amino rūgščių

sekų. Panašumo (homologijos) tarp sekų apibrėžimas.

Godumo (parsimony) principas trumpiausias hipotetinis pokyčių kelias, kuris paaiškina

dabartinį fenotipą laikomas tikėtiniausiu evoliuciniu keliu.

Bioinformatika (B110B001) 64

Page 65: Sekų paieškos, sugretinimo ir analizės metodai

Evoliucinių medžių tipaiMinimalaus maksimumo evoliuciniai medžiai

– minimizuojama maksimali reikšmė.Minimalios sumos evoliuciniai medžiai –

minimizuojama bendroji atstumų tarp visų lapų suma.

Minimalaus dydžio evoliuciniai medžiai – minimizuojamas bendrasis medžio ilgis.

Čia apibrėžia atstumą tarp si ir sj evoliuciniame medyje, o - atstumą tarp si ir sj atstumų matricoje.

Bioinformatika (B110B001) 65

),( ji ssdt

),( ji ssd

)),(),(( jiji ssdssdt

Page 66: Sekų paieškos, sugretinimo ir analizės metodai

Filogenetinių medžių sudarymo algoritmai (1)

Atstumų matricos metodai remiantis biomolekulinių sekų daugybinio sugretinimo rezultatais apskaičiuoja genetinį atstumą tarp tiriamų organizmų Kaimynų apjungimo metodasUPGMA (Unweighted Pair Group Method with Arithmetic

Mean) metodas Iš turimų sekų yra sukonstruojama atstumų matrica, iš kurios

yra konstruojamas filogenetinis medis. Medžio šakų ilgis atkartoja stebimus atstumus tarp sekų. Pranašumai: lengva realizuoti, nenaudoja jokio specialaus

evoliucinio modelio. Trūkumas: negalima efektyviai panaudoti informacijos apie

aukšto kintamumo sekų sritis.

Bioinformatika (B110B001) 66

Page 67: Sekų paieškos, sugretinimo ir analizės metodai

Filogenetinių medžių sudarymo algoritmai (2)Evoliuciniu modeliu grįsti metodai naudoja

aiškų evoliucijos modelį. Maksimalaus godumo metodasŠakų ir ribų (Branch and bound) algoritmasFitch-Margoliash metodasMaksimalaus panašumo metodas

Bioinformatika (B110B001) 67

Page 68: Sekų paieškos, sugretinimo ir analizės metodai

Šakų ir ribų algoritmasNaudojamas artimų optimaliam sprendimų paieškos

efektyvumui padidinti. Labai gerai tinka filogenetinių medžių konstravimo

problemai spręsti, nes padalina probleminę sritį į medžio struktūros mažesnes posritis.

Įvestis yra šakojimosi taisyklė (naujai pridedama seka) ir riba (taisyklė, kuri pašalina tam tikras paieškos srities dalis laikant, kad juose negali būti optimalaus sprendimo).

Ribų nustatymui galima taikyti Zharkikh taisykles, kurios apriboja paieškos erdvę apibrėždamos „godžiausių“ medžių charakteristikas: 1) pašalinti visas besidubliuojančias sekas (išskyrus

vieną)2) pašalinti visus fragmentus, kurie neatsikartoja

mažiausiai dviejose rūšyse. Bioinformatika (B110B001) 68

Page 69: Sekų paieškos, sugretinimo ir analizės metodai

Fitch-Margoliash metodasKlasterizavimui naudoja svorinį mažiausių kvadratų

metodą. Medžio konstravimo metu artimoms sekoms yra

suteikiamas didesnis svoris, kad ištaisyti didesnį atstumų matavimo netikslumą tarp tolimų sekų.

Jeigu sekų evoliucijos greičiai skiriasi, atstumus reikia koreguoti

Duomenų korekcijai naudojama pakitimų matrica gautą iš Jukes-Cantor DNR evoliucijos modelio.

Metodas yra tikslesnis negu kaimynų apjungimo metodas, tačiau ne toks efektyvus (sudėtingumas -eksponentinis).

Bioinformatika (B110B001) 69

Page 70: Sekų paieškos, sugretinimo ir analizės metodai

Maksimalaus panašumo metodasPanašus į maksimalaus godumo metodą, tačiau

evoliucijos greitis skirtingose šakose gali skirtis. Naudoja standartinius statistinius metodus skirtus

tikimybių reikšmių priskyrimui galimiems filogenetiniams medžiams.

Naudoja pakeitimų modelį, kuriame įvertinama tam tikrų mutacijų galimybė.

Medis, kuriam suformuoti reikia daugiau mutacijų, yra laikomas mažiau tikėtinu.

Gerai tinka tolimai susijusių sekų analizei, tačiau kadangi reikia atlikti pilną paiešką medyje, jis retai naudojamas daugiau negu su keliomis sekomis.

Bioinformatika (B110B001) 70

Page 71: Sekų paieškos, sugretinimo ir analizės metodai

Newick formatasFilogenetiniai medžiai gali būti atvaizduojami

kompiuterio skaitomu formatu naudojant Newick formatą.

Šiame formate naudojami tokie specialūs simboliai:skliaustai ( ... ) – reiškia visą medį arba atskirą

pomedį;kablelis – atskiriamos medžio šakos;dvitaškis – naudojamas šakos ilgiui nurodyti;kabliataškis – žymi medžio pabaigą.

Bioinformatika (B110B001) 71

Page 72: Sekų paieškos, sugretinimo ir analizės metodai

Newick formato gramatinis aprašasmedis => palikuonių_sąrašas [ žymė ] [ :

šakos_ilgis ] ;palikuonių_sąrašas => ( pomedis { , pomedis } )pomedis => palikuonių_sąrašas [ žymė ] [ : šakos_ilgis ] | lapaslapas => žymė [ : šakos_ilgis ]žymė => simbolių_eilutėšakos_ilgis => skaičius

Rodyklė => reiškia gramatinę taisyklę; laužtiniais skliaustais [ ] skiriamos nebūtinos gramatinės taisyklės

dalys; riestiniais skliaustais { } skiriamos dalys, kurios gali kartotis daug

kartų; vertikalus brūkšnys | reiškia alternatyvą.

Bioinformatika (B110B001) 72

Page 73: Sekų paieškos, sugretinimo ir analizės metodai

Filogenetinio medžio pavyzdys

((simpanze,zmogus),((orangutangas,gibonas),gorila));

Bioinformatika (B110B001) 73