Diplomski rad - Odjel Za Matematikumdjumic/uploads/diplomski/KER05.pdfutjecaja na mehanizme...

44
Sveuˇ ciliˇ ste J. J. Strossmayera u Osijeku Odjel za matematiku Ivana Kerˇ sek Wright - Fisherov model Diplomski rad Mentor: prof. dr. sc. Mirta Benˇ si´ c Komentor: dr. sc. Nenad ˇ Suvak Osijek, 2011.

Transcript of Diplomski rad - Odjel Za Matematikumdjumic/uploads/diplomski/KER05.pdfutjecaja na mehanizme...

  • Sveučilǐste J. J. Strossmayera u OsijekuOdjel za matematiku

    Ivana Keršek

    Wright - Fisherov model

    Diplomski rad

    Mentor: prof. dr. sc. Mirta BenšićKomentor: dr. sc. Nenad Šuvak

    Osijek, 2011.

  • SADRŽAJ i

    Sadržaj

    1 Uvod ii

    2 Osnovni pojmovi genetike 12.1 DNK i ”ATCG” abeceda života . . . . . . . . . . . . . . . . . 12.2 Evolucija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.2.1 Mutacija . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2.2 Selekcija . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2.3 Genetički drift . . . . . . . . . . . . . . . . . . . . . . . 6

    3 Wright - Fisherov model 113.1 Osnovni pojmovi teorije Markovljevih lanaca i martingala . . . 113.2 Wright - Fisherov model bez mutacija . . . . . . . . . . . . . . 153.3 Wright - Fisherov model s mutacijama . . . . . . . . . . . . . 243.4 Moranov model . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4 Primjer Wright - Fisherovog modela 32

    Sažetak iii

    Summary iv

    Životopis v

  • 1 UVOD ii

    1 Uvod

    Zamislimo da u posudi imamo konačan broj kuglica crvene i zelene boje.Sada izvlačimo jednu po jednu kuglicu, ”kopiramo” ju, stavimo u drugu po-sudu i vratimo original natrag sve dok ne dosegnemo broj kuglica iz prveposude. Frekvencije zelenih i crvenih kuglica u dvije posude mogu se, ali ine moraju razlikovati. Postavimo pitanje hoće li se frekvencija zelenih ku-glica povećati, smanjiti ili biti jednaka kao u prvoj posudi, ako se smanjiili poveća, za koliko će to biti, u kojem omjeru će se razlikovati? Na ovapitanja ne možemo odgovoriti sa sigurnošću, no možemo predvidjeti vjero-jatnosti različitih odstupanja. Isti vjerojatnosni princip uzimanja uzorakajavlja se u evoluciji. Svaka naredna generacija može nasljediti sve osobinekao i početna generacija, a neke osobine mogu prevladavati, kako i u kojemomjeru ne znamo, možemo samo predvidjeti vjerojatnosti odredenih ishodaza svaku generaciju u odnosu na početnu.

    ”Evolucija je stohastički proces promjene frekvencija gena u prirodnim po-pulacijama.”Motoo Kimura, japanski biolog

    Populacijska genetika je grana biologije koja osigurava matematičku struk-turu za proučavanje procesa mikroevolucije, tj promjena koje se odvijaju narazini gena. Stohastički procesi imaju veliku važnost u genetici. Tako sestohastički procesi u populacijskoj genetici koriste npr. za modeliranje pro-mjene frekvencije gena u populaciji od jedne do druge generacije. Popula-cijski genetičari odavno su uvidjeli važnost stohastičkih procesa u nastankui održavanju genetičke varijabilnosti, ali nisu se uvijek slagali oko njihovogutjecaja na mehanizme evolucije. Rad dvojice velikih znanstvenika SeawellWrighta i R.A. Fishera označio je početak kvantitativne teorije o ulozi ge-netičkog drifta u evolucijskom procesu. Wright - Fisherov model zauzimasredǐsnju ulogu ove teorije i formira početnu točku za primjenu molekularnepopulacijske genetike. Wright - Fisherov model dodatno je generaliziran te jeprimjenjen u mnogim područjima biološke znanosti. Čudno je što je Wrighttvrdio da su slučajni procesi neophodni za svaki aspekt evolucije, dok je Fi-sher imao suprotan stav da slučajni procesi imaju manju ulogu pri stvaranjurijetkih novih varijacija.

    U ovom radu opisan je Wright - Fisherov model, daleko najpoznatiji sto-hastički model za reprodukciju u populacijskoj genetici.U prvom djelu dane su definicije koje su potrebne za razumjevanje genetičkogdjela ovog diplomskog rada. Definirana je DNA molekula te dušične baze, tj

  • 1 UVOD iii

    nukleotidi. Nakon toga definiran je pojam evolucije te su opisane osnovne silekoje remete nasljednu ravnotežu : mutacija, selekcija i genetički drif koji jedetaljnije opisan. U drugom djelu dani su osnovni pojmovi teorije Markovlje-vih lanaca i martingala zatim je obraden Wright - Fisherov model populacijabez mutacije, zatim u populaciji s mutacijama te je na kraju opisan i Mora-nov model preklapajućih generacija u kojem se samo jedna jedinka, tj jedanalel mijenja tijekom vremena.U posljednjem poglavlju dan je numerički primjer Wright - Fisherovog mo-dela.

  • 2 OSNOVNI POJMOVI GENETIKE 1

    2 Osnovni pojmovi genetike

    2.1 DNK i ”ATCG” abeceda života

    DNK (deoksiribonukleinska kiselina) je složena, vrlo dugačka, nitasta ma-kromolekula, polimer sastavljen od mnogo malih jedinica - nukleotida, na-nizanih jedan iza drugoga u dva lanca, omotana jedan oko drugoga. Dvapolinukleotidna lanca molekule DNK zavijena su oko zajedničke osi. Takvustrukturu DNK nazivamo dvostrukom zavojnicom. Dušične baze su adenin(A), gvanin (G), citozin(C) i timin (T) i nalaze se na unutarnjoj strani mo-lekule, a vanjsku okosnicu DNK, nepromjenjivu duž cijele molekule, činedeoksiriboze medusobno povezane preko fosfatnih skupina.Primjer:DNK nizove shvatit ćemo kao realizaciju niza nezavisnih slučajnih varijabliX1, . . . , Xn s vrijednostima u skupu {A,C, T,G}Promatramo DNK spiralnu nit AAATTTGTGImamo slučajan proces X = {Xt, t ∈ N0} sa skupom stanja {A,C, T,G}Npr. jedna realizacija je:

    X(0) = A, X(1) = A, X(2) = A, X(5) = T, X(8) = G

    Slika 2.1 Dio jedne trajektorije procesa X sa skupom stanja {A,C, T,G}

    Lanci su komplementarni, to jest suprotnog su usmjerenja. Vodikove vezekoje povezuju baze na dva komplementarna lanca uvijek nastaju na isti način– adenin s jednog lanca uvijek se sparuje s timinom na komplementarnomlancu, a citozin s gvaninom.Primjer:Ako je djelić jedne spiralne niti AAGTCA, tada je ekvivalentan dio drugespirale TTCAGT.U normalnim uvjetima nije moguće sparivanje baza po bilo kojoj drugojshemi. Slijed baza duž polinukleotidnog lanca nije ničime ograničen i on

  • 2 OSNOVNI POJMOVI GENETIKE 2

    čini promjenjivi dio molekule, upravo izmjene navedenih baza ili razlika ubroju ponavljanja parova baza koje imaju odreden redoslijed čine osnovuutvrdivanja identiteta odredene osobe. Svaki pojedinačni kontakt izmedunavedenih jedinica naziva se par baza, a cijeli ljudski genom1 ima oko 3 mili-jarde parova baza.Ovakva struktura dviju spiralnih niti DNK omogućava prenošenje informa-cije dijeljenjem kromosoma pri diobi stanice. Kada se stanica treba podije-liti, kromosomske niti se razmotaju. Budući da u jezgri stanice ima mnoštvoslobodnih baza, te baze se vežu na svoje parove na nitima DNK. Tako jeinformacija sačuvana, kopirana i prenesena na dva novonastala kromosoma.Dva lanca u molekuli DNK su antiparalelni - usmjereni su u suprotnim smje-rovima odredenim slobodnim 5’ (jedan kraj sadrži fosfatnu grupu, tzv. 5’kraj ), odnosno 3’ (drugi kraj DNK polimera sadrži hidroksilne skupine nadeoksiribozu, tzv. 3’ kraj ) skupinama deoksiriboze.

    Slika 2.2 Struktura i replikacija DNK lanca

    Aminokiseline su osnovne strukturne jedinice proteina. Svi proteini u svimorganizmima, od bakterija do ljudi, izgradeni su od 20 aminokiselina. Ge-netska šifra sadržana u DNK mora biti na neki način zapisana linearnimredosljedom dušičnih baza duž polinukleotidnog lanca. Dovoljno je proma-

    1Genom nekog organizma su svi njegovi nasljedni podaci kodirani u DNK

  • 2 OSNOVNI POJMOVI GENETIKE 3

    trati samo redoslijed u jednom lancu, jer je drugi lanac prvome komple-mentaran. Taj redoslijed nukleotida naziva se genetički kod, a sastoji se odtri nukleotida i naziva se kodon kojeg opisujemo trima slovima imena baza(npr. ACT, CAG, TTT). Moguća su 64 kodona, broj svih varijacija trećegrazreda s ponavljanjem skupa od 4 elementa (V ′r (n) = n

    r) koji kodiraju 20aminokiselina, to jest triplet nukleotida nosi informaciju o vrsti aminokise-line. Rezultati istraživanja koja kombinacija u jednom tripletu predstavljaodredenu aminokiselinu prikazani su u Tablici 2.1

    Tablica 2.1 Tablica genetske šifre

    Primjer :Niz AUG UCC UAU AUC GUU UAA predstavlja lanac sljedećih aminoki-selina: Ser - Tyr - Ile -Val. Genetska šifra AUG predstavlja znak za početak,a UAA za završetak lanca aminokiselina.

    Organizmi mogu imati različit broj kopija svog genetskog materijala. Nižiorganizmi, poput bakterija, su haploidni - imaju jednu kopiju svog genetskogmaterijala. Većina vǐsih organizama su diploidni - organizmi koji imaju čitavset kromosoma prisutan u dvije kopije. Neke biljke su tetraploidne (4 kopije)i heksaploidne (6 kopija) ili polipolidne (vǐse kopija, npr. sirak koji ima vǐseod 100 kromosoma 8 osnovnih tipova).Rekombinacija je izmjena genetičkih informacija. Kod reprodukcije haploid-nih organizama, postoji jedan roditelj koji daje kopije svog genetskog kodaza svoje potomstvo, a kod reprodukcije diploidnih organizama postoje dva

  • 2 OSNOVNI POJMOVI GENETIKE 4

    roditelja, jedan kromosom je od oca, a drugi od majke. Dakle, za svako svoj-stvo postoje dva gena ili dvije informacije. Takav par gena gdje jedan i drugigen nose informaciju za jedno svojstvo naziva se alel. Svaki gen ima svojeodredeno mjesto na kromosomu. U diploidnoj stanici postoje dva alela odsvakog gena koji se nalaze na homolognim kromosomima, od kojih je svakinaslijeden od jednog roditelja. Aleli se označavaju velikim i malim slovimaabecede npr. a ili A. Otac genetike, češki redovnik Gregor Mendel, u vrijemesvojih istraživanja nije znao za gene, nego ih je zvao faktorima naslijeda. Pri-mijetio je takoder da neki faktori prevladavaju nad drugima. Jedinka moženositi dva jednaka alela za jedno svojstvo pa se tada naziva homozigot (AAili aa), a ukoliko su aleli različiti, onda je to heterozigot (Aa). Mendel jekrižanjem graška visoke i niske stabljike uočio da se u prvoj generaciji po-javljuju biljke s visokim stabljikama. Kada je križao biljke prve generacijemedusobno, u idućoj je generaciji bilo i visokih i niskih stabljika. Tako je onzaključio da za jedno svojstvo postoje dva alela (on ih je nazvao nasljednimfaktorima). Kako se svojstvo nekad pojavi, a nekad ne, zaključio je da morapostojati razlika u jačini njihova izražavanja u fenotipu. Tako je one koji pre-valadavaju nazvao dominantnima (označavaju se velikim slovima abecede),a one potisnute recesivnima (označavaju se malim slovima abecede).Primjer:Smeda boja očiju je dominantno, a plava boja očiju recesivno svojstvo.Netko može nositi gen za boju očiju koji se sastoji od alela za smede A ialela za plave oči a. U tom slučaju, oči će biti smede jer je smeda boja očijudominantna nad plavom.

    Često je prisutno pogrešno shvaćanje da je dominantan alel uvijek češći upopulaciji dok je recesivan onaj koji je rjedi. Suprotno tomu danas znamoda - kao što kaže G.H. Hardy (1908) : ”Nema ni najmanjeg temelja idejida bi dominantno obilježje trebalo pokazivati tendenciju širenje na čitavupopulaciju, odnosno, da bi recesivno obilježje trebalo ǐsčeznuti. Učestalostgena može biti visoka ili niska bez obzira kakva je ekspresija toga alela.”Fitnes je općenita sposobnost organizma da preživi i reproducira se. Fitnespredstavlja reproduktivni uspjeh organizma, jedinke koje su sposobnije u re-produkciji i pronalasku hrane te preživljavanjem imaju veći reproduktivniuspjeh to jest fitnes.Diploidne jedinke imaju dvije kopije svog genetskog materijala u svakoj sta-nici, tj. u svakoj stanici postoje dva alela za odredeno svojstvo, stoga kadaimamo N stanica to znači da imamo N parova alela, tj. 2N alela .Slučajno razmnožavanje - u prirodnim populacijama dolazi do panmiksije ilislučajnog razmnožavanja što znači da svaka jedinka populacije ima jednakuvjerojatnost da se razmnožava s bilo kojim drugom jedinkom populacije su-

  • 2 OSNOVNI POJMOVI GENETIKE 5

    protnoga spola.Genetski lokus je lokacija u genomu organizma, npr. slijed nukleotida kojitvori gen.Genski bazen je cjelokupan set jedinstvenih alela kod odredene vrste ili po-pulacije.

    2.2 Evolucija

    Pojam evolucija znači razvoj, a služi za opisivanje načina razvoja, odnosnopromjene živih bića. Razvoj moderne genetike omogućio je proučavanje evo-lucije istraživanjem populacijske genetike. Promjena frekvencije alela ili ge-notipova u populaciji odnosno promjena genetičke strukture populacije krozveliki broj generacija je evolucija. Evolucija započinje narušavanjem genskeravnoteže. Ravnoteža se remeti onda kada se mijenjaju uvjeti u populaciji iliu okolǐsu. Analize uzročnih osnova evolucije utvrduju da su njezine osnovnesile mutacija, selekcija i genetički drift, znači to su procesi koji remete nas-ljednu ravnotežu.Evolucija koja se odvija unutar populacije naziva se mikroevolucija. Mi-kroevolucija je pojava promjena male skale u učestalosti alela u populacijitijekom nekoliko generacija, takoder je poznata kao promjena na razini vrste(tj. unutar razine vrste). Mikroevolucija sadrži manje sukcesivne promjeneu genskoj zalihi odredene populacije od jedne do druge generacije. U njojdjeluju osnovne sile evolucije. Procesi mikroevolucije vode stvaranju no-vih vrsta, tj. populacija. Makroevolucija je pojava promjena velike skale uučestalosti gena u populaciji, tijekom geološkog vremenskog perioda.Populacijska genetika grana je biologije koja osigurava matematičku struk-turu za proučavanje procesa mikroevolucije.

    2.2.1 Mutacija

    Mutacija je trajna (i nasljedna, ako se dogodila u spolnoj stanici) promjenagenetskog materijala stanice, tj. DNK ili RNK. Uzroci su mutacija mno-gobrojni: greške pri umnožavanju genetskog materijala u procesu staničnediobe, izlaganje vanjskim čimbenicima poput radijacije, različitih kemijskihspojeva ili virusa te programirane (”namjerne”) mutacije tijekom mejoze iliimunološkog odgovora. Mutacije u nespolnim stanicama vǐsestaničnih orga-nizama, tzv. somatske mutacije, ne prenose se na potomstvo i mogu pro-uzročiti greške u odvijanju staničnih funkcija (greške u reguliranju staničnediobe uzrok su raka) ili smrt stanice. S druge strane, mutacije u spolnim sta-

  • 2 OSNOVNI POJMOVI GENETIKE 6

    nicama smatraju se jednim od preduvjeta evolucije jer se procesom prirodnogodabira u populaciji nakupljaju mutacije koje omogućuju bolju prilagodbuuvjetima okolǐsa i time utječu na bolje preživljavanje jedinki koje ih nose iprijenos na sljedeće generacije. Dakle, u populacijskoj genetici važne su samomutacije koje se odigravaju u spolnim stanicama jer se jedino one prenosena sljedeću generaciju.

    2.2.2 Selekcija

    Prirodni odabir ili selekcija je prirodni izbor izmedu nositelja različito vri-jednih nasljednih faktora. Darwin selekciju objašnjava borbom za opstanakmedu pojedinim organizmima, od kojih preživljavaju najsposobniji. Darwinselekciju primjenjuje na jedinke, a ne na populacije, a okolǐs kao selektivnasila odabire varijante koje su joj se najbolje prilagodile. Darwin je time na-glasio negativno gledǐste selekcije, ističući da je ona neumoljiva snaga kojaunǐstava jedne, a unaprjeduje druge. Danas je modificirano načelo selek-cije temeljna orijentacija u rješavanju evolucijskih problema. Prema Hardy-Weinbergovu pravilu, kao polazǐstu u populacijskoj genetici, u standardnimuvjetima okoline svi geni populacijskih genskih zaliha dolaze do ravnotežekoja se stalno održava (idealna populacija). Zato je prirodni odabir, osim mu-tacija, jedina snaga koja uzrokuje promjene u genskoj ravnoteži populacije.Prirodna selekcija utjecaj je bilo kojega faktora iz okolǐsa organizma. Kaoselekcijski faktori mogu djelovati: ekstremne temperature, oborinski omjeri(sušna razdoblja, poplave), kemijski uvjeti, prirodni neprijatelji različitihštetočina i nametnika, paraziti, uzročnici bolesti itd. Natjecanje i borba okohrane, životnoga prostora i ostalih važnih životnih uvjeta ubraja se u unu-tarvrstnu selekciju koja podredene skupine potiskuje u nove ekološke nǐse2 ilivodi njihovu izumiranju. Tako djeluje selekcijski pritisak. Djelujući tijekommilijuna godina, selekcija omogućuje razvoj novih adaptacija u najrazličitijimsredinama na Zemlji.

    2.2.3 Genetički drift

    Genetički drift odnosi se na promjene u učestalosti alela u genskoj zalihikoje su slučajnog karaktera. Matematički gledano, učestalost alela predstav-lja relativnu frekvenciju alela.3 Drugim riječima, učestalosti alela mogu rasti,padati ili ostati iste, sve kao rezultat slučajnih dogadaja u reprodukciji. U

    2Ekološka nǐsa – uloga koju neka jedinka ima u zajednici u odnosu na stanǐste i njezineinterakcije s drugim organizmima.

    3Pokus je ponovljen n puta. Ako se pri tome dogadaj A dogodio nA puta, broj nA

    zovemo frekvencija dogadaja A, a brojnAn

    zovemo relativna frekvencija dogadaja A.

  • 2 OSNOVNI POJMOVI GENETIKE 7

    većim populacijama je manja vjerojatnost da će doći do genetičkog drifta.Genetički drift se odvija kad se slučajno samo odredeni članovi populacijerazmnožavaju i prenose gene u iduću generaciju.Možda je najjednostavniji način za razumijevanje genetičkog drifta analogijabacanja novčića. Vjerojatnost da će pri bacanju simetričnog novčića pastiglava, odnosno pismo, je 1

    2. Ako novčić bacimo 1000 puta, možemo 500 puta

    dobiti glavu i 500 puta pismo. Moguće su i druge kombinacije (npr. 517 glavai 483 pisma i sl). No, ako je novčić simetričan relativna frkevencija pojavlji-vanja pisma, odnosno glave, pri velikom broju bacanja novčića približno jejednaka 0.5 (tj. s povećanjem broja bacanja se stabilizira oko 0.5 - statističkastabilnost relativnih frekvencija). Ne možemo unaprijed odrediti koliko će seglava realizirati u odredenom broju bacanja, no možemo izračunati relativnufrekvenciju takvog dogadaja. Relativna frekvencija realizacija glave rezultirahistogramom koji dobro aproksimira zvonoliku krivulju (binomna aproksi-macija normalne distribucije). Isti vjerojatnosni princip uzimanja uzorakajavlja se u evoluciji. Ako je netko heterozigot za odredeni lokus s genotipomAa, vjerojatnost da će svom djetetu proslijediti bilo koji od alela A i a jed-naka je 1

    2. Ako takva osoba ima 10-ero djece, najvjerojatnije (u usporedbi sa

    svim ostalim mogućnostima) će proslijediti 5 kopija A i 5 kopija a alela. No,u najvećem broju slučajeva ona neće proslijediti baš taj omjer alela. Možeproslijediti 3A alela i 7a alela te će tada doprinijeti idućoj generaciji vǐse aalela od očekivanog. Ovo je slučajni proces koji se javlja kod svake jedinke upopulaciji, te je vjerojatno da će se učestalosti alela promijeniti iz jedne nadrugu generaciju (naročito ako je ”broj bacanja” (broj potomaka) mali, kaošto je to slučaj u maloj populaciji). Ako je u roditeljskoj populaciji učestalostalela 1

    2, njegova učestalost u idućoj generaciji može biti ista, no isto tako može

    biti vǐsa ili niža. Genetički drift modeliran je slučajnom procesom u kojemse učestalost alela može mijenjati u bilo kojem smjeru i u različitoj veličiniiz generacije u generaciju. Učestalosti alela kontinuirano se mijenjaju dokneki alel nestane ili bude apsorbiran. Ukoliko dode do gubitka jednog alela(i time do apsorpcije drugog alela), učestalost alela ostati će 0 (i 1) sve doknovi alel ne bude uveden u populaciju putem mutacije ili migracije.

    Matematička formulacija genetičkog driftaZamislimo pokus nasumičnog odabira izmedu dvije vrste alela (A i a) izgenskog bazena, pri čemu je p vjerojatnost odabira alela A, a q = 1 − pvjerojatnost odabira alela a . Pretpostavimo da taj pokus ponavljamo ne-zavisno N puta i pri tome nas zanima broj alela A. Označimo broj alela As k. Neka je X diskretna slučajna varijabla s konačnim skupom stanja koja

  • 2 OSNOVNI POJMOVI GENETIKE 8

    prima vrijednosti u skupu {0,1,. . . ,N} s vjerojatnostima

    P (X = k) =

    (N

    k

    )pkqN−k

    Za slučajnu varijablu X koja opisuje broj alela A u N nezavisnih ponavljanjaslučajnog pokusa kažemo da ima binomnu distribuciju s parametrima N i p.Populacijska genetika je grana genetike koja istražuje raspodjelu učestalostialela i promjene koje nastupaju pod utjecajem evolucijskih sila. Populacijskagenetika jedna je od osnovnih sastavnica moderne evolucijske sinteze čiji suutemeljitelji bili S. Wright, J.B.S. Haldane i R.A. Fisher.U terminima populacijske genetike imamo:

    • veličina populacije od N jedinki ima 2N alela (kopija gena)

    • 1 lokus, 2 alela: A koji se pojavljuje s vjerojatnošću p i a koji sepojavljuje s vjerojatnošću q

    • X je slučajna varijabla kojom modeliramo broj alela A u 2N kopijagena

    skup vrijednosti slučajne varijable X : {0, 1, 2, 3, . . . , 2N − 1, 2N}relativna frekvencija alela A može poprimiti vrijednost iz skupa:{

    0,1

    2N,

    2

    2N, . . . ,

    2N − 12N

    , 1

    }Vjerojatnost da se slučajna varijabla X realizira s k alela tipa A dana jeizrazom:

    P (X = k) =

    (2N

    k

    )pkq2N−k

    Primjer: (vjerojatnost genotipova4)Pretpostavimo da je :

    • vjerojatnost pojavljivanja alela A : p = 0.33

    • vjerojatnost pojavljivanja alela a : q = 0.67

    Tada znamo da jeP (AA) = 0.332 = 0.109P (Aa) = 0.33× 0.67 = 0.221P (aA) = 0.67× 0.33 = 0.221P (aa) = 0.672 = 0.449

    4Genotip je skup svih gena nekog organizma

  • 2 OSNOVNI POJMOVI GENETIKE 9

    Slika 2.3 Prikaz distribucije mogućih genotipova histogramom

    OPĆENITO POPULACIJSKA GENETIKAX - slučajna varijabla kojom modeliramo X - slučajna varijabla kojom modeliramo

    broj uspjeha broj alela A u 2N kopija genaN - broj nezavisnih ponavljanja pokusa 2N - broj alela u gametimap - vjerojatnost uspjeha p - vjerojatnost odabira alela Aq - vjerojatnost neuspjeha q - vjerojatnost odabira alela aE(X) = Np E(X) = 2NpV ar(X) = Npq V ar(X) = 2Npq

    Efekt genetičkog drifta ovisi o:

    • veličini populacije N -efekt drifta je veći u malim populacijama

    • genetičkoj varijabilnosti5 pq - efekt drifta je veći u populacijama svećom genetičkom varijabilnošću.

    Genetički drift u malim populacijama može dovesti do gubitka odredenogalela ili njegove fiksacije. Slijedi primjer genetičkog drifta u populaciji s ma-lim brojem jedinki pri kojem kroz 3 generacije dolazi do gubitka alela a, afiksacije alela A.

    5Genetička varijabilnost: postojanje dva ili vǐse alela pojedinog gena u promatranojpopulacija, genetička varijabilnost predstavlja sposobnost genetičkog materijala da se mi-jenja čime se postiže njegova ogromna raznovrsnost.

  • 2 OSNOVNI POJMOVI GENETIKE 10

    Slika 2.4 Gubitak alela a kroz tri generacije

    Kako smo već i rekli, efekt drifta veći je u malim populacijama. Iduća slikaprikazuje utjecaj genetičkog drifta na populaciju od 500 i na populaciju od25 kamenjarki. Aleli brzo postanu ili fiksirani ili nestanu ako je populacijakonstantne veličine i ima 25 jedinki Kamenjarki dok se, oba alela zadržavajuu populaciji ukoliko je njena konstantna veličina 500.

    Slika 2.5.6 Prikaz utjecaja veličine populacije kamenjarki7 na efektgenetičkog drifta

    6preuzeto s www.biolozi.net/evolucija/vezbe/geneticki drift.ppt7Grupa insekata pod imenom Plecoptera (Kamenjarke ili Stone Fly)

  • 3 WRIGHT - FISHEROV MODEL 11

    3 Wright - Fisherov model

    Daleko najpoznatiji stohastički model za reprodukciju u populacijskoj gene-tici je upravo Wright - Fisherov model. Promatrat ćemo model u dva slučaja:s mutacijama u populaciji i bez mutacija.

    3.1 Osnovni pojmovi teorije Markovljevih lanaca i mar-tingala

    DEFINICIJA 1

    Slučajan proces {Xt, t ∈ T} je familija slučajnih varijabli na istom vjerojat-nosnom prostoru (Ω,F ,P), pri čemu je t element parametarskog skupa iliskupa indeksa T ⊆ R.Skup vrijednosti koje može poprimiti svaka slučajna varijabla Xt naziva seskup stanja slučajnog procesa {Xt, t ∈ T} i označava sa S. Elemente skupaS nazivamo stanjima slučajnog procesa {Xt, t ∈ T}. S obzirom na skup S,razlikujemo sljedeće kategorije slučajnih procesa:

    • ako je S diskretan skup, govorimo o slučajnom procesu s diskretnimskupom stanja,

    • ako S nije diskretan skup, npr. ako je S = R ili je S interval realnihbrojeva, govorimo o slučajnom procesu s neprekidnim skupom stanja.

    DEFINICIJA 2

    Slučajan proces {Xt; t ∈ T} je Markovljev proces ako za svaki izbor t1, . . . tn ∈T takvih da je t1 < . . . < tn, sve x1, . . . , xn ∈ S i a, b ∈ R t.d. je a < b,vrijedi Markovljevo svojstvo, tj.

    P (a < Xtn ≤ b | Xtn−1 = xn−1, . . . , Xt1 = x1)= P (a < Xtn ≤ b|Xtn−1 = xn−1), n ∈ {2, 3, . . .}

    Pojednostavljeno rečeno, Markovljevo svojstvo nam kaže: ako je poznataprošlost (modelirana slučajnim varijablama Xt1 , . . . , Xtn−2) i sadašnjost (mo-delirana slučajnom varijablomXtn−1 ), onda budućnost (modelirana slučajnomvarijablom Xtn) ovisi samo o sadašnjosti, dok prošlost nema utjecaja.Ako je skup stanja Markovljevog procesa diskretan, govorimo o Markovlje-vom lancu. Markovljev proces u neprekidnom vremenu s neprekidnim sku-pom stanja i neprekidnim trajektorijama zovemo difuzijskim procesom ilidifuzijom.

  • 3 WRIGHT - FISHEROV MODEL 12

    DEFINICIJA 3

    Slučajan proces {Xn;n ∈ N0} s diskretnim skupom stanja S je Markovljevlanac ako vrijedi

    P (Xt = i|Xt1 = i1, Xt2 = i2, . . . , Xtn = in) = P (Xt = i|Xtn = in)

    za sve t1, t2, . . . , tn, t ∈ N0 t.d. je t1 < . . . < tn < t i za sve i, i1, . . . , in ∈ S zakoje su gornje uvjetne vjerojatnosti dobro definirane.

    DEFINICIJA 4

    Funkcija prijelaznih vjerojatnosti Markovljevog lanca dana je izrazom

    p(i, s; t, j) = P (Xt = j|Xs = i), s, t ∈ N0, s < t.

    Funkcija prijelaznih vjerojatnosti u jednom koraku dana je izrazom

    pij = p(i, n;n+ 1, j) = P (Xn+1 = j|Xn = i), n ∈ N0, i, j ∈ S.

    Ukoliko funkcija prijelaznih vjerojatnosti u jednom koraku ne ovisi o n, tj.za sve n,m ∈ N vrijedi

    p(i, n;n+ 1, j) = p(i,m;m+ 1, j)

    kažemo da se radi o homogenom Markovljevom lancu.

    DEFINICIJA 5

    Neka je {Xn, n ∈ N0} Markovljev lanac sa skupom stanja S i matricom pri-jelaznih vjerojatnosti Π. Za B ⊆ S definiramo prvo vrijeme pogadanja togskupa kao

    T̃B = inf {n ≥ 0 : Xn ∈ B},

    uz konvenciju da je inf ∅ := +∞.U slučaju B = {j} za j ∈ S zbog jednostavnosti pǐsemo T̃j umjesto preciz-nijeg T̃{j}.Kažemo da je stanje j ∈ S dostǐzno iz stanja i ∈ S (oznaka i→ j) ako je

    P (Tj 0,

    tj. stanje j dostižno je iz stanja i ako lanac s pozitivnom vjerojatnošcu po-sjeti stanje j krenuvši iz stanja i.Kažemo da stanja i i j komuniciraju (oznaka i↔ j) ako je i→ j i j → i.Markovljev lanac {Xn, n ∈ N0} je ireducibilan ako se prostor stanja S sastojisamo od jedne klase komuniciranja, tj. ako i↔ j za sva stanja i, j ∈ S.

  • 3 WRIGHT - FISHEROV MODEL 13

    DEFINICIJA 6

    Matrica [pij]i,j∈S zove se matrica prijelaznih vjerojatnosti homogenog Mar-kovljevog lanca. Elementi ove matrice su nenegativni, tj. pi,j ≥ 0 za svei, j ∈ S, a zbroj elemenata u svakom njezinom retku jednak je jedan, tj.∑j∈S

    pij = 1 za svaki i ∈ S. Matricu čiji elementi zadovoljavaju navedena

    svojstva nazivamo stohastičkom matricom.

    DEFINICIJA 7

    Slučajna varijabla T : Ω→ N0⋃{∞} zove se vrijeme zaustavljanja Markov-

    ljevog lanca {Xn, n ∈ N0} ako je za svaki n ∈ N0

    {T ≤ n} ∈ σ{X0, X1, . . . , Xn},

    tj. dogadaj {T ≤ n} ovisi samo o X0, X1, . . . , Xn.

    DEFINICIJA 8

    Skup stanja C ⊆ S je zatvoren ako ∀i ∈ C vrijedi

    P (T̃S\C =∞|X0 = i) = 1.

    Skup C ⊆ S je zatvoren ako lanac gotovo sigurno ne može napustiti skup Cjednom kad se nade u njemu. S druge strane, u zatvoren skup se može ući.Za stanje j ∈ S kažemo da je apsorbirajuće stanje ako je {j} zatvoren pod-skup skupa S.

    DEFINICIJA 9

    Slučajan proces {Xt, t ∈ T} u diskretnom ili neprekidnom vremenu je mar-tingal ako vrijedi:

    • E[|Xt|]

  • 3 WRIGHT - FISHEROV MODEL 14

    DEFINICIJA 10

    Neka je {Xn, n ∈ N0} Markovljev lanac s prebrojivim skupom stanja S iprijelaznom matricom P. Vjerojatnosna distribucija π = (πi : i ∈ S) na S jestacionarna distribucija (ili invarijantna distribucija) Markovljevog lanca X(odnosno prijelazne matrice P) ako vrijedi

    π = πP,

    odnosno po komponentama

    πj =∑k∈S

    πkpkj, za sve j ∈ S.

    DEFINICIJA 11

    Pretpostavimo da je zadan Markovljev lanac {Xn, n ∈ N0} sa skupom stanjaS i matricom 1-koračnih prijelaznih vjerojatnosti Π. Vrijeme m-tog povratkau stanje i ∈ S je slučajna varijabla

    T(m)i =

    {min{n > T (m−1)i : Xn = i} , T

    (m−1)i

  • 3 WRIGHT - FISHEROV MODEL 15

    3.2 Wright - Fisherov model bez mutacija

    Sljedeća slika ukratko prikazuje suštinu modela koji ćemo nakon toga de-taljno razraditi.

    Slika 3.1 Wright - Fisherov model populacijske genetike: koraci izgradnjegeneracije n+ 1

    Sada ćemo postupno objasniti Sliku 3.1.Koraci konstruiranja populacije u generaciji (n+ 1) iz generacije n :(i) - slučajni odabir gena iz generacije n(ii) - kopiranje odabranog gena(iii) - stavljanje kopije gena u iduću generaciju (n+ 1)(iv) - vraćanje originala u roditeljsku populaciju (generaciju n)Koraci se ponavljaju sve dok veličina populacije generacije (n+1) ne postanejednaka veličini populacije generacije n.

    Promatramo genetski lokus s dva alela A i a koji imaju isti fitnes u diplo-idnoj populaciji konstantne veličine N s nepreklapajućim generacijama kojeprolaze kroz proces slučajnog razmnožavanja.

    Stanje populacije u početnoj (roditeljskoj) generaciji n možemo prikazatikao genski bazen koji sadrži 2N alela: označenih s A ima i, a označenih s aima (2N − i).

  • 3 WRIGHT - FISHEROV MODEL 16

    Slika 3.2 Genski bazen s dva alela A i a

    Generacija (n+1) sastoji se od 2N alela i nastaje provodenjem 2N nezavisnihslučajnih odabira od po jednog alela iz početne generacije n, s tim da se nakonsvakog odabira izvučeni alel vraća u roditeljsku populaciju.S obzirom na definiciju binomne distribucije vidimo da je vjerojatnost daimamo j alela A u trenutku (n+ 1) kada imamo i alela A u trenutku n

    Pij =

    (2N

    j

    )pji (1− pi)2N−j, (i, j = 0, 1, . . . , 2N) (1)

    gdje je pi =i

    2Nklasična vjerojatnost izvlačenja alela A u jednom pokušaju

    kada ih postoji i u genskom bazenu i(2N

    j

    )=

    (2N)!

    j!(2N − j)!

    je broj načina odabira j alela od 2N , tj.(2Nj

    )predstavlja broj svih kombi-

    nacija j-tog razreda u 2N -članom skupu i naziva se binomni koeficijent.

    Broj gena tipa A u n-toj populaciji gena potomaka modeliramo slučajnomvarijablom Xn, n ∈ N , pa X0 opisuje distribuciju alela A u početnoj, rodi-teljskoj populaciji.Je li proces {Xn, n ∈ N0} iz Wright - Fisherovog modela Markovljev lanac?Xn - slučajna varijabla kojom modeliramo broj alela A u n-toj populacijigena potomaka koja ima skup stanja S = {0, 1, 2, . . . , 2N}.Slučajna varijabla Xn+1, kojom modeliramo broj alela A u (n+1)-oj genskojpopulaciji, ovisi samo o broju alela A u n-toj genskoj populaciji, znači ispu-njeno je Markovljevo svojstvo pa znamo da je slučajan proces {Xn, n ∈ N0}Markovljev lanac.Funkcija prijelaznih vjerojatnosti u jednom koraku (pod pretpostavkom ne-postojanja mutacija u početnoj genskoj populaciji) dana je izrazom:

    pij = P (Xn+1 = j|Xn = i) =(

    2N

    j

    )(i

    2N

    )j (1− i

    2N

    )2N−j, i, j ∈ S.

  • 3 WRIGHT - FISHEROV MODEL 17

    pij = vjerojatnost da će u (n+ 1)-oj generaciji biti j alela A, ako znamo daih je u n-toj generaciji bilo i.Dugoročno ponašanje Wright-Fisherovog modela: na kraju, broj A-ova upopulaciji, postat će 0 (što interpretiramo kao nestajanje alela A iz genskogbazena) ili 2N (što interpretiramo kao nestajanje alela a). Jednom izgubljenalel iz populacije nikada se ne vraća (jer pretpostavljamo da se mutacije upopulaciji ne mogu dogoditi), tako da su stanja 0 i 2N apsorbirajuća stanjaovog Markovljevog lanca. Nakon što lanac ude u jedno od tih stanja ne možeih napustiti.Neka je

    τ = min{n : Xn = 0 ili Xn = 2N}vrijeme apsorpcije, tj. trenutak u kojemu se populacija sastoji od svih alelaA ili svih a. Kako je broj jedinki konačan i uvijek je moguće izvući ili svealele A ili sve alele a, apsorpcija će se na kraju dogoditi. Kako bi izračunalivjerojatnost apsorpcije u svim A stanjima, neka je Xn broj alela A u trenutkun. Budući je očekivanje binomne distribucije 2Np (pogledati izraz (1)) slijedida je

    E(Xn+1 = j|Xn = i) = 2N(

    i

    2N

    )= i, za sve n ∈ N0 (2)

    što je upravo poznata vrijednost slučajne varijable Xn.Znači, matematičko očekivanje slučajne varijable Xn je konstantno u vre-menu. Iz toga slijedi da je

    Pi(Xτ = 2N) = P (Xτ = 2N |Xn = i) =i

    2N. (3)

    Zašto je ovo istina? {Xn, n ∈ N0} je martingal, vjerojatnosni model pošteneigre. Intuitivno, ako se igra pošteno tada je očekivani iznos novca koji kockarima na kraju jednak iznosu koji je imao na početku. Dakle, ako koristimo Piza označavanje distribucije vjerojatnosti procesa Xn za koji je X0 = i i Ei zaoznačavanje očekivane vrijednosti s obzirom na Pi , tada je

    EiXτ = EiX0 = i (4)

    Kako je vrijednost slučajne varijable Xτ ili 0 ili 2N imamo da je i = EiXτ =2NPi(Xτ = 2N) i željeni rezultat slijedi.

    Kako bi dobili ideju koliko vremena je potrebno da se dogodi apsorpcija, is-pitat ćemo heterozigotnost (različitost alela).Ako imamo 2N alela A i a u genskom bazenu, i pri tome je Xn slučajnavarijabla kojom se modelira broj alela A, (2N − Xn) je slučajna varijablakojom se modelira broj alela a. Slučajnom varijablom H0n modeliramo hete-rozogotnost, vjerojatnost da su dva slučajno odabrana alela (bez vraćanja)

  • 3 WRIGHT - FISHEROV MODEL 18

    u trenutku n različita.Broj načina da odaberemo jedan alel je 2N , a dva (bez vraćanja prvog alela ugenski bazen) je po principu produkta 2N(2N − 1) pa je ukupan broj načinana koji možemo odabrati bilo koja dva alela iz genskog bazena s ukupno 2Nalela jednak 2N(2N − 1).Slijedi da je 2Xn(2N−Xn) slučajna varijabla kojom modeliramo broj načinana koji se iz genskog bazena s 2N alela bira 2 različita alela. Prema tome,heterozigotnost modeliramo slučajnom varijablom

    H0n =2Xn(2N −Xn)

    2N(2N − 1)Neka je h(n) = EH0n matematičko očekivanje heterozigotnosti u trenutku n.Pokažimo

    h(n) =

    (1− 1

    2N

    )n· h(0). (5)

    Prije dokaza pojasnit ćemo teoriju koalescencije i definirat ćemo pojam slučajnešetnje s pojavom spajanja u diskretnom vremenu (discrete time coalescingrandom walks).

    TEORIJA KOALESECENCIJEPrema teoriji koalescencije, ako se za bilo koja dva haploidna organizma kojase razlikuju u nekom nukleotidu prati njihovo porijeklo unazad, doći će se dotočke u vremenu u kojoj se nalazi najbliži zajednički predak tih dviju jedinki(Most Recent Common Ancestor, MRCA) i to je točka u kojoj dvije linije ko-alesciraju. Evolucijska linija (lineage) predstavlja niz predačko potomačkihpopulacija jedne vrste ili niz predačko potomačkih taksona koji nastaju jedaniz drugog bez grananja. Linije gena će se spajati (koalescirati) uvijek kadadvije jedinke imaju istog roditelja. Teoriju je razvio Sir John Kingman.Prema teoriji koalescencije, svi su aleli (i geni) u nekoj populaciji naslijedeniod samo jednog pretka. Ako se nasljedno srodstvo zapǐse u formi filogenet-skog stabla, zvanog genealogija gena, za gen ili alel koji nas zanima kaže seda koalescira u zajedničkom pretku (ko-ancestor, ko-predak). S obzirom daje proces fiksacije gena zbog genetičkog drifta ključna komponenta teorijekoalescencije, najkorisnije je kada genski lokus koji se istražuje nije pod utje-cajem prirodnog odabira.Vjerojatnost apsorpcijeU uvjetima djelovanja isključivo genetičkog drifta, svaki ograničeni set genaili alela ima točku koalescencije u kojoj svi potomci konvergiraju ka jednompretku (tj. koalesciraju). Ova činjenica može se koristiti kako bi se deri-virala stopa fiksacije (fiksacija u zajedničkom pretku) neutralnog alela za

  • 3 WRIGHT - FISHEROV MODEL 19

    populaciju različite veličine. Zbog pretpostavke da je učinak prirodnog oda-bira zanemariv, vjerojatnost u bilo kojoj vremenskoj točki da alel postanefiksiran isključivo je funkcija frekvencije p u populaciji u točki. Za diplo-idni organizam u populaciji veličine N i stopi mutacije (vjerojatnost pojaveodredene mutacije po gametu po generaciji ) µ, početna učestalost nove mu-tacije je 1

    2N, dok je broj novih mutacija u svakoj generaciji 2Nµ. Kako je

    stopa fiksacije stopa nove neutralne mutacije umnožena za njenu vjerojat-nost fiksacije, ukupna vjerojatnost fiksacije mutiranog alela u populaciji je2Nµ · 1

    2N= µ. Stoga stopa fiksacije za mutaciju (bez selekcije) je jednostavno

    stopa uvodenja takvih mutacija.Vrijeme koalescencijeKorisna analiza temeljena na teoriji koalescencije traži predvidanje količinevremena koje je proteklo izmedu uvodenja mutacije i distribucije odredenoggena ili alela u populaciji. Taj vremenski period jednak je vremenu u kojemje živio najbliži zajednički predak.Vjerojatnost da dvije linije koalesciraju u prvoj neposrednoj prethodnoj ge-neraciji jednaka je vjerojatnosti da oni imaju zajedničkog roditelja. U di-ploidnoj populaciji konstantne veličine s 2N kopija svakog lokusa, ima 2Npotencijalnih roditelja u prethodnoj generaciji, dakle, vjerojatnost da dvaalela imaju zajedničkog roditelja je 1

    2Npa je vjerojatnost da oni ne koalesci-

    raju je(1− 1

    2N

    ).

    U svakoj uzastopnoj prethodnoj generaciji, vjerojatnost koalescencije je ge-ometrijski distribuirana, znači, to je vjerojatnost nekoalescencije u t−1 pret-hodnih generacija pomnoženo s vjerojatnošću koalescencije u generaciji kojanas zanima:

    Pc(t) =

    (1− 1

    2N

    )t−1· 1

    2N

    Za dovoljno velike vrijednost N , ova distribucija može se dobro aproksimiratieksponencijalnom distribucijom s funkcijom gustoće

    f(t) =

    (1

    2N

    )e

    −t2N I〈0,∞〉(t)

    Eksponencijalna distribucija s parametrom λ = 12N

    ima matematičko očekivanjei standardnu devijaciju koja je jednaka 2N . Stoga, premda je očekivano vri-jeme koalescencije 2N , stvarna vremena koalescencije imaju širok rasponvarijacije.

    Neka vektor X(t) = (X1(t), X2(t), . . . , Xn(t)) označava skup stanja u tre-nutku t, t > 0, pri čemu Xi(t) pokazuje postoji li čestica na poziciji i. Xi(t)

  • 3 WRIGHT - FISHEROV MODEL 20

    je 1 ukoliko je čestica prisutna, u suprotnom je 0 i sustav ima početno sta-nje X0 = {1, 1, 1, . . . , 1}. Možemo uvesti notaciju za broj čestica u sustavu

    (populaciji) u trenutku t kao Ct =n∑i=1

    Xi(t), gdje je C0 = n. Sada možemo

    zapisati definiciju spomenutog stohastičkog procesa.

    DEFINICIJA

    Pretpostavimo da slučajne varijable Xi(t), 1 ≤ i ≤ n, zajedno opisuju sta-nja sustava X(t). Proces mijenja svoja stanja u bilo kojoj točki diskretnogvremena t, t > 0, prema sljedećoj shemi:

    1. Postojeća čestica u sustavu slučajno je odabrana s vjerojatnošću1

    Ct−1.

    Zabilježimo indeks odabrane čestice s i što predstavlja njenu udaljenostod originala.

    2. Odabrana čestica pomiče se jedan korak u nekom smjeru, pri čemu jesmjer slučajan, na lokaciju s indeksom j = i + 1 ili j = i− 1. Ukolikoje neka druga čestica locirana na poziciji j, onda će čestica na pozicijii biti apsorbirana u česticu na poziciji j i nestati iz sustava. Ukoliko jemjesto j prazno, onda čestica s pozicije i prelazi na poziciju j i ostajeu sustavu.

    3. Postupak se ponavlja sve dok Ct = 1 za neki t > 0.

    Dokaz2N kopije lokusa 1, 2, . . . , 2N promatramo kao jedinke. Pretpostavimo dasmo izabrali dvije jedinke x1(0) i x2(0) u trenutku n. Jedinke i = 1, 2 su po-tomci jedinke xi(1) u trenutku (n− 1), koja je potomak od xi(2) u trenutku(n− 2) itd. Kada je x1(m) 6= x2(m) dva izbora roditelja su nezavisna. Akoje x1(m) = x2(m) tada imamo x1(l) = x2(l) za m < l ≤ n.

    Slika 3.3 Trajektorije promatranih slučajnih šetnji u diskretnom vremenu

  • 3 WRIGHT - FISHEROV MODEL 21

    U tom modelu jedinke (aleli) 1, 2, · · · , 2N su predstavljene kao prostorne lo-kacije, mjesta, dok se pokretni objekti nazivaju čestice (x1(i) i x2(i) u našemprimjeru). Kada se čestice nalaze na različitim mjestima, tj. kada se nepodudaraju na poziciji i, i ∈ {0, 1, . . . , 2N}, one se kreću nezavisno, no kadase nadu na istom mjestu kao i neka druga čestica one se spoje i postajujedna čestica. Kako bi dvije odabrane čestice bile različite u trenutku n,trajektorije slučajne šetnje ne smiju se podudarati niti u jednom trenutkum, 1 ≤ m ≤ n. Budući da je vjerojatnost da dode do podudaranja dvijučestica na istoj poziciji jednaka

    1

    2N, slijedi da je nepodudaranje čestica na

    istim pozicijama dogadaj vjerojatnosti

    (1− 1

    2N

    )n. Kada se dvije trajekto-

    rije ne podudaraju niti na jednoj od pozicija 1, . . . , 2N , x1(n) i x2(n) su dvijejedinke slučajno izabrane iz populacije u trenutku 0, tako da je vjerojatnostda su različiti jednaka H0 = h(0). Izraz (5) slijedi primjenom formule zavjerojatnost presjeka nezavisnih dogadaja. 2

    Kada je x malen poznato je da je (1 − x) ≈ e−x. Dakle, kada je N velikizraz (5) se može zapisati kao h(n) ≈ e− n2N h(0) pa heterozigotnost teži unulu eksponencijalnom brzinom kad n

    2N→ ∞. Ako promatramo k jedinki,

    onda je vjerojatnost sudara jednaka

    =k(k − 1)

    2· 1

    2N,

    (k

    2

    )=

    k!

    2!(k − 2)!=k(k − 1)(k − 2)!

    2(k − 2)!=k(k − 1)

    2,

    gdje prvi faktor daje broj načina odabira dvije od k jedinki koje se sudaraju,a drugi vjerojatnost da će dvije od k jedinki odabrati istog roditelja. Ovdjeignoriramo vjerojatnost da se dva različita para roditelja sudare na jednommjestu ili da će tri jedinke izabrati istog roditelja.Koristeći vjerojatnost suprotnog dogadaja i nezavisnost medu generacijama,slijedi da je vjerojatnost da neće doći do sudara u prvih n generacija jednaka

    =

    (1− k(k − 1)

    2· 1

    2N

    )n≈ exp

    (−k(k − 1)

    2· n

    2N

    ).

    S obzirom da je eksponencijalna distribucija s parametrom λ definirana funk-cijom distribucije P (T ≤ t) = 1 − e−λt I〈0,∞〉(t) i ima očekivanje 1λ , vidimoda ako vrijeme izrazimo u smislu 2N generacija, tj t = n

    2N, onda za ve-

    liki N vrijeme do prvog sudara ima približno eksponencijalnu distribuciju sočekivanjem 2

    k(k−1) . Koristeći terminologiju iz teorije Markovljevih lanaca u

    kontinuiranom vremenu, k čestica se spaja s k−1 po stopi k(k−1)2

    . Iduća slikaprikazuje proces spajanja. Radi jednostavnosti nije prikazano kako se čestice

  • 3 WRIGHT - FISHEROV MODEL 22

    kreću u setu prije sudara, samo pokazuje kada će se sudar dogoditi.

    Slika 3.4 Proces spajanja čestica koji prikazuje kada će se sudar dogoditi

    Neka Tj označava vrijeme u kojem se prvi put pojavljuje j genskih veza ineka je tj vrijeme tijekom kojeg postoji točno j genskih veza. Znači, ako jet5 vrijeme tijekom kojeg postoji točno 5 genskih veza, nakon što dvije jedinkekoje imaju zajedničkog pretka koalesciraju, t4 je vrijeme tijekom kojeg pos-toji točno 4 genskih veza.

    Teorem 1 Kada mjerimo u jedinicama 2N generacija, vrijeme tijekom kojegpostoji j genskih veza, ima priblǐzno aproksimativnu eksponencijalnu distibu-ciju s očekivanjem 2

    j(j−1) .

    Ako započnemo s uzorkom veličine k iz populacije, onda je ukupno vrijemepotrebno da se spajanjem uzorak smanji na samo jednu gensku vezu (jedinkakoja predstavlja zajedničkog pretka cijelog uzorka od N jedinki) T1 = tk +· · ·+ t2 tako da je očekivanje

    E[T1] =k∑j=2

    2

    j(j − 1)= 2

    k∑j=2

    (1

    j − 1− 1j

    )= 2 ·

    (1− 1

    k

    )(6)

    Treba imati na umu da (6) konvergira ka 2 kad k → ∞, ali vrijeme t2 ukojem postoje samo dvije genske veze (znači i dvije jedinke) ima Et2 = 1,tako da očekivano vrijeme čekanja za zadnji sudar uvijek čini barem polovicuod ukupnog vremena spajanja.Kako bi to učinili obilježit ćemo jedinke u uzorku kao 1, . . . , k. Tada segenetsko stanje populacije može u bilo koje vrijeme prikazati kao particija,

    A1, . . . , Am od {1, 2, . . . , k} :m⋃i=1

    Ai = {1, 2, . . . , k} i ako je i 6= j skupovi Ai

  • 3 WRIGHT - FISHEROV MODEL 23

    i Aj su disjunktni. Riječima rečeno, svaki Ai sastoji se od jednog podskupačestica koje su se spojile i stoga su identične8. Kako bismo navedeno boljerazumjeli, pogledajmo još jednom prethodnu sliku. Particije su

    vrijeme

    0 {1} {2} {3} {4} {5}T4 {1} {2, 3} {4} {5}T3 {1} {2, 3} {4, 5}T2 {1, 2, 3} {4, 5}T1 {1, 2, 3, 4, 5}

    U početku se particija sastoji od 5 jednočlanih skupova jer još nije došlo dospajanja. Nakon što se 2 i 3 spoje u vremenu T4, pojavljuju se u istom skupu.Zatim se spoje 4 i 5 u vremenu T3 i tako do vremena T1 u kojem sve jedinkečine jedan skup.Neka je εk skup particija od {1, 2, . . . k}. Ako je ξ ∈ εk, neka je |ξ| brojskupova koji čine ξ, tj. broj veza koje ostaju spojene. Ako, npr. , ξ ={{1}, {2, 3}, {4, 5}}, tada je |ξ| = 3. Neka je ξki , i = k, k − 1, . . . , 1 particijaod {1, 2, . . . , k} u vremenu Ti, prvo vrijeme u kojem postoji i veza.Klingman (1982) je pokazao

    Teorem 2 Ako je ξ particija od {1, 2, . . . , k} i |ξ| = i, onda

    P (ξki = ξ) = ck,iw(ξ)

    Ovdje su w(ξ) težine, w(ξ) = λ1! · · ·λi!, gdje su λ1, . . . , λi veličine skupova iu particiji i konstanta

    ck,i =(k − i)!i!(i− 1)!

    k!(k − 1!)je izabrana tako da je suma vjerojatnosti jednaka jedan.

    Treba imati na umu da težine pogoduju particijama koje su nejednake.U Teoremu 2 prva i zadnja particija su trivijalne. ξkk = {{1}, . . . , {k}} jenajbolja moguća particija, a ξk1 = {1, 2, . . . , k} najgrublja. S obzirom na sveparticije ξ = {A1, . . . , Aj} imamo

    veličina(ξ) = {λ1, . . . λj}

    gdje je λi broj točaka u Ai, i redosljed kojim su pisane veličine nije važan.Druga najgrublja particija ξk2 sadrži dva skupa. Koristeći novu notaciju,veličina (ξk2 ) = {i, k − i} za neke i ∈ [1, k − 1]. Ako je i = k − i tada

    8Identični aleli su oni aleli koji su identičnog porijekla tj. predstavljaju replike istogalela pretka.

  • 3 WRIGHT - FISHEROV MODEL 24

    imamo skup s dva identična elementa. Koristeći Teorem 2 i pretpostavljajućii 6= (k − i) imamo

    P (veličina(ξk2 ) = {i, k − i}) = ck,2i!(k − i)!(k

    i

    )gdje treći izraz daje broj ξ s veličinom (ξk2 ) = {i, k−i}. Sijedi da je i 6= (k−i).

    3.3 Wright - Fisherov model s mutacijama

    Pretpostavimo da, nakon što uzmemo uzorak iz genskog bazena u trenutkun i prije nego što ispustimo rezultat u genski bazen u trenutku (n + 1), apostaje A s vjerojatnošću u i A postaje a s vjerojatnošću v, tj. dogadaju semutacije s vjerojatnostima u i v, u, v ∈ (0, 1). Vjerojatnost da postoji j alelaA u trenutku (n+ 1) kada ih je i u trenutku n dana je formulom

    p(i, j) =

    (2N

    j

    )pji (1− pi)2N−j (7)

    ali sada vjerojatnost pi izvlačenja alela A, kada je broj alela A u genskombazenu i, prema svojstvu aditivnosti vjerojatnosti i vjerojatnosti presjekanezavisnih dogadaja, postaje

    pi =i

    2N· (1− v) + 2N − i

    2N· u (8)

    Riječima rečeno ili izvučemo alel A i on ne mutira ili izvučemo alel a i onmutira u varijantu A. Posljedica postajanja mutacija je nestajanje apsorbi-rajućih stanja 0 i 2N , tako da se u ovom modelu prostor stanja sastoji samood jedne klase komuniciranja pa je lanac ireducibilan, tj. cijeli konačan skupstanja je jedna klasa komuniciranja. Dakle, genetička varijabilnost vǐse nepostoji. Prijelazna vjerojatnost za model s mutacijom je pij > 0, jer vǐsenema apsorbirajućih stanja, za svaki i, j pa je ovaj Markovljev lanac ape-riodičan. Kako je skup stanja konačan i lanac je ireducibilan, slijedi da jepovratan (tj. svako njegovo stanje je povratno). Lanac je i pozitivno povra-tan jer je očekivano vrijeme potrebno Markovljevom lancu da iz stanja i opetdode do i konačno. Budući je lanac ireducibilan i pozitivno povratan, slijedida ima jedinstvenu stacionarnu distribuciju. A budući je lanac ireducibilan,aperiodičan i ima stacionarnu distribuciju, slijedi da je ta stacionarna distri-bucija upravo njegova granična distribucija: limn→∞ P (Xn = i).Znači, kad broj generacija n→∞, P (Xn = i) konvergira ka granici π(i), što

  • 3 WRIGHT - FISHEROV MODEL 25

    je jedinstvena stacionarna distribucija ovog Markovljevog lanca9, tj. jedins-tveno rješenje sustava jednadžbi∑

    i

    π(i)p(i, j) = π(j)

    s π(i) ≥ 0 i∑i

    π(i) = 1

    Slika 3.5 Promjene spajanja čestica pri kojem se čestice ponǐstavaju

    Stacionarnu distribuciju opisat ćemo u terminu koalescencije. Neka je uvjerojatnost da su dva alela koalescirala u alel A i v vjerojatnost da su dvaalela koalescirala u alel a i (1 − u − v) vjerojatnost da čestice skaču naslučajno odabrano mjesto, tj. nisu koalescirale. (Pretpostavljamo da su ui v maleni i ignoriramo pojave dvije mutacije u jednom koraku). Spajanječestica odreduje njihovo stanje i stanje svih njihovih potomaka. Ukoliko susve čestice koalescirale prije nego što smo, prateći njihovo podrijetlo unazad,došli do početnog, zajedničkog pretka, onda stanje u trenutku n ne ovisi opočetnoj konfiguraciji i proces je u ravnoteži. Dakle, slučajna konfiguracijaodredena kretanjem tog procesa do završetka daje stacionarnu distribucijuza Wright - Fisherov model s mutacijama i Xn konvergira ovoj distribucijiza n→∞. Slika iznad prikazuje moguću realizaciju konstrukcije.Neka je X∞ = lim

    n→∞Xn. Tada je matematičko očekivanje dano formulom

    EX∞ = 2Nρ = 2N ·u

    u+ v(9)

    Svaka od 2N veza će s vremenom naići na alel A ili a, a ρ je vjerojatnost dasmo prvo naǐsli na A , ρ = u

    u+v.

    9Durrett R., Probability models for DNA sequence evolution, Springer, 2002.

  • 3 WRIGHT - FISHEROV MODEL 26

    DokazPromotrimo očekivanja µ(n) = EXn. Iz (8) slijedi

    EXn+1 = (1− v)EXn + (2N − EXn) · u (10)

    Ako stavimo x = EXn = EXn+1 zbog svojstva martingalosti imamo

    x = (1− v)x+ (2N − x)u (11)

    Rješavanjem dobijemo (v + u)x = 2Nu ⇒ x = 2Nuu+ v

    . Kako bi vidjeli da će

    E[Xn] konvergirati svojoj granici, primjetimo da stavljajući x = 2Nρ u (11)dobijemo

    2Nρ = 2N(1− v)ρ+ 2N(1− ρ)u

    i oduzmemo li ovo od (10) imamoE(Xn+1 − 2Nρ) = (1− u− v)E(Xn − 2Nρ)E(Xn+1)− 2Nρ = (1− u− v)E(Xn)− (1− u− v)2NρE(Xn+1)− (1− u− v)E(Xn) = 2Nρ− (1− u− v)2NρKako je E(Xn+1) = E(Xn)E(Xn)(1− 1 + u+ v) = 2Nρ(1− 1 + u+ v)(u+ v)E(Xn) = (u+ v)2NρE(Xn) = 2Nρ, za svaki n ∈ N0.Slijedi da EXn → 2Nρ kad n→∞ 2

    Teorem 3 Ako je µ vjerojatnost mutacije u jednoj generaciji, onda je vje-rojatnost da su dvije jedinke identične po porijeklu10 (kada je µ malen i Nvelik) priblǐzno jednaka

    12N

    2µ+ 12N

    =1

    1 + 4Nµ

    DokazNa svakom koraku, može se dogoditi mutacija na jednoj od genskih veza, štoje dogadaj s vjerojatnošću p1 = 2µ, ili veze koalesciraju, što je dogadaj s vje-rojatnošću p2 =

    12N

    . Uzmemo li u obzir jedan ciklus, vidimo da vjerojatnostρ mutacije prije koalescencije zadovoljava jednakost

    ρ = p1 + (1− p1)(1− p2)ρ10Kažemo da su dvije jedinke identične po porijeklu ako se njihove veze spoje prije nego

    što mutacija djeluje na ijednu od veza.

  • 3 WRIGHT - FISHEROV MODEL 27

    budući da ako se niti jedan dogadaj ne dogodi počinjemo ponovno. Uko-liko ignoriramo vjerojatnost da se mutacija i koalescencija dogode na istomkoraku možemo posljednju jednadžbu zapisati kao

    ρ = p1 + (1− p1 − p2)ρ

    ρ(1− 1 + p1 + p2) = p1ρ =

    p1p1 + p2

    1− ρ = 1− 2µ2µ+ 1

    2N

    =12N

    2µ+ 12N

    =1

    4Nµ+ 12

    Neka je X∞ = limn→∞

    Xn. Tada je varijanca dana formulom

    Var(X∞) =

    (2N +

    2N(2N − 1)1 + 4N(u+ v)

    )uv

    (u+ v)2(12)

    Dokaz

    Kako bi izračunali EX2∞, gledamo X∞ =2N∑i=1

    ηi gdje je ηi = 1 ukoliko je

    i-ta jedinka alel A,a inače je 0. U teoriji vjerojatnosti ηi naziva se indika-tor slučajna varijabla budući da ukazuje da li se dogadaj dogodio ili nije.Kvadrirajući sumu imamo

    X2∞ =2N∑i=1

    2N∑j=1

    ηiηj (13)

    Odvojimo li 2N s uvjetom i = j od 2N(2N − 1) s i 6= j dobivamo

    E(X2∞) = 2NP (η1 = 1) + 2N(2N − 1)P (η1 = 1, η2 = 1) (14)

    Iz (9), P (η1 = 1) =u

    u+ v. Razmatrajući mogućnosti spajanja prije mutacije

    ili ne, i koristeći Tvrdnju 3 s µ = u+ v slijedi

    P (η1 = 1, η2 = 1) =1

    1 + 4Nµ

    u

    u+ v+

    4Nµ

    1 + 4Nµ

    (u

    u+ v

    )2(15)

    Izračunamo

    (EX∞)2 = 4N2

    (u

    u+ v

    )2=

    =

    (2N + 2N(2N − 1)

    {1

    1 + 4Nµ+

    4Nµ

    1 + 4Nµ

    })(u

    u+ v

    )2i koristeći (13), (14), (15) dobivamo navedeni rezultat. 2

  • 3 WRIGHT - FISHEROV MODEL 28

    3.4 Moranov model

    Wright - Fisherov model uzima u obzir nepreklapajuće generacije, kao štosu npr jednogodǐsnje biljke, medutim kod mnogih vrsta, medu kojima sui ljudi, generacije nisu sinkronizirane (uskladene) pa je za takve slučajeveprikladniji Moranov model preklapajućih generacija u kojem se samo jednajedinka,tj jedan alel mijenja tijekom vremena. Ukratko, za Moranov modelpreklapajućih generacija dimenzije 2N u vremenu t = 0, 1, 2, . . . izabiremodvije jedinke slučajnim odabirom s mogučnošću zamjene (jedinke mogu bitiiste ili različite). Od dviju jedinki jedna je izabrana da se reproducira, adruga da umre (to može biti ista jedinka). Znači

    • Odaberemo jedinku A za reprodukciju i a za umiranje.

    • Odaberemo jedinku a za reprodukciju i A za umiranje.

    • Odaberemo jedinku A za reprodukciju i A za umiranje ili odaberemojedinku a za reprodukciju i a za umiranje.

    Xt je slučajna varijabla kojom modeliramo broj alela A u vremenu t, skupstanja je {0, 1, . . . , 2N}, ali se broj alela može promjeniti samo za −1, 0, 1 nasvakom koraku.

    U Wright - Fisherovom modelu 2N kopija našeg lokusa može doći ili iz Ndiploidnih jedinki (koji u jednoj stanici imaju čitav set kromosoma prisutanu dvije kopije) ili 2N haploidnih jedinki (koje u jednoj stanici imaju jednukopiju svog genetskog materijala). Kod formulacije Moranovog modela radise o terminu 2N haploidnih jedinki.Po (7) i (8) slijedi da je vjerojatnost da je odabir rezultirao alelom A kadapostoji i alela A u populaciji

    pi =i

    2N· (1− v) + 2N − i

    2N· u

    Vjerojatnosti jediničnog povećanja, odnosno smanjenja, broja alela tipa Asu redom:

    za i→ i+ 1 imamo bi =(

    1− i2N

    )· pi

    za i→ i− 1 imamo di =i

    2N· (1− pi)

    gdje je bi vjerojatnost da je odabran alel a i da on u sljedeću generacijuulazi kao alel A, a di je vjerojatnost da je odabran alel A i da on u sljedeću

  • 3 WRIGHT - FISHEROV MODEL 29

    generaciju ne ulazi kao alel A, tj. da ulazi kao alel a (broj alela A se smanjujeza jedan).Ako je π(i) vjerojatnost iz stacionarne distribucije, onda s obzirom na stopuu kojoj se javljaju pomaci preko linije povučene izmedu i− 1 i i, imamo

    π(i)di = π(i− 1)bi−1 ⇒ π(i) =π(i− 1)bi−1

    di.

    Ponavljanjem dobivamo da ako je k < i

    π(i) = π(k)i∑

    j=k+1

    bj−1dj

    . (16)

    Izraz (16) pokazuje da ako odredimo jednu vjerojatnost π(k), možemo izračunatiostale.

    Primjer 11

    Da bismo vidjeli kako izgleda stacionarna distribucija u konkretnom slučaju,uzet ćemo u obzir populaciju veličine 2N = 20 haploidnih jedinki. Ako oda-beremo vjerojatnosti mutacija u = 0.1 i v = 0.2 tako da je 2Nu = 20 i2Nv = 4, tada je stacionarna distribucija prikazana sljedećim histogramom

    Slika 3.6 Histogram stacionarne distribucije u populaciji od 20 jedinki

    Povećanjem populacije na 2N = 200 i djeleći vjerojatnosti mutacija s 10,u = 0.01 i v = 0.02 kako bi još uvijek imali 2Nu = 20 i 2Nv = 4 oblikstacionarne distribucije ostaje približno isti.

    11Durrett R., Probability models for DNA sequence evolution, Springer, 2002.

  • 3 WRIGHT - FISHEROV MODEL 30

    Slika 3.7 Histogram stacionarne distribucije u populaciji od 200 jedinki

    Slika 3.7. prikazuje histogram relativnih frekvencija temeljen na uzorku di-menzije 2N = 200. U literaturi se predlaže da se to obilježje modelira Betadistribucijom s funkcijom gustoće

    f(x) =

    (x− a)p−1(b− x)q−1

    B(p, q)(b− a)p+q−1, x ∈ [a, b]

    0 , inače

    gdje je

    B(p, q) =

    ∫ 10

    xp−1(1− x)q−1dx, p, q ∈ N

    Beta funkcija ili Eulerov integral prve vrste, a p > 0, q > 0 parametri Betadistribucije.Slučaj kada je a = 0, b = 1 naziva se standardna Beta distribucija koja jezadana funkcijom gustoće:

    f(x) =

    xp−1(1− x)q−1

    B(p, q), x ∈ [0, 1]

    0 , inače

  • 3 WRIGHT - FISHEROV MODEL 31

    Slika 3.8 Funkcija gustoće Beta razdiobe za četiri različite vrijednostiparametara

    Slika 3.9 Funkcija gustoće dobivena Beta razdiobom u populaciji od 200jedinki

    Tvrdnja 5 Pretpostavimo da je veličina populacije N velika i neka jeq = 2Nu, r = 2Nv. Tada je stacionarna distribucija za Moranov model, kadaje reskalirana unutar intervala [0,1], priblǐzno jednaka Beta(q,r) distribucijis funkcijom gustoće

    f(x) = cq,rxq−1(1− x)r−1,

    pri čemu je cq,r je normalizacijska konstanta koja osigurava

    ∫ 10

    f(x)dx = 1.

    Za velik broj alela 2N , tj kad je N velik, stacionarne distribucije kod Wright

  • 4 PRIMJER WRIGHT - FISHEROVOG MODELA 32

    - Fisherovog i Moranovog modela su jednake, do na faktor 2. Genealogijagranice velike populacije kod Moranovog modela ista je kao i kod Wright - Fi-sherovog. Znači, ako su stope mutacije u Moranovom modelu dvostruko većenego što su u Wright - Fisherovom, onda su stacionarne distribucije jednake.Ovo opažanje omogućuje da aproksimaciju iz (16) provedemo u odgovarajućirezultat za Wright - Fisherov model.

    Tvrdnja 6 Pretpostavimo da je veličina populacije N velika i neka je q =4Nu, r = 4Nv. Tada je stacionarna distribucija za Wright - Fisherov mo-del, kada je reskalirana unutar intervala [0,1], priblǐzno jednaka Beta(q,r)distribuciji koja ima gustoću

    f(x) = cq,rxq−1(1− x)r−1

    pri čemu je cq,r je konstanta izabrana da vrijedi

    ∫ 10

    f(x)dx = 1.

    4 Primjer Wright - Fisherovog modela

    UVODCilj je uzeti u obzir veliki broj kopiranih populacija, pri čemu svaka kreće sistom veličinom populacije i istom frekvencijom gena, i pitati se što se dogadas distribucijom frekvencije gena u ovim populacijama tijekom vremena. Tadamožemo testirati predvidanja teorijskih modela ovakvog postupka te je opi-sivanje distribucije frekvencije gena vǐse cjelina kopiranih populacija ekvi-valentno opisivanju vjerojatnosti da će odredena populacija imati bilo kojufrekvenciju gena kroz vrijeme.

    Wright - Fisherov modelRazvoj modela sastoji se od dva koraka:

    1. KORAK Potrebno je razviti jednadžbu koja predvida vjerojatnost da ćese u populaciji frekvencija gena f u trenutku n promjeniti u frekvencijugena f + 1 u trenutku (n+ 1)

    2. KORAK Koristimo ovu jednadžbu u matričnom obliku kako bismo izračunalidistribuciju frekvencije gena u narednoj generaciji.

  • 4 PRIMJER WRIGHT - FISHEROVOG MODELA 33

    1. KORAK

    1. Pretpostavimo da imamo populaciju od N diploidnih jedinki, što značida postoje 2N kopije gena.

    2. Pretpostavimo da na lokusu A postoje dva alela A1 i A2.

    3. Na kraju, pretpostavimo da u početku postoji i kopija alela A1, pa jevjerojatnost da od 2N alela odaberemo alel A1: p1 =

    i2N

    .

    4. Želimo izračunati vjerojatnost da populacija koja starta s i kopija alelaA1 završi s j kopija alela A1 nakon jedne generacije u konačnoj popu-laciji u kojoj djeluje genetički drift.

    5. Ta je vjerojatnost dana binomnom distribucijom

    Pij =

    (2N

    j

    )(i

    2N

    )j (1− i

    2N

    )2N−j6. Zamǐsljamo da su aleli u danoj generaciji prikupljeni iz vrlo velikog

    genskog bazena.

    a. Vjerojatnost da će A1 alel biti izvučen je p1 =i

    2N.

    b. Vjerojatnost da će A2 alel biti izvučen je 1− p1 = 1− i2N .c. Jedan od načina izvlačenja j alela A1 je izvlačenje alela sljedećim

    redosljedom:A1 A1 A1 . . . A1 A2 A2 A2 A2 . . . A21 2 3 . . . j 1 2 3 4 . . . 2N − j

    d. Vjerojatnost da se to dogodi je zbog nezavisnosti izvlačenja jednaka

    p1 ×p1 × p1 × . . .× p1 × (1− p1)× (1− p1)× (1− p1)× . . .× (1− p1)= (p1)

    j(1− p1)2N−j

    =

    (i

    2N

    )j (1− i

    2N

    )2N−je. Ovo je samo jedan način dobivanja j alela A1 i 2N − j alela A2.f. Drugi način je izvlačenje alela sljedećim redosljedom:

    A1 A1 A1 . . . A1 A2 A2 A2 . . . A2 A11 2 3 . . . j 1 2 3 . . . 2N − j 1

  • 4 PRIMJER WRIGHT - FISHEROVOG MODELA 34

    g. No, vjerojatnost za to je takoder dana s

    p1 ×p1 × p1 × . . .× p1 × (1− p1)× (1− p1)× (1− p1)×. . .× (1− p1)× p1

    = (p1)j(1− p1)2N−j

    =

    (i

    2N

    )j (1− i

    2N

    )2N−jh. U stvari postoji

    (2Nj

    )= 2N !

    j!(2N−j)! različitih načina da dobijemo j alelaA1 i 2N − j alela A2.

    i. Znači ukupna vjerojatnost dobivanja broja alela A1 i A2 je

    Pij =

    (2N

    j

    )(i

    2N

    )j (1− i

    2N

    )2N−j2. KORAK

    1. Sada želimo izračunati kako se distribucija frekvencije gena mijenjakroz vrijeme.

    2. Prvo je potrebno definirati na što mislimo pod distribuciju frekvencijegena.

    3. Pretpostavimo da imamo velik broj populacija, svaka s istim brojemjedinki.

    4. Tada distribuciju frekvencije gena možemo prikazati histogramom, nakojem se na x osi nalazi broj alela A1 u populaciji, a na y osi udiopopulacija koje imaju toliko alela A1.

    5. Ovu distribuciju možemo zamisliti kao vektor od 2N+1 elemenata, pričemu svaki element odgovara različitom broju alela A1 u populaciji.

    6. Na primjer, ako postoje dvije jedinke u populaciji onda može postojati0, 1, 2, 3 ili 4 kopije alela A1 u populaciji.

    7. Tada ako relativne frekvencije θ0, θ1, θ2, θ3 i θ4 predstavljaju udio po-pulacije s 0, 1, 2, 3 i 4 alela, možemo reprezentirati populaciju vektorom

    θ = (θ0, θ1, θ2, θ3, θ4)

    8. Pitanje kako se distribucija frekvencije alela mijenja tijekom vremenaekvivalentno je pitanju kako se vektor θ mijenja tijekom vremena.

  • 4 PRIMJER WRIGHT - FISHEROVOG MODELA 35

    9. Sada, pretpostavimo da promatramo populaciju koja ima 1 A1 alel ugeneraciji n+ 1.

    10. Postoji 3 načina da se to dogodi:

    a) U prethodnoj generaciji (n) može postojati 1 A1 alel, bez promjeneu frekvenciji tijekom jedne generacije uzrokovane genetičkim drif-tom . Vjerojatnost da se to dogodi je

    P11 =(41

    ) (14

    )1 (1− 1

    4

    )3= 0.422

    b) U prethodnoj generaciji (n) može postojati 2 A1 alela, i tijekomjedne generacije genetički drift je promjenio broj alela A1 u 1.Vjerojatnost da se to dogodi je

    P21 =(41

    ) (12

    )1 (1− 1

    2

    )3= 0.250

    c) U prethodnoj generaciji (n) može postojati 3 A1 alela, i tijekomjedne generacije genetički drift je promjenio broj alela A1 u 1.Vjerojatnost da se to dogodi je

    P31 =(41

    ) (34

    )1 (1− 3

    4

    )3= 0.047

    d) Primjetimo da ako populacija počinje s 0 ili 4 alela A1, tijekomjedne generacije genetički drift ne može promjeniti broj alela A1u 1. Vjerojatnost da se to dogodi je

    P01 = P41 = 0.

    11. Sada možemo zapisati udio cijele populacije koja ima 1 alel A1 u gene-raciji n+ 1:

    θ′1 = θ0P11 + θ1P10 + θ2P20 + θ3P30 + θ4P40

    12. Na sličan način možemo zapisati udjele populacija koje imaju 0, 2, 3 i4 kopija alela A1 u trenutku n+ 1:

    θ′0 = θ0P00 + θ1P10 + θ2P20 + θ3P30 + θ4P40

    θ′2 = θ0P02 + θ1P12 + θ2P22 + θ3P32 + θ4P42

    θ′3 = θ0P03 + θ1P13 + θ2P23 + θ3P33 + θ4P43

    θ′4 = θ0P04 + θ1P14 + θ2P24 + θ3P34 + θ4P44

  • 4 PRIMJER WRIGHT - FISHEROVOG MODELA 36

    13. Zapǐsimo navedeno u matričnoj notaciji kao θ′ · P = P τ · θθ′0θ′1θ′2θ′3θ′4

    =P00 P10 P20 P30 P40P01 P11 P21 P31 P41P02 P12 P22 P32 P42P03 P13 P23 P33 P43P04 P14 P24 P34 P44

    θ0θ1θ2θ3θ4

    14. Ako imamo populaciju od dvije jedinke možemo izračunati matricu P τ

    koristeći prethodno dane formule za elemente matrice

    P τ =

    1 0.316 0.062 0.004 00 0.422 0.250 0.047 00 0.211 0.375 0.211 00 0.047 0.250 0.422 00 0.004 0.062 0.316 1

    .

    15. Ako počnemo s ansamblom populacija u kojoj sve populacije imaju 2alela A1 u generaciji n (p1 = 0.5), tada θ = (0, 0, 1, 0, 0) i nakon jednegeneracije s driftom distribucija frekvencije gena bit će:

    P τ · θ =

    1 0.316 0.062 0.004 00 0.422 0.250 0.047 00 0.211 0.375 0.211 00 0.047 0.250 0.422 00 0.004 0.062 0.316 1

    00100

    =

    0.0620.2500.3750.2500.062

  • LITERATURA ii

    Literatura

    [1] Durrett R., Probability models for DNA sequence evolution, Springer,2002.

    [2] S. Karlin, H.M. Taylor, A Second Course in Stochastic Processes, Acade-mic Press, 1981.

    [3] N. Sarapa, Teorija vjerojatnosti, Školska knjiga, Zagreb, 2002.

    [4] http://www.biology.duke.edu/rausher/evmech/WF1.pdf

    [5] www.mathworld.com

    [6] http://www.phy.umist.ac.uk/ ajm/bm07.pdf

    [7] http://www.mathos.hr/slucajniprocesi/materijali.html

    [8] http://hr.wikipedia.org/wiki/Evolucija

    [9] http://www.biol.pmf.hr/uploads/media/POPULACIJSKA GENETIKA.pdf

    [10] www.biolozi.net/evolucija/vezbe/geneticki drift.ppt

    [11] http://cseweb.ucsd.edu/classes/sp06/cse280b/notes/nordborg coalescent.pdf

    [12] http://www.scribd.com/document downloads/direct/44197734?extension=pdf&ft=1300117333&lt=1300120943&uahk=zf89JWePutezg1P25wmU9bMMQdg

  • LITERATURA iii

    Sažetak

    Tema ovog diplomskog rada je Wright - Fisherov model. To je jedan odnajpoznatijih stohastičkih modela za reprodukciju u populacijskoj genetici.U radu su dane potrebne matematičke i biološke definicije za razumjevanjemodela te je detaljno opisan Wright - Fisherov model u populaciji s i bezmutacija, te je opisan Moranov model. Na kraju je dan numerički primjerWright - Fisherovog modela kako bi direktno pokazali kako model funkcionira.

  • LITERATURA iv

    Summary

    The theme of this thesis is the Wright - Fisher model. This is one of themost popular stochastic model for reproduction in population genetics. Thearticle contains the necessary mathematical and biological definitions for un-derstanding the model and extensively describes the Wright - Fisher modelin population with and without mutations. After that it is described Moranmodel of genetic drift. At the end is given numerical example of Wright -Fisher model to directly show how the model works.

  • LITERATURA v

    Životopis

    Rodena sam 27.lipnja 1986. godine u Požegi. Godine 2001. završila sam os-novnu školu Dobrǐse Cesarića u Požegi, a 2005. prirodoslovno-matematičku”Gimnaziju Požega”. 2005. godine upisala sam preddiplomski studij mate-matike na Odjel za matematiku, Sveučilǐsta J. J. Strossmayera u Osijeku, aPreddiplomski studij matematike završila sam 2008. s temom završnog rada”Gama distribucija” kod mentora prof. dr. sc. Mirte Benšić. 2008. upisalasam diplomski studij matematike na Odjelu za matematiku, smjer financijskai poslovna matematika.