Genetikk og bioteknologi Litt historikk – et perspektiv · 1 Lars O. Baumbusch INF3350/INF4350...
Transcript of Genetikk og bioteknologi Litt historikk – et perspektiv · 1 Lars O. Baumbusch INF3350/INF4350...
1
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 1
Forelesning # 6
Lars O. Baumbusch
Senter for Bioinformatikk, IFI, UiORikshospitalet - Radiumhospitalet Medical Centre
Genetikk og bioteknologi
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 2
Litt historikk – et perspektiv
1866... Grunnprinsippene for arv*1910 Arveanleggene ("genene") ligger på kromosomer
1940... Arveanleggene (genene) består kjemisk av DNA*1953 Dobbeltheliks strukturen til DNA avklares*1957 Det sentrale dogmet: DNA > Protein*
Det er rekkefølgen av baser i DNA-sekvensen som bestemmer rekkefølgen av aminosyrer i proteinet
1960 Informasjonen overføres fra DNA til protein via budbringeren mRNA
1961 Den genetiske koden "knekkes": nå vet man hvordanen DNA-sekvens oversettes til en proteinsekvens
1965 Et "atlas" over alle kjente proteinsekvenser utgis jevnlig*1970 Endel proteiner er nå sekvensert, og nå kommer
de første metoder for å sammenstille sekvenser
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 3
Bioteknologi etableres ...
1970 Første restriksjonsenzymer ble oppdaget1971 Genkloning og starten på moderne bioteknologi
1972 Protein DataBank etableres (med 10 proteiner!)
1977 De første metoder for å sekvensere DNA utvikles
1980... Automatiserte metoder for å sekvensere DNA
1988… Mer effektive metoder for sekvenssammenstilling,NCBI (National Center for Biotechnology Information) etableres
1995 Første levende organisme ferdig sekvensert 1997 E.coli ferdig sekvensert (en bakterie)
1999 Første høyere organisme ferdig sekvensert (bananflue)1999 Første humane kromosom ferdig sekvensert (#22)
2001 ”Frist draft” av menneskets genom ferdig sekvensert
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 4
Publiserte genomsekvenser (2003)
Status per september 2003:
16 archae-bakterier
121 bakterier
12 eukaryoter (heriblant mennesket)
... og mer enn 600 andre genomer
er på vei
2
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 5
Grunnprinsippene for arv
Mendels lover (1866):• Loven om uavhengig utvelgelse
Uavhengige karaktertrekk (f.eks. høyde og farge på en blomst) arves uavhengig av hverandre
• Loven om uavhengig segregeringUlike former av et gen kalles alleler.Hvert individ har to alleler for hvert gen:en allel fra far og en fra mor. Hver forelder overfører en av de to allelene for hvert gen til hvert barn
• Loven om dominansFor hvert karaktertrekk (gen) er det en allelsom er dominant og en som er recessiv, og disse forekommer i forholdet 3:1
Gregor Mendel
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 6
Genene består av DNA
• Fram til 1940-årene så man på gener som diskrete ”arvepartikler” på kromosomene, som genererer enzymer på en eller annen måte
• Det var en vanlig oppfatning at genene måttevære proteiner (siden de var kompliserte nok)
• I 1944 klarte Avery m.fl. å transformere enufarlig bakterie til en dødelig variant ved åkombinere den ufarlige varianten med en inaktivert form av den farlige varianten
• De klarte så å vise at den ”transformerende substansen” var DNA
Oswald Avery
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 7
DNA er en dobbeltheliks
• I 1953 foreslo Watson og Crick en struktur for DNA hvor to enkelttråder med DNA er bundet til hverandre (C til G, og A til T) og tvinnet som en heliks
• Modellen var basert påChagraff’s regler (A=T og C=G) og radiologiske undersøkelser fra Rosalin Franklin
• Dette ga umiddelbart en ide til hvordan DNA kunne replikeres(kopieres) når en celle skal dele seg
Watson & Crick with DNA model
Rosalind Franklin with X-ray image of DNA
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 8
Det sentrale dogmet
• I 1957 presenterte Crick noen ideer som skulle få stor betydning innen biologi
• Han argumenterte for at genenes primære rolle er å produsere proteiner
• Rekkefølgen av baser i DNA er en kode somforteller rekkefølgen av aminosyrer i etprotein. Minst tre baser må til for å kode foren bestemt aminosyre (siden det er 20 ulike)
• Informasjon overføres fra DNA (og RNA) tilproteiner, men ikke andre veien
Francis Crick
3
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 9
Bioinformatikk: Atlas over proteinsekvenser
• I 1965 var endel proteinsekvenser allerede kjent,selv om arbeidet med å finne hver av dem kunnekreve årevis med arbeid
• Dayhoff m.fl. ga dette året ut en liten bok med sekvensinformasjon for 65 proteiner. Dette var det første registeret over sekvenser
• Dette registeret – som ble oppdatert med jevnligemellomrom – var med å legge grunnlaget for moderne sekvensanalyse som er en sentralaktivitet i bioinformatikk
Margaret Dayhoff
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 10
Grunnlager i biologi - livssyklusen
n
n
• Ved meiose (2) dannes det haploide kjønnsceller fra diploide celler
Meiose (2) befruktning
2n
• Ved befruktning danner to haploide kjønnsceller til sammen en diploid zygote
Mitose (1)
• Ved gjentatte mitoser (1) dannes flere identiske celler
mitosedifferensieringmorfogeneseapoptose
• Gjennom et komplisert program dannes et nytt individ
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 11
Celle-deling
• 1. Mitotiske celle-deling– Normal celledeling– Resulterer i diploide datterceller – Dattercellene er genetisk like
• 2. Meiotiske celle-deling (reduktiv deling)– Gjelder kun primære eggceller og
spermatocyter; gir som resultat gameter (spermceller og eggceller)
– Resulterer i haploide datterceller– Dattercellene er genetisk ulike
2n
2n 2n
2n
n n n n
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 12
Cellesyklusen
G1 normal celletilstand; ikke-delende celler forblir i denne tilstanden(da ofte kalt G0)
S forstadium til mitose; DNA replikeres
G2 forstadium til mitosen
M mitose (1);cellen deler seg i to genetisk like datterceller
(fra: www.bioalgorithms.info)
4
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 13
Profase:kromosomer kondenserer ogblir synlige; bipolar spindel utviklesMetafase:kromosomer fullt kondensert og lokaliseres i ekvatorialplanetAnafase:sentromerene deler seg og søster-kromatider dras mot hver sin polTelofase:kromosomer dekondenserer og cytoplasma starter ådele seg i to(From: Molecular Cell Biology, by Lodish et al., 2000, Freeman & Co.)
Mitose (1) trinn for trinn
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 14
DNA-replikasjon• Ved celledeling må genomet dupliseres. Dette skjer ved en
prosess som kalles DNA-replikasjon
• Etter DNA-replikasjon er DNA-dobbelthelixen erstattet av to nye og identiske DNA-dobbelthelixer. Hver av de to nye DNA-molekylene har fått en tråd fra det opprinnelige DNA-molekylet.
Leading og lagging strand bruker to forskjellige mekanismer for DNA replikasjon
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 15
Meiose (2) trinn for trinn
Meiose I
Meiose II
Interfase(DNA-replikasjon)
4n
2n 2n
n n n n
2n
Profase 1Metafase 1Anafase 1Telofase 1
Profase 2Metafase 2Anafase 2Telofase 2
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 16
Meiosis (2)MeioseI: Celle separasjonProfase 1: Kromosomer kondenserer, homologe kromosomer søker sammen
og danner en tetrade. Utveksling av genetisk materiale (rekombinasjon) kan skje ved overkrysning = chiasma
Metaphase 1: Kromosomer lokaliseres i ekvatorialplatenAnaphase 1: Homologe kromosomer separeres
(søsterkromatider forblir sammen)Telophase 1: To søsterceller er dannet med et homologe kromosom
i hver søstercelle
MeioseII: Kjønnscelle formasjonProphase 2: DNA repliserer ikke Metaphase 2: Kromosomer stiller seg opp langs den i ekvatorialplatenAnaphase 2: Centromere deler seg
og søsterkromatider migrerer separat til polenTelophase 2: Celledeling er avsluttet.
Fire haploide søsterkromatider havner i hver sin haploide celle
5
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 17
Mendels prinsipper
• Gener forekommer i ulike varianter eller alleler
• Vi har alle to utgaver av hvert gen. Disse kan være ulike alleler (heterozygot) eller samme allel (homozygot)
• Segregeringsprinsippet: Hver kjønnscelle (og følgelig hvert avkom) får en av de to utgavene – og det er tilfeldig hvilken av dem det er.
• Prinsippet om uavhengig utplukk: Hvilken utgave vi får av et gen har ingen innvirkning på hvilken utgave vi får av et annet gen, forutsatt at genene ligger på forskjellige kromosomer.
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 18
Genotype og fenotype
Et gen (arveanlegg) er et DNA-segment som koder for et funksjonelt produkt
Et allel er en variant av et gen. Ulike alleler koder for litt forskjellige varianter av samme funksjonelle produkt
Et DNA-segment (f.eks. et gen) er polymorftdersom det forekommer i flere varianter i en populasjon
På grunn av polymorfi trenger ikke to individer fra samme populasjon å ha identisk DNA. Hvert individ har sin DNA-variant eller genotype
Ulike genotyper gir opphav til ulike individegenskaper. Hvert individ har sitt uttrykk eller fenotype
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 19
Haploide og diploide celler• Haploid celle (n)
– Celle med ett sett av kromosomer og gener.(Eksempler: bakterier, gameter = kjønnsceller)
• Diploid celle (2n)– Celle med to sett av kromosomer, dvs kromosomene
foreligger i par hvor begge har de samme genene– Kromosomene i et par sies å være homologe og kan
inneholde ulike varianter av de samme genene(Eksempler: de fleste celler i mennesket og i andre høyere organismer)
• Polyploid celle (3n, 4n, ...)– Bl.a. er laks og noen planter tetraploide (4n) (det ser
vi i fortsettelsen bort fra og antar eukaryot=diploid)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 20
Heterozygot og homozygot
• For diploide organismer er genotypen for et bestemt gen gitt ved et par av alleler (allel1, allel2), siden hver av de to homologe kromosomene har "sin versjon" av genet
• En organisme/celle er homozygot med hensyn til et gen/en egenskap dersom de to allelene i et genpar er identiske
• I motsatt fall er organismen/cellen heterozygot med hensyn til dette genet/denne egenskapen
gen 1 gen 2
Heterozygot: ulike varianter av gen 1
Homozygot: samme variant av gen 2
6
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 21
Dominansmønstre
Hvordan oversettes et allelpar (allel1, allel2) til en fenotype? Flere muligheter:
Dominans: den ene allelen har prioritet over den andre (dvs allelene er dominant og recessiv) og bestemmer fenotypen alene (ex: fiolett + hvit = fiolett)
Kodominans: fenotypen har trekk fra begge de to homozygote fenotypene (ex: flekket + prikket = flekket og prikket)
Ufullstendig dominans: fenotypen har trekk som ligger mellom de to homozygote fenotypene (ex: rød + hvit = rosa)
Imprinting: fenotypen er bestemt av allelen som ble arvet fra mor (evt far) - (sjelden)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 22
Illustrasjon: monohybrid krysning
Krysning av erter med to alleler for form:A = rund (dominant) og a = rynkete (recessiv)
Krysser to homozygoter (A,A)=AA og (a,a)=aa:
AA aax
Gameter: A a
AaF1-generasjonen
P-generasjonen
Alle avkom i F1blir runde
F2-generasjonen AA Aa Aa
0.25% 0.25% 0.25% 0.25% 3 : 1
aa
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 23
Illustrasjon: dihybrid krysning
Krysning av erter med to alleler for form og to for farge:A = rund (dominant) og a = rynkete (recessiv)B = gul (dominant) og b = grønn (recessiv)
Krysser doble homozygoter AABB og aabb:
AABB aabbx
AaBb
F1-generasjonen Alle avkom i F1blir gule og runde
P-generasjonen
Gameter: AB ab
Hva skjer når vi krysser erter i F1?
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 24
Illustrasjon: dihybrid krysning
AaBb AaBbx
Gameterab
F1-generasjonen
AB Ab aB abAB Ab aB
ab
aB
Ab
AB
abaBAbABF2 -generasjonen:
9 blir gul, rund3 blir gul, rynkete3 blir grønn, rund1 blir grønn, rynketeDvs de fordeler seg
9:3:3:1
7
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 25
Genotypen bestemmer fenotypen
genotype fenotype
Eksempel: AB0-blodtypesystemet:
AABBAB0
(A, A)(A, 0)(B, B)(B, 0)(A, B)(0, 0)
FenotypeGenotype
Komplikasjon: ikke alle fenotyper er bestemt av ett gen!
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 26
Rekombinasjon er en nesten ubegrenset kilde til genetisk variasjon
Rekombinasjon = utveksling og nykombinasjon av gener (”gene shuffling”)
• Utgangspunkt: diploid celle med n kromosompar og seksuelt paring (M1,P1), ...., (Mn,Pn) (n=23 for mennesker)
• Under meiosen dannes haploide kjønnsceller med n kromosomer• M1 eller P1 eller en rekombinasjon av dem• M2 eller P2 eller en rekombinasjon av dem• osv.
• Utveksling skje ved overkrysning = chiasma (crossing over)
• Dette gir nærmest ubegrenset genetisk diversitet til et individ, en enestående kombinasjon fra begge foreldrene og over mange generasjoner i en art
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 27
Genetisk variasjon og mutasjon
Mutasjoner
• er svert sjelden
• skje under DNA replikasjon
• er tilfeldig
• forandrer DNA sekvens/kode > ny variasjon
• er dårlig for enkeltindivid
• sjeldne, trenges flere andre faktorer i tillegg for å transformere en art
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 28
Mutasjonstyper
8
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 29
Genetic variation: Mouse and human
• Mus har 2.1 x 109 baseparerversus 2.9 x 109 i mensker
• Rundt 95% av alt genetisk materialet er identisk
• 99% av alle 30.000 gener er delt
• De 300 gener som viser ingen homologi mellom de to arterer involvert i immunologi, detoksifisering, luktesans og sex
(Scientific American Dec. 5, 2002)Lars O. Baumbusch INF3350/INF4350 – Høst 2007 30
Pause
(http://jokes4all.net/funpics/random/funpic_222.html)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 31
Hvordan finner man gener?
• Noen ganger er en fenotype eller en sykdom knyttet til et bestemt gen - første trinn er da åfinne ut hvor genet ligger
• Vi trener tilgang til genetisk materiale fra flere generasjoner fra familier som er rammet
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 32
Slektstre av en sjelden recessiv fenotype/sykdom
(From: An Introduction to Genetic Analysis by A.J.F. Griffiths et al., 2000, Freeman & Co.)
9
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 33
Kartlegging av genomer
• Et genomkart forteller hva som befinner seg hvor i genomet
• Ved konstruksjon av genetiske kart benytter en segav lovmessigheten for arv: overføring av genetiske materiale fra en generasjon til neste
• Genomkart kan variere fra kart som bare angir relativ posisjonav gener eller markører på et kromosom til kart som angir posisjon i antall nukleotider (basepar) fra starten av et kromosom:
> Genetiske kart og fysiske kart
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 34
Genetisk kopling
La A,B,C være de maternaleog a,b,c være de paternaleallelene for de tre genene.
Forutsatt at chiasmata (= overkrysning) oppstårmed like stor sannsynlighet alle steder langs et kromosom, er det mer sannsynlig med en overkrysningmellom gen 2 og gen 3 enn det er mellom gen 1 og gen 2.
Da forventer vi flere gameter med (A,B,c) eller (a,b,C) enn med (A,b,c) eller (a,B,C).
1 2 3
Aa Bb Cc
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 35
Genetisk kopling
A B C
a b c
Overkrysning mellom gen 1 og gen 2:
Overkrysning mellom gen 2 og gen 3:
1 2 3
mindre
hypp
ig mer hyppig
A b c
a B C
A B c
a b C+ +
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 36
Konstruksjon av genetiske kart
• Betrakt to genetiske markører på hvert sitt kromosom:
a
A
b
B
kromosom 1 kromosom 2
0.25ab
0.25Ab0.25aB
0.25ABFrekvensGenotype
Homologer
• Genene segregerer uavhengig av hverandre, og genotypen som overføres til et avkom vil derfor følge disse frekvensene:
10
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 37
Konstruksjon av genetiske kart
• Betrakt to genetiske markører på samme kromosom:
a
A
kromosom 1
50%
0%0%50%To rekombinasjoner
25%
25%25%25%En rekombinasjon
50%ab
0%Ab0%aB
50%ABIngen rekombinasjonGenotype
b
B
• Fordelingen til genotypene avhenger av antall rekombinasjonermellom genene:
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 38
Genetiske markører
• Vi prøver nå å finne en kjent genetisk markøri nærheten av genet og som er genetisk koplet til genet, slik at vi kan plassere genet på et genetisk kart
• Genetiske variasjoner (i gener) som gir observerbart utslag på individets fysiske trekk (f.eks. øyenfarge)
• DNA-markører hvor biokjemiske tester kan detektere hvilke variant som er tilstede (f.eks. SNPs, mikro-satellitter, RFLPs)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 39
Genetiske markører
• SNPs (single nucleotide polymorphisms)Individual point mutations, or substitutions of a single nucleotide, that do not change the overall length of the DNA sequence in that region. SNPs occur throughout an individual's genome.
• Mikrosatellitter (Microsatellite polymorphisms)Defined by a variable number of repetitions of a very small number of base pairs within a sequence. Oftentimes, these repeats consist of the nucleotides, or bases, cytosine and adenosine.
• RFLP (Restriction Fragment Length Polymorphism)RFLPs are variations in the restriction map of a given locus. RFLPs can result from: Point mutation creating or destroying a restriction site, insertion or deletions altering the length of a given restriction fragment.
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 40
Rekombinasjonsfrekvens
• Ved å telle opp antall parentale og antall rekombinante individer i et krysningsforsøk med to gener, kan en finne rekombinasjons-frekvensen mhp de to genene:
antall rekombinanteantall rekombinante + antall parentale
θ =
1cM
A B
a b1% av avkommet errekombinanter
• To gener eller mer generelt: loci på samme kromosom med rekombinasjonsfrekvens θ = 0.01 sies å ha genetisk avstand lik 1 centiMorgan (cM).
11
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 41
Mapping-funksjoner
1 ln(1 2 )2
1 ln[(1 2 ) /(1 2 )]4
x
x
x
θ
θ
θ θ
=
= − −
= + −Kosambi:
Ulike måter å definere genetisk avstand (i centiMorgan)ut fra rekombinasjonsfrekvens:
rekombinasjonsfrekvensgenetisk avstand (cM)x
θ ==
Haldane:
Morgan:
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 42
Genetiske kart
Genetiske kart angir posisjonen til genetiske markører på et kromosom.
Måles i centiMorgan (cM)
1 cM = rekombinasjons-frekvens 1%
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 43
Genetisk kart - fysiske kart
• Genetiske kart viser hvordan et sett med genetiske markørerligger i forhold til hverandre langs et kromosom
– kan bare brukes til å kartlegge genetiske markører– av et generelt dårlig oppløsning– ingen enkel sammenheng mellom genetisk avstand og
fysisk avstand: forholdet varierer med organisme, kromosom og kromosomlokasjon og kompliseres av fenomener som recombination hotspots
• Fysiske kart viser den fysiske posisjonen til et sett med elementer
– angir fysisk posisjon til markører (ikke begrenset til polymorfe DNA-segmenter)
– varierer i oppløsning, fra cytogenetiske kart til sekvenskart
• Integrerte genomkart = Genetiske kart + Fysiske kart
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 44
Eksempel: Entrez Map Viewer
Kartlegging av tosett med markører
Avstander i centiMorgan
Andel individer som er hetero-zygote for denne markøren
Tilstedeværelseav ulike typer markører
12
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 45
Bioteknologi etableres ... basis for bioinformatikk
1970 Første restriksjonsenzymer ble oppdaget1971 Genkloning og starten på moderne bioteknologi
1972 Protein DataBank etableres (med 10 proteiner!)
1977 De første metoder for å sekvensere DNA utvikles
1980... Automatiserte metoder for å sekvensere DNA
1988… Mer effektive metoder for sekvenssammenstilling,NCBI (National Center for Biotechnology Information) etableres
1995 Første levende organisme ferdig sekvensert 1997 E.coli ferdig sekvensert (en bakterie)
1999 Første høyere organisme ferdig sekvensert (bananflue)1999 Første humane kromosom ferdig sekvensert (#22)
2001 ”Frist draft” av menneskets genom ferdig sekvensert
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 46
Basics of biotechnology methods
• Cutting and pasting DNA– Restriction enzymes– Cloning
• Copying DNA– Polymerase Chain Reaction
• Measuring DNA length– Electrophoresis– DNA sequencing
• Hybridization– Southern blotting– Microarrays
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 47
Restriction enzymes: Cutting DNA
• Restriction enzymes are discovered in the early 1970’s– Used as a defense mechanism by bacteria
to break down the DNA of attacking viruses– They cut the DNA into small fragments
• Can also be used to cut the DNA of organisms– This allows the DNA sequence
to be in a more manageable bite-size pieces
• It is then possible using standard purification techniques(electrophoresis) to single out certain fragments and duplicate them to macroscopic quantities
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 48
Cutting DNA
• Restriction Enzymes cut DNA– cut specific at particular
sequence patterns
• DNA contains thousands of these sites
• Applying different restriction enzymes creates fragments of varying size
Restriction Enzyme “A” Cutting Sites
Restriction Enzyme “A” & Restriction Enzyme “B” Cutting Sites
Restriction Enzyme “B” Cutting Sites
“A” and “B” fragments overlap
13
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 49
Pasting DNA
Two pieces of DNA can be fused together
– Hybridization = complementary base-pairing
– Ligation = fixing bonds with single strands
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 50
Cut and paste: Cloning DNA
DNA cloning:Insert the fragment into the genome of a living organismand multiply
Vector DNA
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 51
Assembling genomes for sequencing genomes
Important for sequencing projects
Make a “DNA library”
– Some of the fragments will overlap
– Fit overlapping sequence fragmentstogether to get complete sequence
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 52
Major: Polymerase chain reaction (PCR)
– Separate the two DNA strands with heat
– Add primer sequences, and DNA Polymerase
– Creates double stranded DNA from a single strand
– Primer create a start from which double stranded DNA grows
– You get two copies
– Repeat “x”: Amount of DNA grows exponentially: 1→2→4→8→16→32→64→128→256…
14
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 53
Fundamental: Electrophoresis = “gel”
• A polymer of agarose or polyacryl amide, forms a gel with pores sizes dependent upon the concentration of the polymer
• The phosphate backbone of DNA is highly negatively charged, therefore DNA will migratein an electric field
• The size of DNA fragments can then be determined by comparing their migration in the gel to known size standards
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 54
Sequencing: Reading DNA
Given a DNA molecule it is possible to obtain all fragments that end in either A, or T, or G, or C and these can be sorted in a gel experiment
– DNA or RNA molecules are charged and move to a definite direction by applying an electric field
– DNA molecules are labeled with radioisotopes or fluorescent dyes (with a laser beam fluorescent probes can be read by automatically)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 55
Chain termination sequencing or dideoxy sequencing
Dideoxynucleotides (ddNTPs)> interrupt chain elongation
Synthesize a complimentary chain*:
• Add target DNA and primer • Divide sample among four test tubes:
– "G" tube: all four dNTP's, ddGTP– "A" tube: all four dNTP's, ddATP– "T" tube: all four dNTP's, ddTTP– "C" tube: all four dNTP's, ddCTP
• Add DNA polymerase
• Run 4 lanes gel and read
* Primer or nucleotides are labeled withradioactivity or fluorescence
(http://lifesciences.asu.edu/resources/mamajis/sequencing/sequencing.html) Lars O. Baumbusch INF3350/INF4350 – Høst 2007 56
Assembling Genomes – sequencing problems
• DNA fragments contain sequencing errors
• Two complements of DNA– Need to take into account both directions of DNA
• Repeat problem– 50% of human DNA is just repeats– If you have repeating DNA,
how do you know where it goes?
• Genome (sequencing, annotation and in reality)is quite “dynamic”
15
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 57
Hybridization
• Single-stranded DNA (and RNA) naturally binds to complementary strands
• Hybridization is used to locate genes, measurement of gene expression regulation, and determine the degree of similarity between DNA from different sources
• Used for Southern blotting and microarrays
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 58
Hybridization: Microarrays
• Microarray exploits the ability of single-stranded RNA/DNA to hybridize to complementary strands
• An array containing thousands of probes (BAC, cDNAs or oligos) allows the measurement of thousands of genes at the same time
• By scanning, the amount of RNA/DNA bound to the spots on the microarray is precisely measured, generating a profile of gene expression (RNA) or DNA copy number profiles (DNA)
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 59(after: Brown PO and Botstein D 1999 and Perou CM et al., 2000)
referenceRNA
label with fluorescent dyes
scan red/green intensity
hybridizeprobe tomicroarray analysis
& clustering
tumorRNA
Microarrays for gene expression and copy number analysis
tissue samples
Lars O. Baumbusch INF3350/INF4350 – Høst 2007 60
Biotechnology and Bioinformatics
(http://www.accessexcellence.org)