Genómica Estructural Asignatura de Genómica Vegetal Máster del IBMCP Curso 2009-2010.
-
Upload
carmelo-mesa -
Category
Documents
-
view
6 -
download
0
Transcript of Genómica Estructural Asignatura de Genómica Vegetal Máster del IBMCP Curso 2009-2010.
Genómica Estructural
Asignatura de Genómica Vegetal
Máster del IBMCPCurso 2009-2010
4
2 Predicción de genes
3 Elementos reguladores en cis
5Motivos en proteína
Función hipotética
Análisis de secuencias
1 Secuencia “cruda”
Predicción de genes
Fuentes de información
• Secuencias consenso de procesamiento• Similitud de secuencia
Refinado estructura exones / intrones• Secuencias de inicio transcripción• Secuencias de poliadenilación
Algoritmos• Genscan (http://genes.mit.edu/GENSCAN.html)• GeneMark (http://opal.biology.gatech.edu/GeneMark/)
El algoritmo GENESCAN
• Se basa en un modelo probabilístico.• Tiene en cuenta el sesgo de uso de codones
en regiones codificantes, codones de inicio y parada, tamaños típicos de exones, presencia de promotores, presencia de genes en las dos cadenas…)
• No usa búsquedas de similitudes para predecir genes
• No tiene en cuenta el procesamiento alternativo
• Podría combinar dos exones de genes consecutivos.
Predicción de genes (fiabilidad)
Parámetros
(Sensibilidad) Sn=Exones reales
Exones correctos(Especificidad) Sp=
Exones predichos
Exones correctos
ME=Exones que faltan: anotados, pero no predichos
WE=Exones equivocados: predichos, pero no reales
Realidad
Predición
WE CE ME
CE=Exones correctos: predichos, y reales
Predicción de genes (valoración)
A favor
• El número de genes predichos es correcto• Funciona bien para genes simples
En contra
• El diseño de los algoritmos es bueno para vertebrados• Exones iniciales y finales son más difíciles de predecir correctamente
Protocolos de “inteligencia artificial”
Características
• Los programas infieren los criterios de búsqueda basándose en la “experiencia”
Ejemplos
• NNDP (Neural Network Promoter Predictor) (http://www.fruitfly.org/seq_tools/promoter.html)
• GRAIL (http://compbio.ornl.gov/tools/index.shtm)
Algoritmos
Neural Networks - Hidden Markov Models - Stochastic context-free grammars
Anotación de las secuencias
Objetivo
• Dar “nombre” a la secuencia. Atribuirle una función hipotética
¿Con qué respuesta nos conformamos?
Procedimientos
• Búsqueda de genes parecidos, ya presentes en las Bases de Datos (FASTA, BLAST,…)
• Búsqueda de motivos en la proteína y en el promotor
Búsqueda de homologías en Bases de Datos
FASTA vs BLAST
• FASTA es más sensible que BLAST para búsquedas basadas en secuencias de nucleótidos
• BLAST es bueno para encontrar homologías “locales” en secuencias de aminoácidos
BLAST
Tipos de búsqueda
Blastn Blastp Blastx Tblastn Tblastx
DB: nuc prot prot nuc (tr) nuc (tr)
Sec fav: nuc prot nuc (tr) nuc (tr) prot
Parámetros importantes
• Código genético a emplear• Filtro de complejidad• P value
BLAST
Sequences producing High-scoring Segment Pairs: Score P(N) sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) (... 1191 7.7e-160 sp|P01014|OVAY_CHICK GENE Y PROTEIN (OVALBUMIN-RELATED). 949 7.0e-127 sp|P01012|OVAL_CHICK OVALBUMIN (PLAKALBUMIN). 645 3.4e-100 sp|P19104|OVAL_COTJA OVALBUMIN. 626 1.2e-96 sp|P05619|ILEU_HORSE LEUKOCYTE ELASTASE INHIBITOR (LEI). 216 3.7e-71 sp|P80229|ILEU_PIG LEUKOCYTE ELASTASE INHIBITOR (LEI) (... 325 4.0e-71 sp|P29508|SCCA_HUMAN SQUAMOUS CELL CARCINOMA ANTIGEN (SCC... 439 3.5e-70 sp|P30740|ILEU_HUMAN LEUKOCYTE ELASTASE INHIBITOR (LEI) (... 211 1.3e-66 sp|P05120|PAI2_HUMAN PLASMINOGEN ACTIVATOR INHIBITOR-2, P... 176 1.8e-65 sp|P35237|PTI_HUMAN PLACENTAL THROMBIN INHIBITOR. 473 1.3e-61 sp|P29524|PAI2_RAT PLASMINOGEN ACTIVATOR INHIBITOR-2, T... 183 9.4e-61 sp|P12388|PAI2_MOUSE PLASMINOGEN ACTIVATOR INHIBITOR-2, M... 179 1.8e-60 sp|P36952|MASP_HUMAN MASPIN PRECURSOR. 198 2.6e-58 sp|P32261|ANT3_MOUSE ANTITHROMBIN-III PRECURSOR (ATIII). 142 4.0e-48 sp|P01008|ANT3_HUMAN ANTITHROMBIN-III PRECURSOR (ATIII). 122 7.5e-48
Anotación de las secuencias
• Gen con función conocida• Gen parecido a uno con función conocida• Gen parecido a uno sin función conocida• Gen sin parecido a otros
Resultado gene 117519..121391 /gene="At5g01290" /note="T10O8.2; F7J8.270; mRNA capping enzyme (HCE), Homo sapiens, EMBL:AF025654" CDS join(117519..117617,117741..117858,117932..118050, 118141..118242,118329..118391,118521..118655, 118748..118954,119354..119473,119876..119965, 120119..120259,120425..120532,120626..120712, 120863..121171,121266..121391) /gene="At5g01290" /codon_start=1
Búsqueda de elementos reguladores
• PLACE (Database of Plant Cis-Acting Regulatory DNA Elements)(http://www.dna.affrc.go.jp/htdocs/PLACE/signalscan.html)
CAAT box… CAAT …
DOF core… AAAG …
GCBP2… GTGGGCCCG …
TATA box
• PlantCARE (Plant Cis-Acting regulatory Elements)(http://sphinx.rug.ac.be:8080/PlantCARE/)
Búsqueda de elementos reguladores
• Promomer(http://www.bar.utoronto.ca/ntools/cgi-bin/BAR_Promomer.cgi)
Búsqueda de motivos en proteínas
• TargetP, ChloroP (http://www.cbs.dtu.dk/services)• MetaPredict (http://dodo.bioc.columbia.edu/predictprotein/)• Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/)
Nt Ct
NLS (Transporteal núcleo)
Cremallera de leucinas(Interacción Prot-prot)
Myb (Unión al DNA)
Desconocido
Búsqueda de motivos en proteínas
• Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/)• Protein Families Database of Alignments (PFAM) (http://www.sanger.ac.uk/software/pfam)
Nt Ct
Nt Ct
Nt Ct
… DGMNEHLEKKDVACA …
Búsqueda en Bases de Datos
Búsqueda de motivos en proteínas
Análisis 3D automatizado
Filogenia estructural
Análisis de polimorfismos
• La secuencia de nucleótidos varía ligeramente en variedades de una misma especie
http://www.arabidopsis.org/Cereon/index.html
Ejemplo: Ler vs. Col, 56,670 polimorfismos
37,344 SNPs18,759 InDels 747 InDels grandes
AplicacionesIdentificación de variedadesEstablecimiento de mapasAsistencia a la clonación
DiagnósticoRFLPs, CAPS, dCAPS
AFLPschips de SNPs
CAPS
EcoRI EcoRI EcoRI
Cleaved Amplified Polymorphic Sequences
Landsberg Heterozigoto Columbia
EcoRI EcoRI
EcoRI
DNA genómico
dCAPS
Derived-CAPS
…GTGGAAGAAGCTCGATGAGGCTTTGGGG…
…GTGGAAGAAGCTCGATGAGGCTTTGAGG…
Var1
Var2
GTGGAAGAAGCTCGACCAGGCTTTGPrimer dCAP
Var1
Var2PCR
(dCAP + Pr2)Digestión
Bsl I
Bsl I CCNNNNNNNGG
AFLP
Amplified Fragments Length Polymorphisms
DNA genómico
Digestión (frec+rara)
Ligación adaptadores
AFLP fingerprint
Amplificación por PCR