Data mining difuso para el estudio de características estructurales y funcionales del genoma de la...
-
Upload
alberto-labarga -
Category
Technology
-
view
1.142 -
download
2
description
Transcript of Data mining difuso para el estudio de características estructurales y funcionales del genoma de la...
![Page 1: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/1.jpg)
Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura
F.J. López, A. Blanco, F. Garcia, C. Cano, M. CuadrosDpto. de Ciencias de la Computación e Inteligencia Artificial
Universidad de Granada
![Page 2: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/2.jpg)
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFAR
RESULTADOS
CONCLUSIONES
![Page 3: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/3.jpg)
1. Introducción
Secuenciación de genomas
Nuevas tecnologías: microarrays
Cantidades ingentes de datos biológicos
![Page 4: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/4.jpg)
Datos biológicos dispersos por muchas bases de datos:
Necesidad de análisis integrativos
Extracción de reglas de asociación
Datos imprecisos y con ruido:
Conjuntos difusos Extracción de reglas de asociación difusas
1. Introducción
![Page 5: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/5.jpg)
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFar
RESULTADOS
CONCLUSIONES
![Page 6: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/6.jpg)
2. Conjunto de datos: levadura
Genoma “simple”
Organismo muy estudiado: mucha información precisa contrastar resultados
Tipos de datos incluidos en el análisis:
Información estructural
Información funcional
Expresión de los genes: microarrays
Gene Ontology (GO)
![Page 7: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/7.jpg)
Información estructural:
Longitud de los genes
Proporción de G+C
Coordenadas de los genes
Longitud de los intergénicos
Proporción de G+C en los intergénicos etc.
2. Conjunto de datos: levadura
![Page 8: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/8.jpg)
Información funcional:
Abundancia de proteínas (Huh et. al. 2003)
Respuesta de cada gen a condiciones cambiantes
(Tirosh et. al. 2006)
Presencia de la caja TATA (Tirosh et. al. 2006)
Definir conjuntos difusos en dominios continuos
2. Conjunto de datos: levadura
![Page 9: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/9.jpg)
Datos de expresión génica:
A genome-wide transcriptional analysis of the mitotic cell cycle
(Cho et. al. 1998)
Resultados de experimentos con microarrays de gran relevancia
2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos.
2. Conjunto de datos: levadura
![Page 10: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/10.jpg)
Datos de expresión génica:
Algoritmos de bicluster sobre la matriz de expresión
(EDA Biclustering, Gene&Sample Shaving)
Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales.
Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster
Una columna indicando el bicluster(s) al q pertenece el gen
2. Conjunto de datos: levadura
![Page 11: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/11.jpg)
Gene Ontology (GO)
Lista con los términos en los que está
anotado el gen
Se descartan los términos que no aportan
información (‘molecular_function’ etc.)
Information Content Theory
)log(
))(log()(
minP
nodePnodeIC
2. Conjunto de datos: levadura
![Page 12: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/12.jpg)
Orf_name chr length Int lenght … GOannotations
YAL002W 1 3825 546 …GO:0016197,GO:0050875,GO:0016192,…
YAL003W 1 621 742 …GO:0003746,GO:0006414,GO:0005840,GO:0005853, …
YAL008W 1 597 280 …
GO:0005741,GO:0005739,GO:0005737,GO:0031968,GO:0031967, …
YAL009W 1 780 188 …
GO:0042175,GO:0016021,GO:0030437,GO:0007126,GO:0006997…
2. Conjunto de datos: levadura
![Page 13: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/13.jpg)
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFAR
RESULTADOS
CONCLUSIONES
![Page 14: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/14.jpg)
Regla de asociación:
A C
A, C: conjuntos de pares atributo-valor o itemsets
Soporte: probabilidad de que ocurran A y C
Confianza: probabilidad de que ocurra C dado que ha ocurrido A.
3. Reglas de asociación
![Page 15: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/15.jpg)
3. Reglas de asociación Algoritmos:
Agrawal 1994, Apriori
Savasere et. al. 1995, Partition
Wang et. al. 2002, TD FP-Growth
Zaki et. al. 1998, Eclat
…
![Page 16: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/16.jpg)
Algoritmo muy eficiente
Solo dos escaneos de la BDs
Utiliza una estructura de datos:
FP-tree
3. Reglas de asociación
![Page 17: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/17.jpg)
Necesidad de manejar conjuntos difusos
Algoritmo Fuzzy TD FP-Growth(Lopez et al. 2008)
Adaptar la forma en que se calculan el soporte y la confianza Soporte y confianzas difusas
Adaptar el contenido de los nodos del FP-tree
3. Reglas de asociación
![Page 18: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/18.jpg)
Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs)
(Delgado et al. 2003)
Certainty Factor:
)(1
)()()(
CSupp
CSuppCAConfCACF
3. Reglas de asociación
![Page 19: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/19.jpg)
Fusionar reglas que contienen nodos GO Reglas que comparten todos sus items menos el término GO
3. Reglas de asociación
![Page 20: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/20.jpg)
Fusionar reglas que contienen nodos GO
Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC
Cada nodo GO hereda las propiedades de todos sus ancestros
Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo
3. Reglas de asociación
![Page 21: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/21.jpg)
Calcular un False Discovery Rate:
Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original)
Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio
3. Reglas de asociación
![Page 22: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/22.jpg)
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFAR
RESULTADOS
CONCLUSIONES
![Page 23: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/23.jpg)
http://genome.ugr.es/biofar
Biological Data Analysis by Fuzzy Association Rule Mining: BioFar
Entradas:
Conjunto de datos: fichero delimitado por tabulaciones, .csv
Umbrales
Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica
4. Aplicación web: BioFAR
![Page 24: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/24.jpg)
4. Aplicación web: BioFAR
![Page 25: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/25.jpg)
Salida: fichero de texto
4. Aplicación web: BioFar
![Page 26: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/26.jpg)
Software para el filtrado de reglas:
4. Aplicación web: BioFar
![Page 27: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/27.jpg)
Salida del filtrado: fichero html
4. Aplicación web: BioFar
![Page 28: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/28.jpg)
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFar
RESULTADOS
CONCLUSIONES
![Page 29: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/29.jpg)
5. Resultados: experimentos
Variables
UmbralesNúmerototal dereglas
FDRConf. & CF Soporte
Variables estructurales 0.1 0.01 24 0.093
Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040
Responsiveness & Variables estructurales 0.1 0.002 10 0.044
Variables estructurales & Molecular Function 0.4 0.004 20 0.042
Variables estructurales & Biological Process 0.5 0.004 7 0.050
Variables estructurales & Cellular Component 0.5 0.004 12 0.011
Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318
Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115
Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006
Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003
![Page 30: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/30.jpg)
REGLA Confianza Soporte CF
gct = HIGH length = LOW 0.41 0.15 0.12
length = LOW gct = HIGH 0.40 0.15 0.12
gct = LOW length = HIGH 0.38 0.13 0.12
length = HIGH gct = LOW 0.40 0.14 0.12
5. Resultados
![Page 31: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/31.jpg)
REGLA Confianza Soporte CF
gct = HIGH length = LOW 0.41 0.15 0.12
length = LOW gct = HIGH 0.40 0.15 0.12
gct = LOW length = HIGH 0.38 0.13 0.12
length = HIGH gct = LOW 0.40 0.14 0.12
Negative correlation between length and G+C content (Spearman’s r = −0.25, p < 0.0001)
A Marin et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003
5. Resultados
![Page 32: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/32.jpg)
REGLA Confianza Soporte CF
Intergenic GC = LOW Orientation = TANDEM 0.68 0.20 0.37
Intergenic GC = HIGH Orientation = DIVERGENT 0.65 0.19 0.18
Intergenic length = HIGH Orientation = DIVERGENT 0.62 0.18 0.23
Intergenic length = MEDIUM Orientation = TANDEM 0.56 0.22 0.14
B. Dujon, “The yeast genome project: what did we learn”, Trends Genet. 12, 263- 270, 1996.
A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.
5. Resultados
![Page 33: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/33.jpg)
REGLA Confianza Soporte CF
Intergenic GC = LOW gct = LOW 0.68 0.20 0.37
gct = LOW Intergenic GC = LOW 0.65 0.19 0.18
gct = HIGH Intergenic GC = HIGH 0.62 0.18 0.23
Intergenic GC = HIGH gct = HIGH 0.56 0.22 0.14
A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.
5. Resultados
![Page 34: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/34.jpg)
REGLA Confianza Soporte CF
Protein abundance = HIGH length = MEDIUM 0.748 0.092 0.12
Protein abundance = LOW length = HIGH 0.45 0.087 0.22
Protein abundance = HIGH G+C = HIGH 0.40 0.074 0.15
A. Marin, et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20: 703-711, 2003.
Coghlan A, Wolfe KH, “Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae”, Yeast 16:1131-1145, 2000.
Warringer J, Blomberg A, “Evolutionary constraints on yeast protein size”, BMC Evol Biol 15:6-51, 2006.
5. Resultados
![Page 35: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/35.jpg)
REGLA Confianza Support CF
structural constituent of ribosome length = LOW 0.77 0.028 0.67
plasma membrane length = HIGH 0.57 0.023 0.39
helicase activity length = HIGH 0.78 0.01 0.69
GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980.
J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006.
5. Resultados
![Page 36: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/36.jpg)
REGLA Confianza Soporte CF
bicluster = 1 GO = non-membrane-bound organelle 0.54 0.0029 0.45
bicluster = 1 GO = nucleus 0.61 0.0033 0.45
bicluster = 2 length = MEDIUM 0.68 0.0018 0.46
bicluster = 2 responsiveness = HIGH 0.80 0.0022 0.74
bicluster = 2 GO = oxidoreductase activity 0.43 0.0012 0.40
5. Resultados
![Page 37: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/37.jpg)
Bicluster 1 Bicluster 2
5. Resultados
![Page 38: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/38.jpg)
REGLA Confianza Soporte CF
bicluster = 3 GO = nucleus 0.65 0.0039 0.50
bicluster = 3 GO = DNA metabolism 0.48 0.0029 0.44
bicluster = 4 length = LOW 0.81 0.0033 0.73
bicluster = 4 G+C = HIGH 0.89 0.0036 0.85
bicluster = 4 GO = non-membrane-bound organelle 0.90 0.0037 0.89
bicluster = 4 GO = biosynthesis 0.90 0.0037 0.89
bicluster = 4 GO = protein complex 0.90 0.0037 0.87
bicluster = 4 GO = organelle part 0.86 0.0035 0.78
bicluster = 4 GO = cytosol 0.86 0.0035 0.85
bicluster = 4 GO = structural molecule activity 0.86 0.0035 0.85
5. Resultados
![Page 39: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/39.jpg)
Bicluster 3 Bicluster 4
5. Resultados
![Page 40: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/40.jpg)
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFar
RESULTADOS
CONCLUSIONES
![Page 41: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/41.jpg)
6. Conclusiones
Metodología difusa efectiva para la integración y el análisis de datos biológicos
Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos
Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva
![Page 42: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/42.jpg)
6. Conclusiones
Definición de otras medidas de calidad de las reglas
Incluir otros tipos de información en el análisis
Aplicar la metodología a otras especies
Combinar con otras técnicas
![Page 43: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura](https://reader035.fdocument.pub/reader035/viewer/2022062419/5590fcb71a28aba0228b470f/html5/thumbnails/43.jpg)