Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-08.pdf ·...
Transcript of Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-08.pdf ·...
19.07.2012
1
Sommersemester 2012
Dr. Kirsten
http://dbs.uni-leipzig.de
Universität Leipzig
Institut für Informatik
Datenbanken in der
Bioinformatik
Kapitel 8
Datenintegration
- Ansätze und Systeme -
Sommersemester 2012
Dr. Toralf Kirsten, Anika Groß
Vorlesung Biodatenbanken
Universität Leipzig
Vorläufiges Inhaltsverzeichnis
1. Motivation und Grundlagen
2. Klassifizierung von BioDB, Überblick
3. Sequenzierung und Genexpressionsanalyse
4. Datenmodelle und Anfragesprachen
5. Modellierungsalternativen
6. Versionierung von Datenbeständen
7. Annotationen
8. Datenintegration: Ansätze und Systeme
9. Datenmanagement in der Cloud
19.07.2012
2
Vorlesung Biodatenbanken
Universität Leipzig
Gliederung: Kontext
Beschreibung des Unter-
suchungsgegenstandes
Beschreibung des
experimentellen
Designs und Prozesses
experimentelle
Metadaten
experimentelle Daten
Experiment
Analyse
Analysergebnisse
Interpretation und Ergebnispräsentation
Datenintegration
private und öffentlich zugängliche Daten
zur Beschreibungen von Genen
Gewebeprobe / selektierte Zelle Hypothese
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Lernziele
Verstehen und Begreifen von generellen
Ansätzen zur Datenintegration
Anwendung in Abhängigkeit von Kontext und
Daten
Beurteilung der Ansätze
Kennen von speziellen Datenintegration-
lösungen sowie deren Verwendung
Sommersemester 2012
Dr. Kirsten
19.07.2012
3
Vorlesung Biodatenbanken
Universität Leipzig
Gliederung
1. Motivation
2. Datencharakteristik
3. Probleme und Anforderungen
4. Ausgewählte Lösungskonzepte
a) Link-Factories
b) Data-Warehouse-basierte Integration
c) Integration basierend auf der genomischen
Sequenz
d) Integration durch Indexierung von Web-Quellen
e) Mapping-basierte Integration
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Problembereich: Datenintegration
Aufgabenspektrum:
Klinische Daten
z.B. Patientendaten
Daten über biol. Objekte,
z.B. Gene, Proteine
• Selektion von interessanten Daten,
• übergreifenden Datenanalyse und
• Interpretation von Analyseergebnissen
Experimentelle Daten
z.B. Microarray-Daten
...
Differentiell exprimierte STAT3 Gene bei
malignen Lymphomen von Patienten,
die älter als 50 Jahre sind?
Sommersemester 2012
Dr. Kirsten
19.07.2012
4
Vorlesung Biodatenbanken
Universität Leipzig
Verschiedene Arten von Analysen Analyse von Sequenzdaten (z.B. multiple alignments)
Identifikation von Transkriptionsfaktorbindungsstellen
Genexpressionsanalyse
Transkriptionsanalyse, z.B. ENCODE Projekt (http://www.genome.gov/ENCODE)
Functional profiling
Pathway Analyse und Rekonstruktion
Viele heterogene Datenquellen Experimentdaten, z.B. von Chip-basierten Techniken
Experimentbeschreibung (Metadaten eines Experiments)
Klinische Daten
Viele miteinander verbundene Webdatenquellen und Ontologien
Private vs. öffentliche Daten
Motivation
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Datenintegration
Datenintegration = Informationsintegration
Korrekte, vollständige und effiziente
Zusammenführung von Daten und Inhalt
verschiedener, heterogener Quellen zu einer
einheitlichen und strukturierten Infomenge zur
effektiven Interpretation durch Nutzer und
Anwendungen*
= Zusammenfügung von Metadaten und
Instanzdaten
*Leser, Naumann: Informationsintegration, dpunkt.verlag, 2007.
Sommersemester 2012
Dr. Kirsten
19.07.2012
5
Vorlesung Biodatenbanken
Universität Leipzig
Datenintegration
Ziel: Mehrwert, der sich mit der Kombination von
Daten ergibt
bessere Ergebnisse = umfassender, qualitativ
hochwertiger, abgesicherter
Anfragen, die nur von Daten mehrerer
Datenquellen beantwortet werden können
Anfrage
RDBMS XML-DBMS
Integrationssystem
Dateien Web-Daten Anwendungen Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Probleme bei einer Datenintegration
Komplexe Fragestellungen Nutzung vieler
verschiedener Datenquellen
Weite Verteilung der Daten
Hohe Redundanz
Heterogenität der Datenquellen bzgl.
Syntax
Schema/Struktur
Semantik
Schnittstellen
Evolution von Daten und Schemata
Sommersemester 2012
Dr. Kirsten
19.07.2012
6
Vorlesung Biodatenbanken
Universität Leipzig
Verteilung, Autonomie, Heterogenität*
Architekturraum durch drei orthogonale Aspekte
Verteilung: physisch, logisch
Autonomie, zB bzgl. Design, Schnittstellen,
Evolution, Zugriff, ...
Heterogenität
*Leser/Naumann: Informationsintegration, dpunkt.verlag, 2007, S. 49ff
homogene, zentrale DB verteilte DB verteilte heterogene DB verteilte autonome DB verteilt, heterogen, autonom
Autonomie
Verteilung
Heterogenität
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Architekturvarianten im Überblick
Monolithische Datenbanken
Förderierte Datenbanken
Mediator-basierte Systeme
Peer-Daten-Management-Systeme
Suchmaschinen
Portale
...
Sommersemester 2012
Dr. Kirsten
19.07.2012
7
Vorlesung Biodatenbanken
Universität Leipzig
Bio-Datenquellen
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Verschiedener Arten von Webdatenquellen
Genomdatenquellen: Ensembl, NCBI Entrez, UCSC
Genome Browser, ...
Objekte: Gene, Transkripte, Proteine etc. verschiedener
Spezies
Objektspezifische Datenquellen
Proteine: UniProt (SwissProt, Trembl), Protein Data Bank
(PDB), ...
Proteininteraktionen: BIND, MINT, DIP, ...
Gene: HUGO (standardisierte Gensymbole für humanes
Genom), MGD, ...
Pathways: KEGG (metabolische & regulatorische Pathways),
GenMAPP, ...
...
Sommersemester 2012
Dr. Kirsten
19.07.2012
8
Vorlesung Biodatenbanken
Universität Leipzig
Verschiedener Arten von Webdatenquellen II
Publikationsquellen: Medline / Pubmed (>16 Mio
Einträge)
Ontologien
Verwendung zur einheitlichen und semantischen
Beschreibung von Eigenschaften biol. Objekte
Kontrollierte Vokabulare zur Reduzierung terminologischer
Variationen
Populäre Bespiele : Molekulare Funktionen, Biologische
Prozesse, Zelluläre Komponenten (Gene Ontology)
Ontologie-Sammlung: Open Biomedical Ontologies (OBO)
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Enzyme GeneOntology
OMIM UniGene KEGG
} Referenzen zu anderen Datenquellen
Quellenspezifische ID (accession)
Annotation: Namen, Symbole, Synonyme, etc.
}
Problem: Oftmals keine explizite Mapping-Semantik
Gen Gen: Orthologe Gene vs. Paraloge Gene
Gen GO Annotation: MF vs. BP vs. CC
Annotationsdaten vs. Mapping-Daten
Beispiel: Webdaten mit Referenzen
Sommersemester 2012
Dr. Kirsten
19.07.2012
9
Vorlesung Biodatenbanken
Universität Leipzig
Heterogenität
Schema
Syntax (Format)
Semantik
Viele, hochverbundene Datenquellen und Ontol.
Häufige Änderungen
Daten
Schema und Formate
Schnittstellen
Unvollständige Quellen
Forschung#Tupel Zielstellung der Quelle:
Spezifische Attribute
Überlappende Quellen
Verteilte molekularbiologische Daten
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Dateibasierte Datenformate
Populäre Dateiformate Flat files (Genexpressionsmatrix)
Entry-basiertes Format
FASTA: Sequenzdaten
GenBank
ASN.1 (Abstract Syntax Notation One)
Verschiedene XML-basierte Formate
Probleme
Implizites Wissen über Attribute (Semantik)
Mehrfache Werte eines Attributs in einem Eintrag ohne
einheitliches Trennzeichen
Verwendung des 'comment' Attributs für weitere
Attributwerte
Verschiedene Separatoren innerhalb einer Datei
>3198; HOXA1
actgattacattggtacatgata ...
>696226; HOXB3
gtagctagcgatccatgatcag ...
>...
FASTA
ID 3198
DE homeobox A1
SB HOXA1
SQ actgattacattggtacatgata ...
...
Entry-based
Sommersemester 2012
Dr. Kirsten
19.07.2012
10
Vorlesung Biodatenbanken
Universität Leipzig
Zusammenfassung: Datencharakteristik
Viele verschiedene Datenquellen mit unterschiedlichem
Fokus
Hohe Konnektivität: Instanz-Mappings zwischen
quellenspezifischen Objekten
Mapping vs. Annotationsdaten
Hauptsächlich Heterogenität als Integrationsbarriere
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Datenintegration
Zwei orthogonale Aspekte:
Schemaintegration
Instanzdatenintegration
Anfrage
RDBMS XML-DBMS
Integrationssystem
Dateien Web-Daten
Sommersemester 2012
Dr. Kirsten
19.07.2012
11
Vorlesung Biodatenbanken
Universität Leipzig
Schemaintegration
Schemaintegration = Metadatenintegration
Ziel: Erstellung einer 'homogenisierten Sicht' (globales
Schema) auf die zu integrierenden Datenquellen
Globales Schema:
Enthält alle relevanten Schemaelemente der zu
integrierenden Datenquellen
Schema-Mappings zwischen globalem und
Quellenschemata
Globales Schema SG
Quellenschema S1 Quellenschema S2 Quellenschema Sn ...
M1: S1 x SG M2: S2 x SG Mn: Sn x SG
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Schema-Mapping
Entstehung durch Schema-Matching (Prozess)
Eingabe: Schemata Source, Target S1,...,n, Algorithmus
Ausgabe: Schema-Mapping M: S x T
Eigenschaften des Mapping:
bidirektional
Semantik: oftmals Äquivalenzrelation
Suche nach 1:1 Beziehung zwischen den Elementen (aber
nicht immer möglich: Name Vorname, Nachname)
vielfach weder injektiv noch surjektiv (und damit auch nicht
bijektiv)
Problem: Transformationen, zB Aggregation von Daten
Sommersemester 2012
Dr. Kirsten
19.07.2012
12
Vorlesung Biodatenbanken
Universität Leipzig
Top-Down vs. Bottom-Up
Globales Schema
Schemata der Quellen
Bottom-Up-Integration Top-Down-Integration
T
S1 S2 Sn …
T
S1 S2 Sn …
Schemaintegration
Match(S1,S2) Match(S2,Sn)
Bildung des
globalen Schema
Zuordnung zum
globalen Schema Match(S1,T) Match(S2,T) Match(Sn,T)
Schemaintegration
Schemaintegration durch
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Schema Matching: Beispiel
Spezialfall: Mapping zwischen zwei Versionen eines
Schema (KEGG Markup Language)
Wenige aber bedeutende Änderungen
Gesucht: Abbildung zwischen den
beiden Schema-Versionen
Grundlage einer Trans-
formation der Instanz-
daten
KGML 0.1
KGML 0.6.1
Informationsreduktion
Informationserweiterung
Sommersemester 2012
Dr. Kirsten
19.07.2012
13
Vorlesung Biodatenbanken
Universität Leipzig
Schema Matching: Beispiel cont.
Ergebnis: Mapping zwischen den zwei KGML
Schemaversionen
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Schema-Matching: Forschungsprototypen
Viele Prototypen verfügbar, zB Cupid (Univ. of
Washington), Clio (IBM Almaden + Univ. of
Toronto), COMA/COMA++ (Univ. Leipzig, Rahm)
Repository
Graphical User
Interface
Matching Engine (Fragment-based)
Model Pool External
Schemas,
Ontologies
Mapping Pool Exported
Mappings
Resolution Library
Matcher Library
Combination Library
Model Manipulation
Mapping Manipulation
Source Id
Name
Structure
Content
SOURCE
Source Id
Name
Structure
Content
SOURCE
Object Rel Id
Source Rel Id
Object1 Id
Object2 Id
Evidence
OBJECT_ REL
Object Rel Id
Source Rel Id
Object1 Id
Object2 Id
Evidence
OBJECT_ REL
n1
n1
11
n nn n
1 1
Object Id
Source Id
Accession
Text
Number
OBJECT
Object Id
Source Id
Accession
Text
Number
OBJECT
Source Rel Id
Source1 Id
Source2 Id
Type
SOURCE_ REL
Source Rel Id
Source1 Id
Source2 Id
Type
SOURCE_ REL
Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005
Systemarchitektur COMA++
Sommersemester 2012
Dr. Kirsten
19.07.2012
14
Vorlesung Biodatenbanken
Universität Leipzig
Schema-Matching-Prozess
Iterativer Prozess bestehend aus verschiedenen
Aktionen, Match, Kombination
Match Iteration
Matcher 1
Matcher 2
Matcher 3 S2
S1
Matcher execution
Similarity combination
Similarity cube
Mapping
{s11, s12, ...}
{s21, s22, ...}
Constituent resolution
Name, Leaves, NamePath, …
Aggregation, Direction, Selection, CombinedSim
Nodes, ... Paths, ... Fragments,...
Resolution Library
Matcher Library
Combination Library
Model Pool
s11s21
s12s22
s13s23
Mapping Manipulation
Edit, Diff, Intersect, Merge, MatchCompose, Compare, ...
Mapping Pool
Import, Load, Preprocess, ...
Model Manipulation
Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Schemaintegration: Zusammenfassung
Schemaintegration: Erstellung eines globalen
Schema mit Mappings zu den zu integrierenden
Datenquellen
Teilprozess einer Datenintegration
Voraussetzung einer Instanzdatenintegration
Typen: Top-Down vs. Bottom-Up
Großes Spektrum an Forschungsprototypen für
semi-automatisches Schema-Matching
Sommersemester 2012
Dr. Kirsten
19.07.2012
15
Vorlesung Biodatenbanken
Universität Leipzig
Instanzdatenintegration
Instanzdatenintegration: Zusammenfügen der
Daten aus den verschiedenen Datenquellen
Virtuell: zur Beantwortung einer Anfrage
Materialisiert: Prozess der Vorverarbeitung (ETL)
Basis: Schema-Mappings
Formen
enge DB-Kopplung: Datenbank-Links, förderierte
DBMS
lose Kopplung: gesonderte Import-Routinen, ETL-
Tools, ...
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Virtuelle Integration
Globales Schema mit
Mappings zu den Quel-
lenschemata (Metadaten)
Transparenter Zugriff auf
originale Datenquellen
Wrapper = quellenspe-
zifische API
Formen
förderierte DBMS
Mediatoren
Vorteile / Nachteile
Anfrage q1 Anfrage qm
Applikationen
Anfrage q2
Meta-
daten
Quelle 1 mit
Schema S1
Quelle n mit
Schema Sn
… Quelle 2 mit
Schema S2
- komplexes Query-Mana- gement (Split der Query + Mischen / Transformation der Ergebnisdaten) - Zugriff auf originale Daten- quellen zur Laufzeit - oftmals Einsatz eines globalen Schemas
Wrapper Wrapper Wrapper
Sommersemester 2012
Dr. Kirsten
19.07.2012
16
Vorlesung Biodatenbanken
Universität Leipzig
Physische Integration
Globales Schema mit
zen-traler Datenhaltung
Separate Extraktion,
Transformation und
Laden der Daten
Formen
Data Warehouse mit
mögl. zusätzl. Data-
Mart-Schicht
Vorteile / Nachteile
Globales Schema?
Anfrage q1 Anfrage qm
Applikationen
Meta-
daten
- redundante Speicherung
der Instanzdaten (vorab)
- oftmals auf Basis eines
globalen Schemas
Quelle 1 mit
Schema S1
Quelle n mit
Schema Sn
… Quelle 2 mit
Schema S2
Zentrale Quelle mit
Schema T
- Extraktion der Daten aus den originalen Quellen
- Transformation in das Schema T
- Laden (Import) der Daten in die zentrale Quelle
Anfrage q2
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
P2P-like Integration: Ein typisches Szenario
Gene
Ontology
Protein-Annotationen für Gen X?
Local data Biologische Prozesse für
mich interessierende Gene
SwissProt Ensembl
NetAffx
Bidirektionale Instanz-Mappings zwischen Datenquellen
Anfragen an eine Datenquellen und deren Propagierung
an relevante Peers
Einfachere Hinzufügnug neuer Datenquellen Unterstützung lokaler Datenquellen
Sommersemester 2012
Dr. Kirsten
19.07.2012
17
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Übergreifende Bewertung
Physische I.
(Warehouse)
Virtuelle Integration
Mediatoren Peer Data Mgmt
Schemaintegration A priori A priori Nicht zwingend
Instanzdatenintegration A priori Zur Laufzeit der
Anfrage
Zur Laufzeit der
Anfrage
Unterstützung der
Datenqualität
+ o o
Analyse großer
Datenmangen
+ -
-
(HW) Resourcen-
anforderungen
- o o
Datenaktualität o + +
Autonomie der
Datenquellen
o + +
Skalierbarkeit
(#Datenquellen)
- - o
Vorlesung Biodatenbanken
Universität Leipzig
Instanzdatenintegration: Zusammenfassung
Unterteilung in virtuelle und physische
Integration
Virtuell: Mediator-Systeme, förderierte DBMS
Physisch: Data Warehouse
Oftmals Nutzung eines globalen Schemas
Neuere Ansätze: PDMS und P2P-like Integration
Ausnutzung vorhandener Instanzdaten-Mappings
(bidirektionale Mappings)
Sommersemester 2012
Dr. Kirsten
19.07.2012
18
Vorlesung Biodatenbanken
Universität Leipzig
Gliederung
1. Motivation
2. Datencharakteristik
3. Probleme und Anforderungen
4. Ausgewählte Lösungskonzepte
a) Link-Factories
b) Data-Warehouse-basierte Integration
c) Integration basierend auf der genomischen
Sequenz
d) Integration durch Indexierung von Web-Quellen
e) Mapping-basierte Integration
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Web-Link = URL einer Datenquelle + ID (accession
number) des bio. Objekts
Einfacher Integrationsansatz
Wenig Integrationsaufwand
Aber: Analysis eines Objekts zu einer Zeit
LinkDB: Sammlung von
Web-Links zwischen verschie-
denen Quellen
Verwaltung von quellenspezi-
fischen Objektreferenzen (ID)
und Instanz-Mappings
Keine expliziten Mapping-Typen
Integration mit verfügbaren Web-Links
Sommersemester 2012
Dr. Kirsten
19.07.2012
19
Vorlesung Biodatenbanken
Universität Leipzig
Distributed Annotation System (DAS)
Datenintergation auf Basis von Genomsequenzen
Integration verteilter Datenquellen
Client-/Server Systemarchitektur
Genomserver: Primäre Quelle, die Zugriff auf die Sequenz
eines Referenzgenoms hat
Annotation-Server: Kapselung von Quellen, die von
speziellen Forschungsgruppen zur Verfügung gestellt
werden
Annotation Viewer
Genome Server
Annotation Server 1
Genome DB
Annotation Server 2 Annotation Server n ...
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Distributed Annotation System (DAS) II
Ausrichtung der Beschreibungen (Annotationen) an der
Sequenz eines Referenzgenoms
Einfaches Hinzufügen neuer Quellen, aber dann meist für
alle Benutzer sichtbar
Sequenzkoordinaten für Zugriff auf Annotationen
notwendig: Spezies, Chromosom, Start-, Stoppposition,
Richtung (strand)
Skalierbarkeit (?)
Problem: Neuberechnung aller Annotationen im Falle die
zugrunde liegende Referenzsequenz ändert sich
Sommersemester 2012
Dr. Kirsten
19.07.2012
20
Vorlesung Biodatenbanken
Universität Leipzig
DAS: Anfrageformulierung + -ausführung
Anwendung: Integration von Annotationen in Ensembl
Anfrageformulierung
Auswahl eines Organismus
Intervallanfragen: Welche
Objekte gibt es auf einem
Chromosom zwischen Position
x und y
Anfrageausführung
Senden der Intervallanfrage
an zentralen Genom-Server
und verteilte Annotation-Server
Mischen der erhaltenen
Ergebnisse
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
DAS: Anfrageformulierung + -ausführung II
Ergebnispräsentation
Sicht auf Genomsequenz mit zugeordneten Objekten und
Annotationen
Verschiedene
Detaillierungs-
stufen
Durchgriff auf
verteilte Da-
tenquellen
Sommersemester 2012
Dr. Kirsten
19.07.2012
21
Vorlesung Biodatenbanken
Universität Leipzig
EnsMart
Data-Warehouse-basierte Datenintegration
Data Mart auf Basis von Ensembl
Gezielte Suche und Wiedergabe von
Ensembl-eigenen bio. Objekten: Gene, Transkripte und
Polypetide
Assoziierten Annotationen
Referenzierte biol. Objekte
Multidimensionales Schema
Ensembl-eigene bio. Objekte als "Fakten"
Instanz-Mappings zu referenzierten Objekten als
beschreibende Dimensionen
Spezies-spezifische Data Marts, die über Homologie-
Mappings verbunden sind
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
EnsMart: Systemarchitektur*
*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data. Genome Research, 14(1): 160-169, 2004.
Sommersemester 2012
Dr. Kirsten
19.07.2012
22
Vorlesung Biodatenbanken
Universität Leipzig
EnsMart – Schemaausschnitt*
*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data. Genome Research, 14(1): 160-169, 2004.
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
EnsMart: Anfrageformulierung + -ausführung
Sommersemester 2012
Dr. Kirsten
19.07.2012
23
Vorlesung Biodatenbanken
Universität Leipzig
GenMapper*
Data-Warehouse-basierte Datenintegration
Generisches Schema: GAM Einheitliche Repräsentation von Annotationsdaten
Flexibilität bzgl. Heterogenität und Integration Nutzung existierender Instanz-Mappings zwischen
Objekten/Quellen
High-level Operatoren zur Datenintegration und Anfrageformulierung / -verarbeitung
Sichtenkonzept: Annotation Views für spezifische Analyseanforderungen
*Do, H.H.; Rahm, E.: Flexible integration of molecular-biological annotation data: The
GenMapper approach. Proc. 9th EDBT Conf., 2004
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
GenMapper: Systemarchitektur
NetAffx
GAM Data Model
GAM-Based Annotation Management Data Sources
LocusLink
Annotation Views
Application Integration
•Map •Compose •GenerateView •…
Map(Unigene, GO)
Data
Inte
gra
tion
Data
Acess
Unigene
Map(Affx, Unigene)
•Parse •Import
GO
Source IdNameTypeContent
SOURCE
Source IdNameTypeContent
SOURCE
Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence
OBJECT_ REL
Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence
OBJECT_ REL
n1
n1
11
n nn n
1 1
Object IdSource IdAccessionTextNumber
OBJECT
Object IdSource IdAccessionTextNumber
OBJECT
Src Rel IdSource1 IdSource2 IdType
SOURCE_ REL
Src Rel IdSource1 IdSource2 IdType
SOURCE_ REL
Sommersemester 2012
Dr. Kirsten
19.07.2012
24
Vorlesung Biodatenbanken
Universität Leipzig
Generic Annotation Model (GAM)
Keine Unterscheidung zwischen Klassen und Attributen
Sources als Gruppierung von objects:
Repräsentation von Metadaten und Instanzdaten
Repräsentation von Werten verschiedener Datentypen
Beziehungen auf Objekt und Quellenebene für
verschiedene Semantik und Kardinalitäten SOURCE
Source Id Name Type Content
OBJECT_ REL
Obj Rel Id Src Rel Id Object1 Id Object2 Id Evidence
n 1
n 1
1 1
n n n n
1 1
OBJECT
Object Id Source Id Accession Text Number
SOURCE_ REL
Src Rel Id Source1 Id Source2 Id Type
Underlined Primary key
Legends:
Italic Foreign key
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Annotationverwaltung mit GAM
Source: Öffentliche Quellen und Vokabulare
Object: Einträge einer Quelle oder Terme von Vokabularen
Intra-source Beziehungen
Beziehungen zwischen den Objekten einer Quelle: Hierarchie / Netzwerk
Beziehungstypen: Is-a, Part-Of, …
Inter-source Beziehungen
Instanz-Mappings zwischen öfentl. Quellen / Ontologien
Beziehungstypen: Fact, Similarity, Derived, ...
GO
Molecular Function
Biological Process
Cellular Component
LocusLink
GO OMIM
Location STS
Hugo
Sommersemester 2012
Dr. Kirsten
19.07.2012
25
Vorlesung Biodatenbanken
Universität Leipzig
Source-Datenquelle
Eingabe der Objekte
Auswahl der
Zieldatenquellen
(Visual) Annotation View
Anfrageformulierung und - verarbeitung
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Sequence Retrieval System (SRS)
Integration mittels Indexierung von Datenquellen
Entwickelt am EMBL für den Zugriff auf biol. Objekte /
Sequenzdaten
Kommerziell erweiterte Version von BioWisdom (zuvor:
Lion Bioscience)
Datenintegration primär für dateibasierte Quellen, aber
Erweiterungen für Zugriff auf RDBMS und Analysetools
Mapping-basierte Integration, kein globales Schema
Lokale Installation der Quellen notwendig (Download!)
Indexierung bzgl. Anfrageattribute von dateibasierten
Quellen
Definition von Hub-Tabellen und Anfrageattributen für
Integration von relationalen Datenquellen
Sommersemester 2012
Dr. Kirsten
19.07.2012
26
Vorlesung Biodatenbanken
Universität Leipzig
Sequence Retrieval System (SRS) II
Umfangreiche Wrapper-Bibliothek verfügbar für
öffentliche Datenquellen
Proprietäre Wrapper-Sprache: Icarus
Keine generischen Wrapper, z.B. zur Integration privater
Datenquellen
Source: Lion BioScience
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
SRS: Anfrageformulierung + -verarbeitung
Anfrageformulierung
Selektion der Quelle
Filterspezifikation für Anfrageattribute
Anfragetypen
Suchanfragen
Selektionsanfragen für numerische und datums- basierte Attribute
Reguläre Ausdrücke
Automatische Übersetzung in SQL Anfragen für relatio- nale Quellen
Zusammensetzung der Teilergebnisse Sommersemester 2012
Dr. Kirsten
19.07.2012
27
Vorlesung Biodatenbanken
Universität Leipzig
SRS: Anfrageformulierung + -verarbeitung
Explorative Analyse
Traversierung für ausgewählte Objekte entlang von Navigationspfaden (Instanz-Mappings)
Automatisch generierte Pfade zwischen den Datenquellen
Kürzeste Pfade (Dijkstra)
Keine Beachtung von Pfad- und Mapping-Semantik
Keine Joins, nur Graphtraversierung
Ergebnisse
Ergebnis = Menge von Objekten
Kein explizites Mapping (Objektkorrespondenzen)
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
SRS: Anfrageformulierung + -verarbeitung
Sommersemester 2012
Dr. Kirsten
19.07.2012
28
Vorlesung Biodatenbanken
Universität Leipzig
Hybride Integration von öffentl. Quellen*
Annotation Analysis Expression Analysis
Identification of relevant genes
using annotation data Identification of relevant genes
using experimental data
Expression (signal) value
P-Value
…
Molecular function
Gene location
Protein (product)
Disease
…
DWH +
Analysis Tools
gene /
clone
groups SRS
Gene annotation
Mapping-DB
Query-Mediator
*Kirsten, T; Do, H.-H.; Körner, C.; Rahm, E: Hybrid integration of molecular-biological annotation data.
Proc. 2nd Intl. Workshop DILS, July 2005
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Mapping-Datenbank
Zentrale Idee: Sternartige Mapping-Verwaltung
Ausgewählte Datenquelle im Zentrum
Mapping als Verbindung zur zentralen Quelle
Extraktion von direkten Mappings
Vorberechnung von ausgewählten Mapping-Kompositionen
Unterstützung alternativer Mapping-Pfade
Mapping DB
LocusLink
NetAffx UniGene
GO
Ensembl
SwissProt …
Center_NetAffx
Center_Id
NetAffx _Accession
Path_Id
Center_GeneOntology
Center_Id
GO_Accession
Path_Id
Center_SwissProt
Center_Id
SwissProt _Accession
Path_Id
Center_Ensembl
Center_Id
Ensembl_Accession
Path_Id
Center (LocusLink)
Center_Id
LocusLink_Accession
1
N
1 N
1 N
Center_UniGene
Center_Id
UniGene _Accession
Path_Id
N 1
Center_...
Center_Id
Accession
Path_Id
N 1 N
1
Sommersemester 2012
Dr. Kirsten
19.07.2012
29
Vorlesung Biodatenbanken
Universität Leipzig
Systemarchitektur und Anfrageverarbeitung
Query Mediator
SRS Server
GeneOntology Ensembl LocusLink
Web Client
GeWare Platform
Read Metadata: DB,
Attributes, Mappings
1
GUI-Generation 2
Query Spec.:
Filter, Joins
3
Creation of SRS-Queries 4
SRS-Query Processing 6
SRS Call 5 Result Stream (XML) 7
Transformation of the
Result Stream 8
Result Visualization 9
Mapping-DB
ADM-DB
DWH
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Motivation für P2P-artige Datenintegration
"Einfache" Integration von neuen Datenquellen (neue
Integrationsszenarios)
Vermeidung eines globalen Schema
Wiederverwendung von verfügbaren Objekt-
korrespondenzen (Mappings)
Aber: Nutzung der Semantik von Objekten und Mappings
Beispiel: Klassifizierung DNA-Sequenzen
>S1
CATTCTAAGAGACAAAGATAACTAAGA
>S2
CCCTATCAAAGTATCATTCAAGACTTA
>S3
CACTCACCTAAGTTAGTACAAATAACA
>S4
GAAAAGAAGGCGTGCCAACCTCCTCC
…
My Sequences NCBI Ensembl UCSC
Genome
Browser DNA
Exon
Protein
DNA
Gen DNA
Gen Protein
Lokale Datenquelle Öffentlich verfügbare Quelle Sommersemester 2012
Dr. Kirsten
19.07.2012
30
Vorlesung Biodatenbanken
Universität Leipzig
BioFuice*: P2P-artige Datenintegration
Bioinformatics information fusion utilizing instance
correspondences and peer mappings
Bottom-up Integration
High-level Operatoren
P2P-artige Infrastruktur Mappings zwischen autonomen Datenquellen (Peers)
Mapping: Menge von Korrespondenzen zwischen Objekten
Einfach Integration neuer Datenquellen
Mediator Steuerung der Mapping- und Operatorausführung
Nutzung eines anwendungsspezifischen semantischen
Domänenmodells
*Kirsten, T; Rahm, E: BioFuice: Mapping-based data integration in bioinformatics.
Proc. 3rd Intl. Workshop DILS, July 2006
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Definitionen
Physische Datenquelle (PDS)
Öffentliche, private und lokale
Daten (Genliste, …), Ontologien
Beinhalten ein oder mehrere logische
Datenquellen
Ensembl
Accession: ENSG00000121380
Descr.: Apoptosis facilitator Bcl-2-like …
Sequence region start position: 12115145
Sequence region stop position: 12255214
Biotype: protein coding
Confidence: KNOWN
Gen@Ensembl
Objektinstanzen
Menge von relevanten
Attributen
Ein ID-Attribut
Gen
Sequenz- region Exon
Logische Datenquelle (LDS)
Bezieht sich auf einen Objekttyp
und eine physische Datenquelle,
z.B. Gene@Ensembl
Beinhaltet Objekte(-instanzen)
Sommersemester 2012
Dr. Kirsten
19.07.2012
31
Vorlesung Biodatenbanken
Universität Leipzig
Metadatenmodelle
Verwendung durch Mediator zur Mapping- und
Operatorausführung
Domänenmodell stellt relevante Objekttypen und
Beziehungen (=Mappingtypen) zwischen ihnen bereit
Source mapping model
LDS PDS
mapping
(same: )
Legend
Ensembl SwissProt
MySequences
NetAffx
Ensembl.
SRegionExons
Ensembl.
ExonGene
Ensembl.
GeneProteins
Ensembl.
sameNetAffxGenes
Domain model
Extraction
Sequence Region
Gene
Protein
Sequence
Exon
Sequence
Sequence Region
Exon
Gene Gene
Protein
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Operatoren
Mengenorientierte Operatoren
Eingabe: Menge von Objekten/Mappings
+ Parameter / Bedingungen
Ausgabe: Menge resultierender Objekte
Kombination von Operatoren in Skripten
Workflow-artige Ausführung
Ausgewählte Operatoren: Single source: queryInstances, searchInstances, …
Navigation: traverse, map, compose, …
Navigation + Aggregation: aggregate, aggregateTraverse, …
Universell: diff, union, intersect, …
Sommersemester 2012
Dr. Kirsten
19.07.2012
32
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Beispielskript
Szenario Gegeben: Menge von Sequenzen in lokaler Datenquelle
MySequences
Gesucht: Drei Klassen: unaligned s., non-coding s., protein
coding sequences
$alignedSeqMR := map( MySequences, { SeqDnaBlast } );
$codingSeqMR := compose( $alignedSeqMR, { Ensembl.SRegionExons } );
$unalignedSeqOI := diff ( MySequences, domain ( $alignedSeqMR ));
$protCodingSeqOI := domain ( $codingSeqMR );
$nonCodingSeqOI := diff ( domain ( $alignedSeqMR ) , $protCodingSeqOI );
Ensembl
MySequences
Ensembl.
SRegionExons
Sequenzregion
Sequenz Exon
LDS PDS
mapping
(same: )
Legend
Vorlesung Biodatenbanken
Universität Leipzig
Aggregation
Assoziation und Fusionierung von Genbeschreibungen
aus verschiedenen Datenquellen z.B. Ensembl und
NetAffx
$GeneOI := traverse ( range ($codingSeqMR ), { Ensembl.ExonGenes });
$fusedGeneAO := aggregateSame ( $GeneOI, NetAffx );
Ensembl
Ensembl.
SRegionExons
Sequence Region
Exon
Gene Ensembl.
ExonGenes
MySequences
Sequence
SeqDnaBlast
NetAffx
Gene Ensembl.
sameNetAffxGenes
LDS PDS
mapping
(same: )
Legend
Sommersemester 2012
Dr. Kirsten
19.07.2012
33
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Aggregation II
Details – Attribute
Überblick – aggregierte Objekte (z.B. Gene)
Objektfusion
Sommersemester 2010
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
BioFuice Systemarchitektur
B i o
F u
i c
e
Generic Mapping
Execution Services Relational
Database
XML
Database
XML
File
XML
Stream
Appli-
cation i F
u i c
e C
o r
e
Web-
Service
Fusion Control Unit
and Repository
Mediator Interface
Mapping Handler Repository Cache
response request
mapping call mapping call mapping result
Duplicate Detection
i F u i c e c o r e A P I
Mapping Layer Mappings retrieving data of a single LDS but also interconnecting different LDS
User
Interface
Script
Editor
Model-based
Queries
Query Manager Query
Transformation
Query
specification
Query
result
Pre-defined
Queries
B i o
F u
i c
e
Q u
e r
y
R i F
u i c
e
Keyword
Search
C o
m m
a n
d l i n
e
I n t e
r f
a c
e Function library for
• Setting and retrieval of
iFuice objects
• Execution of iFuice
Scripts
• Metadata settings and
retrieval
CSV Export B i o F u i c e b a s e FASTA Export iFuice Connector
iFuice-Script Metadata Script result / Data transfer
XML Export
19.07.2012
34
Vorlesung Biodatenbanken
Universität Leipzig
Zusammenfassung
Web-link Integration: Einfach und fokussiert auf explorative Analyse keine gesonderte Anfrageformulierung und -verarbei-tung
DAS: Integration unter Bezugnahme auf die Sequenz eines Referenzgenoms
Einfaches Hinzufügen neuer Quellen
Anfragen unter Nutzung von Genomlokationen anstatt von Annotationsattributen
SRS: Indizierung von Webquellen
Große Bibliothek von Wrappern; proprietäre Sprache (ICARUS)
Erstellung von lokalen Indizes von Datenquellen und anfragbaren Attributen
Sommersemester 2012
Dr. Kirsten
Vorlesung Biodatenbanken
Universität Leipzig
Zusammenfassung II
Hybride Integration
Physische Speicherung von Mappings zwischen den
Datenquellen in einer zentralen Datenbank
Virtuelle Integration von Annotationsquellen
P2P-artige Integration: BioFuice
Einfache Integration von neuen Datenquellen durch
Wiederverwendung von Instanz-Mappings
Semantik von Objekten und Mappings in zwei getrennten
Metadaten Modellen
High-level Operatoren zur Anfrage- und Mapping-Ausfüh-
rung
Sommersemester 2012
Dr. Kirsten
19.07.2012
35
Vorlesung Biodatenbanken
Universität Leipzig
Noch Fragen?
Sommersemester 2012
Dr. Kirsten