Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-08.pdf ·...

19.07.2012

1

Sommersemester 2012

Dr. Kirsten

http://dbs.uni-leipzig.de

Universität Leipzig

Institut für Informatik

Datenbanken in der

Bioinformatik

Kapitel 8

Datenintegration

- Ansätze und Systeme -

Sommersemester 2012

Dr. Toralf Kirsten, Anika Groß

Vorlesung Biodatenbanken


Vorläufiges Inhaltsverzeichnis

1. Motivation und Grundlagen

2. Klassifizierung von BioDB, Überblick

3. Sequenzierung und Genexpressionsanalyse

4. Datenmodelle und Anfragesprachen

5. Modellierungsalternativen

6. Versionierung von Datenbeständen

7. Annotationen

8. Datenintegration: Ansätze und Systeme

9. Datenmanagement in der Cloud

19.07.2012

2



Gliederung: Kontext

Beschreibung des Unter-

suchungsgegenstandes

Beschreibung des

experimentellen

Designs und Prozesses

experimentelle

Metadaten

experimentelle Daten

Experiment

Analyse

Analysergebnisse

Interpretation und Ergebnispräsentation

Datenintegration

private und öffentlich zugängliche Daten

zur Beschreibungen von Genen

Gewebeprobe / selektierte Zelle Hypothese

Sommersemester 2012

Dr. Kirsten



Lernziele

Verstehen und Begreifen von generellen

Ansätzen zur Datenintegration

Anwendung in Abhängigkeit von Kontext und

Daten

Beurteilung der Ansätze

Kennen von speziellen Datenintegration-

lösungen sowie deren Verwendung

Sommersemester 2012

Dr. Kirsten

19.07.2012

3



Gliederung

1. Motivation

2. Datencharakteristik

3. Probleme und Anforderungen

4. Ausgewählte Lösungskonzepte

a) Link-Factories

b) Data-Warehouse-basierte Integration

c) Integration basierend auf der genomischen

Sequenz

d) Integration durch Indexierung von Web-Quellen

e) Mapping-basierte Integration

Sommersemester 2012

Dr. Kirsten



Problembereich: Datenintegration

Aufgabenspektrum:

Klinische Daten

z.B. Patientendaten

Daten über biol. Objekte,

z.B. Gene, Proteine

• Selektion von interessanten Daten,

• übergreifenden Datenanalyse und

• Interpretation von Analyseergebnissen

Experimentelle Daten

z.B. Microarray-Daten

...

Differentiell exprimierte STAT3 Gene bei

malignen Lymphomen von Patienten,

die älter als 50 Jahre sind?

Sommersemester 2012

Dr. Kirsten

19.07.2012

4



Verschiedene Arten von Analysen Analyse von Sequenzdaten (z.B. multiple alignments)

Identifikation von Transkriptionsfaktorbindungsstellen

Genexpressionsanalyse

Transkriptionsanalyse, z.B. ENCODE Projekt (http://www.genome.gov/ENCODE)

Functional profiling

Pathway Analyse und Rekonstruktion

Viele heterogene Datenquellen Experimentdaten, z.B. von Chip-basierten Techniken

Experimentbeschreibung (Metadaten eines Experiments)

Klinische Daten

Viele miteinander verbundene Webdatenquellen und Ontologien

Private vs. öffentliche Daten

Motivation

Sommersemester 2012

Dr. Kirsten



Datenintegration

Datenintegration = Informationsintegration

Korrekte, vollständige und effiziente

Zusammenführung von Daten und Inhalt

verschiedener, heterogener Quellen zu einer

einheitlichen und strukturierten Infomenge zur

effektiven Interpretation durch Nutzer und

Anwendungen*

= Zusammenfügung von Metadaten und

Instanzdaten

*Leser, Naumann: Informationsintegration, dpunkt.verlag, 2007.

Sommersemester 2012

Dr. Kirsten

19.07.2012

5



Datenintegration

Ziel: Mehrwert, der sich mit der Kombination von

Daten ergibt

bessere Ergebnisse = umfassender, qualitativ

hochwertiger, abgesicherter

Anfragen, die nur von Daten mehrerer

Datenquellen beantwortet werden können

Anfrage

RDBMS XML-DBMS

Integrationssystem

Dateien Web-Daten Anwendungen Sommersemester 2012

Dr. Kirsten



Probleme bei einer Datenintegration

Komplexe Fragestellungen Nutzung vieler

verschiedener Datenquellen

Weite Verteilung der Daten

Hohe Redundanz

Heterogenität der Datenquellen bzgl.

Syntax

Schema/Struktur

Semantik

Schnittstellen

Evolution von Daten und Schemata

Sommersemester 2012

Dr. Kirsten

19.07.2012

6



Verteilung, Autonomie, Heterogenität*

Architekturraum durch drei orthogonale Aspekte

Verteilung: physisch, logisch

Autonomie, zB bzgl. Design, Schnittstellen,

Evolution, Zugriff, ...

Heterogenität

*Leser/Naumann: Informationsintegration, dpunkt.verlag, 2007, S. 49ff

homogene, zentrale DB verteilte DB verteilte heterogene DB verteilte autonome DB verteilt, heterogen, autonom

Autonomie

Verteilung

Heterogenität

Sommersemester 2012

Dr. Kirsten



Architekturvarianten im Überblick

Monolithische Datenbanken

Förderierte Datenbanken

Mediator-basierte Systeme

Peer-Daten-Management-Systeme

Suchmaschinen

Portale

...

Sommersemester 2012

Dr. Kirsten

19.07.2012

7



Bio-Datenquellen

Sommersemester 2012

Dr. Kirsten



Verschiedener Arten von Webdatenquellen

Genomdatenquellen: Ensembl, NCBI Entrez, UCSC

Genome Browser, ...

Objekte: Gene, Transkripte, Proteine etc. verschiedener

Spezies

Objektspezifische Datenquellen

Proteine: UniProt (SwissProt, Trembl), Protein Data Bank

(PDB), ...

Proteininteraktionen: BIND, MINT, DIP, ...

Gene: HUGO (standardisierte Gensymbole für humanes

Genom), MGD, ...

Pathways: KEGG (metabolische & regulatorische Pathways),

GenMAPP, ...

...

Sommersemester 2012

Dr. Kirsten

19.07.2012

8



Verschiedener Arten von Webdatenquellen II

Publikationsquellen: Medline / Pubmed (>16 Mio

Einträge)

Ontologien

Verwendung zur einheitlichen und semantischen

Beschreibung von Eigenschaften biol. Objekte

Kontrollierte Vokabulare zur Reduzierung terminologischer

Variationen

Populäre Bespiele : Molekulare Funktionen, Biologische

Prozesse, Zelluläre Komponenten (Gene Ontology)

Ontologie-Sammlung: Open Biomedical Ontologies (OBO)

Sommersemester 2012

Dr. Kirsten



Enzyme GeneOntology

OMIM UniGene KEGG

} Referenzen zu anderen Datenquellen

Quellenspezifische ID (accession)

Annotation: Namen, Symbole, Synonyme, etc.

}

Problem: Oftmals keine explizite Mapping-Semantik

Gen Gen: Orthologe Gene vs. Paraloge Gene

Gen GO Annotation: MF vs. BP vs. CC

Annotationsdaten vs. Mapping-Daten

Beispiel: Webdaten mit Referenzen

Sommersemester 2012

Dr. Kirsten

19.07.2012

9



Heterogenität

Schema

Syntax (Format)

Semantik

Viele, hochverbundene Datenquellen und Ontol.

Häufige Änderungen

Daten

Schema und Formate

Schnittstellen

Unvollständige Quellen

Forschung#Tupel Zielstellung der Quelle:

Spezifische Attribute

Überlappende Quellen

Verteilte molekularbiologische Daten

Sommersemester 2012

Dr. Kirsten



Dateibasierte Datenformate

Populäre Dateiformate Flat files (Genexpressionsmatrix)

Entry-basiertes Format

FASTA: Sequenzdaten

GenBank

ASN.1 (Abstract Syntax Notation One)

Verschiedene XML-basierte Formate

Probleme

Implizites Wissen über Attribute (Semantik)

Mehrfache Werte eines Attributs in einem Eintrag ohne

einheitliches Trennzeichen

Verwendung des 'comment' Attributs für weitere

Attributwerte

Verschiedene Separatoren innerhalb einer Datei

>3198; HOXA1

actgattacattggtacatgata ...

>696226; HOXB3

gtagctagcgatccatgatcag ...

>...

FASTA

ID 3198

DE homeobox A1

SB HOXA1

SQ actgattacattggtacatgata ...

...

Entry-based

Sommersemester 2012

Dr. Kirsten

19.07.2012

10



Zusammenfassung: Datencharakteristik

Viele verschiedene Datenquellen mit unterschiedlichem

Fokus

Hohe Konnektivität: Instanz-Mappings zwischen

quellenspezifischen Objekten

Mapping vs. Annotationsdaten

Hauptsächlich Heterogenität als Integrationsbarriere

Sommersemester 2012

Dr. Kirsten



Datenintegration

Zwei orthogonale Aspekte:

Schemaintegration

Instanzdatenintegration

Anfrage

RDBMS XML-DBMS

Integrationssystem

Dateien Web-Daten

Sommersemester 2012

Dr. Kirsten

19.07.2012

11



Schemaintegration

Schemaintegration = Metadatenintegration

Ziel: Erstellung einer 'homogenisierten Sicht' (globales

Schema) auf die zu integrierenden Datenquellen

Globales Schema:

Enthält alle relevanten Schemaelemente der zu

integrierenden Datenquellen

Schema-Mappings zwischen globalem und

Quellenschemata

Globales Schema SG

Quellenschema S1 Quellenschema S2 Quellenschema Sn ...

M1: S1 x SG M2: S2 x SG Mn: Sn x SG

Sommersemester 2012

Dr. Kirsten



Schema-Mapping

Entstehung durch Schema-Matching (Prozess)

Eingabe: Schemata Source, Target S1,...,n, Algorithmus

Ausgabe: Schema-Mapping M: S x T

Eigenschaften des Mapping:

bidirektional

Semantik: oftmals Äquivalenzrelation

Suche nach 1:1 Beziehung zwischen den Elementen (aber

nicht immer möglich: Name Vorname, Nachname)

vielfach weder injektiv noch surjektiv (und damit auch nicht

bijektiv)

Problem: Transformationen, zB Aggregation von Daten

Sommersemester 2012

Dr. Kirsten

19.07.2012

12



Top-Down vs. Bottom-Up

Globales Schema

Schemata der Quellen

Bottom-Up-Integration Top-Down-Integration

T

S1 S2 Sn …

T

S1 S2 Sn …

Schemaintegration

Match(S1,S2) Match(S2,Sn)

Bildung des

globalen Schema

Zuordnung zum

globalen Schema Match(S1,T) Match(S2,T) Match(Sn,T)

Schemaintegration

Schemaintegration durch

Sommersemester 2012

Dr. Kirsten



Schema Matching: Beispiel

Spezialfall: Mapping zwischen zwei Versionen eines

Schema (KEGG Markup Language)

Wenige aber bedeutende Änderungen

Gesucht: Abbildung zwischen den

beiden Schema-Versionen

Grundlage einer Trans-

formation der Instanz-

daten

KGML 0.1

KGML 0.6.1

Informationsreduktion

Informationserweiterung

Sommersemester 2012

Dr. Kirsten

19.07.2012

13



Schema Matching: Beispiel cont.

Ergebnis: Mapping zwischen den zwei KGML

Schemaversionen

Sommersemester 2012

Dr. Kirsten



Schema-Matching: Forschungsprototypen

Viele Prototypen verfügbar, zB Cupid (Univ. of

Washington), Clio (IBM Almaden + Univ. of

Toronto), COMA/COMA++ (Univ. Leipzig, Rahm)

Repository

Graphical User

Interface

Matching Engine (Fragment-based)

Model Pool External

Schemas,

Ontologies

Mapping Pool Exported

Mappings

Resolution Library

Matcher Library

Combination Library

Model Manipulation

Mapping Manipulation

Source Id

Name

Structure

Content

SOURCE

Source Id

Name

Structure

Content

SOURCE

Object Rel Id

Source Rel Id

Object1 Id

Object2 Id

Evidence

OBJECT_ REL

Object Rel Id

Source Rel Id

Object1 Id

Object2 Id

Evidence

OBJECT_ REL

n1

n1

11

n nn n

1 1

Object Id

Source Id

Accession

Text

Number

OBJECT

Object Id

Source Id

Accession

Text

Number

OBJECT

Source Rel Id

Source1 Id

Source2 Id

Type

SOURCE_ REL

Source Rel Id

Source1 Id

Source2 Id

Type

SOURCE_ REL

Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005

Systemarchitektur COMA++

Sommersemester 2012

Dr. Kirsten

19.07.2012

14



Schema-Matching-Prozess

Iterativer Prozess bestehend aus verschiedenen

Aktionen, Match, Kombination

Match Iteration

Matcher 1

Matcher 2

Matcher 3 S2

S1

Matcher execution

Similarity combination

Similarity cube

Mapping

{s11, s12, ...}

{s21, s22, ...}

Constituent resolution

Name, Leaves, NamePath, …

Aggregation, Direction, Selection, CombinedSim

Nodes, ... Paths, ... Fragments,...

Resolution Library

Matcher Library

Combination Library

Model Pool

s11s21

s12s22

s13s23

Mapping Manipulation

Edit, Diff, Intersect, Merge, MatchCompose, Compare, ...

Mapping Pool

Import, Load, Preprocess, ...

Model Manipulation

Quelle: Aumüller, Do, Maßmann, Rahm: Schema and Ontology matching with COMA++. Proc. 24th SIGMOD Conf. 2005

Sommersemester 2012

Dr. Kirsten



Schemaintegration: Zusammenfassung

Schemaintegration: Erstellung eines globalen

Schema mit Mappings zu den zu integrierenden

Datenquellen

Teilprozess einer Datenintegration

Voraussetzung einer Instanzdatenintegration

Typen: Top-Down vs. Bottom-Up

Großes Spektrum an Forschungsprototypen für

semi-automatisches Schema-Matching

Sommersemester 2012

Dr. Kirsten

19.07.2012

15



Instanzdatenintegration

Instanzdatenintegration: Zusammenfügen der

Daten aus den verschiedenen Datenquellen

Virtuell: zur Beantwortung einer Anfrage

Materialisiert: Prozess der Vorverarbeitung (ETL)

Basis: Schema-Mappings

Formen

enge DB-Kopplung: Datenbank-Links, förderierte

DBMS

lose Kopplung: gesonderte Import-Routinen, ETL-

Tools, ...

Sommersemester 2012

Dr. Kirsten



Virtuelle Integration

Globales Schema mit

Mappings zu den Quel-

lenschemata (Metadaten)

Transparenter Zugriff auf

originale Datenquellen

Wrapper = quellenspe-

zifische API

Formen

förderierte DBMS

Mediatoren

Vorteile / Nachteile

Anfrage q1 Anfrage qm

Applikationen

Anfrage q2

Meta-

daten

Quelle 1 mit

Schema S1

Quelle n mit

Schema Sn

… Quelle 2 mit

Schema S2

- komplexes Query-Mana- gement (Split der Query + Mischen / Transformation der Ergebnisdaten) - Zugriff auf originale Daten- quellen zur Laufzeit - oftmals Einsatz eines globalen Schemas

Wrapper Wrapper Wrapper

Sommersemester 2012

Dr. Kirsten

19.07.2012

16



Physische Integration

Globales Schema mit

zen-traler Datenhaltung

Separate Extraktion,

Transformation und

Laden der Daten

Formen

Data Warehouse mit

mögl. zusätzl. Data-

Mart-Schicht

Vorteile / Nachteile

Globales Schema?

Anfrage q1 Anfrage qm

Applikationen

Meta-

daten

- redundante Speicherung

der Instanzdaten (vorab)

- oftmals auf Basis eines

globalen Schemas

Quelle 1 mit

Schema S1

Quelle n mit

Schema Sn

… Quelle 2 mit

Schema S2

Zentrale Quelle mit

Schema T

- Extraktion der Daten aus den originalen Quellen

- Transformation in das Schema T

- Laden (Import) der Daten in die zentrale Quelle

Anfrage q2

Sommersemester 2012

Dr. Kirsten



P2P-like Integration: Ein typisches Szenario

Gene

Ontology

Protein-Annotationen für Gen X?

Local data Biologische Prozesse für

mich interessierende Gene

SwissProt Ensembl

NetAffx

Bidirektionale Instanz-Mappings zwischen Datenquellen

Anfragen an eine Datenquellen und deren Propagierung

an relevante Peers

Einfachere Hinzufügnug neuer Datenquellen Unterstützung lokaler Datenquellen

Sommersemester 2012

Dr. Kirsten

19.07.2012

17

Sommersemester 2012

Dr. Kirsten



Übergreifende Bewertung

Physische I.

(Warehouse)

Virtuelle Integration

Mediatoren Peer Data Mgmt

Schemaintegration A priori A priori Nicht zwingend

Instanzdatenintegration A priori Zur Laufzeit der

Anfrage

Zur Laufzeit der

Anfrage

Unterstützung der

Datenqualität

+ o o

Analyse großer

Datenmangen

+ -

-

(HW) Resourcen-

anforderungen

- o o

Datenaktualität o + +

Autonomie der

Datenquellen

o + +

Skalierbarkeit

(#Datenquellen)

- - o



Instanzdatenintegration: Zusammenfassung

Unterteilung in virtuelle und physische

Integration

Virtuell: Mediator-Systeme, förderierte DBMS

Physisch: Data Warehouse

Oftmals Nutzung eines globalen Schemas

Neuere Ansätze: PDMS und P2P-like Integration

Ausnutzung vorhandener Instanzdaten-Mappings

(bidirektionale Mappings)

Sommersemester 2012

Dr. Kirsten

19.07.2012

18



Gliederung

1. Motivation

2. Datencharakteristik

3. Probleme und Anforderungen

4. Ausgewählte Lösungskonzepte

a) Link-Factories

b) Data-Warehouse-basierte Integration

c) Integration basierend auf der genomischen

Sequenz

d) Integration durch Indexierung von Web-Quellen

e) Mapping-basierte Integration

Sommersemester 2012

Dr. Kirsten



Web-Link = URL einer Datenquelle + ID (accession

number) des bio. Objekts

Einfacher Integrationsansatz

Wenig Integrationsaufwand

Aber: Analysis eines Objekts zu einer Zeit

LinkDB: Sammlung von

Web-Links zwischen verschie-

denen Quellen

Verwaltung von quellenspezi-

fischen Objektreferenzen (ID)

und Instanz-Mappings

Keine expliziten Mapping-Typen

Integration mit verfügbaren Web-Links

Sommersemester 2012

Dr. Kirsten

19.07.2012

19



Distributed Annotation System (DAS)

Datenintergation auf Basis von Genomsequenzen

Integration verteilter Datenquellen

Client-/Server Systemarchitektur

Genomserver: Primäre Quelle, die Zugriff auf die Sequenz

eines Referenzgenoms hat

Annotation-Server: Kapselung von Quellen, die von

speziellen Forschungsgruppen zur Verfügung gestellt

werden

Annotation Viewer

Genome Server

Annotation Server 1

Genome DB

Annotation Server 2 Annotation Server n ...

Sommersemester 2012

Dr. Kirsten



Distributed Annotation System (DAS) II

Ausrichtung der Beschreibungen (Annotationen) an der

Sequenz eines Referenzgenoms

Einfaches Hinzufügen neuer Quellen, aber dann meist für

alle Benutzer sichtbar

Sequenzkoordinaten für Zugriff auf Annotationen

notwendig: Spezies, Chromosom, Start-, Stoppposition,

Richtung (strand)

Skalierbarkeit (?)

Problem: Neuberechnung aller Annotationen im Falle die

zugrunde liegende Referenzsequenz ändert sich

Sommersemester 2012

Dr. Kirsten

19.07.2012

20



DAS: Anfrageformulierung + -ausführung

Anwendung: Integration von Annotationen in Ensembl

Anfrageformulierung

Auswahl eines Organismus

Intervallanfragen: Welche

Objekte gibt es auf einem

Chromosom zwischen Position

x und y

Anfrageausführung

Senden der Intervallanfrage

an zentralen Genom-Server

und verteilte Annotation-Server

Mischen der erhaltenen

Ergebnisse

Sommersemester 2012

Dr. Kirsten



DAS: Anfrageformulierung + -ausführung II

Ergebnispräsentation

Sicht auf Genomsequenz mit zugeordneten Objekten und

Annotationen

Verschiedene

Detaillierungs-

stufen

Durchgriff auf

verteilte Da-

tenquellen

Sommersemester 2012

Dr. Kirsten

19.07.2012

21



EnsMart

Data-Warehouse-basierte Datenintegration

Data Mart auf Basis von Ensembl

Gezielte Suche und Wiedergabe von

Ensembl-eigenen bio. Objekten: Gene, Transkripte und

Polypetide

Assoziierten Annotationen

Referenzierte biol. Objekte

Multidimensionales Schema

Ensembl-eigene bio. Objekte als "Fakten"

Instanz-Mappings zu referenzierten Objekten als

beschreibende Dimensionen

Spezies-spezifische Data Marts, die über Homologie-

Mappings verbunden sind

Sommersemester 2012

Dr. Kirsten



EnsMart: Systemarchitektur*

*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data. Genome Research, 14(1): 160-169, 2004.

Sommersemester 2012

Dr. Kirsten

19.07.2012

22



EnsMart – Schemaausschnitt*

*A. Kasprzyk et al.: EnsMart: A generic system for fast and flexible access to biological data. Genome Research, 14(1): 160-169, 2004.

Sommersemester 2012

Dr. Kirsten



EnsMart: Anfrageformulierung + -ausführung

Sommersemester 2012

Dr. Kirsten

19.07.2012

23



GenMapper*

Data-Warehouse-basierte Datenintegration

Generisches Schema: GAM Einheitliche Repräsentation von Annotationsdaten

Flexibilität bzgl. Heterogenität und Integration Nutzung existierender Instanz-Mappings zwischen

Objekten/Quellen

High-level Operatoren zur Datenintegration und Anfrageformulierung / -verarbeitung

Sichtenkonzept: Annotation Views für spezifische Analyseanforderungen

*Do, H.H.; Rahm, E.: Flexible integration of molecular-biological annotation data: The

GenMapper approach. Proc. 9th EDBT Conf., 2004

Sommersemester 2012

Dr. Kirsten



GenMapper: Systemarchitektur

NetAffx

GAM Data Model

GAM-Based Annotation Management Data Sources

LocusLink

Annotation Views

Application Integration

•Map •Compose •GenerateView •…

Map(Unigene, GO)

Data

Inte

gra

tion

Data

Acess

Unigene

Map(Affx, Unigene)

•Parse •Import

GO

Source IdNameTypeContent

SOURCE

Source IdNameTypeContent

SOURCE

Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

Obj Rel IdSrc Rel IdObject1 IdObject2 IdEvidence

OBJECT_ REL

n1

n1

11

n nn n

1 1

Object IdSource IdAccessionTextNumber

OBJECT

Object IdSource IdAccessionTextNumber

OBJECT

Src Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Src Rel IdSource1 IdSource2 IdType

SOURCE_ REL

Sommersemester 2012

Dr. Kirsten

19.07.2012

24



Generic Annotation Model (GAM)

Keine Unterscheidung zwischen Klassen und Attributen

Sources als Gruppierung von objects:

Repräsentation von Metadaten und Instanzdaten

Repräsentation von Werten verschiedener Datentypen

Beziehungen auf Objekt und Quellenebene für

verschiedene Semantik und Kardinalitäten SOURCE

Source Id Name Type Content

OBJECT_ REL

Obj Rel Id Src Rel Id Object1 Id Object2 Id Evidence

n 1

n 1

1 1

n n n n

1 1

OBJECT

Object Id Source Id Accession Text Number

SOURCE_ REL

Src Rel Id Source1 Id Source2 Id Type

Underlined Primary key

Legends:

Italic Foreign key

Sommersemester 2012

Dr. Kirsten



Annotationverwaltung mit GAM

Source: Öffentliche Quellen und Vokabulare

Object: Einträge einer Quelle oder Terme von Vokabularen

Intra-source Beziehungen

Beziehungen zwischen den Objekten einer Quelle: Hierarchie / Netzwerk

Beziehungstypen: Is-a, Part-Of, …

Inter-source Beziehungen

Instanz-Mappings zwischen öfentl. Quellen / Ontologien

Beziehungstypen: Fact, Similarity, Derived, ...

GO

Molecular Function

Biological Process

Cellular Component

LocusLink

GO OMIM

Location STS

Hugo

Sommersemester 2012

Dr. Kirsten

19.07.2012

25



Source-Datenquelle

Eingabe der Objekte

Auswahl der

Zieldatenquellen

(Visual) Annotation View

Anfrageformulierung und - verarbeitung

Sommersemester 2012

Dr. Kirsten



Sequence Retrieval System (SRS)

Integration mittels Indexierung von Datenquellen

Entwickelt am EMBL für den Zugriff auf biol. Objekte /

Sequenzdaten

Kommerziell erweiterte Version von BioWisdom (zuvor:

Lion Bioscience)

Datenintegration primär für dateibasierte Quellen, aber

Erweiterungen für Zugriff auf RDBMS und Analysetools

Mapping-basierte Integration, kein globales Schema

Lokale Installation der Quellen notwendig (Download!)

Indexierung bzgl. Anfrageattribute von dateibasierten

Quellen

Definition von Hub-Tabellen und Anfrageattributen für

Integration von relationalen Datenquellen

Sommersemester 2012

Dr. Kirsten

19.07.2012

26



Sequence Retrieval System (SRS) II

Umfangreiche Wrapper-Bibliothek verfügbar für

öffentliche Datenquellen

Proprietäre Wrapper-Sprache: Icarus

Keine generischen Wrapper, z.B. zur Integration privater

Datenquellen

Source: Lion BioScience

Sommersemester 2012

Dr. Kirsten



SRS: Anfrageformulierung + -verarbeitung

Anfrageformulierung

Selektion der Quelle

Filterspezifikation für Anfrageattribute

Anfragetypen

Suchanfragen

Selektionsanfragen für numerische und datums- basierte Attribute

Reguläre Ausdrücke

Automatische Übersetzung in SQL Anfragen für relatio- nale Quellen

Zusammensetzung der Teilergebnisse Sommersemester 2012

Dr. Kirsten

19.07.2012

27




Explorative Analyse

Traversierung für ausgewählte Objekte entlang von Navigationspfaden (Instanz-Mappings)

Automatisch generierte Pfade zwischen den Datenquellen

Kürzeste Pfade (Dijkstra)

Keine Beachtung von Pfad- und Mapping-Semantik

Keine Joins, nur Graphtraversierung

Ergebnisse

Ergebnis = Menge von Objekten

Kein explizites Mapping (Objektkorrespondenzen)

Sommersemester 2012

Dr. Kirsten




Sommersemester 2012

Dr. Kirsten

19.07.2012

28



Hybride Integration von öffentl. Quellen*

Annotation Analysis Expression Analysis

Identification of relevant genes

using annotation data Identification of relevant genes

using experimental data

Expression (signal) value

P-Value

…

Molecular function

Gene location

Protein (product)

Disease

…

DWH +

Analysis Tools

gene /

clone

groups SRS

Gene annotation

Mapping-DB

Query-Mediator

*Kirsten, T; Do, H.-H.; Körner, C.; Rahm, E: Hybrid integration of molecular-biological annotation data.

Proc. 2nd Intl. Workshop DILS, July 2005

Sommersemester 2012

Dr. Kirsten



Mapping-Datenbank

Zentrale Idee: Sternartige Mapping-Verwaltung

Ausgewählte Datenquelle im Zentrum

Mapping als Verbindung zur zentralen Quelle

Extraktion von direkten Mappings

Vorberechnung von ausgewählten Mapping-Kompositionen

Unterstützung alternativer Mapping-Pfade

Mapping DB

LocusLink

NetAffx UniGene

GO

Ensembl

SwissProt …

Center_NetAffx

Center_Id

NetAffx _Accession

Path_Id

Center_GeneOntology

Center_Id

GO_Accession

Path_Id

Center_SwissProt

Center_Id

SwissProt _Accession

Path_Id

Center_Ensembl

Center_Id

Ensembl_Accession

Path_Id

Center (LocusLink)

Center_Id

LocusLink_Accession

1

N

1 N

1 N

Center_UniGene

Center_Id

UniGene _Accession

Path_Id

N 1

Center_...

Center_Id

Accession

Path_Id

N 1 N

1

Sommersemester 2012

Dr. Kirsten

19.07.2012

29



Systemarchitektur und Anfrageverarbeitung

Query Mediator

SRS Server

GeneOntology Ensembl LocusLink

Web Client

GeWare Platform

Read Metadata: DB,

Attributes, Mappings

1

GUI-Generation 2

Query Spec.:

Filter, Joins

3

Creation of SRS-Queries 4

SRS-Query Processing 6

SRS Call 5 Result Stream (XML) 7

Transformation of the

Result Stream 8

Result Visualization 9

Mapping-DB

ADM-DB

DWH

Sommersemester 2012

Dr. Kirsten



Motivation für P2P-artige Datenintegration

"Einfache" Integration von neuen Datenquellen (neue

Integrationsszenarios)

Vermeidung eines globalen Schema

Wiederverwendung von verfügbaren Objekt-

korrespondenzen (Mappings)

Aber: Nutzung der Semantik von Objekten und Mappings

Beispiel: Klassifizierung DNA-Sequenzen

>S1

CATTCTAAGAGACAAAGATAACTAAGA

>S2

CCCTATCAAAGTATCATTCAAGACTTA

>S3

CACTCACCTAAGTTAGTACAAATAACA

>S4

GAAAAGAAGGCGTGCCAACCTCCTCC

…

My Sequences NCBI Ensembl UCSC

Genome

Browser DNA

Exon

Protein

DNA

Gen DNA

Gen Protein

Lokale Datenquelle Öffentlich verfügbare Quelle Sommersemester 2012

Dr. Kirsten

19.07.2012

30



BioFuice*: P2P-artige Datenintegration

Bioinformatics information fusion utilizing instance

correspondences and peer mappings

Bottom-up Integration

High-level Operatoren

P2P-artige Infrastruktur Mappings zwischen autonomen Datenquellen (Peers)

Mapping: Menge von Korrespondenzen zwischen Objekten

Einfach Integration neuer Datenquellen

Mediator Steuerung der Mapping- und Operatorausführung

Nutzung eines anwendungsspezifischen semantischen

Domänenmodells

*Kirsten, T; Rahm, E: BioFuice: Mapping-based data integration in bioinformatics.

Proc. 3rd Intl. Workshop DILS, July 2006

Sommersemester 2012

Dr. Kirsten



Definitionen

Physische Datenquelle (PDS)

Öffentliche, private und lokale

Daten (Genliste, …), Ontologien

Beinhalten ein oder mehrere logische

Datenquellen

Ensembl

Accession: ENSG00000121380

Descr.: Apoptosis facilitator Bcl-2-like …

Sequence region start position: 12115145

Sequence region stop position: 12255214

Biotype: protein coding

Confidence: KNOWN

Gen@Ensembl

Objektinstanzen

Menge von relevanten

Attributen

Ein ID-Attribut

Gen

Sequenz- region Exon

Logische Datenquelle (LDS)

Bezieht sich auf einen Objekttyp

und eine physische Datenquelle,

z.B. Gene@Ensembl

Beinhaltet Objekte(-instanzen)

Sommersemester 2012

Dr. Kirsten

19.07.2012

31



Metadatenmodelle

Verwendung durch Mediator zur Mapping- und

Operatorausführung

Domänenmodell stellt relevante Objekttypen und

Beziehungen (=Mappingtypen) zwischen ihnen bereit

Source mapping model

LDS PDS

mapping

(same: )

Legend

Ensembl SwissProt

MySequences

NetAffx

Ensembl.

SRegionExons

Ensembl.

ExonGene

Ensembl.

GeneProteins

Ensembl.

sameNetAffxGenes

Domain model

Extraction

Sequence Region

Gene

Protein

Sequence

Exon

Sequence

Sequence Region

Exon

Gene Gene

Protein

Sommersemester 2012

Dr. Kirsten



Operatoren

Mengenorientierte Operatoren

Eingabe: Menge von Objekten/Mappings

+ Parameter / Bedingungen

Ausgabe: Menge resultierender Objekte

Kombination von Operatoren in Skripten

Workflow-artige Ausführung

Ausgewählte Operatoren: Single source: queryInstances, searchInstances, …

Navigation: traverse, map, compose, …

Navigation + Aggregation: aggregate, aggregateTraverse, …

Universell: diff, union, intersect, …

Sommersemester 2012

Dr. Kirsten

19.07.2012

32

Sommersemester 2012

Dr. Kirsten



Beispielskript

Szenario Gegeben: Menge von Sequenzen in lokaler Datenquelle

MySequences

Gesucht: Drei Klassen: unaligned s., non-coding s., protein

coding sequences

$alignedSeqMR := map( MySequences, { SeqDnaBlast } );

$codingSeqMR := compose( $alignedSeqMR, { Ensembl.SRegionExons } );

$unalignedSeqOI := diff ( MySequences, domain ( $alignedSeqMR ));

$protCodingSeqOI := domain ( $codingSeqMR );

$nonCodingSeqOI := diff ( domain ( $alignedSeqMR ) , $protCodingSeqOI );

Ensembl

MySequences

Ensembl.

SRegionExons

Sequenzregion

Sequenz Exon

LDS PDS

mapping

(same: )

Legend



Aggregation

Assoziation und Fusionierung von Genbeschreibungen

aus verschiedenen Datenquellen z.B. Ensembl und

NetAffx

$GeneOI := traverse ( range ($codingSeqMR ), { Ensembl.ExonGenes });

$fusedGeneAO := aggregateSame ( $GeneOI, NetAffx );

Ensembl

Ensembl.

SRegionExons

Sequence Region

Exon

Gene Ensembl.

ExonGenes

MySequences

Sequence

SeqDnaBlast

NetAffx

Gene Ensembl.

sameNetAffxGenes

LDS PDS

mapping

(same: )

Legend

Sommersemester 2012

Dr. Kirsten

19.07.2012

33

Sommersemester 2012

Dr. Kirsten



Aggregation II

Details – Attribute

Überblick – aggregierte Objekte (z.B. Gene)

Objektfusion

Sommersemester 2010

Dr. Kirsten



BioFuice Systemarchitektur

B i o

F u

i c

e

Generic Mapping

Execution Services Relational

Database

XML

Database

XML

File

XML

Stream

Appli-

cation i F

u i c

e C

o r

e

Web-

Service

Fusion Control Unit

and Repository

Mediator Interface

Mapping Handler Repository Cache

response request

mapping call mapping call mapping result

Duplicate Detection

i F u i c e c o r e A P I

Mapping Layer Mappings retrieving data of a single LDS but also interconnecting different LDS

User

Interface

Script

Editor

Model-based

Queries

Query Manager Query

Transformation

Query

specification

Query

result

Pre-defined

Queries

B i o

F u

i c

e

Q u

e r

y

R i F

u i c

e

Keyword

Search

C o

m m

a n

d l i n

e

I n t e

r f

a c

e Function library for

• Setting and retrieval of

iFuice objects

• Execution of iFuice

Scripts

• Metadata settings and

retrieval

CSV Export B i o F u i c e b a s e FASTA Export iFuice Connector

iFuice-Script Metadata Script result / Data transfer

XML Export

19.07.2012

34



Zusammenfassung

Web-link Integration: Einfach und fokussiert auf explorative Analyse keine gesonderte Anfrageformulierung und -verarbei-tung

DAS: Integration unter Bezugnahme auf die Sequenz eines Referenzgenoms

Einfaches Hinzufügen neuer Quellen

Anfragen unter Nutzung von Genomlokationen anstatt von Annotationsattributen

SRS: Indizierung von Webquellen

Große Bibliothek von Wrappern; proprietäre Sprache (ICARUS)

Erstellung von lokalen Indizes von Datenquellen und anfragbaren Attributen

Sommersemester 2012

Dr. Kirsten



Zusammenfassung II

Hybride Integration

Physische Speicherung von Mappings zwischen den

Datenquellen in einer zentralen Datenbank

Virtuelle Integration von Annotationsquellen

P2P-artige Integration: BioFuice

Einfache Integration von neuen Datenquellen durch

Wiederverwendung von Instanz-Mappings

Semantik von Objekten und Mappings in zwei getrennten

Metadaten Modellen

High-level Operatoren zur Anfrage- und Mapping-Ausfüh-

rung

Sommersemester 2012

Dr. Kirsten

19.07.2012

35



Noch Fragen?

Sommersemester 2012

Dr. Kirsten

Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-08.pdf ·...

Documents

Transcript of Datenbanken in der Bioinformatik - uni-leipzig.dedbs.uni-leipzig.de/file/biodb-SS2012-kap-08.pdf ·...