BLAST: Basic Local Alignment Search...
Transcript of BLAST: Basic Local Alignment Search...
Come possiamo strutturare le informazioni e renderle disponibili?
Banche dati (database)
L’elemento di partenza di ogni database è la tabella: una tabella è un insieme di righe e colonne; ogni colonna contiene un dato relativo alla cosa che stiamo descrivendo; ogni riga corrisponde ad una istanza della cosa.
Se parlassimo di persone avremmo che ogni riga corrisponde ad una persona ed ogni colonna corrisponde ad una caratteristica della persona (altezza, peso eccetera)
In termini di database ogni colonna è un campo, ogni riga un record.
Un database può essere composto di più tabelle. Ciò che rende un database relazionale è la presenza di legami fra le tabelle, di connessioni logiche, di relazioni, appunto.
Nome cognome Università/Centro di ricerca
dipartimento indirizzo
Silvia Fuselli Unife SVEB Via Borsari 46 Ferrara
Emiliano Trucchi Unife SVEB Via Borsari 46 Ferrara
Pierpaolo Maisano Delser
TrinityCollege
Smurfit Institute of Genetics
College Green, Dublin 2 Ireland
Flat file: docenti e istruttori del corso BAG 2015
ridondante
record
campo
Relational databaseCostituito da una sarie di tabelle connesse tra loro. Le informazioni non sono ridondanti
Istruttore_ID Nome cognome Contatto_ID
1 Silvia Fuselli 1
2 Emiliano Trucchi 1
3 Pierpaolo MaisanoDelser
3
Tabella istruttori
Tabella contatti
Contatto_ID Università/Centro di ricerca
dipartimento indirizzo
1 Unife SVEB Via Borsari 46 Ferrara
2 Trinity College Smurfit Institute of Genetics
College Green, Dublin 2 Ireland
Chiave primaria
Chiave secondaria
Chiave primaria
Come cercare nei database?
Utilizzo di key words (parole chiave) o identificatori specifici (accession numbers)
Operatori booleani:
Voglio ottenere dati sul gene LDH nella nostra specie:LDH AND human
Voglio ottenere dati sul gene LDH escludendo i primatiLDH NOT primates
Voglio ottenere lavori scientifici pubblicati da Caramelli D E/O Lari M
Come cercare nei database?
In alternativa alle parole chiave potrei usare BLAST (vedi lezione
Ricerche in banche dati (databases) attraverso l’uso di BLAST
NCBI several databases among which GenBank http://www.ncbi.nlm.nih.gov/
EMBL (European Molecular Biology laboratory)http://www.ebi.ac.uk/
DDBJ (DNA databank of Japan)http://www.ddbj.nig.ac.jp/index-e.html
Database più importanti per sequenze nucleotidiche (genetiche e genomiche):
EBI/NCBI/DDBJ• These 3 databases contain mainly the same information within
2-3 days (few differences in format and syntax)
• Serve as archives containing all sequences (single genes, ESTs, complete genomes, etc.) derived from:– Genome projects
– Sequencing centers
– Individual scientists
– Literature
– Patent offices
• Non-confidential data exchanged daily
• The database triples approximately every 12 months.
European Bioinformatics Institute
National Center for Biotechnology Information
Ricercare informazioni «across databases» in NCBI http://www.ncbi.nlm.nih.gov/gquery/
L'Entrez Global Query Cross-Database Search System è un sistema di ricerca integrato tra banche dati biomediche contenenti informazioni di tipo differente.
Entrez è coordinato dal National Center for Biotechnology Information (NCBI) statunitense, parte della National Library of Medicine (NLM) (essa stessa parte dei National Institutes of Health (NIH)).
Seguiamo il link a PubMed:
Possiamo vedere l’abstract
E ottenere l’articolo intero se siamo autorizzati (per esempio siamo nella rete di unife)
Nel menu a sinistra selezioniamo REVIEW come tipo di pubblicazione, fra le altre troveremo la seguente:
Seguiamo il link ad OMIM: Online Mendelian Inheritance in Man®
An Online Catalog of Human Genes and Genetic DisordersUpdated 20 November 2015
Vediamo i risultati (items) 2-3-4
Ora facciamo una ricerca per patologia: vogliamo trovare gli SNP (single nucleotide polymorphisms) associati al cancro al seno e disegnare un saggio di laboratorio (PCR) per tipizzarli
Key workds: Early onset breast cancer, ricerca in Entrez
Seguiamo il link a GENE
Troverete molte informazioni sul gene e sulla regione cromosomica in cui si trova. Verso la fine della pagina trovate il link a dbSNP
WGS: Whole Genome Shotgun SubmissionsWhole Genome Shotgun (WGS) projects are genome assemblies of incomplete genomes or incomplete chromosomes of prokaryotes or eukaryotes that are generally being sequenced by a whole genome shotgun strategy. WGS projects may be annotated, but annotation is not required. NCBI has a Prokaryotic Genomes Annotation Pipeline that may be requested at the time the genome files are submitted to GenBank. This pipeline generates a submission-ready annotated file that the submitter could edit prior to data release.
Guardate bene tutte le statistiche per farvi un’idea di come GenBank stia evolvendoTra le altre:
Cerchiamo in GenBank il gene del citocromo B (si trova sul mitocondrio) del pesceGarra rufa (anche detto doctor fish)
Per farvi due risate.. http://www.dottorfish.com/it/garra-rufa.php
gene
Intero mitocondrio
Il locus e l’organismo (source)
Referenze bibliografiche
FEATURES: la sequenza e le sue caratteristiche
formati
In questo caso gene e cds coincidono (non è sempre così, vedere lezioni precedenti)
Sequenza tradotta in aminoacidi
Sequenza in formato GenBank
The SRA not only provides a place where
researchers can archive their short read data,
but also enables them to quickly access known
data and their associated experimental
descriptions (metadata) with pin-point
accuracy.