Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 -...

26
Ricerche in banche dati

Transcript of Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 -...

Page 1: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Ricerche in banche dati

Page 2: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Ricerche in banche dati

UNIPROT PROTEINASCONOSCIUTA

Ricerca

PROT_24563 - KinasiPROT_534346 - FosfatasiPROT_33463 - Prot di membranaPROT_234234 - Kinasi di membranaPROT_23423 - Fattore di trascrizione

Page 3: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Per similarità di sequenzaID Orga

nismo

Sequenza

RPD2_HUMAN Human

MTERENNVYKAKLAEQAERYDEMVEAFYYKMKGDYHRYLAEFIAMNDLPP

FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL

RHA_MOUSE Mouse ASKKJFOWERMPVCOVCOXKVODFKAAFDDAIAELDTLSEIRLGLALNF

GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA

RAS_HUMAN Human

LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS

ID Similarità

RPD2_HUMAN 254

FFS_MOUSE 128

RHA_MOUSE 95

GCN4_YEAST 12

RAS_HUMAN 10

Smith-Waterman5 appaiamenti

ENNVYKAKLAEQAERYDEMVEAFRENNVYKAK

Sequenza query

Risultati

Banca dati

Page 4: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Metodi Euristici

Algoritmoesaustivo

Algoritmoeuristico

Cervelloumano

Page 5: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Allineamento a occhio

Page 6: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Lettere e ParoleLettere = A,B,D,E,F,G,H, ..., Y

7 aminaocidi: L, T, A, G, A, G, I

Sequenza LTAGAGI lunghezza =7 contiene:

8000 Parole di lunghezza 3 =AAA, AAB, AAC, .., ABA, ABB, .., BAA, BAB, ..

400 Parole di lunghezza 2 = AA, AB, AC, .., BA, BB, BC, .., CA, ..

Parole = GTY, ADEF, TR, etc..

4 parole lunghe 4: LTAG, TAGA, …, …

5 parole lunghe 3: LTA, TAG, AGA, GAG, AGI

6 parole lunghe 2: LT, TA, AG, GA, AG, GI

Page 7: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Allineamenti con parole tg rd pl di dw lw ie wt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD

8 Parole identicheDi lunghezza 2

rdw plw die lwt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD

4 Parole identicheDi lunghezza 3

Page 8: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Matrice di parole

A G W W R A A W A A R G W A G A

G

W

W

R

A

G

W

A

A

* * *

* * * *

* * * *

* *

* * * * * * *

* * *

* * * *

* * * * * *

* * * * * * *

Page 9: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Matrice di parole

A G W W R A A W A A R G W A G A

G

W

W

R

A

G

W

A

A

13 Coppie di parole identiche di lunghezza 2

* * *

* * * *

* * * *

* *

* * * * * * *

* * *

* * * *

* * * * * *

* * * * * * *

*

*

Parola 2

Page 10: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Matrice di parole

A G W W R A A W A A R G W A G A

G

W

W

R

A

G

W

A

A

13 Coppie di parole identiche di lunghezza 2

*

*

Parola 2

Page 11: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

FastA-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

Matrice di punti

Matrice di parole di lunghezza 2

Page 12: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Matrice di parole 2A G W W R A A W A A R G W A G A

E

W

W

R

A

G

W

A

A

Page 13: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Unione diagonaliA G W W R A A W A A R G W A G A

E

W

W

R

A

G

W

A

A

Page 14: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Unione parole contigue-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

Page 15: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Calcolo similarità-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

Page 16: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Inserimento gaps-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

Page 17: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Calcolo Opt-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

Page 18: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Parole con errori

10 Parole lunghe 3 con 1 errore ammesso

LTAGARIDEDWEDISLHDWRTDWTSGCRKDEWWTWDSIHSTQWSD

LTAGARIDEDWEDISLHDWRTDWTSGCRKDEWWTWDSIHSTQWSD

LTAGARIDEDWEDISLHDWRTDWTSGCRKDEWWTWDSIHSTQWSD

Nessuna parola identica di lunghezza 3

18 Parole lunghe 4 con 2 errori ammessi

EDWEWW

Parole lunghezza 3Identiche con 1 Errore

EDWLEWWA

Parole lunghezza 4Identiche con 2 Errori

Page 19: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Parole similiSLH 16SIH 14SMH 13SVH 13ALH 13TLH 13NLH 13------SFH 12DLH 12KLH 12TMQ 11......

SLHTutte le 8000 parole

di lunghezza 3

Matrice disostituzione

Calcolopunteggio di similarità

e ordinamentoSLH

||| 4+5+7=16 SIH

SLH||| 1-1-2=-2 AAA

SLH||| -1+6+7=12 DLH

Parole similia SLH

Parole Non-similiA SLH

Valore soglia = 12

Page 20: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Blast-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

-------- Sequenza A ------------->

-------- Seq

uen

za B

----------->

Page 21: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

N W H N N L C R H WC -4 -8 -3 -4 -4 -6 12 -4 -3 -8W -4 17 -3 -4 -4 -2 -8 2 -3 17Y -2 0 0 -2 -2 -1 0 -4 0 0M -2 -4 -2 -2 -2 4 -5 0 -2 -4C -4 -8 -3 -4 -4 -6 12 -4 -3 -8G 0 -6 -2 0 0 -4 -3 -3 -2 -6K 1 -3 0 1 1 -3 -5 3 0 -3Q 1 -5 3 1 1 -2 -5 1 3 -5N 2 -4 2 2 2 -3 -4 0 2 -4

- Parole lunghezza 3 similarità > di 14

Page 22: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

N W H N N L C R H WC -4 -8 -3 -4 -4 -6 12 -4 -3 -8W -4 17 -3 -4 -4 -2 -8 2 -3 17Y -2 0 0 -2 -2 -1 0 -4 0 0M -2 -4 -2 -2 -2 4 -5 0 -2 -4C -4 -8 -3 -4 -4 -6 12 -4 -3 -8G 0 -6 -2 0 0 -4 -3 -3 -2 -6K 1 -3 0 1 1 -3 -5 3 0 -3Q 1 -5 3 1 1 -2 -5 1 3 -5N 2 -4 2 2 2 -3 -4 0 2 -4

- Parole lunghezza 3 similarità > di 14 - Estensione fino a quando similarità > di 10

Page 23: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Migliore Punteggio- Lunghezza della sequenza

- Grandezza banca dati

- Composizione della sequenza

Page 24: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Punteggio sequenze random

PunteggioOPT

100 200 300 400 500 600 700 800 900100

0110

0120

0130

0

Opt = 1070

NumeroSequenzecasuali 70

60

50

40

30

20

10

Page 25: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Significatività statistica

PunteggioOPT

NumeroSequenzecasuali

100 200 300 400 500 600 700 800 900100

0110

0120

0130

0

70

60

50

40

30

20

10

Opt = 1070

Page 26: Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Significatività statistica

PunteggioOPT

NumeroSequenzecasuali

100 200 300 400 500 600 700 800 900100

0110

0120

0130

0

70

60

50

40

30

20

10

E = 1.21*10-21

E value =Numero atteso per caso di sequenze con punteggio > opt