סמינריון ביואינפורמטיקה 2005

Post on 11-Feb-2016

59 views 0 download

description

Functional genomics. סמינריון ביואינפורמטיקה 2005. דינה מגר. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC GCTAGGAG. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC GCTAGGAG. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC - PowerPoint PPT Presentation

Transcript of סמינריון ביואינפורמטיקה 2005

1

סמינריון ביואינפורמטיקה 2005

Functional genomics

דינה מגר

2

צרות של עשירים

הרבה נתוניםAGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

מעט הבנה

3

מה זה בעצם תפקוד חלבון?הפעולה של מולקולת חלבון בודדת בקטליזה של ריאקציה או בקישור למולקולה אחרת )היבט מולקולרי(

A הופך משולש ורוד למשושה צהוב:Aחלבון

4

: השתתפות באותו קומפלקס, נתיב מטאבולי או קשר פונקציונליתהליך ביולוגי

שלמהחלבון הוא אלמנט אחד ברשת עם חלבונים של אינטראקציות

החולקים איתו קשר פונקציונלי

והאינטראקציות שלו עם חלבונים אחרים בתאAהחלבון

B

C D

EA

: הקשר תאיהיבט רחב יותר

5

שיטות מוכרות למציאת תפקוד חלבון:

ניסוי ביוכימי וגנטי על חלבון ספציפי •

השוואת רצף חומצות אמינו למציאת •

חלבון דומה שתפקודו כבר ידוע

6

חסרונות בהשוואת הרצף:

החיפוש אפשרויות את מגבילה רצף השוואת

שאינם קשורים חלבונים ישנם אך להומולוגים

הומולוגים

בהשוואת רצף לא רואים את ההקשר התוך תאי•

7

כדי להבין טוב יותר את התפקוד

וכדי לקבל in vivoשל חלבונים

בשיטת שלא נגיש לנומידע

השוואת הרצף נפנה לשיטות

אחרות

8

שיטות חישוביות

to the rescue!

9

סקירה על כמה שיטות חישוביות

Protein function in the post-genomic

era DAVID EISENBERG, EDWARD M. MARCOTTE ,

IOANNIS XENARIOS & TODD O. YEATES1

10

שיטות חישוביות:

(phylogenetic profileפרופיל פילוגנטי )•

(Rosetta Stoneאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

(phylogenetic profileפרופיל פילוגנטי )•

11

עץ פילוגנטי, מכירים?

למצולמים אין קשר לפרשה

אתה נמצא

כאן

12

הנחה:חלבונים המראים תבנית זהה

של הופעה והיעדרות במספר

אורגניזמים שונים כנראה

קשורים פונקציונלית

13

פרופיל פילוגנטינקח ארבעה גנומים )היפותטיים( אשר

בכל אחד מהם מופיעה תת קבוצה כלשהי 7P...1P המסומנים E. coliשל חלבוני

1, תיבה protein function in the post genomic era: 1מאמר

: כל בתמונהאורגניזם ותת הקבוצה של החלבונים

שמתבטאת אצלו

E. Coli מכיל את כל הקבוצה

14

נוכחות או היעדרות כל

חלבון תסומן ע"י 0 או 1

)וקטור נוכחות(

1, תיבה protein function in the post genomic era: 1מאמר

15

P2 1 1 0P7 1 1 0

P3 0 1 1P6 0 1 1

P4 1 0 0

P1 1 0 1 P5 1 1 1פרופילים זהים יקובצו בתיבה

אחת

1, תיבה protein function in the post genomic era: 1מאמר

16

פרופילים הנבדלים בביט אחד יקושרו ע"י

קו P3 0 1 1P6 0 1 1

P5 1 1 1P1 1 0 1

P4 1 0 0P2 1 1 0P7 1 1 0

1, תיבה protein function in the post genomic era: 1מאמר

17

מה קבלנו:•2P 7 וP ,קשורים פונקציונלית

שכן נוכחותם או היעדרותם בכל המינים משותפת וכנראה אין

צורך באחד ללא השני. 6P ו 3Pאותה מסקנה נסיק לגבי •

שמראים התנהגות זהה.פרופילים הנבדלים בביט אחד •

בלבד מראים על קשר מסויים גם כן

P3 0 1 1P6 0 1 1

P5 1 1 1P1 1 0 1

P4 1 0 0P2 1 1 0P7 1 1 0

18

יעילות השיטהכל חלבון יכול להופיע או לא להופיע בפרופיל, •

מספר 2n( nלכן סך הפרופילים האפשריים:

הגנומים(

ככל שנגדיל את מספר האורגניזמים יקטן •

הסיכוי לקבל פרופיל זהה בטעות

19

שיטות חישוביות:

(phylogenetic profile methodפרופיל פילוגנטי )•

(Rosetta Stone methodאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

בתמונה: "איחוי"

20

לידע כללי נמצאה אבן הרוזטה 1799בשנת

בכפר ראשיד במצרים. על האבן מופיעה כתובת בשלושה כתבים

שונים:

יוונית

כתב דמוטי

הירוגליפים

תצלום של אבן הרוזטה. מדובר בבלוק אבן די מסיבי

21

באמצעות ידע מוקדם של יוונית והכרות עם הכתב הדמוטי ניתן לפענח את כתב ההירוגליפים

א"ב הירוגליפי והאותיות המתאימות באנגלית

22

הנחה:

לשני דומיינים באותו חלבון

כמעט תמיד יש קשר פונקציונלי

23

תעלול הרוזטה ו Aנניח שמצאנו במין מסוים זוג חלבונים

B

אם נמצא באורגניזם אחר חלבון המכיל את חולקים קשר B ו Aשני הדומיינים נסיק כי

תפקודי

1 באורגניזם Aחלבון

1 באורגניזם Bחלבון

A

B

A B 2אבן הרוזטה באורגניזם

24

זה סיפור אמיתי?

2, תיבה protein function in the post genomic era: 1מאמר

25

שיטות חישוביות:

(phylogenetic profile methodפרופיל פילוגנטי )•

(Rosetta Stone methodאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

26

הנחה:

של חלבונים mRNAרמות

קשורים פונקציונלית יעלו או

ירדו באופן דומה במצבים

שונים בהם מעמידים את

התא

27

טיפולים שונים

רשימת גנים

עקומות דומות יראו תגובת גנים דומה לטיפולים ויצביעו

על אפשרות שהחלבונים

קשוריםבה

גות

28

כרגע באמתחתנו:

(phylogenetic profile methodפרופיל פילוגנטי )•

(Rosetta Stone methodאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

29

A combined algorithm for

genome-wide prediction of

protein function

EDWARD M. MARCOTTE*†, MATTEO PELLEGRINI†‡, MICHAEL J. THOMPSON*‡, TODD O. YEATES* & DAVID EISENBERG*

‡ Present address: Protein Pathways , 1145 Gayley Avenue, Ste 304, Los Angeles, California 90024, USA

1999

30

מהלך הניסוי

החלבונים של 6,217נבחן את הקשרים בין S. Cerevisiae :באמצעות השיטות שראינו

פרופיל פילוגנטי mRNAתבניות דומות של ביטוי

מציאת דומיינים שאוחו )שיטת אבן הרוזטה(

31

חיפוש קשרים פונקציונאליים ע"י:

חלבונים 6,217 .Sשל

cereviciae

אינטראקציה ישירה

500 קשרי

ם

ביטוי רמות mRNA

פעילות מטאבולית קשורה

פרופיל פילוגנט

י

20,749 קשרים

שיטת אבן

הרוזטה

ננסה לחזות את תפקודם של חלבונים לא מוכרים באמצעות הקשרים שלהם

עם חלבונים שתפקודם ידועA combined algorithm for genome-wide prediction of protein function , figure 1תרגום לעברית של תרשים הזרימה המופיע במאמר

26,013 קשרים

45,502 קשרים

2,391 קשרים

32

( %76 חלבונים )4,701 קשרים בין 93,750קבלנו •

", highest confidence קשרים הוגדרו כ- "4,130•

כלומר ידועים כנכונים מניסויים ישירים או נחזו ע"י

יותר משיטה אחת

”, high confidence קשרים הוגדרו כ – “19,521•

הם אלה שנחזו באמצעות פרופילים פילוגנטיים

או mRNAשאר הקשרים נחזו ע"י דמיון בביטוי •

איחוי דומיינים אך לא שניהם

33

חלבונים לא מסווגים בשמרים 2,557קיימים •(1999)בזמן שהמאמר יצא, כלומר ב-

חלבונים אלו לא נבדקו ניסויית ואין להם •הומולוגים טובים בעלי פונקציה ידועה

מתוכם ניתן למצוא פעילות כללית משוערת •( מתוך הקשרים הסבירים 15% )374עבור

והסבירים ביותר

( ניתן לשער פעילות אם 62% )1,589עבור •משתמשים בכל הקשרים

34

A combined algorithm for genome-wide prediction of

protein function, figure2

קשרים בסבירות

highגבוהה )confidence )

סיווג חלבוניםDe novo

35

Sup35

A combined algorithm for genome-wide prediction of

protein function, figure3

הרחבת הידעהקיים

36

עד כמה התחזיות טובות?

השיטות אכן חוזות אינטראקציות בין •חלבונים שכבר ידועים כקשורים

ראייה כמותית: בדיקת הקשרים •שנתקבלו עבור חלבונים מוכרים

במסדי נתונים – האם הם מופיעים באותה קטגוריה פונקציונלית?

37

38

39

לסיכום:

לשיטות החישוביות יש אמינות

סבירה באופן כללי ואמינות מעולה

כאשר שתיים או יותר מצביעות על

אותו קשר פונקציונלי.

40

לסיכום )המשך(:

שיטות הפרופיל הפילוגנטי ואיחוי דומיינים, על אף •

שהן מתבססות באופן עקיף על השוואת רצף,

מספקות מידע חדש בנוגע לאינטראקציות בין

חלבוניות שלא היה נגיש בהשוואת רצפים פשוטה.

השוואת רמות ביטוי הגן לא מבוססת על רצף כלל.•

41

עוד שיטות חישוביות במחקר

lonely…

42

Identifying functional links

between genes using conserved

chromosomal proximity

Itai Yanai, Joseph C. Mellor and Charles DeLisi

2002

שכנות כרומוזומלית שמורה

43

תצפית:זוג גנים המקודדים לחלבונים

שנמצאים בסמיכות במספר גנומים נוטים להיות בעלי קשר פונקציונלי

3, תיבה protein function in the post genomic era: 1מאמר

44

מטרה: לבדוק האם ניתן לערוך תחזיות בשיטת השכנות

השמורה

יש לחשב את הסיכוי שגנים שכנים יקודדו

לחלבונים בעלי קשר פונקציונלי

45

בדיקת מהימנות

גנומים מיקרוביאליים מ 42לצורך כך ניקח •

קבוצות פילוגנטיות.25

נחפש קורולציה בין מס' הגנומים בהן זוג •

הגנים שכנים לבין הפעמים בהן החלבונים

המקודדים קשורים.

46

מהם גנים סמוכים?

( הם על אותו גדיל1

300bp הם במרחק שלא יעלה על א( 2

או

אם הפאראלוג של אחד מהם ב לכל היותר מהשני300bpבמרחק

לצורך המחקר, גנים הוגדרו "סמוכים" אם:

47

אם הם שכנים שמוריםשני גנים נחשבים

סמוכים ביותר ממספר סף כלשהו של

גנומים

קשר ישיר קשר עקיף

48

קשרים ישרים ועקיפים שנמצאו Buchnera sp.APSבגנום של

Direct links: 231 Inferred links: 136

49

הערכת התוצאות

מבין החלבונים המוכרים שנתגלו בינם

קשרים, נחשב את אחוז החלבונים

( או KEGGשמופיעים באותו מסלול )

(COGבאותה מחלקה פונקציונלית )

50

1ממצא

ככל שדורשים

יותר מינים בהם

הגנים יופיעו

בסמיכות כך

אחוז הקשרים

הנכונים עולה Nמספר הגנומים המינימאלי בהם נמצאה סמיכות =

51

2ממצא מספר הקשרים

הישרים והעקיפים

תלויים זה בזה

ושניהם יורדים

ככל שמעלים את

הדרישות

52

וזה עובד?!

שיטת הסמיכות הכרומוזומלית

יעילה במיוחד אצל פרוקריוטים

ניתן ליישמה באופן מוגבל גם באאוקריטים

53

STRING: known and predicted protein–protein

associations, integrated and transferred across

organisms

Christian von Mering, Lars J. Jensen, Berend Snel,1 Sean D. Hooper, Markus Krupp ,Mathilde Foglierini, Nelly Jouffre, Martijn A. Huynen,1 and Peer Bork*

54

STRING – Search Tool for the Retrieval of Interacting

Genes/Proteins

קשרים המציג גם מסד נתונים פונקציונליים

שיטות חישוביות לקהל הרחב

http://string.embl.de

55

STRING: 736,429מספר החלבונים ב •מקורות המידע על קשרים בין חלבונים:•

)השיטות שראינו(הקשר תאי מידע מניסויים

דומותביטוי רמות

חיפוש במסדי נתונים

56

57

Your inputהקשרים ומקורם

חלבונים קשורים והתיאור שלהם

הרבה כפתורים

58

59

ציור רשת

60

61

62

מה ראינו היום?שיטות חישוביות לחיזוי תפקוד חלבונים בהקשר התאי•

פרופיל פילוגנטי•(Rosetta stoneאיחוי דומיינים )• דומותmRNAרמות ביטוי •שכנות כרומוזומלית שמורה•

מסד נתונים המכיל קשרים פונקציונאליים בין חלבונים•