השוואת רצפים

30
םםםםםם םםםםם

description

השוואת רצפים. השוואה בין שני רצפים ביולוגיים: מדוע משווים? - PowerPoint PPT Presentation

Transcript of השוואת רצפים

Page 1: השוואת רצפים

השוואת רצפים

Page 2: השוואת רצפים

השוואה בין שני רצפים ביולוגיים:

מדוע משווים?

. התאמה של רצף אחד שלגביו לא ידוע לנו דבר )למשל רצף חלבון 1שבודדנו במעבדה(, לרצף שני שידוע שהוא "שייך" שלגביו ידועים

פרטים נוספים. ההנחה היא שמאופן הדמיון בין הרצפים נוכל להשליך מהידע לגבי תיפקודו של החלבון המוכר לגבי תיפקודו של החלבון

הלא-מוכר.

. שני רצפים מוכרים כאשר מפרטי ההשוואה נרצה ללמוד על מה 2דומה ומה שונה בינהם.

שימו לב: כאשר יש רצף נתון ורוצים לבדוק האם קיים לו בכלל רצף דומה במאגר המידע, משתמשים בכלים אחרים שנועדו

BLASTלחיפושים במאגרי מידע, למשל ב

Page 3: השוואת רצפים

השוואה בין שני רצפים ביולוגיים:

מי משווים?

גנום או רצף של יחידה בודדת )גן או חלבון(

דנ"א או חלבון

איך משווים?

השוואה ישירה: )לספור אותיות דומות(

T H E R E W A S A S M A L L G A P | | | | |H E R E I S A S M A L L E R G A P 5/17

Page 4: השוואת רצפים

Sequenceשיטה כמותית להשוואה בין רצפים: התאמת רצפים Alignment

הצגת הרצפים זה מעל זה באופן שיבליט את האותיות והאיזורים הדומים ברצפים. בדר"כ יש צורך לפתוח רווחים בשני הרצפים ע"מ להגיע למצב שבו מקסימום האותיות הזהות או

הדומות יופיעו זו מעל זו.

התאמה אפשרית היא: ATACGGAGAA ו AACGTAGATA למשל עבור הרצפים

A-ACGTAGATA ATACGGAGA-A

Page 5: השוואת רצפים

Sequenceשיטה כמותית להשוואה בין רצפים: התאמת רצפים Alignment

כאשר עוסקים בהתאמת רצפים יש להתייחס לשלוש שאלות:

כלומר אם נתונות שתי התאמות שונות בין זוג רצפים כימות המדד לאיכות ההתאמה.א. איך נדע מי טובה יותר? אינטואיטיבית ניתן ציון טוב יותר להתאמה שבה על ידי הוספה של

מינימום רווחים נקבל מקסימום של אותיות זהות הנמצאות זו מעל זו. צריך להפוך אינטואיציה זו למדד כמותי.

: נניח שהחלטנו בסעיף א' על השיטה )האלגוריתם( לחישוב ההתאמה האופטימליתב. מדד כמותי לאיכות ההתאמה, כלומר אם ההתאמה כבר נתונה אנו יודעים איך לחשב את

ערכה המספרי. עדיין קיימת השאלה המרכזית, כאשר נתונים זוג רצפים מהי השיטה שבה נבנה את ההתאמה הטובה ביותר? ברור שיש מספר עצום של אפשרויות שונות לפתוח רווחים בתוך כל רצף ועל ידי כך ליצור התאמות שונות. אנו מחפשים אלגוריתם יעיל שיאפשר למצוא

את ההתאמה האופטימלית בזמן חישוב סביר.

מהי הדרך המקובלת להציג את ההתאמה? ג. לאחר חישוב ההתאמה האופטימלית,

Page 6: השוואת רצפים

מה המספר המינימלי של פעולות עריכה הנדרש ע"מ להגיע מרצף אחד לשני?

פעולות עריכה: הוספת אות, הורדת אות, החלפת אות.(EDIT-DISTANCEהמרחק נקרא מרחק עריכה )

T H E R E W A S A S M A L L G A PT H E R E W A S A S M A L L G A PH E R E W A S A S M A L L G A PH E R E A S A S M A L L*G A PH E R E A S A S M A L L E*G A PH E R E A S A S M A L L E R G A PH E R E I S A S M A L L E R G A P

Page 7: השוואת רצפים

אם בונים התאמה שמשקפת את רצף הפעולות שבצענו, רואים שהדמיון עולה

Page 8: השוואת רצפים

(תיכנון דינמיתיכנות דינמי )את הבעיה פותרים בתהליך חישובי המכונה (DP-Dynamic Programming)

דינמי אבל המינוח תיכנות דינמי השתרש(.תיכנון)למעשה השם הנכון הוא

בתיכנות דינמי, פותרים בעיות מסובכות שלא ניתן לפתור אותן ישירות, על ידי פיצול הבעיה לבעיות חלקיות ההולכות וגדלות. אלגוריתם התיכנות הדינמי פותר את הבעיות

החלקיות ושומר את התשובות בטבלה, והפתרון לבעיות החלקיות הגדולות מסתמך על הפתרונות לבעיות החלקיות הקטנות יותר שכבר נפתרו. בסיום התהליך מגיעים

לפתרון הבעיה הראשית. את העבודה בשיטת התכנון הדינמי להתאמת רצפים נחלק טכנית לשלושה שלבים:

: מילוי שורת ועמודת האפסשלב א - איתחול תאים שכבר חושבושלושה: מילוי כל תא ע"ס הערך של מילוי המטריצה - שלב ב: שיחזור לאחור של המסלול לפי השלבים שיצרו את הפתרון האופטימליסיום - שלב ג

לפי המסלול ובניית ההתאמה

Page 9: השוואת רצפים
Page 10: השוואת רצפים
Page 11: השוואת רצפים

למילוי כל משבצת יש שלוש אפשרויות: יש להוסיף מחיר מחיקה להגיע מלמעלה )שקול למחיקת אות(•להגיע מצד שמאל )שקול להוספת אות( יש להוסיף מחיר הוספה•להגיע מהאלכסון :•

אם האותיות המותאמות שונות )שקול להחלפת אות( להוסיף מחיר החלפה• אם האותיות זהות – אין צורך בתשלום נוסף•

(1נניח בשלב ראשון שמחיר כל הפעולות )מחיקה, הוספה, החלפה( זהה ושווה ל )

אנו בודקים את כל האפשרויות ובוחרים בזולה ביותר

Page 12: השוואת רצפים
Page 13: השוואת רצפים
Page 14: השוואת רצפים

תת הטבלה המסומנת נותנת את מרחק העריכה ביןתתי המחרוזות הרלונטיות:

WASלמשל המרחק S _ I

2שווה ל

ולכן עם נמשיך את התהליך עד למילוי הטבלה כולהנקבל את מרחק העריכה הגלובלי

Page 15: השוואת רצפים
Page 16: השוואת רצפים
Page 17: השוואת רצפים
Page 18: השוואת רצפים

.דומים, רצפים הומולגיים, פראלוגיים, אורטולוגייםמונחים: רצפים Homologous, Paralogous, orthologous ,similar

, רצפים הומולוגיים הם רצפים שהתפתחו מרצף אב קדמון משותף.

– רצפים ביצורים שונים שהתפתחו מרצף אב משותף,אורטלוגייםרצפים גנום שהתפתחו כתוצאהאותו – רצפים בתוך רצפים פרלוגיים

( gene duplication )גנים העתקת מ

על ההבחנה בין רצפים דומים ורצפים הומולוגיים. להקפידיש

לשני רצפים יש אב משותף או שאין להם, ולכן הם הומולוגים או שהם אינם הומולוגים,".70%בשום מקרה הם אינם יכולים להיות "הומולוגים ב-

". 70%לעומת זאת, רצפים יכולים להיות דומים בדרגות דמיון שונות, למשל "דומים ב-

בדר"כ ניתן להסיק ששני רצפים הינם הומולוגים אם קיימת דרגת דימיון גבוהה ביניהם.

Page 19: השוואת רצפים

בין שני רצפים וחיפשנו את במרחקעד עכשיו עסקנו המינימליהמרחק

למעשה מקובל יותר בתוכנות הביו-אינפורמטיות לדבר על .המקסימוםבין רצפים ולחפש את דמיון

שיטת העבודה של התיכנות הדינמי דומה מאד:אבל יש לשנות את פרטי האתחול

ערכי מילוי המטריצה לעבוד על מקסימום ולא מינימום

Page 20: השוואת רצפים

איתחול:

שורה ועמודה של אפסים

מילוי:מקסימום על ערכים

משלושת התאים הקודמים

0 על הוספה/הורדה: במקרה שלנו הקנס הוא Wכאשר במחרוזת האחת לאות Iהוא הניקוד של התאמת האות במקום ה si,jן

אם האותיות 0 במחרוזת השניה. במקרה שלנו קנס של Jבמקום ה שונות

אם הן זהות. 1ופרס של

-

jiji

ji

ji

ji

sM

wM

wM

M

,1,1

,1

1,

, max

Page 21: השוואת רצפים
Page 22: השוואת רצפים

G A A T T C A G T T A

| | | | | |

G G A _ T C _ G _ _ A

בכל תא יש לשמור את המצביע)ים(שהביאו לחישוב הערך באותו תא.

כך ניתן בסיום החישוב לשחזר אתהמסלול ולבנות את ההתאמה.

Page 23: השוואת רצפים

ניתן לשנות את פונקצית המחיר:

W = -2 הוספה/הורדה

si,j= +2 כאשר האותיות דומות

si,j= -1 כאשר האותיות שונות

Page 24: השוואת רצפים

G A A T T C A G T T A

| | | | | |

G G A _ T C _ G _ _ A

הערך המספרי יצא כמובן שונהאבל ההתאמה שנוצרה זהה.

כאשר ההתאמה זהה בפונקציותהתאמה שונות, מתחזקת ההנחה

שמדובר בהתאמה אמיתית.

Page 25: השוואת רצפים

זמני ריצה וגודל זכרון נדרש

אורך הרצפים(n,m ) כאשר n*m מטריצה בגודל צריך למלא( n2נניח שהרצפים באותו אורך ונקבל גודל ריבועי ) של

n2* 3זמן: השוואה של שלושה ערכים לכל תא כלומר

שימו לב: אם האורך גדל פי שנים הזמן גדל פי ארבע !

עבור השוואה בודדת אין כאן מגבלה, עבור השוואה של גןמול כל מאגר הנתונים בהחלט יש.

שיפורים:זכרון: אין צורך לזכור את כל המטריצה, מספיקות שתי שורות

מתחלפות, צריך לדאוג לחישוב מחדש של המצביעים אחורה.

זמן: אם מוכנים להסתפק בתשובה מספרית כאשר המחרוזות דומות, ותשובה שלילית כללית כאשר הם אינן, ניתן לחשב רק ערכים

ב "צינור "יחסית צר מסביב לאלכסון ולחסוך בזמן.

Page 26: השוואת רצפים
Page 27: השוואת רצפים

התאמה לוקלית:

מציאת האזור המתאים ביותרבין שני רצפים.

השינויים:.0 המטריצה הקנס בשורת ועמודת ה אפס לא מצטבר והערך המוכנס שווה ל איתחולבשלב נדרוש שהציון המצטבר על ההתאמה, בכל שלב, לא ירד מתחת לאפס.המילויבשלב

אם הציון בתא מסויים יורד מתחת לאפס מאפסים אותו.

לאחור מתחילים בתא בעל הערך הגבוה ביותר השיחזוראת . 0בכל המטריצה ומשחזרים לאחור עד שמגיעים לתא שערכו

את המסלול מציגים כהתאמה לפי החוקים שפרטנו.

GAATTCAGTTA| || |GGATCGA

שוב אותה פונקצית התאמהW = -2 הוספה/הורדה

si,j= +2 כאשר האותיות דומותsi,j= -1 כאשר האותיות שונות

0

max

,1,1

,1

1,

,

jiji

ji

ji

ji

sMwM

wM

M

Page 28: השוואת רצפים

הרחבות למודל הבסיסי

ניקוד משתנה בהתאם לסוג ההתאמה

קנס משתנה בהתאם לאורך ההוספה / הכנסה affine gap penalty

ההרחבות תקפות הן להתאמה גלובלית והן להתאמה לוקלית

ניתן באותו זמן ריצה )פחות או יותר( לחשב את ההתאמה גם תחת

ההרחבות האלו. אבל האלגוריתמים הופכים ליותר מסובכים ולא ניכנס אליהם בקורס זה.

Page 29: השוואת רצפים

שיטת הניקוד שהשתמשנו בה עד כה אינה מתחשבת בסוגים השונים של אי-התאמות שיכולים לנבוע מסוגים שונים של מוטציות.

מתרחשים בתדירות גבוההTransitions למשל נמצא ש-DNAב-.Transversions בהרבה מ-

(Transitions מאותו סוג- סוג של מוטציות שבהן בסיס מסוג מסויים מוחלף בבסיס אחרלמשל פורין המוחלף בפורין אחר, או פירימידין בפירימידין אחר.

שימור של המבנה הטבעתי של הבסיס.קייםכלומר Transversions .סוג של מוטציות שבהן פורין מוחלף לפירימידין ולהיפך -

Adenine, Guanine )פורין: (Cytosine, Thymine פירימידין

בחלבונים, המצב מורכב יותר מאחר ויש תת קבוצות רבות יותר של חומצות אמיניות: ארומטיות, אליפטיות, בעלות מטען חיובי, בעלות מטען שלילי, הידרופוביות, הידרופיליות וכו'

והסיכוי והמשמעות של המוטציות שונות יכולה להיות שונה מאד.

נחפש ניקוד שישקף את רמת "הדימיון" בין האלמנטים המוחלפים.

Page 30: השוואת רצפים

(AFFINE GAP PANALTY)מחיר משתנה להכנסת רווחים

GATCAACTAG GATCAACTAG|| | | ||||| |||||GA-G-A-TAGGA---ACTAG

עד כה שתי ההתאמות קיבלו קנס זהה על פתיחת רווחים. ביולוגית לא נכון לעשות כךמאחר שאיבוד חלק מרצף הוא ארוע נדיר אבל כאשר הוא קורה יתכן שתורד יותר

מאשר אות אחת. ולכן ההתאמה בצד שמאל סבירה יותר מאשר ההתאמה בצד ימין.כדי שהפונקציה תשקף מציאות ביולוגית זו ניתן לחלק את הקנס הניתן על החסרה לשני חלקים.

ניקוד מסויים ניתן על עצם פתיחת הרווח וערך אחר ניתן לכל רווח נוסף. נוכל להגדיר את הקנס באופן הבא:

w=p+nk הוא הקנס על עצם פתיחת הרווחpכאשר

k הוא הקנס על כל החסרה nהוא מספר הרווחים

12=3+1+3+1+3+1 ואילו בימין 6 = 3 +3 נקבל בצד שמאל k=1 ו p=3אם נקבע