השוואת רצפים

Post on 02-Jan-2016

29 views 2 download

description

השוואת רצפים. השוואה בין שני רצפים ביולוגיים: מדוע משווים? - PowerPoint PPT Presentation

Transcript of השוואת רצפים

השוואת רצפים

השוואה בין שני רצפים ביולוגיים:

מדוע משווים?

. התאמה של רצף אחד שלגביו לא ידוע לנו דבר )למשל רצף חלבון 1שבודדנו במעבדה(, לרצף שני שידוע שהוא "שייך" שלגביו ידועים

פרטים נוספים. ההנחה היא שמאופן הדמיון בין הרצפים נוכל להשליך מהידע לגבי תיפקודו של החלבון המוכר לגבי תיפקודו של החלבון

הלא-מוכר.

. שני רצפים מוכרים כאשר מפרטי ההשוואה נרצה ללמוד על מה 2דומה ומה שונה בינהם.

שימו לב: כאשר יש רצף נתון ורוצים לבדוק האם קיים לו בכלל רצף דומה במאגר המידע, משתמשים בכלים אחרים שנועדו

BLASTלחיפושים במאגרי מידע, למשל ב

השוואה בין שני רצפים ביולוגיים:

מי משווים?

גנום או רצף של יחידה בודדת )גן או חלבון(

דנ"א או חלבון

איך משווים?

השוואה ישירה: )לספור אותיות דומות(

T H E R E W A S A S M A L L G A P | | | | |H E R E I S A S M A L L E R G A P 5/17

Sequenceשיטה כמותית להשוואה בין רצפים: התאמת רצפים Alignment

הצגת הרצפים זה מעל זה באופן שיבליט את האותיות והאיזורים הדומים ברצפים. בדר"כ יש צורך לפתוח רווחים בשני הרצפים ע"מ להגיע למצב שבו מקסימום האותיות הזהות או

הדומות יופיעו זו מעל זו.

התאמה אפשרית היא: ATACGGAGAA ו AACGTAGATA למשל עבור הרצפים

A-ACGTAGATA ATACGGAGA-A

Sequenceשיטה כמותית להשוואה בין רצפים: התאמת רצפים Alignment

כאשר עוסקים בהתאמת רצפים יש להתייחס לשלוש שאלות:

כלומר אם נתונות שתי התאמות שונות בין זוג רצפים כימות המדד לאיכות ההתאמה.א. איך נדע מי טובה יותר? אינטואיטיבית ניתן ציון טוב יותר להתאמה שבה על ידי הוספה של

מינימום רווחים נקבל מקסימום של אותיות זהות הנמצאות זו מעל זו. צריך להפוך אינטואיציה זו למדד כמותי.

: נניח שהחלטנו בסעיף א' על השיטה )האלגוריתם( לחישוב ההתאמה האופטימליתב. מדד כמותי לאיכות ההתאמה, כלומר אם ההתאמה כבר נתונה אנו יודעים איך לחשב את

ערכה המספרי. עדיין קיימת השאלה המרכזית, כאשר נתונים זוג רצפים מהי השיטה שבה נבנה את ההתאמה הטובה ביותר? ברור שיש מספר עצום של אפשרויות שונות לפתוח רווחים בתוך כל רצף ועל ידי כך ליצור התאמות שונות. אנו מחפשים אלגוריתם יעיל שיאפשר למצוא

את ההתאמה האופטימלית בזמן חישוב סביר.

מהי הדרך המקובלת להציג את ההתאמה? ג. לאחר חישוב ההתאמה האופטימלית,

מה המספר המינימלי של פעולות עריכה הנדרש ע"מ להגיע מרצף אחד לשני?

פעולות עריכה: הוספת אות, הורדת אות, החלפת אות.(EDIT-DISTANCEהמרחק נקרא מרחק עריכה )

T H E R E W A S A S M A L L G A PT H E R E W A S A S M A L L G A PH E R E W A S A S M A L L G A PH E R E A S A S M A L L*G A PH E R E A S A S M A L L E*G A PH E R E A S A S M A L L E R G A PH E R E I S A S M A L L E R G A P

אם בונים התאמה שמשקפת את רצף הפעולות שבצענו, רואים שהדמיון עולה

(תיכנון דינמיתיכנות דינמי )את הבעיה פותרים בתהליך חישובי המכונה (DP-Dynamic Programming)

דינמי אבל המינוח תיכנות דינמי השתרש(.תיכנון)למעשה השם הנכון הוא

בתיכנות דינמי, פותרים בעיות מסובכות שלא ניתן לפתור אותן ישירות, על ידי פיצול הבעיה לבעיות חלקיות ההולכות וגדלות. אלגוריתם התיכנות הדינמי פותר את הבעיות

החלקיות ושומר את התשובות בטבלה, והפתרון לבעיות החלקיות הגדולות מסתמך על הפתרונות לבעיות החלקיות הקטנות יותר שכבר נפתרו. בסיום התהליך מגיעים

לפתרון הבעיה הראשית. את העבודה בשיטת התכנון הדינמי להתאמת רצפים נחלק טכנית לשלושה שלבים:

: מילוי שורת ועמודת האפסשלב א - איתחול תאים שכבר חושבושלושה: מילוי כל תא ע"ס הערך של מילוי המטריצה - שלב ב: שיחזור לאחור של המסלול לפי השלבים שיצרו את הפתרון האופטימליסיום - שלב ג

לפי המסלול ובניית ההתאמה

למילוי כל משבצת יש שלוש אפשרויות: יש להוסיף מחיר מחיקה להגיע מלמעלה )שקול למחיקת אות(•להגיע מצד שמאל )שקול להוספת אות( יש להוסיף מחיר הוספה•להגיע מהאלכסון :•

אם האותיות המותאמות שונות )שקול להחלפת אות( להוסיף מחיר החלפה• אם האותיות זהות – אין צורך בתשלום נוסף•

(1נניח בשלב ראשון שמחיר כל הפעולות )מחיקה, הוספה, החלפה( זהה ושווה ל )

אנו בודקים את כל האפשרויות ובוחרים בזולה ביותר

תת הטבלה המסומנת נותנת את מרחק העריכה ביןתתי המחרוזות הרלונטיות:

WASלמשל המרחק S _ I

2שווה ל

ולכן עם נמשיך את התהליך עד למילוי הטבלה כולהנקבל את מרחק העריכה הגלובלי

.דומים, רצפים הומולגיים, פראלוגיים, אורטולוגייםמונחים: רצפים Homologous, Paralogous, orthologous ,similar

, רצפים הומולוגיים הם רצפים שהתפתחו מרצף אב קדמון משותף.

– רצפים ביצורים שונים שהתפתחו מרצף אב משותף,אורטלוגייםרצפים גנום שהתפתחו כתוצאהאותו – רצפים בתוך רצפים פרלוגיים

( gene duplication )גנים העתקת מ

על ההבחנה בין רצפים דומים ורצפים הומולוגיים. להקפידיש

לשני רצפים יש אב משותף או שאין להם, ולכן הם הומולוגים או שהם אינם הומולוגים,".70%בשום מקרה הם אינם יכולים להיות "הומולוגים ב-

". 70%לעומת זאת, רצפים יכולים להיות דומים בדרגות דמיון שונות, למשל "דומים ב-

בדר"כ ניתן להסיק ששני רצפים הינם הומולוגים אם קיימת דרגת דימיון גבוהה ביניהם.

בין שני רצפים וחיפשנו את במרחקעד עכשיו עסקנו המינימליהמרחק

למעשה מקובל יותר בתוכנות הביו-אינפורמטיות לדבר על .המקסימוםבין רצפים ולחפש את דמיון

שיטת העבודה של התיכנות הדינמי דומה מאד:אבל יש לשנות את פרטי האתחול

ערכי מילוי המטריצה לעבוד על מקסימום ולא מינימום

איתחול:

שורה ועמודה של אפסים

מילוי:מקסימום על ערכים

משלושת התאים הקודמים

0 על הוספה/הורדה: במקרה שלנו הקנס הוא Wכאשר במחרוזת האחת לאות Iהוא הניקוד של התאמת האות במקום ה si,jן

אם האותיות 0 במחרוזת השניה. במקרה שלנו קנס של Jבמקום ה שונות

אם הן זהות. 1ופרס של

-

jiji

ji

ji

ji

sM

wM

wM

M

,1,1

,1

1,

, max

G A A T T C A G T T A

| | | | | |

G G A _ T C _ G _ _ A

בכל תא יש לשמור את המצביע)ים(שהביאו לחישוב הערך באותו תא.

כך ניתן בסיום החישוב לשחזר אתהמסלול ולבנות את ההתאמה.

ניתן לשנות את פונקצית המחיר:

W = -2 הוספה/הורדה

si,j= +2 כאשר האותיות דומות

si,j= -1 כאשר האותיות שונות

G A A T T C A G T T A

| | | | | |

G G A _ T C _ G _ _ A

הערך המספרי יצא כמובן שונהאבל ההתאמה שנוצרה זהה.

כאשר ההתאמה זהה בפונקציותהתאמה שונות, מתחזקת ההנחה

שמדובר בהתאמה אמיתית.

זמני ריצה וגודל זכרון נדרש

אורך הרצפים(n,m ) כאשר n*m מטריצה בגודל צריך למלא( n2נניח שהרצפים באותו אורך ונקבל גודל ריבועי ) של

n2* 3זמן: השוואה של שלושה ערכים לכל תא כלומר

שימו לב: אם האורך גדל פי שנים הזמן גדל פי ארבע !

עבור השוואה בודדת אין כאן מגבלה, עבור השוואה של גןמול כל מאגר הנתונים בהחלט יש.

שיפורים:זכרון: אין צורך לזכור את כל המטריצה, מספיקות שתי שורות

מתחלפות, צריך לדאוג לחישוב מחדש של המצביעים אחורה.

זמן: אם מוכנים להסתפק בתשובה מספרית כאשר המחרוזות דומות, ותשובה שלילית כללית כאשר הם אינן, ניתן לחשב רק ערכים

ב "צינור "יחסית צר מסביב לאלכסון ולחסוך בזמן.

התאמה לוקלית:

מציאת האזור המתאים ביותרבין שני רצפים.

השינויים:.0 המטריצה הקנס בשורת ועמודת ה אפס לא מצטבר והערך המוכנס שווה ל איתחולבשלב נדרוש שהציון המצטבר על ההתאמה, בכל שלב, לא ירד מתחת לאפס.המילויבשלב

אם הציון בתא מסויים יורד מתחת לאפס מאפסים אותו.

לאחור מתחילים בתא בעל הערך הגבוה ביותר השיחזוראת . 0בכל המטריצה ומשחזרים לאחור עד שמגיעים לתא שערכו

את המסלול מציגים כהתאמה לפי החוקים שפרטנו.

GAATTCAGTTA| || |GGATCGA

שוב אותה פונקצית התאמהW = -2 הוספה/הורדה

si,j= +2 כאשר האותיות דומותsi,j= -1 כאשר האותיות שונות

0

max

,1,1

,1

1,

,

jiji

ji

ji

ji

sMwM

wM

M

הרחבות למודל הבסיסי

ניקוד משתנה בהתאם לסוג ההתאמה

קנס משתנה בהתאם לאורך ההוספה / הכנסה affine gap penalty

ההרחבות תקפות הן להתאמה גלובלית והן להתאמה לוקלית

ניתן באותו זמן ריצה )פחות או יותר( לחשב את ההתאמה גם תחת

ההרחבות האלו. אבל האלגוריתמים הופכים ליותר מסובכים ולא ניכנס אליהם בקורס זה.

שיטת הניקוד שהשתמשנו בה עד כה אינה מתחשבת בסוגים השונים של אי-התאמות שיכולים לנבוע מסוגים שונים של מוטציות.

מתרחשים בתדירות גבוההTransitions למשל נמצא ש-DNAב-.Transversions בהרבה מ-

(Transitions מאותו סוג- סוג של מוטציות שבהן בסיס מסוג מסויים מוחלף בבסיס אחרלמשל פורין המוחלף בפורין אחר, או פירימידין בפירימידין אחר.

שימור של המבנה הטבעתי של הבסיס.קייםכלומר Transversions .סוג של מוטציות שבהן פורין מוחלף לפירימידין ולהיפך -

Adenine, Guanine )פורין: (Cytosine, Thymine פירימידין

בחלבונים, המצב מורכב יותר מאחר ויש תת קבוצות רבות יותר של חומצות אמיניות: ארומטיות, אליפטיות, בעלות מטען חיובי, בעלות מטען שלילי, הידרופוביות, הידרופיליות וכו'

והסיכוי והמשמעות של המוטציות שונות יכולה להיות שונה מאד.

נחפש ניקוד שישקף את רמת "הדימיון" בין האלמנטים המוחלפים.

(AFFINE GAP PANALTY)מחיר משתנה להכנסת רווחים

GATCAACTAG GATCAACTAG|| | | ||||| |||||GA-G-A-TAGGA---ACTAG

עד כה שתי ההתאמות קיבלו קנס זהה על פתיחת רווחים. ביולוגית לא נכון לעשות כךמאחר שאיבוד חלק מרצף הוא ארוע נדיר אבל כאשר הוא קורה יתכן שתורד יותר

מאשר אות אחת. ולכן ההתאמה בצד שמאל סבירה יותר מאשר ההתאמה בצד ימין.כדי שהפונקציה תשקף מציאות ביולוגית זו ניתן לחלק את הקנס הניתן על החסרה לשני חלקים.

ניקוד מסויים ניתן על עצם פתיחת הרווח וערך אחר ניתן לכל רווח נוסף. נוכל להגדיר את הקנס באופן הבא:

w=p+nk הוא הקנס על עצם פתיחת הרווחpכאשר

k הוא הקנס על כל החסרה nהוא מספר הרווחים

12=3+1+3+1+3+1 ואילו בימין 6 = 3 +3 נקבל בצד שמאל k=1 ו p=3אם נקבע