תרגיל 2: חיפוש רצפי נוקליאוטידים במאגרי - NCBI תפריט טעימות ממטבח NCBI פתחו את מאגר הנוקליאוטידים של (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=nucleotide) NCBI אתם מעוניינים לאתר רצפי נוקליאוטידים של CDK2 (כרגע עדיין ללא הגבלה לאורגאניזם). ראשית, ננסה ליישם אסטרטגיות חיפוש כלליות של ממשק,NCBI כפי שלמדנו בחיפושינו ב- Pubmed. חפשו כמה רצפי נוקליאוטידים של CDK2 מתקבלים, כאשר החיפוש מוגבל לשדות הבאים (נסו לכתוב בעצמכם את נוסח השאילתא ללא שימוש ב- Preview/index ): all fields title gene name באיזה חיפוש תצפו למצוא את המספר הגדול ביותר של false positives (במקרה זה, רשומות שאינן מקודדות CDK2 אלא חלבונים אחרים)? השתמשו בכפתור History כדי לחזור לתוצאות החיפושים השונים. האם יש חיפוש בו לא נמצאו כלל רשומות מסוג?false positive באמצעות History ניתן לשכלל שאילתא קיימת. ננסה להשתמש באפשרות זו על-מנת לנפות את הרשומות שאינן CDK2 אלא רצפים המקודדים לחלבונים הקשורים ל- CDK2. לחצו על כפתור.History נסחו שאילתא הכוללת את המלים related, OR associated OR truncated OR regulated או כל מונח אחר שנראה לכם עשוי להועיל ובצעו את החיפוש fields).(all כעת נסחו שאילתא מורכבת: #מס' חיפוש fields] CDK2[all אחריו NOT ו-#מספר חיפוש.related כמה רשומות ניפיתם בהשוואה לחיפוש המקורי? היכנסו לרשימת התוצאות. האם נשארו עדיין רשומות מסוג?false positive עד כאן עסקנו רק בהתמקדות ב-,CDK2 אך לא התייחסנו לסוגים שונים של רצפי נוקליאוטידים הכלולים במאגר זה. כעת ננסה לשכלל את החיפוש גם בנקודה זו. לחצו על clear ונסו כעת להשתמש ב- limits, על מנת לאתר רצפי mrna של.CDK2 באילו הגבלות השתמשתם? כמה רשומות נמצאו? האם נמצאו רשומות מסוג?false positive גם כאשר השאילתא שלכם הינה כללית מאוד,(CDK2[all fields]) - ומעלה מספר רב של רשומות, מציע ממשק NCBI אמצעים נוספים לפילוח הנתונים, באופן שיקל עליכם לנווט בין האפשרויות השונות. בטלו Limits ובצעו מחדש את החיפוש fields].cdk2[all (אל תחזרו באמצעות history לחיפוש שכבר ביצעתם, כיוון שחלק מהפילוחים עשויים לא להופיע.) פילוח של התוצאות לפי קריטריונים שונים, מוצג בחלק העליון של עמוד התוצאות : השתמשו במילון המונחים של http://www.ncbi.nlm.nih.gov/class/minicourses/glossary.cgi?page=print - NCBI על מנת ללמוד מהם הרצפים שיופיעו תחת קטגוריות EST ו- GSS.
489 רשומות הנוקליאוטידים מחולקות לתת חלוקות נוספות: כמה רשומות mrna נמצאו? כמה רשומות נוקליאוטידים ממאגר refseq נמצאו?. היכנסו לרשומות.refseq בעזרת רשימת האורגאניזמים בחלק העליון של העמוד בחרו רשומות של אדם. הסתכלו על ה- accession numbers של הרשומות ועל כותרות הרשומות, ונסו לענות על השאלות הבאות: כעת מהן הרשומות המתחילות ב- NM_xxxxxx? מהן הרשומות המתחילות ב- NT_xxxxxx? מהן הרשומות המתחילות ב- NW_xxxxxx? מהן הרשומות המתחילות ב- NG_xxxxxx? בדקו במקור הבא http://www.ncbi.nlm.nih.gov/refseq/key.html - מה משמעותם של סוגי ה - accession numbers השונים במאגר.refseq (זהו ניסיון להכניס מעט הגיון לשיגעון.) חיזרו לתוצאות המקוריות של החיפוש fields],cdk2[all בחרו בלשונית mrna והגבילו את השליפה לעכבר musculus) (mus באמצעות רשימת האורגאניזמים בחלק העליון של העמוד. שימו לב: בתחתית כל רשומה נכלל גם קיצור שם המאגר, כמסומן ע"י החץ. מאילו מאגרי מידע נשלפו רשומות אלה? האם יש רשומות ממאגרים שונים המתארות אותו רצף? לסיכום קטע זה, נסו באמצעות כל הכלים שלמדתם לחפש מולקולות mrna המקודדות את החלבון CDK2 בבן אדם. כמה transcription variants מצאתם? כתבו את ה- numbers accession של רשומות אלה. דיון ביניים כפי שאתם רואים, כל הדרכים מובילות לרומא. ניתן לשכלל את השאילתות ע"י שימוש במגוון אמצעים: ראשית, ניסוח עצמאי לחלוטין, בתנאי שתקפידו על syntax נכון. במידה שיש לכם ספקות כיצד מתפרשת השאילתא שלכם, אתם יכולים להשתמש ב-.Details לחילופין, ניתן להשתמש ב- Preview/index, לצורך ניסוח שאילתות מורכבות. (יש לזכור ללחוץ על כפתור Clear לפני ניסוח שאילתא חדשה, אחרת מתווספים חלקי השאילתא החדשה בהמשך לשאילתא הקודמת.) לכל מאגר מידע שדות שונים. Preview/index מציג לכם את פירוט השדות המתאים למאגר בו אתם משתמשים בשאילתא הנוכחית. שימוש ב- Limits מאפשר להגביל את החיפוש לחלקים ספציפיים של המאגר. לכל מאגר limits שונים, וחשוב לבדוק אותם. גם אם לא ניסחתם מראש שאילתא משוכללת, מאפשרים אמצעי הגבלה הכלולים בדף התוצאות להתמקד בחתכים מסוימים מכלל הרשומות שנשלפו. בנוסף, ניתן להשתמש ב-, History כדי לשכלל שאילתות קודמות. לעיתים חיפוש אחד אינו מספיק, ויש צורך לשכללו בהתאם לכמות ה- false positives או ה- false negatives שהתקבלו. מומלץ לשלב מספר אמצעים, כדי להגיע לתוצאות טובות יותר תוך זמן קצר יותר. *****
נכיר עכשיו את מבנה רשומת Refseq במאגר נוקליאוטידים. לשם כך היכנסו לרשומה המתארת את וריאנט השעתוק הראשון -.NM_001798 בחנו את החלק העליון של הרשומה, וענו: מהו סוג המולקולה? מה אורכה? מהו ה- number accession לפי?refseq מהו ה- number accession לפי?gi מה השתנה הלילה הזה לעומת שנה שעברה? התאריך אינו תאריך יצירת הרשומה אלא תאריך הגרסה הנוכחית של מאגר.RefSeq מה מספר הגרסה של רשומת refseq הנוכחית? אם תרצו לרשום לעצמכם את ה- accession number של הרשומה, כדי שתוכלו בעתיד לאתר אותה בקלות, באיזה סוג accession number כדאי להשתמש ומדוע? בהמשך מצוטטים המאמרים ששימשו להכנת הרשומה המלאה. האם אלה כל המאמרים הדנים ב -?CDK2 לפי מה נבחרו מאמרים אלה? עברו לחלק Comment (ניתן ללחוץ על הקישור בראש הרשומה). כפי שאתם רואים, מסתמכת רשומה זו על מידע של רשומות אחרות. מה הן? קראו את כל התקציר המתאר את.CDK2 עברו לתיאור תכונות הרצף.Features בראשית חלק זה מובאות הפניות לרשומות מקבילות במספר מאגרי מידע נוספים.(db_xref) נתייחס לכך בהמשך התרגיל. מה המיקום הכרומוסומלי של הגן? מכמה אקסונים מורכב ה- mrna? בין אלה נוקליאוטידים מצוי הרצף המקודד לחלבון?(CDS) מהם שלושת הקודונים הראשונים ברצף? (רמז: לחצו על הקישור (CDS לאילו חומצות אמיניות הם מקודדים? מהו קודון הטרמינציה? חיזרו לרשומה המלאה (הלחיצה על הקישור CDS העבירה אתכם לתצוגה של הרשומה המתארת חלק זה בלבד.) כמה STS מצויים ב- mrna זה? (השתמשו במילון המונחים של - NCBI - http://www.ncbi.nlm.nih.gov/class/minicourses/glossary.cgi?page=print על מנת ללמוד מהם.(STS האם ה- STSs ממוקמים בחלק המקודד לחלבון או בחלק של ה- mrna שאינו מתורגם? מהו הרצף המדויק המקודד ל- poly-a signal והיכן הוא ממוקם? בהמשך הרשומה תמצאו את רצף הנוקליאוטידים המלא וכן את רצף החלבון המקודד ע"י mrna זה. עד כה בדקנו את נתוני הרשומה כפי שהם מופיעים בתצוגת,Genebank שהינה ברירת המחדל של המערכת. עכשיו נכיר תצוגות שימושיות נוספות. בחרו בתפריט Display את האפשרות Fasta כמתואר בתרשים הבא: מה מציגה תצוגה זו? מה ההבדל/ים בין תצוגה זו לתצוגת הרצף בפורמט?Genebank
השימוש בפורמאט Fasta נהוג ברוב הכלים המבצעים השוואות רצפים או ניבוי תכונות שונות ע"ס הרצף, עליהם נלמד בשעורים הקרובים. הציגו את הרשומה בפורמט.Graphics תארו מה מוצג בפורמאט זה. השוו את פורמט genebank ופורמט graphics מבחינת פירוט המידע והקלות בה ניתן לאתר אותו. כפי שאתם רואים, מציגה רשומת Refseq מידע רב ומגוון. האם גם הרשומות המקבילות במאגרים אחרים מציגות מגוון כזה? האם מוצג ברשומות אלה מידע שאינו מוצג ברשומת?refseq הסתכלו על הרשומות מהן מורכבת רשומת refseq שבדקנו. בנוסף, אתרו רשומות mrna נוספות של CDK2 מבן אדם, באמצעות חיפוש חדש או שכלול חיפוש קודם. בדקו את הרשומות שמקורן ב- GeneBank והשוו את הנתונים המוצגים בהם לנתונים שהוצגו ברשומת וב- EMBL.RefSeq (השתמשו גם בתצוגת (graphics סכמו את ממצאיכם בקצרה. עד כה תרגלנו מספר נושאים: דיון ביניים ****** אמצעים שונים לביצוע חיפושים ממוקדים באמצעות ממשק.NCBI הכרת מבנה רשומות נוקליאוטידים שמקורן במאגרים שונים. הכרת אפשרויות התצוגה השונות של רשומה באמצעות ממשק.NCBI כאשר מאתרים רשומה המתאימה לשאלתנו המדעית, הקשור לרשומה זו ומוצג במאגרי מידע נוספים הכלולים בפורטל.NCBI ניתן להשתמש בה כקרש קפיצה לאיתור מידע רב ומגוון חיזרו לרשומת.NM_001798 RefSeq הקישו על הקישור Links בפינה הימנית העליונה של העמוד ובחנו את התפריט הנפתח. (שימו לב: ייתכנו שינויים אם אתם פותחים קישור זה מתוך המסך המציג רשומה זו בלבד או מתוך מסך המציג רשומה זו כחלק מרשימה. אתרו את הרשימה המציעה יותר אפשרויות והשתמשו בה.) אנו נבחן רק חלק מן האפשרויות. מומלץ בחום לבחון אפשרויות נוספות. 1. ראשית, נעבור לרשומות הקשורות לרצף זה במאגר Online Mendelian OMIM Inheritance in Man מאגר המתאר את הגנים האנושיים ומחלות גנטיות הקשורות אליהם. (לא לכל גן מוכרת/קיימת מחלה גנטית.) לחצו על הקישור.OMIM היכנסו לרשומה המתארת את.CDK2 הסתכלו
בחלק :Gene Function אילו קומפוננטות תאיות מפעילות את?CDK2 האם יש קומפוננטות תאיות המעכבות את פעילותו? (זוהי רק "טעימה על קצה המזלג". אתם מוזמנים לקרוא את כל המידע עכשיו או בבית.) עברו לחלק Gene " "Structure ברשומה זו. כמה אתרי ראשית שעתוק נמצאו בגן זה? כמה אקסונים נמצאים בגן זה? חיזרו לראשית הרשומה והקישו על הקישור.12q13Gene map locus הטבלה מציגה גנים הממוקמים בסמיכות ל- CDK2 ומחלות הקשורות אליהם. האם מוצגת מחלה המקושרת לגן זה? CDK2 הינו אנזים חשוב המווסת מספר שלבים במחזור התא. מדוע לא קושרה רשומה זו למחלת הסרטן? מהם הגנים הממוקמים בסמיכות ל- CDK2 על פי הטבלה? (סימנו חלק זה בצבע, כי תצטרכו להתייחס לממצאים אלה בהמשך.) 2. חיזרו לרשומת הנוקליאוטידים המקורית,(NM_001798) הקישו על הקישור למאגר Gene והיכנסו לרשומה המתאימה. מה מספר הזיהוי הייחודי שלה? מאגר Gene מאגד בתוכו מידע רב בכל הנוגע לגן, לתוצרי השעתוק ולתוצרי התרגום שלו. אנו נתמקד במעט מאוד חלקים מן הרשומה. אנא, שוטטו בחלקים נוספים של הרשומה, על מנת לעמוד על מלוא הפוטנציאל הגלום בה. שימו לב: הוא מציג מידע רק עבור גנים מגנומים שעברו ריצוף מעבדתכם עדיין אין מידע. מלא. לפיכך, Gene הינו מאגר-על שימושי ביותר, אך יתכן שדוקא עבור אורגניזם המחמד של הסתכלו במפה המוצגת בחלק.Genomic regions, transcripts, and products מכמה אקסונים מורכב splicing (NP מה מספר הזיהוי של רשומת החלבון של תוצר זה? (מתחיל באותיות?variant 1 איזה אקסון חסר ב-?splicing variant 2 מה מספר רשומת החלבון של תוצר זה? (מקורן של רשומות אלה במאגר.(RefSeq עיברו למפה המוצגת בחלק.Genomic Context אילו גנים נמצאים בסמיכות לגן זה על גבי כרומוזום 12? בדקו את הממצאים המקבילים שמצאתם בעזרת החיפוש במאגר OMIM (הדגשה בצהוב). זהים? כאשר נלמד על,genome browsers תוכלו להמשיך לברר נקודה זו. האם אלה ממצאים עיברו לקישור Probe בחלק העליון של הרשומה מימין. הקישו על אחד מה- probes המופיעים ובחנו את התמונה של כל ה- probes ו-. srna האם יש probe אחד האופייני רק לאחד משני ה-?splicing variants מיהו, לאיזה וריאנט הוא אופייני וממה נובעת הסלקטיביות? חיזרו לרשומת.gene בהמשך הרשומה עיברו לחלק "Genotypes" והקישו על report"."snp Geneview כמה polymorphism) SNPs (single nucleotide מופיעים? מה ההבדל בין אלה המסומנים באדום לאלה המסומנים בירוק? (השתמשו בקישור color legend מימין למפה). באילו אקסונים הם ממוקמים? כעת הציגו את כל ה- SNPs באיזור הגן באילו איזורים מופיעים פחות?SNPs נסו להסביר תופעה זו
חיזרו לרשומת Gene של.CDK2 עיברו לסוף הרשומה לחלק Sequences. Related שימו לב כי הרצפים מחולקים לרצפי נוקליאוטידים לעומת רצפי חלבון. שימוש ברשומת Gene יכול לקצר מאוד את תהליך איתור רצפי הנוקליאוטידים או החלבון שאתם מתעניינים בהם. דיון ביניים ברגע שמצאתם באחד ממאגרי NCBI רשומה אחת המתאימה לשאלתכם המדעית, ניתן להשתמש בקישורים שלה על מנת להגיע למגוון הרשומות המצויות במאגרים השונים, והמכסות תחומים נוספים של ידע חשוב ומועיל. שימו לב: לכל מאגר יש Links להרכב שונה של מאגרים. ניתן כך לעבור בשרשרת מאגרים, הכלולים כולם בפורטל.NCBI ניתן להשתמש במערך הקישורים בין המאגרים השונים של NCBI כדי להתחיל את החיפוש ממאגר עם פחות רשומות (למשל OMIM או,(Gene ובאמצעותו להגיע בפחות קשיים (התמודדות עם ריבוי רשומות) לרשומות הרצפים המתאימות. יחד עם זאת יש לזכור כי מאגר OMIM קיים רק עבור גנים ממקור אנושי ומאגר Gene קיים עבור גנים מ-,model organisms ולפיכך במקרים רבים צריך בכ"ז להשתמש במאגר.nucleotides אם יישאר זמן, נדגים את הקישור ל- Homologene. ****** את השאלות בחלק זה יש להגיש למתרגלים בראשית השיעור הקרוב. ראינו כי רצפי נוקליאוטידים בעלי שם דומה (ורצף דומה) יכולים להיות רצפים גנומיים (אקסונים + אינטרונים) או רצפי mrna ממאגרים שונים. רצפי mrna בעלי שם דומה יכולים להיות תוצרים של אותו גן: Splicing variants שונים או מוטאנטים של אותו,splicing variant ויכולים להיות תוצרים של גנים שונים הדומים מאוד זה לזה (תוצרים של דופליקציות). בתרגיל זה למדנו לאסוף נתונים על רצף מן המידע בגוף הרשומה ומקישורים מרשומה זו למאגרי מידע נוספים. נצלו ידע זה (גם קישורים למאגרי מידע שלא הצגנו בתרגיל) כדי לענות על השאלות הבאות. היכנסו לרשומת הנוקליאוטידים. J03071 באיזה מאגר נמצאת רשומה זו? האם זה רצף DNA גנומי או רצף?mRNA כמה גנים שונים כלולים ברצף זה? מה שמות הגנים השונים ומה מספרי הזיהוי הייחודיים שלהם במאגר?Gene הסבירו כיצד הגעתם למידע זה. מה מיקומו הכרומוסומלי של רצף זה? הסבירו כיצד הגעתם למידע זה. מה סדר הגנים? הסבירו כיצד הגעתם למידע זה. בין אלה נוקליאוטידים ממוקם כל גן?
הסבירו כיצד הגעתם למידע זה. השלימו את הטבלה הבאה : רשומות mrna רשומות חלבון ההבדלים בין מספר (refseq) splicing המקודדות (refseq) של הוריאנטים השונים שם הגן variants את הוריאנטים הוריאנטים השונים של גן זה השונים הסבירו כיצד הגעתם לפריטי המידע השונים (מספיק להסביר עבור גן אחד). האם גנים אלה קשורים למחלות כלשהן? (השתמשו בטבלת הסיכום שהוצגה בהקשר זה במהלך התרגיל, אין צורך להיכנס לכל רשומה.) הסבירו כיצד הגעתם למידע זה. התעייפתם? אנו מאחלים לכם מנוחה נעימה עד השיעור הבא!!