גישות גנטיות לחקר של תכונות מורכבות באדם שיפמן שגיב
גנטיקה: התרומה של ההורשה לשונות הפנוטיפית שונות גנטית זהות גנטית
קורולציה של שונות ביולוגית עם השונות ברצף ה- DNA aattggaagc aaatgacatc acagcaggtc agagaaaaag ggttgagcgg caggcaccca gagtagtagg tctttggcat taggagcttg agcccagacg gccctagcag ggaccccagc gcccgagaga ccatgcagag gtcgcctctg gaaaaggcca gcgttgtctc caaacttttt ttcagctgga ccagaccaat tttgaggaaa ggatacagac agcgcctgga attgtcagac atataccaaa tcccttctgt tgattctgct gacaatctat ctgaaaaatt ggaaagagaa tgggatagag agctggcttc aaagaaaaat cctaaactca ttaatgccct tcggcgatgt tttttctgga gatttatgtt ctatggaatc tttttatatt taggggaagt caccaaagca gtacagcctc tcttactggg aagaatcata gcttcctatg acccggataa caaggaggaa cgctctatcg cgatttatct aggcataggc ttatgccttc tctttattgt gaggacactg ctcctacacc cagccatttt tggccttcat cacattggaa tgcagatgag aatagctatg tttagtttga tttataagaa gactttaaag ctgtcaagcc gtgttctaga taaaataagt attggacaac ttgttagtct cctttccaac aacctgaaca aatttgatga aggacttgca agaatttca at[t/c]gt aagaggaca ttggcacatt tcgtgtggat cgctcctttg caagtggcac tcctcatggg gctaatctgg gagttgttac aggcgtctgc cttctgtgga cttggtttcc tgatagtcct tgcccttttt caggctgggc tagggagaat gatgatgaag tacagagatc agagagctgg gaagatcagt gaaagacttg tgattacctc agaaatgatt gaaaatatcc aatctgttaa ggcatactgc tgggaagaag caatggaaaa aatgattgaa aacttaagac aaacagaact gaaactgact cggaaggcag cctatgtgag atacttcaat agctcagcct tcttcttctc agggttcttt gtggtgtttt tatctgtgct tccctatgca ctaatcaaag gaatcatcct ccggaaaata ttcaccacca tctcattctg cattgttctg cgcatggcgg tcactcggca atttccctgg gctgtacaaa catggtatga ctctcttgga gcaataaaca aaatacagga tttcttacaa aagcaagaat ataagacatt ggaatataac ttaacgacta cagaagtagt gatggagaat gtaacagcct tctgggagga gggatttggg gaattatttg agaaagcaaa acaaaacaat aacaatagaa aaacttctaa tggtgatgac agcctcttct tcagtaattt ctcacttctt ggtactcctg tcctgaaaga tattaatttc aagatagaaa gaggacagtt gttggcggtt gctggatcca ctggagcagg caagacttca cttctaatga tgattatggg agaactggag ccttcagagg gtaaaattaa gcacagtgga agaatttcat tctgttctca gttttcctgg attatgcctg gcaccattaa agaaaatatc atctttggtg tttcctatga tgaatatag tacagaagcg tcatcaaagc atgccaacta gaagaggaca tctccaagtt tgcagagaaa gacaatatag ttcttggaga aggtggaatc acactgagtg gaggtcaacg agcaagaatt 3.2 מיליארד אותיות של רצף ה- DNA האנושי
פוטנציאל ההשפעה של הגנטיקה הבנה של הבסיס למחלות ותכונות באדם ניבוי של הסיכון לחלות במחלות שונות לצורך טיפול מונע טיפול מותאם לכל אדם בהתאם לתגובה הצפויה לתרופות שונות והסכנה לתופעות לואי
המחקרים בגנטיקה של האדם הצליחו מאד עד עתה בלהסביר את הגורמים למחלות המושפעות מגן אחד... גנוטיפ פנוטיפ סביבה
...אבל רוב התכונות והמחלות הנפוצות מושפעות משילוב של הרבה גורמים גנטיים וסביבתיים גנוטיפ פנוטיפ סביבה
השיטה המסורתית: מחקרי תאחיזה במשפחות גדולות העוצמה נמוכה בגלל שיש קורולציה חלקית בין המחלה לבין כל גן
גישה בעלת עוצמה רבה יותר: מחקר גנטי באמצעות מחקרי אסוציאציה קורולציה בין שונות גנטית והמחלה נורמלים חולים
השוואה בין מחלות מונוגניות למחלות פולגניות פוליגניות נגרמות ע"י סוג השינוי הגנטי האפקט של הגן שכיחות של השינוי הגנטי שיטת הגילוי העדיפה מחלות נפוצות גורמים גנטיים וסביבתיים רבים שינויים קטנים באזורים מקודדים או אזורי בקרה קטן נפוץ או נדיר אסוציאציה מונוגניות מחלות נדירות גן אחד מרכזי שינויים רדיקליים באזורים המקודדים גדול נדיר מאד תאחיזה
Linkage vs. Association Study based on Marker density Resolution Genetic effect* Marker of choice Linkage Families 200-500 5-10 Mb GRR>4 Microsatellites Association Population >300,000 0.005-0.05 Mb GRR<1.5 SNPs *Genotype relative risk (GRR) is the risk of disease for one genotype versus another, for example the risk of AA /AG.
רוב השינויים הגנטיים הנפןצים הם שינויים באות אחת של DNA Single Nucleotide Polymorphism ( SNP ) T A T C G C G T A C A G T A T C G T G T A C A G
SNPs סוגים של סניפים - Exon gene Intergenic region gene rsnp isnp csnp SNP promoters enhancers UTRs Splice sites Synonymous Nonsynonymous
Other types of genetic variations מיקרוסטליטים רצפים חוזרים של שנים שלושה או ארבעה בסיסי DNA single copy variable repeat single copy gttatcttagggctcagtcacacacacacacacacacacacacacacatccaggtattggatcaact gttatcttagggctcagtcacacacacatccaggtattggatcaact שינויים במספר העותקים - variations Copy number (CNVs) במקום שני עותקים של כל אזור לכל כרומוזום יש שונות באוכלוסייה ולחלק מהאנשים יש מספר רב יותר של עותקים הכפלות או מספר קטן משניים חסרים
t tttctccatttgtcgtgacacctttgttgacaccttcatttctgcattctcaattctatttcactggtctatgg c cagagaacacaaaatatggccagtggcctaaatccagcctactaccttttttttttttttgtaacattttacta g acatagccattcccatgtgtttccatgtgtctgggctgcttttgcactctaatggcagagttaagaaattgtag g t a t a c c cagagaccacaatgcctcaaatatttactctacagccctttataaaaacagtgtgccaactcctgatttatgaa cttatcattatgtcaataccatactgtctttattactgtagttttataagtcatgacatcagataatgtaaatc ctccaactttgtttttaatcaaaagtgttttggccatcctagatatactttgtattgccacataaatttgaaga g tcagcctgtcagtgtctacaaaatagcatgctaggattttgatagggattgtgtagaatctatagattaattag g a c aggagaatgactatcttgacaatactgctgcccctctgtattcgtgggggattggttccacaacaacacccacc הגנום האנושי מכיל 3.2 t מיליארד c ccccactcggcaacccctgaaacccccacatcccccagcttttttcccctgctaccaaaatccatggatgctca בסיסי DNA המאורגנים ב- 46 g agtccatataaaatgccatactatttgcatataacctctgcaatcctcccctatagtttagatcatctctagat a כרומוזומים tacttataatactaataaaatctaaatgctatgtaaatagttgctatactgtgttgagggttttttgttttgtt t t t c c c ttgttttatttgtttgtttgtttgtattttaagagatggtgtcttgctttgttgcccaggctggagtgcagtgg tgagatcatagcttactgcagcctcaaactcctggactcaaacagtcctcccacctcagcctcccaaagtgctg בני אדם זהים אחד לשני g ב~ 99.9%, a ggatacaggtgtgacccactgtgcccagttattattttttatttgtattattttactgttgtattatttttaat זאת אומרת ששני בני אדם שונים tattttttctgaatattttccatctatagttggttgaatcatggatgtggaacagccatcctagatatactttg בשלושה מיליון בסיסים tattgccacataaatttgaagatcagcctgtcagtgtctacaaaatagcatgctaggattttgatagggattgt g t g a c a gtagaatctatagattaattagaggagaatgactatcttgaccatcctagatatactttgtattgccacataaa tttgaagatcagcctgtcagtgtctacaaaatagcatgctaggattttgatagggattgtgtagaatctataga ניתן למצוא שינוי בבסיס אחד SNP ttaattagaggagaatgactatcttgaccatcctagatatactttgtattgccacataaatttgaagatcagcc בממוצע כל 600 בסיסים של t g DNA c a tgtcagtgtctacaaaatagcatgctaggattttgatagggattgtgtagaatctatagattaattagaggaga g atgactatcttgaccatcctagatatactttgtattgccacataaatttgaagatcagcctgtcagtgtctaca g c aaatagcatgctaggattttgatagggattgtgtagaatctatagattaattagaggagaatgactatcttgac g הגן הממוצע בגנום האדם הוא בגודל c a catcctagatatactttgtattgccacataaatttgaagatcagcctgtcagtgtctacaaaatagcatgctag g 27,000 בסיסים tשל a c gattttgatagggattgtgtagaatctatagattaattagaggagaatgactatcttgaccatcctagatatac tttgtattgccacataaatttgaagatcagcctgtcagtgtctacaaaatagcatgctaggattttgataggga יש בממוצע SNPs 50 בגן ttgtgtagaatctatagattaattagaggagaatgactatcttgagcaaatatggagggctaactgtattgcat g g g a c a cttccagttcatgagtatgcagtctctctgtttatttaaagttttagtttttctcaaccatgtttacttttcag g a tatacaagactttgacgttttttgttaaatgtatttgtaagtattttattatttgtgatgttatttaaaaagaa
SNPs האם אנחנו צריכים לבדוק את כל הסניפים האלו? מה יקרה אם השינוי הגנטי שמשפיע על המחלה אינו ידוע? אנחנו לא צריכים לבדוק את כולם. אם השינוי הגנטי אינו ידוע אנחנו יכולים לבחון וריאנטים גנטיים אחרים שנמצאים בתאחיזה לא שיוויונית - (LD) linkage disequilibrium עם גורם הממחלה
תאחיזה לא שיוויונית Linkage Disequilibrium (LD) בתאחיזה לא שיוויונית יש קשר לא-רנדומלי בין אללים באתרים שונים SNP 1 SNP 2 p AB p A * p B A A a a B b B b LD measure (Covariance) D = p AB p A * p B
הפלוטיפ Haplotype הפלוטיפ הוא סדרה של אללים המצויים יחד על אותו כרומוזום A a B B C c a b c a b c A Aa Bb Cc C a b c
Linkage Disequilibrium (LD) Emergence of Variations Over Time Variations in Chromosomes Within a Population Common Ancestor Disease Mutation time present
Linkage Disequilibrium (LD) effect of recombination Recombination New Combinations
Normalized Measures of LD D` r Calculation D ' = D D max r = p A p D a p B p b Number of haplotypes if equal 1 Can be used to detect N 3 recombination events N=2 How sample size should be increased (~1/r 2 )
r 2 1.0 0.8 0.6 0.4 0.2 0.0 1.0 0.8 0.6 0.4 0.2 0.0 1.0 0.8 0.6 0.4 0.2 0.0 Low LD regions 1.0 0.8 0.6 0.4 0.2 0.0 0 0.2 0.4 0.6 0.8 1 1.0 0.8 0.6 0 0.2 0.4 0.6 0.8 1 0.4 0.2 0.0 1.0 0.8 0.6 0.4 0.2 0.0 0 0.2 0.4 0.6 0.8 1 Distance (MB) High LD regions 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Ashkenazi Jews Caucasians African American
Haplotype Block or LD Block
Recombination hotspots are widespread and account for LD structure 7q21
Tagging SNPs SNP שמאפשר לנבא את ה אללים בסניפים אחרים (Tag SNPs ) מייצג: SNP =< 0.8 2 r משמש באופן רגיל לבחירה של סניפים מייצגים מאפשר כיסויי טוב של סניפים שאינם נבדקים TagSNPs מאפשרים לנו לבדוק מספר קטן יותר של סמנים עם ירידה קטנה בעוצמה של המחקר אם ה LD בין הסניפים נמוך יהיה צורך לבדוק את רובם או כולם
Linkage Disequilibrium and Tag SNPs Haplotype frequency 52.6% 42.3% 2.2% 1.8% 1.1% SNPs 1 2 3 4 5 AGAGT GCCGT GGGTT TTTAT CGACT AGTGT AGTGT AGTGT AGTGT GCGGT GGATT GCGGT GGATT GCCGT GCCGT GGGTT GGGTT TTAAT TTAAT TTAAT TTTAT CGGCT CGACT CGGCT CGACT 29 htsnps LD blocks and recombination hotspots 250 SNPs 3 genes 100,000 bp
Phase I HapMap project מיליון סניפים נפוצים כל kb 5 ברחבי הגנום נבדקו (עברו ( genotyping ל- 269 דוגמאות DNA מ- 4 אוכלוסיות סניפים נפוצים: כאשר שכיחות האלל הנפוץ פחות Frequency) (MAF -Minor Allele גדול או שווה ל- 5% YRI : Yoruba in Nigeria (30 trios), CEU : Utah with European ancestry (30 trios), CHB : 45 Han Chinease, JPT: 44 Japanese Phase II ENCODE (Encyclopedia of DNA Elements) kb עברו ריצוף וכל הסניפים נבדקו על כל הדוגמאות עוד 4.6 מיליון סניפים עשרה אזורים של 500
Genome-wide association studies
Genome-wide association studies in a nutshell genotyping platforms phenotypes genotypes association testing test statistic (distribution) Replication
Coverage of common SNPs by genome-wide genotyping platforms Barrett and Cardon; Pe er, de Bakker et al., Nat Genet, 2006
Problems in Genome-wide Association - population stratification אסוציאציה לא אמיתית יכולה להיווצר ע"י עירבוב אוכלוסיות אחוז שונה של תתי-אוכלוסיות בקבוצת החולים והבריאים לתתי-האוכלוסיות יש הבדלים בשכיחות האללים ושכיחות המחלה 31
האם אתם יהודים אשכנזים?
Q-Q plot of the test statistic: expected vs. observed Bulk of distribution is on the null λ GC =1.05
Q-Q plot of the test statistic: expected vs. observed Depending on study power, true positives are enriched in tail λ GC = 1.05
בעיית ריבוי המבחנים נניח שאנחנו בודקים מטבע לראות אם הוא מאוזן ע"י זריקה של המטבע עשר פעמים אם הוא נופל על צד אחד יותר מ- 9 (P = 0.010742) פעמים אנחנו מכריזים שהוא מטבע לא מאוזן מה קורה אם אנחנו בוחנים 1000 מטבעות אם אותו קריטריון? אבל הפתרון הפשוט ביותר בונפרוני - Bonferroni (אבל לא בהכרח הטוב ביותר) הוא להשתמש בתיקון בדוגמא שלנו: נשתמש ב P של 0.05/1000 או למשל פסילה של מטבע הנופל 15 מתוך 15 על אותו הצד ) 5- (P=3x10
1900 1920 1940 Rediscovery of Mendel s laws Principles of Linkage Analysis discovered Association between Blood Groups and malignant disease published Association between Blood Groups and malignant disease fails to replicate 1960 1980 RFLPs available for linkage analysis developed 1990 2000 2005 2006 2007 Human Genome Project launched Microsattelite maps for genome-wide linkage analysis developed Risch and Merikangas paper Human Genome Project working draft completed; beginnings of SNP map First Genome-Wide Association Study HapMap launched Genome-wide SNP panels developed HapMap Phase I completed (draft Phase II available)
Known Prostate Cancer Genes, November 2006 Known Breast Cancer Genes, November 2006
Known Prostate Cancer Genes, Fall 2007 Known Breast Cancer Genes, Fall 2007
Genome-wide association results
Contribution of copy number polymorphism to BMI
Combined impact of risk alleles on average BMI