本重点实验室王晓月教授带领的团队与芝加哥大学的Kevin White实验室合作,使用了一种新方法解析GWAS位点调控基因表达的功能。这项研究于10月23日发表在Genome Biology上。文章题目:Systematic identification of regulatory variants associated with cancer risk 他们改进了一种叫做STARR-seq的高通量实验方法,系统性地鉴定了与癌症风险相关的SNP中具有调控基因表达功能的SNP。
文章链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1322-z
全基因组关联分析(genome-wide association studies, GWAS)已经被广泛用于复杂疾病的遗传位点的分析。 然而,GWAS 发现的复杂疾病相关的遗传变异,即单核苷酸多态性(SNP)位点大多位于基因的非编码区,并且同一区域中连锁的遗传变异(SNP)位点可以多达成百上千个,如何从中找到真正与疾病相关的SNP,并从生物学上诠释其功能及其与疾病的关系,是后GWAS 时代的重大挑战之一。
STARR-seq 方法最初由奥地利科学家Alexander Stark发明,可用于在果蝇的全基因组筛查有增强子活性的DNA片段。原理是利用增强子调控靶基因表达不依赖于空间和距离的特性,将增强子克隆在报告基因之后,以增强子本身作为报告基因的一部分,通过测序检测不同增强子的自身表达从而判断不同增强子的活性。本项目的研究团队在此方法基础上进行了改进,使其不仅可以靶向鉴定特定目标DNA片段的调控活性,还能特异地比较含有SNP两种基因型的片段活性的差异,因此可以用于大规模的鉴定影响调控活性的SNP位点(下文称为调控型SNP)。
研究团队运用此方法,从10673个位于GWAS癌症风险相关区域的SNP中鉴定出70个调控性SNP位点。与DNA元件百科全书 (ENCyclopedia Of DNA Elements, ENCODE)的数据比对发现,这些位点在转录因子结合区域富集,并更有可能破坏转录因子结合。这些证据提示它们可能通过影响其所在区域结合转录因子的能力,从而改变该区域的调控活性。研究团队还对其中两个SNP进行了深入的研究。一个是乳腺癌风险相关的SNP rs11055880,发现它在一个远程作用的增强子中,能调节ATF7IP的基因表达。另一个是位于PDE4B内含子区域的儿童白血病风险位点rs12142375,发现它能调控PDE4B基因的表达,其中G等位基因对应较高的增强子活性,白血病患者中的基因数据也证实了这一调控趋势。
在国家自然科学基金,青年千人项目,中国医学科学院医学与健康科技创新工程,国家重点实验室经费,基础所科研启动经费等项目的资助下,王晓月教授与芝加哥大学的Kevin White教授等合作研究,建立了大规模鉴定调控型SNP的筛选分析方法,有助于今后解析非编码区变异的生物学功能。本研究所发现的癌症风险相关的调控型SNP,也有助于理解癌症风险的复杂调控机制,未来可能帮助癌症的风险评估。
【摘要】Background: Most cancer risk-associated single nucleotide polymorphisms (SNPs) identified by genome-wide association studies (GWAS) are noncoding and it is challenging to assess their functional impacts. To systematically identify the SNPs that affect gene expression by modulating activities of distal regulatory elements, we adapt the self-transcribing active regulatory region sequencing (STARR-seq) strategy, a high-throughput technique to functionally quantify enhancer activities. Results: From 10,673 SNPs linked with 996 cancer risk-associated SNPs identified in previous GWAS studies, we identify 575 SNPs in the fragments that positively regulate gene expression, and 758 SNPs in the fragments with negative regulatory activities. Among them, 70 variants are regulatory variants for which the two alleles confer different regulatory activities. We analyze in depth two regulatory variants—breast cancer risk SNP rs11055880 and leukemia risk-associated SNP rs12142375—and demonstrate their endogenous regulatory activities on expression of ATF7IP and PDE4B genes, respectively, using a CRISPR-Cas9 approach. Conclusions: By identifying regulatory variants associated with cancer susceptibility and studying their molecular functions, we hope to help the interpretation of GWAS results and provide improved information for cancer risk assessment.