您现的位置:首页 > 数据库检索 > 中文会议 

面向复杂性状遗传性缺失的关联分析方法研究

加收藏
  • 【题名】:面向复杂性状遗传性缺失的关联分析方法研究
  • 【年份】:2019
  • 【作者】:郭颖婕
  • 【关键词】:全基因组关联分析  单核苷酸多态性位点  遗传性缺失  多位点关联分析  上位效应  基因-基因相互作用
  • 【摘要】:复杂性状作为一种受多个微效基因和环境共同控制的性状,其遗传机理研究一直是遗传学的热点与难点。复杂性状的研究在人类复杂疾病的预防、诊断和治疗、以及改良作物农艺和品质性状、选育优良品种中都发挥着至关重要的作用。随着人类及常见动植物基因组测序工作的相继完成,全基因组关联分析方法(genomewide association studies,GWAS)成为当下研究基因与复杂性状关联性最重要的策略与工具之一。但对大多数复杂性状而言,由全基因组关联分析确定的关联位点只能够解释相应疾病遗传方差的5%到30%,这一现象被称为"遗传性缺失"。已有研究表明,导致该现象发生的主要因素包括:1)单位点分析统计效力不足;2)缺乏对基因之间相互作用以及基因-环境相互作用的分析;3)罕见变异对性状的影响尚不明晰。基于此,本文以单核苷酸多态性(single nucleotide polymorphism,SNP)数据为数据材料,从上述1)和2)两个关键因素出发,对多位点关联分析、上位效应检测以及基因-基因相互作用等计算问题进行深入研究,为解决“遗传性缺失”提供新的思路和方法。具体内容包括以下四个方面:(1)提出基于混合线性模型和稀疏组Lasso的多位点关联分析方法为解决传统GWAS中单位点关联分析统计效力不足的问题,提出一种基于混合线性模型和稀疏组Lasso的多位点关联分析方法。首先,针对传统单一位点检测方法中存在的多检验校正导致的大量位点无法通过严格阈值、以及无法利用位点之间的关联性两个弊端。将多元线性模型引入关联分析,通过同时建模多个位点与表型之间的关联性,充分利用多个位点的联合信息来提升方法统计效力。其次,针对数据中存在的种群结构等混淆因素导致方法假阳性升高的问题,通过在线性模型中显式将混淆因素建模为随机效应项,更有针对性地消除系统误差对方法精度的影响。最后,通过使用稀疏组Lasso方法优化求解模型,使模型具有基因层面与SNP层面的双重稀疏性。实验结果表明,该方法在可以有效降低混淆因素造成的假阳性,提升在性状预测及关联位点选取方面的准确性,成为有力的关联分析工具。(2)提出基于因子分解机的上位效应关联分析方法从SNP数据层面研究变异位点之间的相互作用关系(即上位效应)被认为是解决“遗传性缺失”问题的可行性方案之一。现有方法中,基于穷举的上位效应检测策略导致计算量随着作用关系涉及位点数目的增加呈幂级增长。而基于随机或启发式的检测方法会因优化目标的不同导致上位效应的丢失。如何在考虑所有位点组合的情况下降低方法的计算复杂度,是上位效应检测的一个发展方向。基于此,本文提出一种基于因子分解机的上位效应检测方法。首先,通过独热编码对基因型数据进行稀疏化,获得等位基因层面对上位效应遗传机理的解释;其次,利用因子分解机学习每个向量在隐空间的嵌入向量表示,并利用两个特征之间嵌入向量的内积表征上位效应的作用强度。因子分解机可以在稀疏数据上有效学习交互特征的作用关系,在线性时间复杂度下完成2阶上位效应检测。实验结果表明,本文提出的基于因子分解机的上位效应检测方法可以高效、准确地检测互作关系。(3)提出质量性状下基因-基因相互作用的关联分析方法变异位点层面的相互作用研究往往会带来组合爆炸、统计效力低等问题。近年来,基于基因整体(即将一个基因中的所有SNP看做一个整体)的基因互作研究成为GWAS中的又一热点内容。本文提出一种基于距离相关系数和置换检验策略的基因-基因相互作用检验方法。首先,利用距离相关系数对非线性交互作用较强的检测能力,以及对两个交互向量维度不设限的优势,构造表示2组SNP在疾病样本与对照样本中相互作用差异的统计量来表征基因相互作用关系的强度。所设计统计量对基因之间的互作形式没有限制,可以使方法具有更好的泛化能力;其次,针对本文所设计统计量经验分布未知的问题,利用置换检验策略近似其分布,从而得到基因互作强度的显著性指标。实验结果表明,本文所提出的方法显著优于其它方法,可以有效准确地检测基因-基因之间不同形式的相互作用关系。(4)提出数量性状下基因-基因相互作用的关联分析方法数量性状取值在群体内个体间呈现连续性。研究与人体内脂质水平相关的遗传变异对于理解心脑血管疾病的致病机理至关重要;而植物的开花时长、粒重等也与优良品种的选育息息相关。但目前的研究中,针对数量性状下基因互作的研究十分有限。因此,提出一种基于U统计量和集成学习的检验方法,用于检验数量性状下基因的交互作用。首先,针对互作中大量存在的非线性关系,选取集成学习模型作为学习算法,其中集成学习的基分类器选用树模型,充分捕捉数据中不同形式的作用关系的同时保证模型的泛化能力;其次,通过采用使预测结果具有U统计量渐近正态性质的重采样策略,设计用于表征互作关系强度的统计量。实验结果表明,本文提出的方法可以有效检测数量性状下基因-基因之间不同形式的相互作用关系。
  • 【会议名称】:博士
  • 【类别名称】:郭茂祖,刘晓燕
  • 【载体】:哈尔滨工业大学
  • 【会议地点】:2019
相关文献
基于Laplace小波和MP算法信道特性分析方法研究
与科研课题相结合“材料现代分析方法”课程课堂教学新模式研究
新课改下课堂教学方法与手段有效研究
基于层次纤维丛空间流网络关联模型与算法研究——以首都核心区重要企业供销链关联实证分析为例
分析师现金流量预测与目标价格准确之间相关研究
删失指标随机缺失数据下局部拟似然方法研究
平台互补者产品开发策略研究——基于信号传递和合法理论分析
研发跳跃与运营效率关系研究——环境动态、环境合宜以及认知复杂调节效应
创业网络对企业创业影响机制研究——基于传统和新兴产业比较分析
复杂环境下植物病害叶片图像分割方法及其应用研究
获取此文方式
登录后才能存到网盘,
请登录
下载请求:
   

说明:点击”存到网盘“按钮即收取费用,重复点击不收费,如果下载失败,我们会自动转为文献传递方式处理,稍侯请关注您网盘上该文献的信息,从网盘上下载该文献不用重新付费。