全基因组罕见变异一体化分析工具STAARpipeline

时间:2023-09-12         阅读:

光华讲坛——社会名流与企业家论坛第6568期

主 题全基因组罕见变异一体化分析工具STAARpipeline

主讲人东北师范大学数学与统计学院 李子林教授

主持人统计学院 刘耀午教授

时间:9月15日 下午14:00-15:00

举办地点:柳林校区弘远楼408会议室

主办单位:统计研究中心和统计学院 科研处

主讲人简介:

李子林,东北师范大学数学与统计学院教授,入选国家级高层次人才青年计划。历任印第安纳大学医学院生物统计与健康数据科学系助理教授,哈佛大学生物统计系博士后、副研究员和研究员。本科与博士毕业于清华大学数学科学系,师从美国国家科学院与医学院两院院士林希虹院士。2023年当选为国际统计学会(International Statistical Institute)推选会员(Elected Member)。主要研究方向为高维数据中的统计方法理论和统计遗传学。相关研究成果以第一作者或通讯作者在Journal of American Statistical Association、 Nature Methods和Nature Genetics等国际学术期刊发表。

内容简介

大规模的全基因组测序 (whole-genome sequencing, WGS) 研究对上百万个全基因组进行了测序,发现了近十亿个变异位点,其中罕见变异(rare variants)占比率超过了99%。海量的罕见变异数据在分析上提出了一系列的挑战:首先,全基因组测序数据分析缺乏全面且高效的分析软件和工具。其次,超过98%的遗传变异位于非编码基因组。虽然在识别致病编码罕见变异方面取得了一些进展,但非编码罕见变异分析仍存在巨大的研究空白。最后,虽然多组学数据中的功能注释数据提供了变异的功能性信息,现有的罕见变异关联分析方法尚未有效地利用这些信息。为了解决这些问题,我们开发了名为STAARpipeline的一体化分析工具,专门用于大规模全基因组数据的罕见变异分析。STAARpipeline提供了一个可扩展、灵活且简化的分析框架,实现了分析流程的一体化和自动化。其功能包括全基因组功能注释、常见和罕见变异关联分析、条件分析以及分析结果的汇总和可视化。STAARpipeline中发展了一系列新方法来选择非编码基因组中的罕见变异分析单位,显著地提高了检验功效。同时通过STAAR方法整合多组学功能注释数据,STAARpipeline进一步实现了功能知情(functionally-informed)关联分析,增强了罕见变异分析的功效。本研究为全基因组数据提供了一个高效、高性能的分析工具,突破了全基因组测序数据罕见变异分析的运算和功效瓶颈,有助于加速新药物标靶的发现和精准健康的研究进程。