本报首页 版面概览
往期回顾
   
当前:12版(2024年07月26日) 上一版 下一版
华大基因发布基于大语言模型的新方法
助力罕见遗传病快速诊断

       目前全球有2.63亿~4.46亿罕见遗传病人群,其中约半数的罕见病疑似病例未得到诊断,而已确诊病例的平均诊断周期约为5~6年,最长的甚至要等待数十年。

       国际罕见病联盟的第二个十年计划(2017—2027)的首要目标就是“让所有罕见病患者在就诊后的一年内获得精准的诊断”。基因测序技术的临床应用,可以使一些分子机制已知的罕见病的检测周期缩短至数周。然而要大规模、快速而准确地从海量的基因组变异中识别出致病因素,仍然是一个挑战。以基因检测大数据为基础,AI算法为核心的智能化筛选工具的开发,正在加速相关罕见病的诊断进程。

       AI在罕见遗传病方面的进展

       在过去的十年里,人工智能(AI)在罕见遗传病的致病基因和变异筛选方面取得了显著进展。这些方法主要利用语义相似性关联患者的表型与已知的致病基因,结合变异位点的注释信息构建评分或预测模型,实现对候选变异的过滤及排序。

       大语言模型的最新进展,为罕见病的分析解读提供全新的思路。如近期沙特阿拉伯阿卜杜拉国王科技大学和美国费城儿童医院的两个研究团队先后评估了大型语言模型在罕见遗传病诊断中进行基因优先排序的实用性。

       华大基因AI团队开发出新方法

       为了持续提高遗传病分析解读的水平,华大基因AI团队在近期的研究工作中首次应用微调大语言模型来识别罕见遗传疾病的致病变异,开发了大语言模型驱动的新方法GeneT。

       该方法利用了公开数据构建的数万例阴阳性病例作为训练数据集,将基于资深遗传病分析专家们解读思维链构建的提示词作为模型微调的逻辑基础,引导基础大语言模型学习罕见遗传病致病变异筛选的能力。

       GeneT在模拟样本和真实临床样本中分别达到99 和98 的致病变异召回率,同时分析效率提升了20倍。这一成果有望替代传统表型驱动的筛选方法,促进罕见遗传病的研究和临床应用,帮助广大患者群体获得精准诊断和治疗。(据四川省国际医学交流促进会微信公众号)