亚星游戏

国度生物信息中心合作颁布面向流感病毒的基因组说话模型Influ-BERT

近日,国度生物信息中心正式颁布了面向流感病毒的基因组说话模型Influ-BERT。该模型基于Transformer架构,针对流感病毒基因组特点进行了深杜着化,为流感病毒亚型鉴定、致病性预测蹬爪用提供了一种高效、智能的推算解决规划。

甲型流感病毒拥有宿主领域广、抗原变异频仍等特点,对全球公共卫生组成持续威胁。传统的亚型鉴定步骤在处置低频亚型或片段缺失数据时存在局限性。为此,钻研团队网络并整合了约90万条流感病毒基因组序列构建专用语料库,以Transformer架构为主题,开发了定造化的Byte Pair Encoding(BPE)分词器,并针对词表大幼进行专门优化。通过执行领域自适应预训练与工作特定微调的分阶段战术,Influ-BERT成功添补了通用基因组模型与流感特定领域知识之间的语义天堑,实现了对流感病毒基因组的精准建模。

在机能评估中,Influ-BERT展示出优于传统的机械进建算法和通用基因组大模型的表征进建能力,实现了低频亚型自动化精准鉴别。此表,钻研团队进一步拓展了模型的利用天堑,将其成功利用于多种呼吸路病毒(如SARS-CoV-2、鼻病毒、呼吸路合胞病毒)的分辨、致病性预测以及职能基因鉴别等。通过引入滑动窗口扰动分析发现Influ-BERT可能自觉聚焦于拥有重要生物学意思的位点。这批注模型在无人为标注的情况下,可能捉拿到流感病毒基因组的生物学职能约束。

该钻研成就以“Influ-BERT: A Domain-Adaptive Genomic Language Model for Advancing Influenza A Virus Research”为题,在学术期刊Briefings in Bioinformatics正式颁发。国度生物信息中心宋述慧钻研员和巴西科学推算国度尝试室(LNCC)Ana Tereza Ribeiro de Vasconcelos教授为共同通讯作者,国度生物信息中心硕士钻研生叶荣业与李论副钻研员为共同第一作者。钻研工作获得国度重点研发打算、“一带一路”国际科学组织同盟结合钻研合作专项、国度天然科学基金面上项目、巴西里约热内卢州钻研赞助基金会、巴西国度科学技术发展委员会的支持。

亚星游戏·yaxin222(中国官网)_亚星注册登录

Influ-BERT工作流程图

论文链接


附件下载:
【网站地图】