1月30日,百度研究院宣布,将向各基因检测机构、防疫中心及全世界科学研究中心免费开放线性时间算法 LinearFold 以及世界上现有最快的 RNA 结构预测网站,以提升新型冠状病毒RNA空间结构预测速度,从而助力疫情防控。据百度研究院科学家透露,LinearFold算法可将此次新型冠状病毒的全基因组二级结构预测从55 分钟缩短至27 秒,提速 120 倍,节省了两个数量级的等待时间。
防控疫情,众志成城。人工智能技术正被应用到疫情防控中来。几天前,百度宣布成立总规模3亿元疫情及公共卫生安全攻坚专项基金,用于支持新型冠状病毒等新疾病的治愈药物筛选、研发等一系列抗击疫情工作。同时提供人工智能技术支持,配套亿级计算资源,助力疾控机构、科研院所等研究单位进行研发提速。
本次可大大加快 RNA 结构预测速度的LinearFold算法,百度于2019年7月首次提出。该算法使得整序列、整基因组的 RNA 结构预测成为可能,也是 RNA 结构预测领域 40 年来第一次重大提速。这项工作发表于生物信息学顶级会议 ISMB 2019 和生物信息学权威杂志 Bioinformatics,受到了诸多业内专家的高度评价。
针对此次新型冠状病毒的基因组(长达 3 万个碱基),采用该算法,27秒就可以预测其结构。相较于经典算法,现在只需不到半分钟就可以拿到病毒的结构资料,提升基因检测、疫苗研发等科研中心的工作效率,让病毒的研究及疫苗开发速度快速提升。
此次引起武汉肺炎的新型冠状病毒(2019-nCoV)与“非典”病毒、艾滋病毒、埃博拉病毒、流感病毒一样,都属于RNA病毒,其单链结构导致病毒更容易变异、不易开发疫苗。与2003年的“非典”病毒相比,新型冠状病毒同时具有潜伏期长的特点,并且其潜伏期仍具有较高传染性,防控工作成为与“时间”赛跑的竞速赛。
RNA 序列有丰富的空间结构,而这些结构能决定 RNA 的功能,进而帮助设计分子药物和分子检测仪。传统上,RNA 二级结构预测需要三次方时间复杂度的算法,也就是说,如果序列长度翻一倍的话,就要付出 8 倍的计算时间,这对于 RNA 病毒基因组这样的超长序列(例如艾滋病毒有约1万个碱基,埃博拉病毒有约2万个碱基)需要很长的等待时间。而冠状病毒(包括非典病毒和这次的新冠病毒)的基因组又是所有 RNA 病毒里最长的,长达 3 万个碱基,最快的经典算法也需要 55 分钟。百度LinearFold 算法仅需 27 秒就能解出新型冠状病毒全基因组的 RNA 二级结构,对科学家深入了解武汉肺炎基因组的性质以及设计针对性药物提供了有用信息。
与此同时,百度开放 LinearFold 网站给全世界科学家免费使用,较同类网站相比,在RNA 结构预测速度和序列长度方面,该网站都具有明显优势,在预测速度上无出其右,而且能处理的最长序列长度达 10 万碱基,能满足对RNA病毒全基因组结构预测的要求。
新型冠状病毒感染的肺炎疫情消息牵动着每个人的心,随着抗击行动的不断深入,百度先后上线了百度APP“抗击肺炎”频道、“在线问医生”服务免费通道、疫情相关关键词新闻聚合页面、开通辟谣专区、疫情实时大数据报告以及百度地图“发热门诊地图”等举措,百度旗下多款等产品纷纷加入其中,全方位助力抗击疫情。
如有需RNA结构预测算法和技术支持的科研单位、防疫部门等,可联系百度研究院该项目专用邮箱RNA@baidu.com。抗击疫情,众志成城,中国在行动!