近日,国际顶级学术期刊《Nature Communications》(IF 12.353)发表了第四范式科学家王嘉磊题为《Discovering de novo peptide substrates for enzymes using machine learning》的论文。该论文提出了一种通过联合人工智能和生物化学手段来快速优化具有特定生化机能的肽链的通用方法,该方法可大幅提高肽链的发现速度。
肽由于其无与伦比的活性和多样性,对人类近代医学发展起到了关键作用,因此发现和合成具有特殊性能的肽一直是生物化学领域的重点研究方向,而时下火热的人工智能技术则为该研究方向提供了新的“攻坚”武器。
该论文中提及通过采用迭代式的机器学习来加快肽链发现的过程:一个机器学习模型读入历史实验数据并能对任意一种新的肽链结构作出预测;基于贝叶斯优化的搜索算法将会发现最有潜力的肽链以供合成和实验验证;新的试验结果又被用来训练更新机器学习模型;该过程不断重复直到发现目标为止。
相比传统的基于变异进化的搜索方案,机器学习模型具有更强的导向性,和贝叶斯优化这种高效的搜索策略联合,整体发现速度比传统进化方案有数量级的提升。基于此方案设计的系统来发现可用作蛋白质标记的正交肽受体,发现命中率高达30%,远高于变异进化方案的3%和随机搜索的0.001%。此前有报道称,哈佛医学院曾花费一年多的时间找到一种肽链。而基于此方案设计的系统则在一年多的时间内发现了三百多种肽链,大幅提高肽链的发现速度。基于论文阐述方案的通用性,该系统可被广泛应用到生物化学的肽优化问题中。
《Nature Communications》是国际顶级学术期刊《Nature》发行的子刊,其目的在于发布颇具综合性并代表某一领域重大进展的研究论文。作为国际“综合性期刊”领域的顶级杂志,该刊物内容涉及自然科学所有领域,发表的论文极具科研及应用价值,为各领域的创新发展提供了重要的参考意义。在最新发布的2017年科学期刊引用报告(JCR, Journal Citation Reports)中,《Nature Communications》位列全球多学科综合性期刊的第3位,仅次于《Nature》与《Science》。