“我就是那个统计学上渺小到无关紧要、但没人可以抹去的1%。”这句出自《Gattaca》的经典台词让无数影迷泪目。
《Gattaca》电影海报
这部22年前上映的科幻电影,讲述了这样一个故事:不久的未来,科技的力量胜于一切,基因决定着命运,有基因缺陷的主人公追逐梦想的故事。虽然人和人基因组序列的差异不到1%,但人类的外貌、性格和疾病等正是由这1%的基因差异导致的。虽然电影中探讨的基因决定论目前仍是生物学界辩论的主题,但对于基因的“测定”与“解读”是近些年生命科学领域最热门的一项研究。
实际上,人类对于生命科学的热情从20世纪中叶就已经开始。1990年,“人类基因组计划”的提出标志着生命科学进入了一个新纪元,而电影所设定的那个“未来”,如今却已然近在咫尺。
人类基因组计划的决心不亚于“把人送上月球”,但它是一项跨国跨学科的复杂工程。上个世纪90年代,几位科学家代表中国承担了人类基因组计划的1%工作,而中国也成为了“人类基因组计划”的第六个参与国。1999年,他们成立了中国第一家基因组学研发机构——华大基因。
2019年,是中国参与“人类基因组计划”20周年,也是华大基因成立的20周年。
解读“生命奥妙”征程中的困惑
华大基因秉承“基因科技造福人类”的愿景,以推动生命科学研究进展、生命大数据应用和提高全球医疗健康水平为出发点,基于基因领域研究成果及精准检测技术在民生健康方面的应用,致力于加速科技创新,减少出生缺陷,加强肿瘤防控,抑制重大疾病对人类的危害,实现精准治愈感染,全面助力精准医学。
如今的基因测序已经走入了寻常百姓家,技术的力量让测序的时长不断压缩、价格也越来越亲民。然而,在基因测序的流程中,需要庞大的算力支持。从某种意义上说,生命科学的研究竞赛,很多时候已经演变成一场算力的比拼,甚至如今已经普及应用的产前检测,肿瘤检测等医疗检测的背后也是大量的算力支持。基因测序对算力的需求更大,且往往是波动的,一段时间的消耗量大而一段时间又变小。同时,对于不同生物的基因组,需要的算力也不同,传统的数据中心计算集群无法满足快速的扩缩容。
具体到华大基因,过去计算资源比较紧张,在使用峰值时,任务经常需要排队等候;同时科技服务有很多复杂基因组,客户需要借助不同规格的计算资源,所以,“上云”成了华大基因的必经之路。
基因的“云端”之旅
华大基因清晰地意识到,只有云计算才能够应对以上的种种挑战。此后,经过反复的调研和综合细致的考察,华大选择了华为云。
早在2018年,针对基因测序行业的困难与挑战,华为云推出了以Kubernetes为基础的基因容器服务GCS(Gene Container Service)。据悉,GCS将基因测序和容器技术完美结合,是对基因企业来说“更省、更快、更轻松”的云科学计算平台。
借助于华为云GCS服务,以及华为云专门为华大基因的常用软件进行了一系列优化,通过46人/天的驻场时间,60人/月的工程师远程支持,15+新特性的研发…..双方打通上云流程,目前,双方已完成超过300万核时计算,平稳运行超过100天。此外,环境部署从原来的3-5天缩短为20分钟; 应对业务的波动实现了资源的按需调度使用;高并发释放2万核资源池;灵活的弹性大大节约了成本。
GCS还提供了全自动化测序分析能力,其亮点体现在:
GCS提供了生物信息流设计器,再复杂的业务也可以编排到一个流程中,一键搞定测序任务;
针对国内生信人设计的流程控制语法,结构简练、易懂,既满足了流程编写的易用性,同时也保证了流程迁移的方便性;再次,用非常直观的流程热力图的方式随时了解测序进展,精确掌握资源消耗走势,指导优化方向;
可根据判断条件选择执行分支,从而满足企业复杂流程的管理的需要。
赋能基因行业,华为云在路上
除了创新的华为云GCS服务,针对基因行业的普遍痛点,华为云打造了完整的基因测序解决方案,该方案基于“标准架构+持续创新”的思路,拥有诸多亮点。
华为云基因行业解决方案全景图/来源:华为云官网
具体来说:
在数据收集阶段,提供了多通道完成本地-云和云-云间的数据交互,实现OBS最低0.033元/GB/月的低成本、可达4个9可用性、11个9持久性的3AZ特性,提供OBS-Browser、obsutil和SDK等多种配套工具,适配Windows/Linux操作系统,可与本地业务流无缝对接,基于公有云内网交付一站式传输,多级防护,访问隔离。
在测序分析阶段,公有云HPC可无缝移植本地IDC架构,提供高性能的计算实例和简化存储流程,GCS(基因容器服务)提供一键式生信分析平台,支持普通任务+GPU任务混合调度、支持Spark等加速软件、支持OBS、SFS、EVS存储的容器化挂载,流程设计器轻松可视化设计复杂流程、提供资源消耗热力图和标准流程或自定义流程, 提供秒级弹性伸缩能力、按需按秒计费、支持任务亲和性调度,自动释放闲置资源。
在数据交付阶段,OBS提供了快速交付通道。POSIX功能可将OBS直接挂载至测序分析平台,平台可直接写入分析数据,华为云内网传输,大带宽让客户获取数据后可直接开展分析,提供多种配套工具,适配Windows/Linux操作系统、工具一键式完成子账户数据访问权限配置;上传下载提供MD5校验、保证数据的安全可靠。
专注在底层技术上的持续创新、联合顶尖企业共同建设整个基因技术生态决心。华为云持续为基因行业赋能,为推动人类基因的蓝图实现打造了一个又一个鲜活的实践案例。
写在最后:未来已来
人类对1%的探索征途才刚刚开始。笔者相信,不远的未来,解读基因密码,人类或许能够找出生命的出路,让科技造福人类。华为云将为基因测序铺好“上云”的跑道,助力基因测序行业腾飞。