随着我国人民生活水平的提高,人们对医疗保健的需求也在不断增长,这也为技术创新、跨界融合以及商业模式创新提供了源源不断的新动力。基因行业在这种时代的大背景下应运而生,并且已经在产前检测、肿瘤检测、药物研发等精准医疗领域发挥着重大的作用。
基因技术被认为是改变未来的技术之一,也是开启生命数字化的基石。正是基于这一点,具有前瞻性的公司在探索生命数字化,用个体化的基因数据去精准掌握个体健康状况,制定干预措施,指导个体保持良好的健康状态。
华大基因就是这样的公司。华大集团成立于1999年,是全球领先的生命科学前沿机构。秉承“基因科技造福人类”的使命,怀抱“健康美丽,做生命时代的引领者”的愿景,华大集团以“产学研”一体化的发展模式引领基因组学的创新发展。
基因测序是测序仪将不可视化的生物信息转换为可视化的文本信息,依托计算、存储和网络等IT资源,利用生物信息算法对文本信息进行分析和研究。这时一个强有力的IT基础设施必不可少。华大基因与华为云展开积极合作,顺利实现上云,实现了自动化测序分析能力。
云端基因测序
随着生命科学技术的发展,基因测序也呈现了新的发展特征。比如标准化,基因测序需要确保其结果的严谨和可重复;行业规模化,基因测序技术已广泛应用于医疗、农业、食品等多个领域,未来将呈现井喷式增长;平台化,测序公司除了面向科研单位、制药公司和医疗机构提供服务外,还可为保险、农业、IT等多个行业提供增值服务;亲民化,测序技术不断更迭,成本呈现超摩尔定律的下降,从“天价”下降至千美元,普通消费者均可享受技术红利。不过这些变化也给基因公司的IT建设带来了极大的挑战。
比如如何在高峰快速响应最终客户?测序业务一般为项目型,有明显淡季和旺季之分,旺季业务量可能是淡季的10倍以上,本地资源不足以支撑峰值资源需求。
如何轻资产运营?按全年均值/峰值配置IT资源,一次性投入大、固定资产投入高、总成本高、建设周期长且出现资源闲置,容易出现资金链断链影响公司整体运营,且3-5年后老旧设备需更新换代。
如何提升解读效率?大部分业务软件开源,软件运行过程中未匹配合适的IT资源,导致相同业务流的资源负载不均衡,最终导致IT资源浪费、有效利用率低下,从而影响总体成本竞争力,如30X的WGS测序耗时从6小时到40小时不等,测序分析耗时长。
如何快速共享、可靠存储和挖掘数据潜在价值?基因测序部分业务依赖大量样本数据,数据积累过程中需存储设备高可靠,且一定时间内无数据访问需求,因此数据的存储成本和管理成本日益凸显,数据存储的投入产出比较低。
从以上挑战,我们可以看到采用云的IT资源交付形式对于基因公司而言可谓是“雪中送炭”。基因测序分为数据收集、测序分析(基因转换、基因拼接、基因比对、基因注释)、数据交付(数据归档/分发)等阶段对于IT资源规格的需求也是多样化,有的阶段注重算力分析,有的阶段注重可靠存储。
此外,基因公司的不同发展阶段也对IT架构有着不同的需求,起步阶段是单点服务器,企业成长期是集群部署,市场业务扩张期则是本地集群与云的混合部署。作为一个新的行业,基因测序的IT人员匮乏,专业的人做专业的事,IT建设应该交给专业的人负责。
在基因测序的流程中,需要庞大的算力支持。从某种意义上说,生命科学的研究竞赛,很多时候已经变成了一场算力的比拼。基因测序对算力的需求都是波动的,同时对于不同生物的基因组,需要的算力也不同,这就会牵扯到计算集群的扩缩容,但传统的线下计算集群无法实现快速扩缩容,这也凸显了云计算的便利性。总之,业务上云已经成为当下基因公司的必然选择。
具体到华大基因,过去计算资源比较紧张,在使用峰值时,任务经常需要排队等候;同时科技服务有很多复杂基因组,客户需要借助不同规格的计算资源,所以云计算提供的灵活性是最好的选择。经过选型,华大基因最终选了华为云。
华大基因牵手华为云
2018年,华为云全球首家推出了以Kubernetes为基础的基因容器服务GCS,基于轻量级的容器技术,结合大数据、深度学习算法,为测序厂商提供了灵活可定制的测序流程、秒级可伸缩的高可靠资源和便捷一站式用户体验,让基因测序数据的计算更省、更快、更轻松。
借助GCS,华大基因打通了上云流程。目前华为云与华大基因完成超过300万核时计算,平稳运行超过100天,实现了环境快速部署;按需使用,应对业务波动;高并发,2万核资源池;弹性释放,节约30%成本;保留用户习惯,兼容SGE命令行。
GCS服务为华大基因提供了全自动化测序分析能力,通过生物信息流设计器,再复杂的业务也可以编排到一个流程中,一键搞定测序任务;针对国内生信人设计的流程控制语法,结构简练、易懂,既满足了流程编写的易用性,同时也保证了流程迁移的方便性;流程热力图提供非常直观的方式,随时了解测序进展,精确掌握资源消耗走势,指导优化方向;支持条件判断,可根据判断条件,选择执行分支,满足企业复杂流程的管理的需要。
华为云基因测序解决方案提供完整的测序流程细粒度管理能力,同时提供云上云能力,便于用户定制领域云平台。此外,还提供业界主流第三方引擎编排能力,如Cromwell、SGE等。
华为云基因测序解决方案架构/来源:华为云官网
具体到基因测序,在数据收集阶段,华为云基因测序解决方案提供多通道完成本地-云和云-云间的数据交互,实现低成本、高可靠、一站式传输、多级防护、访问隔离。华为云提供云专线(DC)、数据快递服务(DES)、对象存储迁移服务(OMS)和云迁移服务(CDM)等多种传输服务,可实现本地机房-公有云和公有云-公有云的数据交互,同时提供API、SDK和第三方工具等帮助业务人员设置存储空间访问策略、MD5一致性校验和账户管理等,保证交互过程安全可靠、简单易用和数据一致。
在测序分析阶段,华为云基因测序解决方案公有云HPC可无缝移植本地IDC架构,提供高性能计算实例、简化存储流程。华为云提供了提供C3(通用计算增强型)、M2(内存优化型)、H1(高计算型Ⅰ代采用10GE网络)、H2(超高计算型Ⅱ代采用100G InfiniBand网络)高计算型等规格的ECS计算实例,匹配不同的测序分析流程对计算和存储的配比需求;按照专属物理服务器方式提供卓越的计算性能,无虚拟化损耗,具备良好的性能优势,用户可通过管理控制台实现裸金属服务器的自动化发放,满足组装/拼接业务对大内存节点的需求。
此外,GCS(基因容器服务)提供一键式生信分析平台,支持多资源混合调度、简单易用、精细化控制资源利用率。云容器引擎(CCE)和云容器实例(CCI)支持多种资源(计算、存储和第三方软件)混合调度,帮助业务全流程容器化改造,同时可精细化控制资源利用率和一键重现历史分析流程
GCS还提供私有云版本,线下实现全部线上功能,线上线下功能和环境一致,用户使用习惯一致;天然打通线上线下形成容器混合云,容器镜像自动同步,资源、应用统一管理运维;单集群超大规模,满足客户超大规模数据中心诉求;独立解耦,不绑定底层基础设施,广泛支持各类虚拟化方案:VMware、OpenS tack、FusionSphere等;支持独立的租户系统,并可与客户租户系统对接;3种容器网络方案:Overlay L2,Underlay OVS,Underlay IPVLan,同时兼容Calico,全面覆盖各类容器网络场景;全面的运维体系,监控、日志持久化存储,告警对接用户告警系统(SMTP、SMS),7乘24小时专业运维支持。
在数据交付阶段,华为云基因测序解决方案提供快速交付高速通道,简化操作,安全可靠。华为云提供云硬盘(EVS)、弹性文件服务(SFS)和对象存储服务(OBS)等多种类型的云存储服务,通过多级可靠性架构,保障数据持久性高达99.9999999999%(12个9),业务连续性高达99.995%,其中对象存储提供标准、低频和归档类型,存储成本最低可达0.033元/GB/月。
持续赋能行业
如上所述,华为云基因测序解决方案提供了标准架构与持续创新,提供标准的高性能计算架构,满足本地机房与公有云无缝对接的需求,同时推出一键式生信分析平台帮助快速部署生信流程,提升测序分析效率和降低综合成本
不断赋能生信企业拓展高附加值业务。其中大数据能力,通过计算存储分离、内存及分布式缓存、智能调度,大数据性能提升40%,成本降低50%;人工智能能力,通过作业群组管理、拓扑感知的亲和性调度,GPU线性加速比提升35%,降低人工智能50%训练时间;鲲鹏算力,整型计算+多核契合测序分析,Minimap2软件在鲲鹏920下性价比领先同代x86处理器20%。
正是这样的实力,华为云不断赋能行业。例如武汉希望组&未来组联手华为,提升基因测序效率。武汉未来组采用Kunlun超大内存裸金属服务器,承载重楼百合150G基因组装;打通线下数据生产平台与云端高性能计算平台之间的网络链路,使得线下产生的数据可以快速上传到云端,从而进行后续的分析。数据达到云端后,根据项目需求,在控制台申请足够规模的弹性云计算资源,快速完成项目。
在医疗健康行业升级的大背景下,基因测序需要融合更多的技术手段来达到更高的精准度和科学性,华为云基因测序解决方案释放云+AI+5G的强大动能,帮助生信企业降本增效,实现行业的智能化升级。