5月14日,由阿里云、PAKDD 2021联合举办的“第二届阿里云智能运维算法大赛”首次以“线上+线下”同步举行的方式圆满落幕!本次大赛基于阿里云天池平台举办,聚焦于“解决大规模生产系统中的内存故障预测”,尤其是内存故障引发的非预期宕机问题,得到了众多高校学子的关注,吸引了超过1300支队伍参赛。
2020年以来,全球经历了新冠疫情的严峻考验,各行各业对5G、大数据、人工智能等新一轮技术发展提出了更高、更新的要求,这一切都离不开作为技术底座的云计算基础设施的稳定与创新,而基础设施的智能运维发挥着保驾护航的重要作用,在持续提升稳定性,减排增效,加速产业升级等方面提供了不可或缺的关键驱动力。近十年来,工业和学术界都开展过关于内存故障预测的相关研究探索,然而对工业级大规模生产环境下的内存故障预测的研究却很少。大规模生产环境业务错综复杂、数据噪声大以及不确定因素多,因此,能否提前准确预测内存故障已经成为大规模数据中心和云计算时代工业界需要研究和解决的重要问题之一。
在此背景下,为了更好地利用数字化方式提升服务体验,并与更多的优秀技术人员共同探讨此类问题的解决思路与方案,第二届阿里云智能运维算法大赛应运而生。
比赛自1月29日启动以来,历时三个半月,共吸引到1350支队伍参赛。相比第一届大赛,参赛队伍增加,比赛也异常激烈。
复赛现场6支队伍参加当下的线下总决赛,经过激烈的角逐,最终来自某数据挖掘俱乐部的“姬哀”队获得冠军!同时,此次比赛也输出了数十份来自国内外高校团队贡献的高质量解决方案,发表数十篇优秀论文,为数据中心内存类故障预测相关问题提供了他们的宝贵解决思路。
阿里云基础设施负责人周明在现场致辞中表示,此次比赛搭建了一个链接阿里云基础设施与行业、高校之间的产学研合作平台,一方面通过产业实践推动学界理论发展,另一方面通过学界理论研究和实践研究来反哺产业界。未来,阿里云基础设施也将通过持续举办竞赛等多种形式构建智能运维产学研链条、桥梁和纽带,探索新基建下的技术创新。
阿里云基础设施智能运维负责人赵晓雪在主题演讲中分享了团队近几年在智能运维领域的思考和探索,如坚持”线上化+数字化+智能化”的发展路径和方针,希望通过打造数字智能的运维产品来解决云计算基础设施规模化管理问题。
来自浙江大学的陈岭主任和西安交通大学的王平辉教授也结合智能运维领域的理论研究、人才培养分享了精彩观点。“智能运维正处于蓬勃发展阶段,需要社会各界的广泛参与和合作,这次比赛起到了很好的纽带作用,不仅贡献了前所未有的超大规模真实数据,而且产出了多个行之有效的领先方案,希望这个平台能够持续办下去,推动智能运维产业更好发展。”
在比赛之后的圆桌讨论中,周明还就“技术创新发展新形势下对人才的要求和培养”同到场的嘉宾和同学们做了精彩的分享与交流,鼓励同学们保持对技术、对世界的好奇心,提升思考深度。未来,阿里云基础设施将持续进行技术探索,推动技术与实践结合,通过类似平台,建立与高校、学生之间的产学研链接,一起共创企业数字化转型之路。
第二届阿里云智能运维算法大赛圆满落幕,但对生产系统中的内存故障预测,尤其是内存故障引发的非预期宕机问题等的讨论和研究还远远没有停止,相信通过天池这样的开发者众智平台,能帮助学生更好地链接理论与实践,在学校就能了解真实的业务场景是什么,实践中的痛点和难点。未来,也期待有更多的同学,甚至更多的科技发烧友参与进来,大家一起贡献智慧和力量,在这个平台共同探讨企业发展过程中最有挑战的问题。