【ITBEAR】9月13日消息,近日,由阿里云与NVIDIA携手举办的“天池Better Synth-多模态大模型数据合成挑战赛”在京圆满收官。此项AI盛事自今年8月启动以来,便吸引了众多国内顶尖高校、科研机构及科技企业的积极参与,经过激烈竞争,最终有10支队伍脱颖而出,斩获各项荣誉。
随着大模型技术的迅猛发展,数据质量在AI性能中的决定性作用日益凸显。据ITBEAR了解,中科院声学所的张博士指出,在AI系统的实际应用中,数据质量对性能的影响高达80%,而算法本身的贡献仅占20%。这一背景下,如何解决多模态大模型训练中的数据需求与资源有限性之间的矛盾,成为了业界和学界共同关注的焦点。
“天池Better Synth-多模态大模型数据合成挑战赛”作为Data-Juicer for LLMs系列赛的第四场,旨在通过集思广益,探索数据合成的新技术与策略,以推动多模态大模型的创新进步。比赛采用了线上初赛与线下决赛相结合的赛制,为参赛者提供了与顶尖技术专家面对面交流的机会,并在统一的设备环境下进行研发与调试,确保了赛事的公平与高效。
本次大赛的一大亮点是阿里巴巴通义实验室提供的一站式大模型数据处理系统Data-Juicer,该系统为参赛队伍提供了强大且易用的数据处理与生成工具,显著提升了数据合成的效率。同时,NVIDIA的TensorRT-Model-Optimizer等工具和FP8训练框架的引入,进一步优化了模型训练和推理过程。
在为期两个月的激烈角逐中,大赛共吸引了来自清华大学、北京大学、复旦大学等知名学府的1066支队伍参与。经过层层选拔,最终诞生的10强队伍在决赛中展示了他们的创新方案。例如,VLM队采用SSIM指标来衡量合成数据的学习难度,以提升模型在小数据量下的学习效果;而dxm小分队则尝试运用前沿的ImageTextualization技术来消除图文内容的不对齐问题,增强模型的模态间对齐能力。
“天池Better Synth-多模态大模型数据合成挑战赛”的成功举办,不仅为参赛者提供了宝贵的实践与交流平台,更激发了科研生态的创新活力,有望助力多模态大模型技术的产业落地与发展。随着技术的不断进步,我们期待未来能够看到更多“数据驱动的人工智能”应用场景的涌现。
#天池挑战赛# #多模态大模型# #数据合成# #AI技术# #创新发展#