近日,由中国人工智能学会主导,携手CAAI智能传媒专委会、新浪新闻、中国传媒大学数据科学与智能媒体学院及其海南国际学院共同举办的2024智能传媒技术发展论坛圆满结束。此次论坛吸引了众多行业专家,其中微博首席科学家及新技术研发领军人物张俊林博士发表了主题演讲,深入探讨了多模态大模型技术的最新突破,并分享了微博在此领域的创新实践。
近年来,多模态大模型技术如雨后春笋般涌现,其应用范围广泛,不仅重塑了人工智能的能力框架,还推动了多个行业的创新发展。张俊林博士指出,多模态大模型的技术发展脉络清晰,大致可以分为两个阶段。今年4月之前,主要存在两大分支:多模态理解大模型和多模态生成大模型。前者能够处理多种模态的输入信息,但输出仅限于文本形式,主要用于回答用户关于多模态内容的查询;后者则能够生成包括文本、图像、视频在内的多种模态内容。
自今年4月起,业界开始将焦点转向构建统一的多模态大模型,旨在实现理解与生成功能的融合。张俊林博士强调,理想的统一多模态大模型应具备接纳任意形态输入(如文字、图片、视频、音频等)的能力,并能生成相应形态的输出。这一发展方向旨在实现模型对各种输入的兼容以及多样化输出的生成。
在演讲中,张俊林博士还详细介绍了微博在多模态应用方面的创新探索。微博的多模态应用架构基于强大的算力平台,并在此基础上构建了微博知微大模型。凭借十余年积累的特色数据,如实时热点、事件脉络、网络流行语等,微博结合了通用数据和自身特色数据,构建了知微大模型,并开发了多款针对不同场景的应用,如评论机器人、剧综虚拟角色生成、博主AI助手等。
张俊林博士特别提到了微博评论机器人的双重价值:提升社区活跃度和为用户提供情绪价值。评论机器人的技术核心是多模态评论大模型和人设大模型,通过微博的大量优质内容及其对应的高质量评论数据进行微调。当用户发布微博后,评论机器人会将评论问题拆解成多个子任务,分别理解文字和图片内容,再根据预设的人设生成有特色的回复。通过不断迭代和优化,评论机器人的效果得到了显著提升。
张俊林博士还介绍了微博在剧综虚拟角色方面的应用。他指出,角色扮演是大模型的热门应用领域,而微博则重点布局在影视剧综的虚拟角色扮演上,旨在解决剧综账号活跃周期短的难题。通过构建通用的角色大模型,并结合多模态RAG融入具体剧情和图片信息,微博的虚拟角色能够以符合角色身份的方式与用户互动。数据显示,引入多模态大模型后,评论互动率和用户交互轮次均有所提升,验证了多模态大模型在实际场景中的巨大潜力。
张俊林博士的演讲不仅展示了微博在多模态大模型技术方面的创新成果,还为行业提供了宝贵的经验和启示。随着多模态大模型技术的不断发展,微博将继续探索更多创新应用,为用户提供更加丰富和个性化的体验。