【ITBEAR】在第32届ACM国际多媒体会议于澳大利亚墨尔本成功闭幕之际,一支由中国科学技术大学与云知声联袂打造的USTC-IAT-United团队大放异彩,他们在多个竞赛领域共斩获了5项冠军和2项亚军,充分展示了团队在人工智能领域的卓越实力。
ACM MM作为多媒体与计算机图形学领域的顶级盛会,不仅获得了中国计算机学会(CCF)的A类评定,更因其显著的学术影响力和社会认可度而备受瞩目。此次会议携手全球顶尖学术机构和企业,推出了多项富有挑战性的赛事,吸引了众多科研团队和创新企业的积极参与。
USTC-IAT-United团队在众多参赛队伍中脱颖而出,他们在微动作分析、微表情检测、人机交互、多模态群体行为分析以及视觉空间关系描述等多个前沿领域取得了显著成就。以下是他们在此次大会中的具体获奖情况:
在微动作分析挑战赛中,团队针对微动作持续时间短、难以捕捉的特点,提出了3D-SENet Adapter,实现了高效的时空信息聚合和在线视频特征学习。同时,他们开发的交叉注意力聚合检测头,通过集成多尺度特征,显著提升了微动作的检测精度,最终在两个赛道上分别获得了冠军和亚军,并在ACM MM上发表了相关研究成果。
在微表情挑战赛中,团队采用基于光流的方法进行微表情识别,通过抽取视频的光流特征,精确定位微表情的起始和结束时间。他们提出的边界校准方案和特征增强策略,进一步提升了微表情识别的准确性和鲁棒性,最终在两个不同赛道上均获得了冠军。
在另一项微表情挑战赛中,团队整合了VideoMAE V2框架、时间信息适配器(TIA)及多尺度特征融合检测头,实现了微表情的定位与识别性能的显著提升。他们的方案在STRS(Overall)评分中达到了SOTA水平,并荣获冠军。
在多模态群体行为分析挑战赛中,团队提出了一种双流AI-BiLSTM模型,通过对齐和交互对话者特征,实现了更准确的参与度估计。该模型在MultiMediate挑战赛中的Multi-domain engagment estimation赛道上,以显著优势夺得冠军,展示了团队在人工智能领域的深厚技术底蕴。
在深度伪造检测挑战赛中,团队提出了一种创新的局部全局交互模块(AV-LG模块),显著增强了模型的检测性能。他们通过增加真实样本的误差权重和将采样帧转换为频域等方法,进一步提升了模型的性能,最终获得了本赛道的冠军。
此次优异成绩的取得,不仅是中国科学技术大学与云知声紧密合作的成果,更是云知声在AGI技术架构方面实力的有力证明。作为国内AGI技术产业化的先行者,云知声依托其全栈AGI技术与产业布局,持续推动各行各业的智慧化升级,为智慧生活、智慧医疗等领域提供了高效的产品化支撑。