近日,在2019 CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)决赛中,华为云语音语义创新Lab获得金融实体级情感分析大赛冠军,体现了在文本情感分析和知识图谱领域的实力。
华为云获2019CCF BDCI金融信息负面及实体判定大赛冠军
CCF BDCI是由教育部高等学校计算机类专业教学指导委员会、国家自然科学基金委员会信息科学部及郑州市人民政府指导,中国计算机学会主办的重量级大赛,今年已经是第七届。本次大赛共吸引了来自全球25个国家,1500余所高校及科研院所,1800余所企事业单位的60000余人参加。
随着互联网的飞速进步和全球金融的高速发展,金融信息呈现出爆炸式增长的态势。如何从海量的金融文本中快速准确地挖掘出关键信息一直是金融领域研究的热点,其效果好坏对投资者和决策者有至关重要的影响,其难点在于如何识别出海量文本中针对不同实体的报道的正负面,核心技术是实体级情感分析,而这也成为了本次大赛“金融信息负面及实体判定”赛道的重点解决问题。
本赛题关注金融文本中信息主体的挖掘和面向主体的负面消息检测,在风控和舆情分析等领域有较大现实意义,如及时发现对企业的负面报道,然后及时客服跟进或采取改进措施,对企业有非常大的帮助。
挑战情感分析技术高点
该任务分为两个子任务:给定金融文本和文本中出现的金融实体列表,
负面信息判定:判定该文本是否包含金融实体的负面信息。如果该文本不包含负面信息,或者包含负面信息但负面信息未涉及到金融实体,则负面信息判定结果为0。
负面主体判定:如果任务1中包含金融实体的负面信息,继续判断负面信息的主体对象是实体列表中的哪些实体。
实际上,该问题属于NLP情感分析领域的一个技术分支——实体级情感分析。传统情感分析任务都是文本级的,即只判定一个文本整体的正负面,不涉及具体的正负面评价的对象或实体,但基于这种方式有时并不能作出准确判断。如图2的新闻报道,对实体“A公司”和“B公司”来说是正面的,但是对实体“C公司”则是负面的。
图2 实体级情感分析
本次大赛华为云联合武汉大学、重庆邮电大学,设计了三种基于深度学习技术的方案:
方案一:将问题转化为一个二分类问题,通过合并文本和实体构造新样本,判断该实体是否为文本的负面实体;
方案二:先判断文本是否是负面文本,再在负面文本样本中针对每个实体判定该文本是否针对该实体;
方案三:采用多任务模型,将情感分析与实体判别同时训练优化。
最终,通过情感校验和模型融合三个方案获得的最终结果为F值0.959,获得该赛道的冠军。
持续在语音语义领域创新
实际上,华为云语音语义创新Lab长期在自然语言基础(如词法、句法等)、语言理解、语言生成、知识图谱等进行持续的研究创新,并将成果以云服务的形式呈现出来,为客户服务。2019年,华为云推出了知识计算即服务(KaaS)框架,助力政企客户破解大型企业和政府机构的智能化知识挖掘和管理难题,实现知识化转型。
具体来说,基于在自然语言处理、知识图谱、深度学习、图计算等领域的技术积累和实践,该框架能够以知识计算云服务形式提供全栈知识计算流水线平台,能够针对不同行业多源异构数据进行分析和处理,通过流水线平台帮助客户构建知识获取、知识建模、知识管理和知识应用的全套知识管理体系。基于知识图谱底座,衍生出各种知识增强的自然语言处理服务,如分词、命名实体识别、句子级情感分析、属性级情感分析、对话机器人服务、机器翻译等。
在2019年华为全联接大会上,华为就携手中石油联合发布了勘探开发人工智能平台。基于KaaS框架,华为云助力中石油进行勘探开发知识体系的构建、计算和应用,为油气勘探开发科研、生产管理提供智能化分析手段,实现油气行业的知识化转型。
今年5月,凭借创新性和技术先进性,“华为云知识计算云服务”获得了行业权威奖项“2019数博会领先科技成果奖”。在不久前的全国知识图谱及语义计算大会(CCKS 2019)上,华为云也获得了中文知识图谱问答大赛“创新技术奖”、DigSci科学数据挖掘大赛冠军。
目前,华为云语音语义相关服务已经成功应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等领域,为客户提供智能客服、对话助手、知识图谱等产品服务。相关服务欢迎到“EI体验空间”小程序体验。