近日,华为云在论文匹配检索领域取得进展,基于自然语言处理领域的领先技术积累,华为云语音语义创新Lab在DigSci科学数据挖掘大赛上夺冠,精准率超过第二名5个百分点。
DigSci科学数据挖掘大赛比赛是清华AMiner、智源实验室、微软联合举办的学术论文搜索匹配大赛,属于语义匹配检索领域,旨在从学术材料中挖掘知识。比赛提供一个约含20万篇论文的论文库,同时提供对论文的文字描述,描述来自论文中对同类研究的介绍,参赛选手需要为描述段落匹配三篇最相关的论文。本次比赛吸引了来自包括清华、北大、浙大、复旦等全国著名高校和企业组成的100多支专业队伍参加。
挑战知识挖掘技术高点
学术论文是人类最前沿的知识载体,通过自然语言处理技术,自动识别一段文本描述最相关的论文,可以在学术搜索、科研知识图谱、科研自动问答系统、科研自动摘要等领域落地。本次比赛的难点在于给定描述段落匹配的一篇论文(正样本),在没有负样本的情况下要求参赛者给出一个描述段落最匹配的三篇论文。参赛者需要从大规模论文库中匹配最相关的论文,涉及到语义表示、语义检索等技术难点。如何缩小搜索范围以及如何确保缩小的搜索范围包含了与描述匹配的论文成为比赛的关键技术。
华为云联合武汉大学、重庆邮电大学,凭借华为云语音语义创新Lab在自然语言处理领域深厚的技术积累,采用了候选训练集自动生成、自动特征抽取和选择、深度学习文本匹配算法、模型融合集成等技术。华为云自然语言处理专家提出的候选训练集自动生成技术对模型取得优异结果起到了关键作用。该技术针对一个描述段落,自动从大规模论文库中生成一个候选训练集合,并通过语义表示和语义匹配确保候选集中包含了待匹配论文。同时采样负样本,构建出均衡的正负样本集合用于训练有监督的深度语义匹配模型。
华为云获DigSci科学数据挖掘大赛冠军
推出知识计算即服务(KaaS)框架
在已有的自然语言理解、对话机器人、语音交互等语音语义类服务基础上,华为云语音语义创新Lab持续创新,于2019年推出了知识计算即服务(KaaS)框架,助力政企客户破解大型企业和政府机构的智能化知识挖掘和管理难题,实现知识化转型。该框架基于在自然语言处理、知识图谱、深度学习、图计算等领域的技术积累和实践,以知识计算云服务形式提供全栈知识计算流水线平台,能够针对不同行业多源异构数据进行分析和处理,通过流水线平台帮助客户构建知识获取、知识建模、知识管理和知识应用的全套知识管理体系。
在2019年华为全联接大会上,中石油携手华为联合发布了勘探开发人工智能平台,基于知识计算即服务框架,华为云助力中石油进行勘探开发知识体系的构建、计算和应用,为油气勘探开发科研、生产管理提供智能化分析手段,实现油气行业的知识化转型。
凭借创新性和技术先进性,“华为云知识计算云服务”获得了行业权威奖项“2019数博会领先科技成果奖”。在不久前全国知识图谱及语义计算大会(CCKS 2019)上,华为云还获得了中文知识图谱问答大赛“创新技术奖”。
目前,华为云语音语义相关服务已经成功应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等具有语音识别、语言理解、知识管理等需求的业务领域。