中文自然语言处理作为深度学习相关领域面临的挑战之一,较难有技术上的突破。而近日,国内知名搜索引擎搜狗搜索提出的新思路,或将推动机器对中文语言的理解更进一步。
日前,国际自然语言处理与计算语言学领域最高级别的学术会议ACL(AnnualMeetingofthe Association for Computational Linguistics)录取了搜狗搜索首席科学家柳超博士带领搜狗数据科学研究院发表的题为“字根嵌入(Radical Embedding)”的学术论文。论文首次提出了基于字根的中文自然语言处理的深度学习技术,对中文自然语言处理以及未来深度学习理念的发展具有积极意义。
深度学习的基础在于对自然语言的分析,而中文自然语言处理之所以较为困难,主要原因在于,中文在文本和对话等各个层次上会存在歧义或者多义,同一个字、词在不同语境中的含义千差万别,不同断句方法让句子表意差异悬殊等各种问题,让中文自然语言处理成为行业挑战。
此次,搜狗数据科学研究院首次提出了“字根嵌入”概念,这是世界上第一项基于字根的中文自然语言处理的深度学习技术,也就是将“字根作为中文语言处理的最小单位进行研究“。其基本原理是通过某种数学方式把汉语字根表示为多维空间中的向量,进而把汉字也表示为向量,作为基于深度学习的中文自然语言处理技术的基本单元,让中文更易被精准计算。这也意味着,中文千变万化的表述可以通过算法得出其背后含义。
论文中展示了“字根嵌入”技术的实际效果。运用新方式计算后,机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升,这在某种程度上证实了“字根嵌入”可以作为中文自然语言处理的基本单位的可能。
搜索引擎产品的本质是洞悉用户需求,从海量数据中为用户提供精准可信的答案,从而满足用户的不同需求。这其中,如何分析自然语言更好地理解用户意图是其基础,也是未来搜索引擎技术智能化发展的必争之地。此前,在图像和语音深度学习这两个相对成熟的领域,“技术流”的搜狗搜索一直保持领先优势。而此次如能借助“字根嵌入”技术,先行占位中文自然语言处理这个最为困难同时也最为重要的领域,对用户语义理解、搜索结果排序等方面的效果也将随之提升,其在技术上的优势将会更为明显。
柳超博士带领的搜狗数据科学研究院团队照片
据搜狗搜索方面透露,搜狗数据科学研究院之前已有多项研究成果应用于搜狗搜索、搜狗输入法的产品开发中。作为团队带头人的柳超博士本人也曾在ICML,SIGKDD,SIGIR,WWW,TSE, TKDD等国际一流会议和期刊上发表30余篇文章,并长期担任SIGIR, SIGKDD, WWW,CIKM, WSDM, ACL, AAAI等国际会议的程序委员会委员,在业界具有较大影响力。而此次“字根嵌入”技术提出,可以有效促进机器对用户中文表意进行深度学习,让搜狗搜索更加智慧更“懂“用户。
据悉,“字根嵌入”技术有望很快被应用至实践领域,未来搜狗搜索将会在多个产品中应用该技术,以全面提升搜狗搜索及相关产品的中文信息处理能力,更准确理解用户需求,为用户提供最佳解决方案。