【ITBEAR】近日,国家知识产权局公布了一项由科大讯飞股份有限公司提交的专利申请,该专利名为“文本分类方法装置设备和存储介质”,公开号为CN 118779446 A,申请时间为2024年6月。据专利摘要介绍,此发明提出了一种创新的文本分类方法,该方法涵盖了文本获取、token确定、分类结果生成等多个环节。其核心在于,利用样本token和样本前缀信息训练初始分类模型,进而得到能够反映类别间及样本与类别间相关关系的分类模型和前缀信息,以此提升文本分类的准确性。
具体来说,该方法首先获取待分类的文本,随后确定该文本对应的至少两个token。接着,结合这些token、至少一个前缀信息以及分类模型,得出文本的分类结果。分类模型和各前缀信息是通过将样本文本对应的样本token和样本前缀信息对应的类别token输入初始分类模型,并利用初始分类模型基于类别token之间的相关关系,以及样本token和类别token之间的相关关系训练得到的。各前缀信息在此过程中起到了建模各类别语义的作用。