logo好方法网

一种短文本多标签分类方法


技术摘要:
一种短文本多标签分类方法,其具体步骤如下:S1、将收集的短文本数据进行文本预处理得到文本向量和对应的标签集向量;S2、利用自注意力机制学习文本内部的依赖关系,得到新的文本向量;S3、利用图注意力神经网络学习标签之间的依赖关系,得到新的标签集向量;S4、将新的  全部
背景技术:
多标签分类在文本、图像、生物基因功能和视频语义标注等方面得到了广泛的应 用。与单标签分类相比,多标签分类更符合现实世界的客观规律,是自然语言处理领域 (NLP)的一项重要任务,目标是为数据集中的每个实例分配多个标签。短文本的稀疏性导致 其多标签分类相较与长文本多标签分类存在样本真实标签信息不足的问题,很难根据短文 本准确预测所有标签。因此短文本多标签分类模型在训练学习时需要更多信息预测更多标 签,防止某些特征信息不足容易忽略真实标签。 目前,多标签分类的相关研究工作可以分为三类:一阶算法、二阶算法和高阶算 法。一阶算法把多标签分解成多个独立的二分类问题,不考虑多标签之间的相关性;二阶算 法考虑标签之间的成对关联关系,比如为相关标签和不相关标签排序。由于二阶策略一定 程度上利用了标签相关性,因此,基于二阶策略的多标签分类算法可以获得较好的泛化性 能。然而,在实际的应用当中,标签相关性一般超出了二阶相关;高阶算法通过挖掘所有类 别标签集合或标签子集之间的相关性来解决多标签学习问题,试图通过假设所有样本都相 关来全局地利用标签相关性,但是在许多情况下,使用全局标签相关性学习的多标签分类 器的分类效果不是非常有效的,同时在计算上要求更高。 随着文本数据的大量产生,人们针对文本的多标签分类技术做了大量探索和实 践。专利申请号CN  201410310719.5提出了一种多标签文本分类方法及系统,该方法通过选 取使得后验概率最大的标签子集作为待分类文档的分类结果,具有总体性能高及计算量小 的特点。专利申请号CN  201510114326.1提出了一种多标签分类方法及相应装置,该方法利 用问题转换算法将多标签分类问题转换成多个单标签分类问题。目前的多标签分类方法没 有学习到标签之间的依赖关系,解决不了短文本信息不足而无法预测所有标签的问题。
技术实现要素:
针对上述
下载此资料需消耗2积分,
分享到:
收藏