短语聚类方法、装置、设备及存储介质-好方法网

技术摘要：
本发明涉及人工智能，公开了一种短语聚类方法、装置、设备及存储介质。该方法包括：获取待处理的短语；对字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照短语中的字排序对所有字符向量进行排序组合，得到短语对应的短语向量；对短语向量依次进行卷全部
背景技术：
随着信息化不断深入，人们的数据不断扩展，越来越多的人使用网络办理自己的事务。在保险单的问题咨询时，人工网络答复人们的问题，成本不仅高而且效率也不高，使人们开始不断寻找新的方法去解决网络自动答复的问题。因此不仅需要减少回复人们对保险单的疑问的成本，还需要能准确答复人们的问题。在传统的解决方案中，使用词频特征对短语进行表示，根据词频来反映语意内容不能准确反映真实语意。因此兴起一种新的处理方式，使用开源Word2Vec工具对文本内容的处理简化为K维向量空间中的向量运算，使用向量空间上的相似度可以用来表示文本语义上的相似度。但是这种新兴的处理方法无法解决在语料词库之外的词语的分类问题，需要能解决新的词语分类问题的方案。
技术实现要素：
本发明的主要目的在于解决现有短语分类方式无法对新词语进行分类的技术问题。本发明第一方面提供了一种短语聚类方法，包括：获取待处理的短语，并基于所述短语查询预置短语语料库；若所述预置短语语料库中不存在所述短语时，对所述短语进行字拆分处理，得到所述短语的字符组合；对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序将得到的所有字符向量进行排序组合，得到所述短语的短语向量；对所述短语向量进行卷积计算与池化处理，得到卷积向量；对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。可选的，在本发明第一方面的第一种实现方式中，所述对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量包括：基于短语语料库与字符向量转换表之间的对应关系，从预置存储盘中获取与所述短语语料库对应的字符向量转换表；根据所述字符组合中的字符查询所述字符向量转换表，得到所述字符组合中每个字符对应的字符向量。可选的，在本发明第一方面的第二种实现方式中，所述按照所述短语中的字排序对将得到的所有字符向量进行排序组合，得到所述短语的短语向量包括：将所有所述字符向量按照所述短语的字排序依次排序组合，得到字符向量序列， 4 CN 111737468 A 说　明　书 2/14 页并计算所述字符向量序列的字节长度；判断所述字符向量序列的字节长度是否超过预置模板长度；若超过预置模板长度，则以所述字符向量序列中第一排序的字符向量为始点，向后截取序列段，得到所述短语的短语向量，其中，所述序列段的字节长度等于所述预置模板长度；若未超过预置模板长度，则通过零向量填充的方式，在所述字符向量序列的最后插入所述零向量，直至所述字符向量序列的长度等于所述预置模板长度为止，得到所述短语的短语向量。可选的，在本发明第一方面的第三种实现方式中，所述对所述短语向量进行卷积计算与池化处理，得到卷积向量包括：获取预置滤波器集合，依次使用所述滤波器集合中的滤波器对所述短语向量进行处理，得到所有所述滤波器对应的滤波向量；对所有所述滤波向量进行最大池化处理，得到所有所述滤波器对应的最大池化向量；根据所述滤波器集合中滤波器的排序，将所有所述滤波器对应的最大池化向量进行排序组合，生成卷积向量。可选的，在本发明第一方面的第四种实现方式中，所述对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量包括：获取预置权重矩阵，将所述卷积向量与所述权重矩阵进行乘积，得到权重向量；使用回归函数对所述权重向量中的每个元素进行处理，以及对处理的结果进行归一化，得到每个所述元素对应的回归值；将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量。可选的，在本发明第一方面的第五种实现方式中，所述将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类包括：获取预置聚类模型中的训练样本，并将所述结果向量加入至所述聚类模型的训练样本中，并对所述结果向量设置为未标记样本，其中，所述训练样本包括已进行分类标记的短语向量的样本；读取所述训练样本中的已标记样本，计算所述已标记样本至所述训练样本中未标记样本之间的距离；基于所述距离选择所述训练样本中距离所述已标记样本最小的未标记样本，并将选择的未标记样本的标记设置为与所述已标记样本相同的标记，直至所述训练样本中的样本均已标记；读取所述结果向量的标记，并基于所述标记与种类之间的对应关系确定所述短语的种类。可选的，在本发明第一方面的第六种实现方式中，所述将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类包括：获取预置聚类模型中所有分类点对应的坐标；分别计算所述结果向量与所有所述分类点对应的坐标之间的距离，筛选出最小的所述距离； 5 CN 111737468 A 说　明　书 3/14 页获取最小所述距离对应分类点的种类，将所述种类确定为所述短语对应的种类。本发明第二方面提供了一种短语聚类装置，包括：获取模块，用于获取待处理的短语，并基于所述短语查询预置短语语料库；拆分模块，用于若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；向量化模块，用于对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；卷积池化模块，用于对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；回归模块，用于对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；分类模块，用于将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。可选的，在本发明第二方面的第一种实现方式中，所述向量化模块具体用于：基于短语语料库与字符向量转换表之间的对应关系，从预置存储盘中获取与所述短语语料库对应的字符向量转换表；根据所述字符组合中的字符查询所述字符向量转换表，得到所述字符组合中每个字符对应的字符向量。可选的，在本发明第二方面的第二种实现方式中，所述向量化模块还可以具体用于：将所有所述字符向量按照所述短语的字排序依次排序组合，得到字符向量序列，并计算所述字符向量序列的字节长度；判断所述字符向量序列的字节长度是否超过预置模板长度；若超过预置模板长度，则以所述字符向量序列中第一排序的字符向量为始点，向后截取序列段，得到所述短语的短语向量，其中，所述序列段的字节长度等于所述预置模板长度；若未超过预置模板长度，则通过零向量填充的方式，在所述字符向量序列的最后插入所述零向量，直至所述字符向量序列的长度等于所述预置模板长度为止，得到所述短语的短语向量。可选的，在本发明第二方面的第三种实现方式中，所述卷积池化模块包括：卷积单元，用于获取预置滤波器集合，依次使用所述滤波器集合中的滤波器对所述短语向量进行处理，得到所有所述滤波器对应的滤波向量；池化单元，用于对所有所述滤波向量进行最大池化处理，得到所有所述滤波器对应的最大池化向量；排序单元，用于根据所述滤波器集合中滤波器的排序，将所有所述滤波器对应的最大池化向量排序组合为卷积向量。可选的，在本发明第二方面的第四种实现方式中，所述回归模块具体用于：获取预置权重矩阵，将所述卷积向量与所述权重矩阵进行乘积，得到权重向量； 6 CN 111737468 A 说　明　书 4/14 页使用回归函数对所述权重向量中的每个元素进行处理，以及对处理的结果进行归一化，得到每个所述元素对应的回归值；将所述权重向量中的每个元素替换为所述元素对应的回归值，得到结果向量。可选的，在本发明第二方面的第五种实现方式中，所述分类模块具体用于：获取预置聚类模型中的训练样本，并将所述结果向量加入至所述聚类模型的训练样本中，并对所述结果向量设置为未标记样本，其中，所述训练样本包括已进行分类标记的短语向量的样本；读取所述训练样本中的已标记样本，计算所述已标记样本至所述训练样本中未标记样本之间的距离；基于所述距离选择所述训练样本中距离所述已标记样本最小的未标记样本，并将选择的未标记样本的标记设置为与所述已标记样本相同的标记，直至所述训练样本中的样本均已标记；读取所述结果向量的标记，并基于所述标记与种类之间的对应关系确定所述短语的种类。可选的，在本发明第二方面的第六种实现方式中，所述分类模块还可以具体用于：获取预置聚类模型中所有分类点对应的坐标；分别计算所述结果向量与所有所述分类点对应的坐标之间的距离，筛选出最小的所述距离；获取最小所述距离对应分类点的种类，将所述种类确定为所述短语对应的种类。本发明第三方面提供了一种短语聚类设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述短语聚类设备执行上述的短语聚类方法。本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的短语聚类方法。本发明提供的技术方案中，获取待处理的短语，并基于所述短语查询预置短语语料库；若所述预置短语语料库中不存在所述短语时，对所述短语按字拆分，得到所述短语对应的字符组合；对所述字符组合中每个字符进行向量化处理，得到每个字符的字符向量，并按照所述短语中的字排序对所有所述字符向量进行排序组合，得到所述短语对应的短语向量；对所述短语向量依次进行卷积计算与池化处理，得到卷积向量；对所述卷积向量赋予权重，以及对赋予权重后的所述卷积向量进行回归计算，得到结果向量；将所述结果向量输入预置聚类模型进行分类处理，得到所述短语对应的种类。本发明实施例中，本发明实施例，通过使用短语语料库中的已训练的字符，对未在短语预料库训练的短语进行分类。运用 Text-CNN模型与Word2Vec工具解决新出现的短语无法被分类的技术问题，提高了深度学习处理文本的能力。附图说明图1为本发明实施例中短语聚类方法的第一个实施例示意图；图2为本发明实施例中短语聚类方法的第二个实施例示意图；图3为本发明实施例中短语聚类方法的第三个实施例示意图； 7 CN 111737468 A 说　明　书 5/14 页图4为本发明实施例中短语聚类方法的第四个实施例示意图；图5为本发明实施例中短语聚类方法的第五个实施例示意图；图6为本发明实施例中短语聚类装置的一个实施例示意图；图7为本发明实施例中短语聚类装置的另一个实施例示意图；图8为本发明实施例中短语聚类设备的一个实施例示意图。

相关推荐