logo好方法网

相似企业推荐方法、装置、电子设备及介质


技术摘要:
本发明涉及推荐技术,提供一种相似企业推荐方法、装置、电子设备及介质。该方法能够确定目标企业并确定目标网址,获取目标网址上的文本信息,对文本信息进行预处理,得到多个特征词,并确定每个特征词对应的权重,对多个特征词进行处理,得到每个特征词对应的哈希值,  全部
背景技术:
在外贸领域中,通过“货比三家”策略能够帮助用户确定出最优的合作企业,为了 便于货比三家,通常采用人为方式确定出与目标企业对应的多个相似企业,然而,由于人为 方式掺杂一定的主观性,从而导致确定出的相似企业的准确性较低。为此,相似企业推荐方 式也应运而生。 在现有的相似企业推荐方式中,通过确定目标企业的企业关系图谱,进而确定出 相似企业,然而,由于确定企业关系图谱时需要对庞大数量的企业进行分析,使企业关系图 谱的分析量大,进而导致推送企业的效率较低。
技术实现要素:
鉴于以上内容,有必要提供一种相似企业推荐方法、装置、电子设备及介质,能够 快速、准确地推送相似企业。 一种相似企业推荐方法,所述相似企业推荐方法包括: 当接收到企业推荐请求时,从所述企业推荐请求中确定目标企业,并确定所述目 标企业的目标网址; 获取所述目标网址上的文本信息; 对所述文本信息进行预处理,得到多个特征词,并确定每个特征词对应的权重; 利用MD5信息摘要算法对所述多个特征词进行处理,得到每个特征词对应的哈希 值,并根据每个权重及每个哈希值确定所述目标企业的第一文本指纹; 从配置库中获取所有待比较企业,并获取所述所有待比较企业的第二文本指纹; 根据所述第一文本指纹及每个第二文本指纹,从所述所有待比较企业中确定待确 定企业; 计算每个待确定企业的第二文本指纹与所述第一文本指纹的海明距离; 将所述海明距离小于预设阈值的待确定企业确定为所述目标企业的相似企业,并 推送所述相似企业。 根据本发明优选实施例,所述从所述企业推荐请求中确定目标企业,并确定所述 目标企业的目标网址包括: 从线程连接池中获取闲置线程,并利用所述闲置线程解析所述企业推荐请求中的 方法体,得到所述企业推荐请求所携带的所有信息; 获取第一预设标签,并从所述所有信息中获取与所述第一预设标签对应的信息, 作为所述目标企业; 获取第二预设标签,并从所述所有信息中获取与所述第二预设标签对应的信息, 5 CN 111597309 A 说 明 书 2/15 页 作为所述目标网址。 根据本发明优选实施例,所述对所述文本信息进行预处理,得到多个特征词包括: 过滤所述文本信息中的预设符号,得到过滤后的文本信息; 根据预设词典中的自定义词对所述过滤后的文本信息进行切分,得到切分位置, 所述预设词典包括自定义词及自定义词对应的权值; 根据所述切分位置,构建至少一个有向无环图; 根据所述自定义词对应的权值计算每个有向无环图的概率; 将概率最大的有向无环图对应的切分位置确定为目标切分位置; 根据所述目标切分位置切分所述过滤后的文本信息,得到多个分词; 确定每个分词在所述文本信息中的词性,并从所述多个分词中选取词性为名词的 分词,作为所述多个特征词。 根据本发明优选实施例,在确定每个特征词对应的权重之前,所述相似企业推荐 方法还包括: 获取多个企业的训练文本; 对所述多个训练文本进行预处理,得到多个训练词语; 计算每个训练词语在所述多个训练文本中的第一数量,及计算所述多个训练词语 的词语总量; 将每个第一数量除以所述词语总量,得到每个训练词语的词频; 计算包含每个训练词语的训练文本的第二数量,及计算所述多个训练文本的文本 总量; 将每个第二数量与第一预设值进行相加运算,得到多个第三数量,并将所述文本 总量除以每个第三数量,得到多个第四数量; 取每个第四数量的对数值,得到每个训练词语的逆文档频率; 将每个词频乘以每个逆文档频率,得到每个训练词语的权重; 根据每个训练词语及每个权重生成词权重集,所述词权重集用于确定每个特征词 对应的权重。 根据本发明优选实施例,所述根据所述第一文本指纹及每个第二文本指纹,从所 述所有待比较企业中确定待确定企业包括: 按照预设数量切分所述第一文本指纹,得到多个第一子指纹,并按照所述预设数 量切分每个第二文本指纹,得到每个待比较企业的多个第二子指纹; 将所述多个第一子指纹中的任意两个第一子指纹组合成第一子指纹对,并对所述 第一子指纹对进行排序,得到所述目标企业的第一索引表,所述第一索引表包括多个第一 索引号及多个第一索引值; 将每个待比较企业的多个第二子指纹中的任意两个第二子指纹组合成第二子指 纹对,并对所述第二子指纹对进行排序,得到每个待比较企业的第二索引表,每个第二索引 表包括多个第二索引号及多个第二索引值; 对于任意第二索引表,当任意第二索引号与任意第一索引号相同时,检测所述任 意第二索引号对应的任意第二索引值与所述任意第一索引号对应的第一索引值是否相同; 当检测到所述任意第二索引号对应的任意第二索引值与所述任意第一索引号对 6 CN 111597309 A 说 明 书 3/15 页 应的第一索引值相同时,将所述任意第二索引表对应的待比较企业确定为所述待确定企 业。 根据本发明优选实施例,所述计算每个待确定企业的第二文本指纹与所述第一文 本指纹的海明距离包括: 将每个第二文本指纹与所述第一文本指纹进行异或运算,得到每个待确定企业的 运算结果; 计算每个运算结果中第二预设值的数量,并将所述数量确定为所述海明距离,所 述第二预设值为1。 根据本发明优选实施例,所述推送所述相似企业包括: 确定所述企业推荐请求的请求等级; 根据所述请求等级确定推送方式; 依照所述相似企业的海明距离从小至大的顺序进行排序,得到目标队列; 以所述推送方式推送所述目标队列。 一种相似企业推荐装置,所述相似企业推荐装置包括: 确定单元,用于当接收到企业推荐请求时,从所述企业推荐请求中确定目标企业, 并确定所述目标企业的目标网址; 获取单元,用于获取所述目标网址上的文本信息; 执行单元,用于对所述文本信息进行预处理,得到多个特征词,并确定每个特征词 对应的权重; 所述确定单元,还用于利用MD5信息摘要算法对所述多个特征词进行处理,得到每 个特征词对应的哈希值,并根据每个权重及每个哈希值确定所述目标企业的第一文本指 纹; 所述获取单元,还用于从配置库中获取所有待比较企业,并获取所述所有待比较 企业的第二文本指纹; 所述确定单元,还用于根据所述第一文本指纹及每个第二文本指纹,从所述所有 待比较企业中确定待确定企业; 计算单元,用于计算每个待确定企业的第二文本指纹与所述第一文本指纹的海明 距离; 推送单元,用于将所述海明距离小于预设阈值的待确定企业确定为所述目标企业 的相似企业,并推送所述相似企业。 根据本发明优选实施例,所述确定从所述企业推荐请求中确定目标企业,并确定 所述目标企业的目标网址包括: 从线程连接池中获取闲置线程,并利用所述闲置线程解析所述企业推荐请求中的 方法体,得到所述企业推荐请求所携带的所有信息; 获取第一预设标签,并从所述所有信息中获取与所述第一预设标签对应的信息, 作为所述目标企业; 获取第二预设标签,并从所述所有信息中获取与所述第二预设标签对应的信息, 作为所述目标网址。 根据本发明优选实施例,所述执行单元具体用于: 7 CN 111597309 A 说 明 书 4/15 页 过滤所述文本信息中的预设符号,得到过滤后的文本信息; 根据预设词典中的自定义词对所述过滤后的文本信息进行切分,得到切分位置, 所述预设词典包括自定义词及自定义词对应的权值; 根据所述切分位置,构建至少一个有向无环图; 根据所述自定义词对应的权值计算每个有向无环图的概率; 将概率最大的有向无环图对应的切分位置确定为目标切分位置; 根据所述目标切分位置切分所述过滤后的文本信息,得到多个分词; 确定每个分词在所述文本信息中的词性,并从所述多个分词中选取词性为名词的 分词,作为所述多个特征词。 根据本发明优选实施例,所述获取单元,还用于在确定每个特征词对应的权重之 前,获取多个企业的训练文本; 所述相似企业推荐装置还包括: 预处理单元,用于对所述多个训练文本进行预处理,得到多个训练词语; 所述计算单元,还用于计算每个训练词语在所述多个训练文本中的第一数量,及 计算所述多个训练词语的词语总量; 所述计算单元,还用于将每个第一数量除以所述词语总量,得到每个训练词语的 词频; 所述计算单元,还用于计算包含每个训练词语的训练文本的第二数量,及计算所 述多个训练文本的文本总量; 所述计算单元,还用于将每个第二数量与第一预设值进行相加运算,得到多个第 三数量,并将所述文本总量除以每个第三数量,得到多个第四数量; 所述计算单元,还用于取每个第四数量的对数值,得到每个训练词语的逆文档频 率; 所述计算单元,还用于将每个词频乘以每个逆文档频率,得到每个训练词语的权 重; 生成单元,用于根据每个训练词语及每个权重生成词权重集,所述词权重集用于 确定每个特征词对应的权重。 根据本发明优选实施例,所述确定单元根据所述第一文本指纹及每个第二文本指 纹,从所述所有待比较企业中确定待确定企业包括: 按照预设数量切分所述第一文本指纹,得到多个第一子指纹,并按照所述预设数 量切分每个第二文本指纹,得到每个待比较企业的多个第二子指纹; 将所述多个第一子指纹中的任意两个第一子指纹组合成第一子指纹对,并对所述 第一子指纹对进行排序,得到所述目标企业的第一索引表,所述第一索引表包括多个第一 索引号及多个第一索引值; 将每个待比较企业的多个第二子指纹中的任意两个第二子指纹组合成第二子指 纹对,并对所述第二子指纹对进行排序,得到每个待比较企业的第二索引表,每个第二索引 表包括多个第二索引号及多个第二索引值; 对于任意第二索引表,当任意第二索引号与任意第一索引号相同时,检测所述任 意第二索引号对应的任意第二索引值与所述任意第一索引号对应的第一索引值是否相同; 8 CN 111597309 A 说 明 书 5/15 页 当检测到所述任意第二索引号对应的任意第二索引值与所述任意第一索引号对 应的第一索引值相同时,将所述任意第二索引表对应的待比较企业确定为所述待确定企 业。 根据本发明优选实施例,所述计算单元计算每个待确定企业的第二文本指纹与所 述第一文本指纹的海明距离包括: 将每个第二文本指纹与所述第一文本指纹进行异或运算,得到每个待确定企业的 运算结果; 计算每个运算结果中第二预设值的数量,并将所述数量确定为所述海明距离,所 述第二预设值为1。 根据本发明优选实施例,所述推送单元具体用于: 确定所述企业推荐请求的请求等级; 根据所述请求等级确定推送方式; 依照所述相似企业的海明距离从小至大的顺序进行排序,得到目标队列; 以所述推送方式推送所述目标队列。 一种电子设备,所述电子设备包括: 存储器,存储至少一个指令;及 处理器,执行所述存储器中存储的指令以实现所述相似企业推荐方法。 一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所 述至少一个指令被电子设备中的处理器执行以实现所述相似企业推荐方法。 由以上技术方案可以看出,本发明通过确定出所述待确定企业,进而对所述待确 定企业进行分析,能够避免后续对所述所有待比较企业进行分析,从而节省分析多余的待 比较企业的时间,进而能够快速确定并推荐相似企业。 附图说明 图1是本发明相似企业推荐方法的较佳实施例的流程图。 图2是本发明相似企业推荐装置的较佳实施例的功能模块图。 图3是本发明实现相似企业推荐方法的较佳实施例的电子设备的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏