logo好方法网

搜索方法、搜索装置以及计算机设备


技术摘要:
本申请公开了一种搜索方法、搜索装置以及计算机设备。其中,该方法包括:获取查询词;对查询词进行分词,得到第一分词集合;从第一分词集合中选择重要词;确定与重要词的相似度大于预设阈值的文档,得到文档集合,将文档集合作为检索结果。本申请解决了现有技术在对长  全部
背景技术:
随着计算机技术的发展,人们在找工作时可以通过互联网实时投递简历,企业也 可通过互联网实时获取简历,并对简历进行筛选。然而,简历的内容比较多,服务器在对简 历进行检索时通常采用对长查询词进行尾部截断处理,例如,在一些搜索引擎中,限制查询 长度在预设数量个汉字内,例如38个汉字以内,超过范围的文字将被忽略。例如,在招聘职 位搜索领域时,给定简历查询匹配的职位将简历全文作为查询词,而简历中的文字数量较 多,一般数百字甚至上千字,简单地保留开头的几十个字作为查询词进行检索无法满足用 户的实际需求,而且检索结果也不准确。类似地,给定职位描述查询匹配的简历是将职位描 述作为查询词,职位描述的长度通常也超过100字。 针对上述问题,现有技术采用对用户输入的N个关键词中召回命中其中的至少M个 关键词的文档,其中,M小于或等于N。然后根据所召回的文档生成搜索结果。但该方案无法 区分用户输入的N个关键词的重要程度,对于查询内容为篇幅较长的简历而言,不进行关键 词重要性的区分,无法保证搜索相关性。 另外,现有技术还可基于主题模型,对文档内容进行分解,将文档和长查询词映射 到主题空间,以达到降维目的。但该方案使用的主题学习降维技术并不与搜索任务的目标 直接相关,并且,降维是一种信息压缩,在进行降维的过程中会导致信息损失。如果降维过 程不予搜索任务直接相关,损失的部分信息可能导致搜索相关性和用户满意度的大幅下 降。 针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
本申请实施例提供了一种搜索方法、搜索装置以及计算机设备,以至少解决现有 技术在对长查询词进行检索时检索结果不准确的技术问题。 根据本申请实施例的一个方面,提供了一种搜索方法,包括:获取查询词;对查询 词进行分词,得到第一分词集合;从第一分词集合中选择重要词;确定与重要词的相似度大 于预设阈值的文档,得到文档集合,并将文档集合作为检索结果。 根据本申请实施例的另一方面,还提供了一种搜索方法,包括:展示获取的查询 词;展示对查询词进行分词后得到的第一分词集合;展示从第一分词集合中选择的重要词; 展示通过确定与重要词的相似度大于预设阈值的文档,得到的文档集合。 根据本申请实施例的另一方面,还提供了一种搜索装置,包括:获取模块,用于获 取查询词;分词模块,用于对查询词进行分词,得到第一分词集合;从第一分词集合中选择 重要词;确定模块,用于确定与重要词的相似度大于预设阈值的文档,得到文档集合,将文 5 CN 111552767 A 说 明 书 2/15 页 档集合作为检索结果。 根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的 程序,其中,在程序运行时控制存储介质所在设备执行搜索方法。 根据本申请实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其 中,程序运行时执行搜索方法。 根据本申请实施例的另一方面,还提供了一种计算机设备,包括:处理器;以及存 储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取查询词;对查询词 进行分词,得到第一分词集合;从第一分词集合中选择重要词;确定与重要词的相似度大于 预设阈值的文档,得到文档集合,将文档集合作为检索结果。 在本申请实施例中,采用将重要词的筛选应用匹配模型的训练中的方式,在获取 到查询词之后,对查询词进行分词处理得到第一分词集合,然后从第一分词集合中选择重 要词,并确定与重要词的相似度大于预设阈值的文档,得到文档集合,最后将文档集合作为 检索结果。 在上述过程中,并未对查询词进行尾部截断,保留了查询词的完整性。另外,在得 到查询词的分词之后,从第一分词集合中选择重要词,并基于重要词来确定文档集合,即在 本申请中删除的是查询词中不重要的分词,而删除不重要的分词对检索结果产生的影响较 小,保证了检索结果的准确性。 由上述内容可知,本申请所提供的方案达到了对长查询词进行检索的目的,从而 实现了提高长查询词的检索结果的准确度的技术效果,进而解决了现有技术在对长查询词 进行检索时检索结果不准确的技术问题。 附图说明 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中: 图1是根据本申请实施例的一种可选的计算机终端的硬件结构框图。; 图2是根据本申请实施例的一种搜索方法的流程图; 图3是根据本申请实施例的一种可选的第一模型的训练示意图; 图4是根据本申请实施例的一种可选的第一模型的训练示意图; 图5是根据本申请实施例的一种可选的搜索方法流程图; 图6是根据本申请实施例的一种搜索方法的流程图; 图7是根据本申请实施例的一种搜索装置的示意图;以及 图8是根据本申请实施例的一种计算机终端的结构框图。
分享到:
收藏