
技术摘要:
本发明公开了一种采用多数据源采集技术用于游客画像分析的方法,具体包括以下步骤:S1、分词:首先通过分词算法将预先采集的游客画像数据转化为词语列表,S2、特征选择:然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择,实现游客画像特征属性的提取,S3、 全部
背景技术:
目前现有数据采集非常依赖模型以及算法,如果想要得到精准的结论,需要建立 模型来描述问题,同时,需要理顺逻辑,理解因果,设计精妙的算法来得出接近现实的结论, 因此,一个问题,能否得到最好的解决,取决于建模是否合理,各种算法的比拼成为决定成 败的关键。 举例来说,假设解决某一问题有原有算法A和我们的算法B。在小量数据中运行时, 算法A的结果明显优于算法B。也就是说,就算法本身而言,算法A能够带来更好的结果;然 而,我们发现,当数据量不断增大时,算法B在大量数据中运行的结果优于算法A在小量数据 中运行的结果。当数据越来越大时,数据本身(而不是研究数据所使用的算法和模型)算法B 保证了数据分析结果的有效性。即便缺乏精准的算法,只要拥有足够多的数据,也能得到接 近事实的结论。 因此当数据足够多的时候,不需要了解具体的因果关系就能够得出结论,例如, Google在帮助用户翻译时,并不是设定各种语法和翻译规则。而是利用Google数据库中收 集的所有用户的用词习惯进行比较推荐,Google检查所有用户的写作习惯,将最常用、出现 频率最高的翻译方式推荐给用户。在这一过程中,计算机可以并不了解问题的逻辑,但是当 用户行为的记录数据越来越多时,计算机就可以在不了解问题逻辑的情况之下,提供最为 可靠的结果。可见,多数据源数据和处理这些数据的分析工具,提供了一条完整的新途径。 由于能够处理多种数据结构,能够在最大程度上利用和打通各类渠道的数据进行 分析。在此出现之前,计算机所能够处理的数据都需要前期进行结构化处理,并记录在相应 的数据库中,但多数据源采集技术对于数据的结构的要求大大降低,各类来源渠道的游客 画像信息的各种维度的信息都可以实时处理,立体完整地勾勒出每一个游客个体的各种特 征。 随着大数据时代的到来,多数据源抓取采集的游客画像数据重复性冗余急剧增 大,这些重复的数据严重影响后期的加工和客户体验,因此对于多数据源采集服务,迫切需 要针对游客画像数据开展去重研究来解决数据重复带来的一系列问题。 对于不同的应用场景,考虑到数据规模、时间开销,去重算法的选择会有所不同, 本发明在此分析不同算法的去重原理以及时间开销,从理论上分析不同算法的优缺点,并 给出具体的实现步骤,为不同需求的应用场景在去重算法的选择上提供选择,Jaccard算法 中的Jaccard系数,又称Jaccard相似度系数,用来评估两个集合之间的相似度和分散度, Jaccard系数越大表明两种游客画像的相似度越大,利用Jaccard去重,首先将游客画像数 据通过分词转化为由词语构成的特征集合,通过检查两个集合的Jaccard系数是否超过指 定的阈值来判断游客画像数据是否重复。 3 CN 111553153 A 说 明 书 2/7 页 传统的Jaccard,基于Merge算法,通过求取两个游客画像的特征集、合交集和并集 的长度比例来衡量之间的距离,计算公式如下所示 从实现的原理上看,传统的Jaccard算法,并没有将两个游客画像数据的长度差异 考虑进去,假设两个游客画像数据重复的数据长度差异很大,例如一个包含1500个单词,一 个包含500个单词,两个游客画像数据的单词交集长度是500,利用传统的Jaccard计算两个 游客画像数据距离,结果是:0.25,传统Jaccard的阈值一般在0.5以上,在这种情况下,就很 容易漏判长度差异大的重复游客画像数据。此外Merge算法的时间复杂度是0(m n)(m和n是 两个集合的长度),不是很高,但当游客画像数据内容很长,数据规模很大时,这个时间开销 将会非常庞大,因此Jaccard算法不适应数据内容较长、数据规模较大的业务场景。
技术实现要素:
(一)解决的技术问题 针对现有技术的不足,本发明提供了一种采用多数据源采集技术用于游客画像分 析的方法,通过去重算法在游客画像数据方面的表现进行研究,并分析不同实现方式的去 重算法之间的精度,召回率和效率的差异,在游客画像去重上表现优异的算法,为数据去重 提供服务。 (二)技术方案 为实现以上目的,本发明通过以下技术方案予以实现:一种采用多数据源采集技 术用于游客画像分析的方法,具体包括以下步骤: S1、分词:首先通过分词算法将预先采集的游客画像数据转化为词语列表; S2、特征选择:然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择, 实现游客画像特征属性的提取; S3、相似度计算:最后基于相似度计算的去重算法对步骤S2提取的特征进行去重。 优选的,所述步骤S1中分词算法为结巴分词算法、IKAnalyzer分词算法或HanLP分 词算法中的一种,结巴分词算法包含精确模式、全模式和搜索引擎模式三种模式, IKAnalyzer分词算法包含细粒度模式和智能模式两种模式,HanLP分词算法包含八个分词 器,其分别为:标准分词、NLP分词、索引分词、N最短路径分词、最短路径分词、CRF分词、极速 词典分词和繁体分词。 优选的,所述步骤S2中特征选择算法为词频TF算法、TF-IDF算法或TextRank算法 中的一种。 优选的,所述词频算法是采用的是相对词频,且相对词频的计算公式为:词频=某 词在某游客画像数据中出现的次数/某游客画像总数据,词频是指词语出现的次数,词频统 计通常不单独被使用,一般是结合其他算法一起使用,应用范围涉及中文分词、研究热点分 析、文本分析等诸多方面,常用词频的计算方式是获取某个词在游客画像数据中出现的次 数,但这种计算方式忽略了游客画像数据中有长短之分,当某一类游客画像数据差距很大, 将不能准确体现游客画像数据之间的差异性,因此在本发明采用的是相对词频。 优选的,所述TF-IDF算法为词频TF和逆数据频率IDF的乘积,且逆数据频率IDF的 4 CN 111553153 A 说 明 书 3/7 页 计算公式为:逆数据频率=log*(数据中的总游客画像数据总数/包含某词的游客画像数据 数),TF-IDF算法和词频算法同样都是常用的加权技术,但相比于词频,TF-IDF能够反映整 个词在一个文本数据集合或者数据库中的“重要程度“,词频仅仅在一定程度上反映一个词 在一个游客画像数据中的重要程度,没有将整个游客画像数据库的大小考虑进去,TF-IDF 广泛应用于自动关键词提取、文本摘要提取等,TF-IDF的主要思想是词语的重要性随着这 个词在游客画像数据中出现的次数成正比,同时随着它在整个游客画像数据集合中出现的 频率成反比,某个词在游客画像数据中的重要程度越大,TF-IDF的值就越大。 优选的,所述TextRank算法的计算对象是从数据转化为文本中的词语或句子,使 每个词语或句子根据此算法会得到相应的权重,具体计算公式为: 特征选择是获取不同词语的权重值,即 把每个词语看成一个节点(Vi),当计算对象是词语时,因为取值都为1,TextRank就蜕变成 PageRank,S(Vi)表示文本中词语i的重要性,In(Vi)是文章中指向词语i的词语集合,|Out (Vi)|表示数据中词语i指向的词语集合的元素个数,词语之间的相邻关系,依赖于窗口大 小的设置,一个窗口中的任意两个词语之间都是相邻的,并且边都是无向无权的,由于 TextRank需要经过多次迭代,因此特征获取的时间复杂度很高。 优选的,所述步骤S3中相似度计算的去重算法为基于短段数据的Jaccard算法,针 对传统Jaccard对属于包含关系重复的数据识别能力低的问题,本发明提出一种基于短数 据的Jaccard算法,通过求取两个特征集合交集占短数据集合长度的比例来衡量两个数据 的距离,基于短段数据的Jaccard算法的计算公式为: 在这种 改进下,属于包含关系的重复游客画像数据,即使数据长度差异很大,求取的数据Jaccard 系数也会随数据相似程度的增大而增大,对于传统Jaccard中的例子,使用改进的Jaccard 计算,两个数据的距离就是1,即完全重复,符合实际情况,改进的Jaccard的时间复杂度和 传统Jaccard相同,但是相比传统的Jaccard少了求并集的过程,因此时间消耗要少。 (三)有益效果 本发明提供了一种采用多数据源采集技术用于游客画像分析的方法。与现有技术 相比具备以下有益效果:该采用多数据源采集技术用于游客画像分析的方法,通过针对在 数据服务中去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、 CosineSimilarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法 搭配,并对传统Jaccard和SimHash进行了改进,分别产生新算法:Jaccard和基于 CosineDistance的SimHash,针对比较对象众多实验效率低下的问题,提出了先纵向比较筛 选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000游客画像样 本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较 传统Jaccard,召回率提高了17%,效率提高了50%;MinHash 结巴全模式分词和Jaccard IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定 性很好,其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好,在这 种改进下,属于包含关系的重复游客画像数据,即使数据长度差异很大,求取的数据 5 CN 111553153 A 说 明 书 4/7 页 Jaccard系数也会随数据相似程度的增大而增大,对于传统Jaccard中的例子,使用改进的 Jaccard计算,两个数据的距离就是1,即完全重复,符合实际情况,改进的Jaccard的时间复 杂度和传统Jaccard相同,但是相比传统的Jaccard少了求并集的过程,因此时间消耗要少, 本发明能够支持多数据源的游客画像数据采集,并且数据仓库使用多维数据模型建模,游 客画像数据加工可精确去重,同时本发明支持多语言平台的开发应用。 附图说明 图1为本发明的工作原理图。