技术摘要:
本发明公开一种新闻资讯聚合分析方法及系统、终端、存储介质,其中方法主要包括:基于标准聚合接口定义的数据采集配置采集原始数据,根据标准聚合接口定义的结构化规则进行数据聚合;根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重预处理得到 全部
背景技术:
随着互联网的日益普及,网络资料、新闻资讯进入大爆炸时代,越来越多的地方需 要进行新闻聚合分析,从舆情分析到大众资讯阅读,目前常见的技术方案主要是rss订阅、 火车头等网页抓取工具或者开源的一些python抓取脚本等,他们大都存在一些问题,rss订 阅已经逐步被淘汰,火车头等抓取工具没法系统化、持续化维护运作、开源的脚本更是功能 短缺,没法满足实际应用需求;同时由于采集源持续的更新,需要实施预警功能以持续维护 保证系统正常运转;最后大部分方案只做到了采集聚合,没有数据处理,大量冗杂的信息散 乱的堆砌,对下一步数据处理产生极大的障碍。
技术实现要素:
本发明实施例提供一种新闻资讯聚合分析方法及系统、终端、存储介质,在数据采 集聚合后,对数据进行去重预处理再进行分析归类,可以为大数据分析提供便捷满足特定 需求的可持续化分析处理的过程,解决当下新闻源杂乱、内容结构不统一、新闻资讯量巨大 的采集难题。 本发明实施例第一方面提供了一种新闻资讯聚合分析方法,可包括: 基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定 义的结构化规则进行数据聚合; 根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重 预处理得到结构化数据; 根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。 进一步的,所述方法还包括: 将聚合后的数据存储至数据库集群。 进一步的,根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据 进行去重预处理得到结构化数据,包括: 根据聚合器的接口定义的结构化规则和中文分词技术对每篇文章对应的聚合数 据进行结构化分析和智能语义分析; 根据分析结果获取关键词,模拟人工阅读文章推断文章表述的含义,自动获取解 析后的结构化数据。 进一步的,所述归类报告的报告模板为自定义内容模板。 进一步的,所述聚合器包括标准聚合器和可扩展自定义聚合器。 进一步的,所述方法还包括: 采用可扩展自定义聚合器进行实时告警,并输出采集报告。 4 CN 111581480 A 说 明 书 2/6 页 本发明实施例第二方面提供了一种新闻资讯聚合分析系统,可包括: 采集聚合模块,用于基于标准聚合接口定义的数据采集配置采集原始数据,根据 所述标准聚合接口定义的结构化规则进行数据聚合; 去重预处理模块,用于根据聚合器的接口定义的结构化规则和中文分词技术对聚 合后的数据进行去重预处理得到结构化数据; 数据归类模块,用于根据结构化数据在不同维度的定义进行数据归类,并输出归 类报告。 进一步的,系统还包括: 数据存储模块,用于将聚合后的数据存储至数据库集群。 进一步的,去重预处理模块包括: 数据分析单元,用于根据聚合器的接口定义的结构化规则和中文分词技术对每篇 文章对应的聚合数据进行结构化分析和智能语义分析; 结构化解析单元,用于根据分析结果获取关键词,模拟人工阅读文章推断文章表 述的含义,自动获取解析后的结构化数据。 进一步的,归类报告的报告模板为自定义内容模板。 进一步的,聚合器包括标准聚合器和可扩展自定义聚合器。 进一步的,系统还包括: 实时告警模块,用于采用可扩展自定义聚合器进行实时告警,并输出采集报告。 本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有 多条指令,所述指令适于由处理器加载并执行以下步骤: 基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定 义的结构化规则进行数据聚合; 根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重 预处理得到结构化数据; 根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。本发明实施 例第四方面提供了一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程 序,所述计算机程序适于由所述处理器加载并执行以下步骤: 基于标准聚合接口定义的数据采集配置采集原始数据,根据所述标准聚合接口定 义的结构化规则进行数据聚合; 根据聚合器的接口定义的结构化规则和中文分词技术对聚合后的数据进行去重 预处理得到结构化数据; 根据结构化数据在不同维度的定义进行数据归类,并输出归类报告。 本发明的有益效果:通过将新闻资讯数据的聚合分析过程分为采集聚合、去重预 处理和自动归类三大步骤,采用具有标准化接口且可自由扩展定义的聚合器进行数据聚 合,在数据归类时采用可自由扩展归类策略以及报告内容模板。极大的解决了当下新闻源 杂乱、内容结构不同意、新闻资讯量巨大的采集难题。同时,在自动去重预处理时,可以最大 化的去除噪音和同质内容,极大的减轻了下一步数据处理的压力;通过结构化数据分析和 存储,为进一步做大数据分析提供了规整的数据源;通过实时告警,方便了后期系统的维护 和更新。 5 CN 111581480 A 说 明 书 3/6 页 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1是本发明实施例提供的一种新闻资讯聚合分析方法的流程示意图; 图2是本发明实施例提供的标准聚合接口定义参数的架构图; 图3是本发明实施例提供的去重预处理架构图; 图4是本发明实施例提供的数据归类结构示意图; 图5是本发明实施例提供的一种新闻资讯聚合分析系统的结构示意图; 图6是本发明实施例提供的去重预处理模块的结构示意图; 图7是本发明实施例提供的一种终端的结构示意图。