logo好方法网

一种新闻影响力计算方法、装置、计算机设备及存储介质


技术摘要:
本发明属于数据分析领域,为一种新闻影响力计算方法、装置、计算机设备及存储介质;其中方法包括采集历史新闻数据,确定出新闻来源平均阅读数指标和新闻类型热度指标;按照用户行为增长率选择出用户行为趋于稳定的历史新闻数据;确定出与用户行为相关的新闻评论数指标  全部
背景技术:
新闻影响力是指新闻经过传播后对接收者个体、群体乃至整个社会产生的影响能 力。网络新闻作为网络舆论和社会舆论形成的主要源泉,准确判断它的影响力尤为重要。对 网络新闻影响力的计算及评估广泛应用于新闻舆情发现与挖掘、新闻广告精准投放、新闻 业绩评估与考核等领域。 新闻影响力计算面临的关键问题是:(1)与新闻相关的指标繁多,如果没有筛选出 与影响力计算相关的指标,会使得结果与真实情况相差甚远。(2)当前影响力计算主流方法 采用的是基于线性加权的方法,它的权值设定方式依靠人工选取,较为主观。(3)在数据采 集阶段,容易出现数据缺失的状况。如果影响力计算的关键指标缺失,这将直接导致无法计 算影响力。 研究人员提出了许多方法来计算新闻影响力,主要有以下三种方法。 基于线性加权的方法。结合信源网站的影响力因子、新闻转载率、新闻回复率、时 间因素四个指标,采用人工对指标赋权重的方法,进行影响力的计算。具体地,时间因素通 过将发布时间与新闻采集时间之差代入到对应的类别新闻的时间影响函数中求得;信源网 站的影响力因子则是通过中国互联网指数系统中的各网站人气指数来确定;新闻转载率的 计算,由于点击量难以获取,通过计算新闻间相似度确定转载关系后将转载关系应用到HIT 算法求得;新闻回复率的计算,同样因为点击量的不可获取,使用将评论数直接对应到回复 率的方法得到。 基于历史事件的方法。热门新闻都不是孤立存在的,它们总是存在着一系列的持 续报道,利用这一特性,将新闻通过聚类算法转换成以事件为单位,根据大量的历史事件语 料库来判断各个事件的重要性。 基于链接结构。该方法主要通过考量各个新闻网站间的网络关系,来衡量出各网 站的影响力。需要分析出新闻网站之间的引用关系网络,将网络中的节点看作是各个发布 新闻的机构,整体网络为有向图,连线从被引机构指向引用媒体。在该方法中,通过计算平 均出度、密度、平均路径长度、直径、聚类系数来描述引用关系网络的基本结构。平均出度表 示平均每个网站的新闻被几个网站引用;密度表示网络中节点间连边的密集程度,即新闻 网络的整体联系紧密程度;平均路径长度表示两个节点间的距离,即一条信息平均经过几 次传播可以到达另一个网站;直径指网络中任意两节点间距离的最大值,表示最远的两个 网站间的距离。在此前提下,直接利用各个节点的出度作为衡量影响力的重要标志,同时使 用度中心性考察邻近节点之间的平均影响力。 这些方法虽然大体上能够计算出新闻影响力,并且各有各的优点,但不可避免的 是,也存在着以下的几个不足之处:采用人工对指标赋权重,这样使得结果比较主观,会使 4 CN 111552882 A 说 明 书 2/13 页 得结果与实际不符;将新闻在历史数据中筛选出相近的,再与其影响力相匹配,这种方法需 要庞大的新闻数据集,可操作性较低;将新闻作为节点,构建网络,再利用节点关系求影响 力的方法,同样需要庞大的数据集,并且还存在着大量的没有引用关系的新闻。 综上所述,可知现有技术中计算新闻影响力的技术方案均存在准确率低、可操作 性弱、运算复杂等缺陷,因此有必要提出改进的技术手段解决上述问题。
技术实现要素:
有鉴于此,本发明提出了一种新闻影响力计算方法、装置、计算机设备及存储介 质,能够解决新闻影响力计算中时间序列指标的缺失问题,并采用BP神经网络实现赋权和 计算影响力,提高影响力计算的准确率。 在本发明的第一方面,本发明提供了一种基于BP神经网络的新闻影响力计算方 法,所述方法包括: 采集历史新闻数据,并确定出新闻来源平均阅读数指标;所述历史新闻数据至少 包括新闻类型热度指标; 按照用户行为增长率选择出用户行为趋于稳定的历史新闻数据; 从稳定的历史新闻数据中确定出与用户行为相关的新闻评论数指标和新闻阅读 数指标; 按照新闻内容的相似度和新闻标签的个数对不同的历史新闻数据进行划分,并划 分出多个事件编号; 建立出影响力计算模型; 从具有相同事件编号的历史新闻数据中,按照各指标通过影响力计算模型确定出 该历史新闻数据的影响力,并对该历史新闻数据打上等级标签; 基于打上等级标签的历史新闻数据,通过BP神经网络对所述影响力计算模型进行 训练; 将采集到的待计算新闻数据输入到训练后的影响力计算模型中,输出待计算的新 闻影响力,并按照等级标签输出对应的新闻影响力。 在本发明的第二方面,本发明提供了一种基于BP神经网络的新闻影响力计算装 置,包括: 数据采集模块,用于采集历史新闻数据和待计算新闻数据; 指标标定模块,用于确定出影响力计算模型的各个指标,包括新闻来源平均阅读 数指标、新闻类型热度指标、新闻评论数指标以及新闻阅读数指标; 模型建立模块,用于构建影响力计算模型; 标签标定模块,用于对历史新闻数据的影响力进行标签标定; BP神经网络模块,利用进行标签标定的历史新闻数据对影响力计算模型进行训 练; 计算模块,用于根据影响力计算模型计算出历史新闻数据的影响力或根据训练后 的影响力计算模型计算出待计算新闻数据的影响力。 在本发明的第三方面,本发明提供了一种计算机设备,包括存储器,处理器及存储 在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述一种 5 CN 111552882 A 说 明 书 3/13 页 基于BP神经网络的新闻影响力计算方法。 在本发明的第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计 算机程序,所述计算机程序被处理器执行实现上述一种基于BP神经网络的新闻影响力计算 方法。 本发明的有益效果:本发明考虑到对新闻影响力更有支持性指标,使得设计出影 响力计算模型的准确率更高。使用LSTM预测出缺失的关键时间序列数据,避免数据浪费。在 模型中的权值的设定上,采用更准确的BP神经网络这一有监督算法来计算,解决人工赋权 过于主观的问题。使用用户行为趋于稳定后的评论数和阅读数,消除时间因素对结果带来 的误差。最终达到提高新闻影响力计算准确性的目的。 附图说明 图1为本发明的一种基于BP神经网络的新闻影响力计算方法流程图; 图2为本发明中获取数据的流程图; 图3为本发明中计算指标的流程图; 图4为本发明采用三层BP神经网络拓扑结构图; 图5为本发明中计算影响力的流程图; 图6为本发明中一种可以计算历史新闻影响力的计算方法流程图; 图7为采用本发明与其他两个现有技术的效果模型对比结果图; 图8为本发明中一种可以计算当前新闻影响力的计算方法流程图; 图9为本发明中一种基于BP神经网络的新闻影响力计算装置结构图; 图10为本发明中一种基于BP神经网络的新闻影响力计算计算机设备结构图。
下载此资料需消耗2积分,
分享到:
收藏