logo好方法网

一种图文新闻的视觉自动生成方法及系统


技术摘要:
本发明涉及一种图文新闻的视觉自动生成方法及系统,属于图文新闻生成技术领域,解决了现有图文新闻视觉生成过程中生产效率低、人工劳动成本高的问题。方法步骤如下:接收基于图文新闻的新闻文档和新闻图片;基于新闻文档,确定图文新闻的新闻类型;获取新闻类型在特征  全部
背景技术:
“自动化新闻”早已成为人工智能在媒体行业的代表性应用之一。但大部分研究都 停留在新闻视频与新闻文本内容的生成上,例如M.Daneshi  等人提出的EigenNews系统以 及印度尼西亚城市选举的数据驱动新闻生成,他们都着重于研究基于文本或者视频方面的 新闻服务。而如今人们往往会选择通过浏览各种网络平台来获取信息,例如微博、微信公众 号等渠道。这些网络平台发布的资讯主要采用模板结合图片、文本来形成推文。我们将这类 推文称为图文新闻。图文新闻的优势在于会根据新闻类型以及新闻表述的情感选择排版方 式、色彩风格与外观形象,这使得图文新闻视觉(即排版、样式)的自动化生成显得尤为重 要。。 参考相似的工作有Zhang ,Cunjun等人提出的AI  Painting,他们致力于研究智能 生成绘画,利用用户输入的关键词进行绘画风格迁移,生成新的绘画。T.V.Vo,H.Soh,Best  Long  Paper  Runner-up提出的Generation Meets  Recommendation,希望生成出来一组新 的item(每个item是由一组feature定义的),能够让所有的用户都喜欢。这些工作大部分都 用到了机器学习或深度学习以及现有的数据库进行计算以及迭代。 按照传统智能新闻生成思路,需要对前端标签代码进行机器学习或深度学习方面 的训练,由于缺乏相关数据集以及前端标签代码复杂度较高,与图片或文字的自动化生成 截然不同,导致该方法只存在于理论层面,缺乏实用性。另外在新闻生产的流水线中,截止 2017年年底微信公众号已经超过1000万个,活跃账号350万个。由于每一篇推文有着不同的 排版样式与风格,为吸引流量,新闻工作者在图文新闻的视觉生成上投入了大量的人工劳 动成本。而现有技术中不存在图文新闻的视觉自动生成方法,无法解决现有图文新闻视觉 生成过程中生产效率低、人工劳动成本高的问题。
技术实现要素:
鉴于上述的分析,本发明旨在提供一种图文新闻的视觉自动生成方法及系统,用 以解决现有图文新闻视觉生成过程中生产效率低、人工劳动成本高的问题。 本发明的目的主要是通过以下技术方案实现的: 一方面,提供了一种图文新闻的视觉自动生成方法,所述方法步骤如下: 接收基于图文新闻的新闻文档和新闻图片; 基于所述新闻文档,确定所述图文新闻的新闻类型; 获取所述新闻类型在特征优化个体库中对应的基础视觉特征组,将所述基础视觉 特征组作为所述图文新闻的基础样式;利用所述基础样式渲染所述新闻文档和新闻图片, 得到图文新闻的基础视觉设计结果; 5 CN 111583363 A 说 明 书 2/13 页 获取所述新闻文档的情感,从情感样式模板库中选取匹配于所述新闻文档的情感 的情感样式模板;利用所述情感样式模板渲染所述基础视觉设计结果,得到所述图文新闻 的视觉生成结果。 在上述方案的基础上,本发明还做了如下改进: 进一步,所述特征优化个体库通过以下方式建立: 获取各新闻类型的新闻文档样本,生成新闻文档样本集; 确定新闻文档样本集中每一条新闻文档样本对应的用户满意度; 建立新闻文档样本的基础视觉特征组与用户满意度之间的数学模型; 将建立好的各类新闻类型下的基础视觉特征组与用户满意度之间的数学模型,作 为适应度函数输入遗传算法中,经遗传算法训练收敛后,得到各新闻类型对应的最优的基 础视觉特征组,形成所述特征优化个体库。 进一步,采用多元线性回归分析方式建立新闻文档样本的基础视觉特征组与用户 满意度之间的数学模型: 其中,m表示基础视觉特征组中基础视觉特征类型个数;n表示各基础视觉特征类 型下的类目个数;xij表示第i个基础视觉特征类型中的第j  个类目的特征值,xij取0表示不 具备该特征,取1表示具备该特征;aij表示当前第i个基础视觉特征类型下、第j个类目的特 征值系数;y表示当前新闻文档样本的用户满意度; 通过多元线性回归算法估算出aij的值,由此建立起用户满意度与基础视觉特征组 之间的数学模型。 进一步,所述从情感样式模板库中选取匹配于所述新闻文档的情感的情感样式模 板,执行以下操作: 获取当前新闻文档的情感倾向分值; 计算新闻文档的情感倾向分值与情感样式模板库中各情感样式模板的情感倾向 分值的余弦相似度,从相似度高于相似度阈值的情感样式模板中随机选取某一情感样式模 板作为此次匹配于所述新闻文档的情感的情感样式模板。 进一步,所述情感样式模板中至少包括风格、颜色、图文排版、背景类型、文本信 息、情感倾向;其中,所述情感样式模板的情感倾向分值[pos,neg]; pos=α×tpos (1-α)×cpos neg=1-pos 其中,tpos表示所述文本信息的文本情感分值中的文本正向情感偏向;cpos表示 所述颜色的色彩情感分值中的色彩正向情感偏向。 进一步,执行以下操作获取tpos: 提取所述情感样式模板中所述文本信息中的分词、并去除分词中包含的停用词; 将去除停用词后的分词与语料库进行匹配,得到匹配于语料库的情感词,并计算 情感词的词频; 将情感词按照词频从高到低排序,选取排名靠前的一定数量的情感词,形成热度 词库; 对于热度词库中的正向情感词: 6 CN 111583363 A 说 明 书 3/13 页 正向情感词分值=该词前l位是否存在否定词(-1,1)×该词强度(1、3、5、7、9) 对于热度词库中的负向情感词: 负向情感词分值=(-1)×该词前l位是否存在否定词(-1,1)×该词强度(1、3、5、 7、9)  则文本正向情感偏向: 其中,l表示排名靠前的预设个数。 进一步,执行以下操作获取cpos: 将所述情感样式模板中的所述颜色输入至色彩情感模型,由所述色彩情感模型分 类得到所述情感样式模板中的颜色对应的色彩情感分值; 基于所述颜色对应的色彩情感分值,得到所述情感样式模板的色彩正向情感偏向 cpos。 进一步,通过执行以下操作建立所述色彩情感模型: 确定语料库中各情感词的情感代表色; 以情感词的情感代表色和对应的情感词的分数作为所述色彩情感模型的数据集; 通过SVM训练所述色彩情感模型的数据集,得到所述色彩情感模型中情感词的情 感代表色和对应的情感词的分数之间的关系。 进一步,通过执行以下操作确定所述图文新闻的新闻类型: 提取所述新闻文档的分词向量特征值,将所述新闻文档的分词向量特征值输入至 新闻分类模型,经新闻分类模型分类得到所述图文新闻的新闻类型。 进一步,通过执行以下操作建立所述新闻分类模型: 将包含不同新闻类型的新闻文档样本作为分类数据集; 为各新闻文档样本赋予相应新闻类型的标签值; 提取各新闻文档样本的分词向量特征值,将各新闻文档样本的分词向量特征值及 相应的标签值输入新闻分类模型,进行贝叶斯分类,训练得到最终的新闻分类模型。 另一方面,提供了一种图文新闻的视觉自动生成系统,所述系统包括: 图文新闻内容接收模块,用于接收基于图文新闻的新闻文档和新闻图片; 新闻类型确定模块,用于基于所述新闻文档,确定所述图文新闻的新闻类型; 基础视觉层处理模块,用于获取所述新闻类型在特征优化个体库中对应的基础视 觉特征组,将所述基础视觉特征组作为所述图文新闻的基础样式;利用所述基础样式渲染 所述新闻文档和新闻图片,得到图文新闻的基础视觉设计结果; 详细视觉层处理模块,用于获取所述新闻文档的情感,从情感样式模板库中选取 匹配于所述新闻文档的情感的情感样式模板;利用所述情感样式模板渲染所述基础视觉设 计结果,得到所述图文新闻的视觉生成结果。 本发明有益效果如下: 本发明提供的图文新闻的视觉自动生成方法及系统,通过处理接收到的新闻文档 和新闻图片,得到图文新闻的基本样式、情感样式模板,并通过图文新闻的基本样式、情感 样式模板,完成图文新闻的构造、渲染过程,从而实现了图文新闻的自动生成,有效提高图 7 CN 111583363 A 说 明 书 4/13 页 文新闻的产量与效率,减轻新闻工作者的负担,满足图文新闻视觉自动化的需求。 本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本 发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而 易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以 及附图中所特别指出的内容中来实现和获得。 附图说明 附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图 中,相同的参考符号表示相同的部件。 图1为本发明实施例1中图文新闻的视觉自动生成方法流程图; 图2为本发明实施例1中另一图文新闻的视觉自动生成方法流程图; 图3为本发明实施例1中校庆新闻情感分布折线图; 图4为本发明实施例1中校庆新闻情感分布饼状图; 图5为本发明实施例1中图文新闻的视觉自动生成结果效果图; 图6为本发明实施例1中另一图文新闻的视觉自动生成结果效果图; 图7为本发明实施例2中图文新闻的视觉生成系统结构示意图。
分享到:
收藏