技术摘要:
本发明提供一种基于知识产权大数据的情报调查方法和系统及存储介质。本发明的情报调查方法通过大数据的手段挖掘关联实体关系,并利用语义推理和传递推理理论对实体关系进行扩展、校验和加强,增强实体关系的准确度与可能概率。从多个维度通过多种关联关系,包括为企业 全部
背景技术:
在当前信息化的时代,每天产生巨量的信息数据,对于企业而言,拥有的数据维度 极为丰富,工商数据、人员数据、经营数据、科技创新数据等等,如何从纷繁复杂的数据中梳 理出有价值的信息,从而真实准确刻画企业画像,洞察企业的科技创新实力,识别企业的投 资价值,需要耗费大量的人力物力。传统的投资人在筛选项目时,大部分靠人工,一年只能 看200个项目,而经过复杂的评估计算后,最终确定的项目可能只有少数几个,效率极低。 在互联网得到普及应用的情况下,大数据时代已经正式到来。“大数据”也被称为 巨量资料,它指网上图像、文本、音频和视频等数据所涉及的资料总体量规模巨大,无法用 目前的常用普通软件等处理工具在合理时间内进行处理,也无法整理成为对用户有价值的 资讯。也就是说,大数据具有四个特征,体量巨大、信息密度低、数据类型多、要求的处理速 度快。大数据时代,信息呈爆炸式增长,目前,互联网上的数据每年都会增长50%。在这种时 代背景下,传统的尽职调查方法已经远远不能满足投资机构或金融机构的需要,情报搜集 和分析能力的不足将影响投资决策的方向和力度,尤其在全球信息化、网络化的时代,结合 多学科的先进理论和最新技术来完善和优化竞争情报分析方法与策略,实时快速的从海量 信息中挖掘出决策需要的高层次的知识,成为当前信息处理工作面临的瓶颈问题。在这样 的背景下,迫切需要引进新理论、新思想、新技术,以改善现有的情报分析方法和工具设计, 从而在多维海量的数据空间内挖掘出深层的、有价值的情报。 为此,本发明提出一种基于知识产权大数据的情报调查方法、系统和存储介质,面 向大数据视野研究企业竞争情报与竞合网络,通过全面准确的采集与企业产生关联的多维 多元数据信息,加强数据挖掘与处理,针对不同维度建立评分模型与标准,分析企业科技创 新“硬实力”,并预判是否存在负面因素。利用本发明的系统,投资机构和商业银行等金融机 构可以获得准确、及时、有效、全面的企业投资信息支持,以提高对目标企业的敏感性和反 应速度;做出准确的投资决策。
技术实现要素:
本发明需解决的技术问题是:传统的知识产权情报信息调查方式,受于技术限制, 调查数据量较小且维度较单一,在数据爆炸增长的大数据时代,企业的知识产权大数据情 报涵盖了知识产权数据信息、工商注册企业数据信息、企业投资和融资数据信息等多维信 息,在面对上述复杂情报时,传统方法无法快速厘清企业关系网络中的实体关系,洞察力较 弱,且在面对虚假信息时,明辨真伪的能力不足,无法全面、清楚且准确的反应企业的真实 情况。所以传统的情报调查方式对知识产权大数据的利用不足,对目标对象的实体价值和 市场风险的调查存在缺失,不足以帮助情报调查人员快速高效做出决策。 4 CN 111737477 A 说 明 书 2/9 页 为了解决上述技术问题,本发明提出一种基于知识产权大数据的情报调查方法, 包括以下步骤: S1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构 化文本、非结构化文本、其他数据信息; S2、数据处理步骤:包括数据清洗,数据分类,添加标签; S3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系; S4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库。 进一步的,在数据获取步骤中,其中多元多样化的数据信息包括知识产权数据信 息、工商注册企业数据信息、企业投资和融资数据;将购买自第三方的数据信息直接录入数 据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文 件根据预定规则解析后提取到数据库中;来自网页上的非结构化数据通过网络蜘蛛技术抓 取并将获取的页面信息存入数据库中。 进一步的,数据处理步骤包括数据清洗预加工,数据分类聚类以及模型建立与分 析步骤。 作为本发明对数据清洗预加工步骤的改进,数据清洗过程包括“重复数据清洗”、 “缺失数据填充”和“纠正或删除错误数据”三个部分。 进一步的,对于重复数据的清洗,依赖于现有的excel去重程序即可实现全自动去 重。 进一步的,对于缺失数据的补充,首先通过机器自动标引的方式查找并圈定缺失 数据范围,之后,根据各种数据缺失原因采用机器与人工共同补正的方式进行填充。 进一步的,在数据获取步骤中采集到的错误数据,如果是偶发的随机性错误,借助 全人工的方式逐一删除或纠正即可;如果同类错误数据批量出现,则通过matlab程序对错 误数据进行纠正。 进一步的,在分类聚类处理步骤中,采用切词算法将连续汉字构成的句子依据特 定的原则切分成词,并利用TF-IDF算法进行关键词的提取。 进一步的,采用词聚类算法对切词步骤得到的待筛选的词语转换成向量空间中的 向量,对这些向量进行聚类,从而提取出关键词。 进一步的,完成切词的分类聚类处理后,对所提取的关键词添加标签,并将其作为 模型分析的计算指标。 作为本发明的实施方式之一,对关键词添加的标签包括实体类型标签,例如企业、 高校院所、研究机构、个人;关系类标签,例如股东、投资、并购、高管、技术合作、技术转移、 技术许可、工程师流动、高管流动、竞争、上下游;行业类标签,包括但不限于农业、通信业、 林业、医药制造业、金属采掘业;地址类标签,例如国别、省市、街道、园区、邮政编码;身份类 标签,包括但不限于董事、监事、总经理、院士、教授、工程师;时间类标签,包括但不限于专 利申请日、专利申请年、专利公开日、专利公开年、任职日期、任职年限、投资时间。 进一步的,本发明的数据获取、数据处理步骤完成后,进入实体关系挖掘步骤。 进一步的,实体关系挖掘步骤包括建立数据样本空间,进行样本空间修剪以及建 立基于Hadoop的关系挖掘处理方案三个步骤。 进一步的,本发明在训练数据样本空间中包含n个样本,分别是X1、X2、X3、……Xn。 5 CN 111737477 A 说 明 书 3/9 页 利用语义序列核函数对每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相 似度s,其中s为0~1之间的实数。 进一步的,对于训练数据样本空间中的全部n个样本,利用层次聚类方法,将训练 数据样本空间进行聚类。在聚类时采用平均相似度进行簇间度量。度量公式为: 式中,li、lj代表训练样本空间中的子簇,ni、nj分别代表第i个和第j个样本,p、p’代表 各簇中的样本。 在聚类过程中,凝聚的层次聚类方法首先将训练样本空间中相似度最大的样本归 为一个簇,进行迭代合并,直到簇间相似度满足终止阈值: 其中终止阈值 设置为0.9~1。 进一步的,在获得层次聚类后的样本簇后,根据预先设定的核心关联关系,基于定 义的推理规则对候选关联实体对进行推理,得到更多的扩展关联实体关系。 作为本发明的实施方式之一,所述核心关联关系包括但不限于股东、投资、并购、 高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游。 作为本发明的实施方式之一,所述推理规则包括语义推理和传递推理。 作为本发明的实施方式之一,采用语义推理对两个实体进行关联关系挖掘与扩 展。 作为本发明的实施方式之一,采用传递推理对三个实体进行关联关系挖掘与扩 展。 作为本发明的实施方式之一,对于每一个实体均可进行一级以上的关系挖掘扩 展,扩展级数最多可以达到十级,即,最终形成关于每个单独实体的按紧密程度依次衰减的 十级关系圈。 作为本发明的另一方面,提供一种基于知识产权大数据的情报调查系统,包括:数 据采集模块、数据处理模块、实体关系挖掘模块和情报信息存储模块。数据采集模块用于获 取多元多样化的数据信息,执行数据获取步骤;数据处理模块用于对获取的数据进行加工 处理,执行数据处理步骤;实体关系挖掘模块则用于建立算法模型并对非结构化文本数据 进行智能分析推理并得到实体与实体间存在的关系;情报信息存储系统用于将挖掘关联的 实体关系存储在关系数据库中。所述基于知识产权大数据的情报调查系统用于执行本发明 的基于知识产权大数据的情报调查方法。 作为本发明的另一方面,提供一种存储介质,其中所述基于知识产权大数据的情 报调查系统以可执行的软件的形式存储在所述存储介质中,用于执行本发明的方法。 本发明有益效果: 本发明提出的基于大数据的知识产权大数据情报调查方法和投融资情报系统,具有如 下优点。 1.用大数据的思想转变传统情报信息调查的思维与方式,将从不同维度与不同途 径获取的多种格式数据碎片进行整合处理。以大数据的方法处理文本数据,挖掘关联实体 6 CN 111737477 A 说 明 书 4/9 页 关系,更高的运算效率有助于快速高效发现更多的实体关系。 2.通过大数据的方法挖掘实体关系,并利用语义推理和传递推理逐步校验与加强 实体关系的可能概率与准确性,获得更接近实体在社会网络中的真实网络关系。为情报调 查人员带来更好的洞察力和更大的商业利益。 3.本发明的基于知识产权大数据的情报调查方法,通过对海量的产品数据进行清 洗、处理和不同维度的交叉联系分析,使得各个信息之间互相验证互相比较真伪,提高了调 研数据的容错性,最终得到真实可靠的实体关系。有助于准确描绘实体社会关系圈及竞合 网络,对实体的整体实力作出准确预测。 4.本发明的基于知识产权大数据的情报调查系统,融合并集成多维度多元数据信 息,建立对目标对象的多层次画像,从而能够帮助投资机构更加快速高效地形成对目标对 象的全面认知,便于从中识别出投资价值点位和风险水平,从而提高在筛选目标对象时的 反应速度和敏感度。 附图说明 图1为本发明基于知识产权大数据的情报调查方法示意图; 图2为本发明的大数据获取步骤示意图; 图3为本发明的大数据处理步骤示意图; 图4为本发明的实体关系挖掘步骤示意图。