技术摘要:
本发明公开一种面向区块链领域的事件与事件要素抽取方法及装置,该方法包括:步骤一、基于区块链关键词图的web文本聚类,得到区块链文本聚合词图;步骤二、基于所述的区块链文本聚合词图,构建图注意力机制的图表示学习的事件及其要素抽取方法;首先以区块链文本聚合词 全部
背景技术:
近年来,随着信息技术的发展,行业最终将走向工业互联网的状态。通过区块链、 大数据、人工智能等技术,数字资产与服务将更加高效、快捷、安全。区块链以公开透明和不 可篡改作为核心特点,未来有望渗透与应用在数字货币、金融等各个行业,比如2016年,蚂 蚁金服与中华社会救助基金会合作,在支付宝爱心捐赠平台上线了区块链公益筹款项目 “听障儿童重获新声”,为10名听障儿童筹款。可见,区块链平台逐步面向公益慈善、政务协 同和物资管理、企业融资、公民身份等面临问题的领域。那么对于web文本而言,与区块链平 台结合的事件变得公开透明化,使得面向区块链文本分析比如事件抽取与事件要素(比如 区块链实体)分析变得尤为重要。 现有的文本抽取算法的主要问题的文本表示是高维度高稀疏的,特征表达能力很 弱,此外需要人工进行特征工程,成本很高。 同时近年来,已经有大量的研究集中在图表示学习的web文本分析上,图是可以在 很多方面使用的数据结构。图注意网络(Graph Attention Network,GAT)为我们提供了一 种非常有效的方法来分析图结构数据。它是使用邻域信息增强表示的模型,这种图结构表 示学习在研究中得到了广泛的应用。
技术实现要素:
本发明的目的在于提出一种面向区块链领域的事件与事件要素抽取方法及装置, 包括基于区块链关键词图的web文本聚类,基于图注意力网络的事件抽取与事件要素抽取 方法。其中web文本聚类在与聚合根区块链相关的关键词图并实现文本聚类。基于图注意力 机制的网络表示学习实现事件抽取与要素抽取。在本发明中,对于区块链领域的web事件抽 取与事件要素抽取,在对web文本进行聚合后进行关键词图构建,基于图注意力网络表示学 习建模,不仅能够编码文本语义信息还能够编码词图结构信息,增加事件抽取与事件要素 抽取的准确性。 本发明采用了下列技术方案: 一种面向区块链领域的事件与事件要素抽取方法,步骤如下: 步骤一、基于区块链关键词图的web文本聚类,得到区块链文本聚合词图,如图1所 示,具体如下: S11、以区块链为种子词筛选文本中含有种子词的文本; S12、对文本进行分词、去除停用词处理,使用Gensim工具对区块链文本进行预训 练学习,得到词的向量表示。 S13、使用词图聚类算法,获得语义相近的文本词图簇。 4 CN 111597333 A 说 明 书 2/5 页 S14、计算每个文本中的词语的TF-IDF值,提取跟种子词相关的词中TF-IDF值最大 的30个词语。 S15、取步骤S14得到的这30个词语的词向量的平均值作为该区块链语义相关文本 的向量表示。 S16、指定聚类簇个数k的候选集合,使用高斯混合模型在不同k下进行聚类,选取 轮廓系数最大的k的聚类结果作为最终结果。轮廓系数的公式如下。 其中,ai表示节点i到簇内其它点的欧式距离的平均值,bi表示节点i到其他簇节点 的平均欧式距离的最小值。 S17、设置轮廓系数simi阈值,得到阈值下的区块链文本聚合词图。 步骤二、基于步骤一得到的区块链文本聚合词图,构建图注意力机制的图表示学 习的事件及其要素抽取方法,如图2所示。首先以区块链文本聚合词图作为输入,基于图注 意力模型GAT的深度学习模型进行词的表示学习,以事件及其要素进行抽取的模型训练直 到模型收敛。基于收敛的模型实现Tensorflow的后台接口,而对于新的待抽取的文本通过 该后台接口进行预测,返回输出的抽取值。具体而言: S21:图注意力机制的关键词图表示学习建模 图注意力网络表示学习定义为学习词图的隐特征向量表示 在此公式中,softmax为判断该词即抽取的内容是否属于事件的分类函数,W为参 数矩阵,在模型建模中自行学习,而 表示该词在词图中的邻居节点j。其中aij为注意力权 重,定义为: 其中eij定义为两个事件的隐向量相关表示向量: 其中,w为eij函数里的参数矩阵,在模型建模中自行学习, 为单位向量,便于调整 参数维度, 为单位向量的转置。 S22、通过模型设计,实现针对事件触发词抽取与事件要素的抽取的真是样本,进 行交叉熵损失的模型训练,直到模型收敛。 本发明搭建一种基于图注意力机制GAT模型的神经网络的事件及其要素抽取装 置,包括: 5 CN 111597333 A 说 明 书 3/5 页 信息输入模块,用于将外部数据库所获取的源文本进行标准化文本处理后导入; 基于区块链关键词图的文本聚合模块,应用上述词图聚合方法,对输入源文本进 行词图构建与区块链文本词图的聚合处理; 基于图注意力模型GAT的深度学习模型的事件及其要素抽取模块,实现模型的 Tensorflow的代码做成后台服务,并基于web的http请求解析,然后调用模型进行抽取。 信息输出模块,将所述事件及其要素抽取模块中抽取结果以数据库形式输出。 本发明一种面向区块链领域的事件与事件要素抽取方法及装置,其所达到的技术 效果为:该方法基于区块链关键词图的文本聚合模块,应用词图聚合方法,对输入源文本进 行词图构建与区块链文本词图的聚合处理;可以准确提取事件及其事件要素。 附图说明 图1所示为区块链领域的web文本进行聚合与关键词图构建算流程图; 图2所示为图注意力模型GAT的深度学习模型的事件及其要素抽取实现流程图。