
技术摘要:
本发明公开了一种基于数据本体和列表的海洋数据服务发布方法,包括以下步骤:将海洋环境数据本体模型OEDO中的概念建模为数据服务接口的输入和输出;使用扩展规则将服务发布至优化的快速服务查询列表QSQL;生成一个数据服务索引列表,用于数据访问并改善数据发现。本发 全部
背景技术:
随着信息技术的迅猛发展和海洋观测的发展,海洋科学正在进入大数据时代。如 今,海洋学已成为典型的数据密集型科学之一,它已从基于船的远征科学发展到了基于分 布式观测站的方法。随着海洋观测系统的发展以及越来越多的自主平台和传感器的使用, 观测的重要海洋变量越来越多,数据格式呈多样性,且体量呈指数型增长,这对科学数据管 理提出了新的挑战。数据密集型科学的巨大挑战之一是通过帮助人与机器发现、访问、集成 和分析适合任务的科学数据和其他学术数字对象来改善知识发现。 为了克服这一问题,科学家们提出了发布诸如数据集、代码和工作流等数字资源 发布指南,以使其可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)和 可重用(Reusable)(FAIR)。随着FAIR原则的发展,数据服务之间的互操作性已成为当务之 急。尽管海洋数据管理的目标是使其朝着FAIR原则迈进,但目前仍然没有统一或标准的数 据服务模型使海洋数据满足FAIR原则,其挑战主要表现在以下几个方面。 数据查找:缺乏有效索引,导致很难从大量数据中找到有价值的信息。据统计,过 去10年部署的海洋观测平台在1年内传输的数据量与上个世纪所获取的数据量相当。数据 访问:缺乏标准和丰富的海洋学元数据,导致无法统一识别和访问数据集。数据互操作:来 自不同平台和观测系统的海洋数据类型和格式的多样性和异构性,以及术语可能存在的歧 义性,为数据互操作带来了巨大的挑战。数据重用:通常,资源可通过机器可读的资源描述 框架(Resource Description Framework,RDF)、XML、JSON,或人类可读的HTML来描述。目 前,几乎没有用于表示领域数据集的标准表示形式,并且相当一部分海洋数据集缺乏质量 标志或来源信息,导致数据用户难以理解、分析或重用数据,不能满足用户需求。 随着信息技术的发展,可通过诸如云计算和服务计算等新兴技术来描述具有多种 异构格式的各类数据集,并改善海洋领域的数据服务。 面向服务的计算(Service-oriented computing,SOC)作为一种用于分布式计算、 跨组织资源共享和应用程序集成的新计算模型,在过去十年中得到了快速发展。基于本体 的语义网作为服务计算的关键技术之一,不仅可以构建异构资源的统一描述,而且可以提 高服务之间的互操作性。尤其是本体论,其最强大的特征之一是它提供了一种表达概念领 域的显式知识的方式,可以通过逻辑推理器从中推导出隐式新知识,例如,它被广泛用于描 述传感器和观测数据。值得注意的是,近年来,本体已被广泛用于描述高性能计算和云服务 环境中的异构资源。 云计算环境通过松散耦合的实例和存储系统为客户提供了广泛的服务,从而保证 了一定级别的服务。据估计,到2021年,94%的工作负载和计算机实例将通过云数据中心处 理。通常,传统的云提供三种服务模型,即基础架构即服务(infrastructure-as-a- 4 CN 111581334 A 说 明 书 2/9 页 service,IaaS),平台即服务(platform-as-a-service,PaaS)和软件即服务(software-as- a-service ,SaaS)。随着数据密集型科学和大数据技术的发展,近年来提出了数据即服务 (data-as-a-service,DaaS)模型,以促进大规模数据集的智能共享和处理。然而,目前仍然 没有统一的数据服务模型可用于描述海洋数据资源并支持FAIR数据服务。
技术实现要素:
有鉴于此,本发明目的在于提供一种基于数据本体和列表的海洋数据服务发布方 法。具体而言,首先提出了一个统一语义模型,即海洋环境数据本体(Ocean Environmental Data Ontology,OEDO),以表示多种异构的海洋数据资源,提供可互操作的数据服务。接着, 基于最新的快速服务查询列表(Quick Service Query List,QSQL)数据结构,进一步通过 词汇数据库WordNet扩展了领域概念,并优化了QSQL。最后,基于OEDO模型和优化的QSQL,提 出了一种基于数据本体和列表的海洋数据服务发布方法(Data Ontology and List based Publishing,DOLP),以改善数据发现和数据访问服务。 为达到该目的,本发明采用如下技术方案,一种基于数据本体和列表的海洋数据 服务发布方法,包括以下步骤: 步骤1,将海洋环境数据本体模型OEDO中的概念建模为数据服务接口的输入和输 出; 步骤2,使用扩展规则将服务发布至优化的快速服务查询列表QSQL; 步骤3,生成一个数据服务索引列表,用于数据访问并改善数据发现; 步骤2中所述的服务发布过程,包括以下步骤: 步骤201,从海洋环境数据本体模型OEDO中获取具体概念,从词汇数据库WordNet 中获取每个参数的同义词,并通过规则1扩展其等价类; 步骤202,对于等价类中的每个元素,查找该元素是否已添加至快速服务查询列表 QSQL中,并且构建概念节点,将当前数据服务的服务标识附加到其数据域的精确匹配向量 ExactVector中,然后构建该节点链接域的等价链EqualLink; 步骤203,通过推理程序推断等价类中每个元素的父类,根据规则2,通过其在词汇 数据库WordNet中的上位词进行扩展,并设置元素数据域的父类向量PluginVector和链接 域的超级链SuperLink; 步骤204,根据规则2和规则3分别扩展祖父类和子孙类; 步骤205,返回已发布模型生成的数据服务快速检索列表OQSQL; 所述的规则1:由于模型中可能不存在与数据服务的输入或输出参数完全匹配的 具体概念,因此通过WordNet同义词关系扩展相等的类,即: 所述的规则2:通过上位词扩展is-a关系相关的父类: Grdpi=Grdpi∪Hypew(Supi), Supi=Supi∪Hypew(Ci) . 所述的规则3:通过下位词扩展part-of关系相关的子类: 5 CN 111581334 A 说 明 书 3/9 页 Grdci=Grdci∪Hypow(Subi), Subi=Subi∪Hypow(Ci) . 其中,C表示海洋环境数据本体模型OEDO概念集,Ci表示海洋环境数据本体模型 OEDO中第i个类,Ei表示Ci的等价类,Synw(Ci)表示Ci的同义词,Supi表示Ci的父类,Hypew(Ci) 表示Ci的上位词,Subi表示Ci的子类,Hypow(Ci)表示Ci的下位词,Grdpi表示Ci的祖父类, Grdci表示Ci的祖父类。 所述的海洋环境数据本体模型OEDO的顶层概念包括观测数据、传感器、观测系统 和观测平台,概念之间的关系由对象属性表示,所述的观测平台通过层次分类和属性描述 进行统一表示,观测平台具有4个子类,包括陆基平台、海基平台、空基平台和天基平台,观 测平台具有10个基本属性,包括平台标识、URL地址、平台类型、平台特征、地理位置、传感 器、有效时间、传输时间、数据格式和所属组织; 所述的观测数据也通过层次化分类表示,观测数据具有7个子类,包括海洋生物、 海洋水文、海洋化学、海底地形、海洋底质,海洋气象和海洋地球物理,观测数据的数据集使 用元数据来描述,其元数据建模为统一本体的数据类型属性和对象属性,使得不同数据集 可互操作。 所述的快速服务查询列表中每个QSQL元素代表一个本体概念,其由链接域和数据 域组成,链接域存储由语义推理工具从服务模型推断出的关系,包括指向其等价类 EqualClass、父类SuperClass、子类SubClass、兄弟类SibClass、祖父类GrdparClass和子孙 类GrdchdClass的链接,通过避免重复推理来加快服务查询,数据域存储使用相关概念作为 不同匹配程度的输入或输出的服务。 本发明方法提出了为异构海洋数据资源提供统一语义表示模型OEDO,以改善数据 互操作服务。通过WordNet扩展了领域概念,并进一步优化了最新的QSQL数据结构,以改善 数据发现服务。基于OEDO模型和已优化的QSQL,提出了一种海洋数据服务发布方法DOLP,以 改善数据发现和数据访问服务。 附图说明 图1是本发明的OEDO模型核心概念与关系图; 图2是本发明的观测平台分类图; 图3是本发明的观测数据分类图; 图4是数据集简化表示图; 图5是QSQL数据结构图; 图6是本发明方法的流程示意图; 图7是数据服务查询响应时间示意图; 图8是平均响应时间趋势图; 图9是数据发现准确率与召回率结果图。