logo好方法网

非结构化大数据生成方法、系统、存储介质及电子设备


技术摘要:
本发明公开了一种非结构化大数据生成方法、系统、存储介质及电子设备,属于计算机大数据测试领域,本发明要解决的技术问题为如何能够快速完成数据准备工作,且能够从数据类型、数据数量、数据大小三个维度满足大数据平台的测试需求,采用的技术方案为:该方法是BigData  全部
背景技术:
相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖 了更为广泛的内容,包括了如合约、发票、书信与采购记录等营运内容;如文书处理、电子表 格、简报档案与电子邮件等部门内容;如HTML与XML等格式信息的Web内容;以及如声音、影 片、图形等媒体内容。目前,非结构化数据的内容占据了当前数据海洋的80%。 随着互联网 时代的到来,各行各业的数据都产生了爆炸式的增长,不仅体现在数 据量上,同时也体现在数据类型上,各行业的核心数据资产除包含结构化数据外,还包含大 量的非结构化数据,如图片、视频、音频、文档。如果让这些海量数据相互作用形成有价值的 信息,是每个行业非常关心的话题。 企业在对大数据平台进行测试时,通常需要一定量的基础数据来进行验证,目前 在大数据平台测试验证环节,有时为了准备大量的数据而耗费数天、数周的时间,但是在数 据量、数据类型、数据文件分布上存在数据量少、数据类型少、数据质量不高不能贴近真实 数据这些情况,均达不到特定的业务场景需求。 故如何能够快速完成数据准备工作,且能够从数据类型、数据数量、数据大小三个 维度满足大数据平台的测试需求是目前亟待解决的技术问题。
技术实现要素:
本发明的技术任务是提供一种非结构化大数据生成方法、系统、存储介质及电子 设备,来解决如何能够快速完成数据准备工作,且能够从数据类型、数据数量、数据大小三 个维度满足大数据平台的测试需求的问题。 本发明的技术任务是按以下方式实现的,一种非结构化大数据生成方法,该方法 是BigDataInitTool从配置文件中读取文件模板、生成的文件类型、数量、每种类型的大小 的配置信息,根据不同配置信息调用不同的数据生成模块进行对应的文档文件、图像文件、 音频文件、文本文件和视频文件生成。 作为优选,该方法具体如下: BigDataInitTool读取配置文件并对数据生成模块进行初始化处理; 在读取并解析配置文件后,根据配置文件中的参数调用数据生成模块进行实体文 件生成;同时计算出文件的生产总数和对应大小范围内的文件需要生成的数量; BigDataInitTool进行文件数据多线程生成; 每个数据生成模块自动统计生成的对应类型文件个数; 当数据生成模块对应类型的文件个数达到设置值时,数据生成模块通知 BigDataInitTool; 4 CN 111597781 A 说 明 书 2/5 页 当所有类型文件生成完毕时,本次大数据生成任务结束。 更优地,所述参数包括总数量、类型占比、模板、步长、文件大小和文件大小占比。 更优地,所述文件的生产总数等于总数量*类型占比(即通过总数量*类型占比得 出对应类型文件的生成总数); 对应大小范围内的文件需要生成的数量等于类型文件的总数*文件大小占比(即 通过该类型文件的总数*文件大小占比计算得出对应大小范围内的文件需要生成的数量)。 更优地,所述数据生成模块包括, FileProcess模块(文档生成模块),用于读取配置文件中的文件个数、类型及文件 大小,通过库动态生成Word、Pdf、xls类型的文本文件,通过代码写入文本及表格混排的内 容,生成文件后并统计其文件大小; ImageProcess模块(图像生成模块),用于读取配置文件中的图片模板、文件个数、 类型和文件大小,复制模板中的像素,根据像素区域计算出生成的图片大小,并生成图片文 件; SoundProcess模块(音频生成模块),用于读取配置文件中的音频模板、文件个数、 类型和文件大小,生成音频文件; TxtProcess模块(文本生成模块),用于读取配置文件中的文件个数及大小,根据 配置文件设置生成指定大小的纯文本文件,根据文本字节计算出该文件在实际大小; VedioProcess模块(视频生成模块),用于读取配置文件中的视频模板、文件个数、 类型及文件大小,生成视频文件。 更优地,所述图片文件、音频文件和视频文件生成过程中根据图片模板文件、音频 模板文件和视频模板文件进行像素复制和步长截取。 一种非结构化大数据生成系统,该系统包括BigDataInitTool数据生成控制模块、 数据生成模块、配置文件模块和模板库; BigDataInitTool数据生成控制模块,用于读取配置文件策略,调度产生数据,通 过不同的实现方式完成图片、音频、文档、视频、文本五种类型的文件生成;即初始化数据生 成模块,并读取配置文件模块中文件模板、生成的文件类型、数量、每种类型的大小的配置 信息,根据不同配置信息调用不同的数据生成模块进行对应的文档文件、图像文件、音频文 件、文本文件和视频文件生成; 数据生成模块,用于进行实体文件生成,并自动统计生成的对应类型文件个数,当 数据生成模块对应类型的文件个数达到设置值时,数据生成模块通知BigDataInitTool; 配置文件模块,用于存储每个数据生成模块对应类型文件的文件模板、生成的文 件类型、数量、每种类型的大小的配置信息; 模板库,用于存储图片模板、音频模板和视频模块。 作为优选,所述数据生成模块包括, 文档生成模块,用于读取配置文件中的文件个数、类型及文件大小,通过库动态生 成Word、Pdf、xls类型的文本文件,通过代码写入文本及表格混排的内容,生成文件后并统 计其文件大小; 图像生成模块,用于读取配置文件中的图片模板、文件个数、类型和文件大小,复 制模板中的像素,根据像素区域计算出生成的图片大小,并生成图片文件; 5 CN 111597781 A 说 明 书 3/5 页 音频生成模块,用于读取配置文件中的音频模板、文件个数、类型和文件大小,生 成音频文件; 文本生成模块,用于读取配置文件中的文件个数及大小,根据配置文件设置生成 指定大小的纯文本文件,根据文本字节计算出该文件在实际大小; 视频生成模块,用于读取配置文件中的视频模板、文件个数、类型及文件大小,生 成视频文件。 一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述的非结构 化大数据生成方法的步骤。 一种电子设备,所述电子设备包括: 上述的存储介质;以及 处理器,用于执行所述存储介质中的指令。 本发明的非结构化大数据生成方法、系统、存储介质及电子设备具有以下优点: (一)本发明可以根据实际业务场景通过配置定制化生成海量非结构化数据,可应 用在大数据平台日常测试、大数据平台选型测试、快速构建符合业务场景的海量测试数据, 节省数据类型设计、数据生成、人力、时间等成本; (二)本发明可通过配置文件设置生成的文件类型、每种类型的文件个数和每种类 型文件大小,生成的数据具有高度的可定制化,满足企业的数据需求; (三)发明可生成图片、音频、视频、文档,文本,可配置生成类型、数量、大小三个维 度的文件,通过本发明可快速生成十亿、百亿,TB、PB级别的非结构化数据,快速完成数据准 备工作; (四)本发明支持每种类型可设定百分比或生成数量、具体每种类型的文件可配置 大小范围,每个范围可指定百分比或生成数量,通过五种类型文件占比维度、文件大小维 度、每个大小的占比维度可以精确生成任意数量占比的非结构化数据,定制化程度高,满足 企业的应用需求,适用范围广。 附图说明 下面结合附图对本发明进一步说明。 附图1为非结构化大数据生成方法的流程框图; 附图2为非结构化大数据生成系统的结构框图。
下载此资料需消耗2积分,
分享到:
收藏