logo好方法网

一种计算机数据处理方法和系统


技术摘要:
本发明提出一种计算机数据处理方法和系统,基于现有计算机数据处理中在数据处理和发送过程中对负载数据部分的自适应负载能力适配不够,以及目前的计算机数据处理需要花费大量的额外设备来进行数据分析,抑或由于缺乏改进的数据关联属性发现和实施,导致无法达到较好的  全部
背景技术:
计算机数据处理为信息技术中的基本信息处理技术之一。计算机不仅拥有单机数 据处理的能力,且能够相互进行数据分布式处理和传送,且存在诸如云计算等基于云技术 的计算机数据处理和分析、发送与接收方式。 计算机数据处理在计算机科学中,计算机数据是指所有能输入到计算机并被计算 机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、 字母、符号和模拟量等的通称。现在计算机存储和处理的对象十分广泛,表示这些对象的数 据也随之变得越来越纷繁多变。 用于信息化的数据具有一些信息化特点。双重性。即计算机证据同时具有较高的 精密性和脆弱性。计算机证据以技术为依托,很少受主观因素的影响,能够避免其他证据的 一些弊端,如证言的误传、书证的误记等,相对比较准确;但另一方面,由于计算机信息以数 字信号的方式存在,而数字信号是非连续性的,如果有人故意或者因为差错对计算机证据 进行截收、监听、窃听、删节、剪接,从技术上讲也较难查清。计算机操作人员的差错或者供 电系统、通信网络故障等环境和技术原因,都会使计算机证据无法反映客观真实情况。此 外,计算机证据均以电磁浓缩的形式储存,使得变更、毁灭计算机证据较为便利,同样不易 被察觉。在日益普及的网络环境下,数据的通信传输又为远程操纵计算机、破坏和修改计算 机证据提供了更加便利的条件。多媒体性。计算机证据的表现形式是多种多样的,尤其是多 媒体技术的出现,更使计算机证据综合了文本、图形、图像、动画、音频及视频等多种媒体信 息,这种以多媒体形式存在的计算机证据几乎涵盖了所有传统的证据类型。隐蔽性。计算机 证据在存储、处理的过程中,必须用特定的二进制编码表示,一切都由这些不可见的无形的 编码来传递。因此,它是“无纸”型的,一切文件和信息都以电子数据的形式存储于磁性介质 中,具有较强的隐蔽性,计算机证据与特定主体之间的关联性,按常规手段难以确定。 计算机数据在处理前后,一般而言,均需适当地数据存储。通常计算机中的各种数 据可以驻留在不同的介质上,按照存储介质和存储技术的不同又可分为磁盘存储、磁带存 储、光存储、磁光存储等。在较大的存储系统中,一般将不常用的数据存储到离线存储设备 处,如磁带;而常用且要求存取速度较快的数据则存储到在线存储设备上,如磁盘阵列。对 于一般用户而言,最常用的存储介质一般为硬盘(包括移动硬盘)、光盘、U盘等。而由于机 械、电气等原因,一旦这些介质损坏,就会造成存储数据的丢失。U盘的栅晶体管结构电容虽 然可以长期保存数据,但由于经常热插拔也容易造成元件损毁或数据丢失,不适于长期保 存重要数据。 数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并 推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理对数据(包括数值的和 5 CN 111580991 A 说 明 书 2/14 页 非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的 加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机应用领域中,数值计算 所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如测绘制图管理、仓 库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大 量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交 通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理 数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。 数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段,将 数据脱机输入到穿孔卡片、穿孔纸带、磁带或磁盘。这个阶段也可以称为数据的录入阶段。 数据录入以后,就要由计算机对数据进行处理,为此预先要由用户编制程序并把程序输入 到计算机中,计算机是按程序的指示和要求对数据进行处理的。所谓处理,就是指上述8个 方面工作中的一个或若干个的组合。最后输出的是各种文字和数字的表格和报表。数据处 理系统已广泛地用于各种企业和事业,内容涉及薪金支付,票据收发、信贷和库存管理、生 产调度、计划管理、销售分析等。它能产生操作报告、金融分析报告和统计报告等。数据处理 技术涉及到文卷系统、数据库管理系统、分布式数据处理系统等方面的技术。 此外,由于数据或信息大量地应用于各种各样的企业和事业机构,工业化社会中 已形成一个独立的信息处理业。数据和信息,本身已经成为人类社会中极其宝贵的资源。信 息处理业对这些资源进行整理和开发,借以推动信息化社会的发展。 根据数据处理的不同阶段,有不同的专业工具来对数据进行不同阶段的处理。在 数据转换部分,有专业的ETL工具来帮助完成数据的提取、转换和加载,相应的工具有 Informatica和开源的Kettle。在数据存储和计算部分,指的数据库和数据仓库等工具,有 Oracle,DB2,MySQL等知名厂商,列式数据库在大数据的背景下发展也非常快。在数据可视 化部分,需要对数据的计算结果进行分析和展现,有BIEE,Microstrategy,Yonghong的Z- Suite等工具。数据处理的软件有EXCEL  MATLAB  Origin等等,当前流行的图形可视化和数 据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许 多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数 和命令。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可 以完成大部分工作,获得满意的结果。 大数据时代,需要可以解决大量数据、异构数据等多种问题带来的数据处理难题, Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层 细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个 分布式文件系统Hadoop  Distributed  File  System,HDFS。HDFS有着高容错性的特点,并且 设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有 着超大数据集的应用程序。数据处理是从大量的原始数据抽取出有价值的信息,即数据转 换成信息的过程。主要对所输入的各种形式的数据进行加工整理,其过程包含对数据的收 集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导全过程。 数据管理是指数据的收集整理、组织、存储、维护、检索、传送等操作,是数据处理 业务的基本环节,而且是所有数据处理过程中必有得共同部分。 数据处理中,通常计算比较简单,且数据处理业务中的加工计算因业务的不同而 6 CN 111580991 A 说 明 书 3/14 页 不同,需要根据业务的需要来编写应用程序加以解决。而数据管理则比较复杂,由于可利用 的数据呈爆炸性增长,且数据的种类繁杂,从数据管理角度而言,不仅要使用数据,而且要 有效地管理数据。因此需要一个通用的、使用方便且高效的管理软件,把数据有效地管理起 来。数据处理与数据管理是相联系的,数据管理技术的优劣将对数据处理的效率产生直接 影响。而数据库技术就是针对该需求目标进行研究并发展和完善起来的计算机应用的一个 分支。大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相 关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,天互数据总结了 一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。 整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。 在数据库中,称为字段;在统计学中,称为变量。常用的数据类型有字符型数据、数 值型数据、日期型数据。字符型数据也称为文本数据,由字符串组成,它是不能进行算术运 算的文字数据类型,它包括中文字符、英文字符、数字字符(非数值型)等字符。字符型数据 是一种分类数据,例如,性别可以分为男、女,省份可以按各省进行分类,我们就可以通过这 些分类数据进行分类研究,从而更全面的掌握事物的特征。数值型数据是直接使用自然数 或度量单位进行计量的数值数据。例如:收入、年龄、体重、身高这几个变量均为数值型数 据。对于数值型数据,可以直接用算术运算方法进行汇总和分析。例如,采用对比法,对比法 就是用两组或两组以上的数据进行比较,是最通用的方法。我们知道孤立的数据没有意义, 有对比才有差异。一些直接描述事物的变量,如长度、数量、高度、宽度等。通过对比得到比 率数据,增速、效率、效益等指标,这才是数据分析时常用的。比如用于在时间维度上的同比 和环比、增长率、定基比,与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法 可以发现数据变化规律,使用频繁,经常和其他方法搭配使用。 在目前的计算机数据处理系统中,或是使用系统开销巨大、能耗显著地数据处理 专门机构对数据进行加工和发送,或是简单地通过局域网、工作网络和家庭网络对数据进 行基本安全验证后,不进行进一步适配应用地处理和发送。导致数据处理的低效、额外开销 和无法自适应地适配数据的应用以及操作人员对数据处理的实时需求变化和系统控制诉 求。 本发明提出一种计算机数据处理方法和系统,基于现有计算机数据处理中,在数 据处理和发送过程中,对负载数据部分的自适应负载能力适配不够,且由于数据的关联程 度在具体应用中可减少不必要的系统开销,而使得目前的计算机数据处理方式,抑或需要 花费大量的额外设备来进行数据分析,抑或由于缺乏改进的数据关联属性发现和实施,导 致无法达到较好的用于具体数据应用的数据相关适配。由此,本发明通过:其一,引入标准 化的参数集入栈,首先实现了对数据的TAG处理,其次避免了直接在数据栈中操作数据块带 来的巨量系统负载和数据损坏隐患;其二,使用双模的预判模块进行原始数据栈中数据出 栈后的数据队列二次重排,不仅考虑了各个数据自身属性,同时将其相互关联引入系统数 据处理依据;其三,采用第二层的数据队列重构,也即第三次的数据队列重构来实现基于预 判权重适配策略的自适应出栈队列重排序,用以在系统控制中引入符合应用实际和人工系 统控制的数据处理基本参量;其四,引入第三层的数据处理控制机制,也即基于退避的数据 发送队列重排,通过对数据进行分集,对需要有系统退避需求的数据和无系统退避需求的 数据进行差异化的分级处理;其五,在退避中尤佳地引入了路由机制,也即将正常数据配置 7 CN 111580991 A 说 明 书 4/14 页 群的数据通过退避数据配置群内含的路由单元进行路由处理,从而使得退避数据配置群无 需对传输介质进行额外的监控,也无需使用额外的系统资源来进行退避侦听,仅在本单元 传输路由符合特定条件时即可发送退避数据块,较之现有技术,尤佳地提升了不同数据处 理需求的数据块之间发送的适配性以及系统处理的能效。
技术实现要素:
本发明旨在提供一种优于现有技术的计算机数据处理方法和系统。 为了实现上述目的,本发明的技术方案如下: 提供一种计算机数据处理系统,所述系统包括以下模块: 标准参数集模块,用于对需计算机处理的数据块进行TAG化,并将TAG化后的标准 参数集存入插入数据栈; 数据导出模块,用于对插入数据栈的标准参数集进行出栈; 数据处理时长预判模块,用于对各个数据块需计算机处理的时长进行预判,并依 据预判结果重置数据栈标准参数集出栈队列,得到第一重排序出栈队列; 其中,所述使用数据处理时长预判模块对各个数据块需计算机处理的时长进行预 判,包括: 截取各个数据块数据量的预定部分,并使用CPU时钟单元对其进行预处理,采集抽 值处理时间,根据抽值处理时间与预订部分在各个数据块负载数据量中的占比,得出各个 数据块需计算机处理的预判时长。 互相关预判模块,用于对原始数据栈中相邻标准参数集所指示的数据块进行互相 关计算,并依据计算结果重置数据栈标准参数集出栈队列,得到第二重排序出栈队列; 权重过滤器,将第一重排序出栈队列与第二重排序出栈队列发送至权重过滤器, 权重过滤器基于预判权重适配器的输入,对第一重排序出栈队列与第二重排序出栈队列进 行重排,得到第三重排序出栈队列; 预判权重适配器,用于存储预判权重适配策略并输出至权重过滤器; 数据退避预判模块,将第三重排序出栈队列发送至数据退避预判模块,所述数据 退避预判模块基于数据退避配置以及第三重排序出栈队列的原始顺序,将相应数据块分配 至退避数据配置群或正常数据配置群; 正常数据配置群,用于有序存储经由数据退避预判模块分流的第一数据部分,所 述第一数据部分存储不含有数据退避配置的数据块; 退避数据配置群,用于有序存储经由数据退避预判模块分流的第二数据部分,所 述第二数据部分存储含有数据退避配置的数据块; 发送模块,用于将正常数据配置群按照正常队列顺序,在对应发送时隙将相应数 据块发送至退避数据配置群的路由单元,路由单元在侦测到连续三个空时隙后,在第三空 时隙按照退避队列顺序插入退避数据配置群中的退避数据块,并执行发送。 较佳地,所述系统进一步包含: 队列比对模块,用于比对第一重排序出栈队列与第二重排序出栈队列,保留位置 相同的标准参数集至第三重排序出栈队列对应队列位置; 队列选定模块,用于基于预判权重适配器输入的预判权重适配策略,且基于第一 8 CN 111580991 A 说 明 书 5/14 页 重排序出栈队列与第二重排序出栈队列,选定第三重排序出栈队列特定位置上的标准参数 集,其中,所述第三重排序出栈队列特定位置是指,第一重排序出栈队列与第二重排序出栈 队列在该对应位置上的标准参数集不一致的位置; 队列重构模块,用于根据队列选定模块及队列比对模块的操作结果重构第三重排 序出栈队列。 较佳地,所述预定部分具体为:预定的数据长度部分。或所述预定部分具体为:预 定的数据比例部分。 较佳地,所述系统进一步包含: 保留模块,用于采用预设的互相关算法对邻接数据块之间的互相关系数进行计 算,保留互相关系数在预定第一阈值以上的邻接数据块位置; 乱序模块,用于对除保留互相关系数在预定第一阈值以上的邻接数据块位置之外 的数据块,且互相关系数在第二阈值以下的数据块,则按照预设的随机算法对与其相应的 标准参数集进行乱序排列; 结果模块,用于基保留模块与乱序模块的计算结果得到处理后的第二重排序出栈 队列; 其中,所述第一阈值大于第二阈值,且第一阈值与第二阈值由计算机操作人员预 设; 所述邻接数据块为原始数据栈中相邻标准参数集所指示的数据块。 另,本发明更甚地提供了一种计算机数据处理方法,所述方法包括: 步骤一:对需计算机处理的数据块进行TAG化,并将TAG化后的标准参数集存入插 入数据栈; 步骤二:对插入数据栈的标准参数集进行出栈; 步骤三:使用数据处理时长预判模块对各个数据块需计算机处理的时长进行预 判,并依据预判结果重置数据栈标准参数集出栈队列,得到第一重排序出栈队列; 其中,所述使用数据处理时长预判模块对各个数据块需计算机处理的时长进行预 判,包括: 截取各个数据块数据量的预定部分,并使用CPU时钟单元对其进行预处理,采集抽 值处理时间,根据抽值处理时间与预订部分在各个数据块负载数据量中的占比,得出各个 数据块需计算机处理的预判时长。 步骤四:使用互相关预判模块对原始数据栈中相邻标准参数集所指示的数据块进 行互相关计算,并依据计算结果重置数据栈标准参数集出栈队列,得到第二重排序出栈队 列; 步骤五:将第一重排序出栈队列与第二重排序出栈队列发送至权重过滤器,权重 过滤器基于预判权重适配器的输入,对第一重排序出栈队列与第二重排序出栈队列进行重 排,得到第三重排序出栈队列; 步骤六:将第三重排序出栈队列发送至数据退避预判模块,所述数据退避预判模 块基于数据退避配置以及第三重排序出栈队列的原始顺序,将相应数据块分配至退避数据 配置群或正常数据配置群; 步骤七:数据发送步骤,正常数据配置群按照正常队列顺序,在对应发送时隙将相 9 CN 111580991 A 说 明 书 6/14 页 应数据块发送至退避数据配置群的路由单元,路由单元在侦测到连续三个空时隙后,在第 三空时隙按照退避队列顺序插入退避数据配置群中的退避数据块,并执行发送。 较佳地,所述步骤五进一步包含: 步骤5.1:比对第一重排序出栈队列与第二重排序出栈队列,保留位置相同的标准 参数集至第三重排序出栈队列对应队列位置; 步骤5.2:基于预判权重适配器输入的预判权重适配策略,且基于第一重排序出栈 队列与第二重排序出栈队列,选定第三重排序出栈队列特定位置上的标准参数集,其中,所 述第三重排序出栈队列特定位置是指,第一重排序出栈队列与第二重排序出栈队列在该对 应位置上的标准参数集不一致的位置; 步骤5.3:根据步骤5.1及步骤5.2的操作结果重构第三重排序出栈队列。 较佳地,所述预定部分,具体为:预定的数据长度部分。 较佳地,所述预定部分,具体为:预定的数据比例部分。 较佳地,所述使用互相关预判模块对原始数据栈中相邻标准参数集所指示的数据 块进行互相关计算,并依据计算结果重置数据栈标准参数集出栈队列,得到第二重排序出 栈队列,具体为: 步骤4.1:采用预设的互相关算法对邻接数据块之间的互相关系数进行计算,保留 互相关系数在预定第一阈值以上的邻接数据块位置; 步骤4.2:对除保留互相关系数在预定第一阈值以上的邻接数据块位置之外的数 据块,且互相关系数在第二阈值以下的数据块,则按照预设的随机算法对与其相应的标准 参数集进行乱序排列; 步骤4.3:基于步骤4.1与步骤4.2的计算结果得到处理后的第二重排序出栈队列; 其中,所述第一阈值大于第二阈值,且第一阈值与第二阈值由计算机操作人员预 设; 所述邻接数据块为原始数据栈中相邻标准参数集所指示的数据块。 本发明提出一种计算机数据处理方法和系统,基于现有计算机数据处理中,在数 据处理和发送过程中,对负载数据部分的自适应负载能力适配不够,且由于数据的关联程 度在具体应用中可减少不必要的系统开销,而使得目前的计算机数据处理方式,抑或需要 花费大量的额外设备来进行数据分析,抑或由于缺乏改进的数据关联属性发现和实施,导 致无法达到较好的用于具体数据应用的数据相关适配。由此,本发明通过:其一,引入标准 化的参数集入栈,首先实现了对数据的TAG处理,其次避免了直接在数据栈中操作数据块带 来的巨量系统负载和数据损坏隐患;其二,使用双模的预判模块进行原始数据栈中数据出 栈后的数据队列二次重排,不仅考虑了各个数据自身属性,同时将其相互关联引入系统数 据处理依据;其三,采用第二层的数据队列重构,也即第三次的数据队列重构来实现基于预 判权重适配策略的自适应出栈队列重排序,用以在系统控制中引入符合应用实际和人工系 统控制的数据处理基本参量;其四,引入第三层的数据处理控制机制,也即基于退避的数据 发送队列重排,通过对数据进行分集,对需要有系统退避需求的数据和无系统退避需求的 数据进行差异化的分级处理;其五,在退避中尤佳地引入了路由机制,也即将正常数据配置 群的数据通过退避数据配置群内含的路由单元进行路由处理,从而使得退避数据配置群无 需对传输介质进行额外的监控,也无需使用额外的系统资源来进行退避侦听,仅在本单元 10 CN 111580991 A 说 明 书 7/14 页 传输路由符合特定条件时即可发送退避数据块,较之现有技术,尤佳地提升了不同数据处 理需求的数据块之间发送的适配性以及系统处理的能效。 附图说明 图1是本发明示出的计算机数据处理系统的一种基本系统层次结构图; 图2是本发明示出的计算机数据处理方法一种实施例的基本框图; 图3是本发明示出计算机数据处理方法步骤五一种实施例的步骤图; 图4是本发明示出的计算机数据处理方法和系统预定部分选取的一种实施例。 图5是本发明示出的计算机数据处理方法和系统第三重排出栈序列的一种实施 例。
分享到:
收藏