技术摘要:
本发明公开了一种基于分段瞬态识别的自适应数据缩减方法,包括以下步骤:A:根据总的数据长度和缩减后目标长度,确定分段个数及每段缩减后的数据长度;B:建立分段法和瞬态法的比例系数;C:根据比例系数,对每段信号采用分段法,得到筛选后的数据及对应时间戳;D:根 全部
背景技术:
随着计算机技术的飞速发展,全球数据量呈指数式增长,各个领域中都积累了大 量的数据,这对数据展示和数据存储带来一定的挑战。工业领域常以秒级为单位对工况数 据进行存储,以流量数据为例,每秒采集一个数据点,五年的数据总点数为1.58亿。若需要 拉取历史数据,耗时过长,影响使用体验。若设备持续处于稳定工况,数据样本呈平稳分布, 数据中包含了大量的冗余数据及无用数据。因此,对数据进行降采样处理,在数据中发掘出 蕴含的关键信息,进而有效地缩减数据的规模显得日益重要。 当前常采用的数据缩减方法为等间隔降采样法,该方法为采用固定间隔抽取数 据,此种方法在随机地去掉一部分数据时,一些潜在的有用数据也同时被去掉了,这样会导 致数据样本的重要信息丢失。论文《基于峰值保持降采样算法的中介轴承故障声发射数据 缩减技术》中,提出一种峰值保持降采样和谱峭度算法相结合的数据缩减技术,此种方法是 对高采样的原始信号以固定的降采样比对信号进行分段,将每段的峰值作为重采样值。此 种方法可保留数据中的关键信息,但针对阶跃信号,无法获取阶跃信号的持续时间。因此, 需要选择一种降采样方法,不仅可保留数据中的趋势信息,而且还可以保留关键数据的持 续时间,这对实现数据缩减具有重要意义。
技术实现要素:
针对现有技术中的降采样方法不能在保留趋势信息的同时保留关键数据的持续 时间的问题,本发明提出了一种基于分段瞬态识别的自适应数据缩减方法,可提取大数据 样本中的关键信息,选择具有代表意义的信息点进行保存,保留信号内整体趋势的和关键 突变信号的信息基础上,缩短数据长度,最终实现数据降采样,降低数据存储量。 以下是本发明的技术方案。 一种基于分段瞬态识别的自适应数据缩减方法,包括以下步骤: A:根据总的数据长度N1和缩减后目标长度N2,确定分段个数S1及每段缩减后的数据长 度T,每段缩减后的数据长度 设缩减前每段数据长度为L, 降采样比例为Sr, 则 B:建立分段法和瞬态法的比例系数; C:根据比例系数,对每段信号采用分段法,得到筛选后的数据及对应时间戳; D:根据比例系数,对每段信号采用瞬态法,得到筛选后的数据及对应时间戳,与步骤C 之间不分先后; 4 CN 111597225 A 说 明 书 2/4 页 E:将每段信号分段法和瞬态法得到的数据进行整合,得到缩减后的数据。 本发明采用分段法提取信号中的趋势信息,采用瞬态法提取信号中的突变信息, 两种方式根据比例系数配合,实现保留信号内整体趋势的和关键突变信号的信息基础上, 缩短数据长度。 作为优选,步骤B中,分段法和瞬态法的比例系数,分别为α1和α2,且满足α1 α2=1; 若α1为1,表示采用分段法实现数据降采样,若α1为0,表示采用瞬态法实现数据降采样。 作为优选,步骤C包括:C1:将数据切分为m1段,每段数据长度L2=L/m1,每段降采样 后的数据长度T2=T/m1;C2:计算每段数据的最小值minj和最大值maxj,并记录最大值和最 小值对应的时间戳;C3:根据minj和maxj,将数据切分为m2个区间,并统计每个区间内的数据 量,记为[num1j,num2j,…,numm2j];C4:计算r=T2/m2,如果numij≤r,保留该区间内的所有数 据;如果numij>r,则该区间内等间隔保留T2/m2个数据。C5:将各区间内筛选的数据及每个 区间的最大值和最小值整合,得到分段法筛选后的数据。通过分段法,可提取出信号趋势特 征参数,尽可能保留数据中小概率出现的样本,数据中大概率出现的样本进行分段等间隔 保留。 作为优选,步骤D包括:D1:对数据D进行微分处理,得到数据各点的变化率D';D2: 设降采样后的目标数量为T,统计D'正数中前T/4个最大值及对应位置Value1、Pos1,统计负 数中前T/4个最小值Value2、Pos2;D3:计算相邻向上突变值与向下突变值间的最大值或最 小值,记为Value3;D4:记录数据的起始点Value4和截止点Value5;D5:将Value1、Value2、 Value3、Value4和Value5及对应时间戳进行整合,得到瞬态法筛选后的数据。通过瞬态法, 根据数据变化斜率,提取数据中突变点及突变点变化之后的值,记录突变维持时间,避免分 段法中由于大概率样本等间隔采样,部分重要信息淹没,影响降采样效果。 作为优选,分段法和瞬态法的比例系数α1和α2的默认值均为0.5,且在每段数据进 行降采样之前,统计出该段数据的每个相邻的极大值与极小值之间的时间间隔集合Ti,并 预设一个阈值,当集合Ti内大于阈值的元素更多时,降低α2的值,反之则提高α2的值。比例系 数决定了分段法和瞬态法的占比,根据这两种方法的特点,需要尽可能在数据波动较大时 提高瞬态法的占比,因此引入一种调整比例系数的方式,其中极大值与极小值之间代表了 一次数据的波动,波动的时间差与幅度往往代表了数据的波动是否剧烈,由于不同数据类 型的数值差别较大导致代表性不强,因此采用时间间隔为参考,统计方便且运算资源占用 少,能够优化比例系数的分配,提高整体降采样的质量。其中由于不同数据之间差异较大, 因此比例系数的实际取值需要在符合该方法的前提下根据实际情况调整最终值。 作为优选,所述阈值与每段数据内的最大值与最小值的差值呈正相关。一段数据 中的极大值和极小值中,包括了最大值和最小值,通常最大值和最小值代表了该段数据趋 势中的极端情况,当差值较大时,可以提高阈值,使得大于阈值的元素减少,进而提高比例 系数中α2的值,以增加瞬态法的占比,使降采样结果更符合该段数据的特征。 本发明的实质性效果包括:采用分段法进行数据缩减,根据各区间内数据数量及 数据缩减目标数据长度对应关系,对数据内信号进行等比例缩减并提取各区间内的最大值 和最小值,可在保留关键信息基础上,自适应地实现数据缩减。采用瞬态法提取数据内的前 k个最大突变值信息,筛选出数据中的关键突变信息,并整理突变间信号的最大值和最小 值,可有效提取出数据中突变信号持续时间。本发明结合分段法和瞬态法,可以结合两种方 5 CN 111597225 A 说 明 书 3/4 页 法的优势,一方面实现自适应大比例缩减大样本数据,小比例缩减小样本数据;另一方面, 可以提取出数据中的突变信号。根据数据类型及数据变化特性,可配置分段法和瞬态法的 比例系数,调整两种方法的权重,具有一定的稳定性。 附图说明 图1是本发明实施例中筛选的突变值表; 图2是本发明实施例的瞬态法筛选数据值图; 图3是本发明实施例的瞬态法处理前后结果对比图; 图4是本发明实施例与现有技术处理结果对比全局图; 图5是本发明实施例与现有技术处理结果对比局部图。