
技术摘要:
本申请提供了一种自动清洗数据的方法、装置、电子设备及存储介质。该自动清洗数据的方法,包括以下步骤;获取目标用户的画像数据,并从所述画像数据中提取出所述目标用户的标签集合,所述标签集合包括多个用于标签;将所述标签集合格式化为N*M*K三维数组,其中,N轴表 全部
背景技术:
不同的公司或组织,基于不同的业务场景,其对用户画像是不同的。用户画像的核 心本质就是用户的标签集合。根据标签的数据表现及标签的性质,对标签进行集中分类,并 总结出每个标签分类下,可通用的数据清洗方式。最后由程序实现自动数据清洗方法。 针对上述问题,目前尚未有有效的技术解决方案。
技术实现要素:
本申请实施例的目的在于提供一种自动清洗数据的方法、装置、电子设备及存储 介质,可以提高数据清洗效率。 第一方面,本申请实施例提供了一种自动清洗数据的方法,包括以下步骤; 获取目标用户的画像数据,并从所述画像数据中提取出所述目标用户的标签集 合,所述标签集合包括多个用于标签; 将所述标签集合格式化为N*M*K三维数组,其中,N轴表示标签,M轴表示用户,K轴 表示时间; 获取所述标签集合内的每一所述标签的数据类型确定所述三维数组的每一维度 的数据类型,从而得到所述三维数组的类型特征; 根据所述类型特征对所述目标用户的用户数据进行数据清洗。 可选地,在本申请实施例所述的自动清洗数据的方法中,所述根据所述类型特征 对所述目标用户的用户数据进行数据清洗的步骤包括: 根据所述三维数组的类型特征获取所述用户数据的离散打散方式; 根据所述离散打散方式对所述目标用户的用户数据进行数据清洗。 可选地,在本申请实施例所述的自动清洗数据的方法中,所述多个标签包括静态 标签、动态标签、分类标签、连续型标签、文本标签以及数值型标签。 可选地,在本申请实施例所述的自动清洗数据的方法中,所述静态标签包括以下 标签中的至少一种或多种:性别、民族、学历、职业。 可选地,在本申请实施例所述的自动清洗数据的方法中,所述动态标签包括以下 标签中的至少一种或多种:主资费套餐、可选套餐、体重。 可选地,在本申请实施例所述的自动清洗数据的方法中,所述分类标签包括以下 标签中的至少一种或多种:性别、民族、是否已婚。 可选地,在本申请实施例所述的自动清洗数据的方法中,所述连续型标签包括以 下标签中的至少一种或多种:月消费、日消费、周消费。 第二方面,本申请实施例还提供了一种自动清洗数据的装置,包括: 3 CN 111597179 A 说 明 书 2/6 页 第一获取模块,用于获取目标用户的画像数据,并从所述画像数据中提取出所述 目标用户的标签集合,所述标签集合包括多个用于标签; 格式化模块,用于将所述标签集合格式化为N*M*K三维数组,其中,N轴表示标签,M 轴表示用户,K轴表示时间; 第二获取模块,用于获取所述标签集合内的每一所述标签的数据类型确定所述三 维数组的每一维度的数据类型,从而得到所述三维数组的类型特征; 清洗模块,用于根据所述类型特征对所述目标用户的用户数据进行数据清洗。 第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器 存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第 一方面提供的所述方法中的步骤。 第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机 程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。 由上可知,本申请实施例通过获取目标用户的画像数据,并从所述画像数据中提 取出所述目标用户的标签集合,所述标签集合包括多个用于标签;将所述标签集合格式化 为N*M*K三维数组,其中,N轴表示标签,M轴表示用户,K轴表示时间;获取所述标签集合内的 每一所述标签的数据类型确定所述三维数组的每一维度的数据类型,从而得到所述三维数 组的类型特征;根据所述类型特征对所述目标用户的用户数据进行数据清洗;从而实现对 数据的自动清洗,可以提高处理效率;提升数据运营价值。 本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得 显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说 明书、权利要求书、以及附图中所特别指出的结构来实现和获得。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使 用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看 作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他相关的附图。 图1为本申请实施例提供的自动清洗数据的方法的一种流程图。 图2为本申请实施例提供的自动清洗数据的装置的一种结构示意图。 图3为本申请实施例提供的电子设备的结构示意图。