技术摘要:
本发明提供一种用户画像方法、装置、计算机设备及计算机可读存储介质。所述用户画像方法获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签;确定所述标签集合对应的多个关键网站;获取用户的识别信息;根据所述识别信息判断所述多个关键网站是否存在所 全部
背景技术:
用户画像被广泛运用于智能推荐、风控与服务等多个领域。用户画像是预测模型、 风控体系的基础,而用户画像不够准确会导致很多建立在用户画像基础上的模型或技术难 以展开。 用户画像需要抽取用户的属性标签(如学历、性别等),现有的用户画像方法根据 某一平台上的用户的社交、使用习惯数据抽取用户的属性标签,容易因数据单一、数据缺陷 导致抽取用户属性标签的准确率低。如何提升抽取用户属性标签的准确率成为亟待解决的 问题。
技术实现要素:
鉴于以上内容,有必要提出一种用户画像方法、装置、计算机设备及计算机可读存 储介质,其可以根据用户在各个网站的注册信息抽取出用户的标签,用抽取的用户的标签 描述用户画像。 本申请的第一方面提供一种用户画像方法,所述用户画像方法包括: 获取用户属性和所述用户属性的标签集合,所述标签集合包括多个标签; 确定所述标签集合对应的多个关键网站; 获取用户的识别信息; 根据所述识别信息判断所述多个关键网站是否存在所述用户的注册信息; 根据判断结果生成所述用户的注册特征向量,所述注册特征向量反映所述用户在 所述多个关键网站的注册状态; 根据所述判断结果生成所述用户的显著性特征向量,所述显著性特征向量反映所 述用户已注册的所述多个关键网站的网站数量和未注册的所述多个关键网站的网站数量; 将所述注册特征向量和所述显著性特征向量组合为综合特征向量; 用训练好的分类模型对所述综合特征向量进行识别,得到所述用户的标签。 另一种可能的实现方式中,所述确定所述标签集合对应的多个关键网站包括: 从多个网站中选择与所述用户属性关联的多个网站; 用网站排名算法对选择的多个网站进行排名; 将所述选择的多个网站中的排名靠前的预设数量的网站确定为所述多个关键网 站。 另一种可能的实现方式中,所述根据所述识别信息判断所述多个关键网站是否存 在所述用户的注册信息包括: 在所述多个关键网站中的指定关键网站搜索所述识别信息; 4 CN 111597453 A 说 明 书 2/13 页 若所述指定关键网站的搜索结果中包括所述识别信息,则所述指定关键网站存在 所述用户的注册信息; 若所述指定关键网站的搜索结果中不包括所述识别信息,则所述指定关键网站不 存在所述用户的注册信息。 另一种可能的实现方式中,所述根据所述识别信息判断所述多个关键网站是否存 在所述用户的注册信息包括: 根据所述识别信息从所述多个关键网站中的指定关键网站授权的接口查询所述 用户的注册信息; 若所述指定关键网站返回所述用户的注册信息,所述指定关键网站存在所述用户 的注册信息; 若所述指定关键网站没有返回所述用户的注册信息或返回值为空,所述指定关键 网站不存在所述用户的注册信息。 另一种可能的实现方式中,所述根据所述识别信息判断所述多个关键网站是否存 在所述用户的注册信息包括: 用所述识别信息向所述多个关键网站中的指定关键网站注册新账户; 若所述指定关键网站提示所述用户已注册,则所述指定关键网站存在所述用户的 注册信息; 若所述指定关键网站提示输入注册验证信息,则所述指定关键网站不存在所述用 户的注册信息。 另一种可能的实现方式中,所述根据所述判断结果生成所述用户的显著性特征向 量包括: 确定所述多个关键网站中不存在所述用户的注册信息的网站的第一数量x1; 确定所述多个关键网站中存在所述用户的注册信息的网站的第二数量x2; 生成显著性特征向量 其中,a、b为预设常数。 另一种可能的实现方式中,若所述分类模型是支持向量机,在对支持向量机进行 训练时,获取训练样本集,所述训练样本集中包括多个综合特征向量,每个综合特征向量对 应一个标签;从所述训练样本集中选取与所述支持向量机的超平面最近的S个综合特征向 量作为支持向量,得到支持向量集,S为预设值;根据多个综合特征向量、每个综合特征向量 对应的标签和超平面参数计算所述支持向量集中的每个支持向量与超平面的距离,得到样 本距离集合,其中超平面参数为预设值;判断所述样本距离集合中的最小值是否小于预设 阈值;若所述样本距离集合中的最小值小于所述预设阈值,则更新所述超平面参数;若所述 样本距离集合中的最小值不小于所述预设阈值,则将所述支持向量机设置为训练好的支持 向量机。 本申请的第二方面提供一种用户画像装置,所述用户画像装置包括: 第一获取模块,用于获取用户属性和所述用户属性的标签集合,所述标签集合包 括多个标签; 确定模块,用于确定所述标签集合对应的多个关键网站; 第二获取模块,用于获取用户的识别信息; 判断模块,用于根据所述识别信息判断所述多个关键网站是否存在所述用户的注 5 CN 111597453 A 说 明 书 3/13 页 册信息; 第一生成模块,用于根据判断结果生成所述用户的注册特征向量,所述注册特征 向量反映所述用户在所述多个关键网站的注册状态; 第二生成模块,用于根据所述判断结果生成所述用户的显著性特征向量,所述显 著性特征向量反映所述用户已注册的所述多个关键网站的网站数量和未注册的所述多个 关键网站的网站数量; 组合模块,用于将所述注册特征向量和所述显著性特征向量组合为综合特征向 量; 识别模块,用于用训练好的分类模型对所述综合特征向量进行识别,得到所述用 户的标签。 本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理 器用于执行存储器中存储的计算机程序时实现所述用户画像方法。 本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述 计算机程序被处理器执行时实现所述用户画像方法。 本发明中,所述用户的显著性特征向量中包含了用于识别所述用户的标签的显著 性特征,所以用训练好的分类模型对所述综合特征向量进行识别,可以提升识别用户的标 签准确率。因此,本发明实现了根据用户在各个网站的注册信息抽取出用户的标签,提升了 抽取用户的标签的准确率,用抽取的用户的标签描述用户画像,提升了描述用户画像的准 确率。 附图说明 图1是本发明实施例提供的用户画像方法的流程图。 图2是本发明实施例提供的用户画像装置的结构图。 图3是本发明实施例提供的计算机设备的示意图。