
技术摘要:
本公开涉及一种用户风险分析模型训练方法、装置、电子设备及计算机可读介质。该方法包括:获取用户数据,所述用户数据包括基础数据和行为数据;基于所述基础数据和所述行为数据为所述用户数据确定标签,所述标签包括正向标签和负向标签;基于所述标签对所述用户数据进 全部
背景技术:
通常情况下机器学习模型需要对正样本(好样本)和负样本(坏样本)进行学习,正 样本是正确分类出的类别所对应的样本,负样本原则上可以选取任何不是正确类别的其他 样本。但是对于金融领域或者其他领域而言,正样本的选取是较容易的,比如在金融领域, 用户金融风险分析的时候,可将未有过逾期的用户作为正样本,将已经违约的用户作为机 器学习模型训练的负样本,但是对于正样本而言,负样本的数量是极少的,这种情况下产生 的样本是不均衡的样本。 不均衡的样本,即数据集中存在某一类样本,其数量远多于或远少于其他类样本, 从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例 如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归 算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高 的召回率,这种不均衡的样本会给机器学习模型训练引入很多误差数据,最终可能导致训 练出来的模型效果不够理想。 因此,需要一种新的用户风险分析模型训练方法、装置、电子设备及计算机可读介 质。 在所述
技术实现要素:
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它 可以包括不构成对本领域普通技术人员已知的现有技术的信息。