logo好方法网

一种基于在线AdaBoost的垃圾邮件检测方法


技术摘要:
本发明属于网络安全技术领域,具体涉及一种基于在线AdaBoost的垃圾邮件检测方法。本发明将在线学习的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳定、不能应用于动态环境和训练成本高的问题。针对以上问题,本发明在AdaBoost基础上引  全部
背景技术:
随着信息时代的发展,人与人之间的通信越来越便捷。电子邮件已经成为社交中 非常重要的交流工具,然而邮件给人带来有效交流信息的同时,也会带来大量的垃圾信息。 经统计,用户每天收到数百封电子邮件是很常见的。这些邮件中近90%是垃圾邮件,其中包 括各种产品和服务的广告。垃圾邮件不仅强制用户识别不需要的邮件而消耗用户的时间, 而且还会浪费存储空间和网络带宽。垃圾邮件检测已经成为信息安全领域所面临的巨大的 挑战之一,机器学习在垃圾邮件检测等领域已经得到了广泛的应用。但是,传统的垃圾邮件 检测算法存在诸多不足,比如单一的机器学习算法的检测准确率低,批量学习算法在动态 环境中无法对模型作出及时的调整,训练成本高等问题。针对以上问题,本发明方法使用 AdaBoost算法将训练好的弱分类器组合成一个强分类器,以提高分类效果;在此基础上引 入在线学习的思想,不仅了降低了训练开销,而且能适应动态环境下网络中的变化。本发明 方法有效地解决了传统的邮件分类方法分类性能不稳定的问题,而且可以很好地在动态环 境下工作,降低了训练成本。因此,本发明方法相较于之前的垃圾邮件检测方法准确率更 高,对环境的适应性更强,更高效且更易于拓展。
技术实现要素:
本发明的目的在于提供提高垃圾邮件检测准确率、训练模型效率并适应于动态环 境的一种基于在线AdaBoost的垃圾邮件检测方法。 本发明的目的通过如下技术方案来实现:包括以下步骤: 步骤1:输入待检测的邮件样本;取部分邮件样本数据构建训练集,对于每一个邮 件样本(X,Y),X为邮件样本(X,Y)的特征集合;Y为邮件样本(X,Y)的标签,用于标记其是否 为垃圾邮件的特征集合,训练集中Y由人工标注; 步骤2:使用训练集训练D个弱分类器,初始化弱分类器的权重计数器λ sct 和λ swt ,t =1,2,...,D,其中λ sct 和λ swt 分别代表正确分类样本和错误分类样本的计数器;具体过程 为: 步骤2.1:从训练集中提取一个样本(X,Y)输入弱分类器ht中;初始化样本(X,Y)的 权重λ为1;从泊松分布Possion(λ)中随机选择一个正整数k,弱分类器ht使用基于伯努利的 多变量朴素贝叶斯模型学习样本k次; 步骤2.2:设X=(t1,...,tm),其中每个ti是一个二元变量,表示该特征是否出现在 该样本中;m为样本(X,Y)特征的数量,计算中间条件概率P(X|Y=Ck): 4 CN 111553388 A 说 明 书 2/5 页 其中,Ck代表邮件的类别,即正常邮件或者垃圾邮件; 步骤2.3:计算Ck在训练集里面出现的概率P(Y=Ck): 其中,n(Ci)表示类别为Ci的样本在训练集中出现的频数; 步骤2.4:计算邮件样本(X,Y)是垃圾邮件的概率P(Y=Ck|X): 同理可求得这个样本是正常邮件的概率,通过比较这两个概率的大小,预测样本 (X,Y)的类别; 步骤2.5:比较样本的预测结果与实际结果; 如果弱分类器h 对这个样本正确分类,即h (X)=sign(Y);计算λ sc←λ sct t t t λ,更新 正确分类加权计数器,其中λ为样本权重;计算 更新近似加权错误分类率εt; 计算: 更新样本(X,Y)的权重; 如果弱分类器ht对这个样本错误分类;计算λ swt ←λ swt λ,更新错误分类加权计数 器,同理计算公式 更新近似加权错误分类率;计算 更新样本(X, Y)的权重; 步骤2.6:计算弱分类器ht的权重αt,完成对弱分类器ht的更新; 步骤2.7:将更新后的样本输入到下一个弱分类器中,重复执行步骤2.2至步骤 2.6,直至完成对所有弱分类器的更新,完成一次循环并挑选出权重最高的弱分类器; 步骤2.8:判断是否完成所有区训练集中邮件样本的训练;若未完成,则返回步骤 2.1;若训练集中所有邮件样本训练完毕,使用所有挑选出的弱分类器集成强分类器H(X); 步骤3:将其余待检测的邮件样本输入到强分类器H(X)中,完成对于垃圾邮件的检 测。 本发明的有益效果在于: 本发明提供的是一种基于在线Adaboost的垃圾邮件检测方法,该方法将在线学习 的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳 5 CN 111553388 A 说 明 书 3/5 页 定、不能应用于动态环境和训练成本高的问题。针对以上问题,本发明在AdaBoost基础上引 入了在线学习的思想,提高了分类效果,大大降低了训练模型的开销,使模型在垃圾邮件检 测中可以适应大数据场景和动态变化的环境,从而获得更好的泛化性能。 附图说明 图1是在线AdaBoost训练以及挑选弱分类器的步骤图。 图2是组合强分类器的过程图。 图3是本发明方法实施与应用的流程图。
下载此资料需消耗2积分,
分享到:
收藏