一种基于在线AdaBoost的垃圾邮件检测方法-好方法网

技术摘要：
本发明属于网络安全技术领域，具体涉及一种基于在线AdaBoost的垃圾邮件检测方法。本发明将在线学习的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳定、不能应用于动态环境和训练成本高的问题。针对以上问题，本发明在AdaBoost基础上引全部
背景技术：
随着信息时代的发展，人与人之间的通信越来越便捷。电子邮件已经成为社交中非常重要的交流工具，然而邮件给人带来有效交流信息的同时，也会带来大量的垃圾信息。经统计，用户每天收到数百封电子邮件是很常见的。这些邮件中近90％是垃圾邮件，其中包括各种产品和服务的广告。垃圾邮件不仅强制用户识别不需要的邮件而消耗用户的时间，而且还会浪费存储空间和网络带宽。垃圾邮件检测已经成为信息安全领域所面临的巨大的挑战之一，机器学习在垃圾邮件检测等领域已经得到了广泛的应用。但是，传统的垃圾邮件检测算法存在诸多不足，比如单一的机器学习算法的检测准确率低，批量学习算法在动态环境中无法对模型作出及时的调整，训练成本高等问题。针对以上问题，本发明方法使用 AdaBoost算法将训练好的弱分类器组合成一个强分类器，以提高分类效果；在此基础上引入在线学习的思想，不仅了降低了训练开销，而且能适应动态环境下网络中的变化。本发明方法有效地解决了传统的邮件分类方法分类性能不稳定的问题，而且可以很好地在动态环境下工作，降低了训练成本。因此，本发明方法相较于之前的垃圾邮件检测方法准确率更高，对环境的适应性更强，更高效且更易于拓展。
技术实现要素：
本发明的目的在于提供提高垃圾邮件检测准确率、训练模型效率并适应于动态环境的一种基于在线AdaBoost的垃圾邮件检测方法。本发明的目的通过如下技术方案来实现：包括以下步骤：步骤1：输入待检测的邮件样本；取部分邮件样本数据构建训练集，对于每一个邮件样本(X,Y)，X为邮件样本(X,Y)的特征集合；Y为邮件样本(X,Y)的标签，用于标记其是否为垃圾邮件的特征集合，训练集中Y由人工标注；步骤2：使用训练集训练D个弱分类器，初始化弱分类器的权重计数器λ sct 和λ swt ，t ＝1,2,...,D，其中λ sct 和λ swt 分别代表正确分类样本和错误分类样本的计数器；具体过程为：步骤2.1：从训练集中提取一个样本(X,Y)输入弱分类器ht中；初始化样本(X,Y)的权重λ为1；从泊松分布Possion(λ)中随机选择一个正整数k，弱分类器ht使用基于伯努利的多变量朴素贝叶斯模型学习样本k次；步骤2.2：设X＝(t1,...,tm)，其中每个ti是一个二元变量，表示该特征是否出现在该样本中；m为样本(X,Y)特征的数量，计算中间条件概率P(X|Y＝Ck)： 4 CN 111553388 A 说　明　书 2/5 页其中，Ck代表邮件的类别，即正常邮件或者垃圾邮件；步骤2.3：计算Ck在训练集里面出现的概率P(Y＝Ck)：其中，n(Ci)表示类别为Ci的样本在训练集中出现的频数；步骤2.4：计算邮件样本(X,Y)是垃圾邮件的概率P(Y＝Ck|X)：同理可求得这个样本是正常邮件的概率，通过比较这两个概率的大小，预测样本 (X,Y)的类别；步骤2.5：比较样本的预测结果与实际结果；如果弱分类器h 对这个样本正确分类，即h (X)＝sign(Y)；计算λ sc←λ sct t t t λ，更新正确分类加权计数器，其中λ为样本权重；计算更新近似加权错误分类率εt；计算：更新样本(X,Y)的权重；如果弱分类器ht对这个样本错误分类；计算λ swt ←λ swt λ，更新错误分类加权计数器，同理计算公式更新近似加权错误分类率；计算更新样本(X, Y)的权重；步骤2.6：计算弱分类器ht的权重αt，完成对弱分类器ht的更新；步骤2.7：将更新后的样本输入到下一个弱分类器中，重复执行步骤2.2至步骤 2.6，直至完成对所有弱分类器的更新，完成一次循环并挑选出权重最高的弱分类器；步骤2.8：判断是否完成所有区训练集中邮件样本的训练；若未完成，则返回步骤 2.1；若训练集中所有邮件样本训练完毕，使用所有挑选出的弱分类器集成强分类器H(X)；步骤3：将其余待检测的邮件样本输入到强分类器H(X)中，完成对于垃圾邮件的检测。本发明的有益效果在于：本发明提供的是一种基于在线Adaboost的垃圾邮件检测方法，该方法将在线学习的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳 5 CN 111553388 A 说　明　书 3/5 页定、不能应用于动态环境和训练成本高的问题。针对以上问题，本发明在AdaBoost基础上引入了在线学习的思想，提高了分类效果，大大降低了训练模型的开销，使模型在垃圾邮件检测中可以适应大数据场景和动态变化的环境，从而获得更好的泛化性能。附图说明图1是在线AdaBoost训练以及挑选弱分类器的步骤图。图2是组合强分类器的过程图。图3是本发明方法实施与应用的流程图。

相关推荐