基于结构特征双层垃圾邮件过滤模型研究
VIP免费
基于结构特征双层垃圾邮件过滤模型的研究
基于结构特征双层垃圾邮件过滤模型的研究
摘要:针对粗糙贝叶斯算法性能受邮件特征影响这一特点,研究了垃圾邮件的特征并提出一个基于结构特征的双层过
滤模型。经过实验证明,粗糙贝叶斯算法应用于双层过滤模型之后,邮件分类效果明显改善,垃圾邮件误判率、合法邮
件误判率和平均误判率都有大幅度下降。
关键词:垃圾邮件过滤,粗糙贝叶斯算法,邮件分类
中文图书分类号:
0.引言
反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理和培植技术、邮件发信权限
控制技术以及对简单邮件通信协议(SMTP)的改进研究等。其中垃圾邮件过滤技术是反垃圾邮件技术发
展的重要方向之一。基于内容的分析能够自动获得垃圾邮件的特征,及时捕捉垃圾邮件特征的变化,
是一种更为精确的垃圾邮件过滤技术[1]。基于内容的过滤系统,其核心问题将是文本进行自动分类,贝
叶斯概率分类算法在自动文本分类中得到了广泛的应用,但是此算法的效果非常依赖邮件特征的分布
情况,因此本文设计一种基于结构特征的双层过滤模型来提高垃圾邮件过滤的效果。
1.Naive Bayes 分类算法
贝叶斯分类算法是一种广泛应用的文本分类算法,它基于贝叶斯定理,应用于文本分类时,通
过计算文本属于每个类别的概率,将该文本归为概率最大的一类[2]。
Naive Bayes 分类方法是利用已有类别文本信息的先验概率计算新文本所属类别的后验概率,其
基本理论依据是 Bayes 定理[3]。
将 Naive Bayes 算法应用到垃圾邮件过滤中的原理是把一封邮件 当作一份文本文件,来进行
文本分类。邮件 属于邮件类别集合 中的一种,首先通过学习一个含有 个文本,其文本类别是
己知的文本集 ,( 为低 个邮件, 第 个邮件对应类别),生成一
个文本 到类别 的映射函数 。然后对于一个未知类别的文本,代入函数 中求解出
相应类别,进而可以判断是否是垃圾邮件。概率统计学中的 Bayes 定理是监督学习文本分类算法中最经
典的算法之一:
(1)
可以简化为: (2)
Bayes 公式把后验概率转换为求先验概率的问题。在文本分类中,一个文本 被表示成一个含有
个属性的向量 。由于文本 的向量空间巨大,因此计算 的值相当复杂。
Naive Bayes 算法中向量的所有属性之间是相互独立不相关的。于是就大大简化了公式的计算, (2)改
写为:
(3)
摘要:
展开>>
收起<<
基于结构特征双层垃圾邮件过滤模型的研究基于结构特征双层垃圾邮件过滤模型的研究摘要:针对粗糙贝叶斯算法性能受邮件特征影响这一特点,研究了垃圾邮件的特征并提出一个基于结构特征的双层过滤模型。经过实验证明,粗糙贝叶斯算法应用于双层过滤模型之后,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降。关键词:垃圾邮件过滤,粗糙贝叶斯算法,邮件分类中文图书分类号:0.引言反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理和培植技术、邮件发信权限控制技术以及对简单邮件通信协议(SMTP)的改进研究等。其中垃圾邮件过滤技术是反垃圾邮件技术发展的重要方向之一。基于内容的分析...
相关推荐
作者:李佳
分类:高等教育资料
价格:15积分
属性:5 页
大小:234.25KB
格式:DOC
时间:2024-09-26