粗糙贝叶斯改进算法在垃圾邮件分类中的研究
VIP免费
粗糙贝叶斯改进算法在垃圾邮件分类中的研究
粗糙贝叶斯改进算法在垃圾邮件分类中的研究
摘要:分析当前使用最广泛的粗糙贝叶斯算法,指出其在实际应用中的不足,并采用 N-gam 理论对该算法进行了改进。
经过实验证明,改进后的粗糙贝叶斯算法,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都
有大幅度下降。
关键词:垃圾邮件过滤,粗糙贝叶斯算法,邮件分类
中文图书分类号:
0.引言
反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理和培植技术、邮件发信权限
控制技术以及对简单邮件通信协议(SMTP)的改进研究等。其中垃圾邮件过滤技术是反垃圾邮件技术发
展的重要方向之一。基于内容的分析能够自动获得垃圾邮件的特征,及时捕捉垃圾邮件特征的变化,
是一种更为精确的垃圾邮件过滤技术[1]。基于内容的过滤系统,其核心问题将是文本进行自动分类,贝
叶斯概率分类算法在自动文本分类中得到了广泛的应用。
1.Naive Bayes 分类算法
贝叶斯分类算法是一种广泛应用的文本分类算法,它基于贝叶斯定理,应用于文本分类时,通过
计算文本属于每个类别的概率,将该文本归为概率最大的一类[2]。
Naive Bayes 分类方法是利用已有类别文本信息的先验概率计算新文本所属类别的后验概率,其
基本理论依据是 Bayes 定理[3]。
将 Naive Bayes 算法应用到垃圾邮件过滤中的原理是把一封邮件 当作一份文本文件,来进行
文本分类。邮件 属于邮件类别集合 中的一种,首先通过学习一个含有 个文本,其文本类别是
己知的文本集 ,( 为低 个邮件, 第 个邮件对应类别),生成一
个文本 到类别 的映射函数 。然后对于一个未知类别的文本,代入函数 中求解出
相应类别,进而可以判断是否是垃圾邮件。概率统计学中的 Bayes 定理是监督学习文本分类算法中最经
典的算法之一:
(1)
可以简化为: (2)
Bayes 公式把后验概率转换为求先验概率的问题。在文本分类中,一个文本 被表示成一个含有
个属性的向量 。由于文本 的向量空间巨大,因此计算 的值相当复杂。
Naive Bayes 算法中向量的所有属性之间是相互独立不相关的。于是就大大简化了公式的计算, (2)改
写为:
(3)
图 1 给出了 Naive Bayes 分类算法的图形模型,显示文本中各个属性都是相互独立的。
摘要:
展开>>
收起<<
粗糙贝叶斯改进算法在垃圾邮件分类中的研究粗糙贝叶斯改进算法在垃圾邮件分类中的研究摘要:分析当前使用最广泛的粗糙贝叶斯算法,指出其在实际应用中的不足,并采用N-gam理论对该算法进行了改进。经过实验证明,改进后的粗糙贝叶斯算法,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降。关键词:垃圾邮件过滤,粗糙贝叶斯算法,邮件分类中文图书分类号:0.引言反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理和培植技术、邮件发信权限控制技术以及对简单邮件通信协议(SMTP)的改进研究等。其中垃圾邮件过滤技术是反垃圾邮件技术发展的重要方向之一。基于内容的分析能够自动获得...
相关推荐
作者:李佳
分类:高等教育资料
价格:15积分
属性:5 页
大小:365.27KB
格式:DOC
时间:2024-09-26