基于网络安全的网页过滤模型及其关键算法研究

VIP免费
3.0 牛悦 2024-11-19 4 4 2.52MB 55 页 15积分
侵权投诉
摘 要
在互联网技术快速发展的今天,随着人们对网络信息的使用日益普遍,
网络上庞大的信息量中逐渐夹杂着越来越多的不良信息,如反动、色情、暴力
等,严重干扰着互联网的正常秩序。由于缺乏对这些网络信息发布的有效监控,
大量本应受到严格管制的信息随之泛滥。面对这种情况,如何实现在海量的 WEB
网页中识别出含有不良信息的非法文本,并将其屏蔽,逐渐成为信息过滤的一
个新的研究领域。
对此,本文首先探索了信息过滤的发展历史、研究现状和它的意义。随
后对目前信息过滤的主要模型和方法进行总结,并扼要的归纳信息过滤系统模
型及其主要的算法。
其次,本文在传统方法的研究基础上,在对抓取到的网页进行预处理后,
设置加权的关键字词典,应用汉语语料库里同类词的概念,从词汇关联的角度
出发,最终提出基于同类词权重均值的关联过滤算法。
最后,本文从两个角度进行算法测试,对本方案中的算法进行了测定和
评估。评估结果显示,该过滤算法更为高效,并且能够很好的应对不良网站的
反关键字过滤策略。
关键字: 网页过滤 关键字 矩阵词典 权重均值
ABSTRACT
As the World Wide Web continues to grow at an exponential rate, there is a large
amount of Web contents that are inappropriate to access, such as erotic, violent
information. However, result from the shortage of effective surveillance at present,
more and more ill information which should originally be banned overruns the
Internet. The Webpage Information Filtering used for identify the illegitimate text
includes ill information ,and then delete them. result from the ever-increasing of the ill
information in webpage, The Webpage Information Filtering has become a new study
domain of Information Filtering.
Information filtering is a long interested research task which is involved with other
technologies such as information retrieval, text processing, image processing,
machine learning etc. First, this paper introduced the development history, research
present condition and significance of Information Filtering. Second, sum up the main
modal and method of Information Filtering at present, at the same time introduced
Information Filtering system and its main methods in brief.
Based on the way of the traditional keywords webpage filtering, intercalate a keyword
matrix dictionary with weight value, make use of the same kind word definition in the
Chinese glossary database, creatively brought forward a connection rule filtering
algorithm base on the weight equal value of the same kind word, which makes
filtering more effective and cope with the strategy to the anti-keyword filtering of
eroticism website.
KeywordsWebpage filtering, Keywords, Matrix dictionary, Weight
equal value
目 录
中文摘要
ABSTRACT
第一章 绪论 ........................................................ 1
§1.1 选题背景 ....................................................1
§1.2 课题研究的意义 ..............................................1
§1.3 本文的主要工作和章节安排 ....................................2
第二章 网络安全中的信息过滤综述 .................................... 4
§2.1 信息过滤 ....................................................4
§2.1.1 信息过滤的定义 ..........................................4
§2.1.2 信息过滤研究的历史 ......................................5
§2.1.3 信息过滤的分类 ..........................................7
§2.1.4 信息过滤的评价 ..........................................9
§2.1.5 信息过滤的应用 .........................................10
§2.1.6 信息过滤和其他信息处理的异同 ...........................11
§2.1.7 现有过滤系统分析 .......................................12
§2.2 文本处理综述 ...............................................17
§2.2.1 研究内容 ...............................................18
§2.2.2 句法分析 ...............................................18
§2.2.3 语义分析 ...............................................18
§2.3 本章小结 ...................................................20
第三章 中文文本过滤模型 ........................................... 21
§3.1 文本检索通用逻辑模型 .......................................21
§3.1.1 布尔模型 ............................................... 21
§3.1.2 概率模型 ............................................... 21
§3.1.3 向量空间模型 ........................................... 22
§3.2 文本过滤原型 ...............................................24
§3.3 中文文本过滤模型 ...........................................25
§3.4 本章小结 ...................................................26
第四章 过滤模型中的算法研究 ....................................... 27
§4.1 经典单模式匹配算法 .........................................27
§4.1.1 Brute-Force 算法 .......................................28
§4.1.2 KMP 算法 ............................................... 29
§4.1.3 BM 算法 ................................................ 30
§4.1.4 QS 算法 ................................................ 32
§4.2 经典多模式匹配 DFSA 算法 ....................................33
§4.2.1 DFSA 的定义 ............................................ 33
§4.2.2 DFSA 算法的预处理过程 .................................. 33
§4.2.3 DFSA 算法的查找过程 .................................... 35
§4.3 本章小结 .................................................. 35
第五章 网页信息过滤系统的设计与实现 ............................... 36
§5.1 系统概要设计 ............................................... 36
§5.2 系统构建 ................................................... 37
§5.2.1 网页预处理 .............................................37
§5.2.1.1 语法分析 ........................................... 37
§5.2.1.2 正文提取 ........................................... 37
§5.2.1.3 链接提取 ........................................... 37
§5.2.1.4 页面标题提取 ....................................... 39
§5.2.1.5 文本段标题识别 ..................................... 39
§5.2.2 特征提取 ...............................................40
§5.2.3 加以权重的关键词词典建设 ...............................42
§5.2.4 基于词典的权重算法设计 .................................43
§5.2.5 实验与简化的网页过滤模型 ...............................44
§5.2.6 结果与分析 .............................................46
第六章 总结与展望 ................................................. 48
谢 .......................................................... 53
第一章 绪论
第一章 绪论
本章主要阐述了本文研究课题的现状与背景,以及选题的现实意义。同时归
纳本文的主要研究工作及章节安排。
§1.1 选题背景
随着二十世纪网络术及用的不断展,Internet 逐渐成为们不
或缺的信息资源平台。互联网在造就全世界最为重要的通讯网络的同时,更成为
了当今全球最为庞大的资源信息库。互联网信息呈现出内容覆盖面广、信息数据
量大、形式结构多样、数量增长迅速等特点,包括了科技、新闻、娱乐、教育、
商务、私人网页等诸多方面的内容。大量的信息给人们的生活带来了极大的便利,
也给人们的工作、生活环境带来了深刻而且复杂的变化。
然而,Internet 的全性、交互、快性、开放等特点,使得互
在给人们带来无尽的有用信息的同时,也带来了大量的不良信息,笔者认为主要
可以分为以下三方面:
健康性方面:淫秽、色情、暴力和封建迷信内容等;
防护性方面:病毒、垃圾邮件、网络蠕虫等恶意信息;
政治性方面:来自国内外反动势力的攻击、诬陷和反动内容信息;
面对当前 Internet 上传递信息的海量网页,靠人工判定其性质并剔除其中
的非法和不良部分是明显不现实、且落后于实际情况的工作方式。鉴于此,如何
能让计算机自动地对通信网络上的 WEB 网页进行过滤,已成为目前 Internet 上
迫切需要解决的一大问题。
§1.2 课题研究的意义
网络为信息的传递带来了极大的方便,但也给不良、非法信息的流入和机密
信息的流出提供了可乘之机。一些不法分子利用计算机网络复制、传播和查阅一
些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,而一
些国家通过网络进行政治渗透和价值观、生活方式的推销。
同时,我国 80%的网民在 35 岁下,80%的网民具大专以上文学历
而这两个 80%正是我国建设发展的主力军。为这些人建设一片网络净土是一份不
可推卸的责任。所以,维护保障网络洁净和我国信息安全已经迫在眉睫,必须引
基于网络安全的网页过滤模型及其关键算法研究
2
起我们的高度警惕和重视,而网页信息过滤正是对其行之有效的解决方案。通过
对网页过滤问题的研究与探索,必然可以找到一条可行之路。
§1.3 本文的主要工作和章节安排
本文以当前互联网中的大量不良(非法、色情、反动等)网页为出发点,
是对当前网络安全中的信息过滤技术做出一个较为广泛的研究,之后对信息过滤
系统相关的模型、算法进行了详尽的探讨。最后提出了一个采用关键词词典,
基于权重均值的不良网页过滤算法。笔者在对网页过滤系统进行总体的设计之
后,运用信息过滤的关键技术进行具体的功能实现。
本文的主要工作可以分为以下几个主要方面:
介绍信息过滤的分类体系、信息过滤的评价、信息过滤的应用以及信息过
滤和其他信息处理的区别,同时详细分析网络内容安全中的不良信息过滤
方式,并探讨了与文本过滤相关的文本处理技术的关键思想;
阐述了网页过滤的相关技术,如网页过滤模型、过滤算法等,并对各种技
术的研究和应用现状进行了深入分析;
基于传统的过滤方法,考虑在对网页进行预处理后,设置加权的关键字矩
阵词典,从关联规则出发,应用汉语语料库里的同类词定义,提出一种基
于同类词权重均值的关联过滤算法。
论文结构安排如下:
第一章绪论部分主要介绍了论文的研究背景及意义,然后给出了本文的主要
工作及章节安排。
第二章对信息过滤的历史做了一个简要回顾,然后详细介绍信息过滤的分类
体系、信息过滤的评价、信息过滤的应用以及信息过滤和其他信息处理的区别。
之后便在此基础上,进一步分析了网络内容安全中的不良信息过滤方式,并介绍
了国内外不良信息过滤的研究现状。最后较为详细的探讨了与中文文本过滤相关
的文本处理中的关键技术。
第三章介绍了与文本过滤密切相关的文本检索的通用逻辑模型,再引入文本
过滤原型,通过以上两者的结合,提出了中文文本过滤的逻辑模型。
第四章首先介绍了四种经典的匹配算法的核心思想,分别是 Brute-Force 算
法、KMP 算法、BM 算法和 QS 算法,并对其实现过程进行了详细的阐述。接着介
绍了经典的多模式匹配 DFSA 算法,与经典算法做出比较。
第五章首先对网页信息过滤系统的前期系统构建工作做出探讨,继而对过滤
系统的实现进行详细设计和研究。
第六章总结本文所做的各项工作,并对网页过滤系统的进一步的开发与改进
摘要:

摘要在互联网技术快速发展的今天,随着人们对网络信息的使用日益普遍,网络上庞大的信息量中逐渐夹杂着越来越多的不良信息,如反动、色情、暴力等,严重干扰着互联网的正常秩序。由于缺乏对这些网络信息发布的有效监控,大量本应受到严格管制的信息随之泛滥。面对这种情况,如何实现在海量的WEB网页中识别出含有不良信息的非法文本,并将其屏蔽,逐渐成为信息过滤的一个新的研究领域。对此,本文首先探索了信息过滤的发展历史、研究现状和它的意义。随后对目前信息过滤的主要模型和方法进行总结,并扼要的归纳信息过滤系统模型及其主要的算法。其次,本文在传统方法的研究基础上,在对抓取到的网页进行预处理后,设置加权的关键字词典,应用汉...

展开>> 收起<<
基于网络安全的网页过滤模型及其关键算法研究.pdf

共55页,预览6页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:55 页 大小:2.52MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 55
客服
关注