构建Intranet智能搜索引擎

VIP免费
3.0 牛悦 2024-11-19 4 4 2.04MB 71 页 15积分
侵权投诉
i
摘要
随着企业、政府等机构信息化程度的不断提高,各组织机构内部的信息量开始
Intranet
Intranet 信息检索成为人们开始日渐关注的一个新兴应用领域。虽然该领域对于信
息检索的需求很紧迫,也有很大的市场,但是由于 Intranet Internet 固有的差异,
使得 Internet 信息检索技术无法直接移植到 Intranet 信息检索领域。本文围绕这一
矛盾,对 Intranet 信息检索包含的关键问题进行了系统研究。
本文首先对搜索引擎技术的研究背景、基本概念和常用方法做了简要的概述,
接着从比较 Internet 搜索和 Intranet 搜索的差异入手,就实现 Intranet 搜索引擎的设
计思路和体系结构阐述了自己的设想。
随后笔者对整个系统中一系列关键问题提出了自己的解决方案。首先是中文分
词问题,在对比正向最大匹配和逆向最大匹配两种分词算法之后,设计并实现了
一种双向最大匹配分词算法,被证明具有更好的准确率和稳定性。为实现搜索结
果个性化,笔者首先研究了网页分类技术,提出了一套由 HTML 解析、中文分词、
停用词删除、建立倒排索引、类别文档建模、平凡词过滤、归类可信度计算、类
别特征词抽取和分类器组成的网页分类流程,并给出了实验数据与实验分析。在
分类文档的基础上,通过一种增加 IP 影响因子来实现个性化搜索的页面排序算法,
实现了 Intranet 检索一定程度的智能化。
本文的研究工作为实现新的个性化的 Intranet 搜索引擎做出了有益的尝试,本
系统在校园网环境中已经过数月的测试并开放试用。
关键词:Intranet 搜索、中文分词、网页分类、个性化检索
ii
ABSTRACT
With the improvement of informationization of enterprises and government
organizations, the capacity of information within them is expanding quickly. The cost
for intranet users to locate useful information is increasing rapidly.
Intranet information retrieval, represented by enterprise search, is becoming a new
application field and is gaining more and more attentions. Although there is a urgent
demand on searching for this field which implies a huge market. Because of the inherent
differences between intranet and internet, the transplantation of internet search
technology to intranet search is still difficult. Focusing on this contradiction, this paper
makes systematic research on the key problems in intranet search.
This paper firstly briefs on the research background, basic concepts and common
methods of search engine technology, then, by analyzing the differences of intranet and
internet, the author illustrates his ideas about the design and architecture of intranet
search engine.
After that, the author proposes some resolutions to a series of pivotal problems
within the whole system. Firstly, as to the Chinese words segmentation, after comparing
the MM and RMM algorithms, the author devises and implements a dual-maximum
matching algorithm, which shows better accuracy and stability. In order to individualize
the search results, the author makes some research on web page classification
technology and brings out a set of classification processes which is composed of HTML
parsing, Chinese word segmentation, stop words deletion, inverted indexing,
classification modeling, common words filtering, classification credibility calculation,
feature words extraction, and classification. At the same time, experiment statistics and
analysis are provided. On the basis of classified documents, intelligentized intranet
search is carried out through a sorting algorithm by adding IP influential factor.
This research makes some useful attempts to realize a new individualized intranet
search engine. After several months’ tests, this search engine has been opened to
provide service in the campus network.
Key Words: Intranet search, Chinese word segmentation, Web page classification,
Personalized search
iii
目录
摘要
ABSTRACT
第一章 绪论 .....................................................................................................................1
§1.1 搜索引擎技术的历史、现状及发展 ...............................................................1
§1.1.1 搜索引擎的历史 .....................................................................................1
§1.1.2 搜索引擎技术的现状 .............................................................................2
§1.1.2.1 搜索引擎的分类 ..................................................................................2
§1.1.2.2 搜索引擎计算模型 ..............................................................................3
§1.1.3 搜索引擎技术的局限 ..............................................................................3
§1.1.4 搜索引擎技术的发展趋势 .....................................................................4
§1.2 课题的意义和主要工作内容 ...........................................................................5
第二章 搜索引擎技术的基本概念和方法 .....................................................................7
§2.1 网页搜集 ...........................................................................................................7
§2.1.1 网络蜘蛛基本原理 .................................................................................8
§2.1.2 索引更新周期 .........................................................................................9
§2.2 预处理 .............................................................................................................10
§2.2.1 建立倒排索引 .......................................................................................10
§2.2.2 网页重要度计算 ...................................................................................10
§2.2.2.1 PageRank 算法 ....................................................................................11
§2.2.2.2 HITS 算法 ...........................................................................................11
§2.3 查询服务 .........................................................................................................13
§2.3.1 查询方式和匹配 ...................................................................................13
§2.3.2 结果排序 ...............................................................................................13
§2.3.3 文档摘要 ...............................................................................................14
§2.4 本章小结 .........................................................................................................14
第三章 Intranet 智能搜索引擎设计思路和体系结构 ................................................. 15
§3.1 Intranet 搜索和 Internet 搜索的异同 ..............................................................15
§3.2 体系结构和设计思路 ......................................................................................16
§3.2.1 Nutch Lucene .................................................................................... 16
§3.3 本章小结 .........................................................................................................19
第四章 中文分词技术及其实现 ...................................................................................20
§4.1 常见中文分词技术 ..........................................................................................20
§4.2 双向最大匹配中文分词技术的实现 .............................................................21
§4.2.1 Lucene 中的分词技术 ...........................................................................21
§4.2.2 正向最大匹配(MM)分词算法 .............................................................22
§4.2.2 双向最大匹配分词算法 .......................................................................23
§4.2.3 实现 .......................................................................................................24
§4.3 中文分词评测 .................................................................................................32
§4.4 本章小结 .........................................................................................................32
第五章 网页分类技术及其实现 ...................................................................................33
iv
§5.1 网页分类技术 ..................................................................................................33
§5.1.1 文本分类技术 .......................................................................................33
§5.1.2 网页分类的特点 ...................................................................................34
§5.1.3 网页分类的相关研究 ...........................................................................34
§5.2 网页分类模块的设计 ......................................................................................35
§5.2.1 模块框架 ...............................................................................................36
§5.2.2 网页预处理 ...........................................................................................38
§5.2.2.1 HTML 解析 ........................................................................................ 38
§5.2.2.2 英文文法分析和中文分词 ................................................................38
§5.2.2.3 停用词删除 ........................................................................................38
§5.2.2.4 词条频率计算及倒排索引建立 ........................................................38
§5.2.3 类别特征词库抽取 ...............................................................................39
§5.2.3.1 类别文档建模 ....................................................................................39
§5.2.3.2 平凡词过滤 ........................................................................................40
§5.2.3.3 归类可信度计算 ................................................................................40
§5.2.3.3 抽取类别特征词 ................................................................................41
§5.2.4 分类器 ...................................................................................................41
§5.3 网页分类实验 ..................................................................................................42
§5.3.1 训练网页集 ...........................................................................................43
§5.3.2 构建类别特征词库 ...............................................................................43
§5.3.3 类别阈值的确定 ....................................................................................44
§5.3.3.1 四类训练集网页类别可信度计算 ....................................................45
§5.3.3.2 其它类训练集网页类别可信度计算 ................................................45
§5.3.3.3 阈值计算 ............................................................................................47
§5.4 本章小结 .........................................................................................................48
第六章 搜索引擎的个性化技术及其实现 ...................................................................49
§6.1 Web 信息检索个性化的相关技术 ................................................................. 50
§6.1.1 个性化网页权重 ....................................................................................50
§6.1.2 查询改进 ................................................................................................51
§6.2 增加 IP 影响因子的页面排序算法 ............................................................... 53
§6.2.1 Lucene 的页面排序算法 .......................................................................53
§6.2.2 算法改进 ...............................................................................................54
§6.3 个性化搜索实现 .............................................................................................55
§6.4 本章小结 .........................................................................................................56
第七章 系统集成 ...........................................................................................................57
§7.1 Java 后台应用程序 ......................................................................................... 57
§7.1.1 Nutch09Dev 主工程 .............................................................................. 58
§7.1.2 WordSegmentation 工程和 MyLucene 工程 .........................................59
§7.2 Web 应用程序 ................................................................................................. 60
§7.3 本章小结 .........................................................................................................62
第八章 总结和展望 .......................................................................................................63
§8.1 本文工作总结 .................................................................................................63
§8.2 Intranet 搜索的未来展望 ................................................................................ 63
第一章 绪论
1
第一章 绪论
§1.1 搜索引擎技术的历史、现状及发展
信息的生产、传播、搜集与查询是人类最基本的活动之一。随着计算机与信
息技术的发展,诞生了信息检索(Information retrieval, IR)学科领域和关于图书或
者文献的全文检索系统,使用户可以很方便地通过“关键词”查询到相关的信息。
但是此类系统一般工作在一个规模相对有限、内容相对稳定的馆藏(collection)
上。随着万维网(World Wide Web,也简称为 WWW Web)的出现,人们越来越
习惯于通过网络发布信息。互联网上的信息量以指数级别高速增长。根据[1]的统
计,截至 2006 12 月,仅仅中国国内的网页数即已达到 44.7 亿个,网页字节数
达到 122,305,737,000KB如此海量的信息源,具有许多不同于传统全文检索系统
的新特征,它们给信息检索领域带来了新的发展机遇和技术挑战,也使得搜索引
擎登上了历史的舞台。
§1.1.1 搜索引擎的历史
早在 Web 出现之前,网络上就已经存在许多旨在共享的信息资源。那些资源
当时主要存在于各种允许匿名访问的 FTP 站点,内容以学术技术报告、研究性软
件居多。1990 年,加拿大麦吉尔大学(University of McGill)的学生开发出能定期搜
并分FTP 服务器主机上文件信息的 Archie,提供文件查找服务。虽然
Archie 搜集的信息资源不是网页(HTML 文件),但和搜索引擎的基本工作方式是
一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie 被公认为
现代搜索引擎的鼻祖。
现代搜索引擎的设计思路源1993 Matthew Gray 开发World Wide Web
Wanderer这是第一个利用 HTML 网页之间的链接关系来检测万维网规模的“机
器人(Robot)”程序。
1994 4月,斯坦福大学的杨致远和大卫费罗共同创办了雅虎(Yahoo!)
时雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可
搜索的目录。但是雅虎的流行成功地使得网络信息搜索的概念深入人心。
在中国,对搜索引擎的研究起源于“中国教育科研网”(CERNET)一期工程中
的子项目[2],北京大学计算机系的项目组在陈葆珏教授的主持下于 1997 10
CERNET 上推出了天网搜索 1.0 版本。
构建 Intranet 智能搜索引擎
2
§1.1.2 搜索引擎技术的现状
经过多年的发展,搜索引擎的功能越来越强大,提供的服务也越来越全面,
它们的目标是把自己发展成为用户首选的 Internet 入口站点,而不仅仅只提供单
纯的查询功能。
§1.1.2.1 搜索引擎的分类
在当前存在数量众多的搜索引擎中,根据它们所基于的技术原理,可以分为
三大主要类型:基于机器人(Robot)的搜索引擎、目录式搜索引擎和 Meta 元搜索
引擎。
第一类是基于机器人(Robot)的搜索引擎。这种搜索引擎的特点是利用一个称
Robot(也叫做 SpiderWeb Crawler Web Wanderer)的程序以某种策略自动地
在互联网中收集和发现信息,由索引器为收集到的信息建立索引,由检索器根据
用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的
全文检索服务。
基于 Robot 的搜索引擎一般要定期访问大多数以前收集的网页,刷新索引,
以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反
映到用户查询的结果中,这是基于 Robot 的搜索引擎的一个重要特征。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信
息过多,有很多无关信息,用户必须从结果中进行筛选。
第二类是目录式(Directory)搜索引擎。这种搜索引擎以人工方式或半自动方式
收集信息。目录式搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的,这
些编辑人员在访问了某个 Web 站点后撰写一段对该站点的描述,并根据站点的内
容和性质将其归为一个预先分好的类别,把站点的 URL 和描述放在这个类别中。
信息大多面向网站,提供目录浏览服务和直接检索服务。很多目录也接受用户提
交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适
的类别中。
目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,
用户可以一级一级地向下访问,直至找到自己感兴趣的类别。另外,用户也可以
利用目录提供的搜索功能直接查找一个关键词,该类搜索引擎因为加入了人的智
能,因此用户从目录搜索得到的结果往往比从基于 Robot 的搜索引擎得到的结果
更具参考价值,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
第三类是 Meta 元搜索引。元搜索引擎(Metasearch Engine),被称为搜索
摘要:

i摘要随着企业、政府等机构信息化程度的不断提高,各组织机构内部的信息量开始快速膨胀,Intranet用户定位信息的成本也急剧提高。以企业信息检索为代表的Intranet信息检索成为人们开始日渐关注的一个新兴应用领域。虽然该领域对于信息检索的需求很紧迫,也有很大的市场,但是由于Intranet和Internet固有的差异,使得Internet信息检索技术无法直接移植到Intranet信息检索领域。本文围绕这一矛盾,对Intranet信息检索包含的关键问题进行了系统研究。本文首先对搜索引擎技术的研究背景、基本概念和常用方法做了简要的概述,接着从比较Internet搜索和Intranet搜索的差异入...

展开>> 收起<<
构建Intranet智能搜索引擎.pdf

共71页,预览8页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:71 页 大小:2.04MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 71
客服
关注