构建Intranet智能搜索引擎

VIP免费

3.0 牛悦 2024-11-19 4 4 2.04MB 71 页 15积分

侵权投诉

摘要

随着企业、政府等机构信息化程度的不断提高，各组织机构内部的信息量开始

快速膨胀，Intranet 用户定位信息的成本也急剧提高。以企业信息检索为代表的

Intranet 信息检索成为人们开始日渐关注的一个新兴应用领域。虽然该领域对于信

息检索的需求很紧迫，也有很大的市场，但是由于 Intranet 和Internet 固有的差异，

使得 Internet 信息检索技术无法直接移植到 Intranet 信息检索领域。本文围绕这一

矛盾，对 Intranet 信息检索包含的关键问题进行了系统研究。

本文首先对搜索引擎技术的研究背景、基本概念和常用方法做了简要的概述，

接着从比较 Internet 搜索和 Intranet 搜索的差异入手，就实现 Intranet 搜索引擎的设

计思路和体系结构阐述了自己的设想。

随后笔者对整个系统中一系列关键问题提出了自己的解决方案。首先是中文分

词问题，在对比正向最大匹配和逆向最大匹配两种分词算法之后，设计并实现了

一种双向最大匹配分词算法，被证明具有更好的准确率和稳定性。为实现搜索结

果个性化，笔者首先研究了网页分类技术，提出了一套由 HTML 解析、中文分词、

停用词删除、建立倒排索引、类别文档建模、平凡词过滤、归类可信度计算、类

别特征词抽取和分类器组成的网页分类流程，并给出了实验数据与实验分析。在

分类文档的基础上，通过一种增加 IP 影响因子来实现个性化搜索的页面排序算法，

实现了 Intranet 检索一定程度的智能化。

本文的研究工作为实现新的个性化的 Intranet 搜索引擎做出了有益的尝试，本

系统在校园网环境中已经过数月的测试并开放试用。

关键词：Intranet 搜索、中文分词、网页分类、个性化检索

ABSTRACT

With the improvement of informationization of enterprises and government

organizations, the capacity of information within them is expanding quickly. The cost

for intranet users to locate useful information is increasing rapidly.

Intranet information retrieval, represented by enterprise search, is becoming a new

application field and is gaining more and more attentions. Although there is a urgent

demand on searching for this field which implies a huge market. Because of the inherent

differences between intranet and internet, the transplantation of internet search

technology to intranet search is still difficult. Focusing on this contradiction, this paper

makes systematic research on the key problems in intranet search.

This paper firstly briefs on the research background, basic concepts and common

methods of search engine technology, then, by analyzing the differences of intranet and

internet, the author illustrates his ideas about the design and architecture of intranet

search engine.

After that, the author proposes some resolutions to a series of pivotal problems

within the whole system. Firstly, as to the Chinese words segmentation, after comparing

the MM and RMM algorithms, the author devises and implements a dual-maximum

matching algorithm, which shows better accuracy and stability. In order to individualize

the search results, the author makes some research on web page classification

technology and brings out a set of classification processes which is composed of HTML

parsing, Chinese word segmentation, stop words deletion, inverted indexing,

classification modeling, common words filtering, classification credibility calculation,

feature words extraction, and classification. At the same time, experiment statistics and

analysis are provided. On the basis of classified documents, intelligentized intranet

search is carried out through a sorting algorithm by adding IP influential factor.

This research makes some useful attempts to realize a new individualized intranet

search engine. After several months’ tests, this search engine has been opened to

provide service in the campus network.

Key Words: Intranet search, Chinese word segmentation, Web page classification,

Personalized search

iii

摘要

ABSTRACT

第一章绪论 .....................................................................................................................1

§1.1 搜索引擎技术的历史、现状及发展 ...............................................................1

§1.1.1 搜索引擎的历史 .....................................................................................1

§1.1.2 搜索引擎技术的现状 .............................................................................2

§1.1.2.1 搜索引擎的分类 ..................................................................................2

§1.1.2.2 搜索引擎计算模型 ..............................................................................3

§1.1.3 搜索引擎技术的局限 ..............................................................................3

§1.1.4 搜索引擎技术的发展趋势 .....................................................................4

§1.2 课题的意义和主要工作内容 ...........................................................................5

第二章搜索引擎技术的基本概念和方法 .....................................................................7

§2.1 网页搜集 ...........................................................................................................7

§2.1.1 网络蜘蛛基本原理 .................................................................................8

§2.1.2 索引更新周期 .........................................................................................9

§2.2 预处理 .............................................................................................................10

§2.2.1 建立倒排索引 .......................................................................................10

§2.2.2 网页重要度计算 ...................................................................................10

§2.2.2.1 PageRank 算法 ....................................................................................11

§2.2.2.2 HITS 算法 ...........................................................................................11

§2.3 查询服务 .........................................................................................................13

§2.3.1 查询方式和匹配 ...................................................................................13

§2.3.2 结果排序 ...............................................................................................13

§2.3.3 文档摘要 ...............................................................................................14

§2.4 本章小结 .........................................................................................................14

第三章 Intranet 智能搜索引擎设计思路和体系结构 ................................................. 15

§3.1 Intranet 搜索和 Internet 搜索的异同 ..............................................................15

§3.2 体系结构和设计思路 ......................................................................................16

§3.2.1 Nutch 和Lucene .................................................................................... 16

§3.3 本章小结 .........................................................................................................19

第四章中文分词技术及其实现 ...................................................................................20

§4.1 常见中文分词技术 ..........................................................................................20

§4.2 双向最大匹配中文分词技术的实现 .............................................................21

§4.2.1 Lucene 中的分词技术 ...........................................................................21

§4.2.2 正向最大匹配(MM)分词算法 .............................................................22

§4.2.2 双向最大匹配分词算法 .......................................................................23

§4.2.3 实现 .......................................................................................................24

§4.3 中文分词评测 .................................................................................................32

§4.4 本章小结 .........................................................................................................32

第五章网页分类技术及其实现 ...................................................................................33

§5.1 网页分类技术 ..................................................................................................33

§5.1.1 文本分类技术 .......................................................................................33

§5.1.2 网页分类的特点 ...................................................................................34

§5.1.3 网页分类的相关研究 ...........................................................................34

§5.2 网页分类模块的设计 ......................................................................................35

§5.2.1 模块框架 ...............................................................................................36

§5.2.2 网页预处理 ...........................................................................................38

§5.2.2.1 HTML 解析 ........................................................................................ 38

§5.2.2.2 英文文法分析和中文分词 ................................................................38

§5.2.2.3 停用词删除 ........................................................................................38

§5.2.2.4 词条频率计算及倒排索引建立 ........................................................38

§5.2.3 类别特征词库抽取 ...............................................................................39

§5.2.3.1 类别文档建模 ....................................................................................39

§5.2.3.2 平凡词过滤 ........................................................................................40

§5.2.3.3 归类可信度计算 ................................................................................40

§5.2.3.3 抽取类别特征词 ................................................................................41

§5.2.4 分类器 ...................................................................................................41

§5.3 网页分类实验 ..................................................................................................42

§5.3.1 训练网页集 ...........................................................................................43

§5.3.2 构建类别特征词库 ...............................................................................43

§5.3.3 类别阈值的确定 ....................................................................................44

§5.3.3.1 四类训练集网页类别可信度计算 ....................................................45

§5.3.3.2 其它类训练集网页类别可信度计算 ................................................45

§5.3.3.3 阈值计算 ............................................................................................47

§5.4 本章小结 .........................................................................................................48

第六章搜索引擎的个性化技术及其实现 ...................................................................49

§6.1 Web 信息检索个性化的相关技术 ................................................................. 50

§6.1.1 个性化网页权重 ....................................................................................50

§6.1.2 查询改进 ................................................................................................51

§6.2 增加 IP 影响因子的页面排序算法 ............................................................... 53

§6.2.1 Lucene 的页面排序算法 .......................................................................53

§6.2.2 算法改进 ...............................................................................................54

§6.3 个性化搜索实现 .............................................................................................55

§6.4 本章小结 .........................................................................................................56

第七章系统集成 ...........................................................................................................57

§7.1 Java 后台应用程序 ......................................................................................... 57

§7.1.1 Nutch09Dev 主工程 .............................................................................. 58

§7.1.2 WordSegmentation 工程和 MyLucene 工程 .........................................59

§7.2 Web 应用程序 ................................................................................................. 60

§7.3 本章小结 .........................................................................................................62

第八章总结和展望 .......................................................................................................63

§8.1 本文工作总结 .................................................................................................63

§8.2 Intranet 搜索的未来展望 ................................................................................ 63

第一章绪论

§1.1 搜索引擎技术的历史、现状及发展

信息的生产、传播、搜集与查询是人类最基本的活动之一。随着计算机与信

息技术的发展，诞生了信息检索(Information retrieval, IR)学科领域和关于图书或

者文献的全文检索系统，使用户可以很方便地通过“关键词”查询到相关的信息。

但是此类系统一般工作在一个规模相对有限、内容相对稳定的馆藏(collection)

上。随着万维网(World Wide Web，也简称为 WWW 或Web)的出现，人们越来越

习惯于通过网络发布信息。互联网上的信息量以指数级别高速增长。根据[1]的统

计，截至 2006 年12 月，仅仅中国国内的网页数即已达到 44.7 亿个，网页字节数

达到 122,305,737,000KB。如此海量的信息源，具有许多不同于传统全文检索系统

的新特征，它们给信息检索领域带来了新的发展机遇和技术挑战，也使得搜索引

擎登上了历史的舞台。

§1.1.1 搜索引擎的历史

早在 Web 出现之前，网络上就已经存在许多旨在共享的信息资源。那些资源

当时主要存在于各种允许匿名访问的 FTP 站点，内容以学术技术报告、研究性软

件居多。1990 年，加拿大麦吉尔大学(University of McGill)的学生开发出能定期搜

集并分析各个 FTP 服务器主机上文件信息的 Archie，提供文件查找服务。虽然

Archie 搜集的信息资源不是网页(HTML 文件)，但和搜索引擎的基本工作方式是

一样的：自动搜集信息资源、建立索引、提供检索服务。所以，Archie 被公认为

现代搜索引擎的鼻祖。

现代搜索引擎的设计思路源于 1993 年Matthew Gray 开发的 World Wide Web

Wanderer，这是第一个利用 HTML 网页之间的链接关系来检测万维网规模的“机

器人(Robot)”程序。

1994 年4月，斯坦福大学的杨致远和大卫费罗共同创办了雅虎(Yahoo!)，当

时雅虎的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可

搜索的目录。但是雅虎的流行成功地使得网络信息搜索的概念深入人心。

在中国，对搜索引擎的研究起源于“中国教育科研网”(CERNET)一期工程中

的子项目[2]，北京大学计算机系的项目组在陈葆珏教授的主持下于 1997 年10 月

中CERNET 上推出了天网搜索 1.0 版本。

构建 Intranet 智能搜索引擎

§1.1.2 搜索引擎技术的现状

经过多年的发展，搜索引擎的功能越来越强大，提供的服务也越来越全面，

它们的目标是把自己发展成为用户首选的 Internet 入口站点，而不仅仅只提供单

纯的查询功能。

§1.1.2.1 搜索引擎的分类

在当前存在数量众多的搜索引擎中，根据它们所基于的技术原理，可以分为

三大主要类型：基于机器人(Robot)的搜索引擎、目录式搜索引擎和 Meta 元搜索

引擎。

第一类是基于机器人(Robot)的搜索引擎。这种搜索引擎的特点是利用一个称

为Robot(也叫做 Spider、Web Crawler 或Web Wanderer)的程序以某种策略自动地

在互联网中收集和发现信息，由索引器为收集到的信息建立索引，由检索器根据

用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的

全文检索服务。

基于 Robot 的搜索引擎一般要定期访问大多数以前收集的网页，刷新索引，

以反映出网页的更新情况，去除一些死链接，网页的部分内容和变化情况将会反

映到用户查询的结果中，这是基于 Robot 的搜索引擎的一个重要特征。

该类搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信

息过多，有很多无关信息，用户必须从结果中进行筛选。

第二类是目录式(Directory)搜索引擎。这种搜索引擎以人工方式或半自动方式

收集信息。目录式搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的，这

些编辑人员在访问了某个 Web 站点后撰写一段对该站点的描述，并根据站点的内

容和性质将其归为一个预先分好的类别，把站点的 URL 和描述放在这个类别中。

信息大多面向网站，提供目录浏览服务和直接检索服务。很多目录也接受用户提

交的网站和描述，当目录的编辑人员认可该网站及描述后，就会将之添加到合适

的类别中。

目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，

用户可以一级一级地向下访问，直至找到自己感兴趣的类别。另外，用户也可以

利用目录提供的搜索功能直接查找一个关键词，该类搜索引擎因为加入了人的智

能，因此用户从目录搜索得到的结果往往比从基于 Robot 的搜索引擎得到的结果

更具参考价值，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

第三类是 Meta 元搜索引擎。元搜索引擎(Metasearch Engine)，被称为搜索引

第一章绪论

擎之上的搜索引擎。用户只需递交一次检索请求，由元搜索引擎负责转换处理后

提交给多个预先选定的独立搜索引擎，并将所有查询结果集中起来以整体统一的

格式呈现到用户面前。由于采用了一系列的优化运行机制，它能够在尽可能短的

时间内提供相对全面、准确的信息，而且即使不能完全满足用户需求，仍可以作

为相对可靠的参考源进行扩展搜索，因此成为备受推崇的检索首选入口。

一个真正的元搜索引擎由三部分组成，即：检索请求提交机制、检索接口代

理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求，

包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用

户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责

所有源搜索引擎检索结果的去重、合并、输出处理等。

§1.1.2.2 搜索引擎计算模型

根据搜索引擎查找相关信息方式上的不同，可将其模型分为：布尔逻辑模型、

模糊逻辑模型、向量空间模型以及概率模型等[3]。

布尔型信息检索模型是最简单的信息检索模型，用户可以根据检索项在文档

中的布尔逻辑关系提交查询，搜索引擎根据事先建立的倒排文件结构，确定查询

结果。

向量空间模型用检索项的向量空间来表示用户的查询要求，根据向量空间的

相似性，排列查询结果。

基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型，它利用相关

反馈的归纳学习方法，获取匹配函数。

在实际应用中，大多数检索系统往往将上述各种模型混合在一起，以达到最

佳的检索效果。

§1.1.3 搜索引擎技术的局限

当前的传统搜索引擎主要存在信息丢失、返回信息太多和信息无关三大局限。

1) 信息丢失。一般来说，目录式的搜索引擎由于目录只在对站点的描述中进

行搜索，因此站点本身的动态变化不会反映到搜索结果中来，对网站的描

述也十分简略，其描述能力不能深入网站的内部细节，因此用户不能查询

网站内部的重要信息，造成了信息丢失。

2) 返回信息太多。基于机器人的搜索引擎由于应用了全文检索技术，能够解

决对网页细节的检索问题。从理论上说，只要网页上出现了某个关键词，

构建 Intranet 智能搜索引擎

就能够使用全文检索用关键词匹配把该网页查出来，但是这又导致了它的

缺陷——返回的信息太多。

3) 信息无关。返回信息过多只是全文检索给人直观感觉到的问题。除此之外，

它还有两个不很直观的深层次问题也给信息检索带来了不少困难。

i. 很多情况下，用户很难简单地用关键词或关键词串来忠实地表达他所

真正需要检索的内容，表达困难导致检索困难。

ii. 人类的自然语言中，随着时间、地域或领域的改变，同一关键词在不

同的语境下可以表达不同的概念，因此不同的用户可能使用相同的关

键词来搜索不同的概念。

这个两个问题造成的直接结果就是返回大量的无关信息。最著名的例

子莫过于输入查询关键字“美洲豹”，一名想要购买“美洲豹”汽车的用

户会得到大量的关于“美洲豹”这种动物的网页信息查询结果。

造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅

仅采用机械的关键词匹配来实现，缺乏知识处理能力和理解能力，也就是说搜索

引擎无法处理在用户看来是非常普通的常识性知识，更不能处理随用户不同而变

化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业

性知识等等。

因此，结合人工智能技术的智能搜索引擎把信息检索从目前基于关键词层面

提高到基于知识(或概念)层面，是解决问题的根本和关键。

§1.1.4 搜索引擎技术的发展趋势

搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智

能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等多领域的理

论和技术，因此极具挑战性。另一方面，搜索引擎具有很好的经济价值，所以引

起了世界各国计算机科学界和信息产业界的高度关注。目前的研究、开发十分活

跃，并出现了很多值得注意的趋势。

1. 关注提高信息查询结果的精度，提高检索的有效性。用户在搜索引擎上进

行信息查询时，并不十分关注返回结果的多少，而是看结果是否和自己的

需求吻合。在解决查询结果过多的问题上涌现了多种方法：一是通过各种

方法获得用户没有在查询语句中表达出来的真正用途，包括使用智能代理

跟踪用户检索行为，分析用户模型，使用相关度反馈机制，通过多次交互

逐步求精；二是用正文分类(Text Categorization)技术将结果分类，使用可

视化技术显示分类结构，用户可以只浏览自己感兴趣的类别；三是进行站

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 积分 4人已下载

立即下载 VIP免费下载

摘要：

i摘要随着企业、政府等机构信息化程度的不断提高，各组织机构内部的信息量开始快速膨胀，Intranet用户定位信息的成本也急剧提高。以企业信息检索为代表的Intranet信息检索成为人们开始日渐关注的一个新兴应用领域。虽然该领域对于信息检索的需求很紧迫，也有很大的市场，但是由于Intranet和Internet固有的差异，使得Internet信息检索技术无法直接移植到Intranet信息检索领域。本文围绕这一矛盾，对Intranet信息检索包含的关键问题进行了系统研究。本文首先对搜索引擎技术的研究背景、基本概念和常用方法做了简要的概述，接着从比较Internet搜索和Intranet搜索的差异入...

展开>> 收起<<

构建Intranet智能搜索引擎.pdf

共71页,预览8页

还剩页未读，继续阅读

构建Intranet智能搜索引擎

相关推荐

开通VIP享超值会员特权

作者详情

相关内容

推荐作者

热门标签

举报选择: