面向Web主题挖掘的并行搜索架构研究

VIP免费

3.0 高德中 2024-11-19 5 4 1.01MB 68 页 15积分

侵权投诉

摘要

随着现代网络应用的高速发展，信息量急剧增长，传统的搜索引擎已经不能

满足人们日常信息检索的需要了。传统的搜索引擎只能提供比较模糊的检索，不

能准确定位到客户最需要的信息，因此，搜索引擎就向着专业化方向发展，产生

了面向主题的搜索引擎，此类搜索引擎可以提供更加精准的搜索服务。

主题搜索引擎的重要部分就是主题爬虫引擎，由于网页的动态性、异构性和

复杂性，主题爬虫策略很难适应网络环境，因此主题爬虫采用何种搜索方式访问

Web 将会决定爬虫的效率。文中对国内外网络爬虫的研究情况进行了探讨学习，在

分析主题爬虫搜索策略优缺点基础上，提出了 Web 主题并行搜索架构。主要工作

如下：

1）对主题的表示和主题的相关性判断问题了进行探讨；

2）提出了基于权值的 Web 主题挖掘算法。其把主题相关度加到相关度评价

算法中，并从网页的链接结构去分析相关主题的链接；

3）为了提高主题爬虫效率，建立一种基于机群环境下的多主题爬行策略，

此策略采用分类标注的多主题分配策略，并且采用基于改进加权最小连接调度算

法的任务分割策略;

4）采用基于权值的 Web 主题挖掘搜索系统，实现了一个多主题搜索引擎网

络爬虫系统原型。系统可以比较准确的爬行到相关主题的网页，主题漂移较小，

具有良好的稳定性。

关键词: Web 主题相关度熵值权值并行计算多主题

ABSTRACT

With the rapid development of modern network, the amount of information is

expanding dramatically. As a result, the traditional search engine is confronted with a

great challenge. It can only provide rather ambiguous retrieval, but not the accurate

information that customers most want. Therefore, the search engine advances in the

professionalized way, giving birth to subject-oriented search engine, which can provide

retrieval service in a more accurate way.

One vital part of the subject-oriented search engine is the subject-oriented crawler.

Because of the dynamics, heterogeneity and complexity of the page, the strategy for

crawling is difficult to adapt to the network environment. Thus, the way that

subject-oriented crawler accesses to web will determine the efficiency of crawler. On

the basis of analyzing the crawler algorithm in and abroad, we proposed a focused

crawler that can carry out the strategy effectively. To parallel the multi-subjects crawler

and obtain a high speed up ratio, a cluster environment was constructed. More details

are as follows:

1) There is a brief study about the expression of the subject and the judgment of

relevance between subjects;

2) The weight-based algorithm for mining web subject is proposed. The relevance

of the subject is added to relevance evaluation algorithm. And it also analyses the link

construction from the pages;

3) In order to improve the efficiency of the subject crawler, a multi-subjects

crawling strategy based on cluster is proposed. This strategy adopts multi-subjects

distribution strategy of marked classification and advances weighted least-connection

scheduling segmentation strategy;

4) The weight-based theme mining Web search system implements a multi-subject

search engine web crawler prototype. It can crawl to the related web more accurately

and stably.

Keywords: Web subject ，Correlation ，Entropy ，Weight ，Parallel

Computing ，Multi-Subjects

摘要

ABSTRACT

第一章绪论 .......................................................................................................................................... 1

§1.1 引言 ..........................................................................................................................................1

§1.2 互联网和搜索引擎介绍 ......................................................................................................... 2

§1.2.1 互联网的历史与发展 ....................................................................................................... 2

§1.2.2 搜索引擎现状 ................................................................................................................... 2

§1.2.3 国内外相关研究现状 ...................................................................................................... 3

§1.3 课题来源意义 ...........................................................................................................................3

§1.4 论文结构 ...................................................................................................................................4

第二章主题爬虫综述 ..........................................................................................................................6

§2.1 通用网络爬行模型 ...................................................................................................................7

§2.2 主题爬虫 ...................................................................................................................................8

§2.2.1 主题爬虫的原理 ............................................................................................................... 8

§2.2.2 主题爬虫结构 ................................................................................................................... 9

§2.2.3 性能瓶颈分析 ................................................................................................................. 10

第三章系统涉及的相关技术及其解决方案 ....................................................................................12

§3.1 HTTP 协议 ..............................................................................................................................12

§3.1.1 HTML 标签分类 ................................................................................................................ 13

§3.1.2 URL 提取策略 ................................................................................................................ 16

§3.2 主题表示形式 ........................................................................................................................18

§3.3 网页分析算法 ........................................................................................................................19

§3.3.1 基于网络拓扑的分析算法 ............................................................................................. 19

§ 3.3.2 基于网页内容的网页分析算法 .................................................................................... 20

§3.4 Web 文本相关性判定 ........................................................................................................... 20

第四章主题爬虫策略 ........................................................................................................................22

§4.1 基于内容的爬行策略 ........................................................................................................... 22

§4.1.1 Web 文档处理 ................................................................................................................. 22

§4.1.2 中文分词处理 ................................................................................................................. 23

§4.1.3 关键词提取 ..................................................................................................................... 24

§4.1.4 特征值选取及权值计算 ................................................................................................. 24

§4.1.5 基于内容评价的搜索策略 ............................................................................................. 25

§4.2 基于权值的主题搜索算法 .................................................................................................... 29

§4.2.1 Web 主题关系拓展模型 ................................................................................................. 29

§4.2.2 权值定义 ..........................................................................................................................29

§4.3 试验结果 .................................................................................................................................31

§4.4 本章小结 .................................................................................................................................32

第五章 Web 主题并行化搜索架构方案 ............................................................................................33

§5.1 负载均衡 .................................................................................................................................33

§5.1.1 负载均衡的基本问题 ..................................................................................................... 33

§5.1.2 负载均衡的基本算法 ..................................................................................................... 33

§5.2 爬虫负载信息描述与信息收集策略 .................................................................................... 36

§5.2.1 爬虫负载信息描述 ......................................................................................................... 36

§5.2.2 爬虫负载信息收集方式 ................................................................................................. 37

§5.2.3 爬虫收集负载信息时间控制 ......................................................................................... 37

§5.2.4 爬虫信息描述包构建 .................................................................................................... 38

§5.3 并行系统结构及其主要技术 ............................................................................................... 38

§5.3.1 系统结构 ..........................................................................................................................38

§5.3.2 关键技术 ..........................................................................................................................41

§5.3.3 并行算法构建 ................................................................................................................ 45

§5.4 实验结论及分析 ....................................................................................................................47

§5.5 本章小结 ................................................................................................................................49

第六章系统设计 ................................................................................................................................ 50

§6.1 网络资源搜索原理 ............................................................................................................... 50

§6.1.1 起始地址的选择 ............................................................................................................. 51

§6.1.2 网络资源搜索系统控制原则 ......................................................................................... 52

§6.2 系统的设计 .............................................................................................................................53

§6.2.1 网络爬虫的结构 ............................................................................................................. 53

§6.2.2 系统的工作过程 ............................................................................................................. 54

§6.2.3 队列管理实现 ................................................................................................................. 54

§6.2.4 系统工作流程图 ............................................................................................................. 55

§6.2.5 系统信息搜集策略 ......................................................................................................... 56

§6.2.6 网页内容提取 ................................................................................................................ 57

§6.3 本章小结 .................................................................................................................................59

第七章总结与展望 ............................................................................................................................ 60

§7.1 结论 .........................................................................................................................................60

§7.2 展望 .........................................................................................................................................60

§7.2.1 评价网页权威性实用性功能 ......................................................................................... 60

§7.2.2 模型抽取 ..........................................................................................................................60

§7.2.3 加强网页对于 script 链接的抽取 .................................................................................. 61

参考文献 .............................................................................................................................................. 62

第一章绪论

§1.1 引言

近年来，随着网络信息量的急剧增加，人们关注更多的是如何利用搜索引擎

从大量相关信息找到精确有效的信息，高查准率成为搜索引擎的首要目标，但是

这些都要依靠人的筛选，因此如何有效地对信息进行自动筛选成为了搜索引擎面

临的最大挑战。普通搜索引擎一般查准率极低，返回给用户的成千上万个查询结

果中的有效结果可能只有几个甚至根本没有。由于要在短短数秒内为数以万计用

户同时提供优质服务，要在亿级数据记录中搜寻到符合用户需求的信息，计算量

很大，传统的计算机是很难胜任这样的工作。海量信息、并发处理、实时处理和

语言的二义性等给门户型搜索引擎带来极大的挑战性，要如何解决这些问题？由

于主题型网站的逐渐成熟，因此搜索引擎向着主题化的方向发展应该是解决这些

问题的一条思路。

主题搜索引擎[1]是以某一专题或者学科领域的信息资源库为目标，在互联网上

智能地搜索符合条件的信息资源。它借助专家的知识和经验，对内容进行更加合

理的编排，为用户筛选出更为满意的结果。主题搜索引擎的优点在于可以把具有

相同兴趣的人们集中在一个主题内，不仅集中了各种专业的资源，而且给人们提

供了一个可以交互的平台，很受人们的欢迎。

网络爬虫[2]是一种用于查找大量 Web 页面的 RoBot 程序，用于扫描互联网上

的页面。它是一个自动提取网页的程序，为搜索引擎从万维网上下载网页，是

搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始，获得初始

网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL 放入

队列，直到满足系统的一定停止条件。通用网络爬虫的目标就是尽可能多地采集

信息页面，而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主

题。这必将消耗很多系统资源和网络带宽，这种资源消耗并没有换来采集页面的

较高利用率。主题网络爬虫，是主题式搜索引擎的重要组成部分，则是指尽可能

快地爬行、采集尽可能多的与预先定义好的主题相关的网页。主题网络爬虫可以

通过对整个 Web 按主题分块采集，并将不同块的采集结果整合到一起，以提高整

个Web 的采集覆盖率和页面利用率。由于主题式搜索引擎只提供主题领域内的信

息查询，即非主题领域内的信息对其而言是无效信息。这就要求搜索引擎在进行

网上信息采集时，必须采用主题式搜索策略。

面向 Web 主题挖掘的并行搜索架构研究

涉及主题网络爬虫的相关研究有许多方面，例如，主题相关度网页的确定，

选择什么相关主题的种子网站，采用什么样的策略最大限度的搜集网络资源等等，

这些因素都会直接影响搜索效果的好坏。我们相信，主题搜索引擎的出现必将成

为今后搜索引擎的发展新方向，主题网络爬虫作为主题搜索引擎的重要组成部分，

必将成为学者研究重中之重。

§1.2 互联网和搜索引擎介绍

§1.2.1 互联网的历史与发展

1958 年由于美国政府国防的需要，在五角大楼成立了国防前沿研究项目署。

1960 年，ARPA 研发了第一个计算机互联网络 ARPA 网，1974 年 ARPA 的鲍勃•

凯恩和斯坦福的温登•泽夫提出 TCP/IP 协议，并在 1983 年将 ARPA 网的核心协议

由NCP 改变为 TCP/IP，即现在的互联网基础协议。在 1986 年，美国国家科学基

金会(National Science Foundation，

NSF) 建立了大学之间互联的骨干网络 NSFnet，

这是因特网历史上重要的一个起点。由于 NSF 网对全社会开放，得到了极大的发

展，迅速取代 ARPA 网，成为国际互联网络的主干网。

1991 年 Tim Berners Lee 在CERN(欧洲原子能研究组织，

European Organization

for Nuclear Research)在经过几年的努力，终于在新闻组上发布今天的万维网

（WWW）。万维网通过 HTML 标记语言编写网页，通过超链接把网页组织在一起，

而这些网页也会链接到更多得其他网站，这样就将整个万维网链接起来，从而可

以简单方便的互相访问。

万维网一经推出就得到了极快的发展，如今已经成为互联网上最重要的应用。

各种传统的应用纷纷向 WWW 整合，比如传统的 Email，BBS 等网络系统。另一

方面，新的基于 WWW 的应用也层出不穷，比如 Blog，Wiki 等等。

§1.2.2 搜索引擎现状

搜索引擎[3]是利用信息挖掘系统在网际空间寻找和挖掘相关或有用信息，在此

基础上建立检索数据库，并通过提供简单友好的查询界面帮助用户进行网络信息

检索的信息服务系统或工具。搜索引擎实际是 Internet 上的一类网站，这类网站与

一般的网站不同，其主要工作是自动搜寻 Web 服务器的信息，将信息进行分类、

建立索引，然后把索引的内容存放到数据库中，便于以查询和利用的方式提交给

用户。

目前通用搜索引擎已经成为 Web 上使用最广泛的搜索工具，CNNIC 调查报告

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 积分 4人已下载

立即下载 VIP免费下载

摘要：

摘要随着现代网络应用的高速发展，信息量急剧增长，传统的搜索引擎已经不能满足人们日常信息检索的需要了。传统的搜索引擎只能提供比较模糊的检索，不能准确定位到客户最需要的信息，因此，搜索引擎就向着专业化方向发展，产生了面向主题的搜索引擎，此类搜索引擎可以提供更加精准的搜索服务。主题搜索引擎的重要部分就是主题爬虫引擎，由于网页的动态性、异构性和复杂性，主题爬虫策略很难适应网络环境，因此主题爬虫采用何种搜索方式访问Web将会决定爬虫的效率。文中对国内外网络爬虫的研究情况进行了探讨学习，在分析主题爬虫搜索策略优缺点基础上，提出了Web主题并行搜索架构。主要工作如下：1）对主题的表示和主题的相关性判断问题了...

展开>> 收起<<

面向Web主题挖掘的并行搜索架构研究.pdf

共68页,预览7页

还剩页未读，继续阅读

面向Web主题挖掘的并行搜索架构研究

相关推荐

开通VIP享超值会员特权

作者详情

相关内容

推荐作者

热门标签

举报选择: