网络蜘蛛在网络论坛领域的研究与设计

VIP免费

3.0 高德中 2024-11-19 6 4 1.87MB 57 页 15积分

侵权投诉

摘要

随着 Web 2.0 的迅速发展，以用户为中心的，大部分乃至所有的由用户所贡

献的内容作为数据资源都变得越来越重要。网络论坛是一个典型代表，每天有成

千上万的网络用户在论坛上进行各方面的讨论，发表数不清的贴子。这些贴子涉

及到我们日常生活的每一个方面，是人类知识的一个数据库。因此，论坛抓取对

于搜索引擎、网络数据挖掘等有着非常高的应用价值。

我们根据网络蜘蛛的研究现状以及研究背景，通过对其所面临问题的分析，

并根据网络论坛所具有特征，得出基于网络论坛的网络蜘蛛产生的必要性。设计

了一套针对论坛的网络蜘蛛爬行策略；此爬行策略是在广度优先策略的基础上，

结合了深度优先爬行策略的优点，在再次爬行时采用了分类更新方案，只爬行更

新过的页面。我们研究的网络蜘蛛只对网络论坛里重复区域的 URL 进行爬行，因

为一般用户真正感兴趣的或希望从中获取知识的都是在重复区域中的内容。首先

把种子站点下载下来后，然后对页面进行解析，转换成 DOM 树，接着根据 DOM

树把噪音页面所对应的 URL 消除掉（页面消噪）；对此 DOM 树进行遍历找出里

面的重复的子树，把此子树相对应的 URL 提取出来，并对 URL 进行消重，然后

存放到待爬行队列里。在重复爬行的时候，采用分类更新方案，只爬行那些新增

的或更新过的 URL，如果已经爬行过并且没有更新过的 URL，则丢弃它。

在查找树和 Hash 算法的基础上，提出了 B-Rabin 算法来实现 URL 消重。

B-Rabin 算法是基于 Rabin 指纹方法，地址就是 URL 的指纹，每一个 URL 用

一位数据标识来表示，因此每次检索的时候只需要跟相应的一位数据的值做一次

比较。此算法能有效地把重复的 URL 去掉,从而提高了检索速度，更适用于网络

蜘蛛的 URL 检索。分类更新方案是我们提出的更新检测技术，基于统一更新策

略和个体更新策略；通过页面的更新历史计算出每个页面的更新频率，然后基于

计算出的结果，把页面大致分为两类：较少更新的页面和经常更新的页面；最后

再按照这个分类来以不同的频率爬行这两类页面。

最后对我们研究的蜘蛛系统进行部署、测试以及实验数据进行了分析。

关键字：网络蜘蛛 DOM 树页面重复区域 URL 消重爬行策略噪

音页面更新策略

ABSTRACT

With the development of Web 2.0, user-centered web, or a majority (even all) of the

user-contributing web has become more and more important as data resources. BBS is

a typical example. Everyday, there are thousands of web users writing countless

articles or debating on all directions in web forums. These articles, relating to all

aspects of our daily life, is a database of the human knowledge. Therefore, forum

crawling has high application value for engine searching, web data mining and the like.

Through the current situation and background on web spider researching basing on

web forums and the analysis of current problems, we came to the conclusion that the

product of web spider technology on web forums is essential. We designed a web

spider crawling strategy particularly for web forums. Based on the Breadth Prior

strategy, this crawling strategy combined with the advantages of Deep Prior strategy,

and adopted the classification updating technology to crawl those updated pages only

in the process of second time crawling. The web spider we researched crawl those

repeated area URLs of web forums only, because users are usually interested in or

hoping to get knowledge from those repeated areas. The first step is to download the

seed sites, then analyze this page, transform to DOM tree, delete the noise

page-relating URL according to DOM tree(page noise deletion); Search DOM tree and

find out those repeated subtrees, extract the subtree-relating URL, remove duplicated

URL, then save it in the crawl-waiting queue. Repeated crawling only happens to those

newly added or updated URL. Those URL which had been crawled or never being

updated will be discarded. Using the Classification updating method, second time

crawling only happens to those updated or newly added pages.

To realise URL duplication remove, we advanced B-Rabin arithmatic on the basis of

search tree and Hash arithmatic. B-Rabin arithmatic is based on Rabin fingermark

method, with the URL fingermark being the address. Each URL is expressed by a data

marker, thus when searching sth, only comparison with the relating data value is

needed. This arithmatic could delete the repeated URL and improve the searching

speed, making it more suitable for the web spider URL searching. Classification

updating method advanced here is an updating detection technology. On the basis of

comparing the unified updating strategy with the individual one, the update frequency

of each web page is calculated out by the update history. Then, the web pages is mainly

divided into 2 categories basing on the former calculation: pages having fewer updates

and pages having a lot of updates. The last step is the crawling on the 2 kinds of pages

in different frequency according to the 2 categories .

At last, we analyzed the operation, test and experimental data of the spider system

we are researching on.

Keywords: Web Spider，DOM Tree，Repetitive Region, Crawling

Strategies, Repetitive URL Eliminating,Noisy Page,

Updating Strategies

摘要

ABSTRACT

第一章绪论 ......................................................... 1

§1.1 研究的背景及意义 ........................................... 1

§1.2 国内外研究现状 ............................................. 2

§1.3 论文研究内容及组织结构 ..................................... 3

§1.3.1 主要研究内容 ......................................... 3

§1.3.2 论文结构 ............................................. 4

第二章相关理论基础 .................................................. 6

§2.1 搜索引擎概述 ............................................... 6

§2.1.1 搜索引擎的概念及分类 ................................. 6

§2.1.2 搜索引擎的工作过程及系统架构 ......................... 7

§2.2 网络蜘蛛概述 .............................................. 12

§2.2.1 网络蜘蛛的概念及工作原理 ............................ 12

§2.2.2 网络蜘蛛与网站的关系 ................................ 12

§2.3 网络蜘蛛各种爬行策略的比较 ................................ 13

§2.3.1 网络蜘蛛的爬行策略 .................................. 13

§2.3.2 各种爬行策略的比较 .................................. 14

第三章基于网络论坛的网络蜘蛛相关的技术研究 ......................... 15

§3.1 HTML 概述 ................................................. 15

§3.2 DOM 树简介 ................................................ 16

§3.3 页面文件解析 .............................................. 17

§3.4 页面消噪技术 .............................................. 19

§3.4.1 消噪技术的相关工作和基本概念 ........................ 19

§3.4.2 节点过滤 ............................................ 21

§3.4.3 基于页面布局及 DOM 树的消噪 .......................... 22

§3.5 URL 消重 .................................................. 29

§3.5.1 查找树 .............................................. 29

§3.5.2 Hash 算法 ........................................... 30

§3.5.3 B-Rabin 的算法 ...................................... 30

§3.6 新增及更新页面的发现 ...................................... 32

§3.6.1 页面更新的基本概念 .................................. 32

§3.6.2 两种更新策略的对比 .................................. 33

§3.6.3 分类更新方案 ........................................ 34

第四章基于网络论坛的网络蜘蛛的实现 ................................. 37

§4.1 网络蜘蛛的功能 ............................................ 37

§4.2 网络蜘蛛的系统架构及爬行流程 .............................. 37

§4.2.1 网络蜘蛛的系统架构 .................................. 37

§4.2.2 爬行流程 ............................................ 39

§4.3 网络蜘蛛各模块的实现 ...................................... 41

§4.3.1 页面下载模块 ........................................ 41

§4.3.2 DOM 树生成模块 ...................................... 43

§4.3.3 DOM 树重复子树检测模块 .............................. 43

§4.3.4 URL 去重模块 ........................................ 44

§4.3.5 更新检测模块 ........................................ 45

§4.4 实验及结果分析 ............................................ 45

第五章结束语 ....................................................... 48

§ 5.1 论文总结 ................................................. 48

§ 5.2 进一步的工作 ............................................. 48

参考文献 ............................................................ 50

在读期间公开发表的论文 .............................................. 53

致谢 .............................................................. 54

第一章绪论

快速膨胀的网络信息，使得 Internet 上的信息资源丰富繁多，在人们共享着

各种各样的资源的同时，也被非常多的垃圾信息困扰着，人们对搜索引擎的高效

性、专业性、时效性、准确性等要求变得越来越高，而传统的搜索引擎在更新速

度、索引规模和检索的质量等方面也已没法满足人们日益增长的个性化检索需求

[1]。为满足搜索需求的个性化和多样化，基于某一领域的搜索引擎已经成为研究

热点，例如在网络论坛、图书馆等方面。搜索引擎通过对某一领域相关信息分析

来提高检索的查准率，通过定期进行再次爬行的方法来提高信息的时效率，为特

定人群从相关领域检索特定的信息提供了有效的工具。

§1.1 研究的背景及意义

随着 Web 2.0 的迅速发展，以用户为中心的、所有的或者大部分由用户贡献

内容的 Web 作为数据资源变得越来越重要。网络论坛是一个典型代表，每天有成

千上万的网络用户在论坛上进行各方面的讨论，发表数不清的贴子。这些贴子涉

及到我们日常生活的每一个方面，是人类知识的一个数据库。因此，论坛抓取对

搜索引擎、网络数据挖掘等有着非常高的应用价值。一些商业搜索引擎、网络数

据挖掘公司也都在研究如何更高效地抽取论坛数据，以提高其搜索结果的质量，

如百度、雅虎、谷歌、微软等公司。

然而网络论坛有着和一般网站不一样的特征，具体表现在几个方面。1.它的

数据是存储在数据库里，当用户访问到论坛网站时，系统把存储在数据库里的数

据按事先设计好的模板展示给用户，这种模板可能是设计人员专门设计出来的也

有可能是某种软件生成的。这些模板都是以重复的形式出现，也称之为重复模板

[2]。

2.网络论坛里有非常多的链接是重复的，即许多超级链接是链接到同一个页面

[3]，例如一个网络论坛网站有一百个主题，而每页只能显示十个主题，每个页面

上都有导航链接分别指向一到十页，并且还有如上一页、下一页之类的导航链接，

这样十个页里面里有一百多个链接，而这一百多个链接真正只指向十个页面。3.

网络论坛里的数据更新速度非常快，而且这种更新和一般网站又有着很大的区别。

如一个比较热的主题，当前回复的贴子可能只有一二十个，但是过几分钟或是几

个小时后，它的贴子量可能会达到上百上千条，甚至更多。

由于以上所述的特征，对于单一爬行策略的网络蜘蛛来说[4]，它不能有效地

对网络论坛进行有效的爬行。如广度优先爬行策略的蜘蛛，一些主题包含的贴子

量非常大，会需要数十甚至数百个页面才能够全部显示出来，而一些重要的信息

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 积分 4人已下载

立即下载 VIP免费下载

摘要：

摘要随着Web2.0的迅速发展，以用户为中心的，大部分乃至所有的由用户所贡献的内容作为数据资源都变得越来越重要。网络论坛是一个典型代表，每天有成千上万的网络用户在论坛上进行各方面的讨论，发表数不清的贴子。这些贴子涉及到我们日常生活的每一个方面，是人类知识的一个数据库。因此，论坛抓取对于搜索引擎、网络数据挖掘等有着非常高的应用价值。我们根据网络蜘蛛的研究现状以及研究背景，通过对其所面临问题的分析，并根据网络论坛所具有特征，得出基于网络论坛的网络蜘蛛产生的必要性。设计了一套针对论坛的网络蜘蛛爬行策略；此爬行策略是在广度优先策略的基础上，结合了深度优先爬行策略的优点，在再次爬行时采用了分类更新方案，...

展开>> 收起<<

网络蜘蛛在网络论坛领域的研究与设计.pdf

共57页,预览6页

还剩页未读，继续阅读

网络蜘蛛在网络论坛领域的研究与设计

相关推荐

开通VIP享超值会员特权

作者详情

相关内容

推荐作者

热门标签

举报选择: