垂直搜索引擎相关技术的研究

VIP免费

3.0 牛悦 2024-11-19 4 4 1.07MB 65 页 15积分

侵权投诉

摘要

在信息化高速发展的今天，网络上的存在的信息包罗万象，极大的丰富了人

们的生活。但在如此海量的信息中快速的搜寻用户真正感兴趣的信息，即使是对

专精于此的搜索引擎来说也是有很大的难度的。在这种情况下，一些专精于某一

领域提供专门搜索的垂直搜索引擎发展起来。

论文首先介绍了搜索引擎技术发展的历史过程及技术分类，并通过对其所面

临问题的分析，得出垂直搜索引擎技术产生的必要性，随后介绍了其发展现状及

其所依赖的关键技术。

本文在以上介绍的基础上，对搜索引擎中的关键部分爬虫技术进行的详细的

论述。并对通用网络爬虫与主题网络爬虫实现原理及方式进行了比较，着重介绍

了主题网络爬虫所特有的基于主题识别来判断网页下载优先度的垂直搜索策略。

通过对两种垂直搜索策略隧道技术与ε-贪婪搜索策略的介绍，提出了一种可变步

长的隧道技术，用于降低主题网络爬虫陷入搜索结果局部最优的几率。并通过模

拟实验证明这种改进的隧道技术对于主题相关网页的查全率与查准率都有不同程

度的提高。

在两种算法 HITS 与PageRank 算法的基础上提出了自己的改进措施。对于

HITS 算法，通过其本身链接网页具有内容相近的特征，对链接在一起的网页进行

特征关键字提取，将提取的结果用于建立分词词典，并通过一定的办法将网页重

要程度与特征词关联起来，使得特征明显的网页具有更高的权重，从而弱化主题

漂移现象。另外还从关键字检索次数入手，对其被检索的次数进行统计，提高热

门检索词的权重，并通过对某一时间段与整个时间段内的均值进行比较，将两者

的差值作为判断用户对其关注度的评判依据，进而决定其本身权值的增减，亦可

用于优化分词词典。对于 PageRank 算法，将其与蚁群算法的基本思想结合起来。

通过用户对检索结果的自主选择，作为判断关键字与网页本身之间关联紧密程度

的依据，并通过设定的公式将其反映到网页本身的权重上去，进而优化查询返回

的排序结果。最后通过模拟实验对其进行效果评估，并证明了其有效性。

论文的末尾提出了一种适用于垂直搜索技术的网页去重算法，通过分析网页

中关键字的词频，将出现频率最高的若干个关键字按照其在文本中出现顺序的逆

序组成特征字符串，并用 MD5 散列函数对其进行签名，从而实现网页去重。

关键词:网络爬虫，隧道技术，HITS，PageRank，网页去重

ABSTRACT

With the development of information technology, the information on the Web is

multi-faceted, greatly enrich people’s lives. However, it is very difficult for search

engine to find out the information that users really want. In such condition, vertical

search engines which specialize in a particular field to provide specialized retrieval

developed.

The paper first introduces the history of search engine technology and the categories

of technique. By analyzing the problems that the general search engine has faced, we

find that it is necessary to develop the vertical search engine. Then introduce the status

and related technique of the vertical search engine.

According to the research above, we describe the crawler which is the key part of

search engine detailed. By comparing to the general-purpose Web crawler, we study the

crawling strategy of the topic crawler which uses the topic to determine the web page

fetching priority. Through the introduction of two kinds of crawling strategy tunneling

technology and ε-greedy search strategy, a variable step size of the tunneling technology

is proposed to decrease the probability that the topic crawler goes into the local

optimum situation. Also we demonstrate the effect of the improved tunneling

technology using simulated experiments which increase the recall and precision partly.

Based on HITS and PageRank，we propose the related strategies to improve them.

For HITS, according to the similar characteristics of the content of its own linked web

page, extract keywords from the connected pages and construct the segment word

dictionary, and attach the importance of the page to each word to make sure that the

more featured page is able to have a higher weight, thus it can weakens the topic drift.

Besides, we start from the view about the keyword retrieved frequency, count the times

of the keyword retrieved, and use it to increase the weight of popular query terms. In

order to insure the accuracy of the keyword’s weight, we use the difference of the period

value and average value during the whole process as a condition which describe the

concern of the users to determine whether it is needed to increase the weight or not.

And it also can be used for optimize the segment word dictionary.

For PageRank, we introduce the basic idea of ant colony algorithm into it. Here we

iii

use the random choice of user to determine the relevancy between keywords and web

pages, and reflect it to the concrete web pages by setting specific formula, then optimize

the query results. Finally through carrying out the simulation of its impact assessment to

proved its effectiveness. By the end of paper we propose a duplicate-cut algorithm

which is useful for vertical search engine, by analyzing the Web page keyword term

frequency, concatenate a number of the most frequent keywords appear in the text in

accordance with its reverse sequence to a characteristic string, and then use MD5

function to generate its hash value which can identify the web page, thus we can realize

the duplicate-cut effect.

Keywords: Web crawler, Tunneling technology, HITS, PageRank,

Duplicate-cut

摘要

ABSTRACT

第一章引言 .......................................................... 1

§1.1 搜索引擎简介.................................................................................................1

§1.1.1 第一代搜索引擎................................................................................... 2

§1.1.2 第二代搜索引擎................................................................................... 2

§1.1.3 元搜索引擎........................................................................................... 3

§1.2 存在的问题.....................................................................................................4

§1.2.1 网络信息的特点..................................................................................... 4

§1.2.2 产生的问题............................................................................................. 5

§1.3 垂直搜索引擎简介...........................................................................................6

§1.3.1 垂直搜索引擎定义................................................................................. 6

§1.3.2 垂直搜索引擎的优点............................................................................. 6

§1.3.3 研究现状................................................................................................. 6

§1.4 本文的研究内容及结构安排...........................................................................7

第二章相关技术 ...................................................... 9

§2.1 中文分词技术.................................................................................................9

§2.1.1 基于字符串匹配的分词算法............................................................... 9

§2.1.2 基于统计的分词方法......................................................................... 11

§2.1.3 基于理解的分词方法........................................................................... 12

§2.2 索引技术.........................................................................................................12

§2.2.1 倒排索引............................................................................................... 12

§2.2.2 签名文件............................................................................................... 13

§2.2.3 位图....................................................................................................... 14

§2.3 本章小结.........................................................................................................15

第三章网络爬虫原理及关键技术的研究 ................................. 16

§3.1 网络爬虫原理与构成...................................................................................16

§3.1.1 网络爬虫基本原理............................................................................... 16

§3.1.2 网络爬虫工作流程............................................................................... 17

§3.1.3 爬虫技术关键问题............................................................................... 19

§3.2 主题网络爬虫................................................................................................21

§3.2.1 主题网络爬虫工作原理........................................................................ 22

§3.2.2 主题网络爬虫存在的问题................................................................... 24

§3.3 垂直搜索策略研究........................................................................................25

§3.3.1 隧道技术............................................................................................... 26

§3.3.2 ε- 贪婪策略搜索算法........................................................................... 27

§3.4 隧道技术的改进策略.....................................................................................28

§3.4.1 改进思想................................................................................................ 28

§3.4.2 具体流程............................................................................................... 29

§3.4.3 算法分析与实验模拟............................................................................ 30

§3.5 本章小结.......................................................................................................31

第四章网页信息处理相关技术的研究与改进 ............................. 32

§4.1 网页排序技术................................................................................................32

§4.1.1 HITS 算法.............................................................................................. 33

§4.1.2 PageRank 算法 .......................................................................................35

§4.2 HITS 算法的研究与新的应用......................................................................37

§4.2.1 KF－HITS 算法原理 ............................................................................. 37

§4.2.2 KF－HITS 算法具体过程及应用 ......................................................... 39

§4.3 分词词典的补充.............................................................................................44

§4.3.1 问题提出............................................................................................... 44

§4.3.2 利用均值的解决方案........................................................................... 45

§4.3.3 结果分析............................................................................................... 46

§4.4 PageRank 算法的研究与改进 ...................................................................... 47

§4.4.1 蚁群算法简介....................................................................................... 47

§4.4.2 蚁群算法对 PageRank 算法的改进 .....................................................48

§4.4.3 模拟实验............................................................................................... 50

§4.5 网页去重技术...............................................................................................52

§4.5.1 网页重复的原因................................................................................... 52

§4.5.2 现有解决方案....................................................................................... 53

§4.5.3 基于垂直搜索的去重算法................................................................... 53

§4.6 本章小结.........................................................................................................55

第五章总结与展望 ................................................... 56

§5.1 总结..................................................................................................................56

§5.2 展望..................................................................................................................57

参考文献 ............................................................ 58

第一章引言

文字的产生是人类文明诞生的一个主要标志，这意味着人类从出现的时刻开

始所积累的知识与经验可以通过文字这种载体传承下去，每一段文字记录都是极

其珍贵的信息。正是通过这些由人类数代积累下来的信息，人类文明才能不断的

向前发展。然而，只有信息的保存而没有信息的交流是不行的，一段保存的极为

严密的信息，若其不能被人们了解掌握，那它将一文不值，因为信息的本身就是

知识的载体，它传承了各种文化，技术和思想并通过这些来使人类文明大放异彩。

在人类有文字记载的历史上，四大文明古国各自创造了自己独特而璀璨的文明，

这些知识自今仍是人类文明的基石。从历史发展的角度来看，每一次人类文明的

进步都是信息交流的产物，人们通过贸易甚至战争来获利，但在客观上加速了不

同文明间的信息流通。通过这些信息的交流与积累，人类文明的发展速度跳跃式

的增长。从农耕游牧文明到第一次工业革命用了几千年，第一次工业革命到第二

次工业革命只用了一百多年，而在工业革命的基础上进入信息时代只用了几十年，

这种发展速度可以看出，人类文明的发展速度与人类所积累的信息量的大小是成

正比的。在当今社会，一个人要想独立的完成一件有技术含量的事情是很困难的，

信息在满足人类进步的同时也把大家紧密的联系在一起，正是通过人们的相互交

流与合作，进一步促进了文明的发展。

信息化的到来使人们的生活发生了巨大的变化，网络成为信息的第二载体，

人们通过网络发布自己所掌握的信息，也通过网络查找自己所需要的信息。然而，

个人发布的信息对自身来说意义已经不大，因为已经掌握了这些，重要的是用户

所需要的信息，这些信息在哪，有没有人了解并发布，如何找到它们成为人们日

益关注的话题。当人们庆幸有海量的信息可以利用的时候，也应该意识到人的精

力是有限的，一个人的精力只能专注与海量信息中极小的一部分。但当这极小的

一部分融到网络的时候，我们发现，没有合适的工具，要找到自己所需要的信息

无异于大海捞针。在这种情况下，搜索技术应运而生，并逐渐成为网络发展的主

流技术之一。

§1.1 搜索引擎简介

最初的搜索引擎的原型并不是用于互联网上的信息搜索[1]，诞生于 1990 年的

垂直搜索引擎相关技术的研究

Archie 是用来在检索各个分散的 FTP 主机中所包含的文件，这是由于大量的文件

位于不同的 FTP 主机上，使得在查找自己所需的文件的时候很麻烦，而此时网络

间的文件传输技术已经有了很大的发展，可以满足人们在一台机器上获得其它 FTP

主机上所特有的信息，所以 Montreal 的McGill University 学生 Alan Emtage、Peter

Deutsch、Bill Wheelan 开发了一个这种以文件名为目标查找所需文件的系统，其通

过定义的脚本程序来自动的寻找存在于各个 FTP 主机上的文件，并对查找到的文

件的相关信息建立索引，当用户想查找相应的文件时，只需要输入相应的字段，

通过相应的表达式进行匹配查询，返回所需的结果。但其匹配查询只能作用于文

件，其索引的建立也是基于文件为单位的，还不能实现网页检索，所以只能说其

工作原理与现在的搜索引擎相似，但不能将其视为真正意义上的搜索引擎。

§1.1.1 第一代搜索引擎

现代意义上的搜索引擎，也被称第一代搜索引擎的代表为超级目录索引

Yahoo[1,2]，由两名斯坦福(Stanford)大学的博士生，大卫.菲勒与华人杨致远在 1994

年4月共同创造。其基于目录索引的检索方式使其可以更形象的描述为一个可搜

索的被编辑过的目录，因为它的目录索引是完全依赖与人工操作的，并靠网站主

动提交信息来建立自己的链接索引，目录编辑人员通过人为定义的评判标准来决

定是否接纳被提交的网站，若接纳还要评判该网站的性质以期将其加入一个最合

适的目录。这样做使得目录索引要将网站分门别类，而且还要求提供网站者手动

的填写网站的目录及信息，并还有多种限制用于判断网站的优劣及类别，从而需

要不间断的对所分类的信息进行维护。虽然可以大幅提高搜索信息的准确度，但

在一定程度上需要大量的人力，而且人的主管因素也会潜移默化的融入到分类的

信息中去，不能实现完全的自主的信息检索与评判。

§1.1.2 第二代搜索引擎

真正意义上的搜索引擎是以 Google 为代表的第二代搜索引擎，这项技术的产

生与发展是一个多种技术相互融合的过程。最初的实现是“机器人”技术，即网

页间的链接关系来实现网络信息的自动发现，是由 Matthew Gray 于1993 年开发的

World wide Web Wanderer[2]，是现代搜索引擎关键技术网络爬虫的始祖，最初设计

的本意是是通过统计互联网上服务器的数量来监测其发展规模，慢慢的发展为能

够检索网站域名并捕获网址。为搜索引擎技术的发展奠定了基础。

1994 年初，由华盛顿大学(University of Washington）的学生 Brian Pinkerton 进

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 积分 4人已下载

立即下载 VIP免费下载

摘要：

i摘要在信息化高速发展的今天，网络上的存在的信息包罗万象，极大的丰富了人们的生活。但在如此海量的信息中快速的搜寻用户真正感兴趣的信息，即使是对专精于此的搜索引擎来说也是有很大的难度的。在这种情况下，一些专精于某一领域提供专门搜索的垂直搜索引擎发展起来。论文首先介绍了搜索引擎技术发展的历史过程及技术分类，并通过对其所面临问题的分析，得出垂直搜索引擎技术产生的必要性，随后介绍了其发展现状及其所依赖的关键技术。本文在以上介绍的基础上，对搜索引擎中的关键部分爬虫技术进行的详细的论述。并对通用网络爬虫与主题网络爬虫实现原理及方式进行了比较，着重介绍了主题网络爬虫所特有的基于主题识别来判断网页下载优先度的...

展开>> 收起<<

垂直搜索引擎相关技术的研究.pdf

共65页,预览7页

还剩页未读，继续阅读

垂直搜索引擎相关技术的研究

相关推荐

开通VIP享超值会员特权

作者详情

相关内容

推荐作者

热门标签

举报选择: