垂直搜索引擎相关技术的研究

VIP免费
3.0 牛悦 2024-11-19 4 4 1.07MB 65 页 15积分
侵权投诉
i
摘 要
在信息化高速发展的今天,网络上的存在的信息包罗万象,极大的丰富了
们的生活。但在如此海量的信息中快速的搜寻用户真正感兴趣的信息,即使是对
专精于此的搜索引擎来说也是有很大的难度的。在这种情况下,一些专精于某一
领域提供专门搜索的垂直搜索引擎发展起来。
论文首先介绍了搜索引擎技术发展的历史过程及技术分类,并通过对其所
临问题的分析,得出垂直搜索引擎技术产生的必要性,随后介绍了其发展现状及
其所依赖的关键技术。
本文在以上介绍的基础上,对搜索引擎中的关键部分爬虫技术进行的详细
论述。并对通用网络爬虫与主题网络爬虫实现原理及方式进行了比较,着重介绍
了主题网络爬虫所特有的基于主题识别来判断网页下载优先度的垂直搜索策略。
通过对两种垂直搜索策略隧道技术与ε-贪婪搜索策略的介绍,提出了一种可变步
长的隧道技术,用于降低主题网络爬虫陷入搜索结果局部最优的几率。并通过模
拟实验证明这种改进的隧道技术对于主题相关网页的查全率与查准率都有不同程
度的提高。
HITS PageRank
HITS 算法,通过其本身链接网页具有内容相近的特征,对链接在一起的网页进行
特征关键字提取,将提取的结果用于建立分词词典,并通过一定的办法将网页重
要程度与特征词关联起来,使得特征明显的网页具有更高的权重,从而弱化主题
漂移现象。另外还从关键字检索次数入手,对其被检索的次数进行统计,提高热
门检索词的权重,并通过对某一时间段与整个时间段内的均值进行比较,将两者
的差值作为判断用户对其关注度的评判依据,进而决定其本身权值的增减,亦可
用于优化分词词典。对于 PageRank 算法,将其与蚁群算法的基本思想结合起来。
通过用户对检索结果的自主选择,作为判断关键字与网页本身之间关联紧密程度
的依据,并通过设定的公式将其反映到网页本身的权重上去,进而优化查询返回
的排序结果。最后通过模拟实验对其进行效果评估,并证明了其有效性。
论文的末尾提出了一种适用于垂直搜索技术的网页去重算法,通过分析网
中关键字的词频,将出现频率最高的若干个关键字按照其在文本中出现顺序的逆
序组成特征字符串,并用 MD5 散列函数对其进行签名,从而实现网页去重。
关键词:网络爬虫,隧道技术,HITS,PageRank,网页去重
ii
ABSTRACT
With the development of information technology, the information on the Web is
multi-faceted, greatly enrich people’s lives. However, it is very difficult for search
engine to find out the information that users really want. In such condition, vertical
search engines which specialize in a particular field to provide specialized retrieval
developed.
The paper first introduces the history of search engine technology and the categories
of technique. By analyzing the problems that the general search engine has faced, we
find that it is necessary to develop the vertical search engine. Then introduce the status
and related technique of the vertical search engine.
According to the research above, we describe the crawler which is the key part of
search engine detailed. By comparing to the general-purpose Web crawler, we study the
crawling strategy of the topic crawler which uses the topic to determine the web page
fetching priority. Through the introduction of two kinds of crawling strategy tunneling
technology and ε-greedy search strategy, a variable step size of the tunneling technology
is proposed to decrease the probability that the topic crawler goes into the local
optimum situation. Also we demonstrate the effect of the improved tunneling
technology using simulated experiments which increase the recall and precision partly.
Based on HITS and PageRankwe propose the related strategies to improve them.
For HITS, according to the similar characteristics of the content of its own linked web
page, extract keywords from the connected pages and construct the segment word
dictionary, and attach the importance of the page to each word to make sure that the
more featured page is able to have a higher weight, thus it can weakens the topic drift.
Besides, we start from the view about the keyword retrieved frequency, count the times
of the keyword retrieved, and use it to increase the weight of popular query terms. In
order to insure the accuracy of the keywords weight, we use the difference of the period
value and average value during the whole process as a condition which describe the
concern of the users to determine whether it is needed to increase the weight or not.
And it also can be used for optimize the segment word dictionary.
For PageRank, we introduce the basic idea of ant colony algorithm into it. Here we
iii
use the random choice of user to determine the relevancy between keywords and web
pages, and reflect it to the concrete web pages by setting specific formula, then optimize
the query results. Finally through carrying out the simulation of its impact assessment to
proved its effectiveness. By the end of paper we propose a duplicate-cut algorithm
which is useful for vertical search engine, by analyzing the Web page keyword term
frequency, concatenate a number of the most frequent keywords appear in the text in
accordance with its reverse sequence to a characteristic string, and then use MD5
function to generate its hash value which can identify the web page, thus we can realize
the duplicate-cut effect.
Keywords: Web crawler, Tunneling technology, HITS, PageRank,
Duplicate-cut
iv
目 录
摘 要
ABSTRACT
第一章 引言 .......................................................... 1
§1.1 搜索引擎简介.................................................................................................1
§1.1.1 第一代搜索引擎................................................................................... 2
§1.1.2 第二代搜索引擎................................................................................... 2
§1.1.3 元搜索引擎........................................................................................... 3
§1.2 存在的问题.....................................................................................................4
§1.2.1 网络信息的特点..................................................................................... 4
§1.2.2 产生的问题............................................................................................. 5
§1.3 垂直搜索引擎简介...........................................................................................6
§1.3.1 垂直搜索引擎定义................................................................................. 6
§1.3.2 垂直搜索引擎的优点............................................................................. 6
§1.3.3 研究现状................................................................................................. 6
§1.4 本文的研究内容及结构安排...........................................................................7
第二章 相关技术 ...................................................... 9
§2.1 中文分词技术.................................................................................................9
§2.1.1 基于字符串匹配的分词算法............................................................... 9
§2.1.2 基于统计的分词方法......................................................................... 11
§2.1.3 基于理解的分词方法........................................................................... 12
§2.2 索引技术.........................................................................................................12
§2.2.1 倒排索引............................................................................................... 12
§2.2.2 签名文件............................................................................................... 13
§2.2.3 位图....................................................................................................... 14
§2.3 本章小结.........................................................................................................15
第三章 网络爬虫原理及关键技术的研究 ................................. 16
§3.1 网络爬虫原理与构成...................................................................................16
§3.1.1 网络爬虫基本原理............................................................................... 16
§3.1.2 网络爬虫工作流程............................................................................... 17
§3.1.3 爬虫技术关键问题............................................................................... 19
§3.2 主题网络爬虫................................................................................................21
§3.2.1 主题网络爬虫工作原理........................................................................ 22
v
§3.2.2 主题网络爬虫存在的问题................................................................... 24
§3.3 垂直搜索策略研究........................................................................................25
§3.3.1 隧道技术............................................................................................... 26
§3.3.2 ε- 贪婪策略搜索算法........................................................................... 27
§3.4 隧道技术的改进策略.....................................................................................28
§3.4.1 改进思想................................................................................................ 28
§3.4.2 具体流程............................................................................................... 29
§3.4.3 算法分析与实验模拟............................................................................ 30
§3.5 本章小结.......................................................................................................31
第四章 网页信息处理相关技术的研究与改进 ............................. 32
§4.1 网页排序技术................................................................................................32
§4.1.1 HITS 算法.............................................................................................. 33
§4.1.2 PageRank 算法 .......................................................................................35
§4.2 HITS 算法的研究与新的应用......................................................................37
§4.2.1 KFHITS 算法原理 ............................................................................. 37
§4.2.2 KFHITS 算法具体过程及应用 ......................................................... 39
§4.3 分词词典的补充.............................................................................................44
§4.3.1 问题提出............................................................................................... 44
§4.3.2 利用均值的解决方案........................................................................... 45
§4.3.3 结果分析............................................................................................... 46
§4.4 PageRank 算法的研究与改进 ...................................................................... 47
§4.4.1 蚁群算法简介....................................................................................... 47
§4.4.2 蚁群算法对 PageRank 算法的改进 .....................................................48
§4.4.3 模拟实验............................................................................................... 50
§4.5 网页去重技术...............................................................................................52
§4.5.1 网页重复的原因................................................................................... 52
§4.5.2 现有解决方案....................................................................................... 53
§4.5.3 基于垂直搜索的去重算法................................................................... 53
§4.6 本章小结.........................................................................................................55
第五章 总结与展望 ................................................... 56
§5.1 总结..................................................................................................................56
§5.2 展望..................................................................................................................57
参考文献 ............................................................ 58
第一章 引言
1
第一章 引言
文字的产生是人类文明诞生的一个主要标志,这意味着人类从出现的时刻
始所积累的知识与经验可以通过文字这种载体传承下去,每一段文字记录都是极
其珍贵的信息。正是通过这些由人类数代积累下来的信息,人类文明才能不断的
向前发展。然而,只有信息的保存而没有信息的交流是不行的,一段保存的极为
严密的信息,若其不能被人们了解掌握,那它将一文不值,因为信息的本身就是
知识的载体,它传承了各种文化,技术和思想并通过这些来使人类文明大放异彩。
在人类有文字记载的历史上,四大文明古国各自创造了自己独特而璀璨的文明,
这些知识自今仍是人类文明的基石。从历史发展的角度来看,每一次人类文明的
进步都是信息交流的产物,人们通过贸易甚至战争来获利,但在客观上加速了不
同文明间的信息流通。通过这些信息的交流与积累,人类文明的发展速度跳跃式
的增长。从农耕游牧文明到第一次工业革命用了几千年,第一次工业革命到第二
次工业革命只用了一百多年,而在工业革命的基础上进入信息时代只用了几十年,
这种发展速度可以看出,人类文明的发展速度与人类所积累的信息量的大小是成
正比的。在当今社会,一个人要想独立的完成一件有技术含量的事情是很困难的,
信息在满足人类进步的同时也把大家紧密的联系在一起,正是通过人们的相互交
流与合作,进一步促进了文明的发展。
信息化的到来使人们的生活发生了巨大的变化,网络成为信息的第二载体
人们通过网络发布自己所掌握的信息,也通过网络查找自己所需要的信息。然而,
个人发布的信息对自身来说意义已经不大,因为已经掌握了这些,重要的是用户
所需要的信息,这些信息在哪,有没有人了解并发布,如何找到它们成为人们日
益关注的话题。当人们庆幸有海量的信息可以利用的时候,也应该意识到人的精
力是有限的,一个人的精力只能专注与海量信息中极小的一部分。但当这极小的
一部分融到网络的时候,我们发现,没有合适的工具,要找到自己所需要的信息
无异于大海捞针。在这种情况下,搜索技术应运而生,并逐渐成为网络发展的主
流技术之一。
§1.1 搜索引擎简介
最初的搜索引擎的原型并不是用于互联网上的信息搜索[1],诞生于 1990 年的
摘要:

i摘要在信息化高速发展的今天,网络上的存在的信息包罗万象,极大的丰富了人们的生活。但在如此海量的信息中快速的搜寻用户真正感兴趣的信息,即使是对专精于此的搜索引擎来说也是有很大的难度的。在这种情况下,一些专精于某一领域提供专门搜索的垂直搜索引擎发展起来。论文首先介绍了搜索引擎技术发展的历史过程及技术分类,并通过对其所面临问题的分析,得出垂直搜索引擎技术产生的必要性,随后介绍了其发展现状及其所依赖的关键技术。本文在以上介绍的基础上,对搜索引擎中的关键部分爬虫技术进行的详细的论述。并对通用网络爬虫与主题网络爬虫实现原理及方式进行了比较,着重介绍了主题网络爬虫所特有的基于主题识别来判断网页下载优先度的...

展开>> 收起<<
垂直搜索引擎相关技术的研究.pdf

共65页,预览7页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:65 页 大小:1.07MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 65
客服
关注