搜索引擎排序算法的研究与改进

VIP免费
3.0 高德中 2024-11-19 5 4 1.43MB 59 页 15积分
侵权投诉
摘 要
由于互联网的迅速发展对信息查询的环境产生很大影响,联网上的信息
是海量的、五花八门,这就给人们想要快速并且准确的得到自己想要的信息带来
了很大的难处。于是搜索引擎应用而生,为人们的查询提供了极大的便利。由于
网上资源是海量的这一特殊性,就对搜索引擎返回的网页是用户想要的信息提出
了很高的要求。而搜索引擎排序算法则能够使返回给用户的信息在网页的最前面,
从而能够使用户得到更好的使用体验,所以好的搜索排序算法直接决定着搜索引
擎的可实用性。
搜索引擎算法经历了三个阶段,目前搜索引擎公司使用的是第三代基于网页
链接的排序算法,其中最常用、最具有代表性的算法是 Google 公司采用的
PageRank 算法以及 HITS 算法。以这两种算法为基础的改进算法也有很多,国内
外学者和科研机构对此做出了不断的探索研究。
本文是在分析研究国内外搜索引擎算法的基础上,探讨总结了经典的搜索引
擎排序算法,并对基本算法的国内外现状以及他们各自的优缺点做了相关的分析
和总结。并针对改进的 HITS 算法的不足,提出了基于链接相似度的改进算法
LSIA(link Similarity Improved Algorithm),并利用概率模型进行了推导得出
相对简化的方法。通过建立搜索引擎平台来对 PageRank 算法,HITS 算法,Hilltop
算法以及 ARC 算法进行实现,并用 LSIA 算法和上述四个算法进行两两对比,最后
得出结果表明经过本文 LSIA 算法有效的控制了原算法中主题漂移的现象,使搜索
引擎的性能得到的提高。
关键词:搜索引擎 排序算法 PageRank 算法 HITS 算法 主题漂
移 链接相似度
ABSTRACT
Due to the rapid development of the Internet on information environment
produced very big effect, the information on the Internet is a massive, all kinds of , it is
to give the people what they want quickly and accurately get the information they want
brought very great difficulty. The search engine application queries and for people to
provide a great convenience. As a result of the online resource is the mass of this
particularity, the search engine returns a webpage is users want information raised very
tall requirement. But the search engine ranking algorithm can make the information
back to the user in the front of the webpage, thereby enabling users to get better use
experience, so good search ranking algorithm directly determines the search engine can
be practical.
Search engine algorithms has experienced three stages, the current search engine
companies are using the third generation based on webpage link sorting algorithm,
which is the most commonly used, the most representative of the algorithm is Google
using PageRank algorithm and HITS algorithm. With this two kinds of algorithm based
on improved algorithm also has a lot of domestic and foreign scholars and research
institutions have made continuous exploration and research.
This is on the analysis of the domestic and foreign search engine algorithms based
on, summed up the study of classic search engine ranking algorithm, and the basic
algorithm of the situation at home and abroad and their respective advantages and
disadvantages do the relevant analysis and summary. According to the improved HITS
algorithm is proposed based on the similarity of insufficient, links to improve the
algorithm, and the use of probabilistic models were pushed to get the relative
simplified method. Through the establishment of a search engine experimental
platform for the proposed algorithm are verified, the final result. The experimental data
indicate that this improved algorithm effective control in the original method drift
theme phenomenon, is a search engine having improved properties
Key Word: search engine, sorting algorithm, PageRank algorithm,
HITS algotithm, theme drift, link-based similarity
目录
摘要
ABSTRACT
第一章 绪论 ...................................................... 1
§1.1 研究背景和意义 ............................................. 1
§1.2 排序算法的发展及现状 ....................................... 1
§1.3 网页排序在应用中的问题 ..................................... 2
§1.4 本文的主要工作 ............................................. 3
第二章 搜索引擎的相关知识 ........................................ 4
§2.1 国内外搜索引擎的发展 ....................................... 4
§2.1.1 国外搜索引擎的发展 .................................... 4
§2.1.2 国内搜索引擎的发展 .................................... 6
§2.2 搜索引擎的工作原理和体系结构 ................................ 6
§2.2.1 基本要求 .............................................. 6
§2.2.2 网页搜集 .............................................. 7
§2.2.3 预处理 ................................................ 8
§2.2.4 查询结构 ............................................. 10
§2.2.5 体系结构 ............................................. 12
§2.3 搜索引擎的性能测评指标 .................................... 15
第三章 经典搜索引擎排序算法的研究 ............................... 17
§3.1 排序算法研究现状 .......................................... 17
§3.2 基于网页内容的排序 ........................................ 18
§3.2.1 基于网页内容排序的算法分析 ........................... 18
§3.2.2 基于网页内容排序算法的优缺点 ......................... 19
§3.3 基于网页链接分析的排序 .................................... 20
§3.3.1 PageRank 算法 ........................................ 20
§3.3.1.1 PageRank 算法描述 .................................. 20
§3.3.1.2 PageRank 算法详细介绍 .............................. 21
§3.3.2 主题敏感 PageRank ..................................... 23
§3.3.3 Hilltop 算法 ......................................... 23
§3.3.4 HITS 算法 ............................................ 24
§3.3.4.1 HITS 算法描述 ...................................... 24
§3.3.4.2 HITS 算法详细介绍 .................................. 25
§3.3.5 SALSA 算法 ........................................... 28
§3.3.6 ARC 算法 ............................................. 29
第四章 算法改进 ................................................. 31
§4.1 融入链接相似度的 ARC 算法 .................................. 31
§4.2 LSIA 算法描述 .............................................. 33
第五章 模拟器的建立 ............................................. 34
§5.1 数据库 .................................................... 34
§5.2 开发平台 .................................................. 34
§5.3 Lucene 介绍 ................................................ 35
§5.4 实验环境配置 ............................................... 36
§5.4.1 准备环境 ............................................. 36
§5.4.2 构造 IndexWriter ...................................... 37
§5.4.3 相关索引介绍 ......................................... 38
§5.4.4 对网页进行搜索 ....................................... 38
§5.5 实验平台 ................................................... 39
§5.6 算法评测 ................................................... 43
§5.6.1 LSIA 算法与 ARC 算法的对比 ............................ 43
§5.6.2 LSIA 算法与 PageRank 算法的对比 ....................... 46
§5.6.3 LSIA 算法与 HITS 算法的对比 ........................... 48
§5.6.4 LSIA 算法与 Hilltop 算法的对比 ........................ 50
§5.7 实验总结 ................................................... 51
第六章 总结与展望 ............................................... 53
§6.1 全文总结 .................................................. 53
§6.2 工作展望 .................................................. 53
参考文献 ............................................................ 54
在读期间公开发表的论文和承担科研项目及取得成果 ...................... 56
............................................................... 57
第一章 绪论
1
第一章 绪论
§1.1 研究背景和意义
由于互联网技术的飞速发展使得整个世界对于信息获取的方式发生了很大的
改变,互联网上的信息每天也以极快的速度增长。现如今互联网已经渗透到人们
生活的方方面面,人们无时无刻不在享受着互联网带给人们的便利。每天打开电
脑就可以接收到来自世界各地的新闻,极大的丰富了人们的视野。随着现代化水
平的提高,使得互联网可以为人们服务的范围也在发生重大变化。现在足不出户
就可以做到购物、学习、交水电费等等日常生活方面的问题。互联网上资源丰富
的同时也给想要用网络得到自己答案的人们带来了极大困难,如何才能在浩瀚的
网络海洋中找寻到自己的需求网页,是人们迫切想要解决的问题。在此背景下,
搜索引擎技术应运而生并且迅速风靡,它可以使人们快速得到自己想要的信息。
人们只需要输入网址如 www.baidu.com,在文本输入框中输入查询关键词,就会
有很多查询结果列表返回到用户电脑屏幕面前。如输入“苹果”返回的结果中有
苹果官网、叫苹果的电影、介绍苹果这一植物的等等,用户可以根据自己的需要
来打开相关的网页进行查询。
搜索引擎是为人们提供检索服务的,它的主要工作是收集信息、对信息进行
预处理然后输出和用户查询关键词相关的结果。目前国内外都有对搜索引擎做相
关的研究,但是没有达到理想效果。使得返回用户的查询结果有很多网页是和用
户查询无关的,同时用户想要的网页排在了列表比较后面的位置,但是人们一样
只会查看前面几页的搜索结果,所以就不能有很好的用户体验。现在各个做搜索
引擎的大公司所收集的网页都是海量的,如果返回给用户的查询结果排列没有主
次之分,会导致用户不能比较容易的获取到自己所需的信息,所以需要对搜索引
擎的排序算法做相关的研究,以便可以使用户得到更好的搜索体验。但是由于搜
索引擎的商业性,使得各大搜索引擎公司不会对外公布自己的算法,目前人们对
它的研究仅仅是以基础算法为主,并在此基础上做出相应的改进。
§1.2 排序算法的发展及现状
在最早期的搜索引擎索引技术中,只对查询关键词和文档的相关性做判断,
搜索引擎排序算法的研究与改进
2
相关性用布尔值来表示,0表示不相关、1则表示相关。因此最早期的所有相关查
询结果呈现在用户面前是无序的,没有按照结果是否最相关来进行排序。之后出
现了词频与位置加权排序的算法,其核心思想是:若关键词在文档中出现的次数
越多,出现的位置越重要,那么此网页就与查询关键词的相关度就越高, 返回结
果中的位置就越靠前[1]20 世纪 90 年代末期,基于链接分析排序的算法出现了,
此算法是借鉴了文献引文机制的思想:某论文被其他论文引用的次数越多,就说
明它越权威;若引用它的论文越权威,那么它肯定也是权威的[2]Google 是最早
期最成功运用这一算法的搜索引擎,现在基本上所有主流的搜索引擎都采用了这
一链接分析的搜索引擎排序算法。不过基于链接分析的排序算法也有不足之处,
它并没有非常关心对查询关键字相关性的计算,只注重了网页的权威性以及重要
性,为了满足人们对查询结果的满意度,很多基于此算法的改进算法也应运而生。
到目前为止,很多计算和排序因素被加入到基于链接分析排序算法中,如主题的
相关度计算、用户反馈机制和停留时间加权机制等等。不过到现在为止,所有的
做搜索引擎的公司都不会发布自己的搜索引擎是使用的何种排序算法,也不会公
开具体的能够影响搜索引擎算法的网页排序因素。是因为搜索引擎排序算法返回
给用户需要的合理结果决定着它是否可以获得用户的满意度,满意度同时意味着
市场占有率,因此搜索引擎排序算法属于商业机密范畴。
§1.3 网页排序在应用中的问题
Googlebaidu 等搜索引擎所取得重大成功源于使用了好的排序算法,不过即
使如 Googlebaidu 这样好的搜索引擎他们在结果排序的技术上也有着不足的地
方,搜索出来的结果也不能让所有的用户都感到满意,主要体现在以下 2个方面:
(1)网页相关性没有彻底得到的解决
现代的搜索引擎基本上都会在链接分析基础之上加入相关性的分析测评,不
过目前很多相关性测评都有着很大的不足。网页的内容与用户所查询的内容是否
一致有的搜索引擎是根据锚文本信息推断的,有的搜索引擎是根据网页标题等关
键字位置计算出来的,但是这些方法用于判断用户查询关键词与网页实际内容是
否相关连上也存在着不足。在很多时候用户查询关键词和网页内容非常一致但是
不能获得很高的评价,反之。
(2)搜索引擎优化的负面影响
搜索(SEO)是通过搜索引擎抓取索引策略以及对包含特定关键词
排序算法技术的网页,优化策略以提高搜索引擎排名[1]。目前相当多的网站研
摘要:

摘要由于互联网的迅速发展对信息查询的环境产生了很大影响,互联网上的信息是海量的、五花八门,这就给人们想要快速并且准确的得到自己想要的信息带来了很大的难处。于是搜索引擎应用而生,为人们的查询提供了极大的便利。由于网上资源是海量的这一特殊性,就对搜索引擎返回的网页是用户想要的信息提出了很高的要求。而搜索引擎排序算法则能够使返回给用户的信息在网页的最前面,从而能够使用户得到更好的使用体验,所以好的搜索排序算法直接决定着搜索引擎的可实用性。搜索引擎算法经历了三个阶段,目前搜索引擎公司使用的是第三代基于网页链接的排序算法,其中最常用、最具有代表性的算法是Google公司采用的PageRank算法以及HI...

展开>> 收起<<
搜索引擎排序算法的研究与改进.pdf

共59页,预览6页

还剩页未读, 继续阅读

作者:高德中 分类:高等教育资料 价格:15积分 属性:59 页 大小:1.43MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 59
客服
关注