基于Lucene垂直搜索引擎的研究

VIP免费
3.0 牛悦 2024-11-19 4 4 780.26KB 55 页 15积分
侵权投诉
摘要
由于网络信息每天都在呈几何级数增长,利用传统的搜索引擎技术对信息进
行快速、准确的查找变得越来越困难。现在通用的搜索引擎存在着搜索信息量不
够全面、查询不够准确、查找结果不够精确的缺点,于是产生了垂直搜索引擎。
垂直搜索引擎是针对某一行业、某一领域的专业的搜索引擎,它是为了满足
某一人群的某一特定需求而产生的。垂直搜索引擎采集信息的技术与通用搜索引
擎的不同,它先利用一定的算法对网页的相关度进行预测和判断,从而它的网络
蜘蛛(又称为网络爬虫)在爬行时避开了那些与主题信息无关的区域,仅采集那些
与一定主题相关的信息,并对这些信息根据一定的算法来建立索引数据库,从而
大大提高了垂直搜索引擎查询信息的准确率和效率。由于 Lucene 算法是一个开源
的全文检索算法,它普遍应用于当今很多比较著名的搜索引擎,为这些搜索引擎
建立索引数据库和对其爬取到的信息进行检索,所以本文提出利用 Lucene 算法开
发一个搜索引擎的索引和检索系统。由于当今的搜索引擎开始向搜索引擎的专业
化、个性化方向发展,博客作为当今人们之间交流的第四种方式,开发一个可以
满足不同人群需求的个性化的博客垂直搜索引擎是社会的发展趋势,所以本文通
过阐述一个个性化的博客垂直搜索引擎的开发过程来研究如何实现一个搜索引擎
的专业化和个性化。
本文详细介绍了开发一个垂直搜索引擎的关键技术,分析了这些技术在开发
一个搜索引擎和其专业化中的重要作用,其中主要对 web 信息抽取技术、网页消
重技术、分词技术、全文检索算法 Lucene 建立索引和进行检索的原理和网络爬虫
Heritrix 算法的使用进行了详细介绍,然后根据博客的特点开发了一个博客垂直搜
索引擎,对其爬虫模块和索引模块的建立进行了详细阐述,最后给出了测试的结
果和分析。
本文创新点是:
(1)根据博客标签的特点,提出根据全文检索算法 Lucene 算法和 Heritrix 网络
爬虫算法建立一个满足用户个性化检索的博客垂直搜索引擎。
(2)为提高用户检索的效率,制定了相应的索引缓存策略。
关键词:垂直搜索引擎 网络蜘蛛 博客 个性化检索
ABSTRACT
Every day due to network information resources grow in geometric progression,
use of traditional search engine technology to find the information accurately and
quickly is becoming increasingly difficult .The common search engine, has the
shortcomings which are not comprehensive and accurate enough, so a new search
technology generates, a vertical search engine came into being.
Vertical search is a certain industry, a field of professional search engine, the
emergence of which is to meet a specific demand.of a specific group of people.Vertical
search engine technology and general search engines is different in collect information,
in the first the web page use a certain degree of correlation algorithms to predict and
judge, when crawling the vertical search engine spiders avoid those areas which not
related to the theme of information. Only collect the information relevant to a certain
of subject. According to a certain algorithm to create the index database for the
information.So the vertical search engine greatly improved the accuracy and efficiency
of the query.Because the Lucene algorithm is an open source full-text search algorithm,
today, which is commonly used in many more well-known search engine.To index the
database and retrieve their information for these search engines, so proposed using a
Lucene algorithm to develop the indexing and retrieval system of a search engine.
Today find the search engines start to study the direction professional and the
personalized direction of the search engine.Blog is the fourth way of today people
exchange the information each other to develop a customized vertical search engine to
meet the needs of different groups is the trend of social development. Therefore, this
paper describes the development process of a personalized blog vertical search engine
to study how to realize professional and personal of a search engine.
This paper introduced in detail the key technologies of a vertical search engine,
analysis the important role in of these technologies in the development of a search
engine and the specialized of search engine.mainly described web information
extraction technology, web technology, consumer re-segmentation techniques,Lucene
full-text search algorithm’s indexing and retrieval, the use of the web crawler
algorithm Heritrix algorithm.Then developed a blog vertical search engine based the
features of the blog, Elaborate in detail Its crawler and the establishment of index
module , Finally, gave the results and the analysis of the test.
The innovation is:
(1) According to the characteristics of blog tags proposed create a personalized blog
search vertical search engines to satisfy a user based on full-text search algorithm
--Lucene algorithm and the Heritrix web crawler algorithm.
(2) To enhance the retrieval efficiency of a user, developed a strategy for the
corresponding index cache.
Key words: vertical search enginespidersblogretrieve personal
目 录
摘要
ABSTRACT
第一章 绪论.............................................................................................................1
§1.1 课题产生的背景.......................................................................................1
§1.2 搜索引擎研究现状...................................................................................1
§1.2.1 搜索引擎的工作原理....................................................................1
§1.2.2 搜索引擎的发展历史....................................................................2
§1.2.3 搜索引擎的分类............................................................................2
§1.2.4 通用搜索引擎存在的问题............................................................3
§1.2.5 通用搜索引擎发展的趋势............................................................4
§1.3 本论文研究的意义...................................................................................5
§1.4 本文的主要工作......................................................................................6
§1.4.1 研究的主要内容............................................................................6
§1.4.2 本文的组织结构............................................................................7
第二章 垂直搜索引擎系统的关键技术.................................................................8
§2.1 垂直搜索引擎的系统结构.......................................................................8
§2.2 网络结构化信息抽取技术的方法...........................................................9
§2.1.2web 信息抽取概述.......................................................................10
§2.2.1Web 信息抽取的关键技术 .......................................................... 10
§2.2.2 基于正则表达式的网页信息抽取方法......................................11
§2.3 网页消重的方法.....................................................................................12
§2.4 中文分词的方法.....................................................................................14
§2.5 计算汉字间紧密程度的统计模型.........................................................15
§2.6 Lucene 的中文分词器............................................................................16
§2.7 本章小结.................................................................................................17
第三章 垂直搜索引擎中 Lucene 算法的研究.....................................................18
§3.1Lucene 系统.............................................................................................18
§3.2Lucene 算法.............................................................................................19
§3.2.1Lucene 算法的索引部分..............................................................20
3.2.2Lucene 算法索引的优化................................................................21
§3.2.3Lucene 算法的检索部分..............................................................23
§3.3 本章小结.................................................................................................25
第四章 垂直搜索引擎系统中 Heritrix 算法的研究 ............................................ 26
§4.1Heritrix 算法的简介................................................................................26
§4.2Heritrix 算法的使用................................................................................27
§4.2.1Heritrix 的架构.............................................................................27
§4.2.2 Eclipse 中配置 Heritrix .......................................................... 28
§4.2.3 运行 Heritrix 后的参数配置.......................................................29
§4.3 本章小结.................................................................................................31
第五章 博客垂直搜索引擎的设计与实现...........................................................32
§5.1 博客垂直搜索引擎的结构.....................................................................32
§5.2 博客垂直搜索引擎爬虫模块的设计.....................................................33
§5.3 博客垂直搜索引擎索引模块的设计与实现.........................................34
§5.3.1 通用搜索引擎的索引部分存在的不足......................................34
§5.3.2 个性化索引系统的设计..............................................................35
§5.3.3 建立用户兴趣模型......................................................................37
§5.3.4 索引模块的设计..........................................................................39
§5.3.5 提取个性化关键字模块..............................................................40
§5.3.6 索引模块的实现..........................................................................41
§5.3 博客垂直搜索引擎检索模块的设计与实现.........................................42
§5.5 本章小结.................................................................................................43
第六章 测试与分析...............................................................................................44
6.1 开发环境介绍...........................................................................................44
6.2 测试与分析...............................................................................................44
6.3 本章小结...................................................................................................46
参考文献.................................................................................................................49
在读期间公开发表的论文和承担科研项目及取得成果.....................................51
致 谢.......................................................................................................................52
第一章 绪论
1
第一章 绪论
§1.1 课题产生的背景
当今的社会是信息化的时代,各行各业的运作已经离不开计算机网络。网络
中存在着大量有用的信息,每时每刻还在成爆炸式的增长,但是人们在接受大量
的有用信息的同时还要接受大量的无用信息。于是得到有用信息过滤掉无用信息,
成为人们共同关心的话题。搜索引擎就是为了满足人们检索有用信息的需求而产
生的有效工具。根据数据收录范围的不同,搜索引擎可以分为通用搜索引擎和垂
直搜索引擎。像平日用的 Google 和百度等搜索引擎被称为通用的搜索引擎,它是
根据用户的提问提供整个互联网上与此有关的各种网页信息,所以检索的结果就
会存在大量的无用信息。垂直搜索引擎也叫专业或者专用搜索引擎,它仅查询某
一行业,某一领域的信息,这些信息与一定的主题相关。它和通用搜索引擎的区
别是把搜索到的网页信息进行了结构化处理,所以它和通用搜索引擎相比较具有
查找“专,精,准”的特点。所以在解决某些实际问题的时候比通用搜索引擎有
效。经过对搜索引擎发展状况的研究,发现目前通用搜索引擎和垂直搜索引擎还
是应该并列存在的。但是根据人们的需求,搜索引擎的专业化是搜索引擎发展的
必然趋势。
如何开发一个垂直搜索引擎成为当今搜索引擎领域研究的热点,而对于影响
垂直搜索引擎性能的各种因素,更成为搜索引擎研究的重点,在本章中通过分析
搜索引擎的工作原理、发展的历史、分类、通用搜索引擎的一系列弊端和发展方
向方面得到影响垂直搜索引擎的种种因素,从而提出解决的方案。
§1.2 搜索引擎研究现状
当今搜索引擎的现状包括搜索引擎的工作原理、搜索引擎的发展史、搜索引
擎的分类、通用搜索引擎存在的问题和搜索引擎发展的趋势。
§1.2.1 搜索引擎的工作原理
可以分为三部分:
搜集信息:它利用网络机器人(spider)根据程序从某一网链开始来链接可以链
接的其他网页的超链接,直到链接完所有相关的网页。
整理信息:搜索引擎把搜集到的信息,在存入数据库之前,要对其进行一定
摘要:

摘要由于网络信息每天都在呈几何级数增长,利用传统的搜索引擎技术对信息进行快速、准确的查找变得越来越困难。现在通用的搜索引擎存在着搜索信息量不够全面、查询不够准确、查找结果不够精确的缺点,于是产生了垂直搜索引擎。垂直搜索引擎是针对某一行业、某一领域的专业的搜索引擎,它是为了满足某一人群的某一特定需求而产生的。垂直搜索引擎采集信息的技术与通用搜索引擎的不同,它先利用一定的算法对网页的相关度进行预测和判断,从而它的网络蜘蛛(又称为网络爬虫)在爬行时避开了那些与主题信息无关的区域,仅采集那些与一定主题相关的信息,并对这些信息根据一定的算法来建立索引数据库,从而大大提高了垂直搜索引擎查询信息的准确率和效...

展开>> 收起<<
基于Lucene垂直搜索引擎的研究.pdf

共55页,预览6页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:55 页 大小:780.26KB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 55
客服
关注