基于Lucene的农业类搜索引擎关键技术研究

VIP免费
3.0 牛悦 2024-11-19 4 4 3.2MB 69 页 15积分
侵权投诉
摘 要
随着互联网技术的飞速发展,农业类信息迅速充斥在互联网的各大网站,涉
及到农林牧渔等各个领域的农业网站已近 2万多个,然而对急需农业信息的部门、
企业以及个人来说,农业信息的获取还是比较困难。信息的海量化与检索的困难
化成为一对日益突出的矛盾,本文围绕这一对矛盾,对农业类搜索引擎包含的关
键技术进行了研究。
本文首先对搜索引擎的研究背景以及存在的问题未来的发展趋势等进行了简
单阐述,接着对构建农业类搜索引擎的体系结构以及关键技术提出了自己的构想。
随后对整个系统中一系列关键问题提出了自己的解决方案。首先是农业类主题爬
虫的设计,通过分析现有主题爬虫存在的主要问题,即爬虫程序爬取过多与主题
无关的链接,提出了多策略主题爬虫算法,通过将 URL 所在的层次信息与主题的
相关性来判断 URL 的权重。中文分词算法的好坏直接影响着搜索引擎的查准率,
作为搜索引擎最关键的技术之一。针对 Lucene 对中文分词效果不理想的问题,提
出了基于 2-元语法和 Viterbi 算法的中文分词算法,通过实验表明,该算法是有效
的。最后对直接影响用户检索体验的搜索结果个性化模块,提出了搜索结果在线
聚类的方法,通过对两种比较著名的聚类算法进行实验比较分析,指出这两种算
法均可用在搜索结果在线聚类的过程中,针对数据量较大时存在的问题指出了改
进的思路。
本文通过对农业类搜索引擎关键技术的理论和实验分析,为实现个性化的、
用户体验的良好的农业类搜索引擎做了有益的尝试。
关键词:垂直搜索引擎 主题爬虫 中文分词 Lucene 搜索结果个
性化
ABSTRACT
With the rapid development of Internet technology, agriculture, types of information
quickly flooded the major sites on the Internet, but on the much-needed agricultural
information sector, enterprises and individuals to said that access to agricultural
information is still more difficult. The sea of information difficult to quantify and
retrieval have become increasingly prominent pair of contradictions, this paper focuses
on the contradictions in agriculture class search engine with the key technologies were
studied.
In this paper, the research background of the search engines, as well as problems in
the future development trend etc. have been briefly addressed, followed by right to build
the agricultural class search engine architecture and key technologies put forward their
own ideas. Then the whole system in a series of key issues put forward their own
solution. The first is the design of agriculture-related topics reptiles, reptile theme
through the analysis of existing major problems, namely, reptiles crawling program to
take over the link has nothing to do with the subject and put forward a number of
strategic themes reptiles algorithm, where the level of the URL information and subject
URL to determine the relevance of the weight. Chinese word segmentation algorithm
will have a direct impact on the search engine precision rate, as a search engine, one of
the most critical technologies. Lucene on the Chinese word for the result is not
satisfactory issue, based on 2 --gram and Viterbi algorithm for Chinese word
segmentation algorithm, experiments show that the algorithm is effective. Finally, a
direct impact on the user search experience, personalized search results module, made
the search results online clustering method, by comparison of two well-known
clustering algorithms a comparative analysis of experiments that these two algorithms
can be used in the search results online clustering process, for the larger amount of data
to improve the problems that line of thought.
In this paper, the key to the agricultural class search engine technology, theoretical
and experimental analysis, in order to achieve the personalized, user experience, and
good agricultural class search engine, has done a good attempt.
Key words: vertical search engine, Lucene, Theme Crawler, Chinese
word search, results personalization
目 录
中文摘要
ABSTRACT
第一章 绪论 .....................................................................................................................8
§1.1 搜索引擎技术的历史、现状及发展 ................................................................ 2
§1.1.1 搜索引擎的历史 ..........................................................................................2
§1.1.2 搜索引擎技术的现状 ..................................................................................2
§1.1.3 搜索引擎技术的发展趋势 ..........................................................................5
§1.2 本文的创新点及其意义 .................................................................................... 6
§1.3 本文的组织结构 ................................................................................................ 6
第二章 基于 Lucene 的农业类搜索引擎的体系结构设计 ...........................................8
§2.1 相关开源技术介绍 ............................................................................................. 9
§2.1.1 Lucene 开源技术简介 ..................................................................................9
§2.1.2 Nutch 开源技术简介 ..................................................................................10
§2.2 基于 Lucene 的农业类搜索引擎整体体系结构 ............................................ 10
§2.3 基于 Lucene 的农业类搜索引擎关键技术 .................................................... 12
§2.3.1 主题爬虫工作原理 ....................................................................................12
§2.3.2 中文分词技术 ............................................................................................14
§2.3.3 查询服务 ....................................................................................................15
§2.4 本章小结 .......................................................................................................... 15
第三章 多策略农业主题爬虫设计 ...............................................................................15
§3.1 开源爬虫介绍 .................................................................................................. 16
§3.2 主题页面的特征和各种爬虫搜索策略 .......................................................... 18
§3.2.1 主题页面的特征 ........................................................................................18
§3.2.2 爬虫的各种搜索策略 .................................................................................19
§3.3 多策略农业主题爬虫设计 .............................................................................. 21
§3.3.1 准备知识 .....................................................................................................21
§3.3.2 多策略农业主题爬虫的算法描述 .............................................................21
§3.3.3 算法分析 ....................................................................................................25
§3.4 本章小结 .......................................................................................................... 25
第四章 Lucene 中文分词算法的扩展及其实现 .....................................................27
§4.1 Lucene 中的中文分词技术 .............................................................................. 27
§4.2 基于 2-元语法模型和 Viterbi 算法的中文分词模型 ......................................28
§4.2.1 相关技术和概念 ........................................................................................28
§4.2.2 分词算法原理 .............................................................................................29
§4.2.3 算法详细步骤及实现代码 ........................................................................31
§4.3 实验 .................................................................................................................. 41
§4.3.1 实验评测指标 ............................................................................................41
§4.3.2 实验语料及结果 ........................................................................................41
§4.3.3 实验结果分析 .............................................................................................42
§4.4 本章小结 .......................................................................................................... 43
第五章 搜索结果个性化及实验分析 ...........................................................................45
§5.1 目前搜索引擎结果个性化方面存在的问题 ................................................... 45
§5.2 搜索结果个性化的研究现状 .......................................................................... 46
§5.3 搜索结果在线聚类算法 .................................................................................. 48
§5.3.1 搜索结果在线聚类概述 ............................................................................48
§5.3.2 基于后缀树的聚类(STC)算法 ..................................................................50
§5.3.3 Lingo 聚类算法 .......................................................................................... 55
§5.4 搜索结果在线聚类实验 .................................................................................. 56
§5.4.1 carrot2 简介 ................................................................................................ 56
§5.4.2 实验目的 ....................................................................................................57
§5.4.3 参数的设置 .................................................................................................58
§5.4.4 实验结果 .....................................................................................................58
§5.4.5 实验总结 ....................................................................................................62
§5.5 本章小结 .......................................................................................................... 62
第六章 总结和展望 .......................................................................................................64
§6.1 论文工作总结 .................................................................................................. 64
§6.2 后续工作展望 .................................................................................................. 64
参考文献 .........................................................................................................................66
在读期间公开发表的论文和承担科研项目及取得成果 .............................................68
致谢 .................................................................................................................................69
第一章 绪
基于 Lucene 的农业类搜索引擎关键技术研究
2
§1.1 搜索引擎技术的历史、现状及发展
进入互联网时代,信息量开始爆炸性的增长,每天都有大量的信息产生。信
息的共享,使人们有了更多的机会接触新知识,但是迫于发现知识的能力有限,
迫切地需要一种技术手段,能够使信息的获取更加简单、直接、高效。在这种
况下,搜索引擎诞生了,经过 10 余年的发展,搜索引擎已经成为人们生活中必不
可少的工具。
§1.1.1 搜索引擎的历史
WWWWorld Wide Web,万维网)出现之前,在大学校园就存在着一些
站点,这些站点内容以学术性报告、研究性软件为主。
FTP(File Transportion Protocal,
文件传输协议)软件是当时文件传输的主要工具。1990 年,由 Montreal McGill
Univercity 的学生发明了 Archie 系统,通过输入精确的文件名,能被告知资料存在
的确切的 FTP 站点。这种信息检索的模式,即搜集信息资源、索引、检索和现代
搜索引擎的工作原理是一样的,Archie 也被推崇为搜索引擎的鼻祖。
1993 年,Mathew Gray 发了第一个互联网爬虫程序,爬虫是用来抓取互
网信息的程序,这使得更多的信息被共享有了可能。之后陆续的有人开发了可以
自行提交自己站点的系统,同时反馈式搜索引擎也出现了。
1994 4月,斯坦福大学的杨致远和大卫费罗共同创办了雅虎(Yahoo!)当时
雅虎的数据是手工输入的,不是真正意义上的搜索引擎,事实上只是一个可搜索
的目录。但是雅虎的成功使得网络信息检索深入人心。
1998 年,至今仍是最具影响力之一的 Google 公司诞生了。Google 使用了先进
PageRank 技术。
Google 随后非常流行,并开始为 AOL Yahoo 提供搜索服务。
在中国,1997 10 月,由北大计算机系网络与分布式系统研究室开发,有强
大的 ftp 搜索功能的北大天网正式在 CERNET(教育科研网)上提供服务,这也开创
了中国搜索引擎研究的先河。
§1.1.2 搜索引擎技术的现状
搜索引擎作为互联网的基础应用之一,已经成为网民获取信息的重要入口,
深刻影响着网民的网络生活和现实生活。根据中国互联网络信息中心CNNIC[1]
的统计,截2009 6月底,中国网民规模达 3.38 亿,其中搜索引擎用户规
模已达 23457 万人,占网民总体的 69.4%搜索引擎的网民数较一年前相比,
国搜索引擎用户人数增长了 5949 万人,年增长率达 34%
第一章 绪论
3
目前搜索引擎正处于高速发展的阶段,总体发展趋势有两条路线:一类是从
通用搜索引擎(Googlebaidu 为代表)发展为智能化、个性化、互动化的搜索引
擎;还有一类趋势是从垂直的搜索引擎(行业搜索引擎)开始朝着智能化、个性
化、互动化发展。显然智能化、个性化、互动化也是未来搜索引擎主要的趋势。
总的来说,搜索引擎的现状是基本技术已经到位,开始向应用发展,如何给
用户提供更好的服务,更好的产品,成了各大搜索引擎公司竞争的焦点。
§1.1.2.1 搜索引擎的分类
在搜索引擎发展的过程中,产生了很多类型的搜索引擎产品。按照搜索的内
容可以分为图形搜索引擎、视频搜索引擎、文本搜索引擎等;按照是否智能可以
分为智能搜索引擎和非智能搜索引擎。一般按照信息采集的方法和服务提供的方
式,可以分为三类:元搜索引擎、基于爬虫的搜索引擎、目录搜索引擎[3]
元搜索引擎顾名思义,被称为建立在搜索引擎之上的搜索引擎。它的工作原
理是将用户提交的请求发送到多个独立的搜索引擎上去搜索,最后将搜索结果集
中统一处理,以统一的格式提供给用户[3]它的主要优点是检索得到的信息量更大、
更全,缺点是用户为了得到所需的信息需要做更多的筛选工作。由于不需要自己
采集数据和维护索引等,这类搜索引擎可以把精力更好的用在提高用户体验上如
搜索响应时间,搜索结果个性化和智能化、提高检索的查全率和查准率。主要的
代表有 WebCrawlerInfoMarket 等。
基于爬虫的搜索引擎,也称面向网页的全文检索服务,通常包括三个模块,
爬虫、索引器、检索器[3]。爬虫程序通常以某种策略对互联网上的网页进行抓取,
并定期访问大多数访问过的网页,通过索引器对抓取的网页创建索引,由检索器
根据用户的查询输入检索索引库,并将结果返回给用户。这类搜索引擎的主要优
点是信息量大、更新及时、不需要人工干预。缺点是返回的信息过多,使得检索
时查准率不高。主要代表是 Googlebaidu 等。
目录搜索引擎,这类搜索引擎的主要原理跟基于爬虫的搜索引擎类似,也是
信息的采集、索引以及检,但是它是以人工方式或者半人工方式进行信息采集,
并人工形成信息摘要,将信息置于事先确定的分类框架中[3]用户在查询时可以按
照关键字检索也可以通过分类目录逐层检索。这类搜索引擎的主要优点是信息归
类的过程时很多是依靠人工完成,信息准确,导航质量高。缺点是人工介入、成
本高、维护量大、信息少、信息更新不及时等。这一类的主要代表有 Yahho
LookSmart 等。
总的来说,虽然基于爬虫的搜索引擎也存在着查准率不高,信息返回多等缺
摘要:

摘要随着互联网技术的飞速发展,农业类信息迅速充斥在互联网的各大网站,涉及到农林牧渔等各个领域的农业网站已近2万多个,然而对急需农业信息的部门、企业以及个人来说,农业信息的获取还是比较困难。信息的海量化与检索的困难化成为一对日益突出的矛盾,本文围绕这一对矛盾,对农业类搜索引擎包含的关键技术进行了研究。本文首先对搜索引擎的研究背景以及存在的问题未来的发展趋势等进行了简单阐述,接着对构建农业类搜索引擎的体系结构以及关键技术提出了自己的构想。随后对整个系统中一系列关键问题提出了自己的解决方案。首先是农业类主题爬虫的设计,通过分析现有主题爬虫存在的主要问题,即爬虫程序爬取过多与主题无关的链接,提出了多策...

展开>> 收起<<
基于Lucene的农业类搜索引擎关键技术研究.pdf

共69页,预览7页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:69 页 大小:3.2MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 69
客服
关注