一种结合领域本体的垂直搜索引擎的研究

VIP免费
3.0 陈辉 2024-11-19 4 4 4.07MB 78 页 15积分
侵权投诉
i
摘 要
在互联网技术飞速发展的背景下,万维网中的资源以级数增长着,虽然搜索
引擎为用户提供了信息检索和导航的功能,但是搜索结果往往不能直接满足用户
的需求,具有大量的“噪音”结果,同时,用户对搜索服务的要求也越来越高,
希望搜索引擎能够提供更加专业化的检索功能,以便能够迅速的定位到自己所需
的资源。
垂直搜索引擎的出现,向用户提供了专业检索的功能,解决了目前通用搜索
引擎中的部分问题。垂直搜索引擎是面向领域的,其组织的网络资源是具有主题
性的,并向用户提供专业领域的信息检索服务。而领域本体正是用于描述某一领
域知识的一种专门本体,它给出了领域中概念对应的术语以及概念间的内在关系,
或者在该领域中具有主导地位的理论。它可以对信息资源的主题类别进行推断,
因此,在垂直搜索引擎中引入领域本体,成了改进垂直搜索引擎服务的研究热点。
本文首先介绍和讨论了搜索引擎的概念,并对不同种类的搜索引擎及其工作
方式进行了分析,同时,对目前广泛使用的基于全文检索的通用搜索引擎的原理
进行了分析。接着对比通用搜索引擎,介绍了垂直搜索引擎的原理及其相关技术。
然后对本体的概念、种类及本体构建的评价规则进行了介绍,详细的研究的不同
的本体构建方法和本体描述语言,对本体在语义 Web 中的作用和其在信息组织和
检信息索方面的应用进行了介绍。最后,结合领域本体的领域性和垂直搜索引擎
的专业性,提出了一种结合领域本体的垂直搜索引擎,其中重点研究了结合领域
本体的垂直搜索引擎中主题爬虫的工作方式,提出了一种基于概率模型的主题爬
虫,在主题爬虫中引入领域本体对网页内容和超链接文本内容的主题进行分析,
确定其对应的主题相关度,根据它们利用概率模型推算网页中 URLs 的主题相关
性,进而使主题爬虫能够更好地过滤主题无关的 URLs,抓取主题相关的网页。
为了提高查全率和查准率,提出了一种通过本体确定查询词所属概念,进而从语
义上对查询词进行扩展的方法,并描述了相应的实现算法。
关键词:本体、垂直搜索、领域本体、主题爬虫、概率模型
ii
ABSTRACT
With the rapid development of Internet technology, the resources in World Wide
Web grow exponentially, although the search engine provides users of information
retrieval and navigation functions, but the search results often do not directly meet the
needs of users, with a lot of noise information in the results, while the demands of for
search service turn more and more flexible, hoping the search engine to provide a more
specialized search functions in order to be able to quickly locate the resources they
need.
The emergence of vertical search engine to provide users with a professional
search features to solve a part of the problems in the current general-purpose search
engine. Vertical search engine is domain-oriented, and the resources it organized is a
theme of nature, and to provide information retrieval services for specialized fields.
The domain ontology is specialized ontology used to describe a particular field of
knowledge, it gives the concept of the domain, as well as the corresponding terms of
the intrinsic relationship between concepts, or in the field has a dominant theory. It can
infer the topic categories of information resources. Therefore, the introducting the
domain ontology into vertical search engine has become a research focus that is used to
improve the services supplied by vertical search engine.
This paper first introduces and discusses the concept of search engine, and
analyses the different types of search engines and their working methods. While we
analyzed the general search engine based full-text searching which is used
widespreadly. Then, compared to the general search engine, we introduced the
principle of vertical search engine and related technologies. After that the concept of
ontology type and the rules to evaluate building ontology were introduced, a detailed
study kinds of methods to build ontology build and different ontology languages, and
then introduce the role of ontology in the Semantic Web and information
organization and retrieval fields. Finally, the combined the features of domain ontology
and vertical search engine, we propose a vertical search engine that combined with
domain ontology, in which we focuse on the methods by which the topic crawler works,
proposed a probability model that the topic crawler based on, in the topic crawler we
introduce the domain ontology that help the crawler analyse the topic of web page
content and hyperlinks text content, and calculate the relevancy of web page content
iii
and hyperlink’s content. Then, according to their probability model to estimate whether
the URLs of a page are topic relevant and thus make the topic crawler is able to filter
off-topic URLs better, and crawling more topic related web pages. In order to improve
the rate of recall and precision rates, presents a way to determine the concept of the
query keyword through the ontology, and then expand query by semantics, also we
describes the corresponding algorithm.
Key Words: Ontology, Vertical Search, Domain Ontoloty, Topic Crawler,
Probability Model
iv
目 录
................................................................................................................................. i
ABSTRACT .....................................................................................................................ii
第一章 ............................................................................................................... 1
§1.1 研究的背景和意义............................................................................................1
§1.2 相关研究现状....................................................................................................2
§1.2.1 语义 Web 相关技术的研究 ................................................................... 2
§1.2.2 语义检索的相关研究.............................................................................3
§1.3 论文的主要工作................................................................................................4
§1.4 论文的组织结构................................................................................................4
第二章 垂直搜索引擎 ................................................................................................. 6
§2.1 搜索引擎............................................................................................................6
§2.1.1 搜索引擎的分类.....................................................................................6
§2.1.2 搜索引擎原理.........................................................................................7
§2.2 垂直搜索引擎的概念......................................................................................11
§2.3 垂直搜索引擎的特点......................................................................................12
§2.4 垂直搜索引擎的原理和技术..........................................................................13
§2.4.1 垂直引擎的原理...................................................................................13
§2.4.2 垂直搜索引擎中的主题爬虫...............................................................14
§2.4.2 结构化信息抽取...................................................................................15
§2.5 垂直搜索引擎的应用......................................................................................15
第三章 本体相关概念及技术 ................................................................................... 17
§3.1 本体的概念......................................................................................................17
§3.1.1 本体的定义............................................................................................17
§3.1.2 本体建模元语........................................................................................18
§3.1.3 已有本体及其分类................................................................................20
§3.2 本体的描述语言..............................................................................................22
§3.3 本体构建..........................................................................................................25
§3.3.1 本体的评价规则....................................................................................26
§3.3.2 本体的构建方法....................................................................................26
§3.3.3 本体构建工具........................................................................................29
§3.4 本体和语义网..................................................................................................30
§3.5 本体和信息系统..............................................................................................32
第四章 结合领域本体的垂直搜索引擎相关技术研究 ........................................... 35
§4.1 领域本体和垂直搜索引擎..............................................................................35
§4.2 领域本体的构建..............................................................................................35
§4.3 基于概率模型的主题爬虫..............................................................................39
§4.3.1 主题爬虫的相关研究...........................................................................39
§4.3.2 概率模型...............................................................................................40
§4.3.3 主题爬虫结构.......................................................................................41
§4.3.4 概念实例抽取.......................................................................................42
§4.3.5 网页主题相关性分析...........................................................................43
v
§4.3.6 动态主题库...........................................................................................45
§4.3.7 超链接文本主题相关性分析...............................................................48
§4.3.8 主题爬虫工作流程...............................................................................49
§4.4 语义扩展查询..................................................................................................51
第五章 结合领域本体的垂直搜索引擎系统 ........................................................... 54
§5.1 系统功能和目标..............................................................................................54
§5.2 系统结构..........................................................................................................54
§5.3 系统设计开发..................................................................................................56
§5.3.1 开发环境和工具...................................................................................56
§5.3.2 主题爬虫的开发...................................................................................56
§5.3.3 本体开发...............................................................................................60
§5.3.4 语义扩展查询实现...............................................................................65
第六章 总结与展望 ................................................................................................... 68
§6.1 总结..................................................................................................................68
§6.2 不足与展望......................................................................................................69
参考文献 .........................................................................................................................70
在读期间公开发表的论文和承担科研项目及取得成............................................ 74
...............................................................................................................................75
第一章 绪论
1
第一章 绪 论
§1.1 研究的背景和意义
随着互联网技术与应用的飞速发展,万维网中的有用资源日益增多,然而,
其动态性和非结构化的本质使得这些资源很难被定位。在这种相应的背景下,搜
索引擎技术应运而生。搜索引擎通过网络爬虫在网络中抓取网页,并进行分析处
理后存储到本地,利用索引技术对网页资源进行索引处理,生成对应的索引库,
通过一个统一的检索接口给人们提供了一定的资源搜索功能,帮助人们更快地定
位自己需要的相关信息。虽然通用搜索引擎在很大程度上为人们解决了资源查找
的困难,但是,由于目前万维网中的网页数量级数增长,已经突破了 300 亿,类
似于 Google 这样的通用搜索引擎返回给用户的检索结果中的信息出现了一定程
度“过载”产生了大量的“搜索噪音”[12]。同时,不同工作领域的人们对信息
的需求也是千差万别的,因此,向不同的专业领域的人群提供专向领域的搜索服
务的成为了新一代搜索引擎发展的必然趋势。垂直搜索引擎的出现解决了通用搜
索引擎中的某一类问题,为人们提供了特定领域的专向搜索功能,在很大的程度
上解决了“信息噪音”的问题,使得其功能更加专注。
垂直搜索引擎是领域性的,它向具有特定领域或者主题需求的用户提供具有
一定价值的信息检索相关服务的。与通用搜索引擎相比,它显得更加专注、具体
和深入,针对特定领域中信息进行全面和深入采集,而领域外的信息会被其过滤。
然而,目前的垂直搜索引擎中对网页的主题相关性分析还主要停留在语法层次,
是利用统计分析算法完成的,在采集主题相关的网页资源时,不能够深入到语义
的层面去分析网页的主题相关性和超链接的主题相关性,使得网络爬虫在抓取了
较多的主题无关网页的同时,网页的主题相关性也偏低。另一方面,为用户提供
检索服务时,也不能够理解用户检索关键字与文档的语义,使得查询仅停留在关
键字的匹配上。
2000 12 18 日的 XML2000 会议上,针对目前的万维网的资源定位
的缺点,Berners-Lee 提出了新一代的 Web 模型——语义 Web 模型,在语义 Web
上下文中,利用本体提供的对特定领域的概念的共享理解,使得人们能够利用计
算机程序从语义层次上准确的定位资源,解决了人机之间以及机器之间语义交流
问题[3]。目前,语义技术已在很多应用工程中得到使用,例如对词义进行消歧、
不同种类的语言之间的翻译、信息检索系统等语言工程。在搜索引擎领域,不少
大型搜索引擎也开始使用一些特定的算法来模拟实现基于“语义”的检索功能,
摘要:

i摘要在互联网技术飞速发展的背景下,万维网中的资源以级数增长着,虽然搜索引擎为用户提供了信息检索和导航的功能,但是搜索结果往往不能直接满足用户的需求,具有大量的“噪音”结果,同时,用户对搜索服务的要求也越来越高,希望搜索引擎能够提供更加专业化的检索功能,以便能够迅速的定位到自己所需的资源。垂直搜索引擎的出现,向用户提供了专业检索的功能,解决了目前通用搜索引擎中的部分问题。垂直搜索引擎是面向领域的,其组织的网络资源是具有主题性的,并向用户提供专业领域的信息检索服务。而领域本体正是用于描述某一领域知识的一种专门本体,它给出了领域中概念对应的术语以及概念间的内在关系,或者在该领域中具有主导地位的理论...

展开>> 收起<<
一种结合领域本体的垂直搜索引擎的研究.pdf

共78页,预览8页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:78 页 大小:4.07MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 78
客服
关注