基于本体的信息检索技术的研究与实现
VIP免费
基于本体的信息检索技术的研究与
实现
摘 要
随着Internet的快速发展,WWW已经发展成为包含多种信息资源、站点遍布全
球的巨大动态信息服务网络,如何在海量信息中快速、高效的检索出需要的信息,
是信息检索所要研究的一个关键问题。己有的检索系统主要是基于关键词的全文匹
配或是基于主题分类进行检索,结果往往会返回大量无关的信息,在查全率和查准
率上无法满足用户的检索需求。
本体(Ontology)概念的提出,研究者对Ontology进行了大量研究,Ontology具
有良好的概念层次结构和对逻辑推理的支持,具有通过概念之间的关系来表达语义
的能力,能较好的为语义检索和概念检索提供知识基础,所以基于Ontology的信息
检索已成为一个重要的研究课题。
本文首先总结了传统信息检索的发展和不足,并在分析国内外基于本体的信息
检索理论成果的基础上,尝试基于本体的信息检索的研究。其次,本文重点研究了
语义相似度算法,并从用户检索出发,研究了基于本体的用户查询语义扩展方法,
提出了三种用户查询模式,并给出了相应的语义扩展算法;再者,本文探讨了基于
本体的文本信息标注方法,给出了语义标注的流程;然后,本文在以上工作的基础
上提出了基于本体的信息检索模型,包括文档预处理模块、查询语义扩展模块、语
义信息检索模块以及本体管理模块;最后,在理论研究的基础上设计并开发了实验
性的基于本体的信息检索系统,实现了基于本体的的信息检索功能。实验数据的测
试表明,基于本体的信息检索系统有效的提高了信息检索的查全率和查准率,已达
到了预期的研究目标。
关键词:本体 信息检索 语义标注 查询语义扩展
ABSTRACT
As the rapid development of Internet,World Wide Web(WWW) has become an
enormous,dynamic information service network with multiple information resources
an d wo rld wide site s.,how to retrieve the information we need efficiently from the
massive information source is one of the key Problem of information retrieval research.
T h e e x i s t e d s e a r c h e n g i n e s a r e f o u n d e d b a s e d o n k e y w o r d m a t c h o r t o p
t a x o n o m y,w h i c h w i l l a l w a y s r e t u r n m u c h i r r e l e v a n t i n f o r m a t i o n a n d c a n n o t m e e t
users’ demand o recall and precision.
When the concept of ontology being proposed latterly,a lot of research has been
d o n e o n o n t o l o g y . A s t h e c a p a b i l i t y o f r e p r e s e n t i n g m e a n i n g o f i n f o r m a t i o n b y a
c o n c e p t h i e r a r c h i c a l s t r u c t u r e o f o n t o l o g y a n d s u p p o r t i n g
r e a s o n i n g,i t c a n P r o v i d e k n o w l e d g e f o u n d a t i o n f o r s e m a n t i c r e t r i e v a l a n d c o n c e p t
retrieval,so ontology based information retrieval has become an important research
topic.
T h i s t h e s i s s u m m a r i z e s t h e d o m e s t i c a n d i n t e r n a t i o n a l t h e o r y o n r e s e a r c h o f
o n t o l o g y b a s e d i n f o r m a t i o n r e t r i e v a l, t h e n at t e m p t s t h e r e s e a r c h o f o n t o l o g y b a s e d
s e m a n t i c i n f o r m a t i o n r e t r i e v a l. F o c u s o n t h e a l g o r i t h m o f o n t o l o g y - b a s e d s e m a n t i c
similarity, discusses the method of semantic expansion of user query items. We show
three model of user query, and we provide their method about semantic expansion of
user query; We discusses the method of ontology-based information annotation, and
provide the process of ontology-based information annotation; We design the retrieval
s y s t e m m o d u l e , i t h a s d o c u m e n t m o d u l e , s e m a n t i c e x p a n s i o n o f u s e r q u e r y m o d u l e ,
s e m a n t i c r e t r i e v a l m o d u l e a n d o n t o l o g y m o d u l e ; f i n a l l y , o n t h e b a s i s o f t h e o r y
a n a l y s i s,d e s i g n a n d d e v e l o p e d a n e x p e r i m e n t a l S e m a n t i c R e t r i e v a l S y s t e m .
Through experimental test data, ontology-based information retrieval system to improve
information retrieval of the recall and precision, reaching the desired results.
K e y W o r d:O n t o l o g y , I n f o r m a t i o n R e t r i e v a l , S e m a n t i c a n n o t a t i o n ,
Semantic query expansion
目 录
摘要
ABSTRACT
第一章 绪 论.................................................................................................1
§1.1信息检索的现状和发展.......................................................................1
§1.1.1信息检索概述............................................................................1
§1.1.2传统的信息检索的工作原理....................................................1
§1.1.3传统的信息检索的分类............................................................2
§1.1.4传统信息检索的不足................................................................3
§1.1.5语义信息检索的发展现状........................................................4
§1.2本文的工作...........................................................................................5
§1.3本文结构...............................................................................................5
第二章 基础理论知识.....................................................................................6
§2.1本体.......................................................................................................6
§2.1.1本体的定义................................................................................6
§2.1.2本体的作用................................................................................6
§2.1.3 Ontology的描述语言...............................................................7
§2.1.4 本体开发工具...........................................................................8
§2.2本体的构建...........................................................................................9
§2.2.1构建领域本体的方法................................................................9
§2.2.2定义类和分类的等级体系的原则..........................................11
§2.2.3属性定义..................................................................................13
§2.2.4命名..........................................................................................14
§2.3本体的推理.........................................................................................14
§2.3.1本体推理机的分类..................................................................14
§2.3.2本体推理机的基本任务..........................................................15
§2.4本章小结.............................................................................................15
第三章 基于本体的语义扩展.......................................................................16
§3.1查询扩展概述.....................................................................................16
§3. 2查询扩展方法分析............................................................................17
§3.2.1基于全局和局部分析的查询扩展..........................................17
§3.2.2基于词表的查询扩展..............................................................17
§3.2.3基于语义的查询扩展..............................................................18
§3.3基于本体的语义相似度.....................................................................19
§3.3.1本体的语义..............................................................................19
§3.3.2本体的结构..............................................................................20
§3.3.3基于本体的语义相似度计算..................................................20
§3.3.3.1基于距离的语义相似度计算模型...............................21
§3.3.3.2基于属性的语义相似度计算模型...............................23
§3.3.3.3基于领域本体的语义相似度计算模型.......................23
§3.4基于领域本体的语义查询扩展.........................................................24
§3.4.1基于领域本体的用户查询分析..............................................24
§3.5本章小结.............................................................................................26
第四章 文档的语义预处理...........................................................................27
§4.1基于本体的语义标注.........................................................................27
§4.2基于本体的语义标注分析.................................................................29
§4.3 语义标注的流程................................................................................29
§4.4文本信息语义标注流程.....................................................................29
§4.5使用正则表达式提取文献中的内容.................................................30
§4.6 ICTCLAS切词工具...........................................................................34
§4.6.1 文本信息切词处理以及词性标注.........................................36
§4.7 本章小结............................................................................................37
第五章 基于本体的信息检索系统...............................................................38
§5.1实验系统概述.....................................................................................38
§5.1.1开发平台..................................................................................38
§5.1.2开发工具..................................................................................39
§5.2系统结构.............................................................................................40
§5.3检索展示.............................................................................................41
§5.4本章小结.............................................................................................43
第六章 总结与展望.......................................................................................44
§6.1本文的主要工作.................................................................................44
§6. 2后续的主要工作................................................................................45
附 录.................................................................................................................46
附录1 确定数据库与索引的结构的核心代码........................................46
参考文献...........................................................................................................54
第一章 绪论
第一章 绪 论
§1.1信息检索的现状和发展
§1.1.1信息检索概述
信息检索(Information Retrieval IR),通常指文本信息检索,包括信息的存储
组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索[1-3]。起源
于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪
40年代,索引和检索成已为图书馆独立的工具和用户服务项目。从发展阶段上看,
信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个阶段。目
前,信息检索已经发展到网络化的阶段。信息检索的对象从相对封闭、稳定一致、
由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松
散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管
理人员、教师学生、各专业人士等在内的普通大众。
互联网技术对信息的传播方式带来了巨大的变化,也明显地促进了信息检索技
术的发展和应用,一大批检索引擎产品也随之诞生,为网民提供了快速信息获取和
网络信息导航工具。从某种程度上可以说,网络信息检索代表了当代信息检索的发
展方向,所以,本文也将网络信息检索作为主要的研究对象。检索引擎按照一定的
策略在互联网中搜集和发现信息,并对信息进行理解、提取、组织和处理,为用户
提供检索服务,从而起到信息导航的目的。
§1.1.2传统的信息检索的工作原理
1.构建文本库
在开发检索功能前,一个信息检索系统需要做些准备工作。首先,必须构建一
个文本数据库。这个文本数据库用来保存所有用户可能检索的信息。在这些信息的
基础上,确定检索系统中的文本模型。文本模型是被系统所认可的一种信息格式,
这种格式应当具有可识别、冗余程度低等特点。当然,在系统的运作过程中,文本
数据库的信息可能会不断地发生变化。但是,一旦文本模型确定下来后,就不应当
对齐在进行大的变动。
2.建立索引
有了这种文本模型后,就应该根据数据库内的文本建立索引。索引可以大大提
高信息检索的速度。目前,有许多种索引的建立方式。采用哪种方式取决于信息检
索系统的规模。大型信息系统(如百度、google这样的搜索引擎)均采用倒排序的
方式来建立索引,如图1-1所示。
1
基于本体的信息检索技术的研究与实现
图1-1 信息系统的数据处理
3.进行搜索
在为文档建立索引之后,就可以开始对其进行搜索。通常都是由用户提交一个
检索请求,该请求将被分析,然后利用文本操作进行处理。对于真是的信息检索系
统,在真正处理查询请求前,还可以对请求进行一些预处理,然后再将请求送到后
台,并返回用户所需要的信息。
4.对结果进行过滤
通常,在信息检索系统检索到用户需要的信息后,还要做一步操作,就是将信
息以一定的规则进行排序或过滤,再返回给用户,那么它一定不是一个成功的信息
检索系统。
§1.1.3传统的信息检索的分类
按照信息搜集方法和服务提供方式的不同,检索引擎系统可以分为三大类:机
器人检索引擎、目录式检索引擎和元检索引擎[4,5,6]。
1.机器人检索引擎
Robot检索引擎由一个robot(也称之为spider,web crawler)程序根据某种策略
自动地在互联网中搜集和发现信息,并将robot程序搜集到的网页信息加入到检索
数据库中,供用户查询。Robot检索引擎由3个部分组成:robot程序、索引生成器
和检索程序。robot程序会定期访问互联网,对一定范围内的网站进行检索,一旦
发现新的内容信息或新的网站,它会自动提取这些内容和网址信息,并添加至资源
信息库中。索引生成器则为所搜集的资源信息建立索引项,以方便用户检索信息。
为了能反映出网页的更新情况,robot检索引擎一般需要周期性的访问以前搜集过
的网页,及时更新索引信息库,这是基于robot的检索引擎的一个重要特征[ 7 ]
[8]。Robot检索引擎的优点是信息量大、更新及时、无需人工干预,缺点是返回过
多的无关信息,需要用户对结果集进行再次的筛选。这类检索引擎的典型代表有:
AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google,其
中Northern Light和Alta Visa所索引的Web页面都已经超过了100,000,000。
2.目录式检索引擎
目录式检索引擎与基于robot的检索引擎所不同的是,目录式检索引擎的索引
数据库是由编目人员通过手工方式建立起来的,例如Yahoo,OpenDirectory,
2
摘要:
展开>>
收起<<
基于本体的信息检索技术的研究与实现摘要随着Internet的快速发展,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,如何在海量信息中快速、高效的检索出需要的信息,是信息检索所要研究的一个关键问题。己有的检索系统主要是基于关键词的全文匹配或是基于主题分类进行检索,结果往往会返回大量无关的信息,在查全率和查准率上无法满足用户的检索需求。本体(Ontology)概念的提出,研究者对Ontology进行了大量研究,Ontology具有良好的概念层次结构和对逻辑推理的支持,具有通过概念之间的关系来表达语义的能力,能较好的为语义检索和概念检索提供知识基础,所以基于Ontology...
相关推荐
作者:高德中
分类:高等教育资料
价格:15积分
属性:53 页
大小:2.07MB
格式:DOC
时间:2024-11-19