基于Wikipedia的本体学习研究
VIP免费
第一章 绪论
1
第一章 绪 论
§1.1 研究背景及意义
万维网已经成为人们获取信息的主要渠道之一,深刻影响到人类社会生活的
各个方面:人们在Web上浏览新闻、搜索信息、买卖商品及服务。然而,当人们每
天在享受万维网带来的便利时,却也日渐发现想要快速、准确地从Web中获取自己
需要的信息似乎变得越来越困难了。其中的主要原因在于目前的万维网是面向人
而不是面向机器的。换句话说,
Web内容主要是提供给人来理解和浏览的,而计算
机“看到的”Web内容只是二进制数据,对其内容无法进行识别。这使得计算机不
能向人类那样自动理解网页内容中的语义信息,无法实现Web内容的自动处理。另
外,
Web是按URL而非内容来定位信息资源的,因此网页所承载的数据及其之间的
关系在语义上是孤立的或是缺乏丰富的细粒度语义关联,无法检索到语义关联信
息,从而导致精确查找所需的信息变得困难。
考虑到目前Web存在的问题,为了使计算机能够理解和处理网页内容,迅速准
确地从海量网页中查找出所需要的内容,1998年Tim Berners-Lee提出了语义网
(Semantic Web)[1]。其基本思想是对当前万维网进行扩展,赋予Web上各种资源
明确的语义信息,提供机器可处理的数据语义,使计算机可以分辨和识别这些语
义信息,并对其自动进行解释、交换和处理。由此可见,语义网是对现有Web增加
语义支持,是现有万维网的变革和延伸,其目标是帮助机器在一定程度上理解信
息的含义,使得机器能够自动处理和集成可用的数据,实现信息的充分共享和重
复利用,从而便于人与机器、机器与机器之间更好地进行对话和协调工作,同时
也为人们在访问和获取网络信息时提供更加优质高效的服务。
要实现语义层次的信息互操作,需要对信息的含义达成共同的理解,语义网
采用了本体论的思想。本体是共享概念模型的明确的形式化规范说明,它在共享
范围内描述领域中的概念以及概念间的关系,使其具有明确的、形式化的定义[2],
实现某种程度的知识共享和重用。这与语义网要实现的信息共享和语义互操作的
目标相一致。因此,本体作为语义载体是实现语义网的重要基石,是解决语义层
次上Web信息共享和交换的基础。目前,现有的大部分本体往往都是通过手工方式
构建,这种方式非常耗时、费力,并难于及时进行动态更新,容易导致知识获取
瓶颈,使得本体的构建成为一项艰巨繁杂的任务,从而严重制约了语义网的发展
以及本体应用的推广。因此,如何以自动或半自动方式获取本体,提高本体构建
的效率、降低本体构建的开销,是一个重要的研究方向。在此背景下,本体学习
技术应运而生,其旨在利用机器学习、自然语言处理以及统计等技术自动或半自
动地从给定数据资源中获取目标本体[3],是一个涉及信息获取、数据挖掘、机器学
基于Wikipedia的本体学习研究
2
习、自然语言理解等多领域交叉的研究课题。
本体学习离不开资源,常用的数据资源包括领域语料库、关系数据库、
WordNet
词典[4]、Web页面等。其中,增长迅速的Web页面是本体学习最丰富的资源,基于
Web页面的本体学习也是最具挑战性和最有意义的学习方式之一。但在实际中,现
有的方法往往是将其按照纯文本对待,没有充分利用其显式的或隐含的结构信息。
鉴于此,本文选择Web中的Wikipedia(维基百科)作为本体学习的数据源。
Wikipedia是一个基于Web 2.0的百科全书,同时也是目前最大的在线知识库之
一。除了拥有非常广泛的知识覆盖面,其知识内容也具有较高的准确度,此外,
Wikipedia本身还具有较高的结构化特征,比如它的类别索引、信息盒、条目结构
以及丰富的超链接等,这些结构信息在很大程度上为半自动化或自动化地构建本
体提供了可能,是本体学习的良好数据资源。在国外,Wikipedia作为一种高品质
多效用的信息资源已经得到许多研究领域的广泛关注和应用,其中利用Wikipedia
进行本体学习已经成为了当今的研究热点,并且取得了重要的理论和应用成果,
出现了较有影响的通用本体,如Yago[5]、DBpeida[6]等。在国内,Wikipedia在近几
年才逐渐引起研究者的关注,陆续出现了一些其在相关领域中的研究,如语义相
关性计算、语义元数据抽取、词义消歧等,而利用中文Wikipedia进行本体学习的
研究还在初始阶段,相关的研究成果还很少。因此,本文选择中文Wikipedia作为
本体学习的数据资源,研究从中半自动获取领域本体的方法,从而探究其在本体
学习研究中的可行性及有效性。
在上述背景下,本文依托国家自然科学基金项目(WEB2.0环境下基于本体学
习的观点挖掘研究,编号为709030478),在现有的本体学习理论和方法的基础上,
结合国内外相关的研究成果,对Wikipedia知识库的结构特征进行深度分析与挖掘,
研究从中文Wikipedia中半自动地获取目标领域本体的原理和方法。本文的研究对
于丰富和发展Web环境下本体学习的方法和技术,指导开发具有实用价值的领域本
体学习系统,促进本体在语义网、Web信息检索、知识工程等方面的研究具有重要
的理论意义和现实价值。
§1.2 国内外研究现状
国外关于本体学习的研究相对较早,其研究兴起于上世纪末本世纪初。到目
前为止,在本体学习技术与系统的研究方面已经取得了较多的理论和应用成果。
与国外相比,国内在这方面的研究总体而言起步较晚,加上中文语法的复杂性,
使得中文本体学习的难度较大,目前取得的研究成果相对较少。下文就本体学习
技术以及本体学习系统两方面来介绍目前本体学习的研究现状。
根据数据源的结构化程度,本体学习技术可以分为三大类:基于结构化数据
第一章 绪论
3
的本体学习技术、基于非结构化数据的本体学习技术和基于半结构化数据的本体
学习技术[7]。
(1)基于结构化数据的本体学习技术
结构化数据主要包括关系数据库或面向对象数据库中的数据。关系数据库采
用的是关系模型,在关系模型中,关系是元组的集合,关系模式则用来描述关系
的结构。基于结构化数据的本体学习技术主要集中在对关系模型中蕴涵的语义信
息进行分析,并将其映射到本体中的相应部分,构成目标本体。例如,Johannesson[8]
通过对实体-关系模型进行扩展和形式化表示,将其转换为概念模型,从而生成目
标本体。Stojanovic等人[9]则尝试使用映射技术将概念数据库模型直接转换成本体,
该方法首先从数据库中获取关系、属性、主外部关键字等信息,然后应用一组映
射规则将数据库中的元组数据转化为本体元素,构建候选本体,最后对该候选本
体进行进一步的修订,生成最终的本体。然而由于关系模式中蕴涵的语义信息十
分有限,这些方法只能用来构建轻量级的本体。2004年,Astrova[10]提出从数据库
中的元组中挖掘隐含语义,该思路为基于关系型数据库建立更复杂的重量型本体
指明了方向。2005年,Astrova等[11]又提出在无法获得数据库模式信息的情况下,
可以通过分析网页中的HTML表格来推断关系数据库的语义,从而来改进这类本体
学习技术。另外,从面向对象模型中也可以获取本体,但由于目前面向对象数据
库的应用范围有限且从其中获取本体相对比较简单,所以这方面并不是研究者的
关注重点。
国内方面,许卓明等[12]提出了从实体-关系模型到OWL DL本体语义保持的翻
译方法,该方法在形式化表示实体-关系模式的基础上,限定了实体之间只能是单
继承关系,并建立了一组从实体-关系模式到DL本体的映射规则,然后基于这组规
则实现模式翻译。曹泽文等[13]则提出了一种类似于Stojanovic方法的从关系数据库
到框架逻辑本体的转换方法。
(2)基于非结构化数据的本体学习技术
非结构化数据是指没有固定结构的数据,包括纯文本、图像、声音等。其中,
基于纯文本的本体学习技术一直是人们的研究重点。这类技术的基本思路是先借
助自然语言处理技术对文本进行预处理,然后利用语言规则、统计或机器学习等
手段从中获取本体知识,包括从文本中抽取领域概念、实例并发现概念之间的关
系。对于概念的获取,主要有三种方法:基于语言学的方法、基于统计的方法和
混合方法。基于语言学的方法是指利用词法或语法解析技术将与领域概念的词法
形式相似的词语或短语识别为概念。这类方法可以消除术语的歧义性,提高概念
识别的准确率,但语言依赖性较高,需要针对不同的语言作相应的处理。基于统
基于Wikipedia的本体学习研究
4
计的方法主要根据领域概念与普通词语在语料中拥有不同的统计特征来识别领域
概念,常用的统计方法有词频逆文献频率(Term Frequency Inverse Document
Frequency,
TFIDF)、互信息(Mutual Information,
MI)、信息熵(Information Entropy)
等。该方法适合于大规模文本处理,普适性强、语言依赖性低,是目前研究的主
流,但缺乏必要的语义逻辑基础。混合方法则是将前两者有效地结合起来,以期
获得最佳的效果。
对于概念间关系的获取,常用的方法有:基于模式匹配的方法、基于概念聚
的方法、基于词典的方法等。基于模式匹配的方法是指通过分析领域语料中的文
本内容,归纳出一些表示本体关系的语言模式,然后将待识别的内容与模式进行
匹配,判断出概念间存在的关系。但匹配的效果较大程度上会受到模式的归纳程
度的影响。基于概念聚类的方法是指利用一些具有较强区分度的特征对概念进行
聚类,由此得到类的层次结构,即概念间的分类关系。这类方法的缺点在于不能
对概念间的非分类关系进行提取。基于词典的方法是指借助一些现有词汇词典中
定义的同义词、近义词或语义词典中建立的上下位、部分整体等语义关系来获取
概念间的关系,这类词典通常包括各种领域词典以及WordNet、HowNet[14]等通用
词典。
(3)基于半结构化数据的本体学习技术
半结构化数据是指具有隐含结构,但缺乏固定或严格结构的数据。常见的半
结构化数据包括大量的XML格式、HTML格式以及一些RDF标注的网页。由于这
类数据是介于结构化数据和非结构化数据之间的一类数据,所以用于结构化数据
类型和非结构化数据类型的本体学习技术也可以应用到这类数据源。例如,对于
XML schema或DTD文件,可以借鉴类似于从结构化数据中学习本体的方法,如映
射技术,可以利用一些映射规则将其中的元素及其关系映射到而本体。映射规则
可以通过学习获得[15],也可以由人工预先定义[16]。
对于XML,HTML和RDF等格式的网页,可以直接利用从纯文本中获取本体
的相关方法。例如,Deitel等[17]提出了一种从RDF标注中进行本体学习的方法。
Papatheodorou等[18]将知识库中以XML或RDF表示的数据看作文本文档,利用统计
方法抽取出文档中的关键词作为本体概念,并结合聚类技术将类似的元数据聚集
到一起,构建概念间的分类关系。但实际上,这类处理方法容易忽略Web数据本身
所蕴含的半结构化信息,而这些信息往往能够改善本体学习的精度、提高本体学
习的效率。因此,如何有效利用Web数据中隐含的结构信息来改善本体学习的效果
是一项很有意义的研究,这也是本文的研究重点。
此外,国外的相关研究者已经尝试将上述一些方法和各种自动化技术融入到
第一章 绪论
5
一个系统中,完成对不同结构化程度数据源的充分而准确的本体学习,实现了一
些具有一定实用价值的本体学习系统。其中较有影响的系统有:德国Karlsruhe大学
构建的Text2Onto[19]和OntoLiFT[20]本体学习系统,前者主要基于非结构化数据(纯
文本),后者则是基于结构化和半结构化数据;Amir Kabir理工大学开发的Hasti[21]
本体学习系统,它通过对一个初始的核心本体进行扩充来获取本体知识,同时它
也是为数不多的一个能够获取本体公理的工具;意大利Rome大学实现的基于通用
本体WordNet进行语义解释的OntoLearn[22~23]本体学习系统;Mississippi州立大学设
计的从XML和HTML中获取本体的OntoBuilder[24]本体学习系统,它能够在用户浏
览包含相关领域信息的网站时为网站自动生成一个候选本体。除此之外,还有一
些其它各具特色的本体学习系统,如OntoLT[25]、HOLA[26]、ISOLDE[27]等。
我国在构建本体学习系统方面取得的研究成果比较少,已知的相关研究包括:
浙江大学刘伯嵩开发的一个基于Text2Onto的多策略通用实验性本体学习系统
GOLF[28]以及台湾中央研究院吴世弘等开发的一个称为SOAT的本体学习工具系统
[29]等,但目前为止,还没有查到一个能够支持中文的、完整的、开源的本体学习
系统。
§1.3 研究目标、研究内容及论文结构
§1.3.1 研究目标
本文的研究目标是,在现有的本体学习理论和方法的基础上,结合国内外相
关的研究成果,对Wikipedia知识库的结构特征进行深度分析与挖掘,研究从
Wikipedia中半自动地获取目标领域本体(包括领域概念以及概念间的关系)的原
理和方法,为丰富和发展Web2.0环境下本体学习的方法和技术提供借鉴。
§1.3.2 研究内容
本文的研究内容主要包括三方面:数据源的特征分析、领域本体概念的获取
以及概念间关系的获取。具体来说,本文拟开展以下三方面的研究。
(1)数据源的特征分析研究
本体学习是从给定的数据源中半自动或自动获取本体的过程,数据源不同,
本体学习的效果也不同。本文选择Web中的热点信息源Wikipedia作为本体学习的数
据源,分析Wikipedia中的条目、类别、信息盒等多种结构特征,研究如何将其中
有效的结构属性应用于领域概念和关系的自动获取中。
(2)领域概念获取研究
领域概念的获取是本体学习的首要任务,也是一项复杂的综合任务,尤其是
中文领域概念的获取,其难度要大于英文领域概念的获取,需要综合运用语言学、
统计以及规则等多种方法。本文在充分分析数据源特征的基础上,研究如何有效
基于Wikipedia的本体学习研究
6
利用Wikipedia中的结构特征半自动获取领域概念,从而提高利用半结构化数据源
获取中文领域概念的效率。
(3)概念间关系获取研究
概念间包含多种语义关系,本文重点研究上下位关系的获取,提出一种基于
统计和模式的上下位关系获取方法。统计方法中重点研究概念相关度的计算。模
式方法中则分别研究如何从概念的名称和概念的定义句中半自动获取上下位关
系。同时,比较单独使用这两种方法的效果以及混合使用的效果,研究如何提高
概念间上下位关系获取的有效性。
§1.3.3 论文结构
论文的组织结构如图1-1所示,下面简要介绍每章的具体内容。
6
总
结
与
展
望
4从Wikipedia中
获取领域概念
5从Wikipedia中获取
概念间上下位关系
3 Wikipedia与本体学习
1
绪
论
2
本
体
及
本
体
学
习
图1-1 论文的组织结构
本论文共分为六章,每章内容如下:
第一章,绪论。首先提出互联网存在的问题,并简要介绍为解决这些问题而
出现的语义网技术。接着引出本体思想,并阐述本体学习的出现背景以及本文选
择Wikipedia作为数据源的重要意义。随后对国内外本体学习的研究现状进行综述,
并对本文的主要工作进行概括。
第二章,本体及本体学习。介绍本体以及本体学习这两方面的理论知识,首
先介绍本体概念和形式化定义,并列举几种代表性的本体描述语言。然后根据本
体形式化定义,指出本体学习的主要内容。最后对本体学习的主要方法和典型工
具进行讨论。
第三章,Wikipedia与本体学习。首先介绍Wikipedia的相关背景,然后对
Wikipedia中包含的四种结构特征进行详细分析,接着简要说明Wikipedia在不同研
究领域中担当的多种角色,并重点分析和比较其在本体学习方面的相关研究,为
本文的研究提供借鉴。
第四章,领域概念获取。首先提出领域概念抽取的基本思路,然后对信息抽
摘要:
展开>>
收起<<
第一章绪论1第一章绪论§1.1研究背景及意义万维网已经成为人们获取信息的主要渠道之一,深刻影响到人类社会生活的各个方面:人们在Web上浏览新闻、搜索信息、买卖商品及服务。然而,当人们每天在享受万维网带来的便利时,却也日渐发现想要快速、准确地从Web中获取自己需要的信息似乎变得越来越困难了。其中的主要原因在于目前的万维网是面向人而不是面向机器的。换句话说,Web内容主要是提供给人来理解和浏览的,而计算机“看到的”Web内容只是二进制数据,对其内容无法进行识别。这使得计算机不能向人类那样自动理解网页内容中的语义信息,无法实现Web内容的自动处理。另外,Web是按URL而非内容来定位信息资源的,因此...
相关推荐
作者:陈辉
分类:高等教育资料
价格:15积分
属性:60 页
大小:2.77MB
格式:PDF
时间:2024-11-19