基于Wikipedia的本体学习中概念间关系获取方法研究

VIP免费
3.0 牛悦 2024-11-07 6 4 2.97MB 65 页 15积分
侵权投诉
I
信息时代降临,互联网上的信息日趋丰富,互联网也成为人们获取信息最为
重要的渠道之一。但是机器无法像人类那样理解语义信息,从而无法实现信息的
自动处理,使得人们很难快速的从网络上获取自己真正需要的信息。这时,语义
网的概念被提出来,语义网中将网页信息添加语义标注,使得计算机能够自动化
的处理信息,实现知识的共享与重用。要在语义网中实现语义层次的互操作,对
知识达成共同的理解,本体论应运而生。但是,本体的手工构建是个费时费力的
工程,鉴于此,自动或者半自动本体构建的技术即本体学习技术成为研究的热点。
本文在对国内外研究现状进行深入探究的基础上,依托本体及本体学习相关
概念和方法理论,选取 Wikipedia 这一因特网环境下发展迅速的在线百科全书为数
据源。在深入研究维基百科的基础上,充分利用维基百科的结构和内容特点,提
取维基百科类别页面的条目名称作为本体概念,利用本体学习技术基于语言学的
方法和基于统计的方法获取本体概念关系。文章主要研究内容分两部分,Wikipedia
中本体分类关系的获取,主要利用基于模式的方法和基于统计的方法;Wikipedia
中本体非分类关系的获取,主要利用语言学方法中的基于语义依存分析的方法获
取本体非分类关系。
在本体分类关系的获取中,文章采用基于模式的从定义句获取分类关系和基
于统计的方法获取本体分类关系。其中基于模式的方法是利用维基百科中条目的
定义句,利用语言分析平台进行简单的词性标注和语义分析提取模式,来获取分
类关系,准确率较高。在基于统计的方法中,充分利用 Wikipedia 页面的超链接结
构,利用计算概念相似度的方法获取本体分类关系,在召回率和准确率方面都取
得了较好的效果。最后将两种方法结合,以求提高本体分类关系获取的效率。
在本体非分类关系获取方面,以维基百科为语料库,充分利用 Wikipedia 的结
构和内容特征,利用基于语义依存的本体非分类关系提取方法识别非分类关系,
并标注非分类关系。利用依存语法分析器进行语义依存分析,经过词性标注和语
义分析,得到具有语义依存关系的动词框架,再进行句子相似度计算,并以动词
来标注关系名称,从而识别具有非分类关系的概念对。进行相关实验,获取了一
些具有非分类关系的概念对,并对该方法的效果进行了验证。
关键字:维基百科 本体学习 本体分类关系 本体非分类关系 语义依
存分析 相似度计算
II
ABSTRACT
With the coming of the information age, information on the Web has become more
and more abundant. Web turns into one of the access to information of people. But the
machine can’t understand the semantic information like the human, the information
can’t be processed automatically, That makes it difficult to get the information quickly
that human really need from the network. At this time, the Semantic Web is proposed,
Semantic Web will add semantic annotation to the Web information. Semantic Web
enables the computer to process the information automatically, and it achieves the
knowledge’s sharing and reuse. To achieve semantic level interoperability in the
Semantic Web, and realize a common understanding of the knowledge, people proposed
Ontology. However, to build Ontology is a time-consuming and expensive project. In
view of this, scholars have proposed automatic or semi-automatic ontology building
technology, that just is Ontology learning technology.
On the basis of the research situation of Ontology Learning at home and abroad,
we study Ontology and ontology learning related concepts and methods theory. We
select Wikipedia, which is a fast-growing online encyclopedia in the Internet
environment, as the ontology learning data source. Making full use of the characteristics
of the structure and content of Wikipedia, we extract entry term in Wikipedia category
page as ontology concept. Use the linguistics-based approach and the statistical method
to extract ontology relation. The main research content of the article is in two parts: the
extraction of taxonomic relations in Wikipedia, the extraction of non-taxonomic
relations in Wikipedia.
In the extraction of taxonomic relations, the paper use the way based mode to
extract taxonomic relations, which is obtained from the definition of sentence. Combine
these two methods , and the other is the way based on statistical methods. The way
based mode uses the definition of a sentence Wikipedia entry, and do simple POS
tagging and semantic analysis by Linguistic analysis platform. this way gets high
accuracy rate. Finally In order to improve the efficiency of the extraction of
taxonomic relations, We combine these two methods.
In the extraction of non-taxonomic relations, we select Wikipedia as Corpus. We
make full use of the characteristics of the structure and content of Wikipedia. raising a
approach which to Chinese ontology non-taxonomic relation extraction based on
III
semantic dependency. We use LTP do the semantic dependency. After Chinese
Part-of-Speech tagging and Semantic dependence analysis, we get Verb frame with
semantic dependency from text extracted. Then , getting the ontology non-taxonomic
relation by computing semantic similarity.
Key WordWikipedia, Ontology Learning, taxonomic relation,
non-taxonomic relation, semantic dependency analysis, computation of
similarity
IV
中文摘要
ABSTRACT
第一章 绪论 ......................................................... 1
1.1 研究背景及意义 ............................................... 1
1.2 国内外研究现状 ............................................... 2
1.3 论文主要内容框架与创新点简介 ................................. 5
1.3.1 论文研究内容与框架 ..................................... 5
1.3.2 本文创新点 ............................................. 7
第二章 本体学习与本体关系获取方法理论研究 ........................... 8
2.1 本体与本体学习概述 ........................................... 8
2.1.1 本体的定义 ............................................. 8
2.1.2 本体的形式定义 ......................................... 9
2.1.3 本体学习的任务 ........................................ 10
2.1.4 本体学习涉及的方法 .................................... 11
2.2 本体概念间关系获取方法 ...................................... 13
2.3 语义依存分析与 LTP 工具简介 .................................. 14
2.3.1 依存语法分析简介 ....................................... 15
2.3.2 语义角色标注与动词框架 ................................ 15
2.3.3 LTP 主要功能简介 ...................................... 16
2.3.4 选取 LTP 作为分析工具的优点 ............................ 17
2.4 本章小结 .................................................... 18
第三章 维基百科与本体学习 .......................................... 19
3.1 维基百科概况 ................................................ 19
3.2 维基百科的结构简介 .......................................... 19
3.2.1 条目 .................................................. 19
3.2.2 信息框 ................................................ 20
3.2.3 分类 .................................................. 21
3.2.4 目录和链接 ............................................ 22
3.3 维基百科在不同应用中的角色 .................................. 23
3.3.1 在线百科全书 .......................................... 23
3.3.2 文本语料库 ............................................ 24
V
3.3.3 语义本体 .............................................. 24
3.4 维基百科与本体概念学习 ...................................... 25
3.4.1 维基百科中概念的获取 .................................. 25
3.4.2 领域本体概念在维基百科中的映射 ........................ 26
3.4.3 利用 Metaseeker 从维基百科中获取概念 ................... 27
3.5 本章小结 .................................................... 29
第四章 维基百科中获取本体分类关系 .................................. 30
4.1 本体分类关系的获取的基本思路 ................................ 30
4.2 基于模式的本体分类关系获取 .................................. 31
4.2.1 维基百科条目定义句与本体分类关系 ...................... 31
4.2.2 基于模式从定义句中获取本体概念间分类关系 .............. 32
4.3 基于统计方法的本体分类关系抽取 .............................. 34
4.3.1 维基百科的类别层次与页面超链接 ........................ 35
4.3.2 概念的相似度计算 ...................................... 37
4.3.3 维基百科中基于统计方法提取分类关系流程简介 ............ 39
4.4 实验设置与分析评价 .......................................... 41
4.4.1 实验设置 .............................................. 41
4.4.2 实验结果及分析评价 .................................... 42
4.5 本章小结 .................................................... 43
第五章 维基百科中本体非分类关系的获取 .............................. 44
5.1 基于语义依存分析的本体非分类关系获取方法 .................... 44
5.1.1 本体非分类关系获取方法简介 ............................ 44
5.1.2 依存语法分析与动词框架提取算法 ........................ 45
5.2 维基百科中获取本体非分类关系 ................................ 48
5.2.1 维基百科中提取非分类关系算法 .......................... 48
5.2.2 维基百科中本体非分类关系获取算法的说明 ................ 49
5.2.3 实验设置 .............................................. 50
5.2.3 实验结果以及分析 ...................................... 51
5.3 本章小结 .................................................... 53
第六章 总结与展望 .................................................. 54
6.1 文章总结 .................................................... 54
6.2 展望 ........................................................ 54
参考文献 ........................................................... 56
第一章
1
第一章 绪论
1.1 研究背景及意义
伴随着信息时代的到来,因特网上的信息日趋丰富,社会生活中网络和计算
机被人们更加深入和广泛的应用,这使得因特网成为承载网络信息的主要平台以
及人们获取信息的最主要渠道之一。人们通过它去了解外界,获取需要的信息,
在网上购物,进行商业交易等等,可以说人们已经离不开网络,其规模也在以惊
人的速度迅猛增长。
由于因特网页面的无结构性、超链接的自由无序性,因特网内容的动态多变
性,大部分因特网上的内容只能提供给人阅读,以人能理解的格式表示,机器看
到的因特网信息只是二进制数字,但是无法对其进行识别,机器不具备理解和处
理网页信息的能力。机器没法像人类那样去理解网页内容中的语义信息,从而网
页信息的自动处理也就无法实现。人们发现快速的从网页上搜索到自己真正想要
的信息其实并非易事。此外,因特网页面是利用 URL 而非内容对信息资源进行定
位,这使得网页上的数据和数据之间的呈现语义孤立状态缺乏丰富的语义关联,
从而关联语义信息无法被检索,精确检索到所需要的信息变得很困难。
为了使网页内容能被机器自动理解和处理, Tim Berners-Lee 1998 年提出
了语义网[1]Semantic Web)这一概念。通过给网页上的内容添加语义标注信息,
用一种计算机能理解的方式表达事物,描述事物之间的关系和属性,使计算机能
够自动化处理信息资源,实现知识的重用和共享。这样就能更好的实现机器与机
器、机器与人之间的对话与协调工作,为人们浏览和准确获取需要的信息提供更
加高质量的服务。在语义网中实现语义层次的信息互操作,以求达到对信息含义
共同理解,这时本体论思想应运而生。本体是对特定领域中的知识框架做规范化
的描述,形式化表示领域中的概念和术语,提供机器与人之间对信息结构的一致
性理解,在某种程度上实现知识的重用和共享。这种要实现信息共享和语义互操
作的目标与语义网是相一致的,所以本体就成为了实现语义网的重要基石,作为
语义载体的本体成为解决语义层次上 web 中信息交换和共享的基础。
本体构建可以通过手工和自动学习的方式来实现,但是鉴于本体的手工构建
工作量庞大,成本高,更加地难以维护,而且一般还需要领域专家参与指导,鉴
于此,本体学习(ontology learning)技术被提出。本体学习是利用机器学习、自
摘要:

I摘要信息时代降临,互联网上的信息日趋丰富,互联网也成为人们获取信息最为重要的渠道之一。但是机器无法像人类那样理解语义信息,从而无法实现信息的自动处理,使得人们很难快速的从网络上获取自己真正需要的信息。这时,语义网的概念被提出来,语义网中将网页信息添加语义标注,使得计算机能够自动化的处理信息,实现知识的共享与重用。要在语义网中实现语义层次的互操作,对知识达成共同的理解,本体论应运而生。但是,本体的手工构建是个费时费力的工程,鉴于此,自动或者半自动本体构建的技术即本体学习技术成为研究的热点。本文在对国内外研究现状进行深入探究的基础上,依托本体及本体学习相关概念和方法理论,选取Wikipedia这...

展开>> 收起<<
基于Wikipedia的本体学习中概念间关系获取方法研究.pdf

共65页,预览7页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:65 页 大小:2.97MB 格式:PDF 时间:2024-11-07

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 65
客服
关注