基于基本要素方法的中文自动文本摘要的研究

VIP免费
3.0 陈辉 2024-11-19 5 4 1.11MB 62 页 15积分
侵权投诉
摘 要
自动文本摘要是自然语言理解的一个重要的分支,它利用计算机自动的从原
始文献中提取摘要,摘要包含原文的核心内容或用户感兴趣的内容,并用同于或
不同于原文的句子表达出来。作为一种快速获取信息的方式,自动文本摘要正获
得越来越多的关注。得到准确和易于理解的文摘是学者们不懈追求的目标。
本文提出了一种基于基本要素方法的中文自动文本摘要模型BESCM基本
要素方法是由 DUC2005 会议提出的,它描述的是一个三元组“中心--
head| modifier| relation中心词为该三元组中的主要部分。在用基本要素方法获
得自动文本摘要时,主要是提取基本要素中的中心词来计算句子分值,然后根据
句子分值等信息来抽取句子,形成文本摘要。由于现今并没有将基本要素方法运
用到中文自动文本摘要中的研究,所以本文主要对该方面进行探索,并通过实验
BESCM 的效果进行评价。
本文首先对国内外的自动文本摘要研究现状做出分析和综述,然后对
DUC2005 提出的基本要素方法的优点和基本思想做简要阐述,重点介绍了基于基
本要素方法的英文文档自动文本摘要和它对于中文文档自动文本摘要的启发。
接下来是本文的重点章节,第三章和第四章。第三章主要是基于基本要素的
中文自动文本摘要模型BESCM其中包括该模型的具体操作步骤、文摘器、
键技术等等,该模型主要借鉴基本要素的思想进行建立,和单纯的基于词的自动
文摘模型相比,它将语义信息作为评估句子重要程度的一部分,实现了基本要素
中提出的将语义信息和统计方法的结合。第四章是对该模型的实验和评价,通过
和普通方法的自动文本摘要进行对比实验,可以看出基于基本要素方法的中文文
档自动文本摘要比普通方法有更好的效果。
最后是对全文的总结和对基于基本要素的中文自动文本摘要模型在中文自动
文本摘要中的前景进行了展望,针对可能存在的问题和仍待解决的方面提出自己
的看法。
关键词:基本要素方法 BESCM 抽取 文摘
ABSTRACT
As one of the most important aspects of natural language knowledge, the automatic
summarization becomes more and more significant for us. The automatic
summarization extracts abstract from the documents using computer, and the abstract
contains the main information and something interesting us from the document. It is a
method of getting information quickly. So our academicians’ aim is to let the
automation summarization be more precise and easily understood.
The article brought out a modle of automation Chinese summarization based on the
basic elements method. The basic elements method was brought out by DUC2005. We
defined BEs as follows: the head of a major syntactic constitute (noun, verb, adjective
or adverbial phrases), expressed as a single item, or a relation between a head-BE and a
single depentd, expressed as a triple (head| modifier| relation). In the modle, we broke
down each sentence from the document into a set of minimal semantic units, we just
called them BEs. And we reseached the Chinese summarization based on the basic
elements method because there was no similar theory about it.
Firstly, the article introduced the situation of automatic summarization’s research
in home and abroad. Then the article referred to the basic elements of DUC2005. The
articlw also showed us some advantages of this method and its main theory.
The import parts of the article were the third and fourth chapter. Chapter 3
described the modle of automation Chinese summarization based on the basic elements
method, it included some algorithmic and the main technology. The modle using the
basic elements method’s theory, and it had some advantages. Compared with the modle
based on words only, our modle showed more symantic information. Combine the
symantic information with statistic approach made our summarization more precise and
quick. Chapter 4 gave an example of the modle and showed the evaluation of our
Chinese summarization. From the experiments we could know the result of our modle,
and the BESCM was better than common method.
The last of the article gave some hope for our automation Chinese summarization
based on the basic elements method, and also brought out some opinions on how to
improve the modle.
Keywords: basic elements method, BESCM, extracting, the
summarization machine
目 录
中文摘要
ABSTRACT
第一章 绪论 .................................................................................................................... 1
§1.1 研究背景 .......................................................................................................... 1
§1.2 本文内容结构 .................................................................................................. 1
§1.3 本文的主要工作 .............................................................................................. 2
第二章 理论背景 ............................................................................................................ 3
§2.1 自动文本摘要综述 .......................................................................................... 3
§2.2 自动文本摘要研究的现状 .............................................................................. 3
§2.2.1 综合改进方面 ........................................................................................ 4
§2.2.2 基于统计的机械式文摘方面 ................................................................. 4
§2.2.3 在连贯性改进方面 ................................................................................ 4
§2.2.4 在领域受限方面 .................................................................................... 4
§2.2.5 在篇章结构方面 .................................................................................... 5
§2.2.6 在多文本自动文摘方面 ........................................................................ 5
§2.2.7 在信任文摘方面 .................................................................................... 6
§2.3 基本要素方法的提出 ....................................................................................... 6
§2.3.1 DUC 会议 ................................................................................................6
§2.3.2 基本要素方法简介 ................................................................................ 7
§2.3.2.1 基本要素方法的定义 .................................................................. 7
§2.3.2.2 现存自动文摘的突出缺陷 .......................................................... 7
§2.3.2.3 基本要素方法的优点 .................................................................. 7
§2.3.2.4 BE Package 和英文自动文摘 .......................................................7
§2.4 基本要素方法对于中文自动文本摘要的启发 .............................................. 8
§2.4.1 中研院的 TreeSearch 工具 .................................................................... 8
§2.4.1.1 中心语主导原则 .......................................................................... 8
§2.4.1.2 TreeSearch 工具 ............................................................................ 9
§2.4.2 中研院中心语主导原则和基本要素方法的区别 ................................ 9
第三章 基于基本要素的中文自动文摘模型 .............................................................. 11
§3.1 主要思路 ........................................................................................................ 11
§3.2 基于基本要素的中文自动文摘模型(BESCM.......................................11
§3.3 操作步骤 ........................................................................................................ 11
§3.4 关键技术 ........................................................................................................ 12
§3.4.1 句法分析技术 ...................................................................................... 12
§3.4.1.1 句法分析概述 ............................................................................ 12
§3.4.1.2 句法分析器 StandfordParser ..................................................... 13
§3.4.2 抽取中文文档基本要素(BEs)的算法及其程序实现 ................... 16
§3.4.3 文摘生成器 .......................................................................................... 18
§3.4.3.1 计算 BEs 分值 ........................................................................... 18
§3.4.3.2 计算句子分值 ............................................................................ 19
§3.4.3.3 BEs 聚类 ..................................................................................... 20
§3.4.3.4 句子抽取 .................................................................................... 21
§3.4.4 评价自动文本摘要结果 ...................................................................... 22
第四章 实验结果和评价 .............................................................................................. 23
§4.1 资料基本介绍 ................................................................................................ 23
§4.2 利用基本要素方法进行自动文本文摘 ........................................................ 23
§4.2.1 对资料进行句法分析 .......................................................................... 23
§4.2.2 提取基本要素(BEs....................................................................... 23
§4.2.3 生成自动文摘 ...................................................................................... 24
§4.3 对自动文本文摘进行评价 ............................................................................. 28
§4.4 对比实验及综合评价 .................................................................................... 28
§4.4.1 自动文本摘要的普通方法 .................................................................. 28
§4.4.2 对比实验结果和分析评价 .................................................................. 29
第五章 总结及展望 ...................................................................................................... 32
§5.1 总结 ................................................................................................................ 32
§5.2 展望 ................................................................................................................ 32
附录 1............................................................................................................................. 34
附录 2............................................................................................................................. 35
附录 3............................................................................................................................. 37
附录 4............................................................................................................................. 38
附录 5............................................................................................................................. 42
附录 6............................................................................................................................. 48
参考文献 ........................................................................................................................ 55
在读期间公开发表的论文 ............................................................................................ 59
............................................................................................................................ 60
1章 绪论
1
第一章 绪论
§1.1 研究背景
自动文本摘要是自然语言理解的一个重要的分支,它利用计算机自动的从原
始文献中提取摘要,摘要应包含原文的核心内容或用户感兴趣的内容,并用同于
或不同于原文的句子表达出来[1]1958 IBM 公司的 Luhn 首次进行自动文摘的
实验,宣告该项技术的诞生。
自动文本摘要的概念虽然由文献[2]提出,但是在当时并没有引起人们的足够重
视,随着 Internet 的迅速普及和信息量的激增,信息的自动化处理亟待解决。自动
文摘技术已经成为 Internet 信息时代的必然需求,人们可以借助自动文摘来了解文
章的主题和思想而不必浪费时间去阅读大量文章;无线应用通讯协议(Wireless
Application ProtocolWAP、手机短信息服务Short Message ServiceSMS
个人数字助理(Personal Digital AssistantPDA)等小型移动设备由于自身的技术
限制,也需要将信息压缩后再在其设备上显示,而 MUCMicro Controller Unit
多点控制单元)等也将在未来的网络中扮演重要的角色。与索引相比,自动文本
摘要更能满足信息获取的要求[3]在新一代搜索引擎问答系统(Q&A话题的监
测与跟踪技术(Topic Detection and TackingTDT、国家安全部门的非法信息监
测、特殊信息的定制与融合等方面发挥重要作用。本文对自动文本摘要的研究正
是在这样的背景下提出的。
§1.2 本文内容结构
本文主要内容结构如下:
1)第一章绪论。提出自动文本摘要的研究背景、本文的内容结构、本文所
做的主要工作等内容。
2)第二章是对理论背景的介绍。
首先是对自动文本摘要的综述和国内外研究现状;然后简单介绍了基本要素
方法和其主要理论思想,重点介绍了基于基本要素方法的英文自动文本摘要和将
基本要素方法运用于中文自动文本摘要的想法;最后是基本要素方法对中文自动
文本摘要的启发。
3)第三章提出了基于基本要素的中文自动文摘模型(BESCM。该章是本
文的重要章节之一,主要内容有该模型的思路、该模型的主要操作步骤、具体模
型表现和关键技术等。-
基于基本要素方法的中文自动文本摘要
2
4第四章是对第三章提出的基于基本要素的中文自动文摘模型的实验和评
价。具体实验和评价过程基本按照第三章中的算法步骤和关键技术等内容进行。
最后对比实验了 BESCM 和普通自动文摘的效果,做出总体评价。
5第五章是总结和展望。该章节主要对前面提出的模型及其实验和评价结
果进行总结,在此基础上对基于基本要素方法的中文自动文本摘要模型在自动文
摘领域的发展前景和需要改进的地方进行展望。
§1.3 本文的主要工作
本文做出的主要工作是:以文本挖掘中的中文自动文本摘要为研究对象,在国
内外自动文摘研究的基础上,选取 DUC2005 提出的基本要素方法的思想,并将其
与中文自动文本摘要进行结合,提出了基于基本要素的中文自动文摘模型,具体
工作如下:
1)将基本要素方法运用于获取中文自动文本摘要。通过对国内外自动文本
摘要的理论研究发现(就作者所掌握的资料来看)将基本要素方法运用于中文自
动文本摘要的研究只有文献《基于基本要素的文摘内容连贯性评测模型》[6]但是
该文献的学者只是用基本要素方法来评价文摘,并没有用该方法来获取文摘。
2因为 BE Package 对中文文档的应用很难得到,故本文根据基本要素方法
中关于基本要素中心词的定义,模拟了针对中文文档抽取基本要素的方法,并用
程序加以实现,达到对基本要素自动抽取的效果。
3)针对句子分值的计算,在现有理论基础上进行改进,将句子结构等信息
加到计算公式中,使句子分值更客观真实。
摘要:

摘要自动文本摘要是自然语言理解的一个重要的分支,它利用计算机自动的从原始文献中提取摘要,摘要包含原文的核心内容或用户感兴趣的内容,并用同于或不同于原文的句子表达出来。作为一种快速获取信息的方式,自动文本摘要正获得越来越多的关注。得到准确和易于理解的文摘是学者们不懈追求的目标。本文提出了一种基于基本要素方法的中文自动文本摘要模型(BESCM)。基本要素方法是由DUC2005会议提出的,它描述的是一个三元组“中心-修饰-关系”(head|modifier|relation),中心词为该三元组中的主要部分。在用基本要素方法获得自动文本摘要时,主要是提取基本要素中的中心词来计算句子分值,然后根据句子分...

展开>> 收起<<
基于基本要素方法的中文自动文本摘要的研究.pdf

共62页,预览7页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:62 页 大小:1.11MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 62
客服
关注