中文微博观点摘要提取方法的应用研究

VIP免费
3.0 侯斌 2024-11-19 4 4 1.49MB 62 页 15积分
侵权投诉
近年微博(Microblogging Services)以其平台开放性、交流广泛性等特点已经成
为深受欢迎的交流渠道,人们能够同时在线针对某一话题表达不同趋向的观点。
代表性微博平台新浪微博每分钟都会产生海量的包含用户情感和看法的即时信息
对这些信息提取出主题相关的观点摘要并直观展示给用户,将使用户能够高效获
取关键点信息,并且能够通过不同主题的比较概览全貌性信息,满足高速发展的
信息社会中快速获取本质信息的需求。但通过人工从微博数据中提取观点摘要非
常耗时费力没有成效,因此自动提取观点摘要的研究课题是非常有意义的。
论文基于主题模型,以特定实体对象(如公众人物、商业机构)为基本单位,
提出一种观点摘要自动提取框架,能够面向微博中实体提取主题相关的且能反映
情感倾向背后看法的观点摘要。为了这个目的,首先,论文提出一种基于句法模
板匹配进行微博观点句识别的方法,选取能够反映观点的语句结构作为模板语句,
通过句法分析工具将模板语句和微博语句解析成句法树并进行匹配,以此来识别
出观点句,进一步通过基于语义的复述搭配抽取方法对语句模板进行扩展以提高
模板识别覆盖率。其次,论文通过构建情感词典进行观点句情感倾向识别,分别
利用多特征线性融合策略构建出不依赖文本语境的情感词词典,利用关联规则构
建出依赖文本语境的情感词词典,将构建完成的词典用于识别观点句情感倾向,
但这种基于词典的情感识别方法因忽略情感词与实体对象的语义依存关系导致识
别准确率不高,论文进一步改进将语义依存关系选为特征加入情感分类模型,实
验结果表明识别精度得到明显提高。最终,论文基于潜在狄利克雷分配(Latent
Dirichlet Model, LDA)主题模型,以抽取出的观点句为输入通过吉布斯抽样(Gibbs
Sampling)法进行模型求解,获得微博在主题空间的概率分布以及主题在词空间的
概率分布,从而通过微博-主题分布可提取出主题下的微博集合,但直接将这些主
题相关的观点句作为观点摘要可读性差、冗余度高且主题相关性低,针对这些问
题进一步采用优化方法提取出最终关于特定实体对象的微博观点摘要。
论文通过结合 API Web 爬虫方法收集到新浪微博平台的真实数据,分别对
所提出的观点句识别方法、情感倾向识别方法进行实验验证,结果表明每一模块
方法的准确率、召回率以及 F1 值均优于传统方法。并最后对整个观点摘要提取框
架进行实例研究,研究结果较好地验证了所提框架方法的有效性。
关键词:观点摘要 主题模型 句法分析 情感分析 微博
Abstract
Microblogging services, such as Sina Weibo, have become popular channels for
people to express their opinions towards a broad range of topics. Sina Weibo generates
a huge volume of instant messages (i.e. weibo) carrying users' sentiments and attitudes
every minute, which both necessitates automatic opinion summarization and poses great
challenges to the summarization system.
In this paper, we study the problem of opinion summarization for entities, such as
celebrities and brands, in Sina Weibo. We propose an entity-centric topic-based opinion
summarization framework, which aims to produce opinion summaries in accordance
with topics and remarkably emphasizing the insight behind the opinions. To this end,
we first use templates generalized from paraphrasing to identify tweets with deep
insights, which reveal reasons, express demands or reflect viewpoints. Subsequently, we
build context-free sentiment dictionary using the meaning the words, and use
association rules to build contextual emotional dictionary. With the dictionary we
develop a target (i.e. entity) dependent sentiment classification approach to identifying
the opinion towards a given target (i.e. entity) of tweets. Finally, the opinion summary
is generated through integrating information from dimensions of topic, opinion and
insight, as well as other factors (e.g. topic relevancy, redundancy and language styles) in
an united optimization framework. We conduct extensive experiments on a real-life data
set to evaluate the performance of individual opinion summarization modules as well as
the quality of the produced summary. The promising experiment results show the
effectiveness of the proposed framework and algorithms.
Keywords: Opinion Summarization, Topic Model, Syntactic Analysis,
Sentiment Analysis, Weibo
第一章 ....................................................... 1
1.1 研究背景 ........................................................................................................... 1
1.2 问题的提出 ....................................................................................................... 1
1.3 观点摘要相关研究工作 ................................................................................... 2
1.3.1 评价对象提取相关研究工作 .................................................................... 3
1.3.2 观点句识别相关研究工作 ........................................................................ 4
1.3.3 情感倾向相关研究工作 ............................................................................ 6
1.3.4 集成方法相关研究工作 ............................................................................ 8
1.3.5 摘要生成相关研究工作 ............................................................................ 9
1.4 研究内容 ........................................................................................................... 9
1.4 论文组织结构 .................................................................................................. 11
第二章 观点摘要相关技术概 ........................................ 13
2.1 句法分析 ......................................................................................................... 13
2.1.1 句法分析基本方法 .................................................................................. 13
2.1.2 句法分析工具 .......................................................................................... 13
2.2 情感词典构建 ................................................................................................. 15
2.2.1 基于语料的情感词典构建 ....................................................................... 15
2.2.2 基于语义知识库的情感词典构建 ........................................................... 16
2.3 LDA 主题模型 ................................................................................................. 17
2.3.1 先验设定 .................................................................................................. 17
2.3.2 参数估计 .................................................................................................. 17
2.3.3 训练过程 .................................................................................................. 18
2.3.4 模型评估 .................................................................................................. 18
2.3.5 主题数目的确定 ...................................................................................... 19
第三章 基于句法模板匹配的观点句识别 ................................ 20
3.1 句法模板识别观点句 ..................................................................................... 20
3.1.1 观点句定义 .............................................................................................. 20
3.1.2 句法模板定义 .......................................................................................... 20
3.1.3 观点句识别 .............................................................................................. 22
3.2 实验数据收集与处理 ..................................................................................... 27
3.2.1 数据爬取 .................................................................................................. 27
3.2.2 预处理 ...................................................................................................... 28
3.3 观点句识别实验结果评估 ............................................................................. 29
3.4 本章小结 ......................................................................................................... 30
第四章 基于词典的情感倾向分析 ...................................... 31
4.1 不依赖文本语境的情感词典构建 ................................................................. 31
4.2 依赖文本语境的情感词典构建 ..................................................................... 33
4.2.1 基于关联规则的组合词挖掘 .................................................................. 34
4.2.2 组合词倾向性识别 .................................................................................. 35
4.3 微博情感倾向分析 ......................................................................................... 36
4.3.1 基于词典的情感倾向分析 ...................................................................... 36
4.3.2 基于分类器的情感倾向分析 .................................................................. 37
4.4 情感倾向实验结果评估 ................................................................................. 38
4.5 本章小结 ......................................................................................................... 38
第五章 基于 LDA 和优化方案的微博观点摘要提取 ........................ 40
5.1 基于 LDA 提取观点微博 ............................................................................... 40
5.2 基于优化方案提取观点摘要 ......................................................................... 41
5.2.1 内容选取优化方法的详细描述 .............................................................. 41
5.2.2 基于优化方法的微博观点摘要选取 ...................................................... 43
5.3 观点摘要提取实验结果评估及实例研究 ..................................................... 44
5.3.1 评价指标 .................................................................................................. 44
5.3.2 摘要评估 .................................................................................................. 45
5.3.3 实例研究 .................................................................................................. 46
5.4 本章小结 ......................................................................................................... 48
第六章 总结与展望 .................................................. 49
6.1 研究内容总结 ................................................................................................. 49
6.2 展望 ................................................................................................................. 50
参考文献 ........................................................... 51
在读期间公开发表的论文和承担科研项目及取得成果 ..................... 59
............................................................. 60
第一章
1
第一章
1.1 研究背景
近年互联网正义突飞猛进的速度发展,包括微博、社交网站、即时通讯等在
内的一些新型社交媒体正在从根本上改变着人类的生活[1][2]中国互联网络信息中
心发布统计报告[3]指出,截至 2013 6月底我国微博用户已达 3.31 亿,微博用户
在网民中的比例超过 56%。如此大量的用户加上快速发展的移动联网设备使得分
秒间都会有海量信息产生。研究表明微博相较于传统社交平台对高质量信息的传
播要更加迅速,因此微博已经远非一个单纯的社交平台,同时也是一个潜力巨大
的评论信息源。无论对企业、政府还是个人来说,这些评论信息都存在着巨大的
价值,可以有效的辅助制定决策。如何从如此大量的非结构化评论中提取有用的
结构化的评论信息已经成为当前的一个研究焦点,即评论挖掘Opinion Mining
又称为情感分析Sentiment Analysis尽管只开展了短短十几年,但由于其应用
前景非常广阔,学界以及业界的很多专家已经在这一领域进行研究。
1.2 问题的提出
人们在发表对某一事物的观点时,除了给出总体的评价,还通常会谈及到该
评论对象的多个方面。以微博上热议的公众人物“郭敬明”作为实体对象举例,
有些人们可能会从负面的角度批判他的物质主义,但有些人会从正面的角度支持
他的商业才能和坚持不懈。这就要求一种考虑不同主题的细粒度的摘要,而不是
一种混合所有关于“郭敬明”相关内容概况摘要。此外,许多微博只简单表达了
情感倾向,例如“力挺小四”这类微博仅仅针对某个实体对象表达出情感极性,
但却没有传达出更深层次的观点性的信息,从另一些微博中论文就能明显看出引
起微博中正面或负面意见的原因等这些观点信息。比如这条微博:“幻城之后也
一度很喜欢郭敬明,后来如此不待见他,除了因为他的作品总是灌输扭曲的价值
观,另一重要的原因就是他在被判决抄袭之后,毫无歉意表示,令我感到寒心”
从中能清晰看到微博情感产生的相关原因,而这类观点类信息对于用户把握事情
关键是更为重要的。人们总希望从海量信息中能够提炼出主要内容,并且这些主
要内容能细化到包含各个相关的主题,以便可以从多角度对事物有全貌性直观性
的了解。
上海理工大学硕士学位论文
2
论文针对如何从海量微薄中获取这种观点类信息进行研究,具体提出以下三
方面问题:
1) 关于特定实体对象,给定其相关微博语料,如何判断其中包含的句子哪些是观
点句;
2) 给定观点句如何获取用户在所发表的句子中的情感倾向;
3) 关于特定实体对象,给定其相关微博语料过滤后的观点句作新语料,如何获得
关于此实体对象的不同主题,获取主题后如何获得主题下的代表性微博做为摘
要。
此外,微博环境的影响使得另一些问题需要被特殊考虑。第一是微博文本的
不规范性。微博中包含着大量的缩略语、谐音词、简写词、网络语言等,如“杯
具”指“悲剧”、“小鲜肉”指“新人”等。此外,微博文本中隐藏着一些固定
写法,如采用“@”后跟用户名表示提醒某位用户、用//”代表转发、使用一对
#”包裹具体话题等等。这些都对现成自然语言处理工具的使用造成了困难。第
二是微博语言的动态性。微博上的流行词语、网络词语随时间不断变化,并会不
断有新词出现。从上述问题可以看出微博环境对观点摘要框架设计提出了一些特
殊的要求。
针对上述问题,论文借鉴国内外关于观点摘要提取的研究工作和分析方法,
对新的解决思路进行探索,以新浪微博数据为例,研究中文微博观点摘要提取所
涉及到的一些关键技术。
1.3 观点摘要相关研究工作
随着网络评论文本的不断增多,对评论文本进行信息挖掘和分析的需求也不
断增多,评论挖掘以及情感分析已经成为学术界的研究热点,其中包括了机器学
习、信息检索等多个领域。近年来,国内外相继出现了对一些观点挖掘和情感分
析的评测,如 NTCIR[35]是主要针对日、韩、英、中文文本的情感分类以及观点持
有者的检索;TREC Blog Track[34]是主要针对英文文本中观点信息的抽取;COAE
则是国内各研究机构发起的中文文本倾向性分析评测,到目前为止已经举办三届
评测活动。这些评测活动对推动情感分析与观点挖掘的发展有重要影响。
广阔的应用前景和相对较高的处理难度吸引了大批学者投入到这方面的研究
中,也得到了各国研究者和研究机构的关注。先前的观点挖掘研究工作集中于对
用户产生的内容,比如产品评论[31]、电影评论[38]或是旅馆评论[39]进行观点挖掘,
主要是基于评价对象研究观点挖掘范式,对产品细粒度特征或方面属性做情感倾
摘要:

摘要近年微博(MicrobloggingServices)以其平台开放性、交流广泛性等特点已经成为深受欢迎的交流渠道,人们能够同时在线针对某一话题表达不同趋向的观点。代表性微博平台新浪微博每分钟都会产生海量的包含用户情感和看法的即时信息,对这些信息提取出主题相关的观点摘要并直观展示给用户,将使用户能够高效获取关键点信息,并且能够通过不同主题的比较概览全貌性信息,满足高速发展的信息社会中快速获取本质信息的需求。但通过人工从微博数据中提取观点摘要非常耗时费力没有成效,因此自动提取观点摘要的研究课题是非常有意义的。论文基于主题模型,以特定实体对象(如公众人物、商业机构)为基本单位,提出一种观点摘要自...

展开>> 收起<<
中文微博观点摘要提取方法的应用研究.pdf

共62页,预览7页

还剩页未读, 继续阅读

作者:侯斌 分类:高等教育资料 价格:15积分 属性:62 页 大小:1.49MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 62
客服
关注