微博热点话题提取方法的研究与实现

VIP免费
3.0 侯斌 2024-11-19 4 4 2.45MB 55 页 15积分
侵权投诉
摘 要
随着网络全球化进程的加快以及移动技术的推广,微博已经成为了网络舆
的主要源头和重要的传播媒介。通过微博热点话题就可以了解网络媒体的舆论
态、可以对突发性社会事件与自然事件进行监测和预警,因此研究如何提取并
析微博的热点话题,对于企业决策、行业调研、政府舆情监控等都有着重大的意义
然而微博具有:文本长度短、数据稀疏性突出、草根特性严重且数据量大、维度高
等特点,传统的话题提取方法在处理海量微博数据时存在降噪、降维能力不足、
义信息丢失等问题。针对上述问题,提出一种适合微博的热点话题提取方法。论文
主要的工作如下:
(1) 通过研究话题提取技术,针对微博短文本的数据稀疏性导致无法直接使用
普通文本特征权重的计算方法的问题,提出一种基于微博评论的短文本扩展方
该方法充分利用了微博的对话属性和传播模型,并且没有引入额外的“噪声”
降低了短文本的稀疏性的影响。
(2) 研究了常用的文本模型化表示方法,针对传统的向量空间模型对微博文本
建模时,向量空间维度高和语义信息丢失问题,本文采用潜在语析方法对
微博文本进行建模,获取词语间隐含的语义结构,利用该结描述与文本,
减弱了词语间的相关性,降低了文本向量的维度。
(3) 为了快速准确地处理海量的微博数据,在研究经典聚类算法各自的优缺点
之后,提出一种层次聚类和 K-means 聚类相结合的进混合聚类算法,并结合了
时间信息来计算文本相似度。该算法通过微博建模后的数据集进行层次聚类,
到下一步 K-means 聚类所需要的初始聚类中心和聚类个数,从而取长补短,提
了话题提取的效率和准确率。
(4) 根据提出的话题热度计算方法,结合短文本扩展方法、潜在语义分析模型、
改进的混合聚类算法,提出了基混合聚类和热度排的微博热点话题提取方
并对其进行验证。实验结果表明,该方法降低了特征空间矩阵的维度和噪声,
留了文本的潜在语义信息,从而大大降低了话提取错失率,提高了微博话
提取的性能,使提取的微博热点话题更为精准。
关键词:微博 话题提取 文本聚类 语义空间 潜在语义分析
ABSTRACT
With the acceleration of the network globalization and the popularization of mobile
technology, microblog has become the major source and important media of network
public opinion. Microblog hot topic can be used to grasp the public opinion dynamics of
network media,as well as monitor and warn the sudden social events and natural events.
So how to extract and analyze hot topic of microblog has aspect of vital significance for
business decisions,industry research, the government public opinion monitoring and so
on. However, microblog has short text length, prominence of data sparsity, seriousness
of grassroots features and large amount of data, high dimension and other
characteristics. Traditional topic extraction methods have lack of noise and dimension
reduction, loss of semantic information and other issues when dealing with massive
short text of microblog. In the view of these problems, a suitable microblog hot topic
extraction method is proposed. The main research work of this dissertation is as
follows:
(1) By studying the topics extraction technology, to the problem that data
sparseness of the microblog short text, which cause the calculation method of plain text
feature weight can not be used directly, a short text extension methods which based on
microblog comment is put forward. This method makes full use of dialogue properties
and communication model of microblog without introducing additional "noise", which
reduce the impact of sparsity of short text.
(2) Representation method of common text model is stuied, as well as the
problems like high dimension of vector space and loss of semantic information when
modeling microblog text which is based on the traditional vector space model. This
dissertation adopt the method which is based on latent semantic analysis of text when
modeling, extract the underlying semantic structure between words,and use this
potential semantic structure to represent words and text,to achieve the purpose of
eliminating the correlation between words and simplifing the text vector for
dimensionality reduction.
(3) In order to deal with massive microblog data rapidly and exactly, An improved
hybrid clustering algorithm which is the combination of hierarchical clustering and K-
means clustering is proposed, to calculate the text similarity by incorporating it with
time information after analyzing the advantages and disadvantages of classic clustering
algorithm. The algorithm obtain the initial cluster centers and the number of clusters
those are needed of the next K-means clustering by hierarchical clustering after the data
set of microblog modeling.
(4) According to the proposed calculation means of topic heat, extraction method
of hybrid clustering with microblog hot topic of heat sort is proposed, with the
combination of short text extension methods, latent semantic analysis model, and the
improved hybrid clustering algorithm. Experimental results show that this method
reduces dimension and the noise of feature space matrix, and retains the latent semantic
information of the text, which reduces miss rate of topic extraction greatly, and improve
the performance of microblog topic extraction, so that the extraction of microblog hot
topic is more accurate.
Key words: microblog, topics extract, text clustering, semantic space,
latent semantic analysis
I
目 录
中文摘要
ABSTRACT
第一章 绪论 ........................................................ 1
1.1
研究的背景与意义 ............................................ 1
1.2
国内外研究现状 .............................................. 1
1.3
主要研究工作及结构 ...................................... 3
微博 话题提取 及相关技术 ...................................... 5
2. 1
微博 ........................................................ 5
2. 1 . 1
微博的 概念 ............................................ 5
2. 1 .2
微博的特点 ............................................ 5
2. 1 . 3
微博话题提取 ...................................... 7
2. 2
话题提取的相关技术 .......................................... 8
2. 2 .1
数据提取与预处理 ...................................... 8
2. 2 . 2
文本表示模型 ......................................... 1 0
2. 2 . 3
文本相似度计算 ........ Error: Reference source not found
2. 2 . 4
文本聚类算法 ......... Error: Reference source not found 4
2 . 3
微博话题提取的 ......................................... 19
2. 4
针对 微博话题提取点的解决方 ............................. 19
2. 5
本章 ................................................... 20
基于短文本扩展与
LSA
的微博文本建模 ......................... 2 1
3. 1
微博短文本扩展 ............................................. 2 1
3 . 1 . 1
基于主题词的微博评论处理 方法 ......................... 2 1
3 . 1 . 2
扩展博文 ............................... 2 2
3. 2
基于
LSA
的微博文本建模 ..................................... 2 5
3 . 2 . 1 LSA
的介 ........................................... 2 5
3 . 2 . 2 基于
LSA
的语义建模 ................................... 2 7
3. 3
本章 ................................................... 27
章 基于混合聚类和热度排序的微博热点话题提取 ................... 28
4. 1
微博文本聚类 ............................................... 28
4.1.1 聚类算法的选择比较.................................28
4. 1 .2
改进的混合聚类算法 ................................... 29
4. 1 . 3
结合时间信息的文本相似度计算 ......................... 31
4. 1 . 4
聚类算法实验验证 ..................................... 31
4. 2
微博 话题热度的研究 ......................................... 33
4. 2 .1
话题热度影响因的分 ............................... 33
4. 2 .2
话题热度 的计算 ..................................... 33
4. 3
实验结果与分析 ............................................. 35
4. 3 .1
实验环境 数据 ....................................... 35
4. 3 .2
价指标 ............................................. 36
4. 3 .3
结果分 ............................................. 37
4.4
本章 ................................................... 4 0
II
微博热点话题提取 ....................................... 4 1
5. 1
............................................... 41
5. 2
数据采集模 ............................................... 42
5. 3
微博热点话题提取模 ....................................... 45
5. 3 .1
微博文本预处理模 ................................... 45
5. 3 .2
基于
LSA
的语义分析 ................................ 46
5. 3 .3
聚类及话题提取模 ................................... 47
5. 3 .4
统展示 ............................................. 47
5. 4
本章 .................. ................................ 5 1
章 结论与展 ................................................. 52
6.1
....................................................... 52
6.2
....................................................... 52
参考 .......................................................... 54
1
第一章
第一章 绪
1.1 课题研究的背景及意义
着 技[1]广
人们获取和发信息作为一种型社体及信息交流
,微博凭借开放动性传播实时发信息等特点,在近年来得
到了速发展和广泛应[1]注册暴增微博已成为广大用
的主要成为了网络舆论的主要源头和重要的传播媒
介。
通过便[2]
了解相关领域态及多样的用进一步提升产品质量和竞争
便政府构体察民,及晓目会重大事件的舆论导向和发
然而实微中,及时知晓的博主和群组的博文,
不能获取或跟踪当前整平台上的热点话题[1]因此,对海量复杂的微博信息数
据,如何从中获取所需要的信息感兴热点话题成为互联人们
的问题。
目前各种信息提取技术、话追踪技术等都是将大量冗余的网络数
进行有效分析,提取出热点话题,并题的发展
BBS 以及博等网络长文本,对以微博为新兴速发展的“自
媒体”的热点话题提取的研刚刚始。微博字是一种草根文本很简短,
注册的用都可公开布任何有关的话题信息。不通常
书写风格上相甚远。与传统媒体微博在其
上都存在大的因此,不的话题提取方直接用在微博
点话题提取上[3]。针对于微博的话题提取技术还是一个可以入研究的方向。
上所述,研究博不具有重要价值,而含着广前景
[3]微博热点话题的提取对个人生活行业调研企业决策政府舆情监控等都有着
重大的实意义。
1.2 国内外研究现状
对网络热点话题的研究通常含数据集、预处理、聚类分析、分类优化等过
[4]目前,在热点话题的传播规律与提取等方的研究取得了重大进展[5]
于网络热点话题提取的重要意义,与之相关的关键技术相似度计
类分析等技术随着国内外研究人员入研究而获得了广的发展。
(Natural Language ProcessingNLP),在此过程中,话题分析关重要的用
处。 [6]对于维话题测中发的缺提出一种基于语义的话
题分算法,该算法可以对事的相文本理到从而在文
摘要:

微博热点话题提取方法的研究与实现摘要随着网络全球化进程的加快以及移动技术的推广,微博已经成为了网络舆论的主要源头和重要的传播媒介。通过微博热点话题就可以了解网络媒体的舆论动态、可以对突发性社会事件与自然事件进行监测和预警,因此研究如何提取并分析微博的热点话题,对于企业决策、行业调研、政府舆情监控等都有着重大的意义然而微博具有:文本长度短、数据稀疏性突出、草根特性严重且数据量大、维度高等特点,传统的话题提取方法在处理海量微博数据时存在降噪、降维能力不足、语义信息丢失等问题。针对上述问题,提出一种适合微博的热点话题提取方法。论文主要的工作如下:(1)通过研究话题提取技术,针对微博短文本的数据稀疏性...

展开>> 收起<<
微博热点话题提取方法的研究与实现.doc

共55页,预览6页

还剩页未读, 继续阅读

作者:侯斌 分类:高等教育资料 价格:15积分 属性:55 页 大小:2.45MB 格式:DOC 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 55
客服
关注