基于混合模型的无监督文本分类研究
![](/assets/7a34688/images/icon/s-pdf.png)
VIP免费
摘 要
随着互联网的不断深入发展,网络上堆积的数据量日益庞大,并且大部分数
据以文本的形式存储。文本的非数值性、复杂性等非结构性特点,使得文本挖掘
成为数据挖掘相关领域中的热点与难点。无监督的文本分类是文本自动分类的一
个重要研究领域。由于无监督的文本分类不需要预先对文档手工标注类别,具有
灵活性和自动化的特点,目前已经成为对文本信息进行处理的重要手段。
在对传统文本挖掘方法和过程仔细分析的基础上,本文对基于混合模型的文
本挖掘方法进行了研究和实验。在文本挖掘的词袋模型中,一般将每个文档的词
频向量作为基本的分析对象。本文认为文本集合中所包含的各种主题的词频分布,
比每个文档的词频分布更本质、更稳定、也更实用。所以,本文将文本集中所包
含的主题的分布作为基本的分析对象,而将每个文档的词频向量看作各个主题的
词频向量的混合。通过构建文档分布的混合模型,每个文档对应一个混合系数向
量。由于主题的数量,比词典中的词的数量少很多,将文档表示为混合系数向量
的形式,可以达到降维的目的。同时,文档的类别(主题)信息也可以通过混合
系数读出。本文给出一种基于线性规划的混合系数的算法,给出了主题分布的聚
类分析算法,通过在复旦大学语料库上进行的实验分析,结果表明该模型构造的
主题空间与实际的主题空间比较接近,分类效果非常明显,具有有效性和可行性。
本文的算法可以对大样本文本集进行无监督分类,能在降低文本的维数的同
时,尽可能多的保存类别(主题)的信息,从而保证分类的效果。
关键词:文本挖掘 文本分类 混合模型 线性规划
ABSTRACT
With the development of internet, data on the web is increasing explosively. The
most of this data is textual. Because of its non-numerical feature and semantic
complexity, Text Mining becomes a hot and difficult spot of Data Mining. Unsupervised
text classification is an important research field of automatic text categorization.
Unsupervised text classification without prior to classify the documents and has a
certain flexibility and automation process,so it has been an important way to deal with
the texts.
On the basis of careful analysis of the traditional text mining methods and
processes, the paper research and experimental based mixture model text mining
methods. In bag of words of text mining model, words frequency of each document as
a basic analysis of the vector object. However, the paper argues that the word frequency
distribution of the text collection that contains a variety of topics, that is more essential
more stable, more practical elements than the word frequency distribution of each
document! So the paper focus on the distribution of the topics included in the text as the
basic object of analysis, word frequency vector of each document is seen as the mixing
of the various topics of word frequency vector. By constructing the mixture model of
document distribution, each document corresponds to a mixture coefficients vector. Due
to the number of themes is much less than the number of words in the dictionary, The
documents can be expressed by mixture coefficients vector, the purpose of dimension
reduction can be achieved. The same time, the document categories (themes) can also
be found out by mixture coefficients. This paper presents a mixing coefficient based on
linear programming algorithm, given the topic distribution clustering algorithm. The
results show that theme space structured by the mixture model close to the actual topic
space, based-on the Experimental Analysis of Fudan University Corpus, classification
effect is very obvious, thereby shows the feasibility and effectiveness of the method.
The algorithm can be carried out on a large sample set of texts unsupervised
classification, at the same time reduce the text dimension, and save as much information
of the category (theme), ensure the effect of classification.
Key Word:Text mining, text classification, mixed model,
linear programming
目录
摘 要
ABSTRACT
第一章 绪 论 .............................................................................................................. 1
1.1 研究背景与意义 ................................................................................................ 1
1.2 文本挖掘的国内外研究状况 ............................................................................ 2
1.3 文本挖掘面临的挑战 ........................................................................................ 3
1.4 本文的结构安排及所做工作 ............................................................................ 4
第二章 文本挖掘相关概念及技术 ............................................................................. 5
2.1 文本挖掘技术简介 ............................................................................................ 5
2.2 文本挖掘的一般过程 ........................................................................................ 7
2.3 文本表示 ............................................................................................................ 8
2.3.1 文本预处理 .................................................................................................. 8
2.3.2 中文分词算法 .............................................................................................. 9
2.3.3 中文分词的难题 ........................................................................................ 10
2.3.4 中文分词工具 ............................................................................................. 11
2.3.5 文本表示模型 ............................................................................................. 11
2.4 文本特征处理 .................................................................................................. 17
2.4.1 特征提取方法 ............................................................................................. 17
2.4.2 特征词权重确定 ......................................................................................... 20
2.5 文本挖掘相关算法 .......................................................................................... 21
2.5.1 聚类算法 .................................................................................................... 21
2.5.2 分类算法 .................................................................................................... 27
2.6 效果评价 .......................................................................................................... 31
2.6.1 基于人工判定的指标 ................................................................................ 32
2.6.2 基于目标函数的指标 ................................................................................. 33
2.7 本章小结 .......................................................................................................... 33
第三章 基于混合模型的无监督文本分类研究 ....................................................... 35
3.1 文档的混合模型 .............................................................................................. 35
3.2 模型分析 .......................................................................................................... 36
3.3 模型的构建 ...................................................................................................... 37
第四章 实验流程与结果分析 ................................................................................... 40
4.1 软硬件环境 ....................................................................................................... 40
4.2 语料库 ............................................................................................................... 40
4.3 模块设计 ........................................................................................................... 41
4.3.1 中文分词模块 ............................................................................................. 41
4.3.2 构造词共现模块 ......................................................................................... 42
4.4 实验数据及结果分析 ....................................................................................... 44
4.4.1 实验数据集 ................................................................................................ 44
4.4.2 实验结果及分析 ........................................................................................ 45
第五章 结果与展望 ................................................................................................... 52
参考文献 ..................................................................................................................... 53
在读期间公开发表的论文和承担科研项目及取得成果 ......................................... 56
致 谢 ......................................................................................................................... 57
第一章 绪 论
1
第一章 绪 论
1.1 研究背景与意义
随着信息技术的迅速发展,特别是互联网市场影响渐远,以文本形式表示的
信息与日俱增,互联网上电子文本的信息量已成爆炸趋势。在面对互联网的海量
信息时,仅仅依靠人工提取出所需的信息,将变得非常困难。如果计算机能发挥
其在信息处理方面的优势,为用户提供有效的帮助,那将能够极大提升信息的利
用效率,改善当前用户面临的困境。基于这种考虑和需求,数据挖掘技术得以迅
速发展。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随
机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用
的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、
含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;
并不要求发现放之四海皆准的知识,仅支持特定的发现问题。发现的知识可以被
用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,
提升到从数据中挖掘知识,提供决策支持。
文本挖掘作为数据挖掘的一个分支,是指从大量文本数据中抽取事先未知的,
可理解的、最终可用的信息或者知识的过程[1]。因此,当数据挖掘的内容从单纯的
数据,变成复杂的文本数据类型时,其过程也就从数据挖掘转换为文本挖掘。文
本数据不同于一般的数据,它的主要特征是非结构化,也就使得文本数据库本身
没有办法达到关系数据库的程度,所以文本挖掘的研究就具有极其重要的意义。
文本聚类技术和文本分类技术作为文本挖掘技术中文本处理的主要方式,具有非
常积极的作用,是文本信息处理领域的重要分支[2]。高效地挖掘文本信息和分析信
息是文本聚类的主要目标,并能讯速、全面地从中找到用户所需要的信息。作为
自然语言处理技术与数据挖掘技术相结合的产物,文本聚类已经被广泛地应用于
文本挖掘和信息检索等领域中,可以用来改进信息检索系统的查准率和查全率,
也可用于查找最接近的文本,还可用于对互联网上的文本进行分层次的聚类等。
有了文本聚类这一研究基础,为分类提供了可能。
文本分类是当前信息检索和文本数据挖掘的重要基础,很多相像的研究都可
以归纳成文本分类问题[3,4,5]。文本分类技术的前提是预先标注好文本集合的类别,
然后依据文本内容信息对文本集有效的处理,再把它划分到相应类别中。最初文
本分类仅仅是依靠专家手工进行的,这对该领域的知识要求较高而且花费较大,
无法满足对大规模文本进行处理的要求。文本自动分类则能较好地处理大量文本
基于混合模型的无监督文本分类研究
2
信息分类的问题,其在自然语言理解与处理、内容信息过滤、信息组织与管理等
领域都有着十分广泛的应用。
综上所述,通过将自然语言处理技术特别是文本聚类和分类技术有效地融入
文本挖掘的过程中,就能够发现文本数据背后隐藏的潜在知识,及文本数据之间
的联系和规律,并能根据目前拥有的大量文本数据高效地预测将来的可能的发展
趋势,更好的为互联网用户提供及时、有深度和有价值的信息服务。
综上所述,通过将自然语言处理技术引进到文本挖掘中来,比如说文本聚类
和分类技术,那么将能够相对比较容易的呈现隐匿在文本中的潜在信息。可以利
用这一新发现的规律或将来可能的趋势为广大用户提供及时、有深度和有价值的
信息服务。
1.2 文本挖掘的国内外研究状况
国外文本挖掘技术的研究较早,其前身是信息抽取技术[6]。早期的信息抽取系
统是扫描新闻事件,进行存档处理,进而完成对主题事件的描述。非结构化的文
本内容越来越多,所以对文本信息的处理日渐成为数据挖掘相关技术研究的重点,
文本挖掘也因此成为数据挖掘中主要分支之一。
外国的文本挖掘技术发展的逐渐成熟,己经从可行性这一基础性的研究阶段,
步入到实用化的应用阶段,到目前为止文本挖掘在过滤垃圾邮件、信息检索、文
本 分 类 等 方面开始广 泛 的 应 用 。 IBM 公司研发的 智 能 文 本 挖 掘 系统
(IntelligentMinerForText)非常适合软件公司的开发人员使用;Semio 公司出品的
SemioMap 工具可以进行文本的自动处理。文本挖掘技术的应用中,最成功的案例
就是 1998 年9月成立的 Google 以及其迅速的发展势头,到现今已成长为尽人皆
知的互联网巨头。
国外对文本挖掘的研究主要集中在两个方向上[7]:一、提取文本,把任意格式
的文本文档变更成为电脑系统能够认识的形式。二、抽取信息,从电脑系统能够
认识的形式中,挖掘出对人们有用的信息或知识。
国内文本挖掘的发展晚于国外,然而借助于其已有的技术,仍然取得一定的
成绩。特别是近年来,其相关研究成果已经渗透到各个学科,在智能控制、信息
检索、知识处理、机器视觉、信息过滤等领域取得了一定的进展。有鉴于此,文
本挖掘领域相关研究不仅被科学研究工作者所器重,甚至政府、企业也都采取积
极的态度深入研究。而且也取得了一定的成绩,代表性的研究有:
TRS 文本挖掘软件系统(由北京拓尔思信息技术股份有限公司研发),包括中
文信息处理技术有 TRS 文本分类、TRS 文本聚类等、TRS 文本相似性检索、TRS
文本信息过滤。武汉大学沈阳教授领导的 ROST 虚拟学习团队研发的新闻分析软
摘要:
展开>>
收起<<
摘要随着互联网的不断深入发展,网络上堆积的数据量日益庞大,并且大部分数据以文本的形式存储。文本的非数值性、复杂性等非结构性特点,使得文本挖掘成为数据挖掘相关领域中的热点与难点。无监督的文本分类是文本自动分类的一个重要研究领域。由于无监督的文本分类不需要预先对文档手工标注类别,具有灵活性和自动化的特点,目前已经成为对文本信息进行处理的重要手段。在对传统文本挖掘方法和过程仔细分析的基础上,本文对基于混合模型的文本挖掘方法进行了研究和实验。在文本挖掘的词袋模型中,一般将每个文档的词频向量作为基本的分析对象。本文认为文本集合中所包含的各种主题的词频分布,比每个文档的词频分布更本质、更稳定、也更实用。所...
相关推荐
-
VIP免费2024-11-22 17
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 10
-
VIP免费2025-01-09 8
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 8
-
VIP免费2025-01-09 13
-
VIP免费2025-01-09 8
-
VIP免费2025-01-09 14
-
VIP免费2025-01-09 10
作者:牛悦
分类:高等教育资料
价格:15积分
属性:59 页
大小:1.11MB
格式:PDF
时间:2024-11-07