文本分类若干方法研究

VIP免费
3.0 赵德峰 2024-11-19 4 4 1.54MB 66 页 15积分
侵权投诉
摘 要
目前由于计算机硬件、软件及数据库技术的不断进步,特别是因特网的诞生
与不断普及和发展,互联网已经成为一个巨大的分布式信息存储与传递空间,众
多类别的信息开始以计算机可读的形式存在,这些信息包括文本、声音、图像等。
文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得
网络中的资源大部分是以文本(超文本)形式列出,并且其数量仍在急剧增加。所以,
在当前的 Web 挖掘中,文本挖掘占有举足轻重的地位。作为其中重要领域之一的
文本分类可以缩小信息检索的范围,增强检索目标和检索对象的相关性,同时可
以便捷地认识和区分不同的文档,使大量、复杂的文本条理化和系统化,可以极
大地提高信息的利用率。因而,文本自动分类成为目前文本信息处理中的一个重
要环节,是重要的研究课题之一。
本文分析了文本分类的相关理论和技术,比较了线性规划的分类方法和最小
二乘分类方法,将文档看作是主题的线性组合,通过计算混合系数实现文本自动
分类。同时文本分类的一个重要环节就是对高维特征空间的压缩,以选择出最能
代表文本内容的特征。通常我们认为降低维数会造成分类效果的下降,但是是否
存在这样的特征选择方法会使得分类结果不降反升,或者说,虽然分类效果略有
降低,但是在时间和计算量上大大节省了资源。因此本文从互信息和潜在语义索
引两个方面研究了特征选择对文本分类效果的影响,同时将这两种方法与线性规
划和最小二乘的分类方法相结合,比较实验结果。运用Matlab软件,20news为实
验对象,建立模型。通过实验比较不同分类方法的F1值。
结果表明,降维不仅仅减少资源成本,而且不一定会降低分类效果;将潜在
语义与线性规划和最小二乘文本分类相结合的方法比直接采用能够取得一个令人
满意的分类效果,从而表明了文章所提出的分类方法的有效性和可行性。
关键词:文本分类 线性规划 最小二乘 互信息 潜在语义索
ABSTRACT
At present due to the unceasing progress of computer hardware, software and
database technology, especially the birth of the internet and continuously popularization
and development, the internet has become a huge distributed information storage and
transmission of the space, many categories of information start with the computer
readable form existence, these information including text, voice and image. Text
data ,voice and image data, compared to occupy less network resources, easier to upload
and download, which makes the network resources are classed mostly text (hypertext)
form listed, and the number is still increased dramatically. Text classification can
narrow the scope of information retrieval, enhance the retrieval goals, retrieval object
correlation, recognize and distinguish different files easily, make large complex text
methodical and systematized, and can greatly improve the utilization of information.
Automatic text categorization become one of the important part of the text information
processing and research problem.
This paper analyzes the text categorization related theory and technology,
compares the linear programming method of classification and least-square
classification method. We see the document as the theme of the linear combination, and
finish the text categorization through calculation of the mixed coefficient. Meanwhile
the text categorization is an important link of high-dimensional feature space
compression, already can choose the most representative text features. We usually think
that dimension reduction can cause the drop of classification effect, but whether there
exist such feature selection methods will make the classification results up not down, or,
although slightly lower, but the time and resource of classification is greatly saved.This
paper talk about the text categorization effect from the mutual information and latent
semantic indexing aspects .
Establish model by 20-news for object using Matlab, By comparasing the macro
average from different classification method Experiments, the results show that the
method based on the latent semantic linear programming and least-square text
classification can be achieved a satisfactory classification effect, thereby shows the
feasibility and effectiveness of the method.
Key words: Text Classification, Linear programming, Least Squares,
Mutual Information, Latent Semantic Indexing
目 录
摘 要
ABSTRACT
第一章 绪 论 ...............................................................................................................1
§1.1 研究目的及意义 ..................................................................................................1
§1.2 国内外发展现状 ..................................................................................................1
§1.3 本文所做工作 .......................................................................................................2
第二章 文本分类关键技术 .............................................................................................4
§2.1 文本分类简介 ......................................................................................................4
§2.1.1 定义 ................................................................................................................ 4
§2.1.2 文本分类的任务 ........................................................................................... 5
§2.1.3 文本分类技术发展的三个阶段 ................................................................... 5
§2.2 文本预处理 ...........................................................................................................7
§2.3 文本特征的表示 ...................................................................................................7
§2.3.1 布尔模型(Boolean Model) ............................................................................8
§2.3.2 概率模型(Probabilistic Model) .....................................................................8
§2.3.3 向量空间模型(Vector Space Model, VSM) ................................................. 9
§2.4 文本特征的选择 .................................................................................................10
§2.4.1 词频方法 ...................................................................................................... 10
§2.4.2 互信息方法 .................................................................................................. 11
§2.4.3 信息增益方法 .............................................................................................. 11
§2.4.4
2
统计 ..........................................................................................................12
§2.5 文本特征的提取 .................................................................................................12
§2.5.1 潜在语义索引 ............................................................................................. 13
§2.5.2 主成分分析 ................................................................................................. 13
§2.5.3 Fisher 线性判决分析 ................................................................................... 13
§2.6 性能评价 .............................................................................................................14
§2.7 本章小结 .............................................................................................................15
第三章 文本分类算法 ...................................................................................................16
§3.1 相似度计算方法 .................................................................................................16
§3.2 朴素贝叶斯模型 .................................................................................................16
§3.3 k 近邻分类方法 ..................................................................................................17
§3.4 支持向量机方法 .................................................................................................17
§3.5 决策树分类法 .....................................................................................................19
§3.6 神经网络 .............................................................................................................19
§3.7 小结 ....................................................................................................................20
第四章 若干分类方法比较 ...........................................................................................21
§4.1 基于线性规划的文本分类 ................................................................................21
§4.2 基于最小二乘法的文本分类 ............................................................................22
§4.2.1 最小二乘解 .................................................................................................. 23
§4.2.2 基于最小二乘解文本分类 .......................................................................... 23
§4.3 基于互信息的文本分类 ....................................................................................24
§4.4 基于隐语义的文本分类研究 ............................................................................25
§4.4.1 向量空间模型的缺点 .................................................................................. 25
§4.4.2LSISVD 技术和数学模型 ........................................................................ 25
§4.4.3 SVD(Singular Value Decomposition) .......................................................... 26
§4.4.4 LSl 的数学依据 ........................................................................................... 28
§4.4.5 LSI 理论中 k秩近似矩阵的选取 ............................................................... 28
§4.5 本章小结 ............................................................................................................30
第五章 实验与结果分析 ...............................................................................................31
§5.1 数据集 ................................................................................................................31
§5.2 实验流程及结果 .................................................................................................31
§5.2.1 基于线性规划的文本分类 .......................................................................... 33
§5.2.2 基于最小二乘的文本分类 .......................................................................... 35
§5.2.3 基于互信息的文本分类 .............................................................................. 37
§5.2.4 基于 LSI 的文本分类 .................................................................................. 41
§5.3 结论 .....................................................................................................................45
第六章 结论与展望 .......................................................................................................47
§6.1 研究工作总结 .....................................................................................................47
§6.2 将来的工作 .........................................................................................................48
...............................................................................................................................49
参考文献 .........................................................................................................................60
在读期间公开发表的论文和承担科研项目及取得成果 .............................................63
...............................................................................................................................64
第一章 绪 论
1
第一章 绪 论
§1.1 研究目的及意义
随着信息技术的发展,特别是Internet的应用和普及,各种科技文献以及互联
网上的信息爆炸式的出现在人们面前,如何自动处理大量的数字化文本成了一项
重要的研究课题。传统的做法是对网上信息进行人工分类,并加以组织和整理,
为人们提供一种相对有效的信息获取手段。但是,这种传统的人工分类的做法存
在着许多弊端:一是耗费大量的人力、物力和精力;二是存在分类结果一致性不
高的问题。这就要求探索计算机自动进行文本分类的有效方法,使得分类的正确
率提高。只有这样才能保证检索的查全率和准确率都得到提高。为了人们更好的
查找知识,发现知识,必须发展文本数据处理技术,文本分类是文本数据处理中
最重要的技术之一。文本分类不仅方便用户准确定位所需的信息,很大程度上解
决了目前网上信息杂乱问题,而且很好的解决了人工分类周期长、费用高、效率
低的缺点,已成为一项具有较大使用价值的关键技术。文本自动分类技术现己广
泛应用于Internet上资料的搜索,电子图书馆中对图书的分类,网络安全中在防火
墙技术上的应用以及电子邮件分类的应用等等,通过文本分类技术可以弥补传统
搜索引擎的不足,过滤用户不需要的文章,并将检索结果分门别类,使用户能够
清晰地发现自己感兴趣的内容,同样,在政府机关或企业的邮件接收器中使用文
本分类技术,有根据邮件标题和正文的内容将邮件分类,分发到与之相关的部门,
从而进行处理,提高工作效率。
总之,通过文本自动分类系统,能够很好地整理和系统化互联网大量的信息,
同时帮助用户整理、获取信息,在提高信息检索的速度和准确率方面显得意义重
大,具有很重要的研究价值。
§1.2 国内外发展现状
国际上在文本分类技术以及相关的信息检索、信息抽取等领域起步较早,进
行了较为深入的研究,并开发了一系列可用的分类系统,例如分别针对新闻稿件、
网页和电子邮件的自动文本分类器等。至今已在文本处理的很多领域取得突破性
进展,并为文本分类效果的不断提升奠定了基础:
Salton[1]等人在 60 年代末提出的向量空间模型(Vector Space ModelVSM)在文
本分类、自动索引、信息检索等许多领域得到了广泛的应用,已成为最简便高效
的文本表示模型之一,并且被很多商业搜索引擎采用。该模型以特征项作为文档
表示的坐标,把文档集合中的每篇文档都形式化为高维空间中的一个向量,每篇
文档都通过 TF 向量来表示,然后按照 TF.IDF (Term Frequency. Inverse Document
Frequency)[2][3]方法来计算每个文档词语权重,最后计算两个文档向量夹角余弦或
文本分类若干方法研究
2
使用其他方法来得到他们之间的相似度,通过比较文本间相似度或文本与文本类
的中心向量间的相似度来进行文本的聚类或分类。Sandler 利用混合模型的方法将
文本集看作是若干主题的集合,每一个文档是主题分布的线性组合,文本分类的
主要过程就是确定文档的相关系数[4][5]周竹荣通过对基于统计的信息检索模型和
基于本体的信息检索模型进行分析比较,得知这两种模型在某种程度上互补,利用
混合模型思想提出了一种混合的信息检索模型,实验证明该模型在查全率和查准率
方面较基于统计的信息检索模型和基于本体的信息检索模型有了一定的改进[6]
随着网络上越来越多的文字信息的出现,如果没有高效的索引和文档信息摘
要功能作为基础,很难实现有效的检索目的。同时网络上大量可用的文字信为基
于统计和机器学习技术的分类器提供了丰富的资源。近些年,很多理论被应用到
该领域,包括:朴素贝叶斯(Naive BayesNB)支持向量机(Support Vector Machine
SVM)K-近邻(K Nearest Neighbor, KNN)神经网络模型(Neural Network, NN)、决
策树模型(Decision Tree, DT)最大熵模型(Maximum Entropy, ME)[7][8][9].支持向量机
Vapnik 等人在 1995 年提出的新型机器学习方法,他以统计学习的理论作为基
础,最初用于解决二分类模式识别问题。他最主要的思想是在训练集所在的高维
空间中寻求最优的超平面来划分向量集,从而作为分类未知样例的标准,算法最
大化超平面与训练集中的实例的距离,距离超平面最近的异类向量被称为支持向
量,一组支持向量可以唯一确定一个超平面。SVM 有线性和非线性两种。线性的
对训练向量做线性变换,非线性 SVM 通过非线性变换将向量映射到高维特征空间
中进行计算[10]为了克服向量空间模型中的词条独立性假设,文献[11]利用一种基于
潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语
的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义
词、多义词的影响,从而提高了文本分类的精度[12]。文献[13]中作者利用层次概念,
构造主题矩阵,使得主题之间的线性无关度更高,从而提高了分类的准确率。
测试语料库及评测方法国际上对于英文文本分类语料,制定了一些规则完善、
标准统一的语料集,包括:20Newsgroups 语料库(20000 多篇文章 20 个类别)
WebKB 语料库(4199 篇文章 7个类别)
Reuters 系列语料库(21578 篇文章 135 个类
)都曾较为广泛地使用,特别是 20Newsgroups 已经成为目前分类系统的评测基
准。
§1.3 本文所做工作
国内外目前普遍采用贝叶斯方法,KNN 方法,决策树方法,神经网络等文本
分类方法,针对文献作者提出的基于线性规划的文本分类方法,本文结合最小二
摘要:

摘要目前由于计算机硬件、软件及数据库技术的不断进步,特别是因特网的诞生与不断普及和发展,互联网已经成为一个巨大的分布式信息存储与传递空间,众多类别的信息开始以计算机可读的形式存在,这些信息包括文本、声音、图像等。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络中的资源大部分是以文本(超文本)形式列出,并且其数量仍在急剧增加。所以,在当前的Web挖掘中,文本挖掘占有举足轻重的地位。作为其中重要领域之一的文本分类可以缩小信息检索的范围,增强检索目标和检索对象的相关性,同时可以便捷地认识和区分不同的文档,使大量、复杂的文本条理化和系统化,可以极大地提高信息的利用率。因而,文...

展开>> 收起<<
文本分类若干方法研究.pdf

共66页,预览7页

还剩页未读, 继续阅读

作者:赵德峰 分类:高等教育资料 价格:15积分 属性:66 页 大小:1.54MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 66
客服
关注