WEB文本分类的实验研究

VIP免费
3.0 陈辉 2024-11-19 9 4 1.01MB 60 页 15积分
侵权投诉
第一章绪论
1
第一章 绪 论
§1. 1 课题背景与意义
近年来数据挖掘引起了广泛的关注,一般说到数据挖掘,我们很容易联想到
数据库中知识的提取。由于电子形式的信息量的飞速增长,如电子出版物,电子
邮件,Web页面(它可被视为一个巨大的互联的动态文本数据库)等,文本数据库得
到迅速的发展。
传统的信息检索技术已不适应日益增加的大量文本数据处理的需要。在如今
这个信息激增的年代,网上的搜索引擎动辄返回成千上万条相关的检索结果,由
于大量的信息是按文本方式存在的,用户需要有关的工具完成不同文档的比较,
以及文档重要性和相关性排列,或找出多文档的模式和趋势。怎样在浩如烟海的
信息中找出真正自己感兴趣的话题就必须进行文本挖掘,文本挖掘(Text Mining)
成了数据挖掘的一个很有前途的研究方向。
文本挖掘也得到许多企业的重视,由于企业收集和存储的文本信息很多,既
包括大量的电子邮件、企业内部的备忘录和周期总结等,也包括关于竞争对手的
报纸和新闻、技术报告、专利资料等,利用文本挖掘技术可以提高海量非结构化
信息源的利用价值,使得人们能够更加方便的从海量文本中发现隐含的知识,还
能够用为企业的战略决策提供竞争情报的支持。互联网是一种重要的竞争情报来
源,利用文本挖掘技术可以大大减少对这类信息源的收集和处理的时间,提高收
集的准确率,增强情报分析的深度,提高企业获取竞争情报的效率,为企业在竞
争上取得优势提供必要的保障。
web页面已有的分类情况下,如yahoo,sina 等网站,将页面信息分为财经,
教育,科技,娱乐,体育等模块。通过从网上阅读各个模块的大量文章,发现其
实这些类别的划分并不是很明确,比如在财经类与科技类里都有有关手机的文章;
财经类里也有很多房产方面的文章。那么我们是不是可以将这些类别能够更好的
来进行划分呢?本文从网站上收集各个模块的大量文本,将这些文本混合,然后
运用聚类算法重新进行分类,并人工进行类别判断,看会得到怎样的类别。这就
是本文研究的目的所在。
WEB 文本分类的实验研究
2
§1. 2 文本挖掘的研究现状
所谓数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、
随机的原始数据中提取隐含在其中的事先未知的但又是潜在有用的信息和知识的
过程。数据挖掘在20世纪90年代获得了突飞猛进的发展。采用数据挖掘技术可以
使公司从关系数据表等格式化好的数据中轻松获取知识,这已是一种常见的商业
行为。但是,由于现实世界中大量信息是以文本形式存在的,能不能用计算机从
文本中发现有用的知识呢?这就是人们现在所研究的文本挖掘。
文本挖掘属于数据挖掘这一交叉学科的一个具体领域,二者既有联系又有区
别:数据挖掘处理的对象是结构化的数值信息,以便发现不同数据属性的关联规
则,对记录进行聚类及分类处理,构造数据的预测模型,而文本挖掘的主要任务
是分析文档数据库的内容,发现文档数据集中概念、文档之间的相互关系和相互
作用,为用户提供相关知识和信息;此外,文本挖掘处理的是非结构化的文本信息,
而不是数据挖掘中采用的结构化数据信息。文本挖掘技术就成为处理大量的文本
信息的必然选择。
§1.2.1 文本挖掘的定义
文本挖掘作为数据挖掘的一个新主题,要给它下一个全面、完整、并被普遍
接受的定义还很困难,需要国内外学者开展更多的研究以便进行精确的定义,参
照数据挖掘的概念,文本挖掘定义如下:
文本挖掘也称为文本数据挖掘(Text Data Mining) 文(Document
Mini n g )或者文本数据库中的知识发现(Knowl edge Dis cove ry in Te xtu al
Database) 。文本挖掘概念最初由Ronen Feldman 提出,它是文本数据库中的知识
发现,是从文本或者大量的文本集合中抽取隐含的、未知的、有潜在价值的信息
和知识的过[1,2]它超出了基于关键字和相似度的信息检索的范畴,对文本信息
的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联系,用于自
然语言的处理,如机器翻译、信息检索、信息过滤等,通常采用信息提取、文本
分类、文本聚类、自动文摘和文本可视化等技术从非结构化文本数据中发现知识。
文本挖掘作为数据挖掘的一个研究分支,用于基于文本信息的知识发现。它
利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理
技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、
网页等),抽取或标记关键字概念,文字间的关系,并按照内容对文档进行分类聚
第一章绪论
3
类,获取有用的知识和信息。文本挖掘研究的关键在于文本内容的量化表征。
文本挖掘分为如下几个步骤:(1)资源发现,即检索所需的文档;(2)信息选择和
预处理,即从检索到的文本资源中自动挑选和预先处理得到专门的信息;(3)概括
化,即从单个的文档以及多个文档之间发现普遍的模式;(4)分析,对挖掘出的模
式进行确认或者解释;最后,得到所需的知识模式。
§1.2.2 文本挖掘的分类
文本挖掘可以对上大量文档集合的内容进行总结、分类、聚类、关联分析,
以及利用文档进行趋势预测等。
文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或
解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本
总结在有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要
给出文档的摘要。但目前,绝大部分搜索引擎采用的方法是简单地截取文档的前
几行。
文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个类
别并将其归到该类别中。它是一种典型的有监督的机器学习问题,一般分为训练
和分类两个阶段。在训练阶段,先把一组预先分类过的文档作为训练集,然后对
训练集进行分析得出分类模式;在分类阶段,根据得到的分类模式将文本分到合
适的类别中。在分类中分类的主题类别是事先确定的。许多分类算法都在文本分
类器中得到了应用,如贝叶斯分类算法、k-最临近分类算法、神经网络、遗传算
法、粗糙集算法、决策树以及混合算法。国内外关于文本分类的文献比较多,对
文本分类的研究也比较成熟。Apte用决策树技术开发了分类器;Yang构造了一种
邻近算法的分类器;Cohen设计了一种基于权重更新的休眠专家算法;复旦大学的
黄萱箐等[3]设计了独立于语种的文本分类器。文本分类可以应用到很多方面,例如
垃圾邮件的判定、词性标注、词义排歧、新闻出版物刊物栏目的分类等。
目前,文本分类的算法有很多种,比较常用的有TFIDFNalve Bayes等方法。
文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,它的目
标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而
不同簇间的相似度尽可能地小。Hearst等人的研究己经证明了“聚类假设”,即与
用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。
因此,我们可以利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户
只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。目前,有多种文
WEB 文本分类的实验研究
4
本聚类算法,大致可以分为两种类型:以G-HAC等算法为代表的层次凝聚法,以
k-means等算法为代表的平面划分法。
关联分析是指从文档集合中找出不同词语之间的关系。
Brin提出了一种从大量
文档中发现一对词语出现模式的算法,并用来在Web上寻找作者和书名的出现模
式,从而发现了数千本在Amazon网站上找不到的新书籍。Wang等人以Web上的电
影介绍作为测试文档,通过使用OEM(Object Exchange Model)模型从这些半结构化
的页面中抽取词语项,进而得到一些关于电影名称、导演、演员、编剧的出现模
[4]
分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻
的情况或将来的取值趋势。Feldman等人使用多种分布模型对路透社的两万多篇新
闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了
一些有趣的趋势。
Wtlthrich等人通过分析Web上出版的权威性经济文章,对每天聚
类分析及其在文本挖掘中的应用的股票市场指数进行预测,取得了良好的效果。
§1.3 文本聚类
聚类和分类同是数据挖掘的重要内容。一般来讲,聚类是一种无监督学习,
而分类属于有监督学习。分类过程需要有训练集而聚类不需要.
分类作为有监督学习,一般需要有一个训练样本数据集作为输入。训练集由
一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)的值
组成的特征向量,除了这些外,训练样本还有一个类别标记。主要分类方法包括
基于决策树的方法[5, 6, 7]、统计方法[8],粗糙集[9]等。
聚类也称为无监督分类,不需要训练集。聚类是把一组个体按照相似性划分为
若干类别。“物以类聚,人以群分”说的就是这个道理。譬如人们将生物分为动
物和植物,又根据不同的化学性质将各种元素分为不同的类别,比如卤族元素、
惰性气体等等,进而总结出元素周期律;在社会学中,人们还根据不同的信仰划分
出不同的党派、宗教等[10]
通过适当聚类,事物更便于研究,事物的内部规律才可能为人类所掌握。聚
类的目标是使得属于同一类别的个体之间的距离尽可能的小而不同类别上的个体
间的距离尽可能的大。聚类与分类的根本区别在于:分类时需要事先知道分类所依
据的属性值,而聚类是要找到这个分类属性值汇[11]。聚类方法包括统计方法[12,13]
机器学习方法[14,15]以及数据挖掘方法[16,17,18]等。
文本聚类是一种有效的文本挖掘方法,能从大量文本数据中发现潜在的知识
第一章绪论
5
和规律,它既是一个知识获取技术,也是一种文本处理过程。本文在聚类分析的
基础上对文本聚类进行深入的研究。下面分几个方面来探讨一下文本聚类研究的
意义。
(1)文本的聚类处理是文本有效管理的基础
文本在Internet上是信息资源的一个主要形式,面对这样一个信息海洋,人们
往往会陷入窘迫的境地:一方面收到太多的信息无从选择和消化,淹没在繁杂的信
息中;另一方面是信息迷失,人们难于找到自己真正所需的信息。因此,能够快速
高效地获取所需要的信息是每个人迫切要求,因而对大量的信息自动地提取其概
念空间,提供给人一个清晰的框架,帮助人们进行信息的检索和分类则显得将必
不可少。围绕文本信息这一资源开展的各种学术研究和业界应用非常活跃,如今
年出现的各种Internet搜索引擎、数字图书馆、电子商务等,这些领域的研究者在
进行信息检索和分类的研究上取得了令人可喜的进展,但仍然存在着许多有待解
决的问题,即处理效果不能令人满意,在相当一定的程度上,人为地干预成分占
的比较大。需要将数据挖掘技术引入文本的检索和分类领域。而文本聚类作为文
本挖掘的基础工作将尤为显得重要。
(2)文本聚类是文本挖掘的自身需要
所谓的文本挖掘就是以文本作为数据的处理单元,从文本无序性、多样性、
广泛性中找出可以利用的、有一定关系的、作为信息指导性的潜在模式的过程。
而在这个过程中,必然要将纷繁冗杂的文本信息按照某种特定的方式有序地排列。
其中也不乏有一个体系结构存在,这个层次结构作为类别的合理展示必不可少。
而且,利用计算机对海量的文本聚类及类别标识,是文本挖掘自身的需要,为进
一步进行其他途径的挖掘提供了很好的利用效果。
(3)文本聚类的有效标识— 海量Internet信息检索的有效手段
信息检索是指从大量的文档集合中找到与查询请求相关的、恰当数目的文档
子集。要使检索的结果准确而且精确,就需要对检索的对象进行准确分析,在进
行抽象的过程中起到界定范围的作用;而目前的网上信息检索却远不能达到这种
效果,经常是搜索出成千上万条纪录,远没有达到准而精的效果。因此要对网页
做一个适当而全面的类归并,这不但为使用者提供了方便,而且还有利于信息资
源的合理存储。现在的网页大都是人工的进行归类,面临浩瀚的信息海洋,这样
下去必将耗费大量的人力资源。况且人不是机器,长期从事单一而冗杂的事件,
必将导致错误的出现。利用机器自动地从事这方面任务已经成为迫切的需要。
WEB 文本分类的实验研究
6
§1.4 论文内容的安排
目前,国内外对文本聚类的研究主要集中在文本特征的提取、聚类算法的提
出、对聚类结果的评价和聚类结果的表示。本文主要研究将五类已知类别的文档
混合到一起,利用k-means聚类算法进行聚类,聚类后人工进行类别标识,看会得
到怎样的类别。
本文首先对数据挖掘中的聚类分析做了深入的理论研究,以数学的形式表示
和讨论了聚类分析中样本类型、样本相似度测量、类的定义等基本概念,分析了
五种常用的聚类算法。随后对文本聚类做了研究,讨论了将无结构的文本数据转
化为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类算
法。最后,运用K-means文本聚类算法进行实验。
全文共分六章,文章整体结构以及各章节内容如下:
第一章绪论介绍了关于文本挖掘与文本聚类的一些背景知识,阐述了此研
究课题的必要性。
第二章论述了聚类分析及其基本概念。
第三章分析和比较了几种常用的聚类算法。
第四章研究了文本聚类的相关问题和技术,讨论了将无结构的文本数据转化
为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类法。
第五章运用k-means聚类算法对混合文本进行分类,并人工进行类别标识,看
会得到怎样的类别,并作分析。
第六章回顾并总结了全文。
摘要:

第一章绪论1第一章绪论§1.1课题背景与意义近年来数据挖掘引起了广泛的关注,一般说到数据挖掘,我们很容易联想到数据库中知识的提取。由于电子形式的信息量的飞速增长,如电子出版物,电子邮件,Web页面(它可被视为一个巨大的互联的动态文本数据库)等,文本数据库得到迅速的发展。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要。在如今这个信息激增的年代,网上的搜索引擎动辄返回成千上万条相关的检索结果,由于大量的信息是按文本方式存在的,用户需要有关的工具完成不同文档的比较,以及文档重要性和相关性排列,或找出多文档的模式和趋势。怎样在浩如烟海的信息中找出真正自己感兴趣的话题就必须进行文本挖掘,文本...

展开>> 收起<<
WEB文本分类的实验研究.pdf

共60页,预览6页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:60 页 大小:1.01MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 60
客服
关注