Web主题聚类与管理研究
VIP免费
摘 要
随着信息技术和 INTERNET 的迅速发展,网络资源不断增加,如何在众多的
资源中寻找符合自己要求的信息,是目前用户遇到的难题。面对这种情况,Web
主题聚类技术随之产生。它是对 Web 上分布式的信息资源进行知识抽取,从而发
现隐藏于数据后面的规律。Web 主题聚类已经成为当前国际上研究上的一个热点,
Web 主题聚类在信息检索、知识获取等领域有着广泛的应用。本文对 Web 主题聚
类中的文本预处理、聚类算法的划分优化、聚类管理部分进行了研究。具体如下:
1)研究了聚类系统中文本预处理问题,采用通用词的模式作为向量空间模型
的数据基础,定义了文本表示模型;对中文分词后的信息进行噪声处理;对 Web
页面,采用了基于句子权重和基于文档结构的计算方法。
2)探讨了基于划分算法的初始聚类中心选择机制,针对划分算法中聚类中心
的选择对于聚类结果影响十分重要特点,采用了基于密度算法的二次划分算法;
经过分析,二次划分算法比单一的划分算法在聚类效果上有着显著的提高。
3)在分层模式的架构下,实现了聚类系统的管理。
关键字:文档聚类 K-Means 聚类中心
ABSTRACT
With the development of information technology and Internet, the resource on the
network has been increased. It’s important for user to retrieve information in numerous
resources. In this case, web Theme clustering technology emerges. It can extract
knowledge from the distributed information resources on the web in order to discover
the law behind a large amount of data.Web clustering has become the current
international hot spot. Web subject clustering used in information retrieval and
knowledge acquisition also has widely used. In this paper, I will do research on the text
of Web topic clustering pre-processing and clustering algorithms into optimization.
The details are as follows:
1)The pre-processing of clustering system studied the pretreatment part of
clustering system. A Text model is defined by a common word model; Chinese word
segmentation was conducted before the noise processing; In the removal of invalid data,
we applied a calculating method based on the weight of sentence and document
structure.
2)Division algorithm based on the selection of the initial cluster center is discussed.
We used the second partition algorithm base on density-based algorithm. Through
analysis, the second division algorithm division algorithms have a significant
improvement compared to a single clustering algorithm.
3)We accomplish the management of cluster systems in different parts of the
system architecture,
Keywords: Document clustering, K-Means, cluster center
目录
中文摘要
ABSTRACT
第一章 绪论 .......................................................... 1
§1.1 课题目的和意义 ............................................... 1
§1.2 课题研究内容 ................................................. 2
§1.3 本文组织结构 ................................................. 3
第二章 WEB 文本聚类关键技术 .......................................... 5
§2.1 概述 ......................................................... 5
§2.2 数据挖掘 ..................................................... 5
§2.2.1 文本挖掘的定义 ........................................... 6
§2.2.2 Web 主题聚类的定义 ........................................ 7
§2.3 WEB 主题挖掘相关技术 ..........................................7
§2.3.1 特征选择 ................................................. 7
§2.3.2 特征权重估算 ............................................. 8
§2.4 相关聚类算法 ..................................................9
§2.4.1 划分聚类 ................................................. 9
§2.4.2 层次聚类 ................................................ 10
§2.4.3 基于密度的方法 .......................................... 10
§2.4.4 基于网格的方法 .......................................... 11
第三章 文本预处理 ................................................... 12
§3.1 概论 ........................................................ 12
§3.2 文本表示模型 ................................................ 13
§3.2.1 词 ...................................................... 13
§3.2.2 N-Gram .................................................. 13
§3.2.3 词组 .................................................... 13
§3.2.4 概念 .................................................... 14
§3.3 中文分词 .................................................... 14
§3.4 噪声处理 .....................................................15
§3.5 向量空间模型 .................................................16
§3.6 维度规约 .................................................... 17
§3.6.1 维灾 .................................................... 17
§3.6.2 选维 .................................................... 17
§3.6.3 降维 .................................................... 18
§3.7 基于 WEB 样式的特征选择 ...................................... 18
§3.7.1 基于文档结构进行特征选择 ................................ 18
§3.7.2 基于句子权重进行特征选择 ................................ 19
§3.7.3 基于加权的 TF -IDF 算法 .................................. 19
第四章 改进的基于密度的聚类算法 ..................................... 21
§4.1 WEB 文本分类 .................................................21
§4.1.1 分类过程模型 ............................................ 21
§4.2 文本分类算法 .................................................21
§4.2.1 朴素贝叶斯算法 ......................................... 22
§4.2.2 决策树 .................................................. 22
§4.2.3 k-最近邻分类 ........................................... 23
§4.2.4 簇的划分 ................................................23
§4.3 基于划分的聚类算法 .......................................... 26
§4.3.1 基于划分的聚类算法 ..................................... 26
§4.3.2 K-Means 算法分析 ....................................... 27
§4.4 基于密度的算法 .............................................. 28
§4.4.1 基于划分的聚类算法 ..................................... 28
§4.4.2 二次划分的聚类算法 ..................................... 29
第五章 聚类管理研究 ................................................. 34
§5.1 概述 ........................................................ 34
§5.2 聚类管理系统简介 .............................................34
§5.3WEB 信息采集器的设计 ..........................................35
§5.3.1 URL 队列处理器 ..........................................36
§5.3.2 Web 网页采集器 ..........................................37
§5.3.3 Web 网页过滤器 ..........................................40
§5.4 WEB 主题特征提取 .............................................40
§5.4.1 主体特征相关知识 ........................................ 40
§5.4.2 中文切词处理器 .......................................... 41
§5.4.3 基于页面结构的文本块 .................................... 43
§5.4.4 构建文档结构图 .......................................... 44
§5.4.5 网页的特征化表示 ........................................ 45
§5.4.6 基于结构的文本块特征统计 ................................ 46
§5.4.7 基于奇异值分解的特征抽取 ................................ 47
§5.4.8 文档间向量空间模型计算 .................................. 48
§5.4.9 二次聚类算法的比较 ...................................... 49
第六章 总结与展望 ................................................... 52
§6.1 结论 .........................................................52
§6.2 未来展望 .................................................... 52
参考文献 ............................................................ 53
在读期间公开发表的论文和承担科研项目及取得成果 ...................... 55
致谢 ............................................................. 56
第一章 绪论
1
第一章 绪论
§1.1 课题目的和意义
随着 Internet 技术的发展,特别是网络技术和科学的迅速普及,Web 上
的数据资源得到了迅速的发展。Internet 上有多样,海量的数据,包括大量
的文档,视频,图片,天气数据,科学计算结果等,充分体现了 Web 资源
的丰富性。另一方面,多样性的资源也正是 Web 资源非结构化,混沌形成
的根本原因。
Web 挖掘是数据挖掘在 Web 领域上的应用,它利用数据挖掘技术从与
WWW 相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及
Web 技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
根据 Web 挖掘对象的特性不同,目前研究的 Web 挖掘对象可以分成以下三
类:
Web 内容挖掘(Web content mining)
,Web 结构挖掘(Web structure mining)
和Web 使用挖掘(Web usage mining)。
Web 内容挖掘是对已经要对其进行处理的 Web 内容进行挖掘,从当前
的被挖掘主题中抽取有效知识,从而达到 Web 资源检索的目的。Web 内容
挖掘针对的对象主要是半结构化的数据。所谓半结构化的数据是相对于传统
型关系数据库中具有关系范式逻辑的数据来说的,具体来说是包含一些结构
信息但并不是十分完整的数据结构。半结构化数据则是指那些具有隐含结构
或结构不严谨的数据,如何在这些数据上有效地寻找到有用信息,是知识发现
领域的一个新课题。在 Web 页面中,HTML 文档就是上面所说的数据结构
容器,在 HTML 内容页面上有着大量的文本信息和多媒体信息。
目前,Web 内容挖掘主要集中在 Web 文本挖掘和 Web 多媒体挖掘两个
领域上。按照文本的结构,可以将 Web 内容挖掘划分为结构化的文本挖掘,
半结构 化的 文本挖掘 和非 结构化的 文本 挖掘。按 照实 现方法, 可以 将 Web
内容挖掘划分为信息检索方面的挖掘,数据库方面的挖掘和代理方面的挖
掘。
Web 文本挖掘指的是针对非结构化文件进行的基于知识发现的 Web 聚
类。Web 文本挖掘在是建立在统计学,语义分析学的基础上,结合机器学习
和信息检索方面的技术,从内容丰富的 Internet 资源上进行未知的,可以利
Web 主题聚类与管理研究
2
用的信息的挖掘的研究。
Web 主题聚类[1]是目前文本数据挖掘领域的研究热点之一。将物理或抽
象对象集合划分成相似的对象类的过程称为聚类。聚类的目的是使同一个组
内的数据对象具有较高的相似度。
在Web 主题提取技术领域,国内外已进行了大量的研究。基于网页划分
成内容块的算法,其主要思想是以页面中 Table,Div 等作为划分处理元素将页
面分割为块。对于同一 Web 模板生成的 Web 对象,该算法按照差异性部分
提取各个对象的特征。基于模板与机器识别相结合的 Web 信息自动提取算
法采用一组启发式规则自动识别 HTML 文本中不同属性信息之间的分隔符,
再把它们配置到模板中,然后根据模板分析相同类型的网页。
将物理或抽象对象的集合分成相似对象类的过程称为聚类。与传统的分
类方法不同的是,聚类对象的类标识符是未知的,这在大型数据库以及知识
系统是十分普遍的。聚类的目的是使同一个组内的数据对象具有较高的相似
度。聚类分析是数据挖掘和知识发现的重要工具。其中的文本聚类是模式识
别、机器学习、统计学和信息检索技术相互结合和发展的产物。目前来说,
较为常用的文本分类算法[2] 包括支持向量机(Support Vector
Machine ,SVM),K 近邻法( K2Nearest Neighbour , KNN) ,贝叶斯方法(Bayes) ,
神 经 网 络 法 (Neural Network ,NNet) , 线 性 最 小 二 乘 法 (Linear Least Squares
Fit ,LLSF) 等。
§1.2 课题研究内容
Web 页面是 Internet 发布信息最常见的代理,用户为了得到对自己有用
途的资源和知识,也许要花费几个小时、甚至需要更长的时间从庞大的知识
库中去搜索结果 。如何快速准确地从巨大的信息资源库中找到用户所需要
的信息成为困扰网络用户的一大难题 。虽然现在出现了形形色色的搜索引
擎,但是这种基于关键字的搜索方法,得到的只是基于单词的文本检索结果,
而且搜索引擎所得到的搜索结果,只是对于搜索结果简单的罗列,而在检索
结果的查全率,查准率方面都不尽人意,而且不能发现 Web 资源背后所体
现出来的问题。
目 前 处 理 Internet 上信息资源比较常见的搜索引擎网站,诸如
Google,Baidu,Yahoo 等,在基于 Web 结构挖掘的基础上,对信息资源超链接
结构,页面内部结构化分析以及 URL 路径等方面的分析,从而找到隐藏在
摘要:
展开>>
收起<<
摘要随着信息技术和INTERNET的迅速发展,网络资源不断增加,如何在众多的资源中寻找符合自己要求的信息,是目前用户遇到的难题。面对这种情况,Web主题聚类技术随之产生。它是对Web上分布式的信息资源进行知识抽取,从而发现隐藏于数据后面的规律。Web主题聚类已经成为当前国际上研究上的一个热点,Web主题聚类在信息检索、知识获取等领域有着广泛的应用。本文对Web主题聚类中的文本预处理、聚类算法的划分优化、聚类管理部分进行了研究。具体如下:1)研究了聚类系统中文本预处理问题,采用通用词的模式作为向量空间模型的数据基础,定义了文本表示模型;对中文分词后的信息进行噪声处理;对Web页面,采用了基于句子...
相关推荐
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 7
-
VIP免费2025-01-09 6
-
VIP免费2025-01-09 7
-
VIP免费2025-01-09 7
-
VIP免费2025-01-09 6
作者:侯斌
分类:高等教育资料
价格:15积分
属性:58 页
大小:2.92MB
格式:PDF
时间:2024-11-19