模糊关联规则增量式更新挖掘算法

VIP免费
3.0 赵德峰 2024-11-19 4 4 801.72KB 71 页 15积分
侵权投诉
I
目 录
中文摘要
ABSTRACT
第一章 绪论 .......................................................... 1
§1.1 研究背景 .................................................... 1
§1.2 国内外研究现状 .............................................. 2
§1.2.1 数据挖掘的研究现状 .................................... 2
§1.2.2 关联规则挖掘的研究现状 ................................ 3
§1.3 本论文主要工作与组织结构 .................................... 4
§1.3.1 本论文的主要工作 ...................................... 4
§1.3.2 论文的组织结构 ........................................ 5
§1.4 本章小结 .................................................... 5
第二章 数据挖掘 ...................................................... 6
§2.1 数据挖掘定义 ................................................ 6
§2.2 数据挖掘的基本步骤 .......................................... 6
§2.3 数据挖掘系统 ................................................ 8
§2.4 数据挖掘的任务 ............................................. 10
§2.5 数据挖掘的应用及发展方向 ................................... 13
§2.6 本章小结 ................................................... 15
第三章 关联规则 ..................................................... 16
§3.1 关联规则的基本概念 ......................................... 16
§3.2 关联规则的分类 ............................................. 17
§3.3 布尔型关联规则 ............................................ 17
§3.3.1 Apriori 算法 .......................................... 17
§3.3.2 Apriori 算法的延伸 .................................... 19
§3.4 数量型关联规则 ............................................ 24
§3.5 本章小结 ................................................... 25
第四章 模糊数学 ..................................................... 26
§4.1 模糊数学的概念 ............................................. 26
§4.2 模糊集合及其运算 ........................................... 27
§4.3 模糊关系与聚类 ............................................. 29
§4.3.1 模糊关系及其运算 ..................................... 29
II
§4.3.2 模糊关系与聚类 ....................................... 30
§4.4 本章小结 ................................................... 31
第五章 模糊关联规则 ................................................. 33
§5.1 模糊 C均值聚类 ............................................ 33
§5.2 模糊关联规则的挖掘算法 ..................................... 34
§5.3 本章小结 ................................................... 36
第六章 模糊关联规则增量式更新挖掘算法 ............................... 37
§6.1 增量式更新的关联规则挖掘问题的提出 ........................ 37
§6.2 增量式更新的模糊关联规则算法研究 ........................... 38
§6.3 几个预备定理 .............................................. 39
§6.4 对于挖掘效率的改进方法 ..................................... 40
§6.4.1 交易数据库合并 ....................................... 40
§6.4.2 哈希表 ............................................... 41
§6.5 增加记录的增量式更新模糊关联规则算法 ...................... 41
§6.5.1 算法的基本步骤 ....................................... 42
§6.5.2 算法的实现 ........................................... 43
§6.5.3 算法举例 ............................................. 45
§6.6 删除记录的增量式更新模糊关联规则算法 ...................... 50
§6.6.1 算法的基本步骤 ....................................... 51
§6.7 最小支持度改变的增量式更新模糊关联规则算法 ................ 52
§6.7.1 算法的基本步骤 ....................................... 52
§6.7.2 算法的实现 ........................................... 53
§6.7.3 举例说明 ............................................. 53
§6.9 本章小结 ................................................... 56
第七章 挖掘算法在上市公司财务分析中的应用 ........................... 57
§7.1 数据挖掘技术在财务分析中的应用 ............................ 57
§7.1.1 财务分析 ............................................. 57
§7.1.2 数据挖掘技术在财务分析中的应用 ....................... 57
§7.2 关联规则挖掘在公司财务分析中的应用 ........................ 58
§7.2.1 数据获取 ............................................. 58
§7.2.2 数据处理 ............................................. 59
§7.2.3 增量式更新挖掘算法在上市公司财务分析中的应用 ......... 62
§7.3 结果分析 .................................................. 63
III
§7.4 本章小结 ................................................... 64
第八章 总结与进一步工作 ............................................. 65
§8.1 总结 ....................................................... 65
§8.2 存在问题与进一步的工作 ..................................... 65
参考文献 ............................................................ 66
在读期间公开发表的论文和承担科研项目及取得成果 ...................... 69
............................................................. 70
第一章 绪论
1
第一章 绪论
§1.1 研究背景
现代社会是信息的社会,只有掌握信息,才能真正在竞争中领先。随着信息
化工具的增多,人们能够获得的信息飞速增加。其增长速度,已经远远地超出了
人们所能够承受的极限。因此可以认为,我们已经被淹没于信息的海洋中。数据
库的发明与迅速发展,极大的增加了我们处理信息的能力。但仍然远远不能达到
我们处理信息的要求。随着数据量的增多,我们对数据库的要求,已经不仅仅局
限与数据存取,而是希望其能够发现隐藏于数据中的知识,以便支持我们进行决
策。数据挖掘的出现实际上是基于对发现知识的渴求。数据挖掘 (Data Mining)就
是从大量的、不完全的数据中,提取隐含在其中的、人们事先不知道、但又是潜
在有用的信息和知识的过程。
二十世纪六十年代以来,数据库和信息技术从文件处理演化到功能更加强大
和复杂的数据库系统。到了二十世纪七十年代,数据库和信息技术进一步发展,
在层次模型和网状数据库系统模型的基础上,提出了更为先进的关系数据库系统。
同时还有相应的数据建模工具、索引和数据组织技术。数据库系统的用户,可以
更为方便的对数据库进行查询、优化、界面设计等工作。
到了二十世纪八十年代,数据库技术在关系模型的基础上又融入了各种新的
数据模型,如扩充关系模型、面向对象模型、对象-关系模型和演绎模型。新模型
的应用,使得数据库系统的研究领域,出现了更为丰富的扩展。数据库的应用领
域不仅仅局限于商业上的应用,而是出现了如空间上的(地理信息系统)、多媒体
的数据库系统以及应用于科学研究的数据类型的数据库系统。在八十年代末期,
Internet 的出现与快速发展,使得信息技术的应用快速发展,同时也使得数据量飞
速的增加,为数据库的发展提出了更加急迫的需求。
数据的丰富带来了对数据分析工具的需求。大量的数据被描述为“数据丰富、
但信息贫乏”。快速增长的海量数据,存放在大型数据库中,使得仅靠人自身力量
难以对其加以利用。这样的结果,使得收集的这些数据失去了存在的价值。决策
者或者说数据的利用者们,需要从这些数据中发现对他们的决策起到指导意义的
信息,如果不通过强有力的工具,那么决策者们做出的决策便不是通过数据得出
而是通过经验或者是直觉。对于这种分析工具的需求,使得数据挖掘技术最终出
现。
模糊关联规则增量式更新挖掘算法的研究与应
2
数据挖掘领域包含了多个研究方向。如特征化与区分、关联分析、分类与预
测、聚类分析、孤立点分析等等。这其中,关联规则Association Rule挖掘是发
现大量数据库中属性集之间的关联关系。随着大量数据的增加和存储,从数据库
中挖掘关联规则引起越来越多研究者的兴趣,关联规则已经成为数据库挖掘领域
中的重要研究方向,也是数据挖掘方向中,最为活跃且卓有成效的分支之一。
本文是基于这样一个背景下,来对关联规则挖掘进行了研究和应用工作。
§1.2 国内外研究现状
§1.2.1 数据挖掘的研究现状
数据挖掘作为一门新兴的研究领域,涉及到诸如机器学习、模式识别、统计
学、数据库、人工智能、数学和可视化技术等等众多学科,是一个多学科相互交
叉融合所形成的一个新兴的具有广泛应用前景的研究领域[1][2][3][4][5]
从数据库中发现知识Knowledge Discovery in Database, KDD一词首次出现
在 1989 年举行的第十一届国际联合人工智能学术会议上。1999 年,亚太地区在北
京召开的第三届 PAKDD 会议收到 158 篇论文,空前热烈。
IEEE Knowledge and
Data Engineering 会刊率先在 1993 年出版了 KDD 技术专刊。并行计算、计算机网
络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和
专刊讨论,甚至到了脍炙人口的程度。
Internet 上还有不少 KDD 电子出版物,其中以半月刊 Knowledge
Discovery Nuggets 最为权威。在网上还有许多自由论坛,DM Email Club 等。
DMKD 书籍,可以在任意一家计算机书店找到十多本。目前,世界上比较有影
SAS Enterprise MinerIBM Intelligent
MinerSGI 公司的 Set MinerSPSS 公司的 ClementineSybase 公司的 Warehouse
Studio
Rule Quest Research 公司的 See5还有 Cover Story
EXPLORA
Knowledge
Discovery WorkbenchDB MinerQuest 等。
与国外相比,国内对 KDD 的研究稍晚,没有形成整体力量。1993 年国家自然
科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞
相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算
技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究
所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数
据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中
第一章 绪论
3
科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南
京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识
发现以及 Web 数据挖掘。
最近,Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为未来三
到五年内将对工业产生深远影响的五大关键技术之首,并且还将并行处理体系和
数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近 Gartner
HPC 研究表明,随着数据捕获、传输和存储技术的快速发展,大型系统用户将更
多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创
建新的商业增长点。
§1.2.2 关联规则挖掘的研究现状
目前,国内外学者对于关联规则算法研究的主要工作有:
1) 多循环方式的挖掘算法。
多循环方式的挖掘算法是关联规则挖掘的基本方法。此类算法包括 Agrawal
等人提出的 AISApriori AprioriHybridPark 等人提出的 DHP 算法,Savasere
等人提出的分割(Partition算法,Mannila 提出的采样算法以及 Toivonen
的抽样算法 Sampling 等等。国内研究人员还提出了一些 Apriori 算法的改进算法等。
2) 并行挖掘算法。
目前已经提出的并行挖掘关联规则的算法有:
Agrawal 等人提出的 CD
Count
Distribution算法和由 Park 等人提出的 PDM 算法,虽然这些算法均是基于分布式
数据库的挖掘算法,但也适用于并行挖掘。
3) 增量式更新挖掘算法。
关联规则的增量更新问题主要包括两种情况:一是在给定的最小支持度和最
小置信度条件下,当数据库添加了新纪录后,如何生成数据库中的关联规则;二
是给定一个数据库,在最小支持度和最小置信度发生变化时,如何生成数据库中
的关联规则。国外的研究人员提出了 FUP 算法,FUP2 算法、DELI 算法和 UWEP
算法等,国内的冯玉才和冯剑琳提出了 IUA 算法和 PIUA 算法,还有其他研究人
员提出的一些改进算法,如 EIUA 算法、SFUA 算法和 IUAR 算法等。
4) 基于约束条件的关联规则挖掘。
基于约束条件的关联规则挖掘的主要目的就是发现更有趣、更实用、更特别
的关联规则。一个规则的有效与否最终取决于用户,因此给予约束条件的惯量规
则将用户的需求和系统更加紧密地结合起来。其中约束的内容包括:数据约束、
摘要:

I目录中文摘要ABSTRACT第一章绪论..........................................................1§1.1研究背景....................................................1§1.2国内外研究现状..............................................2§1.2.1数据挖掘的研究现状....................................2§1.2.2关联规则挖掘的研究现状................................3...

展开>> 收起<<
模糊关联规则增量式更新挖掘算法.pdf

共71页,预览8页

还剩页未读, 继续阅读

作者:赵德峰 分类:高等教育资料 价格:15积分 属性:71 页 大小:801.72KB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 71
客服
关注