基于粗糙集的数据挖掘方法的研究

VIP免费
3.0 牛悦 2024-11-19 4 4 1.03MB 58 页 15积分
侵权投诉
目录
基于粗糙集的数据挖掘方法的研究
Abstract
The data mining method based on Rough Sets is discussed in this paper ,which
includes getting attribute reduct by Genetic algorithm, rule extraction , comparison with
Id3 algorithm , and applications about Rough Sets method.
In attribute reduct by Genetic algorithm , design a fitness function based on reliable
degree of Rough Sets. Experiment which use data through UCI proves the algorithm
validity , How to set the parameter of algorithm is discussed.
In rule extraction , IADT algorithm is designed , which can get a minimal reduct or
relative minimal reduct and improve efficiency of rules.
By comparing with ID3 algorithm , the advantage of Routh Sets method can be
seen and it supports this valid method in Data mining’s applications from theory.
In applications, rule is extracted in data sets Zoo.In designing the analytic CRM,
some model are built by Rough Sets method.
Key words :Rough Sets , Genetic algorithm , Rule extraction , ID3, analytic
CRM
1
基于粗糙集的数据挖掘方法的研究
摘要
本文对基于粗糙集的数据挖掘方法进行了一定研究,主要讨论了传算
求粗糙集的属性约简、粗糙集的规则提取、与决策树 ID3 算法的比较以及粗糙集方
法在实际中的应用等问题。
遗传算法求属性约简中,基于依赖度设计了适应值数,对算法的有效
行了实验证明,并讨论了参数的设置。
规则提取中设计了 IADT 算法,避开了 NP 难题,可以找到最简或相对最简
规则,大大提高了规则的效率。
通过ID3 的比较,一步明确了粗糙集算法的优点,对数据挖掘实际应
采用有效的算法给予了理论支持。
在应用中,采用粗糙集算法提取了 Zoo 数据的规则。在分析型 CRM 的设计中
采用粗糙集算法设计了几个具体的模型。
关键词:粗糙集 遗传算法 规则提取 ID3 算法 分析型 CRM
2
目录
目 录
第一章 绪论..........................................................1
11 知识发现和数据挖掘..........................................................................................................1
12 粗糙集和数据挖掘..............................................................................................................1
13 论文研究的内容..................................................................................................................1
第二章 粗糙集理论基本概念和算法.....................................1
21 粗糙集的基本概念..............................................................................................................1
22 粗糙集属性约简算法分析..................................................................................................1
23 在数据挖掘中的流程........................................................................................................1
第三章 遗传算法求最佳约简...........................................1
31 遗传算法简单介绍..............................................................................................................1
32 基于依赖度的遗传算法......................................................................................................1
33 算法的深入讨论..................................................................................................................1
第四章 规则提取.....................................................1
41 问题的提出和传统的提取方法..........................................................................................1
42 基于属性重要性的决策树算法..........................................................................................1
43 不相容表的算法处理..........................................................................................................1
第五章 粗糙集理论和 ID3 算法的比较...................................1
51 ID3 算法和粗糙集理论的规则提取.................................................................................1
52 粗糙集和信息熵..................................................................................................................1
53 两种方法的比较..................................................................................................................1
第六章 基于粗糙集的数据挖掘方法的应用...............................1
61 提取 ZOO 中的规则............................................................................................................1
62 基于粗糙集的分析型 CRM 模型........................................................................................1
总结语...............................................................1
参考文献.............................................................1
附录.................................................................1
3
基于粗糙集的数据挖掘方法的研究
第一章 绪论
11 知识发现和数据挖掘
近几十年来,着数据库技术的成熟和数据应用的普别是进入九十
代,伴随着因特网(Internet)的出现和发展,展现在人们面前的已不是局限于本
部门,本单位和本行业的庞大数据库,而是浩瀚无的信息海,数据洪水正
人们滚滚涌来。当数据量极度增长时,如果没有效的方法,计算机及信息
术来提取有用信息和知识,人们也会感到面对信息洋像大海捞针一样手无
据估计,一个大型企业数据库中数据,只有百分之得到很好应用。这,相
于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Information poor
"数据关在牢笼中”(data in jail),(John Naisbett)惊呼“We are drowning
in informationbut starving for knowledge”
面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。
从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应了。
最近的 Gartner 报告了在35年内对将产生影响
五项关键技术,其中 KDD 和人工智能排名第一。时,这份报告将并行计算机
系结构研究和 KDD 今后 5年内公司该投资10 技术领域
1.1.1 发展历史
1989 811
上召开了KDD Workshop199119931994 年又KDD
讨论会。1995 年开都举办KDD 际会1997 年开KDD
自己杂志Knowledge Discovery and Data Mining1995 年以来,
在知识发现和数据挖掘方面的论文非常多,已成了门研究方向。
1.1.2 知识发现
知识发现KDD是从数据中发现有用知识的个过数据挖掘DM
KDD 过 程 中 的 一 个 特 定 步 门 算 法 从 数 据 取 模
patterns)。1996 年,FayyadPiatetsky Shapiror Smyth KDD[1]过程定义为
Knowledge discovery in databases is the nontrivial process of identifying
validnovelptentially usefuland ultimately understandable patterns in data..
从数据中出有效模非平有用的和
可理的。
KDD 过程是个步互连接反复进行人机交互的过程。具体包括
学习某个应用领域包括应用中的预先知识和目
建立数据集:选择一个数据集或在数据集的上聚焦
数据处理:除噪声或无关数据,去除空白数据考虑间顺序和数
变化等。
4
数据转换:找到数据的特,用维变换转换方法减少有效量的数
目或找到数据的不变式
定数据挖掘功能:决定数据挖掘的目的。
定数据挖掘算法:用 KDD 过程中的则,选择某个特定数据挖掘算法
(如汇总、分类、回归类、偏差分析等)用于搜索数据中的模
数据挖掘:搜索产生一个特定的感兴趣的模或一个特定的数据集。
解释解释某个发现的模,去掉多余的模转换某有用
的模,以使
发现知识:知识结合统中,得这知识的用或证明这
知识。用预先、可信的知识检查决知识中可矛盾
113 数据挖掘
所谓数据挖掘,是从数据库中隐含的、以前知的、具有在应用
的信息的过程。数据挖掘是 KDD 最核心的部分。数据挖掘与传统统计分析具不
的是数据挖掘使用的是基于发的方法,用模匹配算法决定数据
的重。而传统的统方法一定设之设的
在在一定程度应用范围当数据量大时,数挖掘相对统计
的优势就比较了,比如在计和发问题,数据挖掘并
完全排斥统计应用到数据挖掘当,比
回归间序列等等。数据挖掘是一个集统计工智能识别、计算机科学
器学体的数据统和究的重要
题,孕育大的业前的重要领域
数据挖掘算法的好坏将接影发现知识的好目前的研
集中在数据挖掘算法和应用是,有的者认数据挖掘和知
发现含义,表KDD/DM是一个的过程,通常包含多个相互联系
的步:明问题据,数据理、选择法,发现知识
知识评价知识的应用等系列程。实际人们往往格区分数
挖掘和数据库中的知识发现,者混淆使用。一领域称为 KDD,而
领域称为数据挖掘。本论文采用数据挖掘的概念,挖掘步骤图 1.1 所示
1.1
5
基于粗糙集的数据挖掘方法的研究
114 数据挖掘的目和相应算法[8,910]
数据挖掘采用基于发现的方法对海量的数据进行知发现或采掘,目的
隐含在数据中们不知识,从科学地辅决策。数据挖掘重
决的问题是发在数据中的知识,的行决策
持。数据挖掘的目和相应算法面给予简单介绍。
依赖关
计算依赖算法有关规则规则应用购物分析
商场超市行相关分析,比如则可以挖掘出啤酒中年
男子,有 80%的可能买尿布”这样出人意料而又现实的规则。
I={i1i2...im}是一组物品(一个商场物品上万)D
组事(称为事数据库)D中的务T是一组物品显然满足 T
I称事务T支持物品X,如果 X T规则是如下形式的一种:X Y
其中 XIYI且 X∩Y=I
  (1)称物品X具有大s的支持度,如果 D中有 s%支持物品X;
  (2)称规则 X Y 数据库 D中具有大s的支持度,如果物品
X∪Y 的支持度s;
  (3)称规则 X Y 数据库 D中具有大c的可信度,如果 D中支持
X中有 c%时也支持物品Y
规则一的算法采用 Aprio算法,外还Fp TreeDIC算法等。
展开来,多维规则,可以从不概念提取关规则。另外,关
则发现的可以用于序列发现。了具有有时间上
序列上的规
分类
分类在数据挖掘中是一项非常重要的任务,分类的目的是会一个分类函数
或分类模型(常常称作分类器)模型能把数据库中的数据映射到给定类别
中的一个。分类和回归都可用于的目的是从历史数据录中
出对给定数据的推广描述,从而来数据进行。和回归方法不
是,分类的出是离散的类别值,而回归出则是数值。
分类要有一个训练样本数据集作为入。训练集由一数据库
录或组构成,是一个由有关字段(属性或特征)成的特
量,训练样本有一个类别。一个具体样本的形式:
(v1v2...vn;c);其中 vi字段值,c类别。
分类方法有统计方法、器学习方法、神经方法、统计学习方法
等等。
统计方法包括贝叶斯法和参数法(学习或基于学习),对应的知
识表别函数和。机器学习方法包括决策树法和规则法,前
对应的表示为决策树或别树,后者则一般为产生式规则。决策树的算法
ID3 和其进算法 C4.5CART ChAID 算法。
6
摘要:

目录基于粗糙集的数据挖掘方法的研究AbstractThedataminingmethodbasedonRoughSetsisdiscussedinthispaper,whichincludesgettingattributereductbyGeneticalgorithm,ruleextraction,comparisonwithId3algorithm,andapplicationsaboutRoughSetsmethod.InattributereductbyGeneticalgorithm,designafitnessfunctionbasedonreliabledegreeofRoug...

展开>> 收起<<
基于粗糙集的数据挖掘方法的研究.doc

共58页,预览6页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:58 页 大小:1.03MB 格式:DOC 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 58
客服
关注