一种基于FP算法改进的多层次关联规则数据挖掘算法
VIP免费
一种基于 FP 算法改进的多层次关联规则数据挖掘算法
作者
(单位, 省市 邮编)
摘 要:针对 FP 算法的缺陷,将 OLAP 技术和 Apriori 关联规则相结合,提出了一种针对
FP 算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上 ,
给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。
关键词:算法改进;多层次;关联规则;数据挖掘
1 引言
众所周知,在实际进行空间数据库和属性数据库设计时,为优化设计,将空间数据库
按照地物的类型分成不同的数据层,如道路层,建筑物层等;对属性数据库常常依据范式
理论,将其分解为若干通过关键字、外关键字或其他属性相互关联的若干张表的有机组合,
这导致了许多空间数据被分别存放在不同层中,而其属性被分别放在不同的表中。挖掘这
些表中蕴藏的知识和信息,显然有重要的理论和实践意义。在许多应用场合,空间关联规
则的挖掘要求在多个数据层和表中进行。
对于关联规则算法,传统经典的关联规则Apriori 算法有许多不同的改进方法。可能产
生大量的候选集以及可能需要重复扫描数据库,是Apriori 算法的两大缺点。针对Apriori 算
法的固有缺陷,国外有学者提出了不产生候选挖掘频繁项集的方法—FP 算法。FP 对不同长
度的规则都有很好的适应性,同时在效率上较Apriori 算法有巨大的提高。许多应用,特别
是电子商务的应用中,在最低层或原始层的数据项之间,可能很难找出强关联规则和有趣
的购买模式。在多个概念层的项之间找有趣的关联比仅在原始层数据之间更容易,在较高
的概念层发现的强关联规则可能提供普遍意义的知识。因此,我们需要挖掘多层次的关联
规则。
2 基本理论
笔者研究了一种有效的多层次关联规则挖掘方法,这种方法把FP算法、OLAP技术和
Apriori关联规则挖掘算法结合起来。由于在方法中要涉及到数据仓库、OLAP、关联规则挖掘
等概念,所以下面先对这些概念进行简要的介绍。
数据仓库是面向主题的、稳定的、完整的、时变性的数据集合,数据仓库为决策支持提
供支持。为了进行有效的数据处理,数据仓库中的一部分必须预先计算,笔者把数据仓库
中预先计算的那部分称为数据立方体。
OLAP是由数据仓库提供的,用于以多层次,多维的形式来操作数据。OLAP的基本操作
包括:向上综合,向下考察,局部分析,旋转等。因此,联机分析处理的过程就是根据数
据分析的要求,从原始数据中构造各种数据立方体,并对立方体执行有关的操作,把结果
返回给用户的过程。
关联规则是数据间依赖关系的描述,是知识发现研究的重要内容。信息系统S 定义为四
元组
:
(U
,
A
,
V
,
f )
,
U 是对象集合,A = {a1
,
a2……
,
ap }是属性集合,V =
V1V∪2…… V∪p是属性的值域集合,f
:
U×A→V 定义对象的属性值。通常,属性是可分类的,
数据的分类层次(hierarchies) 表示了自底向上的概括(generalization) 和自顶向下的特殊化
(specification)。基于分类层次的关联规则挖掘算法主要包括:算法Cumulate 和Stratify,算法
摘要:
展开>>
收起<<
一种基于FP算法改进的多层次关联规则数据挖掘算法作者(单位,省市邮编)摘要:针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出了一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。关键词:算法改进;多层次;关联规则;数据挖掘1 引言众所周知,在实际进行空间数据库和属性数据库设计时,为优化设计,将空间数据库按照地物的类型分成不同的数据层,如道路层,建筑物层等;对属性数据库常常依据范式理论,将其分解为若干通过关键字、外关键字或其他属性相互关联的若干张表的有机组合,这...
相关推荐
作者:李佳
分类:高等教育资料
价格:15积分
属性:4 页
大小:33KB
格式:DOC
时间:2024-09-26