关联规则挖掘技术若干问题研究

VIP免费
3.0 牛悦 2024-11-19 4 4 3.09MB 81 页 15积分
侵权投诉
摘 要
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提
取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被
信息产业界认为是数据库系统最重要的前沿之一,是信息产业界最有前途的交叉
学科。
关联规则是数据挖掘中一个重要的研究内容。本文对数据挖掘技术尤其是关
联规则挖掘技术进行了系统、深入地分析和研究,并将其投入到实际应用中。主
要包括以下一些内容:
首先对数据挖掘技术进行了简要的回顾,在提出关联规则挖掘基本概念的基
础上,对关联规则挖掘进行了详细地分类、归纳和总结。另对关联规则挖掘技术
的国内外研究现状和当前的研究热点进行了归纳和总结,为本文的全面展开奠定
了基础。
接着重点讨论了关联规则挖掘算法的两个相对独立的过程:频繁项集挖掘过
程与关联规则产生过程。针对用户经过一次关联规则挖掘后对自己找出的关联规
则并不满意,转而再去进行一遍又一遍的挖掘,直到获得满意的效果的现象,本
文在 FP-Growth 算法的基础上提出了基于支持度变化的 FP-Growth 算法,算法利
用前次的挖掘结果进行再挖掘,从而节省挖掘时间。针对关联规则产生算法,本
文在 FAS 算法的基础上提出了改进算法 IFAS 算法,它通过降低访问频繁项集集合
的次数,减少 I/O 吞吐,从而提升关联规则产生的效率。
然后将数据挖掘技术应用到教学管理系统中,对现有数据库中的学生成绩数
据实施挖掘,进行课程相关性分析。适应于当前数据源的特点,在己提出的改进
算法的基础上,对算法进行形式上的改变,通过数据准备、数据挖掘、结果描述
等方面详细描述设计过程。挖掘结果可供决策者更科学的设置课程,也为教学管
理工作增加了新的内容。
最后,针对挖掘的同时如何保护学生隐私的问题,对隐私保护的量化属性关
联规则挖掘进行了研究。首先介绍了基于数据扰动技术的隐私保护的关联规则挖
掘算法,并通过试验验证了基于数据扰动技术的隐私保护的关联规则挖掘技术在
一定的条件限制下可以应用于学生成绩数据的关联规则挖掘,证明了其技术可行
性。接着提出了 VSS-MASK 算法避免了原 MASK 算中事务数据库因采用横向结
构组织数据所带来的强稀疏性、通用性差等缺点,通过采用纵向结构组织数据,
和只提交变换后为‘1’的数据组成的数据表的方法,以避免因大量 0值的存在而
造成的稀疏性,从而提升算法中数据扫描的效率。
关键词:数据挖掘 关联规则 增量更新 隐私保护
ABSTRACT
Datamining is the process of abstraction unaware, potential and usefulin
formation and knowledge from plentiful, in complete, noisy, fuzzy and stochastic data,
which is deemed to one of a foreland of datamining system and a promising
cross-subject. Association rule is one of more important role in abstraction association
rules. This dissertation systematically and deeply studies and analyses the datamining
technique, especially the one for association rules, further more appliesit to
practice.The main contents are listed as follows.
At first, the appearance of the datamining technique is reviewed in brief. Based on
the basic concepts of datamining, this dissertation not only classifies and summarizes
the findable patterns of datamining in detail, but also studies architecture structure and
running process of datamining In succession, the dissertation summarizes and studies
the current status of the datamining technique in our native country and overseas.All of
the above become the basis for this dissertation.
Then, we discussed two relativelyin dependent processes of the Association Rule
algorithm with emphasis: the processe of generating Itemsets and the processe of
generating association rules. In view of phenomenon that users were unsatisfied with
the result of the previously datamining, we discussed the FP-Growth algorithm of
based on support changed, which carried on using the recently result to find new
itemsets, so it can saved the mining time. About the generating association rules, this
article proposed the IFAS algorithm which based on the FAS algorithm, it through
reduces the times of visiting the Itensets to reduces the I/O turnover, thus the
promotion rules production efficiency.
Then next, it applies the datamining to education management system, and
expects to derive courses correlations by analyzing the students' score database.
According to the characteristic of the data source, it changes the old format of the
algorithm and describesthe designing process detailedly from four aspects, named data
preprocessing, datamining, result description and pattern evaluation. It meets the need
of the reform of the credit system and provides a scientific basis for college
management and decision-making.
At last, in view of phenomenon that how to protect the privacy, this aticle
discussed the privacy-preserving quantitative association rule mining algorithm. This
atricle emphatically introduced the privacy-preserving quantitative association rule
mining algorithm which based on the data perturbation technology, then proved that it
could be supposed to use in the course relation minging under the certain condition
limit.
Key Word: data mining, association rule, incrematal updating
frequent itemsets, privacy-preserving
目 录
中文摘要
ABSTRACT
第一章 .............................................................................................................1
§1.1 课题研究的目的和意义 .................................................................................1
§1.2 相关技术现状 .................................................................................................2
§1.3 本文的主要工作 .............................................................................................5
第二章 关联规则挖掘技术简介 .................................................................................7
§2.1 关联规则的基本概念和问题描述 .................................................................7
§2.2 关联规则挖掘算法 .........................................................................................7
§2.2.1 算法分类 ........................................................................................…..8
§2.2.2 Apriori 典型算法 .................................................................................9
§2.2.3 FP-Growth 挖掘算法 .........................................................................13
§2.2.4 关联规则产生算法 ............................................................................15
§2.3 量化属性关联规则挖掘 ...............................................................................16
第三章 基于支持度变化的 FP-Growth 算法 ...........................................................18
§3.1 相关概念与问题描述 ...................................................................................18
§3.2 FIUA1 算法 .................................................................................................. 20
§3.3 基于最小支持度变化的 FP-Growth 算法 ...................................................22
§3.4 算法分析与试验 ...........................................................................................25
§3.5 本章小结 .......................................................................................................29
第四章 快速关联规则产生算法 ...............................................................................30
§4.1 相关概念与问题描述 ...................................................................................30
§4.2 快速关联规则产生算法 FAS...................................................................... 30
§4.3 IFAS 算法 ..................................................................................................... 32
§4.4 算法分析与试验 ...........................................................................................35
§4.5 本章小结 .......................................................................................................38
第五章 关联规则挖掘在课程相关性分析中的应用研究 .......................................39
§5.1 数据挖掘系统架构 .......................................................................................39
§5.2 相关技术与工具介绍 ...................................................................................41
§5.3 关联规则挖掘系统的实现 ...........................................................................43
§5.3.1 数据准备 ............................................................................................43
§5.3.2 挖掘算法的选择 ................................................................................47
§5.3.3 挖掘结果的表述 ................................................................................49
§5.4 本章小结 .......................................................................................................51
第六章 面向隐私保护的关联规则挖掘研究 ...........................................................52
§6.1 相关概念与问题描述 ...................................................................................52
§6.2 隐私保护的关联规则挖掘算法 ...................................................................53
§6.2.1 基于随机响应技术的隐私保护关联规则挖掘算法 ........................54
§6.2.2 保护隐私的量化关联规则挖掘方法 ................................................56
§6.3 试验系统与结果分析 ...................................................................................61
§6.4 本章小结 .......................................................................................................64
第七章 隐私保护关联规则挖掘的一种改进方法 ...................................................65
§7.1 相关概念与问题描述 ...................................................................................65
§7.2 算法改进思路 ...............................................................................................65
§7.3 VSS-MASK 算法......................................................................................... 67
§7.4 试验与结果 ...................................................................................................68
§7.5 结论 ...............................................................................................................70
第八章 结束语 ...........................................................................................................71
§8.1 总结 ...............................................................................................................71
§8.2 未来研究方向 ...............................................................................................71
参考文献 .......................................................................................................................73
在读期间公开发表的论文和承担科研项目及取得成果............................................77
.......................................................................................................................78
第一章 绪论
1
第一章 绪 论
§1.1 课题研究的目的和意义
关联规则挖掘较多地应用于商业系统,用于发现交易数据中不同商品(项)
之间的联系,这些规则找出顾客的购买行为模式,如购买了某一商品对其它商品
的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式
对用户进行分类。本文旨在对教育领域的数据挖掘进行探索性研究。
在教育系统中,特别是在各级各类学校中,学校的数据库中存贮着大量的教
育教学信息,其中一部分和教学有关:如学校的开课排课情况、任课教师情况等,
另一部分是和学生有关的信息:如学生的基本情况、家庭背景、身体状况、学生
的历年的考试、测验成绩等。特别是最近几年来随着教育信息化的推进、学校数
据库的内容大大增加,学校几乎实现了无纸化管理,所有的信息几乎都能在电脑
上找到,学校数据库的内容已经相当的完整。但是这些数据很少被开发利用,使
得隐藏着大量教育信息的历史数据没有被很好的利用。如挖掘隐藏在这些数据中
的教育规律、学生的培养模式、学生学课之间的差异性和相关性规律。另一方面,
在教育系统中存在着一些缺少依据的说法:如数学成绩好的同学物理成绩也一定
很好,或数学成绩好的同学其他的理科一定很好。如钢琴弹得很好的同学,他的
成绩一定不会差。又如父母是高学历的,孩子成绩一般不会差等。在一定的条件
下,这些说法因其基本与事实一致而被广泛接受,但这些命题缺少理论的和实验
的依据。这些说法完全可以利用现在己经拥有的大量的数据,对其进行数据挖掘,
来证实某些命题,或说明某些说法不能成立,或者更确切地说明其支持度和可信
度。
从大量的教育信息中挖掘出的正确的、可靠的、可信的关联规则对教育系统
是相当重要的,对教育教学改革具有指导性的意义。学校可以利用关联规则所揭
示的学生在学习中学科之间的相关性,适当组合学科课程,使相关学科互相促进
共同提高;利用关联规则发现的学生培养模式,合理设计课程开设的次序,符合
学生智力发展规律;利用学课的相关性、知识的相关性、学生学习兴趣的可迁移
性,在活动课中组织跨学科的活动,扩大学生在学习中学科之间的相关性和相关
程度,引导学生从强势学科入手,提高相对较弱的学科,最终使学生在学业上均
衡发展。
课题通过数据挖掘技术分析成绩数据,进行成绩关联规则分析专题相关关键
技术的研究,目的是在汲取别人经验的前提下,对数据挖掘理论尤其是关联规则
在高校教学管理系统中的应用进行研究,具有一定的理论与应用价值。
摘要:

摘要数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业界最有前途的交叉学科。关联规则是数据挖掘中一个重要的研究内容。本文对数据挖掘技术尤其是关联规则挖掘技术进行了系统、深入地分析和研究,并将其投入到实际应用中。主要包括以下一些内容:首先对数据挖掘技术进行了简要的回顾,在提出关联规则挖掘基本概念的基础上,对关联规则挖掘进行了详细地分类、归纳和总结。另对关联规则挖掘技术的国内外研究现状和当前的研究热点进行了归纳和总结,为本文的全面展开奠定了基础。接着重点讨论了...

展开>> 收起<<
关联规则挖掘技术若干问题研究.pdf

共81页,预览9页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:81 页 大小:3.09MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 81
客服
关注