网络使用挖掘模型的设计与实现

VIP免费
3.0 赵德峰 2024-11-19 4 4 883.9KB 55 页 15积分
侵权投诉
第一章 绪 论
1
第一章 绪
§1.1 研究背景和意义
互联网高速发展的同时也带动了网络信息资源的急剧增长,人们越来越多地
开始关注如何开发和利用这些资源,与此同时,电子商务、电子政务以及各种网
络信息服务迅速兴起,也使得原有的网络信息处理与组织技术无法适应互联网高
速发展趋势;另一方面在传统数据库领域里,随着数据处理技术的不断发展,产
生了数据挖掘Data Mining技术,在过去的十几年里,数据挖掘技术不断成熟,
并成功的应用于数据库领域中,这两方面的发展开始促使人们对数据挖掘技术在
网络信息资源处理中的应用产生了兴趣。
网络数据挖掘(Web Data Mining)就是在这样一种背景下应运而生的,网络
数据挖掘是从 Web 文档和 Web 活动中发现和抽取潜在的、用户感兴趣的有用模式
和隐藏的知识。它以从互联网上的海量数据中挖掘有用知识为目标,将传统的数据
挖掘技术与 Web 结合起来,并综合运用了统计学、计算机网络、数据库与数据仓
库、可视化等众多领域的技术。
按照挖掘的对象来分[1]网络数据挖掘可以分为三类:网络内容挖掘WCM
Web Content Mining、网络使用挖掘(WUMWeb Usage Mining)和网络结构挖
WSM
Web Structure Mining其中网络使用挖掘WUM
Web Usage Mining
是把数据挖掘技术应用到网络数据上以发现用户模式的挖掘过程。数据挖掘专家
Robert Cooley 将网络使用挖掘定义为数据挖掘技术应用在互联网网站日志资源中
以分析网站的使用情况,网络使用挖掘的结果通常是用户群体的共同行为和共
兴趣、以及个人用户的检索偏好、习惯和模式等等。由于所有网上行为(用户行
为)的可记录性和互联网的不断普及,使得网络使用挖掘对于网站拥有者和设计
者,无论是在商业应用还是科学研究中,都越来越具有实用价值。
§1.2 课题发展现状
在国外,数据挖掘技术已经广泛地应用于金融业、零售业、远程通讯业、政
府管理、制造业、医疗服务以及体育事业中,而它在网络中的应用也正在成为备
受关注的热点。网络数据挖掘的应用已经涉及到电子商务、网站设计、电子政务
和搜索引擎服务等众多方面。例如,现在比较有名的搜索引擎 Google 中就采用了
网络内容挖掘中的 Web 超链分析算法PageRank 算法)来提高搜索的效率和准确
网络使用挖掘系统模型设计与实
2
性,它可以比较准确的将相关的权威网页排在搜索结果的前面。
Jaideep SrivastavaRobert Cooley 2000 1月发表的Web Usage Mining:
Discovery and Application of Usage Patterns from Web Data
[1] 对当前网络使用挖掘
的发展情况进行了比较全面的介绍,不仅涵盖了对学术研究和商业应用方面的可
发展的前景展望,并且对网络使用挖掘中的工作内容进行了划分,从网络数据Web
Data,包括数据分类,数据源,数据抽象;到网络使用挖掘的挖掘步骤,数据预
处理Preprocessing模式发现Pattern Discovery模式分析Pattern Analysis
此后,许多关于网络使用挖掘方面的研究都是建立在这个基础上进行的。
目前国外对网络使用挖掘的研究中许多方面都成为研究的热点,也有一些公
司推出了应用网络使用挖掘的日志分析工具,在某些特定的领域应用取得了不错
的效果,但它们或者只是对日志数据进行统计汇总,没有深层的分析;或者有对
日志进行深层的分析,包括关联规则、序列模式和页面聚类等,但由于较少结合
网站内容和站点拓扑结构挖掘使得结果往往兴趣度不高。在商业应用方面,Amazon
网上书店,yahoo 网站的一些设计应用也参照了网络使用挖掘的结果。
在国内网络使用挖掘还是一个较前沿的研究领域,在理论和实际应用中有许
多比较有价值的研究方向,比如数据的预处理技术,挖掘模式算法和模式分析工
具的改进。其中上海交通大学的杨怡玲,管旭东等人提出了基于页面内容和站点
结构的频繁访问页面组挖掘算法,以及针对Frame页面的预处理方法,并且在实际
的使用挖掘系统SWLMS中进行了应用[15
16]上海交通大学的徐欢庆,王永成的基
于用户访问路径分析的网页预取模型也是采用网络使用挖掘的思想[18];还有武汉
大学的罗隽,魏品帅等将改进后了的WAP-Tree算法应用于服务器日志挖掘和电子
商务中用户分类也取得一定的成果……
在国内对于网络使用挖掘(Web Usage Mining)还是一个比较新的研究方向,
要还是集中在科学研究方面,成功的商业案例基本没有,因此还有许多的领域值
得我们去开拓发掘。
§1.3 论文所研究的内容
本论文所要讨论的网站日志Web Log的数据挖掘就是网络使用挖掘中主要
的一种挖掘形式。它主要是对网站服务器(特定条件下也可包括客户端或者代理
服务器)上的日志文件采用数据挖掘技术,从中发现用户的浏览模式,分析站点
的使用情况,从而帮助优化网站结构,提高网站效率,更好的理解和服务于基于
网络的各种应用(商业和科研等等)
论文介绍了由 Jiawei.Han 等人提出的数据挖掘方法 FP-growth PrefixSpan
第一章 绪 论
3
法,并结合网络使用挖掘,研究了两种方法在挖掘网络日志文件中的关联规则和
序列模式的应用。研究过程中设计和实现了一个进行关联规则和序列模式挖掘的
网络使用挖掘系统模型,以上海理工大学学生就业网站为实例,抽取出其服务器
日志文件和网站结构等数据,用 FPgrowth PrefixSpan 算法对其进行数据挖掘,
并对挖掘结果进行分析,提出相应的改进方案,对网站进行优化。
§1.4 论文的结构
第一章为绪论,主要介绍了本论文的研究内容、研究背景和意义;
第二章介绍了数据挖掘的定义以及其功能和主要技术;
第三章介绍了网络数据挖掘的定义和分类,并且对网络使用挖掘的原理和挖
掘步骤进行了详细的介绍;
第四章介绍了本论文所使用的核心算法 FPgrowth PrefixSpan,相关定义,
主要思想和算法步骤;
第五章讨论了以上海理工大学学生就业网站为实例的网络使用挖掘系统模型
的设计和实现,以及试验结果分析;
第六章为结束语,对网络使用挖掘的应用和未来方向进行了展望。
网络使用挖掘系统模型设计与实
4
第二章 数据挖
§2.1 数据挖掘定义
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机
的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识
的过程[6]
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的
数据量急剧增大,如何从海量的数据中提取有用的知识成为当务之急,数据挖掘
就是为顺应这种需要应运而生发展起来的数据处理技术,它也是知识发现KDD
Knowledge Discovery in Database)中的关键步骤[6]
§2.2 数据挖掘的步骤
数据挖掘如何实施,其一般的步骤[6]为:问题理解和提出 —> 数据准备 —>
数据整理 —> 建立模型 —> 评价和解释。
1问题理解和提出:在开始数据挖掘之前最基础的工作就是理解数据和实际
的业务问题,在这个基础之上提出问题,并对目标有明确的定义;
2、数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘
库,大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起,
数据可以来自于现有事务处理系统,也可以从数据仓库Data Warehouse中得到;
3、数据整理:由于数据可能是不完全的、有噪声的、随机的,可能有复杂的
数据结构,所以要对数据进行初步的整理,清洗不完全的数据,做初步的描述分
析,选择与数据挖掘有关的变量,或者转变变量。通过数据整理,可以对数据做
简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便
于下一步数据挖掘的顺利进行,数据整理工作通常都是整个数据挖掘中最繁重的
一环;
4建立模型进行数据挖掘:根据数据挖掘的目标和数据的特征,选择合适的
模型。然后选择相应的数据挖掘方法对模型进行分析;
5评价和解释:数据挖掘的结果有些是有实际意义的,而有些是没有实际意
义的,或是与实际情况相违背的,这就需要进行评估,所以需要对数据挖掘的结
果进行评价,选择最优的模型,作出评价,参照实际问题,和专业知识结合对结
果进行解释;
第二章 数据挖掘
5
以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进行,总之,
数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。
§2.3 数据挖掘的功能
数据挖掘综合了多个学科技术,包含了很多的功能,目前主要在研究和应用
的功能如下:
1、分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:
银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分
新申请贷款的客户,以采取相应的贷款方案;
2、聚类:分析识别出内在的规则,按照这些规则把对象分成若干类。例如:
将申请人分为高度风险申请者,中度风险申请者,低度风险申请者;
3关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这
样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通
过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:
今天银行调整利率,明天股市的变化;
4、预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来
经济发展的判断;
5偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。
例如:在银行的 100 笔交易中500 例的欺诈行为,银行为了稳健经营,就要
发现这 500 例的内在因素,减小以后经营的风险;
需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联
系,发挥作用。
§2.4 当前数据挖掘的主要技术
目前,国外有许多研究机构、学术组织和公司都在从事数据挖掘工具的研究、
开发和应用,流行的数据挖掘工具采用的主要技术方法包括统计分析、决策树、
相关规则、神经元网络、遗传算法,以及可视化、OLAP 联机分析处理等。
1、统计分析方法(Statistics
在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关
)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可
网络使用挖掘系统模型设计与实
6
采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统
(比如统计大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归
方程来表示变量间的数量关系)相关分析(用相关系数来度量变量间的相关程度)
差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。
2、决策树(Decision Tree)
决策树是建立在信息论基础之上,对数据进行分类的一种方法。首先,通过
一批已知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据进行预
测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树
实现了数据规则的可视化,其输出结果也容易理解。例如:在金融领域中将贷款
对象分为低贷款风险与高贷款风险两类。通过决策树,我们可以很容易地确定贷
款申请者是属于高风险的还是低风险的。
决策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。
3、神经网络(Neural Network)
神经网络建立在自学习的数学模型基础之上。它可以对大量复杂的数据进行
分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。
神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为
节点(Node)这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定
数据模式的工作。神经网络有相互连接的输入层、中间层(或隐藏层)输出层组
成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行
结果。例如:我们可以指定输入层为代表过去的销售情况、价格及季节等因素,
输出层便可输出判断本季度的销售情况的数据。
4、关联规则(Association Rules
关联规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些属
性同时出现的规律和模式。例如:超级市场中通过 POS 系统收集存储了大量售货
数据,记录了什么样的顾客在什么时间购买了什么商品,这些数据中常常隐含着
诸如:购买面包的顾客中有 90%的人同时购买牛奶的相关规则以及经典的“啤酒
与尿布”的案例。关联规则分析就是依据一定的可信度、支持度、期望可信度、
作用度建立相关规则的。
5K-nearest 邻居
邻居就是彼此距离很近的数据。依据领近相似Do as your neighbors do的原
则,K-nearest 邻居方法认为:邻居数据必然有相同的属性或行为。K表示某个特
定数据的 K个邻居,可以通过 K个邻居的平均数据来预测该特定数据的某个属性
或行为。
摘要:

第一章绪论1第一章绪论§1.1研究背景和意义互联网高速发展的同时也带动了网络信息资源的急剧增长,人们越来越多地开始关注如何开发和利用这些资源,与此同时,电子商务、电子政务以及各种网络信息服务迅速兴起,也使得原有的网络信息处理与组织技术无法适应互联网高速发展趋势;另一方面在传统数据库领域里,随着数据处理技术的不断发展,产生了数据挖掘(DataMining)技术,在过去的十几年里,数据挖掘技术不断成熟,并成功的应用于数据库领域中,这两方面的发展开始促使人们对数据挖掘技术在网络信息资源处理中的应用产生了兴趣。网络数据挖掘(WebDataMining)就是在这样一种背景下应运而生的,网络数据挖掘是从W...

展开>> 收起<<
网络使用挖掘模型的设计与实现.pdf

共55页,预览6页

还剩页未读, 继续阅读

作者:赵德峰 分类:高等教育资料 价格:15积分 属性:55 页 大小:883.9KB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 55
客服
关注