基于web日志的数据挖掘研究

VIP免费
3.0 牛悦 2024-11-19 4 4 1.29MB 62 页 15积分
侵权投诉
摘 要
Web 日志挖掘是数据挖掘的一个重要研究领域和方向,通过分析 Web 日志记
录,可以挖掘出用户的一些使用规律和模式,它被广泛应用于电子商务和企业信
息门户网站中,通过它可以找出潜在客户、提高 Web 服务的质量和效率、优化网
站性能等。
本文简单地介绍了 Internet 的发展状况及数据挖掘的产生背景,系统地阐述了
数据挖掘的相关技术与 Web 数据挖掘的思想和方法,对 Web 日志数据挖掘的过
程及其各环节的关键技术进行了探讨,重点研究了 Web 日志挖掘的数据预处理技
术和关联规则以及改进的关联规则算法,并构建了 Web 日志挖掘系统。
Web 日志数据预处理方面,在分析和比较前人已有的各种方法基础上,
统一建模语言(UML)引入到 Web 日志预处理过程的建模上,使用 UML 进行建模,
设计出相关表格,并在此基础上给出了相关的算法实现。
在关联规则及改进的关联规则算法研究上,本文分析了经典的关联规则挖掘
算法——Apriori,指出了该算法存在的不足,并对它进行了改进和优化,使其具
有更高的效率。
在对 Web 日志挖掘的相关理论和技术研究基础上,结合当前的主流开发平台,
设计和实现了 Web 日志挖掘系统——WebLogMiner并用其对 Web 服务器的日志
记录进行挖掘实验,得到了较为理想的结果。
关键词: Web 日志挖掘 数据预处理 关联规则 算法
ABSTRACT
Web log mining is a very important domain and direction in data mining
area,through analyzing and finding out the rules in the web log,it could discover the
rule and pattern of the potential users,it could be widely used in discovering the
potential customers in e-business and improve the quallty and efficiency of the
enterprise information portal.
The article introduce the status of the development of internet and the background
of data mining and systematically elaborate the technique,theory and strategy,making
a deeper discussion on the key technique of the process in web data mining,mainly
focuse on the preprocess and association rule algorithm-Apriori,and put them into the
usage of the construction of experiment system.
In the web log prerocessing aspect,based on the methods that have invented in the
last,the UML will be introduced into the module of UML,design the database table,and
realize the process of the algorithm.
Upon the association rule,the paper analyzes the classical character of Apriori
algorithm,finding out the disadvantage of the algorithm and improving it.
Based on the web log mining theory and technique,combined with the current
mainstream research,design a system named WebLogMiner,and put it in use of
analying the web log,retrieve the data as for the evidence of the next works.
Key Words:Web Log Mining,Data Preprocessing,Association Rule,
Algorithm
I
目 录
中文摘要
ABSTRACT
第一章 绪论...................................................................................................................................1
§ 1.1 课题背景 ...........................................................................................................1
§ 1.2 国内外研究现状 ...............................................................................................2
§1.2.1 国外研究现状 ............................................................................................2
§1.2.2 国内研究现状 ............................................................................................4
§ 1.3 目前研究中存在的问题 ...................................................................................4
§ 1.4 本文主要工作和创新点 ...................................................................................5
§ 1.5 论文的组织结构 ...............................................................................................6
第二章 Web 日志挖掘综述........................................................................................................ 8
§ 2.1 Web 挖掘 ........................................................................................................... 8
§ 2.1.1 Web 挖掘的意义 ...................................................................................... 8
§ 2.1.2 Web 挖掘的特点 ...................................................................................... 8
§ 2.1.3 Web 挖掘的分类 ...................................................................................... 9
§ 2.2 Web 日志挖掘 ................................................................................................. 10
§ 2.2.1 Web 日志挖掘的定义 ............................................................................ 10
§ 2.2.2 Web 日志挖掘的应用 .............................................................................11
§ 2.2.3 Web 日志挖掘的数据源 ........................................................................ 12
§ 2.2.4 Web 日志挖掘的步骤 ............................................................................ 14
§ 2.3 本章小结 .........................................................................................................16
第三章 Web 日志挖掘的数据预处理.......................................................................................17
§ 3.1 预处理的意义及相关概念 ..............................................................................17
§ 3.2 数据清理 .........................................................................................................18
§ 3.3 用户识别 .........................................................................................................20
§ 3.4 会话识别 .........................................................................................................22
§ 3.5 路径补充 .........................................................................................................25
§ 3.6 事务识别 .........................................................................................................26
§ 3.7 本章小结 .........................................................................................................26
第四章 Web 日志挖掘算法研究..............................................................................................27
§ 4.1 Web 数据挖掘算法概述 ................................................................................. 27
§ 4.2 关联规则 .........................................................................................................27
§ 4.2.1 关联规则相关定义 .................................................................................27
II
§ 4.2.2 基于关联规则的挖掘算法 .....................................................................29
§ 4.3 基于关联规则的经典挖掘算法:Apriori 算法 ...............................................30
§ 4.3.1 Apriori 性质 ............................................................................................ 31
§ 4.3.2 Apriori 算法基本思想 ............................................................................ 31
§ 4.3.3 Apriori 算法实现 .................................................................................... 32
§ 4.4 Apriori 算法的改进 ........................................................................................36
§ 4.4.1 Apriori 算法的不足 ................................................................................ 36
§ 4.4.2 Apriori 算法的改进思想 ........................................................................ 36
§ 4.4.3 NApriori 算法描述 .................................................................................39
§ 4.5 本章小结 .........................................................................................................41
第五章 Web 日志挖掘系统设计及应用..................................................................................43
§ 5.1 WebLogMiner 系统的设计思想 .................................................................... 43
§ 5.2 WebLogMiner 系统结构 ................................................................................43
§ 5.3 WebLogMiner 的实现 ....................................................................................44
§ 5.3.1 开发环境的选择 .....................................................................................44
§ 5.3.2 软件开发 .................................................................................................44
§ 5.3.3 部分源代码 .............................................................................................46
§ 5.4 Web 日志挖掘系统应用 ................................................................................ 48
§ 5.4.1 Web 服务器日志处理 ........................................................................... 48
§ 5.4.2 Web 日志挖掘实验及结果 .................................................................... 51
第六章 总结与展望....................................................................................................................... 55
§ 6.1 总结 .................................................................................................................55
§ 6.2 展望 .................................................................................................................55
参考文献............................................................................................................................................57
在读期间公开发表的论文和承担科研项目及取得成果.................................................... 59
致谢..................................................................................................................................................... 60
第一章 绪论
1
第一章 绪论
本章介绍了论文提出的背景,说明了研究 web 日志挖掘的重要性;讲述了数据
挖掘技术的基本概念、特点;分析了 web 日志挖掘当前的研究现状和存在的问题;
概要介绍了论文的主要内容、组织结构以及论文的技术特点。
§ 1.1 课题背
Internet WWW( World Wide Web)的出现及快速发展极大地改变了人们的工
作和生活。它为用户提供了数量巨大而丰富的各种信息,根据 lDC(国际数据中心)
的调查,仅在 2009 年,全球产生的数字信息量达到 200 千兆兆字节,若将这些数
据印成书籍的话,排列起来的长度是太阳至地球距离的 15 倍。然而,Internet 上庞
大的信息使人们在查找和使用 Internet 上的信息时感到力不从心,处于Rich Data
Poor Information的境地。面对巨大的信息量Web 信息的多变复杂结构,传统
的信息检索工具己不能很好地满足用户的需求。如何有效地分析用户的需求,帮
助用户从 Internet 这个全球最大的数据中心发现他们所要寻找或者感兴趣的信息资
源,以及如何帮助网站管理员根据网站历史访问记录获得更多更准确的信息以确
定商业战略等已经成为一项迫切而重要的研究课题。
一、Internet 的发展
1969 年美国 APPANET 的诞生到连接着 170 多个国家的因特网仅仅用了 20
多年,随着 Internet 的迅速发展,人们为了充分利用 Internet 上的资源,迫切需要
一种更加方便、更加快捷的页面浏览和查询工具,从而 WWW (World Wide Web
即万维网,简称 Web)诞生了。Web 1993 年问世以来,在十几年的时间里己经
遍布全球。Internet 的发展也使得网络用户和服务器的数目以惊人的速度增长,在
1993-2010 年的十几年间 Web 服务器增加了 10 个数量级。
二、数据挖掘技术的产生
随着数据库技术的不断发展及数据库管理系统的广泛应用,相应地产生的数据
量也伴随着急剧增大,许多行业的数据量以 TB 为基本单位。海量信息既给人们带
来方便同时也带来了诸多问题,对信息过量难以消化、信息安全难以保证、信息
真假难以辨别、信息形式相异难以统一处理等一系列问题。鉴于此,如何从海量
的数据中找到客观的规律,以更方便地传递和获取有用的信息己成为当务之急,
基于关联规则Web 日志挖掘
2
数据挖掘就是为顺应这种需要而发展起来的一门数据处理技术。数据挖掘(Data
Mining )是从大量的、不完全的、模糊的、有噪声的、随机的数据中提取隐含在其
中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术
能够对过去的数据进行遍历和查询,而且能够找出数据间的内在联系,从而促进
信息的传递,它是知识发现(Knowledge Discovery in Database)时的关键步骤。
三、基于 Web 的数据挖掘
近年来,Internet 飞速发展,越来越多的机构、团体和个人在 Internet 发布和查
找信息,这使Internet 上的信息量急剧增加,同时,由于 Web 是无构的、动
态的,并且 Web 页面具有很高的复杂度,这使得尽管 Internet 上有着海量的数据,
但人们要想高效地找到自己所想要的数据,仍存在着很多困难。解决这些问题的
一种方法便是将传统的数据挖掘技术与 Web 合起来进Web 掘,Web
挖掘就是从 Web 文档和 Web 活动中抽取用户感兴趣的潜在的有用模式和隐藏的信
息的过程。
§ 1.2 国内外研究现状
目前国内外 Web 日志挖掘的研究工作大致可分为以下三类:
(1)以分析 Web 站点性能为目标。主要从统计学的角度,对日志数据项进行简
单的统计,得到用户频繁访问页、单位时间访问数、访问数量随时间分布图等。
绝大多数商用及免费的 Web 日志分析工具都属此类。
(2)以理解用户意图为目标。Chen M.S 等提出的路径遍历模式(path traversal
pattern)的发现算法[1]以及 Jiawei Han 等使用的数据立方体方法[2]便是此类的典
型代表。
(3)以改进 Web 站点设计为目标。通过挖掘用户的频繁访问路径和用户聚类,
重构站点的页面之间的链接关系,以更适应用户的访问习惯,同时为用户提供个
性化的信息服务。
§1.2.1 国外研究现状
近几年,国外学者非常关注 Web 日志的挖掘研究,早在 1996 年就有学者 Chen
M.S 提出了将数据挖掘方法用于 Web 研究领域,并开始了 Web 数据挖掘技术的
研究。
Chen 首先将数据挖掘技术应用于 Web 服务器日志挖掘,发现用户的浏览模式。
提出了最大前向引用(maximal forward reference,MFR)系列的概念,将用户会话分割
摘要:

摘要Web日志挖掘是数据挖掘的一个重要研究领域和方向,通过分析Web日志记录,可以挖掘出用户的一些使用规律和模式,它被广泛应用于电子商务和企业信息门户网站中,通过它可以找出潜在客户、提高Web服务的质量和效率、优化网站性能等。本文简单地介绍了Internet的发展状况及数据挖掘的产生背景,系统地阐述了数据挖掘的相关技术与Web数据挖掘的思想和方法,对Web日志数据挖掘的过程及其各环节的关键技术进行了探讨,重点研究了Web日志挖掘的数据预处理技术和关联规则以及改进的关联规则算法,并构建了Web日志挖掘系统。在Web日志数据预处理方面,在分析和比较前人已有的各种方法基础上,将统一建模语言(UML)...

展开>> 收起<<
基于web日志的数据挖掘研究.pdf

共62页,预览7页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:62 页 大小:1.29MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 62
客服
关注