点击流OLAP及DM系统的研究和设计

VIP免费
3.0 牛悦 2024-11-19 4 4 1.88MB 74 页 15积分
侵权投诉
摘 要
随着电子商务的高速发展,电子商务对企业的经营活动带来巨大的影响。它
逐渐成为企业市场销售和客户服务的一个重要渠道。充分利用电子商务将给企业
带来巨大的经济效益和社会效益。而电子商务中,Web网页服务器日志文件记录了
网站上每个用户的每一次点击,带来了新的、大规模的数据资源,称之为点击流。
这便为OLAP及数据挖掘提供了丰富的资源。
本文主要研究点击流数据仓库多维模型建模以及web日志预处理技术,在此基
础上,研究根据点击流数据仓库构建点击流OLAP及数据挖掘系统,本文将根据点
击流数据分析的现状、发展趋势,及其面临的挑战,介绍SQL Server 2005 BI平台
对传统BI工具的革新;接着介绍数据预处理技术,尤其是基于Web日志的数据预处
理技术,同时给出基于Web日志的数据预处理过程以及预处理过程中所涉及到的技
术。
其实点击流数据分析是一项非常关键的技术,几乎贯穿于互联网分析(包括
联机分析项目、web挖掘以及知识发现)的每一个方面,总而言之,WEB点击流是
一笔非常巨大的财富,采用何种方式去分析它和挖掘它,以更好的理解互联网、
理解电子商务。针对此,本文讨论了2种不同的分析方法,即针对网页和突出用户
(它们分别代表了当今互联网OLAP分析的不同方向),并分别讨论不同的建模方
法,内容维度和以会话作为分析对象的建模。接着通过结合SQL Server 2005 BI
台分别讨论与实现了在互联网联机分析以及数据挖掘中的两个典型案例,分别是
面向网页内容的智能分析和搜索关键字分析。这两个实际案例都是通过SSAS来实
施的,涉及了很多SQL Server 2005最新的BI技术,包括DMXMDX语言,挖掘算
法、挖掘结构的创建,XMLA以及与Reporting Service的集成。在挖掘系统中还加
入了一些笔者实际工程应用中的优化技巧和工作体会,这对分析结果改善有非常
有益的帮助。
关键词:点击流 数据仓库 OLAP 数据挖掘 web日志
ABSTRACT
With the rapid development of e–business it brings about great influence on
business management. Gradually, it becomes an important channel for market-selling
and clients' services. Full use the advantages of e-business will bring company
enormous economical and social benefits. But in e-business, web server always record
all surfer's clicks on relevant web site which brings us very important and huge stuff,
this is so-called Clickstream. Naturally it becomes the biggest asset for Internet OLAP
and Data Mining.
This paper mainly explores Multi-dimentional Model on Clickstream Data
warehouse and data preprocessing of web logs and how to implement OLAP and Data
Mining system based on Clickstream Data warehouse. Firstly, the article discusses new
progresses and future trend of Clickstream analysis, the challenges which attracts more
attention meanwhile, the revolutions of SQL Server 2005 brings to traditional BI
Platform are introduced. After this, the article puts emphasis on data preprocessing,
especially the technology of Web Log preprocessing. Based on it, the process of data
preprocessing and other key technologies are presented at last.
Clickstream analysis is a very important technology and can be used in every
aspect of Internet analysis, which includes OLAP Data Mining and Knowledge
discovery on Web. All together, Clickstream is huge resource, all depends on the way
how to analyze it and make use of it, to understand the hidden rules behind Internet
and e-business. For this, the paper puts emphasis on common issues of Internet BI
solutions and proposes basic solutions to them. this article discusses two different ways
of SQL Server 2005 BI platform to design Multi-dimentional Model: Web Page
oriented and surfer oriented (they also delegate the main aspects of Internet
OLAP).then the implementation process of two typical projects in OLAP and Data
Mining are discussed and introduced, they respectively are intelligent analysis of Page
content and association analysis of key words in Search Engines. These cases are all
implemented by SQL Server analysis services. Undoubtedly, there are so many newest
BI technologies ,including DMX MDX Data Mining algorithms Data Mining
structureXMLAReporting Service and so on, adopted in the solutions. Besides,
some optimization skills are used to improve the performance and user experiences,
eventually the visualization of results can benefit a lots from them.
Key WordClickstream, Data warehouse, OLAP, Data Mining, Web
Log
目 录
中文摘要
ABSTRACT
第一章 论 ...................................................... 1
§1.1 背景 ....................................................... 1
§1.1.1 点击流数据分析概述 ................................... 1
§1.1.2 点击流分析技术的研究现状 ............................. 3
§1.1.3 点击流分析所面临的挑战 ............................... 4
§1.2 BI(商务智能)技术概述 ....................................... 5
§1.2.1 商务智能的技术支柱 ................................... 5
§1.2.2 联机分析处理与数据挖掘 ............................... 6
§1.3 SQL Server 2005 BI 平台的主要优势 .......................... 7
§1.4 论文的结构 ................................................. 9
第二章 Web 服务器日志预处理技术 ................................... 11
§2.1 WEB 服务器日志概述 ........................................ 11
§2.2.1 点击流数据的收集 .................................... 11
§2.2.2 WEB 服务器日志的分类及其含义 ........................ 12
§2.2 WEB 服务器日志预处理概述 .................................. 17
§2.2.1 WEB 服务器日志预处理的必要性 ........................ 17
§2.2.2 WEB 服务器日志分析的困难 ............................ 17
§2.2.3 WEB 服务器日志预处理的一般过程 ...................... 18
§2.3 WEB 服务器日志 ETL 方法 .................................... 21
§2.3.1 ETL 含义与 Integration Services 介绍 ................. 21
§2.3.2 WEB 服务器日志特色维度 ETL 处理 ...................... 22
第三章 点击流数据仓库及其多维数据建模 ............................. 25
§3.1 点击流数据仓库模式及多维分析理论 .......................... 25
§3.1.1 点击流数据仓库模式 .................................. 25
§3.1.2 点击流数据仓库多维分析理论 .......................... 28
§3.2 点击流数据仓库多维数据建模 ................................ 30
§3.2.1 页面活动粒度维度建模 ................................ 30
§3.2.2 会话活动粒度维度建模 ................................ 35
§3.3 本章小结 .................................................. 36
第四章 点击流 OLAP 系统 ............................................ 37
§4.1 设计多维数据集 ............................................ 37
§4.1.1 维度结构 ............................................ 37
§4.1.2 内容维度处理 ........................................ 40
§4.1.3 进一步扩展 .......................................... 42
§4.2 内容关键字的提取 .......................................... 43
§4.2.1 基于 SQL Server 2005 全文检索解决方案 ................ 43
§4.3 OLAP 分析 ................................................. 45
§4.3.1 确定分析需求 ........................................ 45
§4.3.2 OLAP 分析 ........................................... 46
§4.4 分析结果的前端展示 ........................................ 48
§4.4.1 基于 ADO MD.NET 的展示 ............................... 48
§4.4.2 基于 SQL Server Reporting Service 的展示 ............. 50
第五章 点击流数据挖掘系统及其优化 ................................ 52
§5.1 SSAS 挖掘算法及 DMX 语言 ................................... 52
§5.1.1 SSAS 挖掘算法 ....................................... 52
§5.1.2 DMX 语言 ............................................ 54
§5.2 挖掘模型的创建及其浏览 .................................... 56
§5.2.1 创建挖掘模型 ........................................ 56
§5.2.2 浏览挖掘模型 ........................................ 58
§5.3 挖掘模型的优化处理及部署应用 .............................. 62
§5.3.1 挖掘模型的优化处理 .................................. 62
§5.3.2 部署应用 ............................................ 64
第六章 总结与展望 ................................................ 65
参考文献 .......................................................... 67
录 ............................................................. 69
在读期间公开发表的论文和承担科研项目及取得成果 .................... 71
谢 ............................................................ 72
第一章 绪 论
-1-
第二章 绪
§1.1 背景
§1.1.1 点击流数据分析概述
随着 Internet 在流量、规模和复杂度等方面的快速增长,WWW 成为一个巨
大的、分布广泛的、全球性的信息服务中心,它涉及到新闻、广告、金融管理、
教育、电子政务、电子商务等各方面的信息服务。Web 中的网页服务器日志文件
记录了网站上每个用户的每一次点击,为我们带来了新的、大规模的数据资源,
我们称之为点击流(clickstream),这便为 OLAP 及数据挖掘提供了丰富的资源。当
前的 Web 分析工具只能对网站的基本流量、访问及基本运行进行概要分析,而通
过将点击流引入数据仓库,可以更好地分析网站用户的行为,并进一步探究导致
网站用户行为的内在因素,获取有商业价值的信息,得到比 Web 分析工具更好的
决策支持数据。而数据挖掘是指从大量的数据中提取隐含的、未知的、有潜在应
用价值的模式、规则和知识,它包括关联分析、决策树、聚类分析、序列分类、
偏差分析、趋势分析等[18]Web 点击流挖掘技术针对 Web 点击流信息的特性,对
传统的挖掘方法进行扩展和改进,并将其应用到 Web 点击流信息上进行挖掘,得
到有用的知识。
针对此,可总结 Web 点击流信息具有如下特点:
1) 点击流数据是大规模且海量的:一个中等大小的网站每天可以记载几MB
用户访问信息,记载着数万次用户的访问,随着时间的推移,所记载的用
户访问量信息更是非常庞大。此外,数据分布也十分广泛,可来自于世界
上每一台Web服务器或Web代理服务器,分别记录着来自不同国家、地区的
访问者的访问信息。
2) 数据时时刻刻地产生:只要用户对站点进行访问,那么用户访问信息就会被
记录;只要用户访问Internet那么必然至少有一个服务器记录其访问行为 。
3) 记录内容十分丰富:访问信息记载了来访者,被访问页面,访问时间等一系
列信息 。当这些信息被事务化,提取出访问页面特性,访问路径特性,
访问时间特性,以及将这些特性和网站原有的拓扑结构结合起来后,便可
进一步探究导致网站用户行为的内在因素,获取有商业价值的信息。
4) 结构化程度高:访问信息一般都按照确定的数据格式由系统自动记录,遵循
点击流 OLAP DM 系统的研究和设计
-2-
W3C 标准的访问信息记录格式,可以很方便地转化成关系式数据库进行
结构化的处理,这便为OLAP多维数据建模和挖掘提供了很好的基础。
如果失去了点击流数据信息,电子商务就显得非常盲目,完全不理解它与用
户间的商业关系ERM同时在电子商务环境中,也不再存在任何其他类型的反
馈或者智能商业机制。相反地,Web 点击流信息含有丰富的 ERM 数据,由这些数
据挖掘的商务智能可用于商业的所有方面,可以根据用户表现出的一般行为模式,
为其提供更加方便、快捷的个性化服务。总之,Web 点击流信息可以从各方面详
尽反映出用户访Web 的细节,是取之不尽、用之不竭的宝贵资源。为了不浪费
这宝贵而丰富的资源,开展 Web 点击流联机分析及挖掘方面的研究具有广泛的普
遍意义。通过对 Web 点击流信息进行有效的数据挖掘,可以帮助我们更好地理解
Web Web 用户访问模式,这对于开发 Web 的最大经济潜力是非常关键的。
目前,针对点击流数据的数据分析可以分为两个方面,OLAP(在线分析处理)
或数据(这也文所讨论2),者又基于击流据仓
术。点击流数据仓库的建立完全遵从传统数据仓库建立的原则,只是其数据来源
与一般数据仓库不同,来自点击流数据,通过收集、整理、转换这些数据,建立
针对 Web 点击信息的各种维度,进而分析网站用户的行为并最终探索导致这些行
为的内在原因是点击流数据仓库的建设初衷。其优势主要在于点击流数据是一种
真正改进了的数据资源集,加上数据仓库系统本身的成熟应用,使点击流数据仓
库具有其他方式或工具无法比拟的优势。
点击流数据仓库能够更好地组织和管理点击流数据,能描绘 Web 用户完整的
行为视图;其次点击流数据仓库中的数据通常经过抽取、转换和清洗,因而在数据
仓库上进行点击流数据分析可免去许多数据预处理的工作;点击流数据仓库中集成
了大量的历史数据,而对用户行为分析的大多数问题也与时间有关,因此,借助
点击流数据仓库进行 OLAP 分析更利于理解用户的行为。
点击流挖掘是 Web 挖掘的一个主要方向,它是通过分析 Web 服务器的日志文
件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于站点改进或可
以带来经济效益的信息(:聚类分析可以把具有相似特征的用户或数据项归类
帮助进行市场决策[19]),Web 服务器日志也可以结合其它数据库(:电子商务、银行
数据库)一同进行挖掘,以获得更详细的信息。Web 日志挖掘能带来许多方面的好
:分析网站流量模式、发现系统性能瓶颈、测定广告和促销计划的成功度及测定
投资回报率、发现用户的需要和兴趣等。
摘要:

摘要随着电子商务的高速发展,电子商务对企业的经营活动带来巨大的影响。它逐渐成为企业市场销售和客户服务的一个重要渠道。充分利用电子商务将给企业带来巨大的经济效益和社会效益。而电子商务中,Web网页服务器日志文件记录了网站上每个用户的每一次点击,带来了新的、大规模的数据资源,称之为点击流。这便为OLAP及数据挖掘提供了丰富的资源。本文主要研究点击流数据仓库多维模型建模以及web日志预处理技术,在此基础上,研究根据点击流数据仓库构建点击流OLAP及数据挖掘系统,本文将根据点击流数据分析的现状、发展趋势,及其面临的挑战,介绍SQLServer2005BI平台对传统BI工具的革新;接着介绍数据预处理技术...

展开>> 收起<<
点击流OLAP及DM系统的研究和设计.pdf

共74页,预览8页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:74 页 大小:1.88MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 74
客服
关注