云计算下的数据采集和预处理分析

VIP免费
3.0 刘畅 2024-11-07 4 4 1.77MB 48 页 15积分
侵权投诉
摘要
伴随着现代文明的不断进步与全球经济的高速增长,人们的物质生活水平逐
渐提高。各种信息设备的不断更新,数据信息的海量激增,使得人们处在一个高
度的信息社会当中。信息量的激增使得人们很难在海量的数据中找寻到适合自己
需求的数据,如何能够寻找到满足个人需求的数据,如何能够准确的找到简洁高
效的数据是不得不面对的一大课题。本文针对这一问题进行了研究。
本文的主要内容及研究成果如下:
第一,根据云计算的主要应用形式,将数据层面引入到云计算的应用当中,
提出了引入 RaaS 的云计算架构。
第二,通过Petri网元素和数据采集流程之间联系,将采集过程转化成Petri
的元素,建立了基于时间Petri网的数据采集模型。
第三,通过对云计算环境下的数据分布式特点,将 MapReduce 数据处理方
法引入到数据预处理环节,降低了数据分布对数据处理的影响,并建立了数据预
处理模型。
第四,通过对实验数据的整理与分析,对数据预处理前后不同的数据分布情
况进行分析,验证了所应用的数据采集和预处理模型在云环境下应用的可行性。
本文就云环境下的数据采集和预处理机制,提出了一些建设性的方法与措施,
对微博数据进行了一定程度上的解析,对突发灾害事件的处理与引导研究具有一
定的参考价值。
关键词:云计算 数据采集 数据预处 MapReduce Petri
ABSTRACT
Following the progress of modern civilization and the global economy’s High
growth, people's material living standards gradually improved. Constantly updated
information devices and surging data traffic, make us in the society of a high degree
of information. Information surging makes it difficult to suit us the information own
needs, in the vast amounts of data. The way to find data to meet individual needs, and
search simple and efficient and accurate data is the music we have to face to. this
problem has been studied in this paper.
The main contents of this paper are as following:
According to the main applications of cloud computing, introduced data layer
into cloud computing applications, and proposed the cloud computing architecture
including RaaS.
Based on the links between Petri net elements and data collection processes,
transformed the acquisition processes into Petri net elements, and established a data
acquisition model based on Timed Petri Nets.
According to distributed nature of data in cloud computing environment,
introduced MapReduce data processing method to the aspect of data preprocessing,
which leading to reduce the impact of data processing, and established a data
preprocessing model.
Finally, through the collection and analysis of experimental data, and analysised
the different of data distributions before and after pretreatment, it is verified the
feasibility that the applications of data acquisition and pre-processing model in cloud
environment. Author put forward some constructive methods and measures on the
mechanism of data acquisition and pre-processing in cloud environment. Resolved the
microblogging data on a certain degree, and gave a certain reference value for
directed study and handling of unexpected events and disasters.
Keywords: Cloud Computing, Data Acquisition, Data
preprocessing, MapReduce
摘要
ABSTRACT
第一章 ................................................................................................................ 1
1.1 选题的目的意义 .................................................................................................. 1
1.2 国内外研究现状 .................................................................................................. 2
1.2.1 云环境下流式数据研究现状........................................................................ 2
1.2.2 云计算的研究和发展现状............................................................................ 2
1.2.3 Petri 网应用研究现状 ................................................................................... 4
1.2.4 数据采集........................................................................................................ 4
1.2.5 数据预处理研究现状.................................................................................... 6
1.3 论文研究主要内容 .............................................................................................. 6
1.4 论文框架 .............................................................................................................. 7
第二章 云计算与数据处理.......................................................................................... 9
2.1 云计算及其发展应用 .......................................................................................... 9
2.1.1 云计算基本概念........................................................................................... 9
2.1.2 云计算的主要服务形式................................................................................ 9
2.2 Petri 网理论研究现状 ........................................................................................ 10
2.2.1 Petri 网基本概念 ......................................................................................... 10
2.2.2 Petri 网及其应用 ......................................................................................... 13
2.2.3 赋时 Petri ................................................................................................ 13
2.3 数据采集和预处理 ............................................................................................ 15
2.3.1 数据采集方法.............................................................................................. 15
2.3.2 数据预处理方法.......................................................................................... 16
2.4 小结 .................................................................................................................... 19
第三章 云环境下的数据采集模型研究.................................................................... 20
3.1 云环境中的数据特性 ........................................................................................ 20
3.1.1 大数据时代.................................................................................................. 20
3.1.2 云时代数据的实时性.................................................................................. 21
3.2 云计算中的流式数据 ....................................................................................... 23
3.3 云存储 ............................................................................................................... 23
3.3.1 云存储概况.................................................................................................. 24
3.3.2 云存储的优势.............................................................................................. 24
3.3.3 引入 RaaS 的云计算架构 ........................................................................... 25
3.4 基于赋时 Petri 网的数据采集模型 .................................................................. 25
3.4.1 数据采集流程与 Petri 网的转化关系 ........................................................ 25
3.4.2 基于赋时 Petri 网的数据采集模型 ............................................................ 28
3.5 小结 .................................................................................................................... 29
第四章 云环境下的数据预处理模型研究................................................................ 30
4.1 数据预处理 ........................................................................................................ 30
4.2 ETL ..................................................................................................................... 30
4.2.1 ETL 相关概念 ............................................................................................. 30
4.2.2 ETL 必要性 ................................................................................................. 30
4.2.3 ETL 常见的应用方面 ................................................................................. 31
4.3 重复数据删除 .................................................................................................... 31
4.4 数据融合 ............................................................................................................ 32
4.5 云计算下的数据预处理模型 ............................................................................ 32
4.6 小结 ................................................................................................................... 35
第五章 云环境中网络数据采集和预处理价值分析................................................ 36
5.1 基于 Petri 网的微博数据采集和预处理模型 .................................................. 36
5.2 数据采集和预处理的价值 ................................................................................ 38
5.3 检测结果对比 .................................................................................................... 38
5.4 小结 ................................................................................................................... 40
第六章 结论与展望.................................................................................................... 41
6.1 论文研究内容总结 ............................................................................................ 41
6.2 课题发展前景展望 ............................................................................................ 41
参考文献...................................................................................................................... 42
在读期间公开发表的论文和承担科研项目及取得成果.......................................... 45
致谢.............................................................................................................................. 46
第一章
1
第一章
1.1 选题的目的意义
近年来随着互联网技术的发展和各种社交工具的应用,互联网发展重心
着移动互联网转移,各种移动设备迅速普及迎来海量数据爆发云时代,大数
据时代接踵而至。数据挖掘面临着海量数据的挑战,如何的将这种数据爆炸中所
蕴含的知识提炼出来,将是当今临的一大挑战。这种随着时间变动的数据称为
流式数据。
随着云计算(cloud computing一词在 2006 年被 google 首次提出,在这一领
域的研究便广泛受到关注并进行了大量的研究。截至到现在,在 cnki 数据库中可
以检索到的云计算论文数目已经达到 2780篇相关论文,其中核心期刊更是多达 358
篇之多;IEEE xplore 数据库中的“cloud computing8294 篇;
ScienceDirect 中涵盖相关文献 381 篇。
云环境中的网络数据是实时的、分布式的,该类数据称流式数据,是一个
随着时间推移不断出现的项目序列,较之传统静态数据,流式数据是连续、潜在、
无边界的,通常高速出现。与传统的静态数据相较,具有一些新的特征:1)数据流
处理的输入数据不固定在存储器上是连续的、大量的、随机涌现的数2)
数据流的大小是潜在的无限大的,相比大量的数据流来说,主存或者磁盘空间的
容量太小,不能作为数据流的存储器;3)数据流是不断出现的,因此要不断地对数
据流挖掘的结果进行实时更新,即提供连续的结果; 4)不能控制数据流的项目序
列到来的顺序,这些项目序列是以流的形式随机到来的[1]
以上的这些特征使得对数据的处理要求更加的快速,云计算的数据处理方式
能够给出在大规模数据处理中应用的可行性。
DCCIDATA CENTER OF CHINA INTERNET)数据显示每秒钟会有 60
Instagram 照片被上传;每分钟有 60 小时的视频文件被传到 Youtube 当中;搜索引
擎日生成日志数量可达 35T;每 twitter 上产生 1.9 亿条微博,产生 3.4 亿的信息;
每天 facebook 40 亿条信息扩散;每天 Youtube 上传的影片时长为 5万小时;智
能手机用户平均安装应用可达 65 个。人类有史以来产生的信息量多达 5艾字节(约
50 亿GB), 3年内产生的数据量远高于以往 4万年内产生的数据总量,2010
全球数据总量为 1.2ZB(约 1.2 万亿 GB), 预计 2020 年将激增 30 倍达到约 35ZB
(约 1.2 万亿 GB); 2011 年中国互联网数据总量达到 1.9EB19 亿GB,全球被
创建和复制数据总量为 1.8ZB1.8 万亿 GB;预计,2013 10 分钟即可生成如
此规模的信息量。从上面的这组数据当中可以预见,在未来的时间内数据将会大
规模的涌现。
摘要:

摘要伴随着现代文明的不断进步与全球经济的高速增长,人们的物质生活水平逐渐提高。各种信息设备的不断更新,数据信息的海量激增,使得人们处在一个高度的信息社会当中。信息量的激增使得人们很难在海量的数据中找寻到适合自己需求的数据,如何能够寻找到满足个人需求的数据,如何能够准确的找到简洁高效的数据是不得不面对的一大课题。本文针对这一问题进行了研究。本文的主要内容及研究成果如下:第一,根据云计算的主要应用形式,将数据层面引入到云计算的应用当中,提出了引入RaaS的云计算架构。第二,通过Petri网元素和数据采集流程之间联系,将采集过程转化成Petri网的元素,建立了基于时间Petri网的数据采集模型。第三...

展开>> 收起<<
云计算下的数据采集和预处理分析.pdf

共48页,预览5页

还剩页未读, 继续阅读

作者:刘畅 分类:高等教育资料 价格:15积分 属性:48 页 大小:1.77MB 格式:PDF 时间:2024-11-07

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 48
客服
关注