面向大规模数据聚类的优化机制研究

VIP免费
3.0 侯斌 2024-11-19 4 4 14.58MB 51 页 15积分
侵权投诉
摘 要
随着科技的飞速发展和计算机等技术的普及,互联网就像是水和电一样慢慢地渗
透到日常的生活和工作当中。互联网用户的急速增长,加上现在移动互联网、物联网等
技术的普及,大规模数据也飞速产生。面对大规模数据,聚类方法也成为在数据中找
出有用信息的最重要的途径之一。对于大规模数据集,传统的聚类方法可能不足以得
到一个满意的结果。在传统聚类方法的基础上,针对大规模数据中资源信息无序的问
题,从而导致用户服务质量下降,为了解决大规模数据中准确快速找出所需资源的问题
提出了一种针对大规模数据的并行化模糊聚类算法。
本论文主要工作如下:
1) 构建了一个大规模数据聚类框架模型。首先介绍了集群的体系架构以及分析
Hadoop 集群的特点,针对数据规模太大导致集群无法一次性处理所有数据的情况,给
出了集群资源调度的方法,其次给出了聚类的数据结构,然后描述了基于 MapReduce
的大规模数据聚类的框架模型。
2)提出了一种针对大规模数据的并行化模糊算法。该算法首先抽象特征属性并将
特征属性标准化,根据特征属性建立项目相似矩阵,运用矩阵分块思想不影响矩阵计
算结果分割矩阵,利用 MapReduce 技术处理每个小分块矩阵并合并结果,根据阈值划
分结果矩阵,得到若干个有序项目类。
3Hadoop MapReduce K-
means 算法和遗传算法比较,不仅提高了聚类的准确率和查全率。同时在计算大规模数
据的时候能够得到较高的加速比,有效准确地将数据进行模糊聚类划分。
关键词:聚类 大规模数据 MapReduce 并行计算 云计算
ABSTRACT
With the popularization of computer and network, Internet is like air, water and
electrical penetration near our life and work. The rapid growth of Internet users, the
popularity of mobile Internet, now the mass data is rapidly generate. In the face of mass data,
clustering method has become one of the most important ways to find useful information in
the data. For large data sets, traditional clustering methods may not be enough to get a
satisfactory result. Based on the traditional clustering method, to solve the problem of
resource information data in large disorder, resulting in a decline in customer service, in
order to resources needed toaccurately and quickly find out the problem solving large-scale
data parallelism, puts forward a fuzzy clustering algorithm based on MapReduce.
The main work of this thesis is as follows:
1) Building a large-scale data clustering framework model. First introduce the
architecture of the MapReduce and Hadoop platform, then gives the datastructure
clustering, and then describe the framework model of large-scale data clustering based on
MapReduce.
2) Proposeing a parallel fuzzy partition algorithm based on MapReduce. The algorithm
first abstract attributes and standardization, according to standard after the establishment of
project characteristics attribute similarity matrix, the use ofblock matrix ideological division
matrix, MapReduce is used to process the block matrix and merge the results, according to
the threshold judgment so as to obtaina plurality of ordered items into groups.
3) Based on the parallel fuzzy partition algorithm is implemented on a Hadoop cluster of
MapReduce. Compared with the K-means algorithm of parallel algorithm and genetic
algorithm, not only improves the clustering accuracy rate and recall rate. At the same time
speedup in large-scale data calculation can get higher, effective and accurate fuzzy partition
project resources.
Key word: Clustering, Large-scale, MapReduce, Parallel Computing,
Cloud Computing.
目 录
ABSTRACT
第一章 绪论.............................................................1
1.1 研究背景.........................................................1
1.2 研究现状.........................................................3
1.3 论文研究内容及结构...............................................5
第二章 聚类以及 MAPREDUCE 的基本介绍..................................7
2.1 聚类简介..........................................................7
2.2 典型的聚类算法....................................................8
2.2.1 k-means 算法..................................................8
2.2.2 模糊聚类算法................................................11
2.2.3 谱聚类算法..................................................13
2.3 聚类算法的并行化................................................15
2.3.1 k-means 算法的并行化.........................................16
2.3.2 谱聚类算法的并行化..........................................16
2.4 MapReduce 框架介绍..............................................16
2.4.1 Hadoop 平台.................................................16
2.4.2 MapReduce 模型..............................................18
2.5 本章小结........................................................19
第三章 大规模数据聚类框架模型..........................................20
3.1 集群............................................................20
3.1.1 集群体系结构................................................20
3.1.2 Hadoop 集群.................................................21
3.2 大规模数据集群资源调度..........................................22
3.3 聚类数据模型....................................................25
3.3.1 数据矩阵....................................................25
3.3.2 相异度矩阵..................................................26
3.4 基于 MapReduce 聚类框架模型......................................28
3.5 本章小结........................................................32
第四章 模糊聚类算法优化................................................33
4.1 属性数据标准化..................................................33
4.2 建立模糊相似矩阵................................................34
4.3 基于 MapReduce 矩阵分块乘法求模糊等价闭........................35
4.3.1 MapReduce 模型..............................................35
4.3.2 基于 MapReduce 矩阵乘法的实现................................35
4.3.3 Map 数的计..............................................36
4.3.4 Reduce 数的计............................................37
4.4 根据阈值划分项目................................................37
4.5 算法描述........................................................38
4.6 本章小结........................................................39
结果与分析..................................................40
5.1 用背景介绍....................................................40
5.1.1 系统能模块................................................41
5.1.2 系统数据流图................................................43
5.1.3 对接过程介绍................................................43
5.2 实............................................................46
5.2.1 准确率及查全率测试..........................................47
5.2.2 算法性能测试................................................49
5.3 本章小结........................................................49
结和展......................................................51
6.1 结............................................................51
6.2 展............................................................51
参考..............................................................53
第一章 绪论
第一章 绪论
1.1 研究背景
题研究背景是基于海光电集成技术研云平台项目中市场
平台。
的普[1]
慢地渗透到日常的生活和工作当中。60 代美国国防部为了防止联的核战争
建立了 appanet appanet 着现生。到了 80 年代 TCP/IP
使TCP/IP NSFNET
且很快将界各都连接到一90 ,互联网用户数量飞速增长,
经达半年翻水平,到 2008 12 世界使用互联网技术的用
已经突破10 亿人次。加上目的物联网和可穿戴设备等技术的快速普及,大
规模的数据在以爆炸式的速度产生。
物联网[2]技术的产生快成为信息技术常重要的分。为物联
物联网就是物物之似互联网一样的技术。思:第一
物联然是联网技术是在互联技术的基
展,不仅的网络扩展到了现见摸得着的物
第二,物联网并不某些物体信息交换以及信息
可以体和物体物联可以理解感器
设备协议把任与物体相接通网技到信息的
信,用实现用户对于物体进行能化监管的一种网
从出现了物联网的概念,传统的思想就被打破了。我们可以将现实中已经存
在的种基础设施包括物理的和 IT 的有机合在一起形的统一的基础设施
于物联网的种物联已被广泛用,比如
家居老人护理等领域因此继计算机、互联网之后的物联网会又一次
引起信息产浪潮。据预测未来10 内,物联网技术进行大规模地普及,
物联网技术的普及发展成为一个有价值的科技加的
能,能够实现信息共享一问题一物联网的发展
随着云计算技术的发展和日对于大规模数据的算处理能有了
大规模的提高,样也可以更好支持物联网技术的普及。
[3]一种
新兴的以基础资源标的商业计算模型云计常是的,
易扩展的虚拟化资。云计算的运与互联网技术较为相似云计的计
在分布式算机上进行,而并不是传统本地计算中。样就使用户
根据需求访计算机系统,系统资源也可切换所需要的进行上。
同于PC 想是以互,将
不同的物理资广大用户提
供安全、可、快速、便捷、透的基础设施服务,平台服务,用服务等。
从为用户提服务的,云计算是为满足用户的需求,将计算资源
软件通过联网向广大用户提化技术将计算资源为提
1
理工大学硕士学位论文
计算便使以互联网介进行有目的
计算技术可以便集大量地的计算资,并化技转换
理资源为可动态配虚拟资源,系统动虚拟机资源可使计算机资
得到分的利用。IT 现在出现了力雄厚的云计算服务提供商
如,亚马逊谷歌雅虎内的代表阿里等。这些云服务商把云计算领域专家
和个种技起来企业的云服务。云计算集中
计算资源,并用户,实了计算资源的最优云计算的服务
革新企业信息需求的传统模使算服
企业供部的信息需服务的模于大量分计算资源有计
使用、高效地组织起来节制的利用并为用户进行合理调度,这些是目
和工业界都在关解决问题。
,计算机的普及和互联网的大的影响着的日常生活,
通过更迅便捷的方来获取我需要的信息和数据数据的增及数
据的复杂使数据大,量的数据被人们应理、
项研发当,并互联网和云技术的展和普及使信息的数据量
会保的增研究现在的数近几十年
网出现以后产生的。随着互联网的发展以及普及,我们可以通过不同的终端
或者手段的数,大数据让我能有足够
以及地上的一作为一个去看待和分析,是在从前完全无法想象的。
以及生物基因学提出大数据科,
的研究和发展于大量数据的研究分析。目技术的快发展
大规模数据的也不仅仅科,到了他各领域
大数我们的生活方法,工作
的思,可以预见大数据进一渗透我们这个时
市场领域大数据[4]为的重要。大数据的用可以使企业更好
的了为。企业通过互联网中方面的数分析
得到户的帮助企业企业情况
集得户数信息建立出数据模型对户的行为进测这
加全面的了解户。零售Target 大数据分析中到的有价
值的信息,可得到户想要小准确另外电信通过
数据的分析,可以,而沃尔司则根据大数据的
确准确的预测个产可以得到
需求和各自驾驶水平。交易是大数据在金融主要用的领域交易
中的交易就是数据算法而产生的利用大数据算法可测很
股权交易行,大数多涉领域和网
领域来预测未来几内的数据信息。
在大数据的实用中,用分析的数据量大,能得到的西
可以得到东西需要的,价值的。因此
需要对大规模的数据进行一的处理和分析,用来获取我们得到的结果。
这些应用的数据计算复杂因此对于计算的要求也在增加。GPU[5]在成
本和CPU CPU
就为大规模的数据处理提的解决方法。GPU 提高处理能
通过加并行处理更多管被GPU
2
摘要:

面向大规模数据聚类的优化机制研究摘要随着科技的飞速发展和计算机等技术的普及,互联网就像是水和电一样慢慢地渗透到日常的生活和工作当中。互联网用户的急速增长,加上现在移动互联网、物联网等技术的普及,大规模数据也飞速产生。面对大规模数据,聚类方法也成为在数据中找出有用信息的最重要的途径之一。对于大规模数据集,传统的聚类方法可能不足以得到一个满意的结果。在传统聚类方法的基础上,针对大规模数据中资源信息无序的问题,从而导致用户服务质量下降,为了解决大规模数据中准确快速找出所需资源的问题,提出了一种针对大规模数据的并行化模糊聚类算法。本论文主要工作如下:1)构建了一个大规模数据聚类框架模型。首先介绍了集群...

展开>> 收起<<
面向大规模数据聚类的优化机制研究.doc

共51页,预览6页

还剩页未读, 继续阅读

作者:侯斌 分类:高等教育资料 价格:15积分 属性:51 页 大小:14.58MB 格式:DOC 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 51
客服
关注