面向大规模数据聚类的优化机制研究
![](/assets/7a34688/images/icon/s-doc.png)
VIP免费
面向大规模数据聚类的优化机制研究
摘 要
随着科技的飞速发展和计算机等技术的普及,互联网就像是水和电一样慢慢地渗
透到日常的生活和工作当中。互联网用户的急速增长,加上现在移动互联网、物联网等
技术的普及,大规模数据也飞速产生。面对大规模数据,聚类方法也成为在数据中找
出有用信息的最重要的途径之一。对于大规模数据集,传统的聚类方法可能不足以得
到一个满意的结果。在传统聚类方法的基础上,针对大规模数据中资源信息无序的问
题,从而导致用户服务质量下降,为了解决大规模数据中准确快速找出所需资源的问题,
提出了一种针对大规模数据的并行化模糊聚类算法。
本论文主要工作如下:
1) 构建了一个大规模数据聚类框架模型。首先介绍了集群的体系架构以及分析
Hadoop 集群的特点,针对数据规模太大导致集群无法一次性处理所有数据的情况,给
出了集群资源调度的方法,其次给出了聚类的数据结构,然后描述了基于 MapReduce
的大规模数据聚类的框架模型。
2)提出了一种针对大规模数据的并行化模糊算法。该算法首先抽象特征属性并将
特征属性标准化,根据特征属性建立项目相似矩阵,运用矩阵分块思想不影响矩阵计
算结果分割矩阵,利用 MapReduce 技术处理每个小分块矩阵并合并结果,根据阈值划
分结果矩阵,得到若干个有序项目类。
3)在 Hadoop 集群下实现基于 MapReduce 的模糊算法。算法与并行化的传统 K-
means 算法和遗传算法比较,不仅提高了聚类的准确率和查全率。同时在计算大规模数
据的时候能够得到较高的加速比,有效准确地将数据进行模糊聚类划分。
关键词:聚类 大规模数据 MapReduce 并行计算 云计算
ABSTRACT
With the popularization of computer and network, Internet is like air, water and
electrical penetration near our life and work. The rapid growth of Internet users, the
popularity of mobile Internet, now the mass data is rapidly generate. In the face of mass data,
clustering method has become one of the most important ways to find useful information in
the data. For large data sets, traditional clustering methods may not be enough to get a
satisfactory result. Based on the traditional clustering method, to solve the problem of
resource information data in large disorder, resulting in a decline in customer service, in
order to resources needed toaccurately and quickly find out the problem solving large-scale
data parallelism, puts forward a fuzzy clustering algorithm based on MapReduce.
The main work of this thesis is as follows:
1) Building a large-scale data clustering framework model. First introduce the
architecture of the MapReduce and Hadoop platform, then gives the datastructure
clustering, and then describe the framework model of large-scale data clustering based on
MapReduce.
2) Proposeing a parallel fuzzy partition algorithm based on MapReduce. The algorithm
first abstract attributes and standardization, according to standard after the establishment of
project characteristics attribute similarity matrix, the use ofblock matrix ideological division
matrix, MapReduce is used to process the block matrix and merge the results, according to
the threshold judgment so as to obtaina plurality of ordered items into groups.
3) Based on the parallel fuzzy partition algorithm is implemented on a Hadoop cluster of
MapReduce. Compared with the K-means algorithm of parallel algorithm and genetic
algorithm, not only improves the clustering accuracy rate and recall rate. At the same time
speedup in large-scale data calculation can get higher, effective and accurate fuzzy partition
project resources.
Key word: Clustering, Large-scale, MapReduce, Parallel Computing,
Cloud Computing.
目 录
摘 要
ABSTRACT
第一章 绪论.............................................................1
1.1 研究背景.........................................................1
1.2 研究现状.........................................................3
1.3 论文研究内容及结构...............................................5
第二章 聚类以及 MAPREDUCE 的基本介绍..................................7
2.1 聚类简介..........................................................7
2.2 典型的聚类算法....................................................8
2.2.1 k-means 算法..................................................8
2.2.2 模糊聚类算法................................................11
2.2.3 谱聚类算法..................................................13
2.3 聚类算法的并行化................................................15
2.3.1 k-means 算法的并行化.........................................16
2.3.2 谱聚类算法的并行化..........................................16
2.4 MapReduce 框架介绍..............................................16
2.4.1 Hadoop 平台.................................................16
2.4.2 MapReduce 模型..............................................18
2.5 本章小结........................................................19
第三章 大规模数据聚类框架模型..........................................20
3.1 集群............................................................20
3.1.1 集群体系结构................................................20
3.1.2 Hadoop 集群.................................................21
3.2 大规模数据集群资源调度..........................................22
3.3 聚类数据模型....................................................25
3.3.1 数据矩阵....................................................25
3.3.2 相异度矩阵..................................................26
3.4 基于 MapReduce 聚类框架模型......................................28
3.5 本章小结........................................................32
第四章 模糊聚类算法优化................................................33
4.1 属性数据标准化..................................................33
4.2 建立模糊相似矩阵................................................34
4.3 基于 MapReduce 矩阵分块乘法求模糊等价闭包........................35
4.3.1 MapReduce 模型..............................................35
4.3.2 基于 MapReduce 矩阵乘法的实现................................35
4.3.3 Map 函数的设计..............................................36
4.3.4 Reduce 函数的设计............................................37
4.4 根据阈值划分项目................................................37
4.5 算法描述........................................................38
4.6 本章小结........................................................39
第五章 实验结果与分析..................................................40
5.1 应用背景介绍....................................................40
5.1.1 系统功能模块................................................41
5.1.2 系统数据流图................................................43
5.1.3 对接过程介绍................................................43
5.2 实验............................................................46
5.2.1 准确率及查全率测试..........................................47
5.2.2 算法性能测试................................................49
5.3 本章小结........................................................49
第六章 总结和展望......................................................51
6.1 总结............................................................51
6.2 展望............................................................51
参考文献..............................................................53
第一章 绪论
第一章 绪论
1.1 研究背景
本课题研究背景是基于上海光机电集成技术研究院云平台项目中的市场对接
平台。
随着科技的飞速发展和计算机等技术的普及[1],互联网就像是水和电一样慢
慢地渗透到日常的生活和工作当中。60 年代美国国防部为了防止苏联的核战争威
胁建立了 appanet 网络,appanet 网络标志着现代网络的诞生。到了 80 年代 TCP/IP
协议成功产生,使得基于 TCP/IP 技术的 NSFNET 成为了世界上的第一个互联网,
并且很快将世界各地都连接到一起。90 年代以来,互联网用户数量飞速增长,已
经达到每半年翻一番的平均水平,到 2008 年12 月,全世界使用互联网技术的用
户已经突破了10 亿人次。加上目前的物联网和可穿戴设备等技术的快速普及,大
规模的数据正在以爆炸式的速度产生。
物联网[2]技术的产生很快成为新一代信息技术非常重要的组成部分。何为物联
网?物联网就是物物之间相连组成类似互联网一样的技术。有两层意思:第一,
物联网仍然是依赖于互联网技术而存在的,只是在互联网技术的基础上做了一定
的扩展,不仅仅局限于虚拟的网络,把网络扩展到了现实的看得见摸得着的物品
上;第二,物联网并不局限用户只在某些物体之间进行信息交换以及信息通信,
可以是任何物体和物体之间。因此,物联网我们可以理解为是通过一定的传感器
设备,按一定的协议,把任何物体与物体相连接通过互联网技术达到信息的交换
和通信,用来实现用户对于物体进行智能化监管的一种网络。
自从出现了物联网的概念,传统的思想就被打破了。我们可以将现实中已经存
在的各种基础设施包括物理的和 IT 的有机整合在一起形成新的统一的基础设施。
由于物联网的种种优势,如今在多个领域物联网都已被广泛地运用,比如智能交
通、智能家居、老人护理等多个领域。因此继计算机、互联网之后的物联网会又一次
引起信息产业的浪潮。据预测在未来的10 年内,物联网技术会进行大规模地普及,
物联网技术的普及将会发展成为一个非常有价值的高科技市场。物品只有更加的
智能,才能够实现信息的共享以及通信这一问题一直阻碍着物联网的发展,但是
随着云计算技术的不断发展和日趋成熟,对于大规模数据的计算处理能力也有了
很大规模的提高,这样也可以更好的支持物联网技术的普及。
云计算[3]是随着互联网技术的快速发展和大规模数据的迅速膨胀诞生的一种
新兴的以基础资源共享为目标的商业计算模型。云计算涉及的通常是动态的,且
易扩展的虚拟化资源。云计算的运行与互联网技术较为相似,因为云计算的计算
都在分布式计算机上进行,而并不是传统的本地计算机中。这样就使得用户可以
根据需求访问计算机系统,系统资源也可以被切换到所需要的进行的应用上。不
同于传统的以个人PC 机为中心的本地计算,其思想是以互联网为中心,将各种
不同的物理资源节点整合起来形成一个庞大虚拟资源池;向网络中的广大用户提
供安全、可靠、快速、便捷、透明的基础设施服务,平台服务,应用服务等。
从为用户提供服务的角度来说,云计算是指为满足用户的需求,将计算资源
和应用软件通过互联网向广大用户提供服务。虚拟化技术将计算资源转换为提供
1
上海理工大学硕士学位论文
计算能力的商品,这样便可以使计算能力以互联网为媒介进行有目的的交换。云
计算技术可以方便地聚集大量地理位置分布的计算资源,并用虚拟化技术转换物
理资源为可动态配置的虚拟资源,系统动态的配置虚拟机资源可以使计算机资源
得到充分的利用。IT 行业现在已经出现了许多实力雄厚的云计算服务提供商,例
如,亚马逊、谷歌、雅虎和国内的代表阿里等。这些云服务商把云计算领域的专家
和个种技术人员集中起来专门为企业提供各种非常专业的云服务。云计算集中了
计算资源,并按需分配给用户,实现了计算资源的最优化配置。云计算的服务模
式的诞生革新了企业对信息需求自给自足的传统模式,使其转变为由云计算服务
商为企业提供部分的信息需服务的模式。对于大量分布式的计算资源如何有计划
的使用、高效地组织起来、有节制的利用并为多用户进行合理调度,这些是目前理
论界和工业界都在关注的待解决问题。
目前,计算机的普及和互联网的应用巨大的影响着我们的日常生活,我们可
以通过更迅速、更便捷的方式来获取我们需要的信息和数据,数据的增多以及数
据的复杂使得数据库的应用不断扩大,大量的数据被人们应用在管理、办公和各
项研究开发当中,并且由于互联网和云技术的发展和普及,使得信息的数据量仍
然会保持飞速的增长势头。据研究现在世界上绝大部分的数据都是近几十年互联
网出现以后才产生的。随着互联网的发展以及普及,我们可以通过不同的终端、应
用或者其他的手段收集到多元的数据,大数据让我们能有足够的能力和视野将地
球以及地球上的一切作为一个整体去看待和分析,这是在从前完全无法想象的。
天文学以及生物基因学是最早提出大数据这一概念的学科,因为这两个学科
的研究和发展离不开对于大量数据的研究和分析。目前随着科学技术的快速发展
大规模数据的应用也不仅仅局限于这两个学科,逐渐被扩展到了其他各个领域。
大数据带给我们生活巨大的改变,改变了我们的生活方法,工作方式,甚至是我
们的思维方式,可以预见大数据还会进一步渗透入我们这个时代。
在市场领域大数据[4]目前的应用尤为的重要。大数据的应用可以使得企业更好
的了解他们客户的爱好和行为。企业通过在互联网中搜集客户各方面的数据分析
得到客户的相应的喜好帮助企业更有效地完成市场匹配。企业在通常情况下会通
过搜集得打的客户数据信息建立出数据模型对客户的行为进行预测这会帮助企业
更加全面的了解客户。美国的著名零售商Target 通过在大数据分析中得到的有价
值的信息,可以精准预测得到客户想要小孩的准确时间。另外,电信公司通过大
数据的分析,可以预测出将要流失的客户,而沃尔玛公司则根据大数据的应用更
加精确准确的预测到哪个产品将会热卖,汽车保险行业可以得到客户更加明确的
需求和各自的驾驶水平。高频交易是大数据在金融行业主要应用的领域。高频交易
中的交易决定就是由大数据算法而产生的。目前的利用大数据算法可以预测很多
股权的交易进行,大数据应用也目前也越来越多涉及了社交媒体领域和网站新媒
体领域用来预测在未来几秒内的数据信息。
在大数据的实际应用中,用来分析的数据量越大,能得到的东西就会越多,
但是没有人可以保证得到的那些东西是我们所需要的,或者是有价值的。因此我
们需要对大规模的数据进行一定的处理和分析,用来获取我们所希望得到的结果。
这些应用的数据计算越来越复杂,因此对于计算的要求也在增加。GPU[5]在成
本和功耗和CPU 差不多的前提下,其处理能力与CPU 相比在存储带宽上要好,
这就为大规模的数据处理提供了新的解决方法。GPU 来提高处理能力和存储器带
宽通过添加并行处理单元和存储器控制单元。更多的晶体管被加入到GPU 内被用
2
摘要:
展开>>
收起<<
面向大规模数据聚类的优化机制研究摘要随着科技的飞速发展和计算机等技术的普及,互联网就像是水和电一样慢慢地渗透到日常的生活和工作当中。互联网用户的急速增长,加上现在移动互联网、物联网等技术的普及,大规模数据也飞速产生。面对大规模数据,聚类方法也成为在数据中找出有用信息的最重要的途径之一。对于大规模数据集,传统的聚类方法可能不足以得到一个满意的结果。在传统聚类方法的基础上,针对大规模数据中资源信息无序的问题,从而导致用户服务质量下降,为了解决大规模数据中准确快速找出所需资源的问题,提出了一种针对大规模数据的并行化模糊聚类算法。本论文主要工作如下:1)构建了一个大规模数据聚类框架模型。首先介绍了集群...
相关推荐
-
VIP免费2024-10-15 6
-
VIP免费2024-10-15 8
-
VIP免费2024-10-15 6
-
VIP免费2024-10-15 6
-
VIP免费2024-10-15 6
-
VIP免费2024-10-15 6
-
VIP免费2024-10-15 7
-
VIP免费2024-10-15 6
-
VIP免费2024-10-15 10
-
VIP免费2024-10-15 11
作者:侯斌
分类:高等教育资料
价格:15积分
属性:51 页
大小:14.58MB
格式:DOC
时间:2024-11-19