多机群网格的数据负载均衡模型
VIP免费
摘 要
随着数据密集型的广泛应用,海量数据也呈现在社会的各个领域。因而如何有
效的管理和高效的使用这些海量数据是摆在人们面前的一个重要任务。网格计算
为海量数据的管理提供了强有力的支持。利用多个计算机机群构建多机群网格来
实现海量数据的管理是一个有效的途径。由于多机群的节点具有异构特性,能力
的不均衡性,致使海量数据的查询系统实现比较困难。其中数据负载均衡问题是
一个研究的热点。
在多个计算机构成的网格环境下,为了提高多机群网格的异构资源的利用率,
提出了一个数据负载均衡模型。该模型涉及的关键技术包括:TCP/IP 协议,Java
多线程技术,Java Socket 通信技术,JDBC 技术,海量数据的预处理及其批处理
技术,索引技术等。
研究的工作主要包括:1.构建多机群网格的体系结构,界定多机群网格中的
资源,这些资源主要包括控制节点,数据库服务器,查询节点,互连网络等。 2.
确定多机群网格的资源评价参数,主要根据查询节点的计算能力,存储能力,通
信能力等因素来计算查询节点的综合性能,再按照该综合性能划分数据,从而实
现查询节点的综合性能和所分配的数据相匹配,进而达到数据负载均衡的目的。3.
数据负载均衡算法:提出在多机群网格环境下的一个通用数据负载均衡算法以及
一个针对 Join 操作的数据负载均衡算法。4.针对两类算法的相关试验以及相关分析
关键词:多机群网格 异构资源 数据负载均衡 数据饱和度
ABSTRACT
With broad application of data denseness,massive data take on social every
domain.So how to manage and use it effectually is an important task for people. Grid
computing provides strong support for massive data management. Utilizing mutiple
computer clusters to construct mutiple clusters grid which actualize massive data
management is an effective approach.Because of heterogeneous characteristic of node
of mutiple clusters,its capability imbalance,it makes more difficult to realize query
system of massive data.Data load balance is one of hot research questions.
To improve heterogeneous resource’s using efficiency in multi-cluster grid that is
constructed by multi-computers,a data load balance model is proposed.The key
technology about the model are including TCP/IP protocol,Java multiple thread
technology, Java Socket communication technology,JDBC technology , preparation and
batch processing of massive data,and index technology and so on.
Research work are including as follows: 1. The framework of multiple clusters grid
is constructed,and the resources of in MCG are confirmed,and these resources are
including mainly control nodes, database service nodes,query nodes and interconnected
network and so on. 2.The resource evaluating parameters are fixed on which are used to
compute query node’s integrative capability according to query node’s capability of
computing ,storage and communication, then data partition is in accordance with the
integrative capability,and the purpose of data load balance can be achieved. 3. Data
load banlance algorithm: a universal data load banlance algorithm and a data load
banlance algorithm aiming at join operation are proposed in MCG. 4.The experimens
are about two kinds of algorithm and the interrelated analyses.
Key Word :Multi-Cluster Grid , heterogeneous resource , data load
balance , data saturation
目 录
摘要
ABSTRACT
第一章 绪论.....................................................................................................................1
第二章 相关技术概述.....................................................................................................3
§2.1 可扩展的并行计算机体系结构.......................................................................3
§2.2 机群技术...........................................................................................................6
§2.3 网格技术...........................................................................................................8
§2.4 负载均衡.........................................................................................................10
§2.5 数据分布方法.................................................................................................12
第三章 主要关键技术...................................................................................................15
§3.1 TCP/IP 协议....................................................................................................15
§3.2 Java 多线程技术.............................................................................................17
§3.3 Java Socket 通信技术.....................................................................................21
§3.4 数据库存取技术.............................................................................................22
§3.5 数据库的完整性.............................................................................................25
§3.6 索引技术.........................................................................................................26
第四章 多机群网格 MCG............................................................................................31
§4.1 多机群网格 MCG 的体系结构......................................................................31
第五章 数据负载均衡算法..........................................................................................36
§5.1 第一类数据负载均衡算法.............................................................................36
§5.1.1 算法相关概念.......................................................................................36
§5.1.2 算法描述...............................................................................................37
§5.2 第二类数据负载均衡算法.............................................................................39
§5.2.1 相关定义...............................................................................................39
§5.2.2 算法描述...............................................................................................41
第六章 试验及其分析...................................................................................................44
§6.1 试验环境及其应用背景.................................................................................44
§6.2 试验的关键实现部分.....................................................................................45
§6.2.1 数据库管理类.......................................................................................45
§6.2.2 产生初始数据的的相关类...................................................................49
§6.2.3 文件传输相关类...................................................................................57
§6.3 第一类数据负载均衡算法试验.....................................................................62
§6.4 第二类数据负载均衡算法试验.....................................................................64
第七章 结束语...............................................................................................................65
参考文献.........................................................................................................................66
第一章 绪论
第一章 绪论
突破单机计算能力限制的一个根本途径是实现并行计算[1-4]。自上个世纪90 年
代以来,并行计算得以空前的飞速发展,一方面,由于单处理机的计算速度不断
提高,并行计算机的体系结构趋于成熟,数据传输网络的标准化和传输速率的大
幅提升,使得并行计算机的研制周期能够从几年到几个月,为研制并行计算机系
统创造了有利条件。另一方面,推动并行计算发展的主要动力来自于国际上的一
些重要研究计划。如美国HPCC 计划,美国ASCI 计划。,但高性能大规模并行计
算机费用高、成本高,一般用户难以承受,而机群[5-7]计算可以提供高性价比的高
性能计算服务。典型的机群系统有曙光2000/3000 , IBM SP 系列,Beowulf 机群等。
网格[8-11]( Grid) 是利用高速国际互联网或专用网络把地球上广泛分布的计算资源、
存储资源、通信资源、网络资源、软件资源、数据资源、信息资源、知识资源等连成
一个逻辑整体, 最终实现用户在格网这个虚拟组织环境上进行资源共享和协同工
作消除信息孤岛和资源孤岛 。
随着数据密集型的广泛应用,海量数据也呈现在社会的各个领域。因而如何有
效的管理和高效的使用这些海量数据是摆在人们面前的一个重要任务。网格计算
[12-16]为海量数据的管理提供了强有力的支持。利用多个计算机机群[17-18]构建多机
群网格来实现海量数据的管理是一个有效的途径。由于多机群的节点具有异构特
性,能力的不均衡性,致使海量数据的查询系统实现比较困难。其中数据负载均
衡问题是一个研究的热点。有关数据负载均衡文献[19-23]有很多。文献[19]提出一个
分布式数据流处理中的负载分配策略。在分布式数据流系统中, 连续查询网络数据
流通常需要在多台计算机上运行, 其中每台计算机运行连续查询网络的一个子网,
它们相互合作共同完成连续查询任务。当输入数据流速发生较大波动时, 会引起相
关连续查询子网过载, 从而影响整个连续查询网络的数据处理能力。针对这一实际
问题, 分析了分布式数据流系统和连续查询网络的特点以及现有负载处理方法 , 建
立了问题的规划模型, 提出了分布式数据流处理的一种负载分配策略。该策略以元
操作为基本负载移动单元, 在保证系统负载平衡的前提下, 极小化节点间的数据传
输量。文献[20]提出并行计算中基于势能的集群负载模型。该模型根据模拟水在多
个容器中的原理,定义系统负载的势能。根据负载的势能实现异构性集群的负载
均衡。文献[21]提出一种新的分布式WFMS 负载平衡调度算法,解决单节点引擎负
载过重的问题。改进后的负载平衡技术比轮询调度算法更能保证多引擎间负载基
本均衡。当多引擎间任务调度出现不平衡,导致某些节点负载过重或是某个节点出
现故障时,多引擎能够根据相应模型策略和实际的信息来动态调整各节点的负载,
这样也可以在一定程度上解决有大量分布式事务处理时的性能问题。另外,负载指
数调度算法实现简单,尽可能地减少了引擎负担。文献[22]提出一种多维集合划分
负载均衡资源优化分配算法。针对多处理群集系统中多个任务处理需要的资源和
多个处理节点能够提供的m 维资源间的合理匹配问题,给出了多维集合划分问题的
优化模型,定义了资源均衡度函数,提出多维集合划分负载均衡资源优化分配算法,
通过该算法可以得到资源匹配NP问题的较优解。
但这些都不能满足多机群网格环境下的海量数据查询。本文根据多机群网格的
两层体系结构,实现数据的划分。根据查询节点的计算能力,存储能力,通信能
力等因素来计算查询节点的综合性能。根据该综合性能划分数据[24-26],从而实现
查询节点的综合性能和所分配的数据相匹配,进而达到数据负载均衡的目的,由
1
多机群网格的数据负载均衡模型
此文中提出在多机群网格环境下的一个通用数据负载均衡算法。
考虑到在多机群网格的环境中,各个关系分布在不同的机群中; 查询处理中的
连接操作[27-29]是影响系统查询效率的关键因素; 而数据存储[30]是影响连接操作的
重要因素.人们相继提出了一些数据分布方法,其中包括一维数据分布和多维数据
分布
。
一维数据分布方法有Round-Robin, Range。一维数据分布方法不能有效地支
持在非划分属性上具有选择谓词的查询. 为此, 文献[31]提出了一种称为Magic的多
维数据分布方法 ,以及文献[32]提出CMD 方法。尽管上述数据划分方法,都有各自
的优势,但是都是假定在各个节点的负载性能[33]是一样的前提下而进行数据划分
的。这些方法既没有考虑各个节点的实际负载性能,也没有考虑到数据之间的内
在联系。本文通过构造一个关联数据分布树,利用该关联数据分布树生成关联元
组集合从而把系统的全局数据根据各个机群的负载能力的分配到相应的机群中。
这样就把同一个元组的所有相关联的元组存储都在查询节点上。本文的方法尽量
避免了连接操作时大量的元组跨不同节点的连接,大大减少了多机群网格环境下
的查询中的通讯负载 ,提高了系统的查询效率[34]。因此提出一个针对Join操作的
数据负载均衡算法。
最后文中对于两个算法都给出了试验相应的结果及其试验分析。实践表明多
机群网格的数据负载模型具有均衡海量数据的查询任务,有效地解决了多机群网
格环境下的数据负载问题。该模型具有良好的动态性,可扩展性。
2
第二章 相关技术概述
第二章 相关技术概述
§2.1 可扩展的并行计算机体系结构
并行计算机随着微处理芯片的发展,已经进入了一个新时代。目前并行计算
机的性能已经接近100TFLOPS,1000TFLOPS 的并行计算机正在规划之中。
根据指令流和数据流的不同,通常把计算机系统分为四类:
单指令流单数据流(SISD);单指令流多数据流(SIMD)
多指令流单数据流(MISD);多指令流多数据流(MIMD)
并行计算机系统除少量早期的、专用的SIMD系统外,绝大部分为MIMD系统。目
前 主 要 的 并 行 计 算 机 系 统 有 五 种: 并 行 向量 机 (PVP ,Parallel Vector
Processor);对称多处理机(SMP,Symmetric Multiprocessor);大规模并行处理
机(MPP,Massively Parallel Processor);机群(Cluster);分布式共享存储多
处理机(DSM,Distributied Shared Memory)。这五类计算机系统代表了当今世界
并行计算机的主要体系结构。简单介绍一下SMP、DSM、MPP。
⑴对称多处理机系统SMP
图2.1是对称多处理机系统的简单结构,它由处理单元、高速缓存、总线或交叉
开关、共享内存以及I/O 等组成。
3
摘要:
展开>>
收起<<
摘要随着数据密集型的广泛应用,海量数据也呈现在社会的各个领域。因而如何有效的管理和高效的使用这些海量数据是摆在人们面前的一个重要任务。网格计算为海量数据的管理提供了强有力的支持。利用多个计算机机群构建多机群网格来实现海量数据的管理是一个有效的途径。由于多机群的节点具有异构特性,能力的不均衡性,致使海量数据的查询系统实现比较困难。其中数据负载均衡问题是一个研究的热点。在多个计算机构成的网格环境下,为了提高多机群网格的异构资源的利用率,提出了一个数据负载均衡模型。该模型涉及的关键技术包括:TCP/IP协议,Java多线程技术,JavaSocket通信技术,JDBC技术,海量数据的预处理及其批处理技...
相关推荐
作者:高德中
分类:高等教育资料
价格:15积分
属性:63 页
大小:568.5KB
格式:DOC
时间:2024-11-19