分布式环境下的海量数据存储技术的研究

VIP免费
3.0 牛悦 2024-11-19 4 4 4.45MB 60 页 15积分
侵权投诉
摘 要
随着社会的发展、科技的进步,数据存储问题日益突出,在很多领域出现了
海量数据。同时随着 P2P 技术在互联网中的不断发展应用,加上 P2P 络的
扩展性、健壮性等特点,使得 P2P 技术在网络存储共享方面有着极为明显的优势。
如何在 P2P 网络环境下对海量数据进行合理的组织、可靠的存储,并提供具有高
效性、高可用性、高安全性的分布式存储方法,成为当前的研究热点之一。
在本篇论文中,首先讨论和总结了分布式存储的发展历史和现状,并在对
P2P 技术研究现状进行系统的分析和总结的基础上,改进了一种 P2P 环境下基于
对象存储的分布式存储系统模型。该模型采用结构化 P2P 和非结构化 P2P
的网络拓扑结构的思想进行设计。该模型包含一个结构化 P2P 的中央控制节点元
数据服务器群。元数据服务器运行在结构化 P2P 网络中的服务器上,它负责管理
由用户访问时所使用文件名到对象存储设备(OSD)对象 ID 的映射关系、对象
存储文件系统中的缓存数据一致性、用户认证以及安全证书的管理等等。
该模型同时利用对象存储技术来提高系统性能和可伸缩性。在对象存储系统
中,对象取代数据块成为存储管理的基本单元,对象是一段可变长的数据,通常
由多个数据块组成,具有类似文件的读写访问接口。对象维护自己的属性和数据
块,分担并减少了存储系统的管理任务,增强了系统的可伸缩性。其中对象存储
设备运行在非结构化的 P2P 网络环境中,以元数据服务器为它的中心控制节点,
数据存放在对象存储设备上。这样,对象存储设备、元数据服务器以及客户端就
构建了一个巨大的存储网络,从而达到海量数据存储的目的,并较好地解决了网
络中对象存储节点的数据负载均衡及元数据服务器的单点失效问题。同时,引入
副本管理技术,提升了存储模型系统的性能。
通过对本系统的功能和性能测试,表明此系统已达到了设计目标并具有良好
的性能。
关键字:海量数据存储 分布式存储 P2P 对象存储 副本管理
ABSTRACT
With the development of our society and the science technology, The
contradiction has manifested itself in data storage,the huge data appeared in many
field. At the same time as P2P technology in the continuous development of Internet
application, plus P2P networks of high expansibility and robustness etc, make the P2P
technology in network storage sharing has a distinct advantage. How to get reasonable
of huge data organizationreliable storage,and provide effective,high availability
and high security of distributed storage in P2P network environment, become one of
the current study hotspot.
In this thesis,we discusse and summarize about the history and present situation
of the distributed storage first, then base on the comprehensive analysis and summary
of P2P technology status’study, we improve a P2P environment of distributed storage
system model based on object storage. This model adopted structured P2P and
unstructured P2P network topology mind to design. The model has a structured P2P
central control node metadata server group. Metadata server running on the structural
P2P network, it is responsible for the the mapping relationship between the file name
of user access and the object ID of the object storage device(OSD), the cache data
consistency in data storage file system, user authentication and safety certificate
management, etc.
This model also use an object storage technology to improve system performance
and scalability. In the object storage system, object replace data block become storage
management's basic unit, the object is a section of variable-length data, usually
composed by multiple data blocks, with the similar documents literacy access
interface.Object to maintain their own attributes and data blocks, sharing and reduce
the storage system administration tasks, and enhance the system scalability. Object
storage equipment running in unstructured P2P network environment, based on the
metadata server for its center control node. Data store in object storage device. So the
object storage equipment, metadata server and client will construct a huge storage
network, so as to achieve the purpose of huge data storage, and good solve the
problem of the data load balance of network object storage nodes and metadata server
single-point failure. At the same time introduce replica management technology, it
will promote the storage model system performance well.
Through this system function and performance test indicates that the system have
reached the design goal and have high performance.
Keywords:huge data storage, distributed storage, P2P, object storage,
replica management
目 录
摘 要
ABSTRACT
第一章 绪 论 ......................................................... 1
§1.1 研究的背景及意义 ............................................ 1
§1.2 国内外研究现状 .............................................. 1
§1.3 本文的主要工作及结构 ........................................ 2
§1.3.1 主要工作 ............................................... 2
§1.3.2 本文结构 ............................................... 3
第二章 相关技术综述 .................................................. 4
§2.1 分布式技术 .................................................. 4
§2.1.1 P2P 的定义 ............................................. 4
§2.1.2 P2P 模式与 C/S 模式的比较 ............................... 5
§2.1.3 P2P 的应用 ............................................. 9
§2.1.4 本文涉及的主要关键技术 ................................ 10
§2.2 数据存储技术 ............................................... 10
§2.2.1 数据存储技术发展的现状 ................................ 11
§2.2.2 基于对象的网络存储 .................................... 13
§2.3 文件系统 ................................................... 13
§2.3.1 网络文件系统 .......................................... 14
§2.3.2 分布式文件系统 ........................................ 14
§2.3.3 新兴的分布式文件系统 .................................. 14
第三章 基于对象的 P2P 网络存储系统的体系结构 ......................... 16
§3.1 基于对象存储系统的基本概念 ................................. 16
§3.1.1 对象 .................................................. 16
§3.1.2 基于对象的存储设备 .................................... 16
§3.1.3 iSCSI 协议架构 ........................................ 17
§3.2 基于对象存储系统的体系结构 ................................. 19
§3.2.1 分布式元数据服务器 .................................... 19
§3.2.2 客户端 ................................................ 20
§3.2.3 对象存储设备 .......................................... 21
§3.3 基于对象存储系统工作流程 ................................... 22
第四章 分布式数据存储模型的实现与分析 ............................... 23
§4.1 系统总体架构 ............................................... 23
§4.2 存储路由模型 ............................................... 23
§4.2.1 元数据服务器互联拓扑结构 .............................. 24
§4.2.2 对象存储设备互联拓扑结构 .............................. 27
§4.2.3 高速缓存的设计 ........................................ 30
§4.2.4 冗余备份的设计 ........................................ 30
§4.3 元数据服务器 ............................................... 30
§4.3.1 元信息 ................................................ 31
§4.3.2 内存结构 .............................................. 32
§4.4 对象存储设备 ............................................... 33
§4.4.1 OSD 数据存放 .......................................... 33
§4.4.2 OSD 元信息 ............................................ 34
§4.4.3 OSD 内存结构 .......................................... 34
§4.5 客户端设计 ................................................. 36
§4.5.1 与元数据服务器通信 .................................... 36
§4.5.2 主要数据结构 .......................................... 38
§4.5.3 与 OSD 通信 ............................................ 39
§4.6 副本管理策略 ............................................... 42
§4.6.1 副本管理框架 .......................................... 43
§4.6.2 副本创建策略 .......................................... 45
第五章 性能测试、比较及分析 ......................................... 49
§5.1 测试环境 ................................................... 49
§5.2 测试结果及分析 ............................................. 49
§5.2.1 负载性能测试 .......................................... 49
§5.2.2 副本管理性能测试 ...................................... 50
第六章 结论及下一步工作 ............................................. 53
参考文献 ............................................................ 54
在读期间公开发表的论文和承担科研项目及取得成果 ...................... 56
.............................................................. 57
第一章 绪论
1
第一章 绪 论
§1.1 研究的背景及意义
伴随人类实验手段的丰富、测量仪器的进步、活动空间的膨胀,对个人和公
司而言,数据存储[1]问题日益突出。在很多领域出现了海量数据,比如能源研究
和仿真、高能物理研究、海洋和大气科学研究、气候变化和天气预报研究、地质
勘查、用于航空宇宙设计复杂的多物理场、地震数据的分析等。这些海量数据占
用了昂贵的存储设备,给服务器和网络带宽带来了巨大压力。对这些海量数据而
言,传统的基于单机或集中式海量数据存储管理体制已经不能适应大规模数据密
集型应用程序的复杂性和性能要求。随着互联网的迅猛发展,网络存储能很好地
解决这类瓶颈问题。
顾名思义,网络存储[2,3]就是通过网络存储设备如专用数据交换设备、磁盘
阵列或者磁带库等存储介质以及专用的存储软件,利用原有的网络构建一个存储
专用网络,从而为用户提供统一的信息系统的信息存取和共享服务[4]其特点是
适应大容量数据存储、数据有限制共享、数据挖掘和信息充分利用的需求。与此
同时,网络存储还具有可扩展性强、可提供大数据量的信息传输等特点。然而传
统的网络存储系统采用集中存储服务器存放所有的数据,存储服务器成为系统性
能的瓶颈,同时存在单点失效问题。从应用趋势上看,传统的集中式网络存储已
经不能满足日益增长的需求了,而分布式存储方式使解决这些问题变得越来越现
实。
如何在分布式网络环境下,对海量数据进行合理的组织和可靠的存储,并使
其具有高效性、高可用性、高安全性,成为当前的一个研究热点。适合海量数据
[5]的理想存储结构应该能够提供可伸缩、高性能、跨平台、安全的数据共享能力。
典型分布式技术包括中间件技术、网格技术、移动Agent技术、P2P技术、
WEB SERVICE术等。其P2P技术的主要思想是共享服务与资源。本文的目
的就是着力于研究P2P环境下的海量数据存储,利用结构化P2P和非结构化P2P
联的网络拓扑结构的思想,并在对象存储的基础上构建一个分布式存储系统模
型,以解决海量数据存储的问题。
§1.2 国内外研究现状
目前国际上存在着几个以支持广域网范围海量文件存储[6]为目标的系统,
们分别是OceanStorePastCFS。它们采用的也都是P2P体系结构,而且,目前
均处于发展阶段。
OceanStore[7,8,9,10]的路由算法基础为Tapestry在该算法的基础上,OceanStore
摘要:

摘要随着社会的发展、科技的进步,数据存储问题日益突出,在很多领域出现了海量数据。同时随着P2P技术在互联网中的不断发展应用,加上P2P网络的高扩展性、健壮性等特点,使得P2P技术在网络存储共享方面有着极为明显的优势。如何在P2P网络环境下对海量数据进行合理的组织、可靠的存储,并提供具有高效性、高可用性、高安全性的分布式存储方法,成为当前的研究热点之一。在本篇论文中,首先讨论和总结了分布式存储的发展历史和现状,并在对P2P技术研究现状进行系统的分析和总结的基础上,改进了一种P2P环境下基于对象存储的分布式存储系统模型。该模型采用结构化P2P和非结构化P2P混合的网络拓扑结构的思想进行设计。该模型...

展开>> 收起<<
分布式环境下的海量数据存储技术的研究.pdf

共60页,预览6页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:60 页 大小:4.45MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 60
客服
关注