虚拟磁带库在海量数据备份环境中的应用研究

VIP免费
3.0 陈辉 2024-11-19 4 4 1.87MB 71 页 15积分
侵权投诉
第一章 绪论
1
第一章 绪 论
§1.1 引言
随着计算机信息系统的不断发展,用户的核心业务越来越依赖于信息系统的
可靠运行,信息系统中的关键业务数据已经成为用户最为重要的资产。因此数据
保护保障业务应用系统的连续性运行是企业运营的关键。
数据备份是信息系统保护数据的必要手段,规划备份系统成为了整个企业必
然面临的重要问题。大型企业在规划备份系统方面正面临着严峻的挑战——
量的急剧增长,成本高昂,管理困难等。关键性业务的海量数据备份对服务器的
性能要求很高,资源占用非常严重,导致备份时间窗口过长[1,2]。面对这些问题,
必须改变现有的备份存储架构与备份技术,来应对海量数据备份性能不足这一迫
在眉睫的问题。虚拟磁带库(VTL:Virtual Tape Library)技术为海量数据备份的严
峻困境带来了技术方案。随着虚拟磁带库逐渐得到企业的广泛认可,三级存储备
份架构也得到了普遍的应用,但是这种架构也同时带来了数据备份性能的瓶颈问
题。
§1.2 问题的提出
备份是每个企业的日常性工作,其过程对服务器的 CPUIO 及网络资源的占
用非常严重,而数据量大的关键业务应用系统对服务器的性能要求很高,因此
份的时间窗口大小会受到严格限制。数据量越大,备份时间窗口的问题就会越成
为数据备份系统建设的所面临的严峻挑战。
由于传统物理磁带库在应用中有某些局限性,使得物理磁带库在作海量数据
备份时存在以下问题[3]
1海量数据导致备份时间窗口过长,备份作业无法在规定时间内完成备份任
务,影响生产系统性能;
2磁带读写速度低,磁带库抓带、加载和机械定位等操作导致数据备份、恢
复慢,无法完成日常任务,影响生产系统数据的时效性;
3磁带为非封闭介质,易受损坏;而且数据没有容错保护,从而导致备份失
效率高,干扰日常业务运行;
虚拟磁带库在海量数据备份环境中的应用研究
2
4机械磁带库的故障率高,维护成本高,管理复杂。
在传统的备份模式中,系统的设计者往往通过增加磁带驱动器的数量来提高
备份速度,随着数据量的急剧增长,就需要配置更多的驱动器来满足备份时间窗
口的要求。因此采用物理磁带技术解决备份时间窗口问题非常吃力,会使运行和
维护成本大幅度增加。而众所周知,磁盘驱动器的读写速度比磁带的读写速度快
的多,但磁盘的价格一直居高不下。随着 ATA 及串行 ATA 技术的快速发展,采用
ATA 接口的大容量磁盘的单位容量价格已经与磁带非常接近。虚拟磁带库正是采
用了这种单位容量价格便宜的磁盘,将磁盘虚拟成用户看到的磁带,使备份和恢
复速度可以达到 100MB/s,是磁带库速度的几倍甚至几十倍[4,5]。此外,虚拟磁带
库避免了传统物理磁带库机械臂抓磁带,数据定位慢的问题,故障率低,效率高;
并且它仍然使用简单、全面、图形化用户界面的备份软件和传统的备份流程进行
集中管理[6,7]虚拟磁带库是磁盘存储与磁带存储技术相结合的近线存储备份技术,
从而提高了设备的可用性和备份、恢复速度。因此,将虚拟磁带库应用到海量数
据的存储备份架构中,是数据备份领域发展的必然趋势。
§1.3 国内外的应用现状
目前,美国许多企业级用户已经普遍采用了虚拟磁带库作为数据备份设备;
在国内,中、小型虚拟磁带库已经得到了普遍采用,但是采用大型虚拟磁带库
只有两、三家大型企业。一方面是企业出于设备成本考虑,大型虚拟磁带库价格
昂贵;另一方面是企业对备份设备容量的需求还未达到几百甚至上千 TB 级。国内
各企业广泛采用的是第二代、第三代虚拟磁带库。第二代虚拟磁带库即将虚拟磁
带库管理软件安装在一个专用的服务器上,将该专用服务器与所连接的后端磁盘
存储一起构成虚拟磁带库。第三代虚拟磁带库,即将磁带库管理软件固化在基
ARM 结构、嵌入式实时系统中,将管理系统与存储磁盘阵列统一的管理起来,
成独立的虚拟磁带库设备[8]
对虚拟磁带库的发展有较大影响的因素是重复数据删除技术的成熟和普及,
有国外该领域资深人员称,目前尖端的重复数据删除技术将会改写存储备份行
的规划[9]重复数据删除技术已经成为大型企业在选择虚拟磁带库设备时考虑的重
点。
目前,虚拟磁带库技术已成为存储备份领域的主流趋势,IBMHPVERITAS
CABackboneStorageTek 等厂商都已经拥有虚拟磁带库的高、中、低端硬件产
品及软件产品。
第一章 绪论
3
§1.4 本课题的工作
海量数据备份对备份设备的要求和对实时系统的影响是大型物流和金融企业
面临的重要课题。本课题是基于虚拟磁带库设备的应用,通过搭建从生产数据中
心的服务器到存储阵列,到本地虚拟磁带库,再到远程灾备中心的物理磁带库的
三级存储备份架构,研究虚拟磁带库应用到海量数据备份环境中对生产系统性能
的提高。本课题的主要工作分为以下几个方面:
1调整生产数据中心和远程灾备中心的存储备份架构,构建三层结构的分级
存储备份架构。
2在三层结构的分级数据存储备份模式下,进行功能测试:包括生产数据中
心虚拟磁带库的本地备份、恢复功能;远程灾备中心物理磁带库的本地备份、恢
复功能;数据从生产数据中心虚拟磁带库到远程灾备中心物理磁带库的远程出库
功能;虚拟磁带库重复数据删除功能。
3在三层结构的分级数据存储备份模式下,通过对虚拟磁带库的各项基本性
能及压力性能进行测试,对比虚拟磁带库的海量数据备份性能与物理磁带库的
量数据备份性能;并通过测试实验,分析整个架构的性能瓶颈。
4.海量业务数据备份策略的规划与调整。
§1.5 本文的组织结构
本论文共分六章,具体内容安排如下:
第一章为绪论,简要介绍了问题的提出、国内外的应用现状、论文的研究内
容以及论文的结构。
第二章介绍了数据备份的相关概念。从基本和高级两方面介绍了数据备份的
方法,备份工具,备份策略,备份时间窗口的概念以及数据灾难备份。
第三章主要为数据备份系统的分析。介绍了数据备份系统的基本要素由备份
主体、备份目的地、备份架构、备份路径、备份引擎和备份策略组成,并结合性
的介绍了上海中远资讯科技有限公司整个数据备份系统各基本要素的情况,最后
例举了该企业其中一个应用环境的数据备份系统实例。
第四章主要为项目方案的提出以及项目的技术实施。根据对上海中远资讯
技有限公司存储备份架构中各环境现状的分析,明确系统的需求,提出备份架构
改造项目的方案,并根据项目方案进行了实施。通过项目的实施,虚拟磁带库
备成功上线,实现了企业生产数据中心与远程灾备中心各备份环境的整合,解决
虚拟磁带库在海量数据备份环境中的应用研究
4
了以往异地磁带运输带来的安全隐患,提高了海量数据备份的性能和可靠性。
第五章主要为备份策略的测试与调整。测试过程分为功能测试、基本性能测
试和压力测试三个阶段。每个阶段都通过对测试过程的观察,给出了测试结果。
并根据实际测试数据,得出了针对该企业有代表性的备份对象的备份策略规划
法。测试过程中发现了影响备份架构性能瓶颈主要因素,通过分析,得出了分析
整个备份架构性能瓶颈的分析模型。依据此分析模型,对该企业备份策略进行
调整和优化,从而提高了备份系统的整体性能,彻底解决了企业海量数据备份
间窗口问题。
第六章总结了本论文的研究成果和内容,提出了一些今后需要改进的地方。
第二章 数据备份的相关概念
5
第二章 数据备份的相关概
数据备份,就是对需要进行保护的数据集合从应用服务器的本地硬盘或后端
磁盘阵列复制到其它存储介质的过程,以应对突如其来的如磁盘损坏,操作失误,
系统故障,等其它各种原因导致的数据不可被访问,而影响到业务生产系统的正
常运行。备份后的数据,可以在源数据遭到损坏后,恢复到原来的生产磁盘上,
从而最大程度的降低损失。
§2.1 数据危险因素
造成数据危险的因素主要有以下几个方面:
1.系统的硬件故障;
2.数据处理和访问软件平台故障;
3.人为的操作失误;
4.网络内非法访问者的恶意破坏;
5.网络供电系统故障;
6.操作系统的设计漏洞等。
对数据的威胁通常比较难于防范,这些数据危险因素不仅能够毁坏数据,也
会毁坏访问数据的系统。因此,要采用适当的方法对核心应用数据进行合理的保
护。
§2.2 数据备份方法
§2.2.1 基本数据备份方
从底层来讲,数据备份方法可以分为流式备份和块式备份。
1.流式备份
流式备份,就是将待备份对象以一个个数据流的形式读出,然后再将其存储
在其它介质上。
磁带采用的数据记录机制就是流式的,没有扇区的概念,即数据连续存储在
介质上。磁带会把待备份对象的每个文件看成一个数据流,在每段数据流之间都
有一个空隙,从而来分隔开每个小文件,以使磁头快速定位。但是磁带这种机械
虚拟磁带库在海量数据备份环境中的应用研究
6
设备,数据定位速度要比磁盘慢的多。
这种方式中备份软件只能识别到一个个数据流,将磁盘阵列上的所有文件,
通过调用文件系统接口备份到其它介质上。待备份对象的文件在原存储块上可以
是不连续存放的,且这些不连续的块的链接关系由文件系统负责管理。当备份软
件调用操作系统提供的接口将文件备份到新的介质上时,可以实现数据的连续存
储。
2.块式备份
块式备份是指,无论待备份块上是否有数据,或是数据属于哪个文件,对
个块上的数据都进行备份。这种备份方式不像流式备份,它直接读取磁盘扇区,
完全复制待备份磁盘的数据内容到新的磁盘,不考虑文件系统层次的逻辑,是一
种最底层的实现方式。块式备份的工作机制,是通过磁盘控制器的驱动接口,直
接对磁盘扇区进行读取,而不经过操作系统的文件系统接口,与流式备份方式比
较,大大提高了备份性能。磁盘就是典型的块设备,数据以块的形式存储在介质
上,并可以直接对某一块数据进行读写操作。块设备可以不连续的记录逻辑上连
续的数据,而其数据链接关系,需由文件系统负责管理。
随着备份技术的发展,出现了虚拟磁带库设备,用后端磁盘阵列来模拟磁带。
这个概念其实现原理就是一个协议转换器,将磁盘逻辑与磁带逻辑相互映射融合,
使用户看到的介质是抽象的物理磁带,而后端却是按照磁盘的记录方式进行数据
读写,这就是所谓的虚拟化技术的应用。
§2.2.2 高级数据备份方
高级的数据备份方法有远程文件复制、远程磁盘(卷)镜像、快照数据保护、
连续数据保护。
1.远程文件复制
远程文件复制,是指把需要备份的数据,通过网络传输到异地灾难备份中
的相应服务器上。
2.远程磁盘镜像
远程磁盘镜像是指将生产数据中心磁盘阵列的待备份数据通过网络传输到
程灾难备份中心的磁盘阵列上,是一种块式远程备份方式,在底层设备上实现,
因此不会占用服务器资源。这种方式对关键业务数据是很好的保护方法,一旦
产数据中心的磁盘物理卷发生故障,可以立即切换到远程镜像卷。它可分为同步
镜像和异步镜像两种。同步镜像是指应用系统数据 IO 写入生产数据中心后端磁盘
摘要:

第一章绪论1第一章绪论§1.1引言随着计算机信息系统的不断发展,用户的核心业务越来越依赖于信息系统的可靠运行,信息系统中的关键业务数据已经成为用户最为重要的资产。因此数据保护保障业务应用系统的连续性运行是企业运营的关键。数据备份是信息系统保护数据的必要手段,规划备份系统成为了整个企业必然面临的重要问题。大型企业在规划备份系统方面正面临着严峻的挑战——数据量的急剧增长,成本高昂,管理困难等。关键性业务的海量数据备份对服务器的性能要求很高,资源占用非常严重,导致备份时间窗口过长[1,2]。面对这些问题,必须改变现有的备份存储架构与备份技术,来应对海量数据备份性能不足这一迫在眉睫的问题。虚拟磁带库(...

展开>> 收起<<
虚拟磁带库在海量数据备份环境中的应用研究.pdf

共71页,预览8页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:71 页 大小:1.87MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 71
客服
关注