首页 理论教育 智慧图书馆中大数据的存储与迁移实践

智慧图书馆中大数据的存储与迁移实践

时间:2023-07-25 理论教育 版权反馈
【摘要】:同时由于多个数据对应一个奇偶校验信息,RAID5 的磁盘空间利用率要比RAID1 高,存储成本相对较低。

智慧图书馆中大数据的存储与迁移实践

2.4.4.1 数据存储

存储涉及存储介质问题,目前在图书馆数字化建设中,以磁盘阵列、网络存储、云存储为主,能够提供一定的冗余,使整个系统在保证性能的同时具有较高的可靠性

磁盘阵列主要有以下几种类型:

RAID(Redundant Array of Inexpensive Disks,廉价磁盘冗余阵列),是指由多块磁盘构成的冗余阵列。它是通过磁盘阵列与数据条块化方法相结合,以提高数据可用性的一种结构。它是将若干块硬盘放在一起,由一个智能控制器来统一控制管理。做完RAID 后在操作系统端逻辑上表现为一个独立的大容量的磁盘,同时此大容量的磁盘可分成不同的区域。它将数据以分段的方式储存在不同的磁盘中,存取数据时,阵列中的相关磁盘一起动作,大幅减低数据的存取时间,同时有更佳的空间利用率。RAID 技术一般分为六个级别:RAID0、1、2、3、4、5 及RAID0 +1,数字图书馆存储一般只用到RAID0、1、5 这三种。

RAID0 也称为条带化(stripe),将数据分成一定的大小顺序的写道阵列的磁盘里。RAID0 可以并行的执行读写操作,可以充分利用总线的带宽。理论上讲,一个由N 个磁盘组成的RAID0 系统,它的读写性能将是单个磁盘读取性能的N 倍,且磁盘空间的存储效率最大(100%)。RAID0 有一个明显的缺点:不提供数据冗余保护,一旦数据损坏,将无法恢复。RAID0 应用于对读取性能要求较高但所存储的数据为非重要数据的情况下,在数字图书馆中我们一般将其应用在备份数据的存放中。

RAID1 称为镜像(mirror),它将数据完全一致的分别写到工作磁盘和镜像磁盘,因此它的磁盘空间利用率为50%,在数据写入时时间会有影响,但是读的时候没有任何影响,RAID1 提供了最佳的数据保护,一旦工作磁盘发生故障,系统自动从镜像磁盘读取数据,不会影响用户工作。RAID1 应用于对数据保护极为重视的应用,在数字图书馆中我们一般将其采用在服务器操作系统以及馆藏数据库中。

RAID5 可以理解为是RAID0 和RAID1 的折中方案。RAID5 可以为系统提供数据安全保障,但保障程度要比RAID1 低,而磁盘空间利用率要比RAID1 高。RAID5 具有和RAID0 相近似的数据读取速度,只是多了一个奇偶校验信息,写入数据的速度比对单个磁盘进行写入操作稍慢。同时由于多个数据对应一个奇偶校验信息,RAID5 的磁盘空间利用率要比RAID1 高,存储成本相对较低。因为RAID5 阵列的磁盘上既有数据,也有数据校验信息,数据块和对应的校验信息会存储于不同的磁盘上,当一个数据盘损坏时,系统可以根据同一带区的其他数据块和对应的校验信息来重构损坏的数据,但这时阵列性能也会受到影响。在数字图书馆中RAID5 应该多应用于读操作多于写操作的方面,比如数字图书、数字期刊数据库的存储。

网络存储。早先的存储形式是存储设备(通常是磁盘)与应用服务器及其他硬件直接安装于同一个机箱之内,并且该存储设备是给本台应用服务器独占使用的。随着服务器数量的增多,磁盘数量也在增加,且分散在不同的服务器上,查看每一个磁盘的运行状况都需要到不同的应用服务器上去查看。更换磁盘也需要拆开服务器,中断应用。于是,一种希望将磁盘从服务器中脱离出来,集中到一起管理的需求出现了,网络存储就是应这种需求产生的。

DAS(Direct Attached Storage,直接附加存储)是指将存储设备通过SCSI 线缆或光纤通道直接连接到服务器上。一个SCSI 环路或称为SCSI 通道可以挂载最多16台设备,FC 可以在仲裁环的方式下支持126 个设备。DAS 方式实现了机内存储到存储子系统的跨越,但是缺点依然有很多,具体表现在:扩展性差,服务器与存储设备直接连接的方式导致出现新的应用需求时,只能为新增的服务器单独配置存储设备,造成重复投资;资源利用率低,DAS 方式的存储长期来看存储空间无法充分利用,存在浪费。不同的应用服务器面对的存储数据量是不一致的,同时业务发展的状况也决定这存储数据量的变化。因此,出现了部分应用对应的存储空间不够用,另一些却有大量的存储空间闲置的问题;可管理性差,DAS 方式数据依然是分散的,不同的应用各有一套存储设备。管理分散,无法集中。因此,我们在图书馆的数字化建设中应尽量逐步淘汰DAS。

NAS(Network Attached Storage,网络附加存储)是一种文件共享服务。NAS 是一种基于文件的存储结构,NAS 是以数据为中心,在其存储结构中,存储系统不再通过I/O 总线附属于某个特定的服务器或客户机,而是直接通过网络接口与网络直接相连,用户通过网络访问NAS 上的信息资源。与传统的以服务器为中心的存储相比,数据不再通过服务器内存转发(这会引起额外延迟或阻塞),数据直接在客户机和存储设备间传送(即所谓第三方传送),服务器仅起控制管理的作用,因而具有更快的响应速度和更高的数据带宽。另外对服务器的要求降低,可大大降低服务器成本,这样就有利于高性能存储系统在更广的范围内普及应用。NAS 的缺点表现在:

第一,NAS 设备与客户机通过企业网进行连接,因此数据备份或存储过程中会占用网络的带宽。这必然会影响企业内部网络上的其他网络应用。共用网络带宽成为限制NAS 性能的主要问题。

第二,NAS 的可扩展性受到设备大小的限制。增加另一台NAS 设备非常容易,但是要想将两个NAS 设备的存储空间无缝合并并不容易,因为NAS 设备通常具有独特的网络标识符,存储空间的扩大上有限。

第三,NAS 访问需要经过文件系统格式转换,所以是以文件一级来访问。不适和Block 级的应用,尤其是要求使用裸设备的数据库系统

SAN(Storage Aera Network,存储区域网络)是一种通过网络方式连接存储设备和应用服务器的存储构架,这个网络专用于主机和存储设备之间的访问。当有数据的存取需求时,数据可以通过存储区域网络在服务器和后台存储设备之间高速传输。SAN 传送的是数据块,适合大数据量传输和实时数据处理,使用硬件提供缓冲并保证传输质量,这是TCP/IP 办不到的。SAN 方式易于集成,便于扩展,能改善数据可用及网络性能。SAN 存储解决方案将服务器的数据传送和存储相分离,提高了服务器的吞吐能力;提高了网络存储系统的可用性,易于实现系统容错和数据安全性;网络数据备份和恢复可在SAN 上进行,不占网络带宽,改善了网络传输的拥挤现象;统一使用存储设备,避免了各个服务器单独使用存储设备的负载不均衡现象,存储资源得到了合理分配。虽然SAN 是很好的存储解决方案,但它操作复杂、价格昂贵的缺点使它难以大量应用。

SAN 和NAS 经常被视为两种竞争技术,实际上,二者能够很好地相互补充,以提供对不同类型数据的访问。在图书馆数字化建设中,我们可以将SAN 用于海量、面向数据块的数据传输,而将NAS 用于提供文件级的数据访问和共享服务。尽管这两种技术类似,但严格意义上讲NAS 其实只是一种文件服务。NAS 和SAN 不仅各有应用场合,也相互结合,许多SAN 部署于NAS 后台,为NAS 设备提供高性能海量存储空间。

云存储。云存储是一种网上在线存储(英语:Cloud Storage)的模式,即把数据存放在通常由第三方托管的多台虚拟服务器,而非专属的服务器上。托管(hosting)公司运营大型的数据中心,需要数据存储托管的人,则通过向其购买或租赁存储空间的方式,来满足数据存储的需求。数据中心营运商根据客户的需求,在后端准备存储虚拟化的资源,并将其以存储资源池(Storage Pool)的方式提供,客户便可自行使用此存储资源池来存放文件或对象。实际上,这些资源可能被分布在众多的服务器主机上。云存储这项服务乃透过Web 服务应用程序接口(API),或是通过Web 化的用户界面来访问。

当我们使用某一个独立的存储设备时,我们必须非常清楚这个存储设备是什么型号,什么接口和传输协议,必须清楚地知道存储系统中有多少块磁盘,分别是什么型号、多大容量,必须清楚存储设备和服务器之间采用什么样的连接线缆。为了保证数据安全和业务的连续性,我们还需要建立相应的数据备份系统和容灾系统。除此之外,对存储设备进行定期的状态监控、维护、软硬件更新和升级也是必须的。如果采用云存储,那么上面所提到的一切对使用者来讲都不需要了。云存储系统中的所有设备对使用者而言都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。

云存储已经成为未来存储发展的一种趋势。但随着云存储技术的发展,各类搜索、应用技术和云存储相结合的应用,还需从安全性、便携性及数据访问等角度进行改进。

第一,安全性。从云计算诞生,安全性一直是图书馆实施云计算首要考虑的问题之一。同样在云存储方面,安全仍是首要考虑的问题,对于想要进行云存储的客户来说,安全性通常是首要的技术考虑。但是许多用户对云存储的安全要求甚至高于它们自己的架构所能提供的安全水平。即便如此,面对如此高的不现实的安全要求,许多大型、可信赖的云存储厂商也在努力满足它们的要求,构建比多数图书馆数据中心安全得多的数据中心。用户可以发现,云存储具有更少的安全漏洞和更高的安全环节,云存储所能提供的安全性水平要比用户自己的数据中心所能提供的安全水平还要高。

第二,便携性。一些用户在托管存储的时候还要考虑数据的便携性。一般情况下这是有保证的,一些大型服务提供商所提供的解决方案承诺其数据便携性可媲美最好的传统本地存储。有的云存储结合了强大的便携功能,可以将整个数据集传送到用户所选择的任何媒介,甚至是专门的存储设备。

第三,性能和可用性。过去的一些托管存储和远程存储总是存在着延迟时间过长的问题。同样地,互联网本身的特性就严重威胁服务的可用性。最新一代云存储有突破性的成就,体现在客户端或本地设备高速缓存上,将经常使用的数据保持在本地,从而有效地缓解互联网延迟问题。通过本地高速缓存,即使面临最严重的网络中断,这些设备也可以缓解延迟性问题。这些设备还可以让经常使用的数据像本地存储那样快速反应。通过一个本地NAS 网关,云存储甚至可以模仿终端NAS 设备的可用性、性能和可视性,同时将数据予以远程保护。随着云存储技术的不断发展,各厂商仍将继续努力实现容量优化和WAN 优化,从而尽量减少数据传输的延 迟性。

第四,数据访问。现有对云存储技术的疑虑还在于,如果执行大规模数据请求或数据恢复操作,那么云存储是否可提供足够的访问性。在未来的技术条件下,此点大可不必担心,现有的厂商可以将大量数据传输到任何类型的媒介,可将数据直接传送给企业,且其速度之快相当于复制、粘贴操作。另外,云存储厂商还可以提供一套组件,在完全本地化的系统上模仿云地址,让本地NAS 网关设备继续正常运行而无需重新设置。未来,如果大型厂商构建了更多的地区性设施,那么数据传输将更加迅捷。如此一来,即便是客户本地数据发生了灾难性的损失,云存储厂商也可以将数据重新快速传输给客户数据中心。

2.4.4.2 数据存储格式

数字化信息的一大特点就是具有可压缩性,这也是其优于传统纸质载体信息的表现之一。特别是在现在这样一个“信息大爆炸”的时代,如果不借助于压缩存储技术,人类根本无法找个地方容纳下如此海量的信息。

第一,文本信息的压缩与存储格式。文本信息的特点要求对其压缩必须“透明”,即恢复后的文件不允许有任何失真。因为一个符号的错误就可能产生灾难性的后果——整篇文本无法正常显示。对于文本信息的压缩,从压缩途径上来分,主要有逻辑压缩和物理压缩。逻辑压缩是指从分析数据本身入手,看哪些数据可以省去,或是以最少的符号来代替必不可少的数据。这种压缩方法也是图书馆数字化建设者们比较主动使用,主要通过编排文件时合理安排版式,减少格式信息等来实现。物理压缩是指压缩计算机文件内部冗余度的统计编码方法。当然其在使用这种压缩方法时还是被动性,主要通过合理选择存储格式来实现。

PDF(Portable Document Format,可移植文档格式)是Adobe 公司开发的一种电子文档格式,它可以将文字、字型、格式、颜色、图形图像超文本链接、声音和动态图像等信息封装在一个文件中。PDF 从页面描述语言PostScrip 发展而来,具有与PostScrip 几乎相同的页面描述能力和相似的描述方法和跨平台的特性。但与PostScrip 不同的是,PDF 除了能描述复杂版面外,还具有交互功能(如超链接和交互表单等)、页面随机存取及字体仿真描述等特性。PDF 文件使用了工业标准的压缩算法,通常比PostScript 文件小,易于传输与储存。它还是页独立的,一个PDF 文件包含一个或多个“页”,可以单独处理各页,特别适合多处理器系统的工作。此外,一个PDF 文件还包含文件中所使用的PDF 格式版本,以及文件中一些重要结构的定位信息。正是由于 PDF 文件的各种优点,它逐渐成为出版业中的新宠,实现了纸张印刷和电子出版的统一。可以说PDF 也是最能真实还原纸质载体信息的电子格式,目前绝大多数的数字化图书和数字化期刊均采用这种电子格式。

TXT,这是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别,但是该格式文件不能含有图片、图表等,也不能建立超链接。

DOC,Word 文档,这种文件格式也比较通用,所包含的内容也更加丰富,可在文件中嵌入图表、图片、数学公式,也可以建立超链接。但由于文件中包含了字体、段落格式、文字色彩、页眉页脚等格式信息,文件体积相对纯文本文件要大。

RTF 也称富文本格式(Rich Text Format,一般简称为RTF)是由微软公司开发的跨平台文档格式。大多数的文字处理软件都能读取和保存RTF 文档。RTF 文件格式扩展了从一个系统向另一个系统传送信息的范围,使得格式化信息能够共享。它以纯文本描述内容,能够保存各种格式信息,可以用写字板,Word 等创建。对普通用户而言,RTF 格式是一个很好的文件格式转换工具,用于在不同应用程序之间进行格式化文本文档的传送。RTF 可以附加、嵌入或连接其他文本或多媒体文件,如音频和视频等。通用兼容性应该是RTF 的最大优点,但同时也就具有它的缺点,比如文件一般相对较大(可能因为嵌入了兼容各种应用程序的控制符号)、Word 等应用软件特有的格式可能无法正常保存等。RTF 存在的问题是标准化的问题,会导致不同字处理器对文本对齐、页边或颜色显示不对等。

WDL 格式同样是一种非常流行的电子图书专用文件格式,它采用图文混排方式,一个文件就是一本电子图书,阅读、携带都很方便。更重要的是WDL 格式对中文的支持非常友好,它可以在任何一个非简体中文系统上正确地显示汉字,其应用范围也非常广泛。

超文本作为目前因特网上最流行的文件显示格式,支持图像、动画、视频等多媒体形式,显示效果好,表现力强,且文件比较紧凑,不会占用太多的磁盘空间。另外,超文件格式的兼容性非常好,完全不用担心他人无法阅读的情况,目前任何一款浏览器都可以打开HTML 文档。

CHM 格式是Microsoft 公司新一代帮助文件制作工具HTML Help Workshop 制作出的文件格式,它也是一种超文本标识语言,目前许多电子帮助文档都采用这种格式。(www.xing528.com)

第二,图像信息的压缩与存储格式。保存图像的文件格式有很多种。一般的图像文件都是由文件头和像素阵列两个部分组成,文件头记录图像的说明信息,如图像的宽度和高度、像素深度、图像颜色表等。图像文件格式的不同主要体现为文件头中信息的取舍和像素阵列的排列和压缩方式的不同。常用的图像文件格式有下面几种。

BMP 是Bitmap 的缩写,它是Windows 操作系统中的标准图像文件格式,能够被多种Windows 应用程序所支持。这种格式的特点是包含的图像信息较丰富,几乎不进行压缩,缺点也很明显,就是占用较大的磁盘空间。

TIFF 是“Tagged Image File Format”的缩写,它的优点是:存储信息多、图像的质量高、有利于原稿的复制而且文件可压缩。该格式有压缩和非压缩两种形式,非压缩所占磁盘空间与BMP 格式类似,压缩方法可以采用多种压缩方法,包括CCITTG3、G4、JPEG、LZW 等。它的缺点是图像格式结构复杂、兼容性较差,但是目前已有多数软件解决了这一问题。

JPEG 是“Joint Photographic Experts Group”的缩写。JPEG 格式的应用非常广泛,特别是在网络和光盘读物上,都能找到它的身影。各类浏览器均支持JPEG 这种图像格式,因为JPEG 格式的文件尺寸较小,下载速度快。它的优点在于支持高级压缩,利用可变的压缩比可以控制文件大小。支持交错,广泛支持Internet 标准。缺点在于有损耗压缩会使原始图片数据质量下降。当编辑和重新保存JPEG 文件时,JPEG 会混合原始图片数据的质量下降,而且这种下降是累积性的。JPEG 不适用于所含颜色很少、具有大块颜色相近的区域或亮度差异十分明显的较简单的图片。为了克服这些缺点,JPEG 组织又推出了JPEG2000。JPEG2000 作为JPEG 的升级版,其压缩率比JPEG 高约30%左右,同时支持有损和无损压缩。JPEG2000 格式有一个极其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。此外,JPEG2000 还支持所谓的“感兴趣区域”特性,可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。在有些情况下,图像中只有一小块区域对用户是有用的,对这些区域,采用低压缩比,而感兴趣区域之外采用高压缩比,在保证不丢失重要信息的同时,又能有效地压缩数据量,这就是基于感兴趣区域的编码方案所采取的压缩策略。其优点在于它结合了接收方对压缩的主观需求,实现了交互式压缩。而接收方随着观察,常常会有新的要求,可能对新的区域感兴趣,也可能希望某一区域更清晰些。JPEG2000 和JPEG 相比优势明显,从无损压缩到有损压缩可以兼容,而JPEG不行,JPEG 的有损压缩和无损压缩是完全不同的两种方法。JPEG2000 即可应用于传统的JPEG 市场,如扫描仪数码相机等,又可应用于新兴领域,如网路传输、无线通讯等等。

GIF 是Graphics Interchange Format 的缩写。最初的GIF 只是简单地用来存储单幅静止图像,称为GIF87a。后来发展到可以同时存储若干幅静止图像进而形成连续的动画,使之成为当时支持2D 动画为数不多的格式之一,称为GIF89a。而且GIF89a图像还可指定透明区域,使图像具有非同一般的显示效果。GIF 图像格式压缩比相对较高,还具有渐进传输的特点,但不能存储超过256 色的图像。

PSD 格式,这是著名的Adobe 公司的图像处理软件Photoshop 的专用格式Photoshop Document(PSD)。PSD 其实是Photoshop 进行平面设计的一张“草稿图”,它里面包含有各种图层、通道、蒙板等多种设计的样稿,以便于下次打开文件时可以修改上一次的设计。在Photoshop 所支持的各种图像格式中,PSD 的存取速度比其他格式快得多,功能也很强大。可以这么说,PSD 在我们进行图书馆数字化工作中担任的角色应该是编辑格式而不是最终的应用格式。

第三,音频信息的压缩与存储格式。音频的压缩主要是通过压缩编码来实现的。不同的音频文件存储格式有着不同的压缩编码处理方式。音频文件可分为数字波形文件(WAV 格式、VOC 格式)和音乐文件(MIDI 格式、MP3 格式)两大类,前者对于不同的多媒体声音卡和多媒体平台而有所不同;后者记录的是音乐设备的活动而不是波形。

WAV文件格式采用RIFF(Resource Interchange File Format,资源交换文件格式)格式来描述,RIFF 是一种有标记的文件结构,它由文件头和波形音频数据块组成。WAV 文件格式的优点是保真度高,缺点是体积较大,所以我们在使用时一般只用来存储较短的音频信息或是重要的录音信息。

MIDI(Musical Instrument Digital Interface,乐器数字接口)文件格式是数字音乐和电子合成乐器的统一国际标准。在MIDI 文件中只包含产生某种声音的指令,计算机将这些指令发送给声卡,声卡再按照指令将声音合成出来。相对于保存真实采样数据的声音文件,MIDI 文件显得更加紧凑,其文件尺寸通常比声音文件小得多。MIDI 的优点是占用空间和带宽小,而且音乐的属性可以改变,缺点是播放时需要合成设备把符号合成为波形。

MPEG(Moving Picture Experts Group,运动图像专家组)文件格式是代表MPEG运动图像压缩标准,这里的音频文件格式指的是MPEG 标准中的音频部分,即MPEG音频层。MPEG 音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3),分别对应MP1、MP2 和MP3 这三种声音文件。MPEG 音频编码具有很高的压缩率,MP1 和MP2 的压缩率分别为4 ∶1 和6 ∶1-8 ∶1,而MP3 的压缩率则高达10 ∶1-12 ∶1,也就是说一分钟CD 音质的音乐,未经压缩需要10MB 存储空间,而经过MP3 压缩编码后只有1MB 左右,同时其音质基本保持不失真,因此,目前使用最多的是MP3 文件格式。

RealAudio 文件格式是RealNetworks 公司开发的一种新型流式音频文件格式,它包含在RealNetworks 公司所制定的音频、视频压缩规范RealMedia 中,主要用于在因特网上实时传输音频信息。当然,网络连接速率不同,客户端所获得的音质也不尽相同。对于14.4kbps 的网络连接,可获得调幅质量的音质;对于28.8kbps 的连接,可以达到广播级的声音质量;如果拥有ISDN 或更快的线路连接,则可获得CD 音质的声音。

第四,视频信息的压缩与存储格式。数字视频数据与文本及图像等数据的结构有很大的不同,数字视频数据既有空间属性又有时间属性,而且视频数据与字符数值类数据不同,它有巨大的数据量。例如,一幅中等分辨率的图像(640X480),彩色为24 位/像素,数字视频图像的数据量大约为1MB,如播放速率为每秒30,则1s 的数据量约30MB,一个以600MB 的硬盘也只能存放20s 的动态图像。因此,视频信息的压缩就显得更为复杂也更为重要。目前,广泛使用的是以四大公司和组织推出的压缩方法存储的文件格式,它们有着各自的优点。

AVI(Audio Video Interleaved,音频视频交错)文件格式,这是Microsoft 公司开发的一种符合RIFF 文件规范的数字音频与视频文件格式。AVI 格式允许视频和音频交错在一起同步播放,支持256 色和RLE 压缩,但AVI 文件并未限定压缩标准,因此AVI 文件格式只是作为控制界面上的标准,不具有兼容性。用不同压缩算法生成的AVI 文件,必须使用相应的解压缩算法才能播放出来。AVI 文件的压缩率不高,文件较大,多用于保存影视信息和视频片断。

QuickTime 文件格式是Apple 公司开发的一种音频、视频文件格式,用于保存音频和视频信息,具有先进的视频和音频功能,被包括Apple Mac OS、Microsoft Windows 在内的所有主流电脑平台支持。QuickTime 文件格式支持25 位彩色,支持RLE、JPEG 等领先的集成压缩技术,提供150 多种视频效果,并配有提供了200 多种MIDI 兼容音响和设备的声音装置。新版的QuickTime 进一步扩展了原有功能,包含了基于因特网应用的关键特性,能够通过因特网提供实时的数字化信息流、工作流与文件回放功能。QuickTime 以其领先的多媒体技术和跨平台特性、较小的存储空间要求、技术细节的独立性以及系统的高度开放性,得到业界的广泛认可,目前已成为数字媒体软件技术领域的事实上的工业标准。

MPEG 文件格式是运动图像压缩算法的国际标准,它采用有损压缩方法减少运动图像中的冗余信息,同时保证每秒30 帧的图像动态刷新率,已被几乎所有的计算机平台共同支持。MPEG 标准包括MPEG 视频、MPEG 音频和MPEG 系统(视频、音频同步)三个部分,前文介绍的MP3 音频文件就是MPEG 音频的一个典型应用,而VCD、DVD则是全面采用MPEG 技术所产生出来的新型消费类电子产品。MPEG 压缩标准是针对运动图像而设计的,其基本方法是:在单位时间内采集并保存第一帧信息,然后只存储其余帧相对第一帧发生变化的部分,从而达到压缩的目的。它主要采用两个基本压缩技术:运动补偿技术(预测编码和插补码)实现时间上的压缩;变换域(离散余弦变换DCT)压缩技术实现空间上的压缩。MPEG 的平均压缩比为50 ∶1,最高可达200 ∶1,压缩效率非常高,同时图像和音响的质量也非常好,并且在微机上有统一的标准格式,兼容性相当好。

RealVideo 文件格式是RealNetworks 公司开发的一种新型流式视频文件格式,它包含在RealNetworks 公司所制定的音频视频压缩规范RealMedia 中,主要用来在低速率的网络上实时传输活动视频影像,并可以根据网络数据传输速率的不同而采用不同的压缩比率,从而实现影像数据的实时传送和实时播放。RealVideo 除了可以以普通的视频文件形式播放之外,还可以与RealServer 服务器相配合,在数据传输过程中边下载边播放视频影像,而不必像大多数视频文件那样,必须先下载然后才能播放。

2.4.4.3 数据迁移

数据迁移(Hierarchical Storage Management,HiSM)又称分级存储管理,是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。

数据迁移是将很少使用或不用的文件移到辅助存储系统(如磁带或光盘)的存档过程。这些文件通常是在未来任何时间可进行方便访问的图像文档或历史信息。迁移工作与备份策略相结合,并且仍要求定期备份。还包括电脑数据迁移,迁移旧电脑(旧系统)中的数据、应用程序、个性化设置等到新电脑(新系统),在系统升级后很有必要。

数据迁移的实现可以分为三个阶段,包括数据迁移前的准备、数据迁移的实施和数据迁移后的校验。由于数据迁移的特点,大量的工作都需要在准备阶段完成,充分而周到的准备工作是完成数据迁移的主要基础。具体而言,要进行待迁移数据源的详细说明(包括数据的存储方式、数据量、数据的时间跨度);建立新旧系统数据库的数据字典;对旧系统的历史数据进行质量分析,新旧系统数据结构的差异分析;新旧系统代码数据的差异分析;建立新老系统数据库表的映射关系,对无法映射字段的处理方法;开发、部属 ETL 工具,编写数据转换的测试计划和校验程序;制定数据转换的应急措施。

其中,数据迁移的实施是实现数据迁移的三个阶段中最重要的环节。它要求制定数据转换的详细实施步骤流程(包括准备数据迁移环境、业务准备、对数据迁移涉及的技术进行测试)后,才可实施数据迁移。

数据迁移后的校验是对迁移工作的检查,数据校验的结果是判断新系统能否正式启用的重要依据。可以通过质量检查工具或编写检查程序进行数据校验,通过试运行新系统的功能模块,特别是查询、报表功能,检查数据的准确性。

信息系统数据随着业务的发展变得越来越庞大,尤其是在目前大数据应用高速发展的情况下,数据迁移已成为大数据分析的重要内容。根据业务类别、数据量大小及系统构架的不同,数据迁移的难易程度和所采用的迁移技术也不同,数据迁移的技术一般包括基于主机的迁移方式、基于存储的数据迁移、基于主机逻辑卷的迁移、基于数据库的迁移和服务器虚拟化数据迁移等。

第一,基于主机的迁移方式主要包括直接拷贝方法和逻辑卷数据镜像技术。

直接拷贝方法。利用操作系统命令直接拷贝 UNIX 系统一般可以使用 cp、dd、tar 等命令。在Windows 系统,一般使用图形界面工具或 copy 命令。此方法简单灵活,可以方便的决定哪些数据需要迁移,但其缺点也很明显,由于从主机端发起,对主机的负载压力和应用的冲击较大。

逻辑卷数据镜像技术。对于已经采用逻辑卷管理器的服务器操作系统,可以直接利用逻辑卷管理器的管理功能完成原有数据到新存储的迁移。此方法支持任意存储系统之间的迁移,且成功率较高,支持联机迁移。但在镜像同步的时候,仍会对主机造成一定影响,因此,此方法适合主机存储的非经常性迁移。

第二,基于存储的数据迁移,主要分为同构存储和异构存储的数据迁移。同构存储的数据迁移是利用其自身复制技术,实现磁盘或卷 LUN 的复制。同构存储的复制技术又分为同步复制和异步复制;同步复制是主机 I/O 须写入主存储和从存储后才可继续下一个I/O 写入;异步复制为主机的I/O 写入主存储后便可继续写入操作而无须等待I/O 写入从存储。异构存储的数据迁移是通过存储自身的虚拟化管理技术,实现对不同品牌存储的统一管理及内部复制,从而实现数据迁移。基于存储的数据迁移主要应用于机房相隔距离较远、海量数据、关键业务不能长时间中断等情景,如机房搬迁、存储更换、数据灾难备份建设等方面。目前,电信、金融等企业容灾中心大都基于此技术。基于存储的数据迁移,其优点是能够在非常短的时间内实现数据的迁移与业务的恢复,缩短对业务的影响时间,尤其适用于数据仓储等大数据的数据迁移。

第三,基于主机逻辑卷的数据迁移。Unix、Linux 操作系统具有稳定性好、不易感染病毒等优点,通常作为数据库服务器操作系统使用,且一般均使用逻辑卷管理磁盘。主机的逻辑卷管理使卷组(VG)的信息保存于磁盘,只要操作系统平台一致,其卷组信息在新主机上能够识别,即可对卷组直接挂载使用,实现更换主机。基于主机的逻辑卷镜像数据迁移主要是为既有逻辑卷添加一个物理卷(PV)映射,通过数据的初始化同步使新加入的 PV 与既有 PV 数据完全一致,再删除位于原存储上的PV,实现数据在不同存储之间数据的迁移。逻辑卷的数据迁移一般适用于存储、主机更换等情景。使用基于主机逻辑卷的数据迁移的优点如下:使用逻辑卷迁移时,影响较小;不需要任何费用;步骤简单、容易操作且速度较快;支持任意品牌存储之间的数据迁移。

但是,使用基于主机逻辑卷进行数据迁移时,逻辑卷镜像同步时会消耗主机资源,所以尽可能在业务不繁忙时操作;另外基于主机逻辑卷的数据迁移一般不用于远距离数据迁移及特大数据量迁移,通常用于同机房基于存储区域网络(SAN)数据的迁移。

第四,基于数据库的迁移技术。同构数据库的数据迁移技术,通常是利用数据库自身的备份和恢复功能来实现数据的迁移,可以是整个库或是单表。大型数据库都有专门的数据复制技术,可以用于数据迁移,如Sybase 的Replication Server、Oracle 的DataGuard 等。数据量不大时,一般为原数据库主机导出数据再通过网络通道将数据传输至目标数据库主机并导人,例如,Oracle 的export/import、Sybase 的dump/load 等。同构数据库的数据迁移较为简单、不限操作系统平台,但是这种方法的缺点在对业务影响时间较长,数据迁移的速度取决于主机的读写速度以及网络传输速度。异构数据库的数据迁移一般使用第三方软件实现数据库的数据迁移,这种方法适用于纯数据迁移,并且不需要关注存储过程。第三方软件提供了不同数据库转换的解决方案,无论哪种解决方案均须对数据库迁移后的各种数据进行测试。异构数据库的迁移不限操作系统、数据库平台,但是需要花费一定的时间及费用,特别是专门的定制开发,时间可能会很长且代价较高,在数据迁移后应用需要一定时间才能趋于稳定。

第五,备份恢复的方式。利用备份管理软件将数据备份到磁带(或其他虚拟设备),然后恢复到新的存储设备中,对于联机要求高的环境,可以结合在线备份的方法,然后恢复到目的地。该方法可以有效缩短停机时间窗口,一旦备份完成,其数据的迁移过程完全不会影响生产系统。但备份时间点至切换时间点,源数据因联机操作所造成的数据变化,需要通过手工方式进行同步。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈