重复数据删除与压缩孰优孰劣?(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇重复数据删除与压缩孰优孰劣?范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

在备份或归档时,对于数据缩减,通常会使用重复数据删除技术和数据压缩技术。但对于主存储数据的缩减和优化,这两项技术的优劣就不同了。

容量优化长期以来是次级存储的事情:次级存储上主要是数量众多的重复数据(常常是磁盘到磁盘备份的产物)和要求不太高的I/O模式。应对这方面难题的解决方案很多,包括结合了诸多创新技术的方案,如文件单一实例、固定和可变长度的子文件重复数据删除、压缩及更多技术。这个领域的解决方案证明了它们有时能够把存储数据缩减到原来所占空间的1/20,或者缩减得更多。由于容量优化有着如此诱人的发展前景,类似解决方案的市场规模已超过20亿美元。

对于为支持近乎失控的数据增长而焦头烂额的IT经理来说,这些技术无疑在其他方面(即次级存储以外的方面)也有用武之地。而最明显的莫过于所有那些数据的真正根源:主存储。但是对于将兴趣付诸实践的IT经理来说,尝试往往以失败告终。不像大多数次级存储环境,主存储对性能往往极其敏感,而且不包括数量众多的几乎相同的数据。如果运用重复数据删除技术,对于那些几乎相同的数据就能得到立竿见影的效果。

删重VS. 压缩

我们需要一系列独特的功能来优化存储数据在主存储上占用的空间。特别是,很难在不影响应用性能的情况下对主存储进行优化,无论是文件还是数据块。主存储中的随机I/O模式,加上生产应用对性能的严格要求,已经使得对主存储容量进行优化成为几乎不可能接受的挑战。

就在不久前,还没有切实可行的方法来克服上述问题。由于现有的重复数据删除技术对存储性能、数据完整性及/或数据管理流程有影响,通常不尽如人意。幸好对用户们来说,如今出现了一类新的数据压缩解决方案,它们有望克服主存储优化(Primary Storage Optimization,PSO)的特定挑战。

对照主存储优化的标准,让我们看看重复数据删除(删重)和压缩这两项主要竞争技术的相比较结果如何。

重复数据删除技术可以找出冗余数据块,然后只保存一个副本,从而缩减数据集的大小。但尽管重复数据删除通常能为备份数据流提供12:1到20:1的压缩比,但在大多数主存储环境下,这个压缩比会跌到2:1。

更重要的是,重复数据删除会导致性能下降,而这不符合主存储的要求。在主存储中,存储系统常常超量配置,就是为了获得性能的提高。尽管固态磁盘(SSD)等下一代技术能提高性能,且能减少磁盘的数量,但耗费内存、造成延迟的重复数据删除还没有为此做好准备。

重复数据删除给如今的控制器带来了太长的周期和太大的开销,原因在于工作过程涉及诸多步骤,如缓存数据块、在内存中的B树或类似索引中跟踪引用、扩大和缩小模式匹配窗口、缓存和重写进入到磁盘上的数据流。这类开销(取代传统上的数据从控制器传输到磁盘),加上毫秒级的旋转磁盘延迟(SSD的延迟较短),明显影响了许多应用工作负载的性能,尤其是有大量活跃数据的工作负载。所以,适合运用重复数据删除的数据仍然很有限。重复数据删除的数据缩减也许好处很明显,高度冗余、以读操作为主的数据集增加额外延迟也在所不惜。一些用户发现,用户主目录和VMware或Hyper-V的启动映像就是这种情况,它们含有大量相互重叠、相对静态的数据。

现在再来谈谈数据压缩方法,评估它们为主存储优化准备的情况。就在不久前,还无法在不影响性能或危及数据完整性的情况下实时压缩数据。但是Storwize等厂商提供的新技术已改变了态势,让压缩不但切实可行,还成为适合主存储优化(PSO)的方案。

压缩解决方案各不相同,如今最先进的解决方案是指网络内(带内)设备,除了内置或控制器功能外,它们还能压缩数据,并能针对分布在多个系统上的数据集进行压缩。这种带内解决方案能够提供全速存储性能,又不给现有的控制器带来负担(实际上它们还能优化控制器的交互),同时运用最先进的压缩算法。

实时压缩又是如何进行的呢?这种方法通常使用介于NAS存储阵列(运行NFS或CIFS)和数据用户之间的硬件设备。使用Lempel-Ziv(LZ)等标准压缩技术,以压缩格式写入的每个文件完全保留了原始数据的完整性,而访问或重新创建原始文件所需的全部信息都包含在刚刚压缩的文件里面。这种“无损”压缩方法确保了数据完整性不受到危及,这对于遵循《健康保险可携性及责任性法案》(HIPAA)和《萨班斯-奥克斯利法案》等重要的行业法规来说至关重要。而相比之下,重复数据删除技术用指向其他数据的指针取代文件级和子文件级的数据模式,从理论上来说,这些指针可能会出现引用错误。

带内解决方案在整条数据路径提供了端到端验证机制,可以提供更好的完整性。由于保留了数据完整性以及在硬件设备里操作,这种压缩满足了PSO标准中的第三和第四个标准(见链接一)。

但更重要的是,实时嵌入式压缩把主存储容量的需求平均减少了50%到90%,有效压缩比随存储数据的类型不同而有变化。比如说,数据库和文本文件通常能获得超过80%的压缩比;而PDF和其他格式文档的压缩比通常只有50%。

压缩还可以改善底层存储系统的整体性能,其累加效应完全抵消了极小的硬件设备开销。这种解决方案在数据最初写入时压缩数据,因而形成的磁盘I/O比较少,还减轻了磁盘的工作负载。数据压缩后传送到存储阵列,增加了存储缓存的有效容量,让阵列可以满足来自读写缓存的更多请求。由于读写在缓存里面而不是在磁盘上得到实现,所以使读写速度加快了。为了进一步加快读取速度,带内设备可通过设备缓存来加大阵列缓存。

目前在这个市场中提供解决方案的主要厂商是Storwize。在IBM与Storwize共同进行的一系列性能测试中,这两家公司设法比较了压缩给各种应用工作负载在吞吐量和响应时间方面带来的影响。在TPC-C基准测试中,与不使用压缩的基准情况相比,压缩设备大大缩短了响应时间,提高了吞吐量,还降低了NAS系统上的CPU和磁盘占用率。结论是,这种压缩解决方案起码能保持应用性能;在许多情况下,还能提升应用性能。

此外,压缩的好处还会造福于存储数据的整个生命周期,而不仅仅造福于主存储。它不像重复数据删除技术,当数据访问时会重新膨胀(re-inflated)。压缩后的数据仍可以保持压缩状态,只要压缩设备仍在带内,那么数据访问时,不需要“重新膨胀”或解压缩。由于数据在存储层之间转移时,压缩机制仍在原来位置,压缩后数据甚至可以优化存储,避开法规遵从等棘手问题。此外,压缩后的数据转移到近线或离线存储库后,仍可以借助其他厂商的重复数据删除算法来加以优化。

给存储经理的建议

如今主存储环境中的数据存储区(data store)在迅速变大,加上维护或提升性能服务级别的要求,优化主存储显得必不可少。这对存储经理和公司的利润来说都事关重大。存储经理再也不能通过投入更多资金和运营资源来应对挑战的办法,以应对存储容量的疯狂增长和更严格服务级别协议(SLA)所带来的双重挑战。此外,容量与性能之争现在上升到了新的水平――SSD技术蓄势待发,等待合适的存储架构和价位,从而变成主流。但就算SSD成为主流,其较小的容量也会加剧存储经理面临的容量问题。添加SSD很可能变成为了提升性能而超量配置容量,这是一种过时的做法,会给存储管理员带来新的压力,必须优化主存储容量。

一些厂商的重复数据删除技术处理近线数据和备份数据时效果非常好,比如EMC(Data Domain)、Exagrid、飞康、NetApp、昆腾、Sepaton及其他厂商。对于拥有先进的重复数据删除和优化架构的一些厂商来说,比如GreenBytes、Ocarina和Permabit,重复数据删除增强了其优化主存储库中数据的功能。但是对主存储的关键任务生产工作负载来说,重复数据删除还不是首选的解决方案。

带内压缩是重复数据删除之外的一种切实可行的选择。我们建议用户考虑其主存储基础设施中磁盘上数据的成本影响,考虑使用以实时嵌入的方式压缩数据,然后传送到存储阵列的外部PSO设备。此外,为了避免影响数据完整性和法规遵从,IT经理应该只考虑提供无损压缩的解决方案。

如果用户选择了正确的数据压缩解决方案,势必会得到诸多好处,包括提高存储效率,在整个数据生命周期内减少容量、降低成本。在更大的背景下,如果容量优化策略结合针对主存储的数据压缩与针对次级存储的重复数据删除,有望让企业能够从存储方面投入的资本支出和运营支出得到最大的回报。

链接一

主存储优化的标准

主存储优化(Primary Storage Optimization,PSO)解决方案必须满足哪些具体标准才能符合PSO的要求?

尽管主存储是存储层次结构中运用优化的合理对象,但它给厂商们出了难题。我们认为,数据缩减技术必须满足下列标准,才可以认为能够在企业进行PSO:

1. 能够可靠、一贯地将主存储容量需求减少50%或更多,具体取决于数据类型;

2. 不会导致主存储性能降级,表现为I/O或延迟,哪怕是I/O完全顺序或完全随机的数据流;

3. 完全保留原始数据集;

4. 完全透明,不需要更改现有的IT基础设施或流程。

链接二

实时压缩的好处

作为一项帮助实现PSO的技术,实时压缩带来了一些诱人的好处:

•减少资本支出。压缩降低了对存储容量的需求,这意味着有望减少存储基础设施方面的开支。

•节省能源。由于在源点压缩,大幅减小数据占用空间,降低了对场地、电力和冷却的需求。

•降低运营支出成本。数据文件在加以管理、迁移、复制、备份和归档时,数据缩减的好处及节省相关运营支出的优点可以体现到整个数据生命周期中。

•加快备份和归档速度。由于需要转移的数据减少了,备份和归档操作起来快得多。

•提升存储性能。由于存储缓存的有效大小增加了,许多应用的吞吐量和响应时间会有所改善。

重复数据删除与压缩孰优孰劣?

优秀范文

精选范文