首页 > 范文大全 > 正文

超低功耗云存储系统——cStor

开篇:润墨网以专业的文秘视角,为您筛选了一篇超低功耗云存储系统——cStor范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:低功耗cStor云存储系统是一种软件与硬件相结合的系统,利用低功耗硬件设备,通过软件进行存储资源的管理,确保系统的高可靠和高可用性,有效地解决了存储系统功耗和成本问题。cStor系统中,基于ARM芯片构建的存储设备主板功耗低于5 W,单节点最大可支持16块SATA磁盘;通过cStor云存储软件管理的低功耗存储系统,在标准42U机柜中,最大可以支持1 152 TB存储容量,功耗仅为3 400 W。

关键词:云存储;超低功耗;拍字节级

Abstract: The low-power-consuming cStor cloud storage system comprises software and hardware. Software is used to manage storage hardware, and even though this hardware consumes little power, it is still reliable and highly available. With cStor, the cost of storage power can be reduced. The motherboards of the storage devices, which are based on ARM chips, consume less than 5 W, and a single node can support up to 16 SATA HDDs. In the standard 42U rack, cStor can support up to 1152 TB storage capacity and consume only 3400 W of power.

Key words: cloud storage; ultra low-power consumption; petabytes level

中图分类号:TN915.03; TP393.03 文献标志码:A 文章编号:1009-6868 (2013) 04-0022-003

2004年,全球共有30 EB的数据;2005年跃升到50 EB;2006年达到161 EB;到2011年,已经达到2 529 EB。

这些海量信息的存取给存储技术提出了新的挑战和更高的要求。

首先,存储的数据量秩序增长不仅要求存储系统拥有大容量的存储空间,也要求存储系统有较高的可扩展性。其次,越来越多重要的数据被存储在系统里,这就要求系统有较高的可靠性、容错性、安全性。同时,对系统所占的体积也提出了更高的要求:应当尽可能的节省空间。这就要求系统存储密度高,即特定空间内所容纳的存储盘要多,这也就意味着硬件设备功耗要尽可能的低,这样才允许密集布置。功耗低的同时也能节约能源,达到降低成本的目标。

目前影响较大的集群存储系统有Google的Google File System[1],Hadoop的HDFS[2],Cluster File System的Lustre[3]以及RedHat的Global File System。

P2P[4]存储,也即对等存储,是指存储节点以对等模式组成的一个存储网络。现有的P2P分布式存储系统中比较出名的是MIT的CFS[5]、Berkeley的OceanStore[6]及其原型Pond[7]、微软研究院的BitVault[8]、UCSD的Total Recall[9]、清华大学的Granary[10]、北京大学的UPStore[11]。

本文中采用的低功耗cstor云存储系统是一种软件与硬件相结合的系统,系统采用双机备份容错的方式,保证不间断服务,同时软硬件高度容错,可靠性高;采用超低功耗存储服务器节点,系统存储密度高(一个标准机柜超过1 PB容量),节约能源的同时进一步降低了成本;系统可以任意增加或减少节点,可扩展性能很好;采用控制流与数据流分离的技术,对每个存储节点上数据并行读写,存储节点数目越多,整个系统的吞吐量和IO性能将呈线性增长。

1 cStor外部结构

42U超低功耗云存储系统由18台2U ARM超低功耗存储服务器节点、2台元服务器(1主1备)、2台交换机(1主1备)、机架套件组成。一般机柜只有一面可以插硬盘。cStor采用的是ARM架构,热量很小,可以双面插盘,最大可支持384块盘。cStor选用3 T硬盘,所以存储容量为1 152 TB(3×384),即1.152 PB。

整个系统的功耗包括384块5 W硬盘,24块15 W主板,2个150 W的交换机,2个200 W的Master节点,32个机箱,每个机箱4个3 W的风扇。总功耗为3 364 W。

系统具有具有超低功耗、超低价格、超高容量、高吞吐量等特点,并通过软件实现对ARM超低功耗存储服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错。硬盘、主板,电源、交换机、Master服务器之间相互冗余,任何单节点出现故障,都不会影响整个系统的运行。

提供标准接口:与Google、Amazon云存储系统不同在于,本系统提供符合可移植操作系统接口(POSIX)规范的访问接口,无论是哪种系统下的应用程序,都可以不经修改就将本系统当成自己的硬盘来使用。同时,也提供专用的应用编程接口(API)接口。

2 cStor云存储系统软件

cStor云存储文件系统采用分布式的存储机制,将数据分散存储在多立的存储服务器上。它采用包括元数据管理服务器和数据存储节点服务器以及客户端节点的结构构成一个虚拟的海量存储卷。cStor云存储系统软件架构如图1所示。

其中,元数据管理服务器保存系统的元数据,负责对整个文件系统的管理,元数据管理服务器在逻辑上只有一个,采用主备双机镜像的方式,保证系统的不间断服务;数据存储节点服务器负责具体的数据存储工作,数据以文件的形式存储在数据存储节点服务器上,数据存储节点服务器的个数可以有多个,它的数目直接决定了cStor云存储系统的规模;客户端即为服务器对外提供数据存储和访问服务的窗口,通常客户端部署在数据存储节点服务器上,每一个块数据服务器,及时存储服务器也是客户端服务器。

使用这种系统有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的数据存储节点服务器,不需要添加整套设备。

2.1 负载自动均衡技术

cStor采用中心服务器模式来管理整个云存储文件系统,所有元数据均保存在管理节点上,文件则划分为多个块存储在不同的存储节点上。

管理节点维护了一个统一的命名空间,同时掌握整个系统内存储节点的使用情况,当客户端向元数据服务器发送数据读写的请求时,元数据服务器根据存储节点的磁盘使用情况、网络负担等情况,选择负担最轻的存储节点对外提供服务,自动均衡负载负担。

另外,当有一个存储节点因为机器故障或者其他原因造成离线时,管理节点会将此机器自动屏蔽掉,不再将此存储节点提供给客户端使用,同时存储在此存储节点上的数据也会自动备份到其他可用存储节点,自动屏蔽存储节点故障对系统的影响。

2.2 高速并发访问技术

客户端在访问cStor时,首先访问管理节点,获取将要与之进行交互的存储节点信息,然后直接访问这些存储节点完成数据存取。cStor的这种设计方法实现了控制流和数据流的分离。

客户端与管理节点之间只有控制流,而无数据流,这样就极大地降低了管理节点的负载,使之不成为系统性能的一个“瓶颈”。客户端与存储节点之间直接传输数据流,同时由于文件被分成多个数据块(Chunk)进行分布式存储,客户端可同时访问多个存储节点,从而使整个系统的I/O高度并行,系统整体性能得到提高。

通常情况下,系统的整体吞吐率与存储节点的数量呈正相关。

2.3 高可靠性保证技术

对于元数据,cStor通过操作日志来提供容错功能,当管理节点发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数据。为了防止管理节点彻底死机的情况,cStor还提供了管理节点远程的实时备份,这样在当前的管理节点出现故障无法工作的时候,另外一台备管理节点可以迅速接替其工作。

对于存储节点,cStor采用副本的方式实现容错。每一个块有多个存储副本(默认为两个),分布存储在不同的存储节点上。副本的分布策略考虑了多种因素,如网络的拓扑、机架的分布、磁盘的利用率等。对于每一个存储节点,必须将所有的副本全部写入成功,才视为成功写入。在其后的过程中,如果相关的副本出现丢失或不可恢复等状况,管理节点会自动将该副本复制到其他存储节点,从而确保副本保持一定的个数。在有多个存储节点的情况下,任意损失一个节点,数据都不会丢失,而且随着存储节点数目的增多,整个系统的可靠性越大。

2.4 高可用技术

由于采用了低耦合的分布式架构,所有服务节点均通过网络互连,系统可以在不停服务的情况下,通过增删节点的方式伸缩系统规模。存储节点和元数据管理服务节点间通过注册管理机制自适应管理,实现自动伸缩。

3 低功耗存储节点

针对云存储系统应用开发的低功耗主板,采用基于ARM v7架构的MV78460四核CPU,该CPU采用55 nm技术,主频1.6 GHz。采用1 GB的DDR3内存,频率为1 066 MHz。相应的组件包含有:2个10M/100M/1000M自适应网口,采用低功耗Marvell PHY 88E1318;4个SATA PM,采用4个miniSAS接口支持16块硬盘;1个2 GB NAND FLASH,用于存放内核引导程序(Bootloader)、操作系统内核(Kernel)和根文件系统(Fs)。

MS316是基于Marvell的低功耗、高端嵌入式处理器的CPU——MV78460开发的存储节点的主板。

MV78460是Marvell公司专为企业级云计算开发的ARMADA XP(极限性能)系列的工业级四核ARM CPU。ARMADA XP系列为了下一代的“绿色”系统,采用了超低功耗架构并整合了4个Marvell设计的1.6 GHz主频的ARM V7核CPU,其自带了一个IO设备控制器,以提供行业最强劲的表现。因为采用了高级的设计技术和制作工艺,ARMADA XP将他的云计算应用范围从高性能网络服务器渗透到了高容量服务器比如网络连接式存储(NAS)和媒体服务器。

MV78460拥有4个ARM核,它的2级高速缓存容量为2 MB,DRAM接口为32位64位可选。除了内核的强劲表现外,他还带有丰富的设备接口:4个千兆网口、2个SATA控制器,2个PCI-e2.0×4接口2个PCI-e2.0×4接口等。

4 cStor性能测试

4.1 硬件测试

4.1.1 云存储节点规格配置

本测试采用MS316低功耗主板的存储服务器cServer A2020,单节点容量为36 TB,包含12个3 TB SATA硬盘,共计36 TB存储容量。

4.1.2 节点性能

cServer A2020是专门针对云服务器(Cloud Server)应用开发的低功耗ARM存储服务器,即可作为云存储的存储节点,也可作为独立存储服务器使用。

cServer A2020在云存储软件系统上做了充分的测试。测试结果表明,32 kB文件在不同读写比例下的IOPS均大于2 200次/s,64 kB文件在不同读写比例下的IOPS均大于2 000次/s,1 MB文件在不同读写比例下的IOPS均大于500次/s。

4.2 系统测试

针对MS316的性能,在cStor系统上进行了充分的测试,MS316基于cStor系统的测试结果如图2所示。

由图2可知,相同存储节点的情况下,随着客户端访问数的增加,客户端读写性能逐步提升。相同客户端数目的情况下,随着节点数的增多,读写性能也有一定程度的提升,尤其在2个客户端以上时,性能提升明显。当存储节点为18个,客户端为4个时,读性能可以达到400 MB/s,写性能将近500 MB/s。

5 结束语

本文中的拍字节级超低功耗cStor云存储系统是一种软件与硬件相结合的系统,系统软件可以实现负载自动均衡、高速并发访问、高可靠性保证、高可用。

采用超低功耗存储服务器节点,系统存储密度高:单机架存储裸容量1.125 PB;有高度可靠的冗余备份机制;单机架总功率仅有3.4 kW,采用自主研发的超低功耗云存储硬盘节点,单节点功率仅有10 W。在标准42U机柜中,最大可以支持1 152 TB存储容量,而功耗仅为3 400 W。

采用控制流与数据流分离的技术,对每个存储节点上数据并行读写,存储节点数目越多,整个系统的吞吐量和IO性能呈线性增长。测试得知:32 kB文件在不同读写比例下的IOPS均大于2 200次/s。当存储节点为18个,客户端为4个时,读性能可以达到400 MB/s,写性能将可以达到500 MB/s。

系统中采用廉价的大容量存储服务节点,通过cStor系统软件实现统一管理和容错,提供高效、稳定服务。与使用专用服务器相比,可以将系统构建成本节省5~10倍以上,且规模越大,优势越明显。

参考文献

[1] GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system [C]//Proceedings of the 19th ACM SIGOPS Symposium on Operating Systems Principles (SOSP’03), Oct 19-22, 2003, Bolton Landing, NY, USA. New York, NY, USA: ACM, 2003:29-43.

[2] SHVACHKO K, KUANG H, RADIA S. The hadoop distributed file system [C]//Proceedings of the IEEE 26th Symposium on Mass Storage Systems and Technologies(MSST’10), May 3-7,2010, Incline Village, NV, USA. Piscataway, NJ, USA. IEEE, 2010: 10p.

[3] SCHWAN P. Lustre: Building a file system for 1000-node clusters [C]//Proceedings of the 2003 Linux Symposium, Jul 23-26, 2003, Ottawa, Ontario. 2003:380-386.

[4] 陈贵海, 李振华. 对等网络: 结构、应用与设计 [M]. 北京: 清华大学出版社, 2007: 83-93.

[5] DABEK F, KAASHOEK M F, KARGER D, et al. Wide-area cooperative storage with CFS [C]//Proceedings of the 18th ACM SIGOPS Symposium on Operating Systems Principles (SOSP’01), Oct 21-24, 2001, Banff, Canada. New York, NY, USA: ACM, 2001: 202-215.

[6] KUBIATOWICZ J, BINDEL D, CHEN Y, et al. OceanStore: Architecture for global-scale persistent storage [C]//Proceedings of the 9th International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS'00), Nov13-15, 2000, Cambridge, MA,USA. New York, NY, USA: ACM, 2000:190-201.

[7] RHEA S, EATON P, GEELS D, et al. Pond: The OceanStore prototype [C]//Proceedings of the 2nd USENIX Conference on File and Storage Technologies(FAST’03), Mar 31 - Apr 2, 2003, San Francisco, CA, USA. New York, NY,USA: ACM, 2003:14p.

[8] ZHANG Z, LIAN Q, LIN S, et al. BitVault: A highly reliable distributed data retentionplatform [J]. SIGOPS Operating Systems Review, 2007,41(2):27-36.

[9] BHAGWAN R, TATI K, CHENG Y C, et al. Total recall: System support for automated availability management [C]//Proceedings of the 1st Conference on Symposium on Networked Systems Design and Implementation(NSDI’04), Mar 29-31,2004,San Francisco, CA,USA. Berkeley, CA, USA: USENIX Association, 2004:337-350.

[10] ZHENG W, HU J, LI M. Granary: Architecture of object oriented Internet storage service [C]//Proceedings of the International Conference on on E-Commerce Technology for Dynamic E-Business(CEC EAST’04), Sept13-15 ,2004, Beijing, China. Los Alamitos, CA,USA: IEEE Computer Society, 2004:294-297.

[11] 丁高, 田敬, 陈东, 等. UpStor:一个开放的P2P存储平台 [J]. 计算机研究与发展, 2009,46(S):250-257.

作者简介

袁高峰,南京师范大学计算机科学与技术专业毕业;南京云创存储科技有限公司云存储项目组项目经理;主要从事云存储产品线的项目管理和研发管理工作。

吴亚洲,河海大学电子科学与技术专业毕业;南京云创存储科技有限公司云存储硬件组项目经理;主要从事超低功耗云存储服务器项目研发管理工作。

薛妍妍,南京航空航天大学通信与信息系统专业硕士毕业;南京云创存储科技有限公司研发工程师;主要从事云存储系统的研发工作。