首页 > 范文大全 > 正文

高性能计算发展动态

开篇:润墨网以专业的文秘视角,为您筛选了一篇高性能计算发展动态范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

目前,并行计算具体应用主要体现在高性能计算领域。世界各国都在努力发展各自的超级计算机计划,我们选取了其中几个最具代表性的研究计划,希望能给所有关心高性能计算和并行计算发展的读者一些启发。

美国ASCI计划

美国能源部自1996年开始了一项名为ASCI计划的高性能计算机研制项目。该计划是在全球全面禁止核试验的情况下,美国为了保持其核威慑及核垄断地位而提出的一项计划。目前,世界上绝大多数最快的超级计算机都是这个项目的产物,其中主要的代表有IBM公司研发的Blue Gene和Cray公司研发的Red Storm。

1. IBM蓝色基因

Blue Gene是IBM、美国LLNL实验室和美国能源部合作的一项研制超级计算机的项目代号。项目计划是制造峰值性能达到每秒千万亿次级别的超级计算机。这是一个分阶段的项目,目前性能已经达到每秒360万亿次。现在正在研发的Blue Gene项目共有四种机型:Blue Gene/L、Blue Gene/C、Blue Gene/P和Blue Gene/Q。

Blue Gene/L采用了与以往设计完全不同的方法。系统由大量节点组成,每个节点的处理器不再追求高性能、高主频,而是相对适中,从而实现了低功耗和低成本。Blue Gene/L通过PowerPC的嵌入式处理器、嵌入式DRAM和片上系统技术把计算处理器、通信处理器、三级Cache和带有复杂路由的互联网络部件集成在一起。由于采用这样的低功耗、低主频设计,导致了整机的低功耗和高密度,可以把1024个计算节点放置于一个机柜当中。通过这样的方式把用于节点通讯的功能单元和处理器集成在一起,降低了成本。2004年9月,IBM公布了Blue Gene/L原型,当时的性能是每秒36.01万亿次。它以这个速度替代了NEC的地球模拟器成为世界上最快的超级计算机。截止到2006年6月,世界最快的前10台超级计算机中有3台是Blue Gene,前64台中有13台。

Blue Gene/C计划现在已经更名为Cyclops64。这个计划的目标是制造第一个“片上超级计算机”。每个Cyclops64芯片预计运行在500MHz主频下,包含80个处理单元。每个处理单元包含两个线程单元和一个浮点单元。处理器通过96口和7级的交叉开关互联,而且它们可以通过片上的SRAM进行通讯。单片的Cyclops64芯片的理论峰值将可以达到每秒8000亿次。整个系统将可以包含13824个芯片、1105920个处理单元以及可以同时运行2211840个线程。Cyclops64软件系统采用了Delaware大学的TiNy线程库,提供给用户良好的可编程界面。

Blue Gene/P计划是一个结构上类似于Blue Gene/L的项目。它的目标峰值性能将达到千万亿次。目前在美国的LLNL实验室部署的代号为Roadrunner的超级计算机,被认为有可能是该计划的一个具体应用。Roadrunner采用了混合式设计,它采用了16000个AMD的皓龙处理器以及相当数量的Cell处理器。由于Cell处理器具有良好的浮点运算性能,通过Cell处理器的运用将大大增加Roadrunner的峰值运算性能。如果IBM能完成这个系统,那么它将成为世界上最强大的超级计算机系统。

Blue Gene/Q计划是IBM面向未来的超级计算机研制计划,目前关于该计划的细节还知之甚少,该计划的性能目标将达到每秒3千万亿次~10千万亿次。

2.Cray红色风暴

针对ASCI项目,Cray公司提出了代号为Red Storm的超级计算机架构。第一台使用这个架构的超级计算机,在2004年被部署在美国的SNL实验室。这台机器包含有10368个处理器,拥有10TB的分布式内存和240TB的磁盘存储。该系统使用AMD的皓龙处理器作为处理单元,使用PowerPC 440的处理器作为通讯处理器。系统由计算节点和服务节点两个部分组成。计算节点运行称作Catamount的轻量级操作系统,服务节点运行Linux操作系统。该系统主要是为了替代ASCI Red,理论峰值将达到40万亿次。 ASCI随着第一个十年计划的完成,目前已经开始了第二个十年计划,该计划已经更名为ASCP(高级模拟与计算计划)。最新的发展规划认为第一个十年主要是通过开发一系列强大的工具和系统,验证基于模拟研究方法的可行性。第二个十年计划将要真正利用这些系统进行科学探索,进一步提高精度和正确性,逐步把模拟作为一种预测工具用于前沿的科学研究。同时第二阶段全面把下一代超级计算机系统的验证目标设定为每秒千万亿次。

美国HPCS计划

除了ASCI研制计划之外,美国国防部高级研究计划局于2001年初提出了HPCS(高效能计算系统)计划。该计划的目标开始就是面向千万亿次规模的计算机系统需求,针对当前高端计算机系统开发以及应用中存在的问题,研制适合于高端国家安全应用的高性能计算系统,填补目前高性能计算和量子计算之间的空白。

HPCS计划为期8年,分为三个阶段实施。第一阶段为概念研究阶段,第二阶段是研究、开发阶段,第三阶段是大规模开发阶段。整个HPCS的主要设计目标是高性能、良好的可编程性、可移植性以及可靠性。高性能的主要目标是在美国重要的国家安全应用方面,将目前的系统性能提高10~40倍;可编程的主要目标是减少HPCS应用方案的开发时间,降低系统的运行以及维护成本,提高系统使用效率;可移植性是指将研究和运行的HPCS应用软件和系统平台分离;可靠性的目标是针对外界的攻击、硬件故障以及软件错误开发相应的保护技术。因此HPCS主要提出的课题有:高带宽、低延迟、平衡的系统结构、可靠性策略、性能测试、系统伸缩性。

2002年开始的是为期一年的HPCS概念研究阶段。参与这个阶段研究的厂商主要包括Cray、HP、IBM、SGI和Sun五家,还有MIT的林肯实验室专门进行应用分析和性能评测。经过竞争和淘汰,第二阶段参与的企业为Cray、IBM和Sun三家。

1.Cray两步走

Cray计划分两步完成自己的千万亿次设计目标。第一阶段推出一种称为Rainier系列的机器,以整合Cray现有的XD1、XT3、X1/X1E三种平台,形成一种新的Rainier的计算节点也是异构的系统,包括基于AMD皓龙处理器的标量计算节点、向量计算节点,还包括其他特殊计算节点,比如FPGA可重构节点和MTA多线程节点等,各种不同的处理器节点在统一的框架下进行管理。

第二阶段Cray计划推出一种名为Cascade的平台,这是Cray更为长期的一项计划,将融合更多的创新性技术。Cascade将采用统一的高带宽光互联网络,节点将包含向量部件、粗粒度的多线程处理器、与DRAM结合支持细粒度并行的PIM部件等。Cascade还提供分布式共享内存、多层次多线程执行模型、硬件支持的分析和调试功能。编程模型上提供对UMA和NUMA的混合模型,并计划开发一种高级编程语言。

2.IBM PERCS计划

IBM针对HPCS提出了PERCS计划,该研究包括处理器、存储控制、I/O、编译和运行环境等各个方面的研究队伍。其主要的研究内容包括:片上多处理器,PERCS将采用IBM Power7处理器;智能内存,将在DIMM内存条上增加一个智能Hub芯片,实现预取、Scatter/Gather、重排序、缓存等功能;在编程模型方面,实现了一种名为X10的编程语言,而且支持OpenMP。此外,IBM还专门开发了一种称为K42的操作系统,专门支持大规模处理系统;为了进行前期的研究,他们还开发了PERCSim模拟器来支持各个研究小组的工作。

3.Sun HERO项目

Sun提出了HERO项目,其中一些核心的创新技术包括:片内多线程技术、Proximity通讯技术、区间计算技术、保护指针。

目前,HPCS已经进入第三阶段,其中Sun被淘汰出局。现在IBM和Cray公司基于各自提出的技术开始为HPCS制造运算速度千万亿次的超级计算机。

日本高性能计算进展

除了美国,日本很早就从事高性能计算机的研制工作,其中比较有代表性的是NEC公司。

1983年,NEC就了其代号为SX-1和SX-2的超级计算机,其后几乎NEC以5年一代的速度不断推出新产品。

2002年,NEC为日本太空探索局等机构安装的地球模拟器速度达到了每秒35万亿次,拥有超级计算机领域最高性能桂冠长达3年之久。

地球模拟器通过设置“虚拟地球”以预测和解析整个地球的大气循环、温室化效应、地壳变动、地震发生等自然现象。硬件上地球模拟器的设计基于NEC以前的一款名为SX-6的超级计算机的架构。

整个地球模拟器包含640个节点,每个节点包含8个向量处理器和16GB内存,整体上组成5120个处理器和10TB内存的超级计算机系统。其中两个节点共享一个机柜,每个机柜耗电20 kW。系统具有700 TB的磁盘阵列和1.6 PB的磁带存储。地球模拟器几乎比同时代的美国的ASCI White超级计算机快5倍。NEC从1999年10月份开始构建这台超级计算机,到2002年才正式完工,共耗资72亿日元。

日本的科研机构和大学在超级计算机方面也获得很大的成就。2006年6月,日本的RIKEN研究所宣布他们完成了一台名为MDGRAPE-3的超级计算机系统。这是一台专用于分子动力学研究的超级计算机。该机器由总共4808个定制的MDGRAPE-3芯片,外加用于主控的Xeon处理器等组成。

该研究所宣称MDGRAPE-3性能已经达到千万亿次的目标,比目前最快的超级计算机Blue Gene/L还要快3倍,但是因为其专用性,不能运行Top500的测试程序,因此无缘Top500排行榜。除此之外,日本东京大学的GRAPE项目也在高性能计算的某些领域获得了很高的成就。

中国高性能计算进展

除了美、日之外,我国在高性能计算机方面的努力也很值得关注。有很多从事高性能计算机研究的企业和科研单位涌现出来,比如开展高性能计算算法研究的单位有中国科学院、中国工程物理研究院、国防科技大学、中国科技大学等单位。硬件制造也有不少单位,比如曙光信息产业有限公司、联想集团等。他们在各自的领域获得了很多令人瞩目的成就。

2004年6月,浮点运算速度达到每秒11万亿次的曙光4000A超级计算机落户上海超级计算中心。这台超级计算机进入当时的全球超级计算机排行榜前10名,使得我国成为继美国和日本之后,第三个能研制10万亿次商业高性能计算机的国家。

曙光4000A在大规模集群计算、网格技术等方面有所突破,形成了鲜明的技术特色。曙光4000A在工业标准的主板尺寸上实现了4个64位AMD皓龙处理器的SMP系统。2U的服务器采用标准的机箱、电源、风扇等部件,有独到的通风设计和部件布局。通过网格路由器、网格网管、网格钥匙、网格视图等网格部件的研制,曙光4000A在网格环境下能更好地服务于具有多样性的用户需求。通过在主板上集成管理接口,开发大规模集群专有的管理网络,使得大规模集群能够被有效地管理和控制,使得管理员不需要靠近计算机就能控制其运行。通过合理划分集群软件栈,将公共支撑部分提取成为集群操作系统的核心,改变了集群上系统软件缺乏统一框架的现状。曙光4000A的Linpack实测速度达到每秒8.061万亿次,效率达到71.56%,这个结果是当时世界上所有采用AMD皓龙处理器的高性能计算机中速度最快且效率最高的。曙光4000A跟ASCI White相比,价格是后者的10%,系统占地是后者的60%,功耗为后者的30%。

联想公司承担着国家863计划“高性能计算机及其核心软件”专项课题,在此基础上制造了深腾6800超级计算机,该计算机于2003年10月完成。深腾配置了1060个64位安腾2代处理器、2.6TB内存、80TB磁盘存储。

联想深腾6800在整机系统均衡设计和优化、集群平台上事务处理系统的设计和优化、集群系统软件以及网格环境若干支撑技术等方面有着重要的创新,在Top500性能测试和组合数据查询方面达到了当前高端集群系统产品的国际先进水平。

在科学计算方面,Linpack实测速度达到每秒4万亿次,名列2003年11月世界Top500第14位,整机效率达到78.5%,在商用测试上通过了TPC认证,典型应用方面通过了国际气象预报业务认证。