开篇:润墨网以专业的文秘视角,为您筛选了八篇高性能计算范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
“顶天”更要“立地”
很多高性能计算机的从业者已经淡化了对“运算速度”的追求。曙光4000A速度超过每秒10万亿次时,尽管外界给予了众多的掌声,但该产品的主要研发者孙凝晖心情非常平静。他说,应用才是更大的挑战。采访中,他说中科院计算所系统结构研究所未来的重点是做“普及大众的计算机”,怎样把高性能计算机的成本降下来、稳定性提高、功耗降低、管理更方便,这是比提高运算速度更难的事。
孙凝晖说,高性能计算机的发展可分为三个阶段: 第一阶段是打破“玻璃房子”,国外不再对中国实行禁运;第二是高性能机要产业化,走下神坛;第三阶段是“普及化”,希望一些科研和设计人员的桌面上能装一个高性能计算机。
中国经济的体制结构正在发生转变,粗放型的经济增长模式正在萎缩,取而代之的,是越来越多地依靠科技研发和原创设计商业机会,这意味着普通的商业用户对高性能计算机的需求会增多。
在曙光公司的规划里,2008年将研制出运算速度达到每秒百万亿次的高性能计算机。但曙光总裁历军坦率地对记者说,让他更高兴的是,到今年10月份为止,曙光高性能机器已经卖了290多套。“‘卫星’(指运算速度在世界水平的高性能计算机)要放,因为那样可以提高品牌的认可度,但最为重要的是,产品卖得好,企业能活下去,能赚钱。”
“运算速度进入T0P 500的那些机器,如同高性能计算机的‘塔尖’,没有广泛应用的‘塔身’和‘塔基’,这个塔是摇摇欲坠的。”王恩东说,我国高性能计算机一定要重视应用。
“顶天立地”是我国高性能计算机发展的指导思想,是指企业在技术上要“顶天”,以技术发展为先导,立足技术领先;应用上要“立地”,将技术融入实际应用的解决方案中。
相对“顶天”,国产高性能计算机的“立地”更难。
“国外品牌进入银行、电信等领域比较早,经验很丰富,而且很多软件就是IBM、HP等公司与其他软件公司联合开发的,所以国产高性能服务器要进入银行等金融市场非常难。”联想集团首席科学家祝明发分析说,这种状况形成了“蛋生鸡和鸡生蛋”的怪圈,因为国产品牌在实际上运用少,发展比较缓慢;发展得慢,用户信任度低,国内品牌在实际使用中就越少。
当然,国产品牌在商业领域的应用也并非毫无优势。河南漯河市公安局经过比较,2004年开始采用了天梭TS20000系统,2005年10月多个关键应用正式在浪潮天梭TS20000系统中运行。漯河市公安局通讯科张居辉科长在接受采访时说,在综合比较国外品牌和国内品牌的高性能服务器之后,发现国外品牌的造价太高,远超过了原先的预算,而且机器系统复杂,该局现有的技术人员恐怕维护起来有一点吃力,如果请国外公司来维护,费用又是一大笔钱。浪潮的天梭在这两方面比较有优势。而且从业务应用上看,也够用了。
依靠价格“立地”是中国很多IT产品跟国外品牌抢市场的法宝之一,但最后能制胜,还得靠质量和提供符合客户需求的应用。高性能计算机也不例外。
模式要创新
由于受到资金、应用水平等因素的限制,中国高性能计算曾经长期盘踞在以政府主导比较集中的能源、气象、政府等领域。让更多的普通用户应用高性能计算,让高性能计算平民化,一直以来是业内专家学者和用户多方所提倡的。
但用户之间的经济实力、应用需求是千差万别的,让他们都通过自行购买高性能计算产品来用上高性能计算是不切实际的。即使都来购买,目前也存在着资源分散、应用效率不高的弊病。而将高性能计算作为一种公共服务,立足高性能计算应用需求集中的某一地域,面向地区性用户提供这种公共服务的机构平台的出现,为高性能计算的平民化开创了一种新的模式。作为上海信息港主体工程之一,由上海市政府投资建设,坐落于浦东张江高科技开发园区内的上海超级计算中心,已经成为了这种模式应用探索的一面旗帜。
上海超级计算中心(SSC)成立于2000年12月,是中国第一个面向社会开放、资源共享的高性能计算公共服务平台。上海超级计算中心自投入运行以来,本着随需应变、合作共赢的理念,为上海各行业提供了大量的高性能计算应用服务,在气象预报、药物设计、生命科学、汽车、新材料、土木工程、物理、化学、航空、航天、船舶等10个应用领域取得了一批重大成果,充分发挥了公共服务平台的重要作用。2004年上海超级计算中心引进了峰值速度超过10万亿次/秒的“曙光4000A”高性能计算机,更是实现了中心高性能计算研发与应用双跨越。
上海超级计算中心副主任袁俊告诉记者,“上海超级计算中心目前配置了相对比较丰富的高性能计算应用软件,并且组建了一支高素质的人才队伍。上海超级计算中心的发展目标,就是立足上海、辐射华东、服务全国,努力成为世界一流的高性能计算公共资源服务中心、高性能计算技术支持中心、高性能计算增值服务中心。
值得一提的是,曙光4000A是曙光公司和上海超级计算中心联合开发的。曙光公司总裁历军认为,用户和制造商联合开发高性能计算机是未来的一种有效的合作方式,用户更了解需求,双方合作的产品将更加符合市场的需求。
人才培养不容忽视
“对于一个企业而言,它的目标就是利润。目前中国企业规模小,很多难以承担类似高性能计算这样投入大、回报时间长的产品,企业进入或者退出高性能计算领域都是可以理解的。高性能计算属于基础产业,必须由政府牵头去进行研究推进。”一位老院士接受采访时说。在这次采访中,相关的从业人员呼吁政府加大推进高性能计算机发展的声音不止一次听到。
浪潮集团高级副总裁王恩东甚至建议,国家相关机构在采购高性能机时,应优先采购国产品牌。但目前这点完全没有体现出来。
国家和相关高校要推进高性能人才的培养也成为焦点。 目前中国专门从事高性能计算研究的人才积累不如国外,跨学科高性能计算应用人才缺乏,持续加强高性能计算人才的培养刻不容缓。
作为人才培养摇篮的教育机构,对于担负起高性能计算人才的培养责无旁贷。目前有一些高等院校已经搭建起高性能计算系统,高性能计算在高校的普及已经逐渐拉开。充分利用目前设备,立足自身需求,培养更多的复合型高性能计算人才,应该是下一阶段高等院校高性能计算应用的一个重点。
去年年会上公布的国内高性能计算百强中,国产系统已经雄踞前三名,而且第一名的天河一号系统位列当年的全球高性能计算500强的第5位。在今年10月28日~29日举办的年会上,国产系统已经囊括了前7名,而经过优化升级后的天河一号夺得将于今年11月的全球500强桂冠几无悬念。
年会也给我们带来一些思考。作为国家竞争力组成部分,高性能计算不仅面临着在性能上不断突破的挑战,还面临着把这种超级计算的能量在更多的应用领域释放出来,以满足各行各业用户需求的压力。
超级摩尔定律
在过去的30多年里,高性能计算的每秒浮点运算性能以每10年提高1000倍的速度,几近线性地完成了从百万亿次(106)、10亿次(109)、万亿次(1012)到千万亿次(1015)的跨越,预计在2020年之前,高性能计算将会再提高1000倍,从而突破百万万亿次(1018)大关。
在高速发展中,高性能计算完成了从专用CPU到以x86通用CPU为主、从单核到多核、从向量机到集群、从由CPU组成的同构系统到以CPU和GPU共同组成的异构系统的提升。如今,系统中各节点间的通信网络也正在完成从局域网向InfiniBand的过渡。
功耗问题在性能不断提高过程中变得日益突出,令普通的PC用户难以想象。以天河一号为例,如果采用CPU的同构架构,每天仅电费开支就会超过15万元,而如果采用CPU+GPU的混合架构,在同样性能指标下可以节省2/3的功耗。
作为混合架构的新贵,GPU无疑成为本次年会报告中涉及范围最广的热门技术。虽然GPU的浮点运算能力是CPU的数十倍,但功耗相当,因此同样存在因为发热而引发的“0”“1”翻转问题。这在GPU图形应用中只是暂时影响一个像素,而在高性能计算中意味着整个计算的失败,甚至用户无法确认每次运算结果是否正确。记者注意到天河一号、星云等国产高端系统都采用了具有纠错功能(ECC)的GPU,从而确保了计算结果的可靠性。
高性能计算高速发展的背后是美、日、中三个高性能计算机强国之间的激烈竞争。
“我国在高性能计算机研制方面取得了长足进展,在性能指标上达到世界领先,但竞争还是非常激烈。今后两年,美国和日本将会有若干万万亿次高性能计算系统投入使用,这将拉开美日与我国的距离。”北京航空航天大学教授钱德沛在谈到我国高性能计算面临的挑战时表示:“我国在CPU、互连、I/O、系统软件、算法等核心关键技术上还有很大差距,缺少跨学科的人才,多学科协作研发尚未形成风气,应用与世界先进水平差距较大,在可持续发展上需要政府持续投入和科技界与工业界的持续努力。”
应用应该无处不有
“高效能仿真技术可以研究已发生、尚未发生或设想的现象,可以研究难以达到的微观、中观或宏观的世界,具有综合、协同、继承和互操作的特性,因而成为现代科学研究中求解高度复杂问题的重要科学手段,并与理论研究、实验研究并列为认识与改造世界的三种重要的科学研究手段。”中国工程院院士李伯虎表示。
高性能计算不仅在像宇宙起源这样超长超大时空环境下的模拟、深空探测这样在地面无法进行的模拟中发挥着独到的作用,而且能用更少的时间与金钱代价和更高的效率来替代或者验证现实过程中的模拟和实验。
我国西部不仅蕴藏着全国约80%的水力资源,同时,近代82%的强震也集中在该地区。中国水利水电科学研究院不仅成功地将高性能计算用于高坝地震相应分析,而且有的计算结果还修正了以往小尺度实物模拟时出现的较大偏差。
化工、制药、冶金乃至沙尘暴这些风马牛不相及的领域,在中科院过程工程研究所研究员葛蔚看来,在算法上同属于多尺度数值模拟问题,即在仿真模拟中既要研究可能小至分子原子个体的微小颗粒的运动规律,又要在数米乃至数千米尺度上研究微小颗粒个体之间的相互作用。这种多尺度的问题没有高性能计算是不可想象的,而高性能计算在过程工程上的应用却给人留下充分的想象空间:不必一炉接一炉地冶炼来获取新的合金配方,也不必像神农尝百草那样去寻找新的药品,化学家也会用计算机取代实验室的瓶瓶罐罐和各色试剂。
美国应用数学家Phillip Colell曾将涵盖工程模拟问题的算法归纳为7种。如今这些算法都可以移植到GPU上,区别只是移植难度和程度。换言之,高性能计算应该或者说未来应该无处不在。
“1998年,美国一个化学家因计算化学的研究而获得诺贝尔奖。我国的化学界还比较扭捏,到现在还称之为理论化学,而不叫计算化学,”中科院软件所首席研究员孙家昶说,“我们与物理学家已经很好地合作了,但与化学家的合作才刚刚开始。”
只有相关行业的专家参与,高性能计算的应用才能推广,高性能计算自身进而才能得到持续发展。
百万万亿次的挑战
按照高性能计算过去30多年的发展规律,每秒浮点运算性能将在未来十年内迎来百万万亿次。这1000倍性能的提升带来的挑战是空前的。
联想集团首席科学家祝明发认为,功耗将成为最大的挑战,假设按照现有的双核CPU搭建,仅CPU的总运行功率就高达500千千瓦,电费即便按0.5元/千瓦时计算,也高达600万元/天。如何将系统总功率限制在20千千瓦将会是一个巨大的挑战。此外,来自系统方面的主要挑战有:10~100PB(1015字节)内存和EB(1018字节)外部存储带来的带宽与延时以及功耗限制的挑战,并发性和局部性的挑战,来自系统恢复的挑战等。
祝明发认为,应对百万万亿次的挑战必须要全方位地创新,包括硬件与体系结构,体系结构与编程方法,算法、工具、应用和运行系统的协同优化设计以及低功耗高可靠、可恢复的体系结构设计等方面。“1000倍的跨越,是靠两倍、3倍的跳跃积累而成”。
美国航天航空局(NASA)Langley研究中心Singleterry博士则提到了另一个问题:“NASA高性能系统的内核数每4年翻5倍,从2004年的10240个内核、2008年的51200个,到2012年预计将达256000个,而到2016年将达到1280000个。而算法是否也能每4年翻5倍,从2008年的2000个增加到2016年的50000个?“未来是把钱花在更大和更好的硬件上,还是花在扩展性更强的算法上?”
高性能计算是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机。在科学技术迅猛发展的今天,高性能计算已经成为科学技术发展和重大工程设计中具有战略意义的研究手段,它与传统的理论研究和实验室实验一起构成了现代科学技术和工程设计中互相补充、互相关联的研究方法,提高了科学研究的能力,促进和推动了现代科学与工程技术的发展。美国等发达国家在高性能计算方面发展很快,并一直把它作为国家战略给予高度重视,在国家层面予以组织实施。目前,高性能计算在国内外很多领域已经取得了大量应用成果。在生命科学领域,高性能计算在探究基因奥秘、蛋白质结构、生物信息以及医药设计等方面已经成为不可或缺的辅助工具;此外,将生命科学和信息科学进行结合,从而为生物医学提供有价值的信息作为参考依据更是被一些主流研究机构视为重要的应用。目前,我国的高性能计算虽然与发达国家相比还有很大的差距,但在很多的科技领域已经通过有效地引进和运用高性能计算取得了很多的科研成果。
鉴于目前高性能计算在国内外的快速发展和广泛应用,中国中医科学院中医药信息研究所在2007年10月购置和引进了中医药行业第一套高性能计算系统——曙光tc 2600刀片服务器。该系统具有50个计算节点,2个数据库节点,1个i/o节点,1个管理节点,一个登陆节点,共计55个节点,存贮达4 t容量,峰值浮点计算能力11 800亿次/s,实测并行性能8 600亿次/s。在2007年12月完成了设备的验货、安装、调试、测试、验收,目前已经测试运行了linpack、pmb、iozone、stream等程序,以及生物计算领域的vasp应用程序;安装了中国科学院计算技术研究所开发的网格软件gos3.0,目前正在与浙江大学计算机系合作进行中医药网格的研制和开发工作。
系统硬件配置:曙光tc 2600刀片服务器,2*amd opteron 2218双核cpu,4 gb内存;80 g硬盘,千兆以太网卡,共50台刀片机组成;i/o管理节点2台;登录节点1台;数据库节点2台,4*amd opteron 8214双核,16 g内存,73 g硬盘两块;infiniand 10 g网络1套;磁盘阵列:300 gb fc硬盘8块,500 gb sataii硬盘8块。
系统软件配置:linux操作系统 redhat企业版1套;曙光刀片管理软件1套;集群系统软件:曙光集群系统管理软件(dcms)1套,曙光集群系统部署软件(dcis)1套,并行命令软件(mterm)1套,作业调度系统(dpbs/torque)1套;双机高可用软件roseha 1套;gnu c/c++编译器1套;gnu fortran77/90编译器1套;datadisplay debugger 1套;codeanalyst系统性能分析工具1套;openmpi 1套;mvapich 1套;mpich/lam-mpi 1套;pvm 1套;acml 1套;apl 1套;lapack,scalapack 1套;hdf5 1套;blas、goto、atlas 1套。
这套系统是目前我国中医药行业引进的第一套高性能计算设备,由于中医药行业的独特性,目前国内外还没有这方面成熟的行业应用经验可供参考,如何使高性能计算尽快成功应用于中医药行业,目前还面临着许多开创性的工作。希望能够通过借鉴目前国内生物医学领域的一些成功应用,为加快高性能计算在中医药行业的应用、普及和提高提供些有益的帮助和借鉴。
上海超级计算中心:上海超级计算中心成立于2000年12月,由上海市政府投资建设,座落于浦东张江高科技开发园区内,是国内第一个面向社会开放,资源共享、设施一流、功能齐全的高性能计算公共服务平台,目前已经在气象预报、药物设计、生命科学、汽车、新材料、土木工程、物理、化学、航空、航天、船舶等多个应用领域取得了一批重大成果,发挥了重要作用。
上海药物研究所:中国科学院上海药物研究所药物发现与设计中心成立于2001年,是一个以基因信息和蛋白结构为基础,以药物设计、化学合成和现代生物技术为主要研究手段的创新药物研发中心。该中心除了拥有大量先进的用于分子生物学和药物研究的实验仪器设备,以及sgi(64个cpu)和国产“神威”高性能计算机之外,还拥有最先进的分子模拟和药物设计软件,如:insightii、catalyst、topkat、sybyl和dock等。此外,他们还利用mdl公司所提供的“药物数据报道数据库(mddr)”、“综合药物化学数据库(cmc)”、“化合物筛选数据库(acd-sc)”和自主开发的“中国天然产物数据库(cnpd)”等数据库,建立了超过250万个化合物的大型药物虚拟筛选数据系统。在抗sars科研攻关中,他们参加了抗sars的药物研究,在探索sars病毒的致病机理、药物设计、虚拟筛选和分子水平筛选的工作中高性能计算发挥了非常重要的作用。
此外,中国科学院院上海药物研究所沈建华等学者密切注意国际网格技术发展动向,及时组织跨学科、跨科研院所和跨地区的交叉学科研究队伍,开展高性能药物研发网格技术研究,该项研究2002年获得“863”计划“高性能计算机及其核心软件专项”的支持,研究人员针对高通量虚拟筛选计算量和数据量大的特点,开展了药物设计网格的各种关键技术的研究,建立了“新药研发应用网格”技术平台。目前,上海、北京和香港地区的多个超级计算机和计算机机群等计算资源已经加入这一平台,形成了超过每秒万亿次浮点运算能力的应用网格系统。上海药物研究所将自己开发的高通量虚拟筛选软件进行了异机(不同型号的计算机之间)并行化,安装在该技术平台上;同时,在该平台上还安装了含有120万个化合物信息的数据库和各类药物靶标蛋白结构数据库,在该平台上开展了多项国际合作研究。新药研发网格的建立,为真正实现公共计算和数据资源的共享奠定了基础,对创新药物研究具有重要的意义。
国家新药筛选中心:国家新药筛选中心应用先进的高通量和高内涵药物筛选技术,对我国特有的化合物样品库(包括中药在内的天然产物)在高性能计算平台上实施大规模随机筛选。在对筛选发现的活性化合物进行结构优化改造的基础上,开发治疗肿瘤、中枢神经系统疾病和代谢性疾病的原创新药。该中心在国际合作方面不断取得进展,如在与瑞士actelion 医药公司的合作中发现了一个至今尚未见报道的神经调节肤 u-1受体选择性小分子激动剂;与日本田边制药株式会社开展原创药物筛选合作研究中发现了一个具有高度生物活性、结构全新的烟碱型乙酰胆碱受体的小分子调节剂;与美国celloinks公司建立了战略伙伴关系,建立了我国首个具有国际先进水平的高内涵药物筛选技术平台并投入实用。这些成绩不仅提升了我国新药研究的技术水平和国际知名度,而且为相关先导化合物的下游开发奠定了坚实的基础。
复旦张江新药筛选及评价研发平台:在新药筛选及评价研发平台的基础上,复旦张江与中国药物研发领域的顶级机构之一中国科学院药物研究所合作成立了“上海先导药业有限公司”。为了更加快速主动地寻找有可能成为新药的化合物,复旦张江在技术上利用计算化学、组合化学等高效筛选技术建立了不同层次的药物筛选和评价模型,在高性能计算平台上对有可能成为新药的化合物进行筛选和评价,成功建立了新药筛选及评价研发平台。
华中科技大学——浪潮高性能生物信息中心:2003年华中科技大学由浪潮北京电子信息产业公司捐助建设的“华中科技大学-浪潮高性能生物信息中心”正式启用,该中心引进了亚太区第一套基于infiniband高速互联技术的浪潮天梭ts10000高性能系统,主要用于生物信息学中的科学计算、模拟和可视化研究,构建大型生物信息数据中心。
北京生物医学研究所:北京生物医学院研究所与高性能计算厂商蚬壳星盈合作,引入了星盈亿万次实时协作式超级刀片计算机系统并建立了具备国际领先水平的生物科学超级计算和研究中心,为科研人员的研究课题提供了强大计算服务平台。
中国科学院昆明动物研究所:昆明动物研究所是中国科学院所属的20多个生物类研究所之一,也是国内一流的动物研究机构之一。他们购置了一套曙光峰值运算能力为2.75万亿/s的高性能计算系统,帮助研究所打造我国生物资源和生物多样性研究基地。
北京放射医学院研究所:北京放射医学院研究所与国内知名刀片高性能计算服务器厂商蚬壳星盈合作,引入了星盈亿万次实时协作式超级刀片计算机系统,并建立了具备国际领先水平的生物科学超级计算和研究中心,为科研人员的研究课题提供了强大计算服务平台。
北京生命科学研究所:北京生命科学研究所由科技部、发改委、教育部、中国科学院等8个部委共同筹建,主要从事生物大分子方面的研究,发表在《科学》、《自然》、《细胞》等生命科研领域的国际顶尖杂志上的论文数量居国内首位。目前对生物大分子进行深入研究,从原子水平上来掌握生物大分子的三维结构和生物功能之间的关系,并在此基础上进行药物设计,是近年国际生物医药研究的前沿课题,也是该所重要的科研方向之一。大分子是目前自然界物质结构最复杂的分子,一个生物大分子及其环境组成的系统往往包括几万至几十万个原子,高性能计算的应用在研究中起到重要的作用。他们购置了拥有102个节点的浪潮天梭高性能集群,通过该计算平台,利用上百个节点进行并行计算可提高模拟效率几十倍,过去利用单机工作站几天才能完成的实验模拟,现在几个小时就可以完成,大大提高了科研的进度。
北京大学生命学院:以北京大学生命学院为龙头的一些生物科研机构已经加入了有关的国际组织,并在网格上分享现代生物信息资源,开展了应用高性能网格计算建立生物信息学中心的配套研究工作。
北京华大基因研究中心:北京华大基因研究中心成立于1999年9月,该中心长期致力于基因组学、蛋白质组学、生物信息学方面的研究,目前所从事的基因组测序与组装、基因预测、基因功能分析等课题,都是超大规模的海量计算。有些计算任务如果使用现有的计算机需要1个月,甚至1年的时间才能完成,所以只有引进高性能计算产品才能满足研究中心的计算任务。华大研究中心使用了与中国科学院计算所联合研制,专门为生物信息学研究使用的“曙光4000 h”高性能计算系统,以及ibm、sun等厂商的高性能计算产品,他们利用这些高性能计算系统完成了1%人类基因组计划、超级杂交水稻基因组测序等诸多科研项目。
北京医学信息研究所:北京医学信息研究所与蚬壳星盈合作建立了生物医学超级计算与研究中心,引进了一套星盈万亿次实时协作式超级刀片计算机系统,研究人员在超级刀片计算平台,使用blat、estalign等程序研究基因转录和可变剪接等问题时,利用56个计算节点并行运行blat,仅耗时7.5 h就可完成unigene数据库中五百多万条人类est序列对基因组数据库的比对,而相同的任务若在一般的服务器上用双cpu的pc服务器需要3周时间。
第一,基于多核CPU技术的刀片服务器已经成为高性能计算的发展趋势。值得关注的是,排名全球第一的高性能计算机“走鹃”,采用的就是混合架构,并且涵盖了CELL芯片。
第二,GPU技术会给地球物理、高密度运算、可视化处理带来新机会。GPU技术被证明是一项加快计算、可视化、图像分析、模式识别、计算机视觉完美结合的技术。东方地球物理公司研究院(以下简称东方地球)也在做应用GPU技术的相关实验,并且应用了768个节点。整个中石油一共用了7套系统做实验,应用环境就是油田,并且目前已经取得了一些进展。国外的一些同行公司也在应用了GPU的混合架构上成功地开发了自己的应用软件。随着地震软件商对GPU技术的支持,可视化处理解释系统、叠前迁移数字建模的效率很可能会大幅度提升。目前这项技术存在的最大问题是很少有支持这个平台的应用软件。
第三,高密度、多路服务器技术将会成为地震处理和综合解释研究的新平台。我们与专家交流后认为,四路服务器可能是比较合适的选择,不仅胖节点可以采用多路服务器,包括东方地球现在进行的信息化建设也是采用多路服务器来作为一个大平台,分区给不同应用使用。
第四,万兆以太网将给高性能计算的发展带来新生机。尽管目前由于成本太高,万兆以太网和Infiniband的应用市场不及千兆以太网,但它们还是相当有竞争力的。1995年新兴的网络技术只能提供10兆以太网,到1998年,已经发展成为千兆以太网,1999年更推出了万兆以太网。如今,超万兆以太网已经脱离了实验阶段。有专家预测,到2011年~2018年的时候,网络技术才会出现比较大的改进,万兆以太网也会因为成本的降低而逐步替代目前的千兆以太网。
榜单概况
从最新的Top 500排行榜上看,美国依然处于绝对领先的地位,有257套系统上榜,在Top 10中占6套,其中前5套竟然全部安装在美国。中国有12套系统上榜,上榜数量相比去年11月的10套小幅上升,但性能最好的胜利油田系统仅位列第111位,排名比去年有所下降。
从供应商角度看,IBM和HP成为最主要的HPC提供商,分别有209套和183套上榜,运算总性能分别达到Top 500的47.7%和22.4%,优势明显。
从上榜系统来看,Top 500采用的主处理器主要集中于Intel、IBM和AMD三家。其中基于IA架构(Intel架构)的有257套,基于4核至强处理器的系统从0增长到161套。而基于AMD处理器的系统大幅减少,采用Sun和Alpha处理器的机器已经彻底从Top 500上消失。
千万亿次:平淡中的惊喜
新的排行最引人关注的是IBM Roadrunner系统以1026TFlops(峰值性能1376 TFlops)的性能超过了从2004年11月以来就排名Top 500首位的BlueGene/L(蓝色基因/L)系统,并成为Top 500历史上第一套Linpack运算能力达到1千万亿次(1petaflops)的系统。Roadrunner系统由6480个Opteron处理器和12960个Cell处理器组成,造价1.2亿美元,重达250吨。
不过值得注意的是,Opteron处理器只提供了44Tflops的运算能力,而Cell芯片则贡献了1332Tflops(峰值)的性能,因此,在Top 500官方网站上将其系统处理器的类型设定为Power系列也就不足为奇了。
Roadrunner采用的是集群(Cluster)结构,并没有什么新奇,但混合结构带来的Linpack性能提升还是非常明显的。尽管性能可观,这种系统的性能发挥则需要依赖高效的软件系统,其复杂性可能给其应用带来一定的局限性。连Roadrunner的首席工程师也承认,后续版本将推出新的编程语言和实时编译器技术以进一步完善整个系统。
首次引入能耗指标
与HPC跨越千万亿级相比同样引人关注的是,本次Top 500还引入了系统能耗这一新的指标。Top 500评委会要求系统拥有者测试系统在运行Linpack程序时的这一数值。
而性能与系统能耗的比值――能效值更能体现系统的运行效率。不过,由于能效值受系统整体功耗、Linpack效率、并行规模、测量方式等很多因素影响,目前还很难有一个很科学、公平的衡量方式,因此,本次Top 500并未统一给出这一指标。但Top 500还是统计出了能效最高的一些系统单元。
IBM的Cell刀片系统QS22能效值达到488Mflops/s/W居首,BlueGene/P系统为371Mflops/s/W,紧随其后的是基于Intel Harpertown的四核系统,包括IBM的BaldeCenter HS21(低电压至强)、SGI Altix ICE 8200EX和HP 3000系列BL2×220,能效值分别为265 Mflops/s/W、240 Mflops/s/W 和227 Mflops/s/W,这已经超越了IBM BlueGene/L系统的210 Mflops/s/W。
从中可以看出,采用低电压处理器和刀片单元成为高能效系统重要的保证,这一点对于大规模的HPC系统来讲尤其重要。
系统均衡性更加重要
高性能计算从原理上来分主要有容量计算和能力计算两大类,这两种类型的计算对于系统的要求是完全不同的。因此,节点机处理器的性能、互联网络、存储I/O表现,都会直接影响到系统的最终性能。
选择与应用匹配的系统网络架构是至关重要的。随着节点机处理能力的上升,快速的互联网络对系统表现的影响越来越重要。从此次上榜的高性能计算机来看,采用Infiniband互联的系统达到了121套,仅次于采用千兆以太网的284套。其中排名首位的Roadrunner即采用了Infiniband。而大多数Linpack效率高的系统也都采用了Infiniband互联架构(除专用结构外)。
通用与专用加速
在性能和功耗的双重压力下,HPC的计算系统面临着全面的升级。
在主芯片层面,处理器的多核化是实现高性能和低功耗的最重要手段;而刀片服务器和加速器作为节点机的应用预计也将会越来越多。
所谓的加速器,是指分解出算法的某些部分,在特定硬件上运行,利用其高度并行化和硬件结构简单因而能耗低的优势以大幅提高系统能耗比,从而提高计算效率。比较典型的加速器是FPGA器件和GPU,Roadrunner系统采用的Cell处理器也可以被看做是某种类型的加速器。
尽管加速器作为单体来看确实能够大幅提高节点内部的计算效率,但这些特殊结构给高性能系统整体带来的影响可能非常复杂。指令集匹配、混合编程和与其他计算节点的协调都是可以想像得到的难题。从目前来看,这些加速器的使用还是在特定的领域和范围内实现比较现实。不过,随着多核处理器、互联和软件技术的不断发展成熟,这些特定加速器的效能会逐渐激发出来,某些专用加速器甚至可能会成为通用处理器的一部分,其可用性也会逐步提高。
未来的方向
尽管Top500被作为全球高性能领域最权威的榜单,但也并不能够完全反映高性能计算在更广大市场的应用发展方向。抛开单纯的硬件性能,系统复杂、对软件和应用开发要求高甚至成本这些非技术因素都影响着HPC系统的普及推广,这也是IBM的BlueGene和Cray XT3/XT4等定制系统并未在中低端市场应用的一个重要原因。而高性能计算的商业化应用越来越广泛是一个不争的事实。
中国超算的发展速度赢得了世界的关注,国际超算权威专家、TOP500的发起人之一Hans Werner Meuer 博士用“big shocker”极具震撼力来形容中国超算的发展。
就在近日,国际TOP500组织在德国举行的2015年国际超级计算机大会上全球超级计算机500强最新榜单,中国“天河二号”以每秒33.86千万亿次的浮点运算速度第五次蝉联冠军。
谈到超级计算机,相信大家都太陌生,它能够提供超高的性能,其一般主要应用于科学计算、工程模拟、动漫渲染等领域,这些应用大多属于计算密集型的应用。而云计算则是在近两年随着互联网发展起来的新兴计算,其依靠着灵活的扩展能力主要应用于社交网络、企业IT建设和信息化等数据密集型、I/O密集型领域。
在橡树岭国家实验室有一个研究设施SNS(散裂中子源),它构建于2006年,曾引爆过世界上最强的材料中子束,帮助物理学家和化学家了解材料内部结构是如何形成的。
SNS产生了大量数据,它们需要被彻底分析。而科学家们相信,他们可以利用深度学习算法快速识别数据类型,并提升分析能力。识别数据类型是深度学习的专长。
但问题是,对于科学模拟来说,每次产生700TB数据似乎太正常不过了,不过这比美国国会图书馆所有信息加起来的量还要大。
应用方面,高性能计算机可称得上是行业应用的强力助手。中石油川庆钻探地球物理研究所计算所所长邓亚力在接受本站记者采访时表示:作为新一代的数据中心,在石油勘探应用方面最受关注的重点依然是性能。此次中石油部署的PMDC集装箱数据中心也表现优异。其采用了标准的20英尺集装箱,借助现代化物流可快速部署至全球任何地区。同时,采用高密度设计,使PMDC的占地面积很小,仅相当于同等性能数据中心占地面积的1/4。
据华大基因高性能计算研发主管王丙强博士介绍,GPU多流处理器架构以及超高的显存位宽和频率能够带来巨大的性能提升,在基因研究方面普遍可以带来10~20倍左右性能提升,如果说DNA上有一个点发生的基因突变,仅计算那一部分大概就可以提升70多倍。
原来在华大基因自己高性能计算平台上做,大概要好几年才能算完,后来转移到到天河一号A上去,用超级计算机加上NVIDIA Tesla GPU加速,只要5个多小时就能完成。
关键词:高性能计算 加速比 性能评价
中图分类号:TP31 文献标识码:A 文章编号:1672-3791(2016)07(b)-0014-03
不同应用领域的科学程序使用的算法不同,对高性能计算系统的要求也有所不同。比如,通信密集型的算法对机器的网络性能要求较高,计算密集型的算法对处理器性能要求较高。面对众多的高性能计算系统,如何评测和选择适合气象数值天气预报业务应用的高性能计算系统是必须解决的问题。
1 HPC系统性能评测指标
在评测高性能计算系统时,有以下4种基本性能指标[1] :系统规模、系统峰值、网络带宽和网络延迟,表1给出了高性能计算系统基本性能参数。对于高性能计算应用的性能评价,则还有计算规模、计算时间、计算效率、并行加速比等评价指标。
高性能计算机系统的基本参数指标,往往回答不了用户关心的问题。而且,由于处理器结构、存储层次结构、互联网络拓扑等的差异,系统规模、系统峰值、网络带宽与延迟等单一性能指标也确实难以表征系统的综合性能,因此需要进一步作高性能计算系统的综合性能评测。
2 HPC系统性能评测方法
高性能计算系统性能评测方法主要包括基准测试和实际工作负载驱动测试两类。基准测试[2]是指利用业界开发的多种基准测试程序来测试高性能计算系统的性能指标,一般都是针对系统某方面或某分系统性能进行测试,反映系统某一特定方面的性能指标。基准测试程序是用户理解系统性能比较直接的方式。作基准测试程序时,还需要考虑数据集以及运行规模等方面的问题。
在性能评测中实际工作负载驱动测试也是一个极其重要的测评指标。实际工作负载驱动测试[3]是指采用用户自己的业务应用程序进行实际的测试。通常高性能计算机的峰值性能与实际应用/实测可获得的性能仍然存在很大的差异。峰值性能是指在理想情况下计算机系统可获得的最高理论性能值,它不能反应系统的实际性能。在性能测评中实际工作负载驱动测试是一个极其重要的测评指标。
3 系统性能评测方案设计
气象数值预报是高性能计算应用的一个传统领域,复杂的气候三维模型对高性能计算有着巨大需求。省级气象行业的主流数值预报模式的类型主要有中尺度非静力格点模式MM5(Mesoscale Model5)、WRF(Weather Research and Forecasting)、中国新一代数值预报模式GRAPES(Global/Regional Assimilation and Prediction Enhanced System)以及区域气候模式RegCM等等。这些气象数值预报模式的特点是计算量巨大、通讯极为密集、实时性强,因此在测试方案设计上,需要重点关注并测试高性能计算机系统的高性能浮点处理能力、高性能网络环境和系统的高稳定性这3个主要方面。
在建设气象高性能计算系统过程中,采用了以实际数值预报模式测试为主、基准测试为辅的综合测试方案。充分了解气象应用领域对高性能计算系统的需求,利用实际工作应用程序进行测试更有针对性,更具实用价值,为气象部门购买高性能计算机系统提供依据。各项测试分为非优化测试和优化测试。非优化测试便于考察集群对原代码的适应性。优化测试可以让厂家充分展示机器潜在性能的机会,在测试厂家的技术实力的同时,也获得厂家的优化代码,以便有效地构建满足特定应用需求的高性能计算机系统。
气象高性能计算系统测评方案具体分为应用测试、基准测试、功能测试和测试题4个部分。通过对两个气候和气象预报模式的测试,来验证和确定厂家的高性能计算机是否适合气象数值预报目标系统的性能规模和内存配置;利用基准测试程序来测试系统的相关性能指标,如单CPU性能、I/O速度、结点互连网速度、通信延迟、内存带宽等等。
4 系统性能评测结果分析
4.1 测量时间分析
时间是高性能计算机性能测量的主要标准。测量某一任务所花的全部时间称响应时间。响应时间[4]也称墙钟时间或周转时间。响应时间=CPU时间(用户+系统)+ I/O时间+通信时间。一个程序的CPU时间包含用户CPU时间(执行程序的时间)和系统CPU时间(操作系统的开销)。系统性能对应于响应时间,而CPU性能对应于用户CPU时间。
从实际业务运行时间与峰值速度的比较图1中可以看到:高性能计算机的峰值性能与业务实际应用可获得的性能存在较大的差异。如图1中所示,公司B的HPC系统运行提供的实际业务应用模式所需的墙钟时间是最少的,但是它的理论峰值速度却不是最高的。相反,公司C的理论峰值速度很高,但是运行实际业务程序所需的时间却较长。
关键词 高性能;计算技术;气象领域
中图分类号TP39 文献标识码A 文章编号 1674-6708(2014)121-0231-02
气象行业对于高性能计算的需求较为强烈,它的主要作用是应用在天气预报层次的业务运行上。因为高性能计算资源一直匮乏,这也成为制约天气预报事业发展的重要障碍。现阶段,随着高性能计算技术的快速发展,高性能计算技术在很多领域得到广泛的应用,特别是在气象领域中起到了不可忽视的作用。高性能计算技术中最为重要的问题是资源的分配及高效的管理,该项研究已经引起很多研究者的高度重视。为了提升灾害性天气预报的准确度,气象局决定采用高端的技术创建一套具有超强适用性的方案。高性能计算技术已经成为衡量一个国家综合国力和国际竞争力的指标。
1简述高性能计算的发展情况
高性能计算是一种比较高端的科学研究手段,其不断的发展和应用,对于经济发展及贡献度的提升,表明科技和经济水平的发展已经进入高层次的发展水平。自计算机问世以来,高性能计算机应用和高性能计算机技术的改革和发展有着密不可分的关系。高性能计算机的研制成功为高性能计算机技术的应用提供了必备的物质基础和工具支撑,应用开发也进一步推进了高性能计算机的发展。现阶段,高性能计算机都涉及到核武器研究、石油勘探、医疗事业、气象、灾害预报等多个领域。高性能计算机的应用成为促进科技快速发展的重要工具。
2气象领域应用的需求及特点
2.1应用特点
1)气象系统流程复杂多变,运行时间较长。气象领域涉及到不同数据的处理、模式的计算,某些环节展开计算的时间可能出现较长的时间,气象系统不同模块之间具有比较复杂的相互依赖关系。气象领域的业务系统每天会定时的循环工作。因为气象部门每天都必须向用户预报当天的情况,所以业务系统必须每天进行定时循环工作。
2)气象预报的模式必须要求结果准确,所以必须设定好较高的分辨率,物理过程细致,初始资料精准,这时计算工作量就会加大,也要适应预报的时效。这样的要求机器就必须在快速的时间内进行模式的计算,这就要求机器必须具有较高的可靠性。进行计算是在三维的模式下展开,分辨率如果上升一倍,那么计算量就会增加8(23)倍。气象预报业务通常采用模块化的设计,不同模块之间具有松散耦合的关系,模块运用shell脚本进行有关参数及相关功能的调用。
2.2功能需求
根据气象系统的特点要求,气象高性能计算必须有一整套完整的流程描述,可以清晰的叙述气象数值预报所牵涉到的不同流程及定义业务的组合关系。分析气象系统模块化设计的特点得出,高性能计算用户环境必须采用shell脚本作为最小的监控单位,从而屏蔽导致某些程序模块出现的用户环境的改变,强化高性能计算用户环境的维护性和扩展性。高性能计算业务必须为气象系统配备一个引擎系统,依据流程定义从而达到自行调动实际作业的目的。也可以监控气象系统的流程执行情况,随时给出容错功能。高性能计算机必须为气象领域提供一个图形化的监控管理界面,可以允许Web界面通过远程达到对气象预报流程的监控和管理功能。可以为气象流程目前的执行情况和执行的信息等给出一个清晰的图形化显示。
3气象中心SCDHPCRMM系统
3.1高性能计算资源监视系统
气象高性能计算用户环境中的监控系统划分为业务流程、调度执行器、插入式监控组件、消息收集器四个部分。用户在编制业务流程的文件时,会依据监控流程的要求,在对应的业务系统中穿插监控的元素;调度执行器做完业务流程文件的解析之后,随后依据业务流程生成监控状态的信息表;业务流程已经定义好的监控元素和监控组件相互对应,在运行过程中会向信息总线发送状态从而对信息进行更新;消息总线整合运行过程中通过监控部件发送到监控状态的信息,随后把监控装态的信息表进行相对应的更新。
3.2高性能计算资源管理模块
1)模块构架。高性能计算资源管理模块可以划分为用户接口、资源管理、服务器及作业调度系统三个部分。开发了以Web界面的用户接口,用户可以采用相应交互的命令或在门户管理资源上查询想要获取的情况。资源管理又可以划分为资源分配与统计、计算资源记账信息库及用户三个部分。资源分配采用GCU作为计算单位实现对资源用户的分配。资源数量的分配必须根据资源分配管理规定展开,从资源使用者的特点和使用情况入手,达到合理的预分配和计算。根据时间、用户等方式对使用的资源进行粗、细粒度的统计工作。
2)高性能计算资源程序设计。高性能资源程序的设计必须满足用户对高性能计算资源的要求,可以动态的跟踪资源的使用精、细度的统计结果,可以根据用户、机械等情况对资源的使用情况随时查询,并能快速使用资源控制办法,对计算资源的使用信息进行准时的上传。计算资源统计程序安装在bccdgridsvr服务器的/grid/resourcemanager/bin目录中。
高效方便的高性能计算技术关系着高性能计算资源是否可以得到高效的分配和利用。系统管理人员可以通过SCDHPCRMM系统达到对用户、机器等各个方面的监控和统计。高性能计算系统的监视和统计结果可以指导系统管理员对资源进行科学的分配和调度,这为管理部门提供决策的有效依据。
参考文献
[1]黄瑞芳,刘俊铖,鲍振华,等.气象海洋高性能计算机测评系统研究与实现[J].成都信息工程学院学报,2012,27(2):157-161.
[2]尹万旺,杨以军,周明忠,等.SW-MPIFT在气象领域的应用[J].计算机工程与应用,2006,42(23):186-187,207.