首页 > 范文大全 > 正文

曙光:15年100万倍的飞跃

开篇:润墨网以专业的文秘视角,为您筛选了一篇曙光:15年100万倍的飞跃范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

“5月14日,国务院总理一行来到曙光天津产业基地视察,他走过曙光1号、曙光1000等系列高性能计算机,来到了‘星云’的旁边,详细听取我们的汇报。”历军回忆道,“在这一过程中,我第一次计算出了一个数值,从曙光1000的25亿次/秒到现在的‘星云’的近3000万亿次/秒,15年间,曙光将高性能计算能力提高了100万倍。”

“星云”正是那个在全球TOP500排行榜中位列第二的超级计算机,它成为世界第三台实现双精度浮点计算超千万次的超级计算机。

15年前,曙光公司在北京成立,随着曙光1000、4000A、5000A,以及“星云”系列产品的推出,高性能计算能力不仅实现了十亿、百万亿、千万亿次每秒的突破,还走出了科学计算领域,开始向商业应用迈进。

“星云”的价值创新

刘保华:6月1日,曙光公司隆重了世界排名第二的超千万亿次的高性能计算机 “星云”。我们不难发现,现在的超级计算机采用的都是CPU+GPU的架构,那么“星云”是什么架构?

历军:“星云”超级计算机采用的就是CPU+GPU架构,它是未来将要推出的曙光6000A千万亿次高性能计算机系统的阶段性成果,是曙光6000A两大分区之中的服务分区,而另一大分区就是由龙芯组成的计算分区。“星云”采用x86处理器,该分区由9280颗通用CPU和4640颗专用GPU组成,运算峰值达到3000万亿次/秒,实现Linpack值1271万亿次/秒,且单位耗能所提供的性能达到了4.98亿次/瓦。

超级计算机为什么采用CPU+GPU架构呢?最主要的原因是CPU发展多年,所有的软件都是基于CPU的架构,而GPU的应用范围相当有限,作为未来大型计算系统的重要的部件之一,它无法替代传统CPU的作用。“星云”采用了4640颗GPU,是因为GPU适合一些特殊应用,比如科学计算中的颗粒碰撞。

刘保华:“星云”的计算能力排名全球第二,我想排名只是它价值体现的一部分,那么总体来看它的价值创新在哪里?

历军:第一,“星云”是一个完全自主设计的商业化产品,在天津测试完毕之后直接打包送到深圳超级计算中心现场安装使用,而有的超级计算机得到全球排名后就拆掉了。

第二,“星云”采用的是均衡系统设计的思维。集群就是众多小的节点组成一个大集群,“星云”就是要把节点做大,降低集群的规模。比如过去一万个节点,每一个节点性能较低,这样组成一个集群,而曙光可能用100个节点,也做出相同整体性能的集群,这就是“星云”。“星云”中的“星”就是每一个性能较高的节点。“星云”将面向未来的云计算环境,这样它将面对无数用户和各种各样的应用,因此“星云”采用了均衡设计。在面向高性能科学计算应用的时候,“星云”的GPU能力将得到充分发挥,在面向网络服务的时候,“星云”可以很好地适合各种商业应用。因此,“星云”可以面对信息服务、科学计算两方面应用,不管是“大应用”还是针对个人的“小应用”,它都采用均衡设计,“星云”名字就来源于此。曙光希望“星云”未来可以成为国内大型云计算环境中的主要装备。

因此,“星云”在产业中的一个重要价值就是,它面向未来的云计算环境,已经不再只是强调科学计算能力。尽管超级计算机排名中我们实测了Linpack性能高达每秒1271万亿次,但我们也会做商业应用的TPCC测试,这仍将是一个极高的数字。

刘保华:曙光的标志性技术产品,曙光1000到5000A,再到“星云”,“星云”是否有一些普及化的衍生产品?

历军:是的。大概在6月,我们就会基于“星云”架构的新的PHPC200桌边级高性能计算机,7月底会曙光新的刀片架构。这些产品更加平民化,应用面更广泛。我想到时可能会向业界展示样机,具有百万亿次运算能力的机器只需要两排机柜,成本大大降低,安装与环境也基本无关。比如对于学校来讲,只要一个教室大小的房间和足够电力就可以很快上线这种系统。

高性能迈向高效能

刘保华:仔细分析美国和中国超级计算机的应用就会发现区别较大。比如美国橡树岭国家实验室的负责人就表示,他们的超级计算机执行的任务数量越少越好,任务负载越重越好,而中国的超算中心运营情况却是执行众多任务。这种区别出现的根源是什么?什么时候中国高性能计算应用环境才能真正构建起来?

历军:美国的高性能计算应用至少有30年历史,他们的高性能计算机可能只跑两个应用,一跑就是两三年。而中国将高性能计算作为一个产业仅仅15年时间,起步较晚。15年前,中国的高性能计算只停留在科研院所的研究之中。在1995年曙光公司成立之后,中国才真正开始将高性能计算作为一个产业来发展。从1995年25亿次/秒的曙光1000,到2010年的超千万亿次/秒的“星云”高性能计算机,15年之中我国高性能计算机的计算能力提高了100万倍。

第二,由于我国高性能计算起步较晚,所以应用软件的开发力度不足。应用软件开发时间短造成了目前应用颗粒小的问题。曙光多年来也培养了一大批应用软件开发的人才,水平也在不断进步,他们开发的“小应用”起到了普及用户的作用。

第三,我国从“863”计划开始建立了科研重大专项资金和资源,重点研发高性能计算机及“大应用”。 我想再用几年时间,中国就会有大批的“大应用”出现,这是未来的趋势。

刘保华:前不久,中国首套分布式GPU超级计算系统在中国科学院启用,聚合计算能力近6000万亿次。那么分布式系统是否代表了未来高性能计算的发展方向呢?

历军:李国杰院士说过一句话,计算机的发展正所谓“天下大事,分久必合,合久必分”,现在就到了又一次合的时候了。第一,分布式计算在应用上有很大局限性,它不强调时域计算,也就是说它不适合实时性应用的需求。第二,所有分布式计算的计算能力都可以通过系统的数量叠加达到很高的数字,但是效率不高。即使是在对实时性没有要求的特殊计算环境中,效率仍旧不高。因此从普遍意义上看,现在已经到了合的时候,而不是进一步分的时候。

刘保华:那么,高性能计算未来竞争的核心焦点是什么?

历军:所谓高性能计算不能等同于科学计算。回顾曙光15年历程,我们在推出曙光3000A的时候曾经不再把它称为超级计算机,那时候叫超级服务器。因此,未来高性能计算的竞争核心已经不在于峰值而在于效能。

在“863”计划中,我们不把星云叫高性能计算机,而是叫高效能计算环境。此外,它将面向更复杂的应用,这是一个挑战。我认为在这个计算体系结构发生变革的时期,它应当面向的是数据和计算能力进一步集中的云计算环境,因此应用应当是多方面的。我们不可能做一个机器,仅仅用于科学计算,再做一个机器仅仅用于商业服务,它一定是均衡设计的。我认为,未来超级计算机的存在形式将发生变化,也许那时不应该再称为超级计算机,而是称为计算能力。因此曙光未来提供的也许不再是计算机,而是计算能力,这就涉及到了服务范畴,这是业务模式面向未来的根本改变。

向服务转型

刘保华:曙光目前正在向服务转型。从成都云计算中心开始,曙光在高性能计算领域的角色就发生了变化,从建设者转变成为运营者,这其中既有曙光擅长的也有不擅长的,那么这种新的身份给曙光带来了哪些机遇和挑战?

历军:坦率地说,一个企业不太可能什么都擅长,但是一定要符合所在产业的未来发展。曙光这样的高性能计算厂商从产品向服务转变是符合产业未来发展趋势的。做运营可能需要几种类型的特长:第一擅长圈地,第二擅长设计楼房,第三擅长做出商业模式,提供管理和服务。从曙光的角度看,我们这几年一直在不断地丰富运营方面的能力,比方说我们两年前就专门成立了基础设施部,已经开始涉及机房里的其他基础装备,比方空调、电力和一系列基础设施,而曙光不会试图去涉及建设楼房和圈地。

刘保华:机房系统建设的技术含量很高,而且中国的机房产业远没有成熟,还处于多企业多方竞争的状态,现在曙光进入很容易形成竞争优势。

历军:我们现在的机房技术可以做到无风扇计算机,靠液体浸泡式散热,并且已经把水冷技术引进机柜内部,用水进行热交换,成都云计算中心中的制冷系统就已经采用我们自己的产品了。这样做的目的不仅是因为可以大幅度降低成本,更重要的是它有力支持了曙光的一系列技术战略――我们希望曙光未来对于云计算中心的管理软件体系可以管理到这个中心的所有设备,甚至包括门禁摄像头,因此我们要有自己的基础设施和全面的系统化设计能力,否则采用不同企业的机房设备集成是无法实现全面管理的,这正是系统厂商的优势。可以透露的是,8月我们就可能成批展示曙光的系列机房基础设施产品。

刘保华:我们知道现在很多云计算中心都是要么都做科学计算,要么都做商业服务,而成都云计算中心却将两者整合在一起,这会出现什么难题,曙光如何解决?

历军:其实曙光在成都超算中心的运营相当于试水,目的不是为了直接获得商业利益,而是推演新的商业模式。“星云”的很多设计理念也来自于成都云计算中心在运营过程中出现的不同挑战,硬件设计只是其一,而云计算中心的核心在于软件。因此我可以提前透露一个消息,就是不久之后,我们下大力气重点发展软件应用。其实,曙光在软件方面已经做了很多工作,只不过软件以前只是配角,未来,软件从幕后走向前台,渐渐成为主角。当然现阶段曙光的软件不涉及应用,只是支撑应用,以后,我们也会试图开发特定行业特定环境下的应用软件。我们从一个计算机系统制造商向服务转型,这是一个相当漫长的过程,但是我们已经从现在开始战略布局。

刘保华:软件将成为曙光未来发展的重点。那么你认为曙光在哪些领域还需要不断加强,保证自己在市场上的竞争力呢?

历军:未来我们会侧重三大领域:第一就是通过我们自主研发的软件和系统,推进国产系统的研制,以及这些软件和系统面向特殊行业的应用;第二,在工业标准的通用产品方面要达到较低的成本,提高通用产品的工艺以及各个层面的质量;第三,提高公司整体运营管理水平和供应链管理水平。总的来说,就是在工业标准通用产品上瞄准国际领先厂商,用两三年的时间,让我们从产品本身到运营效率都能够能达到国际先进水平。

刘保华:在美国,政府一般来说是高性能计算的最大用户,美国通过国家支持的方式来保证超级计算的发展。但是云计算很多应用属于商业范畴,曙光此次与成都云计算中心的合作仍然是和政府合作,未来曙光是否会进入纯商业领域?

历军:我认为和政府合作不一定就不是商业,因为曙光从来都把政府当成客户看待。我们在云计算方面有一个规划,这个规划将解决几个核心问题。第一个就是云计算的安全问题,安全要自主可控,这也许就是未来像曙光这样的企业在中国市场上能够承担的责任与义务,也是我们的商业价值。

第二个,国家应该支持超算中心。现在国内有一种声音质疑高性能计算还要不要做下去,我认为不仅要做下去,而且还应该以政府为主导,同时投入更多的资源。如果政府把超算中心作为新兴战略性产业来扶持,那么在这个技术大变革的时期,超算技术就有机会出现飞跃式发展。

刘保华:2006年,曙光天津产业基地一期落成。今年,曙光在天津产业基地的二期工程落成投产,曙光在中关村软件园的新办公地点奠基,形成了天津+北京的布局。未来,北京基地和天津基地将在曙光内部各自起到哪些作用?这和曙光的战略布局有什么关系?

历军:北京主要还是公司的总部,承担运营和技术研发工作,比如软件和未来核心技术开发。天津是曙光的生产制造基地和工程技术开发的部分,这里已经具备了主机板的SMP生产线,也就是说再往下一步,自主板卡都会自己来生产,而在过去我们是请深圳代工的。现在,曙光所有产品的生产制造和发货都在天津,同时它还具有一个重要的作用,就是提高曙光的研发实时性,快速建设研发体系,大大压缩开发的时间周期。