首页 > 范文大全 > 正文

为多核应用铺路

开篇:润墨网以专业的文秘视角,为您筛选了一篇为多核应用铺路范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摩尔定律是架设在规模经济、半导体技术潜能挖掘和应用跟进基础上的经济学定律。先进的半导体材料和工艺、新型多核处理器架构和硅光子等连接技术有望延续这一业界最为著名的定律,但是付出的代价也可能不菲。因为未来处理器设计面临的挑战不但来自于芯片性能的提高,还有日益提升的功耗,而能否成功拓展新型应用则可能成为其中更为关键的因素。

以创始人之一Robert Noyce名字命名的英特尔总部大楼。

6月下旬,在美国加州圣克拉拉英特尔总部召开了一年一度的科研成果开放日(Research @Intel Day,以下简称研发日)。与经常举办的IDF不同,英特尔的研发日展示的大都是在未来几年可能应用的一些技术研发成果。这也决定了会议上展示的内容与微处理器等产品级技术有很大的不同,很多都是应用级层面的,范围也广泛得多。

演示在英特尔位于加州圣克拉拉总部大楼中进行,分为领先硅技术、万亿级计算、探索性研究、移动技术区和以人为本的创新等五大区域,共有50多项。其中有些研究的应用之前并不为外人所知。尽管这些成果当中很多都具有一定的不确定性,即使日后面世也可能跟目前的技术或者原型产品大相径庭,但他们对于英特尔未来处理器和相关技术的走向却具有重要的影响。

计算光刻: EUV的双保险

由于目前业界在EUV(超紫外线)光刻工艺上遇到了比较大的困难,超紫外线光刻工具的量产预计要到22纳米节点以后才有可能,即使这样,一台光刻机成本也要超过7000万美元,大得吓人,因而很多公司纷纷转向193纳米沉浸式光刻技术以向下扩展到22纳米工艺节点。

目前英特尔计划在32nm节点采用193纳米沉浸式光刻技术,而对于更高的22nm节点,除了EUV和双重图形沉浸式光刻两种备选技术以外,英特尔还在考虑一种被称为“计算光刻”的反向光刻技术。

反向光刻与目前普遍采用的光学临近矫正(OPC,集成电路设计和制造流程中对计算要求最高的部分之一)技术不同,它采用了一种基于结果的技术来确定哪些掩模图形单元可以在晶圆表面产生所需要的效果。据称,这一技术可以解决深亚波长时代的许多挑战,甚至有可能取代超紫外线光刻技术。

计算光刻技术的成本和技术风险要小于EUV。研发日上,英特尔展示了据称是采用自己算法的像素化掩模。尽管英特尔官方对22nm节点到底将采用哪种光刻技术还不置可否,但对多种备选技术的并行研发无疑增大了保险系数。

关于万亿级计算的再思考

尽管英特尔的万亿级浮点运算原型芯片(80核)在今年年初即已宣布,但以今天的观点来看,在未来几年这种计算能力的芯片能够面世并规模投入应用还是让人有些难以置信。

不过,英特尔首席技术官贾斯汀在研究日上宣称该处理器(研发代码为 Larrabee)预定于 2010 年,但很可能于2009年即可面世。目前从技术上来讲,制造可经济运行的这种芯片并没有什么困难。在研发日上展示的80核原型产品大小为13×22mm,采用65nm工艺制造,运算能力为1万亿次(TFlops)时功耗也仅为40多瓦。从半导体工艺制程上推算,2009~2010年应该是32nm时代。在届时更先进的工艺下,芯片的功耗、性能和成本肯定还将远远好于现在的系统。

惟一的问题是这种产品将有何用处。目前来看,有两个方向的需求是比较明确的。一方面是科学和工程密集计算,还有一类是与视觉效果相关的领域。未来系统对处理器处理能力的利用将逐渐脱离传统的2D和非实时环境。大量实时的物理模拟、高清晰音视频处理、3D效果模拟将耗用大量的处理器计算和传输能力,会给现有的电脑系统带来很大的挑战。

在3D模型和视觉效果方面,许多高级软件已经能够跟上现在多内核芯片的发展。未来还会有更多应用将追随多核和多线程处理器技术的发展,对万亿级处理芯片的需求也将逐渐提升。研发日上展示的一个4路4核系统,以24帧/秒的速度演示复杂的Quake 4画面,竟然是在没有采用任何GPU的情况下做到的。据英特尔研究人员称,16核所产生的光线跟踪场景速度是单核的15.2倍,加速比十分可观。

万亿级计算面临的真正难题可能是来源于内存和I/O带宽方面。单个芯片提供大量处理能力相对比较容易,而通过解决内存和I/O带宽问题使多内核处理器高效工作则要困难得多。换句话说,内存和I/O带宽能够匹配处理核心才是问题的关键。而内存必须要更加靠近处理器,以便减小内存延迟。与系统封装(SIP)和内嵌DRAM方案不同,英特尔采取了将内存芯片堆栈在处理器下方的方式,并应用到了80核原型处理器上(如图1所示)。由于是将SRAM芯片直接堆叠在多核万亿级芯片之上,这样可以获得极大的带宽,并保持了标准的芯片尺寸,更为重要的是这样一来封装无需增加尺寸,可以保证产品尽早推出。

多核: 万亿级计算的实现平台

多核处理器和周边平台技术的发展使个人级的万亿级计算成为可能。但多核处理器的成败将最终取决于适用于万亿级计算的新应用模式的挖掘和普及。同时,无论是针对多核计算的并行编程还是对功耗的控制和管理都面临诸多挑战。

目前英特尔公司在全球有100多个研发项目,专门研究与使用多核处理器的系统相关的硬件和软件挑战。

并行化加速新方法

目前多核处理器面临比较大的一个挑战是如何尽量将程序执行从串行自动转向并行,并尽可能地提高并行程序执行的效率。本次研发日上,记者看到了两项很有意思的技术展示。

一项是Ct语言。Ct语言是英特尔开发的一种新型并行编程模型。对目前广泛使用的C和C++进行了扩展,将任务分配给多个处理器,以适应复杂的并行处理。据英特尔的研究人员表示,Ct使开发人员能够像为一个处理器核编写应用程序一样编程,代码在进行编译和运行的时候进行多核优化,这样就能降低显著程序开发人员编程的难度。Ct语言在物理模拟、音视频处理器等领域将有广阔的应用前景。不过,Ct语言到底给程序开发人员带来怎样的效果和便利之处还有待进一步观察。

另一项是关于猜测并行多线程技术(Speculative Parallel Threading,SPT)的进展。猜测并行多线程技术的研发目标是在万亿级计算平台上加速难以并行化的单线程应用。顾名思义,该技术将串行代码猜测并行化后投机执行。支持硬件或者运行监测软件会验证投机执行的结果,在投机执行失败后发起恢复重新执行。恰巧这个演示项目是英特尔中国研发团队选送的,现场展示的应用是从SPECCPU 2000 int应用gcc中抽取代码片段使用软件事务性内存执行SPT的效果,在4路SMP平台上运行,性能比串行程序高1倍。记者在现场询问了英特尔的技术人员,得到的答复是: 猜测并行多线程目前在普通的串行程序上获得的性能增益将达10%以上。尽管该人员对该技术何时将纳入处理器的硬件电路设计并未给出肯定的答复,但表示英特尔未来可能会推出独立的软件工具以加速旧的串行应用程序。

加速器外骨骼: 异构多核的新对策

众所周知,为了最优化性能和能效,异构多核将是不可避免的――面向应用的优化决定了异构多核的必然性。

异构多核处理器面临着一系列的技术挑战。试想一下,在英特尔架构(IA)内核的周围嵌入了多个加速器内核: 有着不同指令集、讲不同“语言”的处理器可以与现有的软件与操作系统很好兼容吗?

为了适应异构多核环境的出现,英特尔提出了一种被称为加速器外骨骼(Accelerator Exoskeleton)的技术概念。这种方法的思路是将全部的内核都封装到一个隐蔽的外骨骼当中,这些内核看上去像一连串的常规x86内核,或者就只像一个大的内核一样。而加速器外骨骼就像是一个公共的界面,为使用英特尔架构扩展及带有IA仿真软件工具系列的加速器提供了共享内存多线程编程的编程环境,包括编译器、调试器和相关的性能分析工具。其目的是为了简化异构多内核芯片的编程。

能耗控制: 从处理器到I/O

全球能源价格的高启使计算机系统的散热逐渐为公众所关注。事实上,经过了多年的发展,无论是服务器、台式电脑还是笔记本电脑,其系统的功耗值基本稳定在一定的范围内。性能不断增强,但功耗不再上升甚至有所下降。

计算机系统的功耗来源于多方面,比如处理器、I/O、内存等等。多数人对处理器的功耗控制技术都比较熟悉,对后两者尤其是I/O的功耗都没有清晰的认识,事实上,随着I/O带宽和内存容量的增大,后两者的功耗越来越不可忽视。

未来的超多核芯片为功耗的控制带来了严峻的挑战。核心对核心通信以及芯片对芯片的通信均需要低耗电的I/O系统。而目前I/O系统是一个什么样的耗电水平呢?为了实现每秒1TB的数据传输速度,I/O系统需要大约10瓦的电量。

研发日上英特尔展示了其开发出的一种低耗电I/O系统,每秒传输5Gb数据时耗电为14毫瓦(大约是现有系统耗电量的十四分之一),每秒15Gb数据传输时的耗电量仅为75毫瓦。

饶有趣味的探索性研究

在探索性研究展区展出了很多饶有趣味的应用和系统技术,可以简化和丰富人们的日常工作和生活,让他们互相保持联系,以更好地融入到社会网络之中。

其中一项是动态物理模拟(Dynamic Physical Rendering,DPR)。这项研究的目的是找出一种能在软件控制下改变其形状的“材料”。这种材料是由数百万个微小的机器人(智能微尘)组成。可以模拟任意物体和3D场景。

图2 英特尔现场展出的5cm大小DPR硬件原型,配第二代电磁耦合系统。

每一个智能微尘由处理芯片、存储器和传感器组成,并具有供电系统。英特尔的研究人员在现场展示了用于CAD模拟的DPR模块。记者被告知由于没有量产,目前每个成本为几百美元,即将面世的第二代产品由于改进了耦合方式,单体成本降低到了几十美元,而当集成度进一步提高,将其面积控制在1cm2大小的时候,进行规模生产其成本仅为几十美分。届时应用前景将非常广阔。

另一项展示则涉及如何通过传感器来改善人们的日常生活。一个可以戴在身体上的表形电子设备内置有传感器,可以实时获取佩戴人身体各主要部位的状态,综合判断出其活动状态,再通过内置的RFID芯片发出信号,以达到报告佩戴人身体状态的目的。

英特尔现场还展示了用作生物传感器的晶体管和生物电子芯片的研究进展,让人们看到了芯片技术在临床医疗诊断和护理方面的巨大应用前景。

链接:研发日上的中国团队

在本次的研发日上,英特尔中国研究中心选送了将近10项成果,除了前文提到的猜测并行多线程和采用Ct语言构建万亿级计算演示外,还有几项有趣的展示。

英特尔研发日上的中国国旗。

其中两项关于多媒体视频的应用处理。两者的共通点都是检索视频信息以达到实时或者准实时的信息分拣与处理。一个是关于个人视频自动编辑合成,另一个是与清华大学合作的基于视频的事件检测与目标跟踪项目,通过镜头类型、球场位置、镜头回放、兴奋语音检测、多模态信息融合与推理,球和球门的检测与跟踪、运动检测、跟踪和分类等技术实现对足球节目精彩片段的提取和特定场景(如过人、传球等)的检测。项目演示是在一台8核系统上完成的,据英特尔中国研究中心的童晓峰介绍,要完全达到高清晰、实时的效果,需要至少16核以上的系统。

英特尔中国研发人员展示嵌入FSB的FPGA加速器。

另有一项反映的是互联网的一种新兴方向即分散型的系统与网络。通过在英特尔的学生电脑(Classmate PC)上采用无线网状网(Mesh)来实现点对点即时消息、点对点语音和视频传送,以及点对点的合作等功能。作为前沿的研究项目,系统中重点体现了多无线电、多网状无线通信、点对点服务、分布式虚拟机以及分散式的可靠性与可管理性等特征。

采访手记:从奔腾4处理器的失意中能学到什么

随着半导体工艺的逐渐深入和市场需求不确定性的增大,处理器的研发风险越来越大。英特尔在奔腾4处理器上遭遇的困境即是一个明证。要不是位于以色列海法的处理器设计团队及时拿出了Pentium M和酷睿架构设计,英特尔时至今日可能还会在与AMD的竞争中处于被动。

是因为技术的落后吗?其实是对应用判断的偏差造成了奔腾4(更确切说是NetBurst架构)的失误――用户需要的是功耗更低、性能更均衡、更符合实际使用需求的产品,而不仅仅是高高在上的主频。从上世纪90年代开始,很多人都可以说出486开启了多媒体时代,586代表着互联网时代的开端。如今呢?你恐怕很难看到那种一呼百应的现象了。

处理器和计算机系统能力的提升使得计算设备更加普及,应用环境也将日趋复杂。从服务器、台式机到笔记本电脑直至手机等移动计算设备,其应用需求千差万别。计算技术与网络、安全、能耗控制等技术的结合也将更加紧密。处理器和计算机系统设计将面临着前所未有的挑战。

从另一个角度看,对于像英特尔这样需要始终保持处理器技术领先的公司来讲,应用模式的不确定性使其面临着巨大的技术风险。这也是英特尔投入巨大精力研究用户使用模式的一个根本原因。英特尔的一个风险在于,公司基本上需要为未来5年设定技术研发方向,一些前瞻性的研究甚至要瞄准未来10年。而用户的需求并不总是十分明确。

华山一条路往往得不偿失。英特尔官方已经多次表示公司将采取更加积极和开放的研发策略,这就是多个团队同时预研先进处理器结构,根据各个团队的进展情况来决定其最终取舍。同时,英特尔也希望将尽可能多的先进技术及时加入到新的处理器架构中,从而在风险和收益之间保持一定的均衡。

尽管也时有失误,但英特尔能够多年保持领先,即使失误也能很快回归正途,与其内部科学的科研创新与产品化并重的体制是分不开的。而这正是我们应该学习的。(文/陈斌)