首页 > 范文大全 > 正文

面向科学计算和海量数据处理的云计算平台

开篇:润墨网以专业的文秘视角,为您筛选了一篇面向科学计算和海量数据处理的云计算平台范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

编者按:为总结和提炼近年来教育信息化建设成果,了解高校对云服务的需求,探讨高校云服务体系和运营模式,发掘云服务研究领域专家,从今年4月份开始,本刊在全国范围内连续举办了八次“高校云服务建设调研座谈会”。座谈会得到各地高校信息化建设者的热情支持,先后有20多所知名高校在会上分享了云服务建设的成果,本刊特选编其中部分特色明显的案例,推出“高校云服务建设”系列专栏文章,供广大教育信息化建设者及相关专家学习、交流、参考。

一、需求分析

(1)大型工程分析与科学研究的数值模拟要求的计算量与存储量都是巨大的,甚至是海量的。多CPU并行机与大规模的集群环境为用户求解数百万、数千万甚至更多的自由度提供了可能,同时也为复杂和大规模的工程与科学计算找到了出路。石油勘探、地震预测预报、气候模拟与天气预报、人体基因与遗传工程、医学图像的快速处理、海洋环流和超导模拟等。此外,还可以作为超级服务器用于信息服务、事务处理、决策支持等进行应用。

(2)信息技术的不断发展,使得各行业的信息量呈爆炸性增长趋势,一些科学应用中的数据量已经从几十个TeraBytes发展到PetaBytes,并且在不断扩大。2000年科学应用每年需要处理的总数据量已经达到数百TeraBytes,2010年科学应用每年所要处理的数据量预计将要达到数百PetaBytes;数据规模指数级的增长已经超过了由摩尔定律所预测的计算能力和存储空间的增长。

(3)高能物理学实验:大型强子对撞器(Large Hadron Collider,LHC)通过把高度活跃的质子以超快速度撞击到一起来完成高能物理学实验,2009年夏天启动以来,这些物理学实验每年都会产生数PB的原始数据和派生数据,预计会持续15年。分布于世界各地的科学家将会以协作的方式对这些数据进行科学分析。

二、国内外同类云计算平台对比分析

1.国外云计算平台

(1)Google公司针对Google特定的网络应用程序而定制的专属云计算平台。针对内部网络数据规模超大的特点,Google提出了一整套基于分布式并行集群方式的基础架构,利用软件的能力来处理集群中经常发生的节点失效问题。这个平台先是为Google最重要的搜索应用提供服务,现在已经扩展到其他应用程序。

(2)IBM于2007年11月推出了蓝云计算平台。通过架构一个分布的、可全球访问的资源结构,使数据中心在类似互联网的环境下运行计算。包括Xen和PowerVM虚拟Linux操作系统映像以及Hadoop并行工作负载安排。

(3)亚马逊凭借其简单存储服务和弹性计算云被运来越多的人所熟知。通过这两个平台,个人或者企业可以将他们的数据和应用放置到亚马逊提供的云平台上去,亚马逊已成为全球最成功的公共云服务中心之一。

2.国内云计算平台

(1)北京工业大学于2009年启动云计算实验平台项目,搭建了新一代的基于云计算的高性能计算中心和数据中心。是面向校内、校际及社会开放的公共计算平台,能够提供优质、稳定和可靠的高性能计算服务。

(2)2008年3月,无锡市政府共建了第一个云计算中心,这是一个政府投资的软件园的平台,这个软件园平台目的为不同软件企业提供共享、集中的软件开发和资源的共享环境。

(3)2008年,中化公司在业内乃至全球建立起了第一个真正意义上的“企业云计算平台”。该平台实现了包括硬件、软件和服务在内的整体系统的虚拟化和管理,形成了可托管多种不同应用,根据需要动态地部署、配置及回收应用资源。

(4)中科院超算中心(自研) 、清华大学、上海超算中心(LSF调度)。

3.国内高性能计算平台建设的状况分析

(1)已有多个自行建设的千万亿次项目立项,并初步取得了一些成果。

(2)在建设过程中过于重视理论计算峰值的实现,严重缺乏对科学计算的管理、维护、节能和使用。

(3)没有能够在真正意义上实现具有国际领先水平的海量计算和数据处理,也对进一步提高计算性能造成了严重的瓶颈。

三、基本内涵与使命

1.基本内涵

(1)实现网络环境下的计算资源、存储资源和数据资源的有效共享,提高资源利用率并能快速响应多种研究项目所需的资源环境。

(2)支撑多种研发平台,为研究者提供独立计算环境;可以成为网格计算的支撑平台,提升计算的灵活性和便捷性。

(3)在大规模集群环境的基础上,开展在物联网环境下如何对海量的数据集合进行有效管理等基础研究。

2.使命

运用虚拟化技术让各种应用运行在共享的资源上,运用自动化技术完成应用之间的资源调配,提升学校公共计算服务平台的功能和安全性,有效改善学校大型计算设备及通用、专用软件的使用条件,培养出一批具备高性能计算能力和高素质的科研梯队,并以本平台为依托产生具有标志性的研究成果,为把我校建成为国内一流、国际知名大学做出贡献。

四、建设方案

1.建设目标

满足我校学科交叉对科学计算的多样化需求,充分考虑各种高性能计算方案的特点和适应性,在既有建设成果基础上,进一步建设复合架构的科学计算平台,既提供能满足普遍性科学计算和数据处理的通用化平台,也能够提供对重要科研方向提供高使用性能的专门化支持。

(1)实现科学计算、数据管理、数据分析的全流程支持。充分发掘计算资源,实现对信息价值的充分发掘和利用,提高科学计算使用水平。同时也为校内其他信息(管理信息、教学信息、科研信息等)提供数据的计算、分析、存储支持。

(2)将这一平台建设成为E-science的支撑平台,实现计算类科研资源的有效管理和服务,提供以科学计算和信息分析、使用为核心的科研协作和服务支持。

(3)从我校科学计算的长远发展出发,在平台建设过程中注重人才队伍的培养,打造一支跨学科、跨部门的科学计算研究梯队。

2.建设内容

(1)硬件规划

1)跨硬件平台,操作系统平台,能够支持各种应用的不同需求。进一步提高集群和小机两种具有普适性的科学计算方案的计算性能,完善多级存储体系,实现高性价比的海量数据存储,满足未来计算发展对数据存储的需求,同时充分考虑关键数据的管理和应用需求。

2)构建“SMP集群+PC集群”混合架构,以满足用户各种用户工程计算和科学研究的需求,配置由XIV存储组成的存储系统来存放相关的数据,通过并行文件系统GPFS将数据共享出来供用户使用 。

3)共享内存的IBM Power 755服务器;250节点的云计算平台;60TB扩展存储规模;GPFS高效并行文件系统。

3.基于云计算构建管理和服务体系

(1)优化IT资源使用

建设统一IT资源池,通过简单高效的自助服务方式共享给所有计算项目使用,实现大规模IT基础架构的集中配置管理和资源的按需分配。

(2)计算环境快速部署

不同学科、不同类型的计算需求对应的是多种多样的应用环境,云计算平台的自动化引擎,能够按照不同的计算需求,在资源池中选择匹配的软硬件资源自动化安装部署,交付给用户的是一个可以直接使用的应用环境。

(3)资源动态调度

按照不同项目的实际的资源使用状况,动态调整资源分配,实现资源的随需应变,既保证各类计算任务的快速执行又杜绝不必要的资源闲置和浪费。