“神威太湖之光”到底有多强?

  • 作者:铁流
  • 2016-08-24
     新一期全球超级计算机500强榜单20日公布,使用中国自主芯片制造的“神威太湖之光”取代“天河二号”登上榜首,中国超算上榜总数首次超过美国,名列第一(中国有167台HPC入围TOP500,美国是165台)。

自“天河二号”荣登TOP500榜首并6度蝉联桂冠以来,一直有社会舆论攻击“天河二号”使用美国Intel的CPU,因而不具备技术含量,甚至有媒体引用所谓业内人士声称“只要把足够多的手机芯片连接起来,性能轻松超越天河二号”,一言蔽之,就是“天河二号”是组装货,中国并不掌握超算核心技术。

这种论调正确与否暂且不论,本次“神威太湖之光”采用了全自主技术则是对上述舆论的有力回击,不仅实现了在超算领域彻底扭转在技术和信息安全上受制于人的局面,还使美国对中国四家超算中心禁售Intel至强PHI计算卡成为笑柄,再次在信息技术领域实现了“凡是买不到的,中国人自己都能做出来”。
 


 

一台超算由什么组成

先来分析此前的一种论调:超算的全部技术都在CPU吗?

超算系统可以分为软件系统和硬件系统两部分。

超级计算机硬件系统主要由高速运算系统、高速互连通信网络系统、存储系统、维护监控系统、电源系统、冷却系统和结构组装设计等部分组成。具体来说:

高速运算系统负责逻辑复杂的调度和串行任务和并行度高的任务,可以是采用同构计算(纯CPU组成计算节点),也可以采用异构计算(CPU+加速器组成计算节点);

高速互连通信网络由infiniband、高速以太网、自定制互联机制构成,将所有计算节点连接起来,使其成为一个整体;

存储系统由内存和外存组成,负责数据交换和储存;

维护监控系统保障超算不死机、不出错,毕竟每隔几秒出一次错,死一次机,这种足以让超算的使用者精神崩溃;

电源系统包装能源供应;

冷却系统帮助超算降温,防止出现超算过热而造成的不良后果;

结构组装设计是将上述系统装载到一起,在保障性能和稳定性的基础上,实现机柜体积最小。
 

运算系统机舱内部

超级计算机软件系统主要包括操作系统、编译系统、并行程序开发环境、科学计算可视化系统等四个重要组成部分。具体来说:

操作系统系统主要包括对同构技术或异构协同支持,高效能支撑扩张,基础服务内核,全局并行文件系统;

编译系统的功能是支持C、C++、Fortran77/90/95等编程语言,支持OpenCL、OpenMP、MPI等并行编程语言,支持编译优化;

并行程序开发环境的功能是提供程序接口,支持应用程序的调试和性能分析;

科学计算可视化系统由海量数据服务模块、并行绘制与显示模块和可视化映射与操作模块组成。

因此,运算系统、存储系统、互联系统、操作系统、基础库、应用软件,以及监系统控、冷却系统、电源系统等都是超算的重要组成部分。因此,一些人称因国产超算使用美国Intel的CPU,因而不具备技术含量,将CPU等同于超算的全部技术的说法显然是非常不科学的。

超算不是简单堆砌CPU

有媒体引用所谓业内人士声称,“把足够多的手机芯片连起来就能超越天河2号。”但实际上,这个说法也是值得商榷的。

因为堆CPU也是一个技术活,体系结构设计的不好,高速互联网络做的不行,系统软件做的不好,储存列阵做的不行,即使堆再多的CPU,超算的性能也上不去。简单粗暴的堆砌CPU根本不可能制造出一台超级计算机,更不要说是能与天河2号相匹敌的超算。

另外,哪怕掌握了正确的堆砌CPU的方法,也不是单凭靠堆CPU数量就能获得一台能与天河2号相匹敌的超算。原因何在? 因为超算建设不是简单的搭积木式的堆砌CPU——即便堆砌了海量的计算卡,但受制于其他方面,比如高速互联网的技术水平,也会导致无法到达理论计算性能。

具体来说,高速互联网络的难点在于超算的计算节点之间传输的数据量巨大,延迟要求严格,当互联网络效率不足,就会导致数据拥堵,大幅降低超算整机系统效率。而超算的计算节点越多,对互联网络的要求也就越高。因此,即使想通过堆砌CPU来提升运算能力,也会受限制互联网络的性能,造成这种做法并不能无节制的提升超算的性能——受制于诸如互联网络以及其他方面的瓶颈,整机效率被拉低,导致实际性能并没有因为堆砌了更多的CPU而有所提高。

另外,堆砌过多的CPU还存在功耗过大、机箱体积过大等问题,非常不利于日后的运营维护和使用,在超算市场基本不具备市场竞争力。正是因为高速互联网络的重要性,相对于在2015年才对中国四家超算中心禁售Intel计算卡,高速互联网络却早就被美国列入技术封锁的名单。

在软件系统方面,控制少量计算节点和控制大量计算节点对软件系统的要求近乎于天差地别。软件系统必须保证每个超算计算节点的性能被发挥到最大才能充分挖掘出硬件上的潜力,否则,就会影响超算的整机效率。

另外,TOP500头几名的计算节点大多在数千近万,甚至一万个以上,某几个计算节点损坏,并需要更新是常有的事。当计算节点损坏时,软件系统必须做到部分节点损坏时不会发生死机、报错等情况,不影响计算任务的持续。

因此,如果没有一个好的体系结构,那么CPU的性能将无法全部发挥出来,而且堆砌的CPU数量越多,整个系统就越复杂,对高速互联网络、存储列阵、监控系统、冷却系统和软件方面的要求也就越高,整机效率的提升也就越难。而体系结构设计能力水平不够高的情况下,单纯堆砌CPU数量,反而会降低整机效率,无法提升整机性能。

“神威太湖之光”牛在哪里

TOP10新排名

“神威太湖之光”刷新TOP500排行榜,依靠的是其强悍的双精浮点性能——其高达125PFlops双精浮点峰值和93PFlops稳定性能让世人惊叹。其实,除了拥有举世无双的双精浮点性能之外,“神威太湖之光”还拥有整机效率高,整机功耗低、性能功耗比高,整机体积小等一系列优点。

“神威太湖之光”超算拥有40960个计算节点,使用了上海高性能集成电路设计中心设计的国产众核芯片申威26010,采用28nm制程工艺,主频1.45G,拥有260个核心,双精浮点峰值高达3.06TFlops,在双精浮点上完全追平了Intel最好的超算芯片。正是得益于国产众核芯片申威26010的强悍性能,加上良好的体系结构设计以及互联网络等核心部件,使超算拥有异乎寻常的高性能、高效率、低功耗、高性能功耗比和小体积:

高性能——神威太湖之光双精浮点峰值高达125PFlops,稳定性能为93PFlops,相比较之下,美国超算泰坦的双精浮点峰值高达27 Pflops,稳定性能为17.6 PFlops,天河2号的双精浮点峰值高达54.9Pflops,稳定性能为30.65PFlops,由此可见,“神威太湖之光”在稳定性能是美国超算泰坦的5.2倍(泰坦很可能是美国现在顶尖的超算之一,完成升级的Stampede 2性能为18PFlops)。

高效率——“神威太湖之光”整机效率高达74.16%,相比较之下,美国超算泰坦的整机效率为65.19% ,而河2号的整机效率为55.83%,由于超算性能越强,规模越大,整机效率提升就越困难,“神威太湖之光”在稳定性能是美国超算泰坦5.2倍的情况下,整机效率依然大幅优于泰坦,整机效率之高简直令人惊骇!

低功耗——“神威太湖之光”的功耗为15.3 MW,美国超算泰坦功耗为9MW,天河2号为17.8 MW,可以说,“神威太湖之光”的稳定性能达到天河2号3倍的水平,但整机功耗却低于天河2号。

性能功耗比高——“神威太湖之光”的性能功耗比高达6G/W,相比之下,TOP500超算榜单上的竞争对手都相形见绌——天河2号的整机性能功耗比为1.95G/W,美国泰坦超算的性能功耗比为2.143G/W,美国超算红杉整机性能功耗比为2.069G/W,日本超算“京”整机性能功耗比为0.830/W,美国超算Mira 整机性能功耗比为2.069G/W(Mira和红杉用的都是IBM的Power)……即便是全球Green500排行榜,“神威太湖之光”也能排至第三位。由于Green500排行榜第一和第二的超算只采用了低功耗版的Intel E5,性能非常弱,而即便是采用英伟达K80加速卡的超算,其整机性能功耗比也只有4.7G/W。因此,“神威太湖之光”在性能功耗比上显得格外耀眼。

小体积——“神威太湖之光”机柜占地605平方米,美国超算泰坦机柜占地面积404平方米,天河2号机柜占地面积720平方米。

曾经刷榜的中国超算

中国有三大超算系列:天河、神威、曙光。三大系列超算分别由国防科大、曙光公司,以及地处江南的某研究所研制,当然,其中也不乏互相协作以及其他单位参与的情况。近年来,中国超算频频刷榜,不仅赚足了眼球,还为中国国防军工以及社会经济发展产生了促进作用。

2009年,中国第一台国产千万亿次超级计算机天河一号在湖南长沙亮相。天河一号超级计算机由国防科大研制,性能为每秒1206万亿次的峰值速度,Linpack实测性能为每秒563.1万亿次,强劲的性能使天河一号位列中国超级计算机前100强之首。2010年,国防科大对天河1号进行了升级,使天河1A的实测运算能力从天河1号的每秒563.1万亿次,提升至2507万亿次,成为当时世界上最快的超级计算机。虽然天河1A使用的是国外芯片——14336片Intel Xeon X5670六核处理器,7168片NVIDIA Tesla M2050高性能计算卡,但国防科大在互联网络等方面的技术底蕴颇为不俗。另外,天河1A采用了2048片飞腾 1000 八核心处理器。

2010年,曙光6000以实测每秒达1271万亿次的Linpack峰值速度,在2010年第35届全球超级计算机500强排名中名列第二。曙光6000由曙光公司研制,和天河1号一样,曙光6000同样是以国外芯片为主,以国产芯片(龙芯)为辅。

2012年,神威蓝光超级计算机投入使用。虽然该超算并未冲击TOP500前3名,但作为“神威太湖之光”的上一代产品,神威蓝光超算还是值得一书的。神威蓝光超算使用了8704片申威1600,搭载神威睿思操作系统,虽然超算绝对性能并不高,但却是中国在“市场换技术”之后,首次实现了超算CPU和操作系统的全部国产化。神威蓝光超算峰值计算性能为每秒一千万亿次,持续性能为每秒796万亿次,性能功耗比超过741MFlops/W(百万次浮点运算/秒·瓦),LINPACK效率为74%。神威蓝光超算有两大特点,一是全部使用申威1600芯片,搭载神威睿思操作系统,实现操作系统和CPU全部国产化。二是性能功耗比高。神威蓝光超算性能功耗比超过741MFlops/W。该超算被安装在“国家超级计算济南中心”,主要面向气象气候、海洋环境、生物医药、信息安全、航空航天、材料物理、金融分析、工业设计、石油物探等应用领域。

2013年,国防科大成功研制出天河2号,其高达55PFlops的性能使其傲视群雄,六度蝉联TOP500排行榜首位。虽然在计算节点上使用的是美国Intel的CPU,但天河2号也使用了4096片飞腾1500,用于高速互联网络系统。

结语

虽然“神威太湖之光”在整机性能、整机功耗、整机效率、性能功耗比等重要参数上无与伦比,但也并非尽善尽美,它也有自己的阿克琉斯之踵——其内存只有1.31 PB(天河2号为1.4PB)。另外,由于国产众核芯片内存带宽仅有136.51G,而且用的还是DDR3,相比之下,Intel的KNL和英伟达的Tesla都采用3D堆叠内存,内存带宽更是达到512G(Intel PHI) 和 720G(英伟达 Tesla)。因为单个CPU的内存带宽不大,所以对于现实生活中的应用,很难跑出接近峰值的性能。对于某些对内存带宽要求高的应用,实际使用中就不如Tesla和PHI了。

不过,这并非申威26010和“神威太湖之光”的硬伤,得益于申威26010异乎寻常的设计理念,使申威26010单芯片能够完成Intel E5+PHI,或Power+Tesla两款产品的功能,而且相对于Intel E5+PHI,或Power+Tesla,申威26010能够实现共享内存,这就避免了Intel E5+PHI,或Power+Tesla必须面对的显式拷贝,从而降低了对内存的压力,并减小了性能损失。笔者猜测,正是因为申威26010异常先进的设计理念,一定程度上弥补了内存上的不足,使中国科研人员敢于采用136.51G的内存方案。

虽然有内存上的瑕疵,但瑕不掩瑜——在美国的100P超算问世之前(估计要2018年前后),“神威太湖之光”会是全球性能最好的超算。

(作者微信公众号:tieliu1988)

声明:本站部分内容来源于合作媒体、企业机构、网友提供和互联网的公开资料等,仅供参考。讯媒对站内所有资讯的内容、观点保持中立,不对内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如果有侵权等问题,请及时联系我们,我们将在收到通知后第一时间妥善处理该部分内容。

相关评论

在线客服
微信扫一扫
返回顶部