HPC,英文全称叫做High Performance Computing,翻译成中文是四个字——国之重器。 这种称为“高性能计算”的技术和该技术的衍生品“超级计算机”,一直代表着国家科技综合实力及IT发展的顶尖水平。但遗憾的是,高性能计算行业过去长期被美国、欧洲、日本等发达国家所把持,直到近些年,中国才成为了世界“超算俱乐部”中又一名新玩家。 1993年,美国和德国的专家联合发起了“TOP500”榜单,这是一项旨在评估最新超级计算机性能的排行榜,随着时间的演进,该榜单也成为了世界各国在高性能计算领域竞争的风向标。在2002年之前,这个榜单上一直没有中国超级计算机系统的身影,换句话说,在2002年之前,以TOP500为代表的国际超算舞台一直被发达国家所垄断。 这种垄断格局,直到联想深腾1800超级计算机的出现,才得以打破。如今回顾起这件事,当年的联想集团HPC技术总监肖利民博士依然有些动容。“在当时的超算领域,集群或者说Cluster,还不是一个成熟可用的技术路线。尤其是对Cluster是否可用于大规模超级计算机系统,在其运算效率、稳定性、可靠性等方面业界都有不少的质疑。联想深腾1800敢为天下先,采用Cluster体系结构,率先研制了当时世界上最大规模的一个Cluster超算系统”。 那还是主机的鼎盛时期,无论大型机还是小型机,都是春风得意,也让供应商IBM、HP等企业赚得盆满钵满。也就是在那个时代,大家都认为主机在可靠性、稳定性上有着绝对的优势。相比之下集群系统的特色还并不明显,其可靠性更是“无法验证”的。 当然现在看来,这些僵化的行业思维甚至有些可笑,但是在当年的大趋势下,联想能够站出来搞集群系统,而且还是全球规模最大的集群系统,的确需要极大的勇气和技术自信。而在这个背后,包括如今的联想首席科学家祝明发等许多科研人员都付出了巨大的努力。 联想深腾1800是成功将Cluster体系结构应用于大规模超级计算机的当之无愧的先行者,在国内外产业界和科技界产生了重大而深远的影响。联想深腾1800超级计算机系统研制成功,入选两院院士评选的“2002年中国十大科技进展”以及新华社“2002年中国十大新闻”,彻底改变了超级计算机行业的生态,并由此引领超算领域Cluster体系结构迅速走向主流。 作为我国第一台由企业研制开发的万亿次级计算机产品,深腾1800的出现标志着国内大型IT企业开始进入高性能计算领域的研究开发。在2002年11月公布的全球高性能计算机TOP500排行榜中,“深腾1800”以每秒1.046万亿次浮点运算的实测性能排在第43位。“这是我国超级计算机系统第一次入围世界TOP500,并且排名还进入了前50名”,说起深腾1800进入TOP500排名的事儿,肖利民博士显得有些兴奋。 在当时,超级计算机还只是部分大型机构才能消费得起的“奢侈品”——仅仅就体系结构技术来说,在短短不过半世纪的时间内,超算就经历了 SMP、NUMA、Vector、MPP等里程碑式地快速变迁和发展。而深腾1800的出现,也预示着下一个里程碑的到来——Cluster。 要是打开最近几年的TOP500榜单,你可以看到在体系结构上几乎都是Cluster,份额大概在80%以上。不过在当时,联想运用Cluster体系结构研制大规模超算系统,还是一种勇于探索的尝试,而无论是TOP500榜单还是后续的规模应用,都证明这种思路是可行的、经得起检验的并且可以商业化的。现在回想起来,当初选择Cluster的时候,联想或许还没有意识到自己已经站在了世界高性能计算历史的重要拐点上。 当然,联想Cluster的故事还远不止如此。在深腾1800发布之后仅一年,联想深腾6800超级计算机研制成功,运算速度超过4万亿次。在短短一年的时间里性能提升了4倍,深腾6800再次获得了中国乃至于全世界的关注。在随后2003年的TOP500排名中,这台超算系统排名全球第14位,并在通用高端计算机HPL整机效率、TPC-H性能、UCAR MM5性能方面创造了新的世界记录。 2004年,联想深腾1800获得国家科技进步二等奖和北京市科技进步一等奖。2005年,联想深腾6800获得国家科技进步二等奖,这充分体现了联想在高性能计算领域的明显技术优势和创新水平。联想集团首席科学家祝明发教授代表研制组领奖。 在此之前的相当长一段时间,业界对计算机的峰值速度和Linpack速度等有过不少争论。联想深腾6800的成功研制和应用以及获奖,发出了一个新的信号:超级计算机或超级服务器的实际效率和应用效益才是最重要的,而实际获得高效率和高效益的背后是核心技术。 科学计算和商务计算对计算机有不同的要求,单台计算机往往很难在高性能价格比的基础上达到完美的统一。但难得的是,联想深腾6800在这两方面均表现出很高的性能和效率,它在大规模科学工程计算、商务计算和网络信息服务等领域获得广泛应用,并且,首台深腾6800部署在中科院计算机网络信息中心,身兼科学计算和信息服务双重重任,这在之前的世界超级计算机中是不多见的。 从此一发而不可收。2008年,联想研制成功的深腾7000高效能计算机系统,成为国内第一台投入使用的百万亿次高性能计算机产品,进入当年世界TOP500第19位。深腾7000采用的异构体系结构,很好满足了应用多样化的需求,有力支持了大飞机设计、动车制造、**间气候报告以及基础科学探索等上千个重要的应用成果。 随后,2009年初,联想与中科院过程所合作,率先推出了采用CPU+GPU异构计算体系结构的深腾7000G,这款产品在当时看来充满了想象力。要知道虽然这时候Cluster已经成为了主流,但是异构计算才初露端倪,更多人还认为计算只有借助CPU才行。恰恰是同一年,我国首台千万亿次计算机“天河一号”问世,同样采用的是异构体系结构。 实际上,在高性能计算领域,除CPU+GPU异构体系结构创新之外,联想还研发了大量的系统软硬件创新技术,例如:基于国产龙芯3A/B多核处理器的16路高效能节点机、基于CPU+FPGA体系结构的加速计算节点机、基于InfiniBand芯片的多端口高速交换机等硬件技术以及集群的快速部署、系统监控、资源管理、作业调度、高可用与负载均衡、异构平台编程框架、系统级功耗管控工具等软件技术。虽然部分技术还停留在实验室阶段,但是联想在HPC领域表现出的强大研发能力,在那个时代就已经不容小觑。 随着时间的推移,并购了IBMx86服务器业务的联想在HPC领域更是如虎添翼。时至今日,联想在HPC领域已经获得了中国乃至全球的多项桂冠。在中国超级计算机TOP100排名中,联想连续多年蝉联冠军;而在今年6月刚刚结束的ISC18大会上,联想以117套的份额成为TOP500榜单中占比份额冠军,这也意味着联想已经成为全球最大的TOP500超算平台提供商,约每四套系统中就有一套来自联想的解决方案(23.4%)。 16年前,联想以敏锐的技术眼光站在超算体系结构的拐点,创造性地推出了深腾1800集群体系结构的超级计算机,从而让整个超算行业看到了集群应用的价值和优势;16年后,面对百亿亿次计算带来的能耗墙挑战,联想再度推出了“海王星”解决方案,为超算的低能耗、大规模、商业应用指明了方向。 “海王星”是如今联想数据中心液冷散热技术的命名。正如神话中传说的那样,罗马海神尼普顿有著名的三叉戟,而联想也有包括Direct-to-Node液体冷却、后门换热器,以及融合风冷和液冷的混合散热技术“三大神器”。 据悉,“Direct-to-Node液体冷却技术”可以让系统运行温度比标准的风冷散热系统更低,从而达在数据中心耗电量减少30-40%的情况下提供更高的性能;而后门换热器可以吸收标准风冷散热系统排出的热量,减少排向‘热通道’的热空气,从而降低整体的空调成本,稍稍改善系统性能;最后的“混合散热”则能够根据需要动态调整CPU和内存运行状况,对工作负载进行优化。 在“海王星”之前,联想在HPC领域也有着独门秘籍——温水水冷。所谓“温水水冷”解决方案,就是在服务器等需要强力制冷的数据中心设备中,通过无泄漏快速连接系统,将温水(一般为45℃)流经水冷头来冷却核心处理器及其内存,从而实现散热与冷却的技术。目前,这项技术已经可以提供成熟的商用解决方案,北京大学高性能计算校级公共平台“未名一号”就是目前国内采用该项技术的最大平台。 来自北京大学的统计数据显示,相比传统的风冷散热技术,采用联想45℃温水水冷技术的未名一号Linpack效率可以达到92.6%,PUE值控制在1.1。同时,未名一号节省了50%的制冷散热成本,每年为北京大学节省60万度电的开支。 可以预见的是,在将风冷、液冷与能耗管控有机结合之后,联想的“海王星”则能够提供更完善、更全面的解决方案,也使得液冷散热进一步成为主流。正如联想数据中心业务集团总裁兼HPC和AI部门总经理Madhu Matta所提到的:“联想拥有行业领先的能力,能够实现最大规模和最高性能的深度创新,与客户合作设计满足其计算能力需求的超级计算系统。这种灵活性和客户至上的态度,使我们能够在高性能计算和人工智能市场的未来发展中保持良好的势头。” ✦在中国,联想积累了大量的应用案例,无论是在科研应用的中科院、北京大学、南京大学,厦门大学等高等院校;还是在国家卫星海洋应用中心的海洋与气候观测应用中;抑或是在重庆浦洛通生物信息技术有限公司的商业应用领域,联想都能够提供针对产、学、研的一体化解决方案。 ✦在意大利,联想在为意大利非盈利组织CINECA提供高性能集群,支持全欧洲范围内的科学研究,以应对在人工智能领域的计算挑战。其中,Marconi超级计算机是世界上速度最快的节能型超级计算机之一,研究项目范围从精密医学到自动驾驶汽车,非常广泛。 ✦在加拿大,联想为加拿大最大的超级计算机Niagara提供了先进的蜻蜓型拓扑,进而为研究人员提供了超过3 petaflops的处理能力,帮助他们了解气候变化对海洋环流的影响。 ✦在德国,联想为莱布尼茨-慕尼黑超级计算中心提供了强大的支持,其Direct to Node温水散热技术已经将设备能耗降低了40%;科学家进行地震和海啸模拟,以更好地预测未来的自然灾害。 ✦在西班牙,著名的、用教堂改装的巴塞罗那超级计算中心有一台名为“MareNostrum 4”的超级计算机,这是联想在欧洲的先进计算伙伴公司(PRACE)安装的第三个领先的HPC系统。作为目前西班牙最大的超级计算机,它正在帮助科学家们利用人工智能模型来改善视网膜疾病的检测。 从过去到现在,从中国到全球,联想始终站立在HPC技术和应用的前沿,并在关键节点上体现出技术引领变革的关键作用。或许在未来的时间里,在我们面向百亿亿次挑战的时候,还会看到更多联想的身影,从技术、从系统、从应用、从解决方案的各个角度,推动HPC的持续发展。 中国高性能计算机发展历程 1983年,“银河Ⅰ号”巨型计算机研制成功,运算速度达每秒1亿次。 1984年,中国第一台10亿次巨型银河计算机Ⅱ型通过鉴定。 1994年,银河计算机Ⅱ型在国家气象局投入正式运行,用于天气中期预报。 1995年,曙光1000大型机通过鉴定,其峰值可达每秒25亿次。 1997年,银河Ⅲ并行巨型计算机研制成功。 1999年,银河四代巨型机研制成功。 2000年,我国自行研制成功高性能计算机“神威-I”,其主要技术指标和性能达到国际先进水平。我国成为继美国、日本之后,世界上第三个具备研制高性能计算机能力的国家。 2002年8月,联想研制成功深腾1800超级计算机,实际运算速度超过万亿次,是世界上第一台万亿次规模的集群系统,也是中国超算系统首次进入全球TOP500,并排名第43位。 2003年11月,联想研制成功深腾6800超级计算机,实际运算速度超过4万亿次,在TOP500中排名全球第14位,并在通用高端计算机HPL效率、TPC-H性能、UCAR MM5性能方面创造了新的世界记录。 2003年12月,曙光与上海超级计算中心签订10万亿次高性能计算机曙光4000A的销售合同,曙光4000A将于2004年3月运抵上海,6月份完成所有测试。 2008年,联想研制成功深腾7000超级计算机,实际性能突破106.5万亿次,是国内第一台投入使用的百万亿次高性能计算机产品,列当年世界TOP500第19位。 2009年初,联想研制成功深腾7000G超级计算机,采用CPU+GPU异构体系结构,性能达205万亿次,并获得批量应用,引领了GPU加速计算世界潮流。 来源于联想商用搜狐号 |