回望“神威”路: 从 "神威・太湖之光" 夺冠看中国超算突围史
2016年6月20日,中国自主研制的全部采用国产处理器构建的“神威·太湖之光”夺得世界超算冠军。这项荣誉的背后,是中国高性能计算机领域著名专家、“神威”超级计算机总设计师、中国工程院院士金怡濂及其团队长达几十年技术突围的历程。从我国第一部大型电子计算机的问世到具有世界先进水平的高性能计算机“神威”的诞生,金怡濂几乎全程见证并参与了我国大型计算机事业发展的历史。
2016年6月20日,在德国法兰克福国际超算大会(ISC)上,中国自主研发的“神威·太湖之光”首次公开亮相,就凭借优异的性能登顶全球超级计算机500强榜单(TOP500),其峰值性能、持续性能、性能功耗比三项关键指标均居世界第一。
国家超级计算无锡中心主任杨广文打了个比方,“神威·太湖之光”一分钟的计算能力相当于全球72亿人同时用计算器不间断计算32年。
这一震撼世界的算力奇迹,实则是金怡濂从青丝到白发奋斗历程的见证。从我国第一部大型电子计算机问世,到“神威”系列超算实现技术突围,他始终站在科研一线,带领团队突破“芯片依赖”“架构封锁”等重重难关。
金怡濂
来源 | 中国工程院官网
参与我国第一台大型计算机的研制
1956年,在《科学技术发展12年远景规划》出台后,我国迅速组建了一支20人的进修队伍,赴苏联学习计算机技术。彼时,27岁的金怡濂位列其中,成为新中国首批计算机专业人才。1958年,金怡濂学成归国,返回原单位报到后,立刻奔赴位于中关村的中国科学院计算机所,投身于我国首台大型电子计算机——“104机”的研制。
当时,计算机所集体宿舍还没有建成,金怡濂就住在计算机所大楼5层的一个空房间里,同住的还有20多位同事。工作之余,他要和同事到马路、工地上捡废铁,供所内的小高炉炼钢。除此以外,金怡濂几乎所有时间都待在机房里。
1958年9月,“104机”进入机房安装阶段,每个插件都有数量可观的焊点,金怡濂时任机房值班长,为了排查虚焊问题,他想了很多点子,除了目视观测,还要用榔头敲,甚至用木片划拉。金怡濂认为,成型的“104机”整体质量好,与严格的排查虚焊的工作有不可分割的关系。他也进一步体会到,计算机是个特别的东西,工艺质量与设计质量一样至关重要。
经过多轮调试,1959年国庆节期间,“104机”正式宣布完成,我国拥有了第一台平均浮点运算速度达到每秒1万次的大型计算机,这不仅标志着我国在计算机技术领域的重大突破,也为金怡濂积累了宝贵的理论与实践经验,激发了他从模仿走向创新的决心。
研制中国自己的巨型机
1976年,美国科学家西蒙·克雷首创巨型计算机,该机以运算速度最高、系统规模最大、具有较强的处理能力而享誉世界。然而,在我国巨型计算机的研制过程中,曾经发生一件事情,却让金怡濂刻骨铭心。
这件事情发生在20世纪80年代。当时,国家有关部门花大价钱从国外进口了一台巨型计算机,不过却还要花钱雇两个“洋监工”。他们在大机房中隔出一间控制室,监视机器的使用,为了确保中方人员接触不到机器的核心技术,机器只能用于合同上规定的用途,甚至连开机、关机也得由“监工”来做。
这件事不仅让金怡濂产生了一种切肤之痛,更让他彻底明白了一个道理:真正的高科技,是买不来的,中国一定要加速发展自己的巨型计算机,否则将永远受制于人!
“要突破,必须有胆识!”
此时的金怡濂大胆提出,我国巨型计算机研制必须打破“土生土长”模式,走国际化的技术路线,发展基于国际通用处理芯片的大规模并行计算机。
1986年5月,国内第一台标量巨型计算机——“九〇五工程”亿次机宣告研制成功。在该机体系研制过程中,金怡濂实现了由18台高速处理机组成的复式模块化结构的多处理机系统,这样既保证了运算速度,又提高了系统的可靠性、可用性、可维性。
在制定10亿次计算机总体研制方案的过程中,国际上32位微机芯片正面世,金怡濂敏锐地抓住机遇,提出了具有决定性作用的意见:采用国际通用的32位处理器芯片,向大规模并行计算机发展。在金怡濂的意见得到采纳后,我国第一台10亿次巨型计算机系统于1991年年底顺利研制成功,使我国巨型计算机技术迈入了世界先进行列。
花甲之年勇扛“神威”帅旗
10亿次巨型机之后,下一步该如何发展?彼时,科研团队内部对于下一步的发展目标存在分歧。有人提议循序研制200亿次,有人主张直接研制500亿次。然而,金怡濂却提出了一个更为大胆的想法:直接研制千亿次巨型机,实现中国巨型计算机跨越式发展。
1992年,国家并行计算机工程技术研究中心成立,金怡濂出任主任。同年,国务院决定启动“神威”高性能计算机项目,已过花甲之年的金怡濂被任命为总设计师。
“神威”计算机机房实景
来源 | 中国科普网
金怡濂为“神威”量身定制的,是以平面格栅网为基础的“分布共享存储器大规模并行结构”。在研制过程中,金怡濂三次调整方案,不断提升“神威”的关键技术指标。经过24个课题组、近百名科研人员数年的辛勤付出,“神威”高性能计算机系统终于迎来了成功的曙光。
“神威”计算机系统稳定性测试的当天,金怡濂全程守候在机房,直至所有测试指标均显示正常,他才如释重负,中国计算机发展史上最具划时代意义的巨型计算机也就此诞生。
“神威”的成功并未让金怡濂止步,他继续带领研究团队向更高目标发起冲击,很快研制完成“神威Ⅱ”巨型计算机。2001年,“神威Ⅱ”运行速度达到13.1万亿次,无论是峰值速度还是持续速度,均超越了当时世界上最高水平的计算机。
2002年,金怡濂获得国家最高科学技术奖。
金怡濂获得2002年度国家最高科学技术奖
来源 | 清华校友总会订阅号
今天回望,“神威·太湖之光”的夺冠不仅是中国超算的高光时刻,更揭示了自主创新的普适真理:唯有将关键命脉牢牢把握在自己手中,才能在科技博弈中立于不败之地。
审核专家:湖北大学历史文化学院教授王艳明
参考文献:
[1]金怡濂传[M].北京:科学出版社,2013.
[2]世界最快超算换角!中国新超算首次亮相一举夺冠[OL].人民网,2016-06-20.
[3]国家记忆:中国超算发展纪实[OL].央视网,2018.
中国科学家博物馆出品