中国超级算力引领全球发展
一直以来,中美两国都是超级计算机领域最主要的争夺者。而近年来,中国在超算领域的实力长期保持着力压美国一头的局面。即便是在美国对中国超算领域的企业进行打压之后,中国在超算领域的综合实力仍保持领先。
任何卡中国脖子的做法,只会加速中国的进步
超级计算机就是具有很强的计算和处理数据能力的计算机。超算的运算速度平均每秒1000万次,存贮容量在1000万位以上。中国在超算领域起步虽然晚,但投入的力量较大,从“银河”到“天河”“神威”系列超算,中国超算实现了自主创新的一系列世界“第一”,而且连续几代登上世界“速度巅峰”,成为第二个可以独立研制千万亿次超算的国家。
2009年,我国“天河一号”,峰值性能每秒1.206千万亿次。2016年,国际超算大会提出的世界500强排名,中国首台全部采用国产处理器构建的“神威·太湖之光”排名第一,成为全球最快的超级计算机,“神威”在各项性能上都领先世界。另外,在全球最强大的500台超算中,中国就占167台,数量超过美国。
被美国纳入“黑名单”的几家中国超算实体,跟中方打造的E级超算项目紧密相关。E级超算,是每秒能运算百亿亿次的超级计算机,被世界公认为“超级计算机界的下一顶皇冠”。美国2020年接连宣布研发建造“极光”“前沿”“酋长岩”三台E级超算,交付时间为2021年至2023年。在E级超算领域,中国还领先了一步,我们自主研发的E级超算“天河三号”原型机、神威E级原型机和曙光E级原型机系统在2018年就交付了。中国超算高端应用连续两次获得国际高性能计算机的最高奖——戈登贝尔奖。
超算之所以被世界关注,是因为其对一个国家的经济和国防都太重要了,被应用于很多重要领域。E级超算应用于解决人类面临的能源危机、健康危机、气候变化和环境污染、全球气候变化模拟、天体物理大数据的处理、模拟宇宙的演化、新型材料验证及无库存核武器仿真等。
中国近年来以创新为突破,完成了超算自主可控生态体系的初步建设。比如采用中国自主研发处理器的超级计算机“神威·太湖之光”成功接棒基于英特尔芯片的“天河二号”夺下第一;“天河一号”“天河二号”则小规模试用了自主研制的飞腾CPU。关键核心技术是买不来、要不来、讨不来的!百年未有之大变局,对我国科技创新提出了更加迫切的要求。把国家发展和安全的主动权牢牢掌握在自己手里,必须依靠自主创新,把科技自立自强作为国家发展的战略支撑。
自2013年6月中国的“天河二号”超级计算机成功夺得全球超算TOP500的桂冠之后,持续多年霸榜。2015年4月,美国商务部发布公告,决定禁止向中国4家国家超级计算机机构出售“至强”(Xeon)芯片,2016年6月,采用中国自主研处理器的超级计算机“神威·太湖之光”成功接棒基于英特尔芯片的“天河二号”夺下第一(“天河二号”排名第二)。
“神威·太湖之光”的核心处理器“申威26010”是在国家“核高基”重大专项支持下,由国家高性能集成电路设计中心研制,实现CPU和操作系统的全部国产化。当时超算“TOP500”组织就在一份声明中写道:“中国在国际TOP500组织第47期榜单上保持第一名的位置,凭借的是一个完全基于中国设计、制造处理器而打造的新系统。”另外值得一提的是,中国当时入榜的超级计算机数量也达到167台,超过了美国(165台),排名全球第一。
随后在2017年6月和11月,“神威·太湖之光”与“天河二号”再度蝉联全球超算TOP500榜单的第一和第二名。直到2018年6月,来自美国的Summit超级计算机才重新夺回世界超级计算机TOP500的榜首,“神威·太湖之光”屈居第二,“天河二号”排名第四。2017年9月,广州超算中心宣布年底前升级天河二号超算系统,使用国产芯片Matrix 2000取代原本的英特尔Xeon Phi加速器。也就是说,全面换装国产处理器之后,“天河二号”的排名并未出现大的波动,依然稳定在前五。2019年的两次排名中,美国能源部下属的超级计算机Summit和Sierra蝉联第一和第二,而中国的“神威·太湖之光”和“天河二号”依然保持在前五。并且在TOP500榜单上的超算数量上,中国超级计算机仍保持着绝对的优势。
根据2020年11月公布数据显示,在全球超级计算机TOP500榜单上,中国的“神威·太湖之光”和“天河二号”分别排名第四和第六,虽然排名较此前均下降了一名,但是从数量上来看,中国占据了217台(含中国台湾3台和中国香港1台)排名第一,而排名第二的美国只有113台。这也是自2017年11月以来,中国超算上榜数量连续多年位居第一。
总体来看,中国目前在超算领域的综合实力,与美国相比依然有一定的优势。
目前全球排名第四的超算“神威·太湖之光”所搭载的核心处理器就是国产自研的“申威”处理器。而目前负责申威处理器的实体就是成都申威科技。天津飞腾也是近年来发展极为迅速的一家国产处理器厂商,其产品覆盖了嵌入式CPU、桌面CPU及服务器CPU。2020年7月,飞腾发布了新一代的服务器芯片腾云S2500系列,基于Arm 64核心架构,最高可支持8路直连,可实现高达512核协同工作能力。上海高性能集成电路设计中心以及各地的国家超级计算中心也都是中国发展超算的关键科研机构。
超级计算
超级计算历来是衡量一个国家科技水平和创新能力的重要标志。在国家政策大力支持下,近10年来中国的超算产业在国家“863”等多个国家科技计划的持续支持下迎来了飞速发展,跻身国际先进行列。2020年6月,全球超算500强排行榜中,中国上榜226个,占45%。日本采用ARM架构的超级计算机“富岳”超越中美,夺得全球超算冠军。排名第二和第三的超级计算机分别是美国的“顶点”和“山脊”系统。中国超级计算机系统“神威·太湖之光”和“天河二号”分列榜单第四、第五位。与此同时,我国超算产业仍然存在诸多问题,一是核心技术突破不够全面,自主技术发展还较为缓慢,绝大部分采用国外厂商的芯片、系统和应用软件;二是强调单点应用或技术的突破,现有的项目多以短期的项目支持为主;三是缺乏全局生态环境的顶层设计和产业化持续造血能力。例如,超算中心在软件开发能力和商业化运营上略有不足,呈现投入多产出少的现状。
算法层面
支持企业发展安全可靠操作系统。提升操作系统性能,突破系统调度、内存管理、虚拟化等操作系统核心技术,优化多核或者众核调度能力,强化多元化算力支持,加强基于安全可靠操作系统内核的应用推广。构建开源Linux基金会,布局安全可靠的Linux代码托管仓库与开源技术交流社区。(https://www.daowen.com)
提升数据库性能指标。提高数据库可用性、可靠性和安全性,发展多样化数据库产品。发展分布式高扩展数据库架构、面向高速存储介质和非易失性内存的存储引擎,提升数据库异地多活高可用能力、基于密态计算的数据处理技术、数据防篡改等能力。推动开源社区和统一数据库规范构建,支持兼容行业主流生态的数据库开源社区建设。
支持加速库、统一调度器、函数计算开发框架等计算工具链套件发展。发展加速库,强化基于芯片的加速库优化和算法提升。提升数学库、网络加速库、机器学习库、图分析库、NN训练加速库、NN推理加速库、媒体加速库等加速库竞争力。发展通用图优化、图等价等变换算法,模型自动压缩算法、模型服务资源调度算法等推理加速算法,自动混合精度算法、量化感知训练算法、迁移学习算法等训练加速算法。突破针对安全可靠芯片的编程模型、编译优化、编程语言抽象、虚拟指令集等核心技术,突破矢量化、内存优化、循环转换、全局优化等关键编译优化技术。
算据层面
提升数据融合分析能力。实现海量数据的多源、异地、异构融合分析,强化自动数据发现与增强、自动数据可视化、高性能分析、多算力计算等能力,提升海量数据的集成管理与分析能力,优化数据的高效分布式并行处理能力,提升数据集成质量、集成方法的可用性水平。
发展高性能数据存储。布局支持多样性算力、高通量算力、多协议接口的数据存储系统,加强系统多协议互通与数据流动等能力,强化数据全生命周期的安全性、可靠性与可管可控。推动实现跨地域、跨数据源的端、边、云数据协同,及存储与计算、网络的高效协同。
强化开源大数据引擎与生态标准统一规范研究。支持高性能异构、多源融合、异地查询。支持开源大数据社区建设,构建大数据生态标准。支持相关企业发展大数据引擎生态,加强数据接口统一化。提升适用于存算一体的数据服务能力。提升对大规模、规则化的密集型数据进行定系数的乘累加运算能力。
超级算力生态体系
超算是一个完整的生态,从超算中心到上层应用,从计算、存储、网络到服务、运维、管理,这背后的每个环节都需要大量的投入,超算人才的培养也不是一朝一夕能实现的。我们也需要更多类似北京超级云计算中心的企业共同努力,推动中国从超算大国到超算强国的转型,向着百亿亿次的目标坚定迈进。
首先,算力需求快速增长算力投资具有多重经济价值。算力即计算能力,核心是CPU、GPU、NPU、MCU等各类芯片,具体由计算机、服务器、高性能计算集群和各类智能终端等承载。数字经济时代,数据的爆炸式增长,算法的复杂程度不断提高,对算力需求越来越高。算力是数字经济发展的基础设施和核心生产力,对经济发展具有重要作用,根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》,计算力指数平均每提高1点,数字经济和GDP将分别增长3.3‰和1.8‰。
算力投资具有多重经济价值,不仅直接带动服务器行业及上游芯片、电子等行业的发展,而且算力价值的发挥将带动各行业转型升级和效率提升等,带来更大的间接经济价值。根据《泛在算力:智能社会的基石》报告,每投入1美元算力即可以带动芯片、服务器、数据中心、智能终端、高速网络等领域约4.7美元的直接产业产值增长;在传统工厂改造为智能化工厂的场景下,每1美元的算力投入,可以带动10美元的相关产值提升。
其次,算力发展的特点及趋势。随着数据规模的增加和算法复杂度的提升,以及应用多样性的不断丰富,对算力提出的要求也越来越高,当前算力发展呈现出三方面的特点:第一,多种架构百花齐放的状态;第二,中心化的算力与边缘终端算力快速发展;第三,专用算力日渐成势。近年来多种算力架构并存并快速发展。曾经x86架构的算力占绝对优势,英特尔和AMD基本垄断了x86算力架构市场,海光信息通过跟AMD合作获得x86架构的授权;如今基于ARM架构的算力份额不断扩大,特别是在移动端ARM架构算力成为主流,华为海思等主要产品是基于ARM架构,另外天津飞腾的产品也是基于ARM架构。
随着5G及物联网应用的不断增加,边缘终端算力的需求日益增加,特别是自动驾驶、智慧安防、智慧城市等领域算力需求。地平线自动驾驶芯片已经量产,英伟达Jetson产品在嵌入式终端产品应用广泛,其他针对特定领域专用边缘终端芯片创业公司层出不穷。针对图像、语音等特定领域的专用算力日渐成势。一方面是芯片工艺制程越来越逼近摩尔定律的极限,另一方面是物联网智能终端对功耗的要求等,针对特定领域的专用芯片层出不穷,并且越来越多的巨头参与其中。谷歌的TPU专为机器学习定制的算力,阿里平头哥的含光NPU专为神经网络定制的算力,赛灵思的FPGA算力,百度研发针对语音领域的鸿鹄芯片以及云知声、思必驰、探境科技等也推出智能语音相关的芯片,北京君正、云天励飞、依图科技和芯原微电子等推出针对视觉和视频处理相关的专用芯片。
最后,算力供应以公有云和自建算力为主,多种方式相补充。当前的算力供给主要包括公有云、超算中心、自建算力、地方算力中心等方式。其中,公有云和自建算力中心是算力的主要来源方式,超算中心及地方算力中心等多种方式相互补充。规模化的算力供应通常通过数据中心来承载,新建数据中心的不断增加,将带动未来算力资源的供应不断扩大。据中国电子信息产业发展研究院统计数据,2019年中国数据中心数量大约为7.4万个,大约占全球数据中心总量的23%,其中大型数据中心占比12.7%;在用数据中心机架规模达到265.8万架,同比增长28.7%;在建数据中心机架规模约185万架,同比增加约43万架。
在超级计算机行业,过去一直高大上,每秒运算能力达到十亿亿次、百亿亿次的超级计算机似乎让普通的行业与应用望尘莫及,因而,阳春白雪的超算通常应用在传统的科学计算及国家重大工程领域。然而,随着时代的进步,百行百业的数字新基建迎来了前所未有的发展机遇,超算离我们的生活越来越近。这一切的变化,离不开超算与云计算技术的创新融合,超级云计算中心的诞生与发展,驱动着超算成为行业数字新基建的重要组成部分。
九年多的超算行业积累,持续创新演化,推行超算普惠价值,北京超级云计算中心聚焦万核、千核以下的通用超算应用,针对不同的行业不同类型的应用,在超算+云计算的融合体系架构上,以此适应多元化多种类的计算负载需求,带来了行业落地的新格局。2020年11月20日,深度势能(DP)团队获得了高性能计算最高奖项“戈登贝尔奖”(Gordon Bell Prize)。与此同时,DP团队的工作开启了新的范式,融入了人工智能(AI)、高性能计算(HPC)、物理模型。
HPC+AI+Physical Models,这个方向大有可为。人工智能与高性能计算将助力我们兼顾各尺度物理模型的精度和效率,解决更多复杂的科学和应用问题。AI也有了新的主题,即与HPC结合,真正解决科学计算中很多困难的科学问题、应用问题。北京超级云计算中心也为深度势能团队部分成员提供日常科研攻关算力支持的主要算力池,为前沿研究贡献一份力量。
由此而言,北京超级云计算中心多种超算优质服务,高性价比的计算资源,已经广泛地应用在行业发展的方方面面。从这些行业应用的实际情况可以看出,超算产业的发展,离不开“产、学、研、用”整体生态的给力,也离不开算力与应用有机融合的均衡发展。业内专家分析指出,应用算法优化和平台优化深度融合,将会产生超算服务领域更多元化的创新。针对行业领域的发展,北京超级云计算中心非常重视行业应用的发展,以国产软件SaaS化模式,携手业界软件合作伙伴,共同致力于超算行业落地的发展。可见,SaaS化生态模式有助于丰富超算在行业普惠上的更多内涵,满足百行百业的业务发展需要,全力推进超算的普惠化进程。与此同时,北京超级云计算中心还全力支持国家超算环境建设,实现科技的跨越突破,助力国家科技发展。
超级算力新基建
2020年国家大力支持“新基建”建设以来,数据中心作为“新基建”的重要内容,京津冀、长三角和珠三角等算力需求地区,以及中西部能源资源集中的区域,如内蒙古、山西等,均在推进新的大中型数据中心的建设。公有云以其稳定和易用等特点,成为许多企业特别是中小企业的算力首选方式。据不完全统计,阿里云服务器总数接近200万台,腾讯云服务器总数超过110万台,华为云、百度云、京东云、AWS等云厂商服务器总数未找到确切数据,保守估计各类云厂商服务器总数之和也超过500万台。
在国家宣布大力支持“新基建”建设之后,腾讯宣布未来五年将投资5000亿元用于云计算、数据中心等新基建项目的进一步布局,阿里云宣布未来三年阿里将投资2000亿元用于面向未来的数据中心建设及重大核心技术研发攻坚,百度宣布预计到2030年百度智能云服务器台数将超过500万台。各大云厂商仍在继续加大算力投入,公有云算力供应将会更加充裕。自建算力以其安全性和自主性等特点,成为政府、大企业及其他关注安全的组织的算力首选方式。政府、银行及高校和央企等,通常通过自建或租赁数据中心的方式自建算力,满足自身各项业务的算力需求。许多互联网公司在刚开始时选择使用公有云服务,但规模发展到一定程度时通常都会选择自建或租赁数据中心的方式自建算力。其他各种类型的企业,出于安全、商业机密和隐私等方面的考虑,不愿意把数据和业务等放到阿里云等公有云上,往往选择托管服务器的方式自建算力,规模更小的企业直接就在本地使用。
2020年6月快手宣布投资100亿元自建数据中心,计划部署30万台服务器,字节跳动等大型互联网公司都在不断加大数据中心的建设。超算中心和地方算力中心作为算力供应有效的补充方式,适合于大规模计算需求的应用领域。截至2020年,科技部批准建立的国家超级计算中心共有八所,分别是国家超级计算天津中心、广州中心、深圳中心、长沙中心、济南中心、无锡中心、郑州中心和昆山中心。超算中心主要的算力资源以CPU为主,新建的超算中心及更新升级过程中的超算中心逐步增加了异构GPU算力资源。超算中心较好地满足了高校科研中算力资源的需求,特别是在工业仿真、生物信息、新材料、气象、海洋等科学计算领域。国内主要省市地区基本都投资建设了当地算力中心,重点服务本地科研和产业发展的需求,如太原、苏州、福建等地,目前通常地方算力中心的规模并不大,计算节点数在200—500之间居多,主要服务于当地气象、工业仿真和生物信息等领域计算需求。
2020年以来,武汉、南京、珠海、许昌等地区正在建设人工智能计算中心,将在一定程度上弥补当前规模化AI算力不足的情况。
算力作为数字经济的基础设施,也是数字经济时代的生产力和引擎,越来越成为数字经济时代国家竞争力的体现。根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》,中国和美国的算力建设在全球处于领先地位,美国的算力在规模、效率、应用水平等方面都领先于中国。此外,从算力芯片供应角度看,美国的英特尔、AMD、英伟达等企业几乎占了全球的绝大部分的市场份额。可见,中国在算力建设和发展方面仍然需要加大投入力度和加强研发等,发挥优势的同时弥补不足,从而为数字经济长期发展奠定更加坚实的基础。