科研能力
CAICT观点
计算性能提升由硬件主导向“软硬协同”演进
作者:邢宇龙            发布时间:2020-05-07

  一、硬件主导的算力提升难以匹配海量增长的计算需求

  供给端,摩尔定律带来的计算性能提升空间有限。摩尔定律自1965年提出以来,一直驱动着半导体产业向实现更高性能、更低成本方向前进。然而,随着半导体技术逐渐逼近硅工艺尺寸极限,摩尔定律显示的“IC集成度约每隔18个月翻一倍,性能提升一倍”的规律将不再适用。研究表明,通用CPU性能的持续提升呈整体性加速放缓趋势(如图1),通用CPU性能平均每年的提升效率,在1985到2003年间为52%,在2003到2010年间减缓到23%,2010到2015年进一步减缓到12%,而2015年以后,通用CPU性能平均每年仅能提升3%。

图1 通用CPU计算性能增长趋势[1]

  需求端,AI加速应用带来的计算量呈指数级增长态势。在IT领域有一个著名的安迪-比尔定律[2] ,应用软件会快速消耗掉硬件提升的性能,该定律概括了IT产业中软件和硬件升级换代的关系。当前的计算行业正是如此,硬件厂商生产多少服务器,都会被算力厂商拿走,而下游应用市场对算力的需求永无止境,特别是AI技术大规模应用以来,数据和计算需求量更是呈爆发式增长。IDC发布的《数据时代2025》 [3]报告显示,2018年全球产生的数据量为33ZB (1ZB=1万亿GB),到2025年将增长到175ZB。英特尔的研究也表明,AI模型的计算量每年增长10倍,这一趋势随着未来IT与传统产业的深度融合会进一步加快。图2(纵轴为对数坐标)为主要机器学习网络架构计算需求的增长趋势,可以看出2012年后,驱动AI的底层机器学习技术计算量呈指数级增长,远超摩尔定律带来的算力提升速度。

图2 主要机器学习网络架构计算需求增长态势[1]

  二、“软硬协同”成为推动未来计算业发展的重要动能

  程序执行效率提升潜力巨大。编程语言从诞生起,其开发效率和执行效率就是一对矛盾。所有编程语言最终都要转换为机器语言,语言越低级,越接近机器,执行效率越高,越高级越接近人类,开发效率越高。伴随IT产业的快速发展,硬件算力按照摩尔定律揭示的速度在飞速增长,凭借强大的算力支撑,程序开发者为了快速迭代,发明了许多高开发效率的高级程序语言,而程序自身执行效率却在逐步降低。从汇编语言到C、C++、Java等高级语言,编程语言越来越好用,开发效率越来越高,同时执行效率却越来越低。比如,今天使用的Python、Java比C++执行效率低很多,而C++又比40年前的C效率低。相关实验表明,通过程序语言、计算和存储优化可以大幅提高程序执行效率。用C替代Python编写程序可以将程序性能提高47倍;通过处理器和存储布局优化,程序性能可以继续提高140倍;当前基于冯诺依曼体系架构的硬件算力提升日渐乏力,而程序执行效率的提升空间还很大,计算性能的提升将从依赖硬件算力逐步演进到由“软硬协同”来驱动。

  基于软硬协同的架构优化成为计算性能提升的重要探索方向。图灵奖得主David Patterson提出未来十年是计算架构“新黄金十年”,他指出未来10年将看到比过去50年有更多的架构优化和提升。芯片和设备厂商纷纷通过软硬联合优化提升整体计算性能。英特尔推出全新架构,联合优化CPU、GPU、FPGA以及专用AI芯片在内存和互连领域的性能,可以更好地提高整体计算效率。英特尔表示,硬件架构的每一个数量级的性能提升潜力,通过软硬协同能带来两个数量级的整体性能提升。高通通过采用全新的处理器框架,芯片整体计算性能得到大幅提升。根据官方的数据,骁龙855 CPU性能比骁龙845提升了40%,GPU性能提升了20%。华为的云异构计算服务,硬件基于Atlas平台,通过优化硬件直通能力,能够显著降低因计算资源虚拟化造成的性能损耗。实验显示,同等规格的双GPU,华为云GPU互联网带宽是其他厂家的2.5倍。

  三、总结和展望

  过去半个世纪,集成电路产业在摩尔定律的指引下飞速发展,计算力一直保持着大跨度提升。2018年世界上最快的计算机IBM Summit比1945年世界第一台电子计算机ENIAC计算速度提高了近30万亿倍1。然而,随着摩尔定律接近物理极限,芯片研发和生产成本大幅上升,未来依靠算力提升计算性能的空间有限。在硬件主导算力快速提升的时代,计算过分依赖底层算力,忽视了架构和代码优化,高级语言不断出现,程序执行效率越来越低,而这恰恰为今后从软硬协同层面提升计算性能留下了空间。未来,传统芯片制造商、终端厂商、软件开发商等将更多通过软件优化、架构整合、软硬件协同来提升计算整体性能,为大数据、人工智能等新应用提供计算支撑,赋能全社会数字化转型。

  参考文献

  [1] Dean, Jeffrey. "The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design." arXiv preprint arXiv:1911.05289 (2019).

  [2] Karlgaard, Rich (April 19, 2005). "Ten Laws Of The Modern World". Forbes. Retrieved April 20, 2018.

  [3] https://www.seagate.com/cn/zh/our-story/data-age-2025/

1 30万亿倍是基于运算次数计算的比例。实际上第一台电子计算机ENIAC完成的是加减运算,而现代计算机完成的是浮点运算,本身更为复杂,文中的计算速度比较仅作为参考。


  个人简介

  邢宇龙,现任中国信息通信研究院政策与经济研究所高级工程师。

  联系方式:xingyulong@caict.ac.cn

0
新闻动态 科研能力 业务介绍 品牌活动 学术期刊 文化建设 招贤纳士 关于我们
CAICT观点
成果概况
创新推广
微信扫一扫
添加信通院公众号
Copyright © 2018-2023 中国信息通信研究院 版权所有
京ICP备09013372号 京公网安备11010802027721号
网站声明   联系我们