百度系统部执行总监侯震宇：AI新时代，DC新征程

2018-10-16 10:45

侯震宇.jpg

　　大家好，非常高兴参加ODCC峰会，和数据中心领域的同行们、专家们交流百度在数据中心领域的一些思考和我们已经取得的一些成绩。

　　今天我演讲的主题叫“AI新时代 DC新征程”。百度是在中国各大互联网公司里最早在AI上布局和发力的，我们在AI领域也取得了非常不错的成绩。今天，AI对于更加底层的基础设施、数据中心、服务器、网络也提出了对以前并不一样的要求。下面跟大家分享我们在AI时代对数据中心领域新的思考。

　　先看一下百度在AI时代业务上的布局。大家看到，代表百度AI能力的两个基础层，最下面是百度的ABC智能云，往上是代表核心AI能力的百度大脑，再往上是百度目前所做的主要的业务，包括在AI时代新的移动应用，包括百度的搜索、信息流，业务增长非常快；也包括在行业层面所体现的新社交、新零售、新视频相关领域，现在的视频看起来和过去几年已经不太一样了，不仅包括各种短视频、视频直播、视频点播，还涌现出来非常多的特效和互动的方式，以及AI和视频的结合。AI在之前的那些应用其实是互联网上一直存在的应用，只是说AI时代我们怎么更好的去支持、去赋能传统互联网业务。而右边这些是完全在AI时代新涌现出来的机会，百度利用我们AI的能力去更好的支持它们。比如我们的DuerOS，其实是面向智能家居和万物互联场景下百度所做的一个AI操作系统；比如，我们通过ABC智能云来支持的像智能制造、智慧城市、智慧金融等垂直领域；而后面的百度Apollo无人车开放平台，大家应该也比较清楚，百度做的Apollo无人车开放平台应该是全球现在最为开放的无人车的生态。在AI时代，这就是百度整体的业务布局，也是整个行业现状的缩影。

　　AI的业务需求有所不同，对计算力有新的需求，对我们数据中心也提出一些新的挑战。在数据规模上，这一轮以深度学习为代表的人工智能，更多是通过大数据、大规模的数据量激发出来的，在数据规模上有了极大的提升。以百度为例，我们有万亿级搜索数据，有百亿级地图定位的数据，地图定位也代表了人生活的轨迹，还有百亿级多媒体信息，图像、视频等信息，对存储的要求非常高。同时，AI对算力的要求也是非常高的。我预判，在2017年到2020年整个计算力的要求会是数量级的增长。算力不仅是基于CPU的通用计算，还有非常多元化的异构性计算。而在网络方面，对网络的整体延时会有大幅度下降的要求，预估到2020年整个数据中心差不多应该有90%的延时的下降。另外也和ODCC等开源组织相关，我们在整个生态上，开源计算AI的计算框架，包括一些更加基础的ABC的基础体系这种开源的东西也越来越多。

　　数据中心方面，在我们看来有这么几个新的趋势，一个是数据中心本身，我们会逐步朝着更大规模、更低成本上去走，但是我们也会考虑到数据中心规模和数据中心选址上的分散与集中的这种权衡。二是功率密度大幅提升，异构计算带来的高功率、高密度，摩尔定律已经发展到一定瓶颈，它的功率会越来越高，我们的服务器、以及数据中心的功率密度都会大幅度提升，这是我们能看到在数据中心侧的一个比较大的变化。另外在计算和存储这边，高性能计算，包括多元芯片、GPU、ASIC等这些在接下来会有飞速的发展。另外是新的一些存储架构，都有非常多的演进，包括我们在存储上看到各种新的存储介质和架构涌现出来。

　　网络方面，一方面是数据中心内部的，现在可以看到25G、100G甚至400G的接入都已经在逐步开始规模化或早期投入使用了，而Clos Fabric集群也在规模推广了，诸如RDMA、SDN技术在数据中心内部也在开始逐步推进，也是我们在传输层面上的演进。另外，在数据中心网外的网络接入层面，时延要求越来越低。百度在上个月发布了一个OTE的项目，就是边缘计算，伴随5G技术的边缘计算，，也带来一些新的要求。

　　刚才谈到的是整个百度在数据中心内部的需求和技术发展的趋势，下面我跟大家分享一下聚焦到比如IDC、服务器、网络等我们看到有哪些新的趋势，以及百度当下在做的这些工作。

　　第一个是分布式锂电池，是整机柜的快速交付里用到分布式锂电池，它可以使我们整体的供电效率提升10%，能节省25%以上的机房空间，意味着可以在同样的机房里可以放更多的机器。同时结合整机柜能够做到每天进行1万台服务的部署，给我们带来非常大的收益。另外是在高功率的供电和冷却上，我们也引入了像48V供电的技术，以及液冷技术。

　　边缘计算，这是百度在接入层面上一个基础的布局和规划，发生计算的核心点仍然是在云数据中心内部，但是它距离我们终端使用的用户可能会比较远，我们认为它的延时在10-50ms，这是我们能承受的上限。再到5G时代和MEC，我们能够和客户、用户更近，在MEC的节点上我们能做到2-10ms，MEC再往上，物联网层面上根据不同的场景，我们能做到2ms，10ms、50ms，这是百度对于整个用户或者应用接入的一个延时上的分段，不同的延时段上我们会有不同的资源提供的和网络接入的方案。我们也相信在5G时代边缘计算到来，越来越多的场景需要低延时的通信，需要在本地发生计算，包括智能交通、智能制造、智能家居，这些给我们在网络延时上又提出来更高的要求，我们在接下来会大力推广OTE边缘计算整体框架，当我们成熟之后也会把它开源出来。

　　AI驱动计算，左边是百度AI计算系统，在AI时代的计算，百度从芯片层面一直到最往上的推理引擎，以及Training的框架，还有很多AI算法的能力在上面。芯片层面，我们不只支持CPU、GPU、FPGA这样的加速器，我们也会做定制化，比如百度的昆仑芯片。另外和我们的伙伴，诸如像寒武纪、比特大陆、海思都有深入合作。系统层面，目前在系统设计上做了X-Man1.0/2.0/3.0，包括一体机，再往上是互联层面，PCI-E，包括支持NVLINK，加速器到加速器之间的连接等等，支撑计算加速。再往上是Training

　　Platform，再往上是Inference Engine。我们在AI计算上，百度从最底层或最基层的芯片，一直到我们上的框架、引擎，我们提供一个端到端的系统，这个端到端的系统我们的设计之初符合右边展示的逻辑，我们相信要软硬件结合，我们会有大量多元化的芯片，我们要使用加速系统更好的去加速，做的是软硬结合的一体方案，全是面向应用来定义的。

　　存储上，AI也好、大数据也好，其实是通过大规模数据来推进的，大规模的数据有存储量上的大，也有数据本身的特性，比如时效性、易变、冷热不均，在对应的存储方案上，左侧越往下容量越大，但是单GB容量成本越便宜，就是磁盘、磁带。越往上效率越高，也会越贵，到上面也就是内存。这么大的数据规模，不同的数据需要用不同的存储解决方案，我们如何在这些不同的存储介质下去设计我们的存储系统，我们也希望提供存储设备的合作伙伴们能够跟我们共同去研究当下存储效率面临的挑战。同时，除了更好利用这些存储介质，也需要提高整个存储的利用效率，现在硬盘也好、SSD也好、内存也好，在利用率方面，百度尽管做得还不错，但是仍然不算很高。未来，如何把整个存储池化，能够让存储和计算合理解耦，这也是存储上遇到的挑战。

　　正如刚才所谈到的，我们正面临一个全新的技术时代，这是对整体基础架构的全新时代。在基础架构层面，更好的软硬件结合、更好的定制化、更好的应用定义是未来。

　　我的分享就到这，谢谢大家！