>>返回主页
京东云总监陈国峰:京东云新一代服务器

2019-09-03 17:00

陈.png

  我今天演讲的题目是京东云下一代服务器的架构设计。主要内容分三部分,第一部分是继往开来,第二部分是京东云下一代服务器的架构设计,最后是合作共赢。

  在ODCC讲服务器,避免不了会联想到整机柜服务器,因为ODCC的前身就是天蝎。ODCC最早的一个项目就是天蝎整机柜服务器,本人过去几年里一直在组织内做天蝎整机柜的架构设计工作。天蝎通过简易的设计,大幅降低了服务器的成本;通过一体化的设计,提升了生产和交付效率;集中式的供电和散热,能效也得到一定程度提升;通过统一架构的设计和统一管理的模块,让服务器的管理变得更简易。

  在介绍京东云下一代服务器架构设计之前,先分享一下我们的设计理念。原先做天蝎时,我们的理念就是降低TCO,我们所有的设计都是围绕着TCO来做。在公有云市场发展起来之后,我们的思路发生了一些变化。我们优先要考虑的已经不再是TCO,第一要考虑的因素是稳定性,为用户提供最可靠的基础设施是京东云的产品服务宗旨;其次是灵活性,为满足不同用户的需求,我们必须保证我们的设计是足够灵活的;再有是高效,无论是在能耗方面还是交付效率上,包括生产效率,后台的供应链,整个供应的链条上我们必须保证高效,一旦用户需要资源,客户往往希望资源可以在最短的时间到位,所以我们不管从设计上还是供应链上都要保障高效。第四是模块化,因为用户的需求不可预测,必须要做到模块化,保障服务器在量产之后还可以进行二次定制化,这就需要通过模块化来实现。最后才是成本,成本是一个很重要的指标但已经不再是最核心的指标。

  京东云新一代服务器在具备整机柜服务器低成本、快速部署、低能耗、易管理等各方面优势的同时,继往开来,结合不同行业不同规模用户的需求,实现全场景灵活部署,迎接新的挑战。

  挑战一,场景复杂化。虽然整机柜服务器可以带来TCO上的收益,但目前为止,整机柜服务器在绝大多数数据中心占比并不高,主要应用在一些自建机房。其主要原因是用户场景复杂,租用机房较多,每个机房基础设施条件不一样,同时业务类型复杂,资源调配迁移需求较多,目前主流的整机柜与通用机相比,无论从结构还是系统架构上都有很大的差异,比如机柜尺寸,集中风扇/电源管理等,造成了整机柜部署的局限性,很难实现灵活迁移,混布部署。如何解决以上这些问题呢,京东云新一代服务器架构通过“标准化,模块化,弹性化”,极大地提高了多场景支撑的灵活性。首先,整机柜-标准机柜任意切换。京东云服务器以42U 19英寸标准机柜为设计单位,节点独立散热,通用性强,实现灵活迁移,整机柜-标准机柜任意切换。其次,前后IO灵活配置。节点前IO设计,搭配京东云机柜前置理线槽,机柜后部无任何线缆,所有运维工作均可在冷通道进行,效率更高,环境更友好。当前IO 服务器遇到标准机柜,用户仅需拿掉一个风扇换上后IO模组即可实现后出线,前后IO灵活配置。最后,灵活供电架构。节点电源可独立供电,使用标准CRPS。同时还可通过安装整机柜电源接入模块实现整机柜集中供电,满足不同用户需求。

  挑战二,后摩尔定律时代,高功率密度。随着CPU功耗越来越高,服务器系统功率密度越来越高,受限于结构空间,只能加大系统风量,提高风扇转速,伴随的就是噪声高,功耗大,整体PUE过高,面对这些问题,风冷已经不足以满足目前的制冷需求,甚至散热某种程度上已经制约了服务器和数据中心的发展。京东云综合考虑机房运维、系统运维以及上线风险等方面,设计风液混合散热方案,散热能耗降低60%,实现更高功率密度的部署。

  挑战三,大容量硬盘,高速风扇PLV 挑战。随着机械硬盘容量越来越大,硬盘磁密度增加,磁头偏移公差降低;同时风扇转速越来越高,风扇震动急剧增加,PLV挑战越来越大。京东云服务器采用“硬盘前置,风扇后置”全新系统架构,最大程度的拉开风扇和硬盘之间的距离,有效的降低了震动对硬盘的影响,当硬盘容量增大到20TB以上,与通用服务器相比,Throughput Performance大大提升。

  下面是天蝎,Open Rack和JDCloud的参数对标, 核心区别是我们采用19英寸的内宽,好处是可以兼容现有所有的服务器,同时我们的服务器节点也可以适合任何已有的数据中心。同时在散热和供电设计上JDCloud Server更加灵活。

  京东云一直在基础设施这块有全方位的云产品,这里我重点给大家介绍下,围绕京东云自研服务器的相关产品。首先,我们可以为客户提供云服务器的定制化服务,在这个服务里我们既可以帮助客户来做服务器定制化的方案,又可以提供低成本的硬件;其次,我们可以为客户做定制化物理机租赁服务;最后,我们也可以为我们的用户量身定制私有云的整体解决方案,因为我们有一套完整的私有云解决方案JD-Stack。

  我们大部分模块化的设计,都是利用现在标准的部件,不管是风扇、电源,还是前置IO模块,加速卡等,用的都是市面上已有的标准部件,对于现有下游的供应链不会产生任何影响,并未标新利益,这也是我们为什么能够在资源上实现快速交付的原因。

  硬件生态非常重要,一个新的硬件架构的设计需要更多的同行参与进来,才能建立一个健全的生态。我们的设计是基于英特尔下一代的CPU来做的,预计发布时间是明年的Q2。在此之前,我们希望各位同行,硬件厂商和下游生态厂商,还有终端用户共同参与这个设计,共同围绕这种新的服务架构营造一个合作共赢的生态。

  做硬件的生态,有人设计,有人去生产,有人用,才会是一个健康和良性的生态。希望大家能够共同推动生态的完善和成本的优化,谢谢大家!

0