>>返回主页
腾讯科技有限公司硬件架构师 刘超:T-Flex IO 资源池化服务器

2018-10-17 09:30

刘超1.jpg

刘超:大家好,我是刘超,来自于腾讯,目前在腾讯负责服务器硬件构架设计。今天给大家介绍一下目前在腾讯批量部署的IO资源池化系统T-Flex

  首先看一下T-Flex系统,介绍一下实现这个系统的关键部件及设计,接下来挑几个典型应用场景介绍一下,后面是今天比较重要的部分,我们决定把T-Flex设计贡献给ODCC,给大家讲一下具体有哪些内容,开源的,大家可以直接用。

  天蝎3.0的主要工作方向是资源池化,在此之前,基于SAS switch的已经在腾讯部署了,SAS switch解决的是将应用资源和计算资源解耦,实现硬盘资源池化。主要面向的业务需求是在冷存储,也有一定的温存储。业务本身对于高性能的IO或者异构计算,或者是高性能的存储有强烈的需求。我们面临的第一个问题是需求多样化的问题,不同的业务对硬件IO性能要求,包括对设备配置配比要求不一样。我们要求我们硬件设备有顶层的配置可编程能力,这样才能满足多元化资源的敏捷交付。这是2U通用服务器的形态。T-Flex在大多数的配置情况下是一个box,里面不含计算资源,但是有些可以独立加上资源成为一个系统。前窗,一种是比较常见的24U.2的,第二种是Ruler SSD,单条最大是32T,两个前窗之间可以非常灵活的转换,本身在系统级配置有比较强的扩展能力,Flex,系统相对来说比较灵活。我们现在给大家展示的机柜上的配置装置,首先说明的这种配置方式里面没有计算资源,一个单独的T-Flex可以支持16个节点,如果一台服务器配多个T-Flex,一台服务器最多接4boxT-Flex刚才我们看到第一页支持的是标准的PCI-E,当有些情况下我们需要在box内部配置一个Micro Server的时候配一个这种后窗,可以通过非常方便的方式,这个后窗可以支持几种Micro Server,第一种是OCPT-Flex后窗可以支持这两种Micron Server

  这是系统逻辑框图,基于PCIe switch的框图,前中后,前面是两种背板,这是32Ruler SSD,中间是PCIe交换单元,中间虚拟都是table,两个switch之间的互连或者向后去连PCIe或者向前连NVMe背板,都可以通过配置来实现。下面按照这个框图给大家介绍每个单元里,框图本身通过一些PCIe table的连接方式,我可以接一个SOC卡,第一种方式,当你的业务希望的性能稍微低一点,有一点的收敛比。如果你觉得对业务的性能更高,用中间的性能方式,只需要改变table,多插一张卡就实现了。如果想要是裸盘交付的方式,不用插任何卡下面是AI计算Server的连接方式,可以把两个box同时挂给一台服务器CPU,实现业务的要求。

  PCIe switch目前我们选择的是Microsemi,两个96 lanePCIe switchPCIe交换模块采用的是模块化的。这种设计能让我们设计在第一张框图里table之间灵活的配置。如果需要降成本,你设计一个系统,如果我需要四个PCIe switch做扩展做节点,连就好了。向上可以扩展4个,向下去掉一个。两个盒子之间级联或者T-Flex去连,用外部table,内部tablex8的。内部互联有了每一对,是不是包括PCIe标准型号的,包括USB、串口等,这些都是可以支持Micron Server的。包括一些Micron Server Control

  Riser卡,BC都是采用Flex定义,从switch板过来的可以直接连到Riser上,下面的T-Flex Standard Riser,按照T-Flex Riser卡定义的Micron Server去实现自定义。这个是两种背板,怎么来实现U.2背板和EDSFF背板,背板位置不一样,U.2背板是在前面,EDSFF背板是在上面的空间。

  简单介绍几个应用场景,第一个是SSD池化,T-Flex,第一个应里是没有任何计算节点的是,是纯SSD,实现硬盘SSD资源的存储池化功能。这个是异构计算,T-Flex通过每一个Flex里接一些GPU设备,最多可以实现16卡的AI计算的功能。

  最后看一下我们贡献什么,在ODCC上我们会把整个T-Flex的所有设计贡献给ODCC,包括整个系统的结构设计等,后面我会把所有的设计打包放在ODCC组织里,大家需要可以后续去ODCC获取。

  今天我的介绍就这么多。

0