>>返回主页
北京忆恒创源科技有限公司高级副总裁张泰乐:面向企业级SSD的统一架构设计

2020-09-15 15:00

微信图片_20200916180338.jpg

  大家好!

  很高兴今天能够有机会和大家见面聊一聊。

  说起Memblaze,我们是专门做企业级SSD产品,我相信在座很多朋友应该或多或少对我们有一些了解。我们公司从成立到现在差不多十年时间,十年一直在做一件事情,就是在做企业级SSD。从今天看未来,我大概可以猜想再过5年,我只需要把0改成5,我们还会坚持做企业级的SSD。为什么我们在坚持这件事情,不是说我们不想做别的,实在是这一件事情就够我们这样规模的公司忙了。我们在企业级SSD领域做了这么多年,在今年变化特别大,我们感触特别深。为什么呢?今年年初的时候遭遇了前所未有的变化,这个变化也是我从业这么多年的一个变化。因为上一次非典的影响没有那么大,另外那时候我还在念书。当疫情来临时,我想最开始大家都会有点懵,每天的状态可能就是打开各种新闻Apps,看看武汉怎么样了,整个中国怎么样,国外怎么样了。同时,我们也不能和同事像以前一样,每天面对面交流沟通,我手机上装了各种各样的会议软件Zoom、腾讯会议、钉钉等,我觉得同事们比平时更忙了,客户报一个Bug,人不能去现场,心里更着急,每天晚上睡得很少。但是面对疫情,我们尽到了公司的本分,不能说做的多好,但我们也是尽可能快速的满足客户的需求。对比2019年,在今年上半年,大家可能都宅在家里上网,刷片、在线购物,孩子们上网课,这样的改变对后台数据处理的速度的要求也成倍的提高,所有服务器后边需要高速存储。在今年上半年6个月时间,我们部署了3倍的SSD,相较于去年,我们销售额同期达到去年2倍。当然这其中,我们也经历了很多棘手的问题,因为疫情的原因,整个供应链都受到了影响,我们需要克服重重困难,想尽各种方案来尽可能的满足客户的要求。目前来看,结果还是好的,我想我和我的与小伙伴们尽到一家中国企业级SSD厂商的本分。

  我们公司在做企业级的SSD产品PBIaze5,到今天为止向整个中国市场,交付了1 EB的数据容量。1EB不算是特别大的量,但也不是特别小的数字。1EB是什么概念?企业级硬盘一般讲多少TB,比较大的到10T、16T这样的量级。1000个T是一个PB,1000个PB就是一个EB,所以我们EB就是,这是我们第一次,我们公司自研产品在一个单品上超过1EB的交付量,下一步我们的目标是1个ZB。这是什么概念?1000个EB。

  我刚才回应开始第一句话,估计再过五年之后我们还是在做企业级。为什么?企业级SSD做起来太痛苦,做的时候会遇到各种各样的问题。为什么企业级有各种各样的问题,我们遇到什么样的问题,我们想怎么解决它。我们在做产品,我们在布局未来2-3年的时候我们想做什么,我跟大家分享一下。

  第一件事情我想跟大家讨论一下,我遇到第一个挑战就是企业功能多样性。我拿NVMe举例子,NVMe是2013年正式发布,2013年1月发布1.0版本,我记得当时拿了那个册子,到淘宝上打印寄过来,很薄的一本,127页。今天要做这样的事情,要寄两本,因为A4纸很厚,400多页,这么厚。我很多次想做一个新的产品的时候,2014、2015年跟客户聊的时候,别人会关注产品功能,现在在跟客户聊天的时候,客户会问,支持虚拟化吗?我说我没有听说过,我记下来。客户还有客户的需求,还有各种各样的定制化、开放标准的需求。开放标准非常好,但是问题在于太多元化,使得我们开发一款产品需要做太多太多功能,而没有办法量产,这是我们面对的第一个问题,就是企业级功能的多元化问题。

  第二个问题,市场的多元化问题。为什么讲到这个问题呢?今天ODCC在讲开放数据中心,为什么会有开放数据中心?本质上传统的服务器、传统数据中心不满足一部分特殊用户的,所以我们要画出来一个圈单列出来。客户需求在多元化,美国的客户与中国的客户不完全一样。我这边举例写了三个客户,A,B,C客户。三个客户的需求其实是很不一样,可能很多客户关注密度,高密度部署,一个机架部署几十台服务器,有些客户需要自主可控,需要一键销毁,有些是远程无人值守的机房,有些客户需求又是说不需要远程,需要人眼看着它,坏了,一键销毁它。我相信这些需求大家听起来并不陌生,尤其做SSD或者企业级存储领域来讲并不陌生,但是对我们厂家来讲就会需要层层的设计考虑。但是你做什么,该怎么做,做一个产品满足这么多需要,只能有选择性的去做,去舍弃。这时候我们面对的第二个问题,客户需求多元化的问题,刚才讲到标准的需求复杂化,客户的需求也在多元化。

  第三个问题,我们做SSD最大的基础是什么呢?是闪存。第三个问题是闪存变的越来越复杂,我最早接触这行的时候,当时SSD是第一代产品是SLC,未来我们马上做3D QLC等等,各种控制器技术越来越高。当我们有时候产生一个想法,我要这个搞定,可能要花1-2年甚至更多的时间。当我做到3D Tier的时候,不需要AI。但是到QLC的时候越来越复杂。所以客户需求越来越多样化,我们的标准越来越复杂化,对于我们一个做产品的,会产生一个什么问题呢?以一张图为例,这张图不是我们的原创,但很能表达我们想要描述的问题。当我有好想法,客户有好需求,其实这个需求是很好的,我可以满足他的,我可以只用5个月提出原型,他可以测试尝试,看看TCO提高多少。但是为了把技术进行量产,我可能利用6个月让它看着不错,但是为了真正让它变成产品化,需要做大量可靠性产品化的工作,而且这个门槛越来越高。比如说我们现在有一个人说能不能在SSD当中实现计算,我说Good Idea。能不能在硬盘里面直接算好,给我节省带宽。我说我们找一个控制器,我们很快去测一下,很快原型出来了,看起来不错。客户说能不能支持热插拔吗?我需要支持1.4的标准,所有事情都要做。

  所以当我们往下做的时候我们会遇到一个问题,什么问题呢?我们遇到其实在企业级各个行业设备都遇到的问题,企业级SSD本身的积累成为了我们创新的瓶颈。这句话你把企业级SSD删掉,换成其他的也可以,比如说企业级路由器本身的积累,已经成为了企业级路由器创新的瓶颈。我想大家做网络,肯定知道这个事情,我们网络有那么多协议,你要想超越协议之后创新,没法做了。所以我们还是一个小公司,我们在努力创新,创新是我们公司活下去的源泉,我们不创新可能就要死了。我们要创新,但是我们又要实现高度高可靠性。如何在出货1EB容量的情况下,能够保持高质量,这是我们必须要做的。这是我今天跟大家分享的话题,我们面向这样的挑战,我们是怎么样做产品,或者我们想怎么做。

  我们现在想的是要进行统一的架构设计。我们以手机为例,从安卓1.0,到现在安卓11,其实它的架构变化不大的,我们芯片越做越复杂,我们的芯片支持2G、3G、4G、5G,到摄像头从一个很小的,到两个摄像头,到两个屏,再前边后边算法,但是总体变化不大。我们的笔记本从Windows7到Windows10也变化不大。但是SSD不是这样的,我们公司上边是一个产品,下边是一个产品,当我们需要做两款产品的时候,分别开发两套嵌入级的软件。一个产品是PBIaze5,表面上看很容易,但是其实并不简单,因为PBIaze5有两个型号,一个PBIaze500,一个是PBIaze900,所有的事情所有的工作需要做两倍,因为用两套人马做的时候,所有不兼容。PBIaze500系列又要花费很长时间做起来,这个事情我们已经无法接受了。所以未来我们的想法是做一个统一的架构,我们用一套代码,但是这个事情非常困难。但我们从客户需求出发,我们创造一个相对统一平台,在统一平台当中一步一步演进下去,好在今天有很多做SSD控制器公司,我们总能找到概念比较相近,价格可以的控制器在一起走。我们想法通过设计一些抽象层,通过设计一些软件虚拟的模块,使得我们的架构可以从一个基础,一代一代往未来严谨,而不用使得我们每一次累一个很高的Stack,才能持续的创新,我们的创新总是可以持续的。这是我们想做的事情。

  事情总是需要时间的,我们也一样, 我们的计划是什么呢?我们计划是在未来2年交付两代产品,实现统一架构。今年我们是PBIaze5,我们有900系列、500系列,是两个团队支撑两个芯片,所有的事情都是Double。截止到今天,从去年年初到现在,花一年9个月时间统一架构、统一模块、统一我们的逻辑,到明年我们会实现第一代统一架构,明年会交付PBIaze6产品,会使用同一套代码,大家注意,一个上面新的特征很快到另外一个芯片上实现,同一个代码的两个芯片。我们会在2022年交付PBIaze7,用一个firmware支撑三个芯片。我今天在这儿立一个Flag,我希望到2022年ODCC,我可以很骄傲的告诉大家我们的统一架构实现了。

0