>>返回主页
ODCC测试工作组副组长 中国电信股份有限公司北京研究院 赵继壮 ODCC分布式存储规范制定中考虑的问题

2018-10-17 09:35

赵继壮.jpg

  尊敬的黄处还有各位嘉宾,今天跟大家分享一下ODCC分布式块存储规范制订中考虑的问题。

  第一个问题就是我们为什么要制订ODCC分布式块存储的技术要求和测试规范?

  分布式块存储产品的应用已经非常广泛,成为互联网和运营商的数据中心不可缺少的关键基础设施。一方面,这意味着越来越多的需求方会重复进行招标选型测试规范的制订,所以迫切要求行业有一份主流供应商都参与的全面的分布式块存储技术要求和测试标准;另一个方面,分布式块存储的有些测试用例如双活无法在招标测试短短几天里在实验室里测试出全面的结果,并且有些测试用例所需的硬件基础环境也不好临时在实验室搭建出来,在这种情况下我们希望通过ODCC测试专家组进行长时间的对比测试,测试结果可以被需求方作为依据;第三个方面是分布式存储对服务器有很高的要求,而ODCC有着业界最强的服务器及零部件专家组,可以对各种服务器、SSD、HDD、网络有最权威的测试评估,这些测试结果对需求方在硬件选型上有非常高的参考价值。总之,我们希望ODCC为分布式存储的普及做出自己的贡献。

  第二个考虑的问题就是规范的布局

  规范V1版本的布局,包括数据访问接口、存储池功能、逻辑卷功能、快照、业务和重构QoS、性能、卷同步、卷克隆、可靠性、磁盘与服务器管理、容灾、数据保护、云管平台集成、网管平台集成和典型业务场景等方面。这些方面我们制订测试规范的时候讨论的很多,考虑的比较细致,代表了我们测试组共同劳动的成果。

  V1版本尽管也提到了对数据库的支持,但主要还是面向虚拟化资源池场景,其中有些指标在具体的环境中还需要根据需求方要求进行调整,规范覆盖点还比较全面。目前V2版本没有出来,我们下面今天重点讲一下V2版本的改进计划。

  1)V1版测试时使用同一型号的服务器、SSD和HDD,在V2版本时会提出使用同容量不同品牌设备混合部署的需求,当然这里指的是纯软的产品,也就是说要人为造出数据中心中大型资源池同时存在不同批次采购设备的目标场景。这对分布式块存储产品是非常有挑战性的,因为硬件的差异肯定会造成一定的不平衡,能自动纠正这种不平衡的存储系统理应得到加分。

  2)V1版本对IO延迟要求不够全面,而在我们测试时发现虚拟化平台现在对存储的延迟非常敏感,过多的IO超时会导致踢盘,V2版本会对延迟有非常全面的测试要求

  3)V1版性能测试和可靠性测试是各自独立的测试,导致性能测试和可靠性测试的结果都比较好看,但真实的业务场景两者是互相影响的,V2版会提出性能的比较必须分正常场景和多盘同时故障、多节点同时失效等严重异常导致大量重构的场景,就是说不仅看故障时单个客户端IO中断的时间还要看全系统重载时的性能影响。

  4)V1版跟云管平台的对接只单独测接口是否有效、是否符合供应商说明,但并未直接说明使用云管平台去操作存储系统,V2版会直接用云管平台创建成百上千的不同IO压力类型的小磁盘虚机去模拟真实环境的复杂负载。

  5)V1版覆盖的主要是计算和存储分离场景的测试方案,V2版会涵盖超融合部署方案的测试方法。

  6)V1版默认使用的是SSD和HDD混合磁盘的服务器,V2版本会针对全闪服务器出测试用例。

  7)V1版没有考虑存储系统自主进行QoS的测试用例,这个用例可以防止资源池中因个别用户吃IO特别厉害而把存储系统的资源都耗尽,而影响到其它正常用户。有的供应商可能会说,我们支持对用户进行限速、限带宽,但问题是你要考虑到一线运维人员不知道设置多少合理而没有启用这个开关。

  V2版会新增一些重点的测试项:

  1)增加快速卷迁移,对于分布式块存储来说这个也是一个老生常谈的问题。我们一定考虑到不是分布式存储现在如何让人满意,而是其运行五年之后如何更新设备迁移数据。快速卷迁移功能是非常有必要的。现在的迁移方式每秒2GB就不错了,想把一个PB级资源池上的重点业务卷通过网络迁移到新资源池可以把最有耐心的人惹毛了。V2版会增加快速卷迁移功能的测试

  2)增加可应对逻辑卷误删的卷远程复制,从我们现在的使用看备份软件确实如他所说各种虚拟化、各种存储都支持,但是真用起来发现只能用管理网通过虚拟化平台去备份而不能由共享存储直接备份,而且备份的速度让人很不满意,那么分布式存储自己提供的卷远程复制功能就很有必要,尤其是可应对逻辑误删。

  3)缓存盘是会坏的或者到寿命需要更换,但现在很多SDS设计上缓存盘和硬盘是绑定关系,一旦更换缓存盘意味着那个服务器上所有硬盘的数据都丢了,重构时60T的数据量太耗时那么更换后可增量数据恢复是SDS非常有用的功能,V2版会增加要求。

  4)RoCE网卡是个好东西,我们计划在V2版本设计好测试用例。

  5)评估SDS双活功能的成熟度非常难,双活的测试用例本身可以单独成稿。如果ODCC在能提前测或者有测试环境的话,是非常能够契合解决需求方的需求。

  6)功耗测试,原来我们只对服务器而没有对存储系统做功耗测试,实际使用当中发现确实有些分布式存储对CPU的消耗是比较大的。客观上说,功耗并不是我们第一个优先考虑的问题,首先你的存储系统主要稳定可靠就可以,问题是如果大家都已经稳定可靠了,我们如何再去区别大家?可能对功耗还有一个测试

  7)还有IB网络下的高性能数据库测试。

  高品质存储硬件的测试非常重要,我们计划在V2版本更多考虑。分布式存储我们希望不挑服务器,什么服务器装上都可以用,也充分考虑硬件的故障率,可是问题是SDS处理硬件故障的数据冲平衡方法,我们其实是受不了的。实际上所有需求方采购的时候都期望服务器越稳定越好,如何评估存储型服务器的好坏?ODCC专家组V2版本可以对一些硬盘减震设计、SSD的磨损、温度报警做出贡献。

  我原来认为未来数据中心中最大的占地就是成百上千台我们的存储型服务器构成的分布式存储资源池,但ODCC大会上我看了三星、memblaz、intel的超强闪存后,再加上mellanox的SoC硬件方案以后,以后还真不好说,现在的分布式存储可能用上百台服务器能够达到的性能和容量,现在用三四台服务器就行了,看来必须紧跟ODCC的硬件潮流,把SDS软件放到最先进硬件平台上去测试测试。

  另外想跟郭亮总商量可否在ODCC做国产CPU服务器的测试规范。国产CPU服务器一个最大的问题是兼容性的问题。兼容性的问题又是非常难以测试的,各种各样虚拟化软件非常多,实际上我们确实希望能够在ODCC专家组里大家讨论出来制约兼容性的一些关键因素,这些关键因素只要测试通过,我们就不必要对那么多软件进行深入测试。NFV光网卡和虚拟化的兼容性测试就消耗了我们相当大的精力。

  最后,最理想的愿景是,通过ODCC最高成熟度等级认证的分布式块存储软件产品、硬件服务器产品、SSD、网卡等配件产品包括存储网络产品可以代表行业最成熟最先进的产品,ODCC可为需求方提供权威的测试环境和测试工具,可以为需求方的软硬件选型提供科学参考依据,最后可以为供应商提供产品优化方向。

  谢谢大家!

0