>>返回主页
中科驭数(北京)科技有限公司首席技术官卢文岩:中科驭数实时金融交易风控系统

2019-11-01 16:40

路.jpg

各位领导、各位同仁:

大家下午好!我是来自中科驭数(北京)科技有限公司的卢文岩,首先感谢主办方能给我这样一个机会给大家做一个技术的分享和交流。

我今天分享的报告和前面几位老总分享的差异性比较大一点,前面几位老总大多是关注上层,通过模型的改进、算法的优化来提升数据治理的效果,而中科驭数更多是关注在运算架构底层,通过改变运算架构提升算力,进而提升数据治理的效果。中科驭数是在数据治理领域的一个新人,希望今天通过我们新人的分享,能和大家碰撞出不一样的火花来。

中科驭数是脱胎于中科院计算所国家重点实验室的一家硬科技公司,计算所被誉为中国计算机事业的摇篮。国家重点实验室是我国目前为止唯一一家聚焦在芯片计算架构研究的一个国家级重点实验室,而中科驭数团队从2005年开始陆续承担多个重大国家科研课题,包括2005年03项目,采用新结构、新方法来延长摩尔定律的研究,2010年973课题,我们承担高通量计算机研究,去年我们承担了软件定义计算机体系结构的研究,正是有了这么多年的积累,我们在去年4月份成立了中科驭数公司。

中科驭数成立初衷是要解决行业的什么问题?

随着IOT、物联网、5G等技术的发展,日常生活中产生的数据量呈爆发式增长。从2015年开始,大概每两年日常产生的数据就会翻一倍,反过来看一下处理器整个计算性能的增长大概每年增长率不到3.5%,这其中就产生了一个巨大的剪刀差,导致仅有10%的数据是可以被处理的,超过90%的数据无法被处理的,处于荒废状态,我们把这个现象称为“数据的荒野时代”。造成数据被荒废的主要原因是处理器处理性能不足,无法处理这么大量的数据。

中科驭数初衷是根据不同应用领域的特点去定制专用的计算架构来解决数据处理的难题,我们着手和落地的第一个领域就是在金融科技领域。

例如,大家对汽车发动机都比较熟悉,当我们去买汽车时,可能都会选带有涡轮增压配置的汽车。当我们发动机动力不足时,可以通过增加涡轮的方式来提升动力。同理,在计算机领域,当CPU在某一个应用领域计算性能不足时,也可以通过一个专用的芯片提升一下它的处理性能,这个专用的芯片就是我们中科驭数所提的KPU架构的芯片。

KPU是什么样的架构? 

我们把KPU叫做盒处理器,K是指功能盒,会将不同应用领域抽象出一个硬件层、专用的功能盒,功能和专门为某个特定计算模式服务,所以计算性能非常高。计算领域当中有这么多计算模式,能处理过来吗?KPU可以计算几十甚至上千个这样功能盒的,完全可以覆盖整个应用领域所有计算模式。那算法、模型会不断演化、不断迭代,这在KPU设计之初就考虑到的,每一个功能盒都可以进行配置,功能盒之间可以进行不同的组合,通过不同的互联,数据的传输,能够满足算法的迭代和更新趋势的。

中科驭数还有一整套系统的设计方法学来做支撑,我们叫做“软件定义加速器设计方法”,这是在网上公开的,大家感兴趣可以了解一下。

第一代KPU,专门针对于金融领域时间序列处理设计的一款处理器。今年7月份已经完成了流片,在数据库查询应用场景下做了评估,现在基于CPU的方案,其性能达到近百倍的提升效果非常明显。

中科驭数有三个系列KPU。

如果让我们搭建一个数据处理的平台,会考虑几个要素:

要素1,数据传输。随着传感器、5G等技术发展,数据采集肯定不是问题了,但是数据传输现在还是一个比较大的问题,无论是在云端还是偏云端,还是金融整个技术体系都是基于分布式方式去组织物理机,而每个物理机之间都是通过光纤进行互联。光纤带宽非常大,可以达到上百G的带宽,但是光纤在接入物理机时是需要对网络数据进行解包和打包操作,而这个操作是非常耗时的。我们做过一个实验,一台至强处理器的处理性能仅能处理几个G的网络数据打包、解包工作,更别提其他的运算处理,所以这块是一个巨大的瓶颈。

 要素2,数据存储。随着数据量增大,数据查询非常慢。

要素3,数据处理。 

KPU-Swift,可以完全卸载一些网络协议,也可以卸载部分应用层协议。单块KPU-Swift板卡可以超过百G带宽,并且还能做一些其它的运算。

KPU-Conflux,在数据库查询里数据过滤和数据融合操作,其性能非常好。

KPU-FlexFlow,无论是在数据治理还是制定一些策略,都是离不开人工智能的一些算法。

基于我们KPU这三个系列,现在可以搭建一个非常强悍的数据处理平台,三个系列的KPU也可以作为独立的产品去提供给我们的客户,可以通过KPU-Swift产品卸载你的网络这一块,也可以通过KPU-Conflux提升数据库的性能。

中科驭数实时风控方案RiskCop 

随着监管力度不断加强,风控的规则会越来越多,风控的计算复杂度也会越来越高,所以数据处理方面是一个很大的瓶颈。在交易过程中,所有的数据都是通过网络接入的,所以网络接入这一块也是一个很大的瓶颈。我们要做风控,就要知道每个帐户的信息,要存一些标的的信息,这些数据的存取也是一个很大的瓶颈,所以我们选择这个案例来跟大家展示。

整个系统分两大部分,上部分是软件部分,主要是给用户提供一个灵活的接口,主要交互两类数据,风控的规则需要配置这个系统,让系统进行规则运算。底层是中科驭数KPU结构。KPU-Conflux架构,可以高效处理各种风控规则,KPU-Conflux集成了几十个处理核心,可以将多条风控规则并行处理,所以性能非常高。

总结,这个系统大概有三个特点:

1、高性能。因为整个链路都是基于KPU做了一个定制化的设计。

2、灵活性。有一个非常完备的软件接口,同时还有各种各样的扩展方式。

3、稳定性。在金融里,稳定性是至关重要的,整个团队在过去十几年做了很多芯片级的容错设计,所以我们整个系统是非常稳定的。

接下来从用户使用我们系统的角度详细介绍。

第一,系统如何使用?大家之前听过或用过DSP这样的器件,光学习怎么用就需要花费几个月的时间,更别说实现我的业务了。所以在我们产品设计之初就考虑到了这一点,把所有繁琐的工作都由我们工具链去做,留给客户的是一个非常简洁、非常易用的接口。

如图,左侧是实际当中一些风控的规则,右侧是配置RiskCop的方式,几乎是直译的过程,左侧是什么样,右侧直接写过来就可以,目标是争取让每一条语句都贡献到实际业务当中来。我们系统可以达到最快半个小时将你的业务部署好、表达好。

第二,随着监管不断变化,风控规则也会不断改进,可扩展性对用户来说也是至关重要的。为此我们提供两种扩展方式,一是软件的扩展方式,这种扩展方式是运算种类没有发生变化的话,可以调整我们的运算组合,可以完成业务稳定性。有新的规则出现,有新的运算模式出现,可以通过硬件的方式来补充运算模式,从而达到业务扩展。这些对用户来说都是透明的,我们提供给用户的接口是不变的。

第三,定制化开发需求。比如对不同客户的风控规则不一样,我们提供一个定制化接口,用户可以完全定制化对每个客户风控的规则和信息。

性能评估,从机构用户出来,经过RiskCop系统,再到交易所,整个链路延时做了一个评估,达到业界顶级的性能,整个链路延时大概在1.4us左右,抖动20ns以内,主要得益于整个链路定制一种硬件方案。这对大家来说没有太多感觉,但对我们客户来说是非常重要的,这么低延时、低抖动,意味着报单成交率大大提升,意味着可以赚更多钱。直观来说可以节约很多成本,原来几十台服务器完成的业务,现在用一套设备、一套办法就能达到同样的效果。

我们系统具有三个特点:

1.高性能。系统都是基于KPU系列去做定制化的,性能非常高。

2.易用性。除了KPU芯片之外,有KOS、KLIB等完备的软件栈。

3.可扩展。软件到硬件全定制服务。

除此以外还有行情、交易数据库,大概都是这样的一个特点,都是非常高性能、非常易用、有非常高的可扩展性。

驭数印象:

我们公司始终以行业应用为对象,定制计算芯片,将通用服务器作为载体,将KPU做成标准化组件,为用户提供透明、Turn-key的加速解决方案,线性成本获得指数的处理性能。

理想无论是大的机构用户还是小的终端用户,都能通过我们中科驭数的KPU方案为您提供专用的定制化的运算架构,使您的模型算法性能发挥到极致。

希望打造以加速器为中心的计算范式,助力数据智能时代的业务创新。

更多的信息可以关注我们公司,谢谢大家!

0