>>返回主页
北京迅达云成大数据研发总监 郝宏达:挖掘数据背后的价值-迅达云大数据解决方案

2018-01-17 14:50

  大家好,我叫郝宏达,来自迅达云,现在做一些大数据相关的工作,很高兴也很荣幸可以参加大会,和大家分享一下关于我们迅达云大数据挖掘数据背后价值。今天的分享我会从这四个方面跟大家做分享。第一,对公司进行简要的介绍。第二,介绍一下我们的大数据方案和我们的大数据架构。第三,我会做一下我们实际客户案例分享。第四,我们可以帮金融领域的客户做什么。

  我们公司成立于2012年12月31日。公司两百多人,其中50%以上是工程师。600个云分发节点和13个海外节点,可以满足全球客户业务覆盖的需求。我们有14个软件著作权,还有3个软件专利。

  在2017年6月5号,我们获得中科院一亿元B轮融资,也是为了响应一带一路的号召,我们提供了相关的技术支持。

  我介绍一下大数据方案和大数据架构,一个好的大数据平台有很多指标评价它,其中几个比较关键的指标,比如大数据平台的可拓展性。我们应对一个业务场景,我们构建的大数据平台可能并不够满足十年后我们业务的发展,公司的拓展业务计算能力和存储能力,我们平台要应对不同的业务场景,还要关注大数据平台的稳定性和安全性、可运维性。

  这是迅达云大数据平台,我们可以接入多种数据源,我们也会融合优秀的开源技术,比如Hadoop等主流的开源技术,在我们平台都是同样支持接受的。

  我来讲一下数据安全可靠,我们的大数据集群状态在发展以后可能会达到成千上万台,不可能用每一台机器让单人维护。因为成本太高了,我们支持秒级感知集群状态。发现有一些节点出现问题的时候,我们可以及时拉起节点或者及时踢出节点,不会影响线上业务的进行。我们会将数据分析结果以特别漂亮的可视化方式展现出来。

  这个是大数据架构图,数据走向流程分为七层。我从最下面介绍,第一层是数据源,我们支持一些存在数据库中的结构化数据,我们所有的数据都可以接到同一个平台做运算。我们有接入方式,应对不同的场景和要求,可以支持实时全量接入或者非实时的接入。数据接入进来以后,到了存储方面。现在在大数据时代,单机存储已经不能满足现在的业务需要了,所以我们想用的是分布式文件系统,也就是HDMS,还有分布式数据库来存结构化的数据。数据存储下来以后要有一个统一的调度层,也就是资源管理统一调度层,通过统一的调度平台,让我们的集群每一个运算能力保持较高或者较优的状态,不会出现数据倾斜或者某一台机器性能达到百分之百,另一台才10%的情况。调度以后,我们会到达数据拉取计算,我们可以支持流式计算和交付使计算等等。我们不要求实时出结果,可以用离线计算。上一层是数据加工,这一层我们可以帮助一些人利用大数据平台的计算性能,再往上是将我们所有的数据分析结果可视化展示出来。一个大数据平台有很多节点,它的维护是一个很重要的点,所以我们有一个平台的运维监控和作业调度以及原数据统一管理。

  接下来给大家介绍一下我们实际的客户案例。有一个运营商级的客户找到我们,他们向我们提到,网内有很多日志、流量,现在想知道我们是手机用户多一些,还是固网用户多一些?我们的固网用户里是以家庭形式用户多一些?还是公司用户多一些?对于我们的一些用户是喜欢上网站还是喜欢看视频听音乐?不同的市之间哪个支的流量比较多?他们很关心这些。我们帮助他们从这几个维度做了数据分析。首先,分析每天的出网流量,分析一下本省的各个地区流量,最后分析一下DNS解析的域名数量情况。

  可以看上面两个图,清晰的发现固网用户远多于移动用户。固网用户中家庭用户要比集团用户多,说明在固网中家庭用户又是占绝大多数比重的。我们再看右下角的图,A式流量远多于其他的流量,可以帮助运营商做一个事情。当我发现增长率还有整体占比非常大的时候,我可以在明年或者之后的一些计划中做投资或者做提前的IDC机房拓展计划,帮助他维护业务,提高服务质量。

  同时,我们帮助运营商做了一些业务层创新。首先,如果我们作为一个运营商,我很关心网络的节点情况。我们不希望出现一个节点有问题立刻影响线上业务。我们及时发现业务节点出现了什么问题,感知到节点,拉起节点,或者如果节点有问题及时踢出,拉新的节点进来,保持线上业务稳定。

  第二点,我们帮他们做的是流量的分布分析,这个是我刚才提到的,我们知道省份中哪一个市的流量增长非常大,哪一个市所占的比重非常大,这个市我们对它投入的资源就要非常多,增长速度跟投资量有正向关系。

  运营商之间结算费用非常高昂,如果我的用户像访问微博一样,每次都要让我的运营商从外网拉一些数据过来给他,我的运营成本就非常高。运营商发现这个问题以后可以提前跟内容提供商,比如微博,我们跟他提前沟通商量,把他们的内容放到我们自己的IDC机房里,第一方面可以给用户提供更好的服务质量,第二也可以节约成本,达到开源节流的效果。

  最后,我们是从海量日志分析中提取用户特征和行为数据,给用户行为做画像。举例子,比如说一个用户上网多一些还是看视频多一些,如果看视频特别多,他的流量使用量非常大,那么我们是不是可以对他的流量使用量推送一个像我们手机接收的大的流量包,可以帮助他节约话费,也可以帮助运营商提供业务层面的拓展,也是符合用户需求的。

  接下来,我们可以帮助金融领域用户做什么。我们迅达云积淀了很长时间,首先我们可以提供数据深度定制,迅达云是12年成立的,到现在五年时间,也积累了自己非常多的大数据专家。同时,在2017年1月份,我们也跟北京邮电大学成立了联合实验室,在北京邮电大学有很多大数据方面的专家,我们两方可以互相合作,帮助金融领域客户做数据方面深度定制。

  我们有融合的云平台,我们把云计算五年经验很快的用到大数据平台上,而且云计算平台和大数据平台融合起来,对金融领域新兴公司可以不需要前期把太多成本投到机器上,可以很快的把资金流放到业务层,机器上我们可以帮助他们降低实施成本和部署成本,给他提供一站式的大数据服务体验。

  最后,建立专为金融领域提供算法和服务的金融大数据平台,同时也是希望可以通过平台给各位金融领域的客户提供一些人工智能相关的服务。

0