您现在的位置: 首页 > 营销资讯营销资讯
七牛云数据科学系列论坛嘉宾陈超:七牛云机器数据分析平台 Pandora 最佳实践
发布时间:2020-10-08作者:青鸾传媒来源:全网营销点击:
9 月 10 日晚,七牛云主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,七牛云产品与研发副总裁陈超为我们带来了主题为《七牛云机器数据分析平台 Pandora 最佳实践》的精彩演讲。以下是演讲实录。
嘉宾简介
陈超,七牛云产品与研发副总裁,负责七牛云的产品规划与研发体系,近年来专注于机器视觉、分布式计算与机器学习等领域,有非常丰富的分布式计算系统及大规模机器学习系统的设计与实现经验,在分布式数据库方面也有深入研究。
今天为大家带来的演讲主题是《七牛云机器数据分析平台 Pandora 最佳实践》,在介绍 Pandora 之前,我们可以先了解七牛云目前的整体架构。依下图所示,图中最下面一横是七牛云 cloud 的部分,包括直播云、实时音视频云、摄像头的监控云,其中所有的数据都汇聚到脱胎于对象存储的异构数据湖中。数据湖之上是视觉数据的分析平台以及机器数据分析平台。我们今天讲的 Pandora 就隶属于机器数据的分析平台。
什么是机器数据
我们对它有个简单的定义:机器数据是任何机器或者系统所产生的数据。比如说服务器产生的数据、传感器产生的数据、还有各种应用产生的数据,包括网络设备等等。机器数据的一个特点,它是由大量的时序的非结构化的数据组成的。对于我们处理定义的机器数据来讲,没有预先定义好的 schema,并且它的数据格式特别多,而且很难预测和定义,也就是说很难说预知是什么样的格式进来,或者说我预先定义好它的格式。
Pandora 的特点和采集流程
Pandora 定位作为一个机器数据的实时分析平台,它有哪些特点呢?
第一是 Pandora 原生支持 schema free 的数据。也就是说可以随时动态地添加删除字段,Pandora 更进一步地原生支持了 schema on read 的能力,所以产生的数据怎么样,进 Pandora 就是怎么样,不需要经过任何的这个加工。同时我们支持模型加速的功能。通过 SPL 分层持久化、列式存储、CodeGen、向量计算等技术对数据模型进行迭代优化。
第二个特点是云原生的架构,Pandora 的整个体系可以避免 ETL 加工带来的预处理建模困难,同时计算(动态资源)和存储(静态资源)分离,降低成本,提高计算弹性,另外完整的热-温-冷数据生命周期管理,可以大幅降低存储成本。
第三,是我们比较有特色的一个点:SPL 强大的分析表达能力。支持丰富机器学习命令,满足大量机器数据分析及 AI 场景;同时支持 SPL 实时计算,结果导出对接系统,完成业务闭环
第四点是我们有一个强大的系统扩展能力。也就是说你可以把 Pandora 看成一个 os,在其中可以利用 Pandora 的各种原生能力,去打造你自己的 APP 生态系统,SDK 支持对于平台的可视化系统、业务组织形式进行可插拔扩展。同时 Pandora 不仅可以支持 SQL,更能够通过 Python, Go+ 等扩展 SPL 计算能力;另外支持平台图表能力输出,能够集成到业务系统,完成数据价值输出。
下面是 Pandora 的全景图。从大数据分析的角度来看,先收集,然后处理、清洗,最后再分析和应用,是所有大数据厂商的通用做法。Pandora 在其中有一点是独特之处,就是 Pandora 支持原始数据格式的实时索引,也就是说除了分析之外,可以同时支持检索服务。整个检索和分析被统一到 SPL 的分析引擎里面,能够同时支持检索和分析服务。意味着用户不用在意是检索还是分析,可以一站式解决。
Pandora 的数据采集管理流程如下图所示,通过这样的流程,只要有数据产生,都可以有一个非常方便的方式来取得。
Schema On Road
在数据取得之后,就是 Pandora 的重头戏