七牛云陈超：七牛云机器数据分析平台 Pandora的最佳实践

时间：2020-09-17 16:39:46 来源：互联网编辑：星辉 发表评论无障碍通道

9 月 10 日晚,七牛云(www.qiniu.com)主办的「云加数据,智驱未来」数据科学系列论坛如期举行。在直播中,七牛云产品与研发副总裁陈超为我们带来了主题为《七牛云机器数据分析平台 Pandora 最佳实践》的精彩演讲。以下是演讲实录。

陈超,七牛云产品与研发副总裁,负责七牛云(www.qiniu.com)的产品规划与研发体系,近年来专注于机器视觉、分布式计算与机器学习等领域,有非常丰富的分布式计算系统及大规模机器学习系统的设计与实现经验,在分布式数据库方面也有深入研究。

今天为大家带来的演讲主题是《七牛云机器数据分析平台 Pandora 最佳实践》,在介绍 Pandora 之前,我们可以先了解七牛云目前的整体架构。依下图所示,图中最下面一横是七牛云 cloud 的部分,包括直播云、实时音视频云、摄像头的监控云,其中所有的数据都汇聚到脱胎于对象存储的异构数据湖中。数据湖之上是视觉数据的分析平台以及机器数据分析平台。我们今天讲的 Pandora 就隶属于机器数据的分析平台。

Pandora 在七牛云整个版图里,属于机器数据智能的这个模块。机器数据包含几个部分,像是 Iot 的数据、各种设备的数据都可以成为机器数据。

什么是机器数据

我们对它有个简单的定义:机器数据是任何机器或者系统所产生的数据。比如说服务器产生的数据、传感器产生的数据、还有各种应用产生的数据,包括网络设备等等。机器数据的一个特点,它是由大量的时序的非结构化的数据组成的。对于我们处理定义的机器数据来讲,没有预先定义好的 schema,并且它的数据格式特别多,而且很难预测和定义,也就是说很难说预知是什么样的格式进来,或者说我预先定义好它的格式。

Pandora 的特点和采集流程

Pandora 定位作为一个机器数据的实时分析平台,它有哪些特点呢?第一是 Pandora 原生支持 schema free 的数据。也就是说可以随时动态地添加删除字段,Pandora 更进一步地原生支持了 schema on read 的能力,所以产生的数据怎么样,进 Pandora 就是怎么样,不需要经过任何的这个加工。同时我们支持模型加速的功能。通过SPL分层持久化、列式存储、CodeGen、向量计算等技术对数据模型进行迭代优化。第二个特点是云原生的架构,Pandora 的整个体系可以避免ETL加工带来的预处理建模困难,同时计算(动态资源)和存储(静态资源)分离,降低成本,提高计算弹性,另外完整的热-温-冷数据生命周期管理,可以大幅降低存储成本。第三,是我们比较有特色的一个点:SPL 强大的分析表达能力。支持丰富机器学习命令,满足大量机器数据分析及 AI 场景;同时支持 SPL 实时计算,结果导出对接系统,完成业务闭环第四点是我们有一个强大的系统扩展能力。也就是说你可以把 Pandora 看成一个 os,在其中可以利用 Pandora 的各种原生能力,去打造你自己的 APP 生态系统,SDK 支持对于平台的可视化系统、业务组织形式进行可插拔扩展。同时 Pandora 不仅可以支持 SQL,更能够通过 Python, Go+ 等扩展 SPL 计算能力;另外支持平台图表能力输出,能够集成到业务系统,完成数据价值输出。

下面是 Pandora 的全景图。从大数据分析的角度来看,先收集,然后处理、清洗,最后再分析和应用,是所有大数据厂商的通用做法。Pandora 在其中有一点是独特之处,就是 Pandora 支持原始数据格式的实时索引,也就是说除了分析之外,可以同时支持检索服务。整个检索和分析被统一到 SPL 的分析引擎里面,能够同时支持检索和分析服务。意味着用户不用在意是检索还是分析,可以一站式解决。

Pandora 的数据采集管理流程如下图所示,通过这样的流程,只要有数据产生,都可以有一个非常方便的方式来取得。

SchemaOnRoad

在数据取得之后,就是 Pandora 的重头戏——Schema On Read。我们可以从这张图上可以看到 Pandora 的不同之处。Pandora 可以在原始数据直接上传后,在分析时进行动态解析。也就说只需要一份原始数据,我们多种数据模型就能解答不同用户的所有问题。这样的优势在于你可以针对各种数据进行各种建模。针对变化的数据格式,只要在 Pandora 里做一些小小的变化便可完全兼容。这是纯粹的日志系统做不到的。

SPL:机器分析数据的标准语言

SQL是我们机器数据分析的标准语言。通过一行的 SQL 的命令,便可以检索,分析,可视化告警。支持对原始数据进行直接处理,并且专为时序数据做了优化,大家可以看到我们之前对机器数据定义的时候,包括大量的时序可以结构化数据,所以给了我们很大的优化空间。另外我们在数据湖里做了多存储引擎,并且可以接各种各样的存储引擎。最后我们写了一个公式 SPL = SQL + Unix Pipeline,也就是说通过 SPL 我们可以做搜索,我们甚至可以写解析的条件,但是又不用像写代码麻烦。

通过提供机器数据分析高级语言,支持复杂的搜索、聚合以及关联分析的能力,处理能力更加强大。支持各种数学运算、关联分析、事务分析、预测分析等。在事务分析中,可以分析连续相互关联的事件集合,这也是 Pandora 特别适合安全场景的原因。

目前我们把 SPL 的能力也集成到了 platform 里,用户可以非常简单地去做数据接入,特征激活、算法的建模、效果展示、价值应用等,都可以在其中完成。

Pandora 扩展应用

有了 SPL 能力以后,Pandora 支持用户在上面沉淀自己的知识。所以我们的理念是,Pandora 不是一个 platform,我们更希望它在传递价值。也就是说希望以 app 的形式,能将知识沉淀在 Pandora 的 App Store 里。Pandora 的 App Store 作为完整产品架构不可获取的一部分,形成了从数据接入到数据展示的完整链路。

存储架构:数据全生命周期管理

面对数据量较大的,并且强调实时处理的情况,我们在 Pandora 的存储架构中,构建数据的全生命周期管理。在成本和性能的双重考虑下,我们在连贯的过程中,实现计算与存储的完全解耦,资源应需而变;数据可实现历史数据长期存储,积累的海量历史数据可以支持未来的机器学习、AIOps 等场景。

同时 Pandora 也在努力与七牛云的存储进行对接,使大家在直接对七牛云云存储进行分析时,也能享受到尽可能高的性能。

技术点分享

我们做了正向索引与倒排索引以及行列混合存储,也支持分层的存储和 On Read、CodeGen、向量化。TimeSeries 的优化可以反映到计算引擎中,让用户体验到更快的性能和更稳定的服务。

Pandora 案例

01 某大型保险公司

主要用于对信息系统整体日志进行全生命周期智能管理,实现对日志的统一采集,合并处理,集中存储,关联分析与智能管理。适用于解决运维开发领域的三大场景:IT 运维,安全审计,业务运营分析;可提供包括线上监控、运维数据支撑、问题诊断、故障预警,资源监测、用户行为审计、规则提取、归档、攻击溯源、业务走势分析等服务。

02 某顶尖手机制造企业

第二个案例是某顶尖手机制造企业监控诊断和根因分析。手机在出厂前都要有一个测试的过程,但每次测试的时会产生很多很多的测试的数据,来反映手机的故障情况。在没有制造系统知识的时候,需要员工要去看,非常复杂。在 Pandora 的赋能下,手机的制造厂商可以远程监控我们的这个车间的生产质量,并且很快地定位到故障原因。

03 某领军半导体企业

下面是半导体的企业案例,半导体的产业链非常长,在源头是一个叫做单晶炉的设备,用来提炼单晶硅。Pandora 可以帮助单晶硅做健康度的检查,也就说我们可以及时发现单晶炉的故障,在故障发生时及时报警,避免原材料无谓的投入,及时止损。从图中我们可以看出,Pandora 通过多个维度做分析,通过单晶炉里面的传感器收集数据,对设备进行生产监控和预测性维护。

04 智能网联车分析

最后一个案例是智能网联车,Pandora 可以判断车子的数据,比如什么时候打了方向盘,什么时候踩了刹车等等,在 Pandora 里都可以一目了然。

大家可以通过以上几个案例看出,Pandora 所针对的数据,都是由机器产生的、非常不规则的、带有 time stamp 的数据。所以我们在金融、制造业、车联网等等都有比较有意思的应用。Pandora 也希望通过大数据、AI 手段,为更多相关产业赋能,实现产业升级。

10月30日，备受瞩目的iQOO最新旗舰机——被誉为“性能之光”的iQOO 13在深圳震撼发布。该款机型由BOE(京东方)独供6.82英寸超旗舰2K LTPO直屏，行业首发搭载全新一代Q10发光器件，在画面表现、护眼舒适度及性能功耗方面均达到行业领先水准，并以“直屏超窄边”的设计为用

在当前市场上，千元级别的投影仪中，当贝Smart1和小明Q5 Pro无疑是两款备受瞩目的产品。它们各自凭借独特的特点和优势，赢得了用户的认可，今天就来说说这两款哪个是千元投影仪最好的?将从显示技术、系统性能、智能功能以及设计便携性四个方面，对这两款投影仪进行详细

双十一购物狂欢节持续进行中，各大电商平台与厂家，纷纷推出了超值优惠吸引消费者。与此同时，为了解锁PC的出色性能，DIY装备也成为了玩家们重点关注的对象。对此，小编带来了全新“ROG三神套装”：ROG RYUJIN龙神3代360 ARGB水冷散热器、ROG THOR雷神3代氮化镓1600W电

近日，法国巴黎的Pathé Palace影院顺利安装了六套三星Onyx LED电影屏，连同影院大厅内安装的8K显示屏“The Wall”以及遍布影厅周边的智能标牌共同构成了一个全面提升的观影环境，旨在为观众带来更加沉浸与便捷的观影体验。经过长达五年的全面翻新，Pathé Palace 影院

近来传的沸沸扬扬的“Hi MateBook”笔记本终于水落石出，WIKO官方正式认领该产品，并官宣该系列笔记本电脑定于10月31日正式发布，届时将推出Hi MateBook 14 和Hi MateBook D 16两款新品。作为入局笔记本电脑赛道的首秀，官方大秀了一把同微软的亲密关系，同时揭晓了两款

2024年10月,鲸语品牌首款开放式真无线耳机——鲸语Loki 正式上市!鲸语以创新性地“配饰化”形态,专为潮流人群和音乐数码爱好者开辟开放式耳机的全新风格领域,以叛逆玩家的姿态,打造出街的潮音单品。鲸语Loki售价159元,上市期间限时优惠仅需129元。各大电商平台鲸语旗舰

鉴于ROG键盘改装赛2.0受到热烈反响，ROG决定将此赛事的报名期限延长，新的报名时间为10月25日至12月15日(其中，12月15日为决赛日，而最终结果的公示则定于12月25日)。本次延长赛程为玩家提供了丰厚的奖励，除了一系列诱人的ROG产品外，还准备了ROG键盘礼包，内含夜魔专

八位堂64手柄，为Analogue 3D精心打造，拥有霍尔摇杆并且采用人体工学设计，外观上重现任天堂N64手柄经典元素。八位堂与Analogue携手为玩家们带来无与伦比的游戏体验，重返游戏的黄金年代。八位堂64手柄，在2024.10.21预售开启当天，引爆外网，突破八位堂预售首发历史记

从“无线通信公司”转型为面向新一代AI处理时代的“连接计算公司”，在过去很长一段时间以来，都是高通标榜自身的主基调，而今年在夏威夷茂宜岛如期举行的骁龙峰会，话题正是从这一基调展开。连接与计算，是通信技术与智能技术的代称，新一代AI技术席卷之下，一切用户体

京东11.11福利再次加码，为耳机音箱产品爱好者们带来了一场品牌爆款五折抢购活动，10月24日晚8点，多款热门耳机音箱产品将以真五折的价格震撼上线。对于广大游戏爱好者来说，一款优质的游戏耳机无疑是提升游戏体验的重要装备。ROG棱镜精英版游戏耳机，作为ROG系列的明星

宛如岁末星河初绽，11.11如期而至。身处这场专为甄选精品而设的璀璨盛典，众多广受赞誉的臻品如星辰竞相闪耀，为每个追求品质生活与卓越人生的用户带来入手心仪好物的良机。例如代表着现代智能化科技生活的三星商城，就在其「超级星动为AI狂欢」活动中，为三星Galaxy T

莲偶科技最新发布的夜视AR眼镜莲光Visual- N，作为全球首款星光夜视AR眼镜，以其独特的差异化定位赢得了广泛关注。这款眼镜不仅搭载了先进的8片特制玻璃透镜光学模组，实现了66°的超大视场角(FOV)，在底照度低至0.01lux的环境下依然能清晰呈现，识别距离更是覆盖从最近

松下更新的 LUMIX S5D是一款混合型全画幅无反相机，在视频和照片方面都有出色的表现，非常适合专业摄像师和日常摄影使用。我们在原先LUMIX S5 紧凑型设计的基础上，配备了大疆 LiDAR 自动对焦功能*。如今的LUMIX S5D 与大疆 LiDAR 测距模块及大疆 RS3 Pro 云台配对使用

随着无人机的广泛普及，它们正逐渐融入智慧城市的各个领域，悄然改变着城市的建设与监测方式。相较于传统人力高空作业的高风险与低效，无人机以其独特的优势，不仅规避了人工操作的潜在危险，还降低了城市更新过程中如路网规划、自动化巡逻及风力发电机维护等关键任务的

在如今的用户购机需求中，性能是很多用户的第一需求，毕竟大家都经历过买的手机用了没多久就卡顿、不流畅的情况。原因有很多，很多的原因是你买的手机是入门款而不是旗舰手机，所以购机尽量买旗舰款，功能和配置都是top级别的。就比如刚刚发布没多久的vivo X200，不仅搭

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.