58集团 x DorisDB：全面升级数据分析能力，满足多场景业务分析需求

时间：2021-05-25 17:46:53 来源：中国时代传媒网编辑：星辉 发表评论无障碍通道

58集团是中国互联网生活服务领域的领导者，旗下有国内最大的生活服务平台，覆盖各类业务场景，例如车业务、房产业务、本地服务、招聘业务、金融业务等等。

随着业务的高速发展，越来越多的分析需求涌现，例如：安全分析、商业智能分析、数仓报表等。这些场景的数据体量都较大，对数据分析平台提出了很高的要求。为了满足这些分析型业务的需求，DBA团队从2021年初就开始调研各类分析型数据库，其中包括DorisDB、TiFlash、ClickHouse等，评测他们的性能及功能。

总体评测下来，DorisDB表现全面，在单表/多表查询性能、物化视图及SQL支持等方面能力都契合集团业务需求。目前，我们已经落地了两套DorisDB集群，还有1-2套正在测试阶段，后续会进行进一步推广和落地更多应用。

一、评测信息

我们从两个方面来评测以上这些分析型数据库：一个是功能，一个是性能。每种数据库都有各自的特点。

1.功能方面

2.性能方面

2021年初，我们完整对比过3种数据库的性能，包括TiFlash(4.0.10)、ClickHouse(20.3.8.53)、DorisDB(1.11.0)单表及多表join的性能情况。TiDB5.0的TiFlash已经支持MPP，此处为4.0版本，无MPP。

测试使用业界流行的Star Schema Benchmark星型模型测试集。结论如下：

·单表/多表查询，DorisDB总体时间均最短。

·单表查询：DorisDB最快次数最多，ClickHouse次之。

·多表查询：DorisDB所有执行均最快。

关于TiDB/TiFlash

·TiDB/TiFlash总体时间单表/多表查询均最长。

·TiDB执行计划多数走TiKV，导致执行时间长，且数据量越多，执行时间越长。

·TiDB强制走TiFlash，单表多数提速多，多表多数变慢，但4.0.10版本的执行计划多数不走。

关于Clickhouse

·ClickHouse多表查询需要更改SQL，使类型一致才可以，且字段名、表名区分大小写。

·ClickHouse单机性能强悍，性价比较高。

·ClickHouse大单表查询方式效率好，多表关联效率降低明显。

关于DorisDB

·DorisDB单表和多表关联查询速度都非常快。

【单表查询结果】

【多表关联查询结果】

二、业务需求及应用

1.安全分析相关业务

每天，内部服务器上的各类操作和运行情况，是内部安全人员比较关心的。但是服务器上每天有大量的信息，如何能快速收集落地、统一实时分析，是这个数据分析场景面临的挑战。具体来说，安全分析业务需要应对以下情况：

·写入数据量大，每天大约几亿的数据需要落地;

·实时快速的分析支持，例如：最近15分钟，机器信息的情况是怎样的;

·需要定期进行数据清理;

·数据量不断累积，数据总量规模增长快。

综合评估后，我们选择了DorisDB来支持安全分析相关业务。在使用初期，我们使用了DorisDB的明细模型(即保留所有历史数据)，20天左右，数据行数总量就800亿+了，磁盘空间占用8T左右，由于明细数据量庞大导致查询性能也受到影响。

后与内部研发人员讨论，业务分析并不需要详细的历史明细，数据按照指定时间粒度进行聚合汇总即可。便将数据模型改成聚合模型，设置日期、小时和15分钟三个时间维度，指标数据按照这个级别的时间维度进行聚合，聚合后每天新增的数据在10亿左右，数据量降低了75%，查询性能也得到大幅提升。且采用kafka+routine load的方式在DorisDB中进行导入聚合，避免了引入冗余的组件，统一了技术栈。

2.DBA内部业务

MySQL中间件，我们使用的ProxySQL，ProxySQL支持展示SQL情况。但是操作较为繁琐，每次需要重置，才重新开始统计。如何分析指定时间的SQL情况，是困扰我们的另一问题。

每个ProxySQL有自己的全日志，我们可以分析全日志来获取需要的信息。第一个架构方案，我们想到了使用ES，ProxySQL全日志–>Filebeat采集–>Kafka–>Logstash–>ES。但是实际使用中，发现虽然可以查看流水，但是分析时就比较麻烦，不如写SQL的方便。

后来架构又改成了 ProxySQL全日志–>Filebeat采集–>Kafka–>DorisDB，这样就可以进行快速分析了。

另一个问题，因为线上的ProxySQL的日志量特别大，不能所有集群都开，我们设置了可以选择开启，这样有需要的集群才进行分析。降低存储的压力。

举例：分析某30分钟某集群的SQL执行情况，按照次数排序，查询很快。

除了上述两个场景之外，DorisDB还被用在了销售使用的报表系统等场景中，包含实时数据分析等业务场景，共50+张表，占用约100T存储空间，查询并发量100-500+。

三、系统运维

1.数据接入

DorisDB支持的数据导入方式很丰富，例如本地文件、HDFS、Kafka(支持csv、json格式)、外表、批量SQL等。数据接入时有以下需要注意的问题：

·HDFS导入需要提供Namenode的信息，有些不方便提供就支持不了。

·外表模式，创建外表后，可以使用insert into select的方式，循环导入到DorisDB的本地表，能比较方便的从MySQL、TiDB导入数据。

·日常最常用的是Kafka的Json格式的数据，需要开发提供：

··表字段、字段类型及模型(明细模型,聚合模型和更新模型)。

··Kafka信息：kafka_broker_list，kafka_topic，client.id等。

·Kafka的方式，DBA创建表及导入任务就可以导入数据了;日常需要注意的是：最好写个小工具，查看下Kafka的数据信息，然后指明字段，这样来保证成功率。

·查看导入任务：SHOW ROUTINE LOADG;关注Statistic，ErrorLogUrls。

2.集群架构

目前为单套集群，3个FE，3个BE，Broker按需建立，搭建1套监控(Prometheus+Grafana)，推荐使用kafka来接入数据。

3.运维及自动化

因为DorisDB标准版无管理组件，需要DBA自己实现：

·标准制定，例如：运维标准、开发接入标准等;

·自动化部署;

·自动化扩缩容;

·自动化升级;

·拓扑展示、登录;

·搭建开源监控;

·自己实现报警，例如存活报警、性能报警;

·相关运维报表，例如表大小、集群磁盘使用情况、流量情况、SQL情况等。

目前我们自己已经实现了部分运维规范的制定，例如集群端口、目录、拓扑架构等，并开发了拓扑工具：qdorisdb，可以查看所有集群、指定集群、登录、展示监控节点信息等。

后期我们会开发相关自动化管理工具，并整合至我们内部的CDB平台，开发相关报表、工单等，方便开发人员使用。

【查看指定集群拓扑】：

【查看所有集群】：

4.服务器

当前我们使用如下机器进行部署，后期会考虑将FE节点使用虚拟机部署。

四、发现的问题及注意事项

·如果想混合部署，需要提前计划好端口，集群间需要有一定间隔;

·DorisDB升级比较快，如果遇到bug可以咨询官方，及时升级避开;

·查询报错：2021-05-09 11:38:56-WARN

com.mysql.jdbc.PacketTooBigException:Packet for query is too large(1095400>1048576).You can change this value on the server by setting the max_allowed_packet’variable;

··处理：set global max_allowed_packet=102410248;

·账号授权跟MySQL不同，需要注意;

·标准版的周边较少，希望能不断丰富，让更多的人用起来;

·Json格式数据导入，字段没法复用，推荐官方添加上，例如：求最大最小时间，需要开发写入Kafka两个时间字段，无法复用一个;

·导入数据需要一定的调试经验，例如Kafka，可以自己写个工具，查看下Kafka里面的数据，再进行测试;

五、场景及定位

DorisDB是优秀的分析型数据库，可以满足多种数据分析场景的需求。但还有不少业务场景需要用其他数据库来服务，目前58DBA提供了多种数据库，方便业务方根据自身的场景进行选择。

总结

目前，我们已经落地了两套DorisDB集群，还有1-2套正在测试阶段，后续会进行进一步推广和落地更多应用。最后，十分感谢DorisDB鼎石科技团队专业的支持服务，希望我们能一起把DorisDB建设得更好。(作者：刘春雷负责58同城MySQL、TiDB数据库、DorisDB的运维工作，主要从事数据库自动化、平台化的建设)

12月16日，讯飞AI录音笔旗舰新品S8离线版重磅上市。该款产品为完全隔绝外界网络转文字AI录音设备，其所有功能均在本地实现，为对安全性有严格要求的用户群提供了新工具。数据泄露事件频发，信息保护需求凸显数字世界以网络连接为基础，以数据流动释放价值。在数字化浪潮

核心亮点：解锁电竞未来： ROG将于CES 2025 ROG新品发布会推出多项创新技术，彰显电竞实力超强产品阵容：探索为顶级性能释放和极致使用体验而打造的全新ROG新品笔记本终极性能：全新ROG枪神系列、ROG魔霸系列、ROG幻Air系列及幻X笔记本登场，为极致性能、便携性及潮流设

近日，以“科技赋能家电产业转型升级”为主题的2024中国家电科技年会在湖北武汉召开，海信空调受邀参加“家电噪声技术专题研讨会”，并作主题汇报。同时，“第三届全国轻工适老创新产品及智能健康解决方案大赛”结果隆重揭晓，海信空调以柔风、送风、智能等显著优势一举

时至十二月，又是一年终末。伴随着12.12的来临，厂商们纷纷开启了新一轮的促销优惠。作为年末备受期待的好物节，声势浩大的促销无疑是大家挑选心仪好物的好机会。如果你想在近期为自己选购一款智能手表来激励运动监测健康，不妨尝试一下最新的三星Galaxy Watch7和三星Ga

2024年进入尾声，国补政策即将在12月31日结束，还尚未使用笔记本国补资格的消费者朋友们不妨关注高颜值游戏本华硕天选5Pro锐龙版，其搭载GeForce RTX 4070笔记本电脑GPU，NVIDIA GeForce RTX™ 和 NVIDIA RTX™ GPU 专为 AI 时代打造。RTX GPU 由业界领先的 NVIDIA GPU

《使命召唤：黑色行动6》是由Treyarch和Raven Software联合开发，并由动视发行的第一人称射击游戏，于2024年10月25日正式发布。游戏上线Steam后，获得了广大玩家的好评。动视官方也宣称，《使命召唤：黑色行动6》成为《使命召唤》系列中首发最成功的作。在游戏正式发布

由GSC Game World开发并发行的《潜行者2:切尔诺贝利之心》已在STEAM正式上线,这是一款探索冒险题材的第一人称射击游戏。游戏以2006年第二次核反应堆爆炸事件为背景,玩家将化身为一名“潜行者”,面对一场史诗级的危险战斗。游戏首发即支持NVIDIA DLSS 3技术,搭载耕升 GeF

ROG游戏手机9系列自上市以来，赢得了不少信仰玩家的喜爱与支持，其凭借着出色的性能释放、独一档的185Hz屏幕刷新率，成为了手游爱好者们绝佳的上分利器。全新的矩阵式液冷散热架构9.0此次更是获得了酷冷风扇X Pro、ROG冰川液冷壳等全新配件的加持，使ROG 9系列获得了更

自12月2日掠夺者电竞大赛2025中国区挑战赛招募贴发布以来，受到了来自全国范围内游戏玩家及无畏契约战队的广泛关注，在不到一周的时间内，百余支战队积极报名。本届掠夺者电竞大赛不仅秉持公平公正的赛事精神，更是在战队筛选中推出了平等化社交媒体化的全新规则，在#宏

近日,2024年得力数码打印新品推介会在湖南长沙隆重举行。新品推介会以“善印起航,智绘新篇”为主题,得力集团副总裁张磊、设备事业部行业部总监薛峰、数码打印产品部总监丁启等众多公司领导共同出席活动,与专业渠道客户、行业渠道客户、B2B平台总部负责人等近百位经销商

在2024年12月6日至7日于北京举行的 “2024 T-EDGE全球创新大会”上，众多科技界精英齐聚一堂。大会期间，备受瞩目的「2024 EDGE AWARDS 全球创新评选」揭晓了年度各大奖项，其中，北京智爱未来科技有限公司旗下的AISON爱畅新一代便携式智能K歌音箱凭借“搭载了优质的扬

随着双12脚步的日益临近，2024年最后一场盛大的的购物狂欢节即将拉开帷幕。在这个专属于消费者的节日里，各大手机厂商也为消费者带来了诸多福利政策，给想要手机换新的朋友带来更多选择。作为潮流科技单品的代表，三星Galaxy Z Flip6集时尚设计、实用外屏、出众影像和尖

近年来，随着科技的迅猛发展和人们生活方式的变化，可穿戴设备的市场呈现出蓬勃发展的趋势。近日，国货品牌西普尼重磅发布首款搭载华为智能机芯的珠宝级智能女表，打破传统智能腕表的设计边界，为年末智能穿戴设备市场带来一场视觉与科技的双重盛宴。在外观设计上，它采

作为全球范围内显示技术的一个极其重要的分支，量子点这项在2023年获得诺贝尔奖的尖端技术，近年来引起了越来越多包括TCL、三星、索尼等在内的电视龙头企业关注，其中作为全球量子点显示技术先行者的TCL，近期在该领域再次取得了新突破，推出了量子点Pro 2025技术，并且

冷冬渐至，北风低吟，随着寒潮席卷国内多地，冬季也正式拉开序幕。骤然变冷的天气不仅容易诱发感冒等季节性疾病，同时也打乱了不少朋友们的生活节奏与运动规律。而如果想要在冬季追求健康生活，一款能够监测运动与身体健康情况的三星Galaxy Watch智能手表就成了非常不错

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.