中国邮政邮科院 X DorisDB：统一OLAP平台，大幅降低运维成本

时间：2021-08-19 11:48:59 来源：互联网编辑：星辉 发表评论无障碍通道

邮政科学研究规划院有限公司(以下简称“邮科院”)，作为中国邮政集团有限公司的科研智库单位，专注于战略规划、企业管理、工程设计、物流装备、智能终端、质量检测、标准化研究等领域，在助力中国邮政战略转型和经营发展中发挥着重要支撑作用。

邮科院数据组负责全院大数据体系架构的建设，支撑日常BI运营分析、科研数据产品、物流数据、网点画像等业务场景。邮科院数据组通过使用DorisDB，统一了实时和离线的分析场景，替换了ClickHouse、Presto、MySQL等系统，解决了原有多套系统带来的运维和使用复杂性，简化了数据ETL流程，同时大幅提升OLAP、Adhoc等场景的查询效率。本文主要介绍邮科院数据组基于新一代极速全场景MPP数据库DorisDB，在数据服务体系和数据应用场景中的实践和探索。

“作者：谢翔邮政科学研究规划院有限公司寄递研究所数据组负责人，专注于数仓建设、数据分析等领域研究。”

一、业务背景

随着科研数据积累越来越大，数据规模和体量也急剧膨胀。科研的原始数据通常来源于研报抽取、日志埋点文件、业务数据库、三方接口等。过去通常基于CDH/Hadoop等大数据分布式计算框架和数据集成工具，构建离线的数据仓库，并对数据进行适当的分层、建模、加工和管理，构建各类分析主题。邮科院数据体系中沉淀了诸多研报主题数据，例如：电商流量数据，物流企业财务数据，行业报告相关的数据等。

上层数据应用对查询的响应延迟和时效性要求高，会将数据通过数据同步工具同步到MySQL、ElasticSearch、Presto、HBase、ClickHouse等数据库系统中，来支撑上层数据应用的查询要求。

邮科院的大数据总体架构如下图所示，从下到上可以分为数据接入层、数据计算层、数据服务层和数据应用层。

数据计算层使用科研工作各分析场景下产生的模型/方案/业务的明细数据，进行离线数据计算，对TB级别的明细数据进行调度、聚合、计算，在数仓里沉淀出大量明细表、聚合表和最终的数据报表。

数据计算层生成的各类数据表，会同步到数据服务层，由数据服务层提供接口给数据应用层使用，满足不同的数据业务需求。

二、业务痛点

数据服务层的愿景是开放数仓能力，建立统一的数据服务出口，针对不同的数据业务分析场景(数据规模、QPS、UDF支持、运维成本等)，原有架构在底层使用了不同的查询引擎：

·大数据量、低QPS：使用Hive、Presto、ClickHouse等基于Hadoop生态的离线批任务计算框架和MPP数据库来解决。

·小数据量、高QPS：使用MySQL、ElasticSearch、HBase、MongoDB等关系型/非关系型数据库来解决。

使用多套查询引擎，我们遇到如下问题和挑战：

·离线/实时ETL任务过多，处理逻辑大部分为简单聚合/去重，聚合表数量庞大，导致运营和运维上的成本增加;

·针对中等数据量、中等QPS的查询场景，如何能兼顾数据规模的同时，有较友好的查询响应延迟;

·大数据量下插入、更新的实时数据场景无法得到支持，例如：网点画像、实时数据导入、邮路路径、研报数据汇总等。

三、OLAP引擎选型

针对如上的问题和挑战，我们的目标是寻求尽可能少的OLAP引擎，利用在明细表上现场计算来解决ETL任务、数仓表过多问题，同时需要兼顾在数据规模、查询QPS、响应耗时、查询场景方面的权衡。

目前市面上OLAP引擎百花齐放，诸如Impala、Druid、ClickHouse、DorisDB。经过一番调研，我们最终选择了DorisDB。DorisDB是基于MPP架构的分析型数据库，自带数据存储，整合了大数据框架的优势，支持主键更新、支持现代化物化视图、支持高并发和高吞吐的即席查询等诸多优点，天然能解决我们上述的问题。

四、DorisDB应用实践

DorisDB已经投入生产环境，主要作为离线/实时数据的OLAP数据库使用。离线数据主要存储于HDFS中，通过DataX任务批量同步数据到DorisDB;另一部分实时数据主要存储于Kafka中，使用DorisDB的routine load功能实时将数据从kafka写入到DorisDB。

在没有引入DorisDB之前，我们使用的底层引擎是MySQL、Presto on HDFS和ClickHouse等系统，对明细表/聚合表进行查询。这几种方式都存在着不少问题：

·MySQL处理上亿规模的数据，无论使用分库分表、分区表、集群化部署的PolarDB方案，都会存在慢查询、数据库扛不住、运维困难的窘境;

·Presto on HDFS的方案更偏向于分析型数据业务，虽然能存储海量的数据，计算能力不错，唯一致命的在于无法满足在线业务的高吞吐QPS，查询比较难做到毫秒级。

·ClickHouse对Join支持较弱，通常使用大宽表建模，不够灵活，另外运维也比较复杂。

·在引入DorisDB替换MySQL、Presto和ClickHouse后，DorisDB带来的业务效果如下：

·支撑了在线报表查询+数据分析业务，服务于对内运营+对外行业分析的数据产品，报表业务查询大部分耗时在毫秒级别，分析型业务查询大部分耗时在秒级别;

·支持10亿规模的明细表查询，月、季、年等维度统计数据现场算聚合统计、精准去重等，查询耗时都能控制在500ms以内;

·千万级别的多表的Join和union查询，经过Colocate Join特性优化，查询响应在秒级。

另外，我们还将DorisDB应用到实时数据分析场景，DorisDB在实时数据分析主要有如下优势：

·实时写入性能：目前DorisDB支持HTTP方式的Stream Load，可以自定义的分钟级别微批写入，以及Routine Load功能，可以将Kafka的数据实时同步到DorisDB中，满足当前实时数据分析业务;

·统一离线和实时分析：实时数据和离线数据更好的在DorisDB中进行融合，灵活支撑应用，数据存储策略通过DorisDB动态分区的功能进行自动管理;

·SQL Online Serving：高效的SQL即席查询能力，能够兼容业界标准的SQL规范，支撑业务灵活复杂的访问，提高取数开发的效率。

五、总结和规划

邮科院数据组引入DorisDB生产集群，解决了数据服务层单表亿级别规模、高QPS数据场景下引擎的空白，直接开放明细表准实时查询的能力，给各项目组上层数据业务和BI系统提供了更多的选择和自由度，同时将大大减少数仓中大量ETL任务、聚合表、报表，降低了数仓ETL的运维压力和维护成本，DorisDB综合性价比较原有的MySQL、Presto、ClickHouse等同类产品提升数倍以上。

未来，邮科院在DorisDB的应用和实践上还有不少规划：

·除了unique和duplicate数据模型，未来会将符合的数据场景迁移至aggregation模型，并使用物化视图，进一步降低数仓开发维护成本，降低查询延迟;

·DorisDB on ES的功能也值得我们深挖和探索，解决原生ES集群无法支持跨索引Join的能力;

·更多数据应用层的场景接入DorisDB，例如网点画像服务、邮路路径分析等，将进一步拓展DorisDB在实时数据写入、批量数据更新场景中的应用;

·与科研数据分析平台、数仓平台深度打通，完善数据整体架构，作为数据团队的基础设施去保障稳定性和服务;

·考虑使用多云架构，自主可控的数仓架构可以灵活的在多云间切换迁移，降低单一云厂商的依赖，控制成本提高可用性。

·......

最后的最后，感谢DorisDB技术团队给予的热情、靠谱的答疑解惑和技术支持!!!

10月22-23日，HTX独家赞助Blockchain Life 2024商务交流区，并亮相峰会白金展区。此举不仅是HTX对自身品牌和实力的展示，更深化了与中东加密社区的合作，为推动全球区块链技术与加密货币的创新应用注入新的动力。波场TRON创始人、HTX全球顾问孙宇晨在本次峰会上斩获“年

拥有89年悠久发展历史的德国卡赫，不仅是全球最大的清洁设备和清洁解决方案提供商，更是全球许多清洁工作者的合作伙伴。从2015年起，德国卡赫便开始为清洁工作者发声，更联合新西兰建筑承包商贸易组织开启了于每年10月举办的“致敬清洁工作者日”(Thank Your Cleaner Da

对于预算有限，但是又想体验大屏观影的人来说，千元价位的投影仪无疑是最佳选择，因为这个价位段的投影仪不仅摆脱了百元投影仪的鸡肋配置，还拥有可以媲美高端投影仪的亮度和画质，再加上亲民的价格，深受年轻人的喜欢。最近刚好出了一款千元价位的新品投影-当贝Smart1

实务指南|如何设立一支美元私募基金？在全球化金融浪潮中，美元基金以其独特的优势成为投资界的宠儿。上海笛杨企业咨询有限公司(以下简称“笛杨咨询”)凭借深厚的行业经验和专业的服务团队，致力于为客户提供全方位的美元基金设立及运营服务。本文将为您深度解析如何高

由凤凰网和金种子酒业联合推出的《2024中国力量年度人物》活动正在进行,中国力量年度人物系列专题片正式上线。活动旨在表彰把握时代脉搏,积极探索新兴科技的新领域、新应用、新价值,以新质生产力创造美好生活的各领域杰出代表,弘扬中国榜样力量。贯通南北疆的“超级工程

为深入贯彻党中央、国务院关于推进新型工业化、支持制造业企业及中小企业数字化转型的系列决策部署，落实《上海市制造业数字化转型实施方案》的任务要求，加快推进企业数字化转型，上海市经信委开展了2024年度上海市重点产业和领域数字化产品和解决方案遴选工作，星环科

英皇集团自成立以来，便以其丰富的艺人资源和优质的娱乐内容闻名遐迩，更以独特的企业文化和深厚的人文关怀赢得广泛赞誉。在这份荣耀的背后，体现了杨受成的不懈努力和敏锐眼光。在杨受成的带领下，英皇集团培养了众多才华横溢的艺人，并且构建了一个和谐、友爱、充满活

电动自行车成为更多人短途出行的首选工具，然而伴随而来的则是违规行驶、电池安全、上牌难等多方面问题。近年来，国家在鼓励电动自行车行业发展的同时，也在大力治理电动自行车行业的诸多乱象。此前，市场监管总局、工业和信息化部、公安部、国家消防救援局联合发布公告

对于电子竞技爱好者而言,高性能的电竞显示器能提升游戏性能和乐趣。正值双十一来临,众多优惠福利纷至沓来,正是购入高性能电竞显示器的绝佳时机。若您追求游戏画面的流畅度与卓越画质,那么双十一期间这三款ROG电竞显示器可别错过。BOE ADS Pro显示技术,细腻流畅首先是ROG

看看宇宙与资本界签署战略合作近日，在资本界总部，一场隆重且盛大的战略合作签约仪式成功举行。在众多嘉宾的共同见证下，双方代表郑重地签署了合作协议，这一重要时刻标志着两家公司即将携手共进，以共同富裕为目标，为全球创业者注入全新的活力。签约仪式现场，双方代

元宇宙正成为数字经济高质量发展的新引擎。据数据统计，2023年全球元宇宙市场规模达到924.6亿美元，同比增长35.0%。中国元宇宙产业规模在2023年增长到了766.3亿元，预计到2026年将达到1610.7亿元。当前，元宇宙技术在教育、工业、金融、文旅、医疗等众多领域得到了广泛

在追求下一代AI体验的过程中，前有Intel和AMD历史性地联手打造X86生态，后有高通自研芯片架构与好友圈技术共舞，似乎AI总会带来让人应接不暇的变化，才是最不会让人意外的变化。作为变化中的一员，高通的骁龙峰会迎来了第九年，其骁龙最新旗舰芯片“至尊版”的发布，让O

在当今数字化迅猛发展的时代,开源技术已然成为推动全球软件开发前行的强劲引擎。随着技术的不断进步,软件的开发与创新越发依赖开源社区的集体智慧。为了给开发者搭建一个交流、合作与创新的平台,GitCode开源共创大会暨G-Star嘉年华于2024年10月25日在世界计算·长沙智谷

2024年10月22日，金秋送爽，硕果累累，博奇环保承建的准大电厂脱硫系统EPC总承包工程在施工现场迎来了又一里程碑式的时刻——两台脱硫吸收塔“双塔”顺利封顶。这一重要工程节点的达成，标志着项目建设取得了重大突破，为后续烟道安装、机组通风创造了有利条件。上午9时

一、“问题和解决之道之间没有必然联系”Meetal(化名)，和大多数年轻人一样，被工作的压力和生活的琐事紧紧缠绕。每天，闹钟响起的那一刻，仿佛战斗的号角吹响，她匆匆奔赴上班，在忙碌的工作中度过漫长的一天。回到家时，常常已是身心疲惫，但心中的焦虑却并未随着一天

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.