ITBear旗下自媒体矩阵:

AnalyticDB支撑双11,大幅提升分析实时性和用户体验

   时间:2021-11-13 10:53:01 来源:ITBEAR编辑:茹茹 发表评论无障碍通道

AnalyticDB支撑双11,大幅提升分析实时性和用户体验

2021年双11刚刚落幕,云原生数据仓库AnalyticDB继续稳定支持双11大促,今年双11,AnalyticDB的战场横跨阿里数字经济体、公共云和混合云,三个战场都稳如泰山、成绩斐然。在阿里数字经济体内,AnalyticDB支撑的业务几乎覆盖了所有BU,诸如手淘订单搜索、菜鸟、淘特、盒马、飞猪、猫超、阿里云等近200个双11相关的核心业务;在公有云上,AnalyticDB支撑着数云、聚水潭等诸多电商相关的核心业务;在专有云上,AnalyticDB主要支持中国邮政集团的各类业务。今年AnalyticDB支撑的业务负载特别多元化,从单库百万级峰值TPS的实时数据写入到核心交易链路的高并发在线订单检索和关键字精准推荐,从各种业务场景下的复杂实时分析到各种人群和标签数据的大批量离线Batch&ETL任务以及数据导入导出任务,这种五花八门的业务负载,甚至离在线混合负载同时执行的场景,对AnalyticDB提出了巨大的挑战。

面对这些业务场景和技术挑战,阿里云数据库技术专家李晓宇迎难而上,自从2021年年初以来,他带领数据库技术专家全面构建云原生数据库体系,全面推进存储计算分离架构,通过冷热温分层存储大幅降低存储成本,通过升级向量化引擎和优化器框架大幅提升计算性能,全面推进离在线一体化架构,进一步提升在一套技术架构下同时稳定运行在线实时查询和离线批量计算任务的能力。正是有了以李晓宇为代表的技术专家的这些技术积累和沉淀,AnalyticDB在今年的双十一战场上才能更加稳定从容,各项业务指标继续再创新高,今年双十一期间累计实时写入21万亿条数据,批量导入113万亿条数据,完成350亿次在线查询和2500万个离线任务,累计590PB数据参与计算。

李晓宇表示,不论是从支持业务场景的复杂度上看,还是从数据规模和计算规模上看,AnalyticDB作为离在线一体化架构下的新一代云原生数据仓库已经越来越成熟,可以为各种业务提供核心报表计算、实时分析决策、活动大屏与系统监控、智能营销等通用能力。同时,今年AnalyticDB重点结合手淘订单搜索和推荐、实时订单同步等核心业务场景,以技术创新为核心,帮助业务解决了不少长期困扰的棘手问题,助力业务在用户体验、绿色低碳、业务创新、安全稳定等方面取得新突破。

AnalyticDB最新核心技术解析

李晓宇数据库技术团队对AnalyticDB的存储层完成了服务化改造,具备一份数据、一套存储格式同时支持实时更新、交互式查询、离线ETL及明细点查多场景一体化能力。基于存储服务层、行列混存、分层存储、自适应索引等技术,可同时支持在线低延迟+强一致和离线高吞吐两种数据读写场景。

接口层方面,AnalyticDB存储向上提供统一的数据访问接口,在数据交互方面,李晓宇采用Apache Arrow数据格式,基于零拷贝技术实现高效传输,计算层可以基于Arrow内存列式的接口进行CPU友好的向量化计算加速;元数据兼容Hive metaService的Thrift交互协议,开源计算引擎可以无缝对接AnalyticDB存储系统。

服务层方面,李晓宇对AnalyticDB存储采用类LSM架构,把存储分为实时数据和历史数据两部分,实时数据存储在在线存储节点上,作为“热”数据,支持低延迟数据访问,且支持强一致CURD。历史数据存储在OSS或HDFS等低成本的分布式文件系统上,作为“冷”数据,支持高吞吐数据访问。同时,AnalyticDB存储服务层还支持谓词、投影、聚合、Top N等计算下推能力,减少数据的扫描和读取量,进一步加速查询。

行列混存:离在线统一存储格式

既然提供了一体化的存储服务,必然会涉及到在线低延迟查询和离线高吞吐计算场景,因此,李晓宇团队在AnalyticDB存储格式方面采用PAX格式兼顾了离在线两种场景。

在线场景,与索引配合提供高效的检索查找能力。AnalyticDB的存储格式每个Chunk定长存储,能够和索引深度融合,可以基于行号随机查找,保证高效的随机读性能,可以很好地满足在线多维度筛选的场景。此外,还提供了丰富的统计信息,可以和索引配合做叠加优化,从而进一步加速查询。

离线场景,在AnalyticDB的存储格式方面,李晓宇按照Chunk粒度切分数据读取的并行度进行设计,实现多Chunk并行访问,提高离线读的吞吐性能。AnalyticDB的一张表支持多个分区,且分区内支持多Segment,可以通过切分Segment来提高数据写入的并行度,从而提高离线写的吞吐性能。此外,每个Chunk提供了Min/Max等粗糙集索引信息,可以利用这些索引信息减少离线读的数据扫描量和IO资源消耗。

经过多年双11的淬炼,AnalyticDB不仅抗住了一年高过一年的的极端负载和流量,也在不断丰富的业务场景中逐步成长,不断赋能到集团内外各种新老业务和场景中,逐步成长为新一代云原生数据仓库的佼佼者。接下来AnalyticDB将继续以“人人可用的数据服务”为使命,进一步拥抱云原生,构建数据库+大数据一体化架构,建设极致弹性、离在线一体、高性价比、智能自治等企业级能力,进一步赋能用户挖掘数据背后的商业价值。(作者:杨小静)

//
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version