火山引擎LAS 团队技术分享：字节跳动基于 Hudi 的机器学习应用场景

时间：2023-07-20 11:56:37 来源：互联网编辑：茹茹 发表评论无障碍通道

本文为 Apache Hudi 技术社区分享会嘉宾分享文章，主要介绍火山引擎 LAS 团队自研的多场景样本离线存储技术，用于处理机器学习系统的离线数据流。同时，还会为大家揭秘流批一体样本生成的过程，分享对 Hudi 内核所做出的优化和改造，探索其在数据处理领域的实际应用和效果。

以下为分享原文。

1. 业务场景

为了让大家更容易理解接下来要讲的基于数据湖的样本存储和样本生成问题，文章先给大家简单介绍一些相关的基础概念。首先是机器学习系统的离线数据流架构，机器学习系统和其他线上服务系统类似，其中和样本有关的角色也比较集中。如下图所示，整个离线数据流架构分为流式和批式两种类型，其中的样本数据由两部分构成，分别是特征和标签。

在流式架构中，特征由在线预估服务在 serving 时 dump 对应的快照并发送到消息队列中。标签则来自实时行为采集服务，通过日志上报等方法采集得到。在线样本生成服务消费两个数据流，通过关联得到完整的样本，并发送到下游的流式训练服务中进行模型训练，完成样本数据的消费。

批式架构是流式架构的补充，批式架构在订阅流式数据的同时，还会加入批式的特征或者批式生成的标签。比如风控反作弊或者广告类的业务，会有批式生产的数据，并使用批式的样本生成模块生成样本，进而被模型训练组件消费。

流式和批式数据流架构中，还有元数据服务，元数据服务记录了特征的相关元数据，流式批式数据流都会访问元数据服务获取 meta 信息。因此，我们对于批式的特征存储有若干种特定的访问 pattern。

读方面有以下读数据 pattern：大范围的按天批式读取，关注吞吐指标;秒级的点查;高效的谓词下推查询能力;存在基于主键/外建的 join。

在写方面需支持以下能力：基于主键的 upsert;针对部分 cell 的插入与更新;针对行/列/cell 的删除;基于外键的 upsert。

在这样的背景下，我们了解 Hudi 在机器学习离线数据流中的若干应用场景。

2.离线样本存储与迭代

我们希望设计的样本离线存储方案能够适用于多种场景，主要包含以下三类情况。

第一，模型的重新训练，回放流式训练的过程，迭代/纠偏模型等等。

第二，样本的数据迭代，增加修改或者删除对应的特征/标签，并重新训练模型。

第三，样本的 OLAP 查询，用于日常 debug 等。

为了能够支持以上的场景的样本存储与迭代，我们提出的存储方案整体架构设计如下。在逻辑建模上，构建样本存储和构建特定 pattern 的 Hive 表非常类似，样本包含主键、分区键、内部元数据列等功能性 column，然后包含若干特征列和若干标签列。在物理架构上，通过流式和批式生产/采集的特征数据和标签数据通过多个作业混合 upsert 的方式写入 Hudi，更新位于 KV 存储的索引信息，并将实际的数据写入 HDFS 中。由于 Hudi 基于主键/外键 upsert 的特性，数据会被自然地拼接在一起，形成完整的包含特征和标签的样本数据，供消费使用。

在对离线特征进行调研时，我们需要面临以下挑战：基于 HDFS 这种不可变的文件存储，如何实现低成本低读写放大的数据修改。在没有使用数据湖之前，用户做离线特征调研之前需要复制样本，修改并另存一份。其中消耗了巨大的计算和存储资源，伴随样本量的增大，这样的方案将消耗数个 EB 的存储，使得迭代变得不可能。

我们基于 Hudi 实现了 ColumnFamily 的能力。这个方案受到了经典 BigTable 存储 Apache Hbase 的启发，将 IO pattern 不同的数据使用不同的文件进行存储，以减少不必要的读写放大。原理是将同一个 FileGroup 的不同列数据存储在不同的文件中，在读时进行合并。这种方法会将新增列的数据单独进行文件存储，发生修改或者新增成本很低。

我们通过为调研特征列赋予单独的 CF 的方式来减少读写放大，其他列复用线上的特征所在的 CF。这样资源的使用量只会和新增特征相关。这种方式极大得减少了迭代所需的存储使用，并且不会引入任何 shuffle 操作。

上文介绍了离线样本的存储与迭代方案，接下来我们进一步为大家介绍在线样本生成时的流批一体生成方案，讨论其如何降低在线存储的使用成本。

3. 流批一体的样本生成

在线样本生成服务中，我们使用 KV 或者 BigTable 类存储来满足样本拼接的需求，比如 RocksDB 等。这类存储点查性能好，延迟低，但是存储成本也较高。如果在数据有明显的冷热分层的情况下，这类存储本身并不能很好的满足这样的存储需求。Hudi 是一个具有 KV 语义的离线存储，存储成本较低，我们将冷数据存在 Hudi 上的方式来降低在线存储的使用成本，并通过统一的读写接口来屏蔽差异。这一架构也受到了目前市面的多种 HSAP 系统的启发。

为了能够让 Hudi 支持更好的点查，我们复用了写时的 Hbase 索引。点查请求会先访问 Hbase 索引找到数据所在文件，然后根据文件进行点查。整体端到端的延迟可以做到秒级。适合存储数据量大，qps 较低的场景。

4. 功能与优化

在使用 Hudi 满足诸多业务需求的过程中，我们也对其内核做了一些改造，以更好得服务我们的业务场景。

4.1 Local Sort

我们支持了单文件内的主键排序。排序是较为常见的查询性能优化手段。通过对主键的排序，享受以下收益

● CF 在读时，多 CF 合并使用 Sort Merge 的方式，内存使用更低。

● Compaction 时支持 Sort Merge。不会触发 spill，内存使用低。我们之前使用 SSD 队列来做 Compaction 以保证性能，现在可以使用一些廉价的资源(比如无盘的潮汐资源)来进行 Compaction。

● 在流批一体的样本生成中，由于主键是排好序的，我们点查时基于主键的谓词下推效果非常好。提升了点查性能。

4.2 Bulkload 并发写

并发写一直是 Hudi 的比较大的挑战。我们的业务场景中会发生行级别/列级别的写冲突，这种冲突无法通过乐观锁来避免。基于机器学习对于数据冲突的解决需求，我们之前就支持了 MVCC 的冲突解决方式。更进一步得，为了能够让 Hudi 支持并发读写，我们参考 Hbase 支持了 Bulkload 的功能来解决并发写需求。所有写数据都会写成功，并由数据内部的 mvcc 来决定数据冲突。

我们首先将数据文件生成到一个临时缓冲区，每个缓冲区对应一个 commit 请求，多个写临时缓冲区的请求可以并发进行。当数据完整写入临时缓冲区之后，我们有一个常驻的任务会接收数据 load 的请求，将数据从缓冲区中通过文件移动的方式 load 进 Hudi，并生成对应的 commit 信息。多个 load 请求是线性进行的，由 Hudi Timeline 的表锁保证，但是每个 load 请求中只涉及文件的移动，所以 load 请求执行时间是秒级，这样就实现了大吞吐的数据多并发写和最终一致性。

4.3 Compaction Service

关于 Compaction，Hudi 社区提供了若干 Compaction 的开箱即用的策略。但是业务侧的需求非常灵活多变，无法归类到一种开箱即用的策略上。因此我们提供了 Compaction Service 这样的组件用来处理用户的 Compaction 请求，允许用户主动触发一次 Compaction，并可指定 Compaction 的数据范围，资源使用等等。用户也可以选择按照时间周期性触发 Compaction，以达到自动化数据生效的效果。

在底层我们针对 Compaction 的业务场景做了冷热队列分层，根据不同的 SLA 的 Compaction 任务，会选择对应的队列资源来执行。用来降低 Compaction 的整体成本。比如每天天级别的数据生效是一个高保障的 Compaction 任务，会有独占队列来执行。但是进行历史数据的单次修复触发的 Compaction，对执行时间不敏感，会被调度到低优先级队列以较低成本完成。

针对数据湖的样本存储与生成问题，我们搭建了适用于多种场景的存储方案架构，实现了批流一体的样本生成，并且通过对 Hudi 内核进行一定的改造，实现更加满足实际业务需求的功能设计。

以上就是字节跳动在 Hudi 的实践，目前均已通过火山引擎 湖仓一体分析服务 LAS 产品对外服务，欢迎对这方面有需求、感兴趣的用户都可以积极地来体验一下我们的 LAS 湖仓一体分析服务。

湖仓一体分析服务 LAS(Lakehouse Analytics Service)是面向湖仓一体架构的 Serverless 数据处理分析服务，提供字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力，兼容 Spark、Presto 生态，帮助企业轻松构建智能实时湖仓。

12月18日，以“携光共进与智同行”为主题的2024第二届智能车载光峰会在风景秀丽的东莞松山湖悦榕庄成功举办。本次峰会由中国智能网联汽车产业创新联盟、中国汽车工业协会车用智能显示分会联合主办，华为技术有限公司承办。峰会汇聚了来自车企、标准研究、产品测评、合

在当今手机摄影日益普及的时代，一款高性能、便携的存储设备成为了众多摄影爱好者的必备之选。雷克沙推出的Professional Go PSSD，正是为了满足这一需求而设计的。这款固态硬盘不仅体积小巧，性能卓越，还具备多重安全保障，成为专业摄影用户的得力助手。雷克沙Professi

在科技日新月异的今天，每一次技术的革新都足以掀起行业的波澜，尤其是有行业领导者推出的新技术更是如此。比如在前几天的TCL QD-Mini LED新技术发布会上，凭借一系列颠覆性的创新成果，引发了行业内外的热议。在本次发布会上重磅推出的万象分区、绚彩XDR以及量子点Pro

在科技日新月异的今天，电视显示技术正经历着前所未有的大变革。Mini LED技术的快速发展不仅为电视市场注入了新的活力，更推动了画质表现的不断突破。然而，面对激烈的市场竞争，单纯依赖参数提升已难以满足消费者对于画质的极致追求。近日，TCL QD-Mini LED新技术发布

在季节更迭的轮回中，冬季已悄然降临。然而，随着气温的逐渐下降，空气也日益干燥，给人们的肌肤带来了严峻的挑战。在这样的季节里，许多人开始感受到肌肤的微妙变化，变得干燥、紧绷，甚至出现脱皮的现象。为了应对这一季节性肌肤挑战，自然阳光焕肤水润时光面膜，正是

鸿蒙风起,未来已来——云学堂鸿蒙应用入门级开发者认证开营啦!在科技飞速发展的今天,鸿蒙系统以其开放、创新、安全的特点,正逐步构建起一个全新的智能生态。从智能手机到智能家居,从穿戴设备到出行工具,鸿蒙系统的身影无处不在,它不仅为用户带来了更加流畅、智能的使用

12月18日，2024京东金榜迎来五周年盛典，备受瞩目的“百大金奖”商品榜单也正式揭晓。过去的一年里，近9亿人次通过金榜完成下单，80%的用户在不到10秒内就能找到心仪商品；超过5200个品牌金榜留名，其中超1700个品牌在上榜当月实现销售同比增长超100%。数码品类中，从智

近日，由工信部指导的2024“绽放杯”5G应用大赛全国总决赛结果在2024中国5G发展大会期间正式揭晓——中国广电、亚信科技共同建设的全球首个全量核心网下沉本地的5G风电专网项目，从众多案例中脱颖而出斩获全国一等奖!该案例是全国一等奖中唯一的风电行业案例，此前已获

这一年我们看到的中小企业关键词是拼搏与时代共舞，书写奋斗历程是同行抱团取暖，点燃希望的火种是争先与爱采购携手，成就数智转型幸会，这一年与你们同路感恩，这一路有你们相随2024爱采购「岁末家年华」温情来袭联动全国近50个城市致敬时代同行者，期待与你共绘新章!

12月14日，2024一带一路暨金砖国家技能发展与技术创新大赛之元宇宙3D数字内容设计创作赛项(中职组)全国总决赛在湖北崇阳职业技术学校圆满闭幕。大赛于12月12日开幕，围绕文博文创、轨道交通、智能制造三个主题开展，通过比赛，参赛选手可以更深刻理解3D数字化技术在社会

在这个快节奏的时代，看电影却是一个必须慢下来的过程。相信在外奔波一天，每一位电影爱好者回家观影时，内心渴求的绝不仅仅是一台简单的投影设备，而是一份由电影原色带来的真实感动。可当今家庭影院消费市场鱼龙混杂，让人眼花缭乱，什么样的设备才能真正称得上「专业

不觉已到深冬,西伯利亚的寒风早已吹遍北方,不知已下过几场大雪。千里冰封,万物冬藏,但对另一群生命来说,却无处可藏。所以和季风一同在西伯利亚起飞的,还有候鸟。和人一样,鸟儿也在冬天向往温暖宜居的南方,为了生存每年如约开启一场浩荡迁徙。各类候鸟聚群而飞,相互支撑

相信大家最近都听说了电视圈即将迎来的年末压轴大戏吧?没错，说的就是将在12月16日举行的“光生万象”2024 TCL QD-Mini LED新技术发布会!为此官方这几天连发3张倒计时海报，引来网友的纷纷猜想，作为头部电视品牌，TCL会给消费者带来怎样的突破性技术呢?在发布正式开始

转眼又到了年底，科技圈的热闹程度堪比春节!不久前就有关TCL新技术突破的消息曝光，这几天TCL也陆续官宣新技术即将发布信息，据悉，2024年TCL QD-Mini LED新技术发布会将于12月16日14:30举行!这场被誉为“光生万象”的QD-Mini LED技术发布会，无疑将成为年底科技圈的一

我们真的太激动了，打《无畏契约》有两年的时间，真没想到有一天会拿到10万元的奖金。这对于我们战队的每个人都是莫大的鼓励，有一种热爱成为专业的不真实感。感谢掠夺者电竞大赛这个舞台，感谢宏碁品牌举办这么好的赛事活动，也感谢英特尔酷睿的加持。12月14日，掠夺

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.