陈玉兆(玉兆)

陈玉兆(玉兆)

Apache Calcite PMC,Apache Hudi PMC

西安电子科技大学硕士,2015 加入美团参与完整的实时平台构建,2018 年加入阿里 Blink SQL 引擎团队,参与 Blink SQL 核心模块的设计开发,同时在 Apache Calcite 社区比较活跃,2019 年 10 月成为 Apache Calcite PMC,是国内为数不多的 Calcite PMC 之一。目前在推动开源数据湖 Apache Hudi 的实时化,于 2021 年 7 月成为 Apache Hudi Committer。本人爱好开源但不善分享,欢迎交流开源大数据技术
Flink Hudi 0.10.0 发布,多项重要更新,稳定性大幅提升
Flink Hudi 0.10.0 发布,多项重要更新,稳定性大幅提升

随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而 Apache Hudi 是当下最具竞争力的数据湖格式之一:Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持:

使用 Flink Hudi 构建流式数据湖
使用 Flink Hudi 构建流式数据湖

本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以通过 Flink SQL 将 CDC 数据实时写入 Hudi 存储,且在即将发布的 0.9 版本 Hudi 原生支持 CDC format。主要内容为:

Hudi on Flink 快速上手指南
Hudi on Flink 快速上手指南

摘要:本文由阿里巴巴的陈玉兆分享,主要介绍 Flink 集成 Hudi 的最新版本功能以及快速上手实践指南。内容包括: Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics[1] 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景;AWS 在 EMR 服务中 预安装[2] 了 Apache Hudi,为用户提供高效的 record-level updates/deletes 和高效的数据查询管理;Uber [3]已经稳定运行 Apache Hudi 服务 4 年多,提供了低延迟的数据库同步和高效率的查询[4]。自 2016 年 8 月上线以来,数据湖存储规模已经超过 100PB[5]。

  • 关注
    • qr_code

      微信公众号

      最新前沿最热资讯

    • qr_code

      技术支持钉钉群

      时时刻刻得到帮助

  • TOP