李劲松(之信)

李劲松(之信)

Apache Flink Committer,阿里巴巴技术专家

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据
Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理。主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理。文章主要分为 4 个部分内容:我们先看一下今天的 topic 需要设计的是什么?输入是一个 CDC 或者 upsert 的数据,输出是 Database 或者是用于大数据 OLAP 分析的存储。

一套 SQL 搞定数据仓库?Flink 有了新尝试
一套 SQL 搞定数据仓库?Flink 有了新尝试

导读:数据仓库是公司数据发展到一定规模后必然需要提供的一种基础服务,也是“数据智能”建设的基础环节。迅速获取数据反馈不仅有利于改善产品及用户体验,更有利于公司的科学决策,因此获取数据的实时性尤为重要。

Flink 1.10 和 Hive 3.0 性能对比
Flink 1.10 和 Hive 3.0 性能对比

如今的大数据批计算,随着 Hive 数仓的成熟,普遍的模式是 Hive metastore + 计算引擎。常见的计算引擎有 Hive on MapReduce、Hive on Tez、Hive on Spark、Spark integrate Hive、Presto integrate Hive,还有随着 Flink 1.10 发布后生产可用的 Flink Batch SQL。

Flink Batch SQL 1.10 实践
Flink Batch SQL 1.10 实践

Flink 作为流批统一的计算框架,在 1.10 中完成了大量 batch 相关的增强与改进。1.10 可以说是第一个成熟的生产可用的 Flink Batch SQL 版本,它一扫之前 Dataset 的羸弱,从功能和性能上都有大幅改进,

  • 关注
    • qr_code

      微信公众号

      最新前沿最热资讯

    • qr_code

      技术支持钉钉群

      时时刻刻得到帮助

  • TOP