伍翀(云邪)

伍翀(云邪)

Apache Flink PMC,阿里巴巴技术专家

北京理工大学硕士毕业,2015 年加入阿里巴巴,参与阿里巴巴实时计算引擎 JStorm 的开发与设计。2016 年开始从事阿里新一代实时计算引擎 Blink SQL 的开发与优化,并活跃于 Flink 社区,于2017年2月成为ApacheFlink Committer,是国内早期 Flink Committer 之一。目前主要专注于分布式处理和实时计算,热爱开源,热爱分享。
基于 Flink SQL 构建流批一体的 ETL 数据集成
基于 Flink SQL 构建流批一体的 ETL 数据集成

本文整理自云邪、雪尽在 Flink Forward Asia 2020 的分享,该分享以 4 个章节来详细介绍如何利用 Flink SQL 构建流批一体的 ETL 数据集成, 文章的主要内容如下:数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管理决策。这是数据仓库之父 Bill Inmon 在 1990 年提出的数据仓库概念。该概念里最重要的一点就是“集成的”,其余特性都是一些方法论的东西。因为数据仓库首先要解决的问题,就是数据集成,就是将多个分散的、异构的数据源整合在一起,消除数据孤岛,便于后续的分析。这个不仅适用于传统的离线数仓,也同样适用于实时数仓,或者是现在火热的数据湖。首先要解决的就是数据集成的问题。如果说业务的数据都在一个数据库中,并且这个数据库还能提供非常高效的查询分析能力,那其实也用不着数据仓库和数据湖上场了。

Demo:基于 Flink SQL 构建流式应用
Demo:基于 Flink SQL 构建流式应用

摘要:云邪在 Flink 中文社区钉钉群中直播分享了《Demo:基于 Flink SQL 构建流式应用》,直播内容偏向实战演示。这篇文章是对直播内容的一个总结,并且改善了部分内容,比如除 Flink 外其他组件全部采用 Docker Compose 安装,简化准备流程。读者也可以结合视频和本文一起学习。 完整分享可以观看视频回顾:

Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL
Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL

上周六在深圳分享了《Flink SQL 1.9.0 技术内幕和最佳实践》,会后许多小伙伴对最后演示环节的 Demo 代码非常感兴趣,迫不及待地想尝试下,所以写了这篇文章分享下这份代码。希望对于 Flink SQL 的初学者能有所帮助。完整分享可以观看 Meetup 视频回顾 :

Flink 原理与实现:Table & SQL API
Flink 原理与实现:Table & SQL API

Flink 已经拥有了强大的 DataStream/DataSet API,可以基本满足流计算和批计算中的所有需求。为什么还需要 Table & SQL API 呢?首先 Table API 是一种关系型API,类 SQL 的API,用户可以像操作表一样地操作数据,非常的直观和方便。用户只需要说需要什么东西,系统就会自动地帮你决定如何最高效地计算它,而不需要像 DataStream 一样写一大堆 Function,优化还得纯靠手工调优。另外,SQL 作为一个“人所皆知”的语言,如果一个引擎提供 SQL,它将很容易被人们接受。这已经是业界很常见的现象了。值得学习的是,Flink 的 Table API 与 SQL API 的实现,有 80% 的代码是共用的。所以当我们讨论 Table API 时,常常是指 Table & SQL API。

Flink 原理与实现:内存管理
Flink 原理与实现:内存管理

如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题:

Apache Flink 零基础入门(九):Flink SQL 编程实践
Apache Flink 零基础入门(九):Flink SQL 编程实践

注:本教程实践基于 Ververica 开源的 sql-training 项目。基于 Flink 1.7.2 。本文将通过五个实例来贯穿 Flink SQL 的编程实践,主要会涵盖以下几个方面的内容。

如何从小白成长为 Apache Committer
如何从小白成长为 Apache Committer

(本文来自**Jark’s Blog**)过去三年,我一直在为 Apache Flink 开源项目贡献,也在两年前成为了 Flink Committer。我在 Flink 社区成长的过程中受到过社区大神的很多指导,如今也有很多人在向我咨询如何能参与到开源社区中,如何能成为 Committer。这也是本文写作的初衷,希望能帮助更多人参与到开源社区中。

5分钟从零构建第一个 Apache Flink 应用
5分钟从零构建第一个 Apache Flink 应用

在本文中,我们将从零开始,教您如何构建第一个Apache Flink (以下简称Flink)应用程序。Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序,在本地机器上需要有 Java 8.x 和 maven 环境。

Apache Flink 零基础实战教程:如何计算实时热门商品
Apache Flink 零基础实战教程:如何计算实时热门商品

在**上一篇入门教程**中,我们已经能够快速构建一个基础的Apache Flink(以下简称Flink) 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序:实时热门商品。在开始本文前我们建议你先实践一遍上篇文章,因为本文会沿用上文的

基于Streaming构建统一的数据处理引擎的挑战与实践
基于Streaming构建统一的数据处理引擎的挑战与实践

本文整理自12月20日在北京举行的Flink Forward China 2018大会。文章概述:基于Flink以流为本的计算引擎去构建一个流与批统一的解决方案 本文主要从以下5个方面来介绍基于Flink Streaming构建统一的数据处理引擎的挑战和实践。

  • 关注
    • qr_code

      微信公众号

      最新前沿最热资讯

    • qr_code

      技术支持钉钉群

      时时刻刻得到帮助

  • TOP