Deploy Apache Flink® Natively on YARNKubernetes
Deploy Apache Flink® Natively on YARNKubernetes

Apache Flink作为下一代大数据计算引擎,在迅速发展强大中,其内部架构也在不断优化重构,以适应更多运行时环境和更大计算规模,Flink Improvement Proposals-6重新设计了在各集群管理系统(Standalone/YARN/Kubernetes等)上资源调度的统一架构,本文将介绍资源调度的架构发展及其清晰分层等设计特点,YARN上per-Job和session两种模式的实现,以及正在讨论开发的与K8S云原生融合的详细设计。

城市级实时计算的力量
城市级实时计算的力量

本文整理自闵万里博士在 Flink Forward China 2018 上的演讲。城市中,像上图空中小麻雀一样的摄像头遍布各地,地面上的车流川流不息,高德地图等APP通过技术手段采集了越来越多的摄像头、车流的数据。但空中与地面这两条平行的河流,似乎永远没有交汇的时刻。越来越多的摄像头采集数据,但道路却越来越拥堵,这恰恰反映出智慧的缺失。

基于Streaming构建统一的数据处理引擎的挑战与实践
基于Streaming构建统一的数据处理引擎的挑战与实践

本文整理自12月20日在北京举行的Flink Forward China 2018大会。文章概述:基于Flink以流为本的计算引擎去构建一个流与批统一的解决方案 本文主要从以下5个方面来介绍基于Flink Streaming构建统一的数据处理引擎的挑战和实践。

批流统一计算引擎的动力源泉—Shuffle机制的重构与优化
批流统一计算引擎的动力源泉—Shuffle机制的重构与优化

本文讲述的shuffle概念范围如下图虚线框所示,从上游算子产出数据到下游算子消费数据的全部流程,基本可以划分成三个子模块:当job被调度开始运行后,除了算子内部的业务逻辑开销外,整个runtime引擎的运行时开销基本都在shuffle过程,其中涉及了数据序列化、编解码、内存拷贝和网络传输等复杂操作,因此可以说shuffle的整体性能决定了runtime引擎的性能。

流计算框架 Flink 与 Storm 的性能对比
流计算框架 Flink 与 Storm 的性能对比

(原文链接:https://mp.weixin.qq.com/s/b8Jiqj_SXM1acckTPyv57g)概述: 将分布式实时计算框架 Flink 与 Storm 进行性能对比,为实时计算平台和业务提供数据参考。

阿里正式向 Apache Flink 贡献 Blink 源码
阿里正式向 Apache Flink 贡献 Blink 源码

如同我们去年12月在 Flink Forward China 峰会所约,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月底正式开源。今天,我们终于等到了这一刻。阿里资深技术专家大沙,将为大家详细介绍本次开源的Blink主要功能和优化点,希望与业界同仁共同携手,推动Flink社区进一步发展。

Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理
Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

via:https://www.ververica.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka目录:Apache Flink自2017年12月发布的1.4.0版本开始,为流计算引入了一个重要的里程碑特性:TwoPhaseCommitSinkFunction(相关的Jira)。它提取了两阶段提交协议的通用逻辑,使得通过Flink来构建端到端的Exactly-Once程序成为可能。同时支持一些数据源(source)和输出端(sink),包括Apache Kafka 0.11及更高版本。它提供了一个抽象层,用户只需要实现少数方法就能实现端到端的Exactly-Once语义。

一文了解 Apache Flink 核心技术
一文了解 Apache Flink 核心技术

Apache Flink (以下简称Flink)是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理,也能用来做一些基于事件的应用。使用官网的语句来介绍 Flink 就是 “Stateful Computations Over Streams

阿里巴巴为什么选择 Apache Flink?
阿里巴巴为什么选择 Apache Flink?

伴随着海量增长的数据,数字化时代的未来感扑面而至。不论是结绳记事的小数据时代,还是我们正在经历的大数据时代,计算的边界正在被无限拓宽,而数据的价值,再也难以被计算。时下,谈及大数据,不得不提到最热门的下一代大数据计算引擎 Apache Flink(以下简称 Flink)。本文将结合 Flink 的前世今生,从业务角度出发,向大家娓娓道来:为什么阿里选择了 Flink?

Apache Flink状态管理和容错机制介绍
Apache Flink状态管理和容错机制介绍

本文整理自8月11日在北京举行的 Flink Meetup 会议,分享嘉宾施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发。本文主要内容如下:

比拼生态和未来,Spark 和 Flink 哪家强(下)
比拼生态和未来,Spark 和 Flink 哪家强(下)

上篇:**Spark VS Flink 下一代大数据计算引擎之争,谁主浮沉**前文对 Spark 和 Flink 的引擎做了对比。对用户来说引擎并不是考虑数据产品的唯一方面。开发和运维相关的工具和环境,技术支持,社区等等,对能不能在引擎上面做出东西来都很重要。这些构成了一个产品的生态。可以说引擎决定了功能和性能的极限,而生态能让这些能力真正发挥出作用。

Flink 实时计算性能分析
Flink 实时计算性能分析

本文从数据传输和数据可靠性的角度出发,对比测试了Storm与Flink在流处理上的性能,并对测试结果进行分析,给出在使用Flink时提高性能的建议。Apache Storm、Apache Spark和Apache Flink都是开源社区中非常活跃的分布式计算平台,在很多公司可能同时使用着其中两种甚至三种。对于实时计算来说,Storm与Flink的底层计算引擎是基于流的,本质上是一条一条的数据进行处理,且处理的模式是流水线模式,即所有的处理进程同时存在,数据在这些进程之间流动处理。而Spark是基于批量数据的处理,即一小批一小批的数据进行处理,且处理的逻辑在一批数据准备好之后才会进行计算。在本文中,我们把同样基于流处理的Storm和Flink拿来做对比测试分析。

Spark VS Flink 下一代大数据计算引擎之争,谁主浮沉(上)
Spark VS Flink 下一代大数据计算引擎之争,谁主浮沉(上)

自从数据处理需求超过了传统数据库能有效处理的数据量之后,Hadoop等各种基于MapReduce的海量数据处理系统应运而生。从2004年Google发表MapReduce论文开始,经过近10年的发展,基于Hadoop开源生态或者其它相应系统的海量数据处理已经成为业界的基本需求。

Apache Flink – 重新定义计算
Apache Flink – 重新定义计算

本文整理自 Flink Forward China 2018 大会上蒋晓伟老师的主题演讲《Apache Flink – Redefine Computation》阿里巴巴有着世界上最大的电商平台,我们的平台有着海量的数据,总数据量上有数以EB,并且这个数据量每天在以数以PB的数量级在快速地增长,我们的平台每天产生数万亿条消息,在最高峰需要每秒钟处理数十亿条事件。今天我就给大家分享一下,在阿里巴巴我们是如何利用Flink来处理这海量的数据?我们先从流计算开始讲起。

  • 关注
    • qr_code

      微信公众号

      最新前沿最热资讯

    • qr_code

      技术支持钉钉群

      时时刻刻得到帮助

  • TOP