37 手游基于 Flink CDC + Hudi 湖仓一体方案实践
37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

本文作者是 37 手游大数据开发徐润柏,介绍了 37 手游为何选择 Flink 作为计算引擎,并如何基于 Flink CDC + Hudi 构建新的湖仓一体方案,主要内容包括:Flink CDC Connectors 是 Apache Flink 的一个 source 端的连接器,目前 2.0 版本支持从 MySQL 以及 Postgres 两种数据源中获取数据,2.1 版本社区确定会支持 Oracle,MongoDB 数据源。

Flink 在 58 同城的应用与实践
Flink 在 58 同城的应用与实践

本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题《Flink 在 58 同城应用与实践》,内容包括:实时计算平台的定位是为 58 集团海量数据提供高效、稳定的实时计算一站式服务。一站式服务主要分为三个方向:

Apache Hudi 在 B 站构建实时数据湖的实践
Apache Hudi 在 B 站构建实时数据湖的实践

本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化。主要内容为:之前 B 站数仓的入仓流程大致如下所示:在这种架构下产生了以下几个核心痛点:总结一下就是:

Flink 1.14 新特性预览
Flink 1.14 新特性预览

本文由社区志愿者陈政羽整理,内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预览》。主要内容为:此文章为 8 月 7 日的分享整理,1.14 版本最新进展请注意文中的注释说明。

伴鱼:借助 Flink 完成机器学习特征系统的升级
伴鱼:借助 Flink 完成机器学习特征系统的升级

本文作者陈易生,介绍了伴鱼平台机器学习特征系统的升级,在架构上,从 Spark 转为 Flink,解决了特征上线难的问题,以及 SQL + Python UDF 如何用于生产实践。 主要内容为:在伴鱼,我们在多个在线场景使用机器学习提高用户的使用体验,例如:在伴鱼绘本中,我们根据用户的帖子浏览记录,为用户推荐他们感兴趣的帖子;在转化后台里,我们根据用户的绘本购买记录,为用户推荐他们可能感兴趣的课程等。

Flink 在顺丰的应用实践
Flink 在顺丰的应用实践

本⽂由社区志愿者苗文婷整理,内容源⾃顺丰科技大数据平台研发工程师龙逸尘在 Flink Forward Asia 2020 分享的《Flink 在顺丰的应用实践》,主要分享内容为:顺丰基于 Flink 建设实时数仓的思路,引入 Hudi On Flink 加速数仓宽表,以及实时数仓平台化建设的实践。分为以下 5 个部分:

Apache Flink 在京东的实践与优化
Apache Flink 在京东的实践与优化

本文整理自京东高级技术专家付海涛在 Flink Forward Asia 2020 分享的议题《Apache Flink 在京东的实践与优化》,内容包括:京东在 2014 年基于 storm 打造了第一代流式处理平台,可以较好的满足业务对于数据处理实时性的要求。不过它有一些局限性,对于那些数据量特别大,但是对延迟却不那么敏感的业务场景,显得有些力不从心。于是我们在 2017 年引入了 Spark streaming,利用它的微批处理来应对这种业务场景。

使用 Flink Hudi 构建流式数据湖
使用 Flink Hudi 构建流式数据湖

本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以通过 Flink SQL 将 CDC 数据实时写入 Hudi 存储,且在即将发布的 0.9 版本 Hudi 原生支持 CDC format。主要内容为:

PyFlink 开发环境利器:Zeppelin Notebook
PyFlink 开发环境利器:Zeppelin Notebook

PyFlink 作为 Flink 的 Python 语言入口,其 Python 语言的确很简单易学,但是 PyFlink 的开发环境却不容易搭建,稍有不慎,PyFlink 环境就会乱掉,而且很难排查原因。今天给大家介绍一款能够帮你解决这些问题的 PyFlink 开发环境利器:Zeppelin Notebook。主要内容为:

快手基于 Flink 构建实时数仓场景化实践
快手基于 Flink 构建实时数仓场景化实践

本文整理自快手数据技术专家李天朔在 5 月 22 日北京站 Flink Meetup 分享的议题《快手基于 Flink 构建实时数仓场景化实践》,内容包括:快手业务中的实时计算场景主要分为四块:基于上面三个难点,来看一下数仓架构:

SmartNews:基于 Flink 加速 Hive 日表生产的实践
SmartNews:基于 Flink 加速 Hive 日表生产的实践

本文介绍了 SmartNews 利用 Flink 加速 Hive 日表的生产,将 Flink 无缝地集成到以 Airflow 和 Hive 为主的批处理系统的实践。详细介绍过程中遇到的技术挑战和应对方案,以供社区分享。主要内容为:

Flink CDC 2.0 正式发布,详解核心改进
Flink CDC 2.0 正式发布,详解核心改进

本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性,包括:全量数据的并发读取、checkpoint、无锁读取等重大改进。

京东:Flink SQL 优化实战
京东:Flink SQL 优化实战

本文作者为京东算法服务部的张颖和段学浩,并由 Apache Hive PMC,阿里巴巴技术专家李锐帮忙校对。主要内容为:目前,京东搜索推荐的数据处理流程如上图所示。可以看到实时和离线是分开的,离线数据处理大部分用的是 Hive / Spark,实时数据处理则大部分用 Flink / Storm。

Flink 在爱奇艺广告业务的实践
Flink 在爱奇艺广告业务的实践

本文整理自爱奇艺技术经理韩红根在 5 月 22 日北京站 Flink Meetup 分享的议题《Flink 在爱奇艺广告业务的实践》,内容包括:实时数据在广告业务的使用场景主要可以分为四个方面:业务实践主要分为两类,第一个是实时数仓,第二个是特征工程。

360 政企安全集团基于 Flink 的 PB 级数据即席查询实践
360 政企安全集团基于 Flink 的 PB 级数据即席查询实践

本文整理自360 政企安全集团的大数据工程师苏军以及刘佳在 Flink Forward Asia 2020 分享的议题《基于 Flink 的 PB 级数据即席查询实践》,文章内容为:首先做一个简单的个人以及团队介绍。我们来自 360 政企安全集团,目前主要从事 360 安全大脑的 “威胁狩猎“ 项目的开发工作。我们团队接触 Flink 的时间比较早,在此期间,我们基于 Flink 开发出了多款产品,并在 2017 年和 2019 年参加了于柏林举办的 Flink Forward 大会,分别介绍了我们的 “UEBA” 以及 “AutoML” 两款产品。

  • 关注
    • qr_code

      微信公众号

      最新前沿最热资讯

    • qr_code

      技术支持钉钉群

      时时刻刻得到帮助

  • TOP