工商银行实时大数据平台建设历程及展望
工商银行实时大数据平台建设历程及展望

本文整理自中国工商银行大数据平台负责人袁一在 Flink Forward Asia 2021 的分享。主要内容包括:工商银行从 2002 年开始建设数据集市,当时主要使用 Oracle 类单机版的关系型数据库。随着数据量不断增加,开始引入 TD、ED 等国外高端一体机。2014 年工行正式基于 Hadoop 技术建设了大数据平台,在其之上构建了企业级数据湖及数据仓库。2017 年,随着 AI 技术的兴起,又开始建设机器学习平台,2020 年开始建设数据中台和高时效类场景。

从 Flink Forward Asia 2021,看 Flink 未来开启新篇章
从 Flink Forward Asia 2021,看 Flink 未来开启新篇章

作者:梅源(Yuan Mei)律回春晖渐,万象始更新,这句诗用来形容 2021 年的大数据领域再合适不过,而 Flink 在 2021 年也开启了新的篇章。2022 年 1 月 8-9 号,Flink Forward Asia (FFA) 线上峰会成功举行。Flink Forward Asia 是由 Apache 官方授权,Apache Flink 中文社区主持举办的会议。目前,Flink Forward Asia 已成为国内最大的 Apache 顶级项目会议之一,是 Flink 开发者和使用者的年度盛会。由于疫情原因,本届峰会仍采用线上直播的形式,峰会首日流量峰值 PV 20W+、UV 10W+;实时观看量峰值 4.5W+。直播页累计 PV 100W+、UV 30W+。在线上峰会的同时,FFA 还举办了首届以实时计算为主题的 Flink Hackathon,共有 267 支参赛队伍,最终 27 支队伍入围参与线下决赛。未来 Flink Hackathon 也会常态化举办,集思广益。

Alink、Tensorflow on Flink 在京东的应用
Alink、Tensorflow on Flink 在京东的应用

本文整理自京东搜索推荐算法工程师刘露、京东搜索推荐算法工程师张颖在 Flink Forward Asia 2021 的分享。主要内容包括:搜索和推荐是互联网应用的两个核心入口,大多数流量都来自于搜索和推荐这两个场景。京东零售按站点,分为主站、京喜、海外站以及一些垂直领域站点。

Pravega Flink Connector Table API 进阶功能探秘
Pravega Flink Connector Table API 进阶功能探秘

摘要:本文整理自戴尔科技集团软件工程师周煜敏在 Flink Forward Asia 2021 分享的议题《Pravega Flink Connector Table API 进阶功能探秘》,文章内容为:

Flink CDC 系列 - Flink CDC 如何简化实时数据入湖入仓
Flink CDC 系列 - Flink CDC 如何简化实时数据入湖入仓

摘要:本文整理自伍翀 (云邪)、徐榜江 (雪尽) 在 Flink Forward Asia 2021 的分享,该分享以 5 个章节详细介绍如何使用 Flink CDC 来简化实时数据的入湖入仓, 文章的主要内容如下:

Flink 大规模作业调度性能优化
Flink 大规模作业调度性能优化

本文作者洪志龙(柏星)& 朱翥(长耕),分享了如何在 Flink 1.13 版本和 1.14 版本中对 Flink 调度大规模作业的性能进行了优化。主要内容包括:随着 Flink 流批一体架构不断演进和升级,越来越多的用户开始选择用 Flink 来同时承载实时和离线的业务。离线业务和实时业务有一定差异性,其中比较关键的一点是 —— 离线作业的规模通常都远远大于实时作业。超大规模的流批作业对 Flink 的调度性能提出了新的挑战。在基于 Flink 1.12 版本部署大规模流批作业时,用户可能会遇到以下瓶颈:

Apache Flink 不止于计算,数仓架构或兴起新一轮变革
Apache Flink 不止于计算,数仓架构或兴起新一轮变革

作者 | 蔡芳芳采访嘉宾 | 王峰(莫问) 维基百科的 “Apache Flink” 词条下,有这么一句描述:“Flink 并不提供自己的数据存储系统,但为 Amazon Kinesis、Apache Kafka、Alluxio、HDFS、Apache Cassandra 和 Elasticsearch 等系统提供了数据源和接收器”,很快,这句话的前半句或许将不再适用。

Apache Flink ML 2.0.0 发布公告
Apache Flink ML 2.0.0 发布公告

来源 | Apache Flink 官方博客翻译 | 林东,云骞Apache Flink 社区很荣幸地宣布 Apache Flink ML 2.0.0 版本正式发布!Flink ML 提供了算法接口以及基础类,以支持开发具有高易用性,高性能,低延迟的机器学习算法库。

Flink + TiDB,体验实时数仓之美
Flink + TiDB,体验实时数仓之美

本⽂由社区志愿者 L 帮忙整理,内容来源⾃王天宜在 7 月 10 日 Apache Flink x TiDB Meetup · 北京站分享的《Flink + TiDB,体验实时数仓之美》。主要内容包括:

Flink CDC 系列 - Flink MongoDB CDC 在 XTransfer 的生产实践
Flink CDC 系列 - Flink MongoDB CDC 在 XTransfer 的生产实践

本文作者孙家宝,分享如何在 Flink CDC 基础上通过 MongoDB Change Streams 特性实现了 Flink MongoDB CDC Connector。主要内容包括:XTransfer 专注为跨境 B2B 电商中小企业提供跨境金融和风控服务,通过建立数据化、自动化、互联网化和智能化的风控基础设施,搭建通达全球的财资管理平台,提供开立全球和本地收款账户、外汇兑换、海外外汇管制国家申报等多种跨境金融服务的综合解决方案。

Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖

本篇教程将展示如何使用 Flink CDC 构建实时数据湖,并处理分库分表合并同步的场景。Flink-CDC 项目地址:https://github.com/ververica/flink-cdc-connectors

Log4j2 Zero Day 漏洞 Apache Flink 应对指南
Log4j2 Zero Day 漏洞 Apache Flink 应对指南

本文作者俞航翔&李钰,详细说明了 Log4j2 Zero Day 漏洞的影响,以及 Flink 社区的应对方案。主要内容包括:Apache Log4j 是基于 Java 的日志记录工具,Apache Log4j2 重写了 Log4j 并增加了很多丰富的特性。最近,由阿里云安全报告了 Apache log4j2 的 Zero Day 漏洞

Flink CDC 系列 - 实时抽取 Oracle 数据,排雷和调优实践
Flink CDC 系列 - 实时抽取 Oracle 数据,排雷和调优实践

本文作者为中国农业银行研发中心丁杨,在 Flink CDC 2.1 版本发布后第一时间下载使用,并成功实现了对 Oracle 的实时数据捕获以及性能调优,现将试用过程中的一些关键细节进行分享。主要内容包括:

Flink Hudi 0.10.0 发布,多项重要更新,稳定性大幅提升
Flink Hudi 0.10.0 发布,多项重要更新,稳定性大幅提升

随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而 Apache Hudi 是当下最具竞争力的数据湖格式之一:Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持:

伴鱼数据集成平台的设计与实现
伴鱼数据集成平台的设计与实现

数据仓库有四个基本的特征:面向主题的、集成的、相对稳定的、反映历史变化的。其中数据集成是数据仓库构建的首要前提,指将多个分散的、异构的数据源整合在一起以便于后续的数据分析。将数据集成过程平台化,将极大提升数据开发人员的效率。本文主要内容为:

  • 关注
    • qr_code

      微信公众号

      最新前沿最热资讯

    • qr_code

      技术支持钉钉群

      时时刻刻得到帮助

  • TOP