3分钟秒懂大数据
互联网大厂工作人员、专注于 Flink、Spark、ElasticSearch、Clickhouse、Kafka、Hadoop、Hive、Hbase 等技术组件的研究和分享,提供实时数仓、离线数仓、数据湖等最前沿的技术博客!微信公众号【3 分钟秒懂大数据】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink WebUI 详解【初学者适用】
优质大数据干货,包括但不限于前沿技术、性能调优、面经等文章...原创 2025-01-07 19:58:20 · 457 阅读 · 0 评论 -
Flink 1.15.0 单独编译 runtime 模块
问题当在业务代码编写时,不可避免会涉及到对 Flink 源码中的一个或几个模块进行频繁更改,更改之后,需要验证代码的准确性,对需要对 Flink 源码进行编译打包。本文以Flink1.15.0 为例:当对 Flink 1.15.0 进行打包编译时,整体编译打包一次需要花费的时间在 30 分钟以上,如果频繁对其中一个模块进行代码修改,频繁打包,这样效率会非常低下。所以最好的解决办法就是:1、先对整体打包,在 flink-dist 添加不需要编译打包的配置项,形成 flink-dist.jar2、对原创 2022-05-20 11:55:35 · 1624 阅读 · 0 评论 -
大数据面试高频点Flink checkpoint 执行流程及优化方案
Flink checkpoint 核心知识点以优化方案,本文主要从以下几方面进行介绍:1 Checkpoint 执行流程2 checkpoint 执行失败问题分析3 非对齐checkpoint 优化方案4 动态调整 buffer 大小5 通用增量快照1 checkpoint 执行流程如上图所示,chechpoint 在执行过程中,可以简化为可以简化为以下四大步:在数据流中插入 checkpoint barrier;每执行到当前算子时,对算子 sta原创 2022-05-02 15:39:34 · 1310 阅读 · 2 评论 -
Flink on Yarn 远程 debug 应用提交流程及源码分析
采用flink 1.13.2版本对flink on yarn per-job 模式进行流程分析及源码调试原创 2021-12-13 10:34:36 · 2969 阅读 · 6 评论 -
文章硬不硬核,你说了算,土哥怒肝大数据学习路线一条龙!
前言大家好,我是土哥。随着读者数量的不断增加,从8月底到10月中旬,3分钟秒懂大数据 公众号粉丝数已经突破7200+。短短几个月,看着越来越多的读者通过我写的文章而关注到该公众号,我好开心,同时也诚惶诚恐,害怕无法持续输出高质量文章,让读者失望。 但我知道,只有写出让读者心动的文章,才能得其心,土哥会好好加油,为大家持续输出精品文章的。有读者问我,对于大数据小白或者跨行业者,应该如何学习大数据呢?或者说有什么推荐的书籍或者网站?其实这个我很有心得啦,因为我研究生学的就是大数据与人工智原创 2021-10-19 14:46:13 · 1639 阅读 · 1 评论 -
Flink 1.14.0 内存优化你不懂?跟着土哥走就对了(万字长文+参数调优)
关注微信公众号:3分钟秒懂大数据 跟着土哥走,教你秒懂大数据前言大家好,我是土哥。自从写 Flink 系列文章,收到了太多读者的私信,希望我不断更新完善 Flink 专栏,为此,土哥还专门创建了一个文档,用来记录粉丝和读者在使用 Flink 组件时遇到的典型问题。由于 Flink 在大数据流计算中占据非常重要的位置,毫不夸张的说,已经被所有一二线互联网大厂所使用,并且 Flink 组件在 Apache 社区持续占据热...原创 2021-10-09 10:34:37 · 3682 阅读 · 7 评论 -
一口气搞懂「Flink Metrics」监控指标和性能优化,全靠这33张图和7千字(建议收藏)
前言大家好,我是土哥。最近在公司做 Flink 推理任务的性能测试,要对 job 的全链路吞吐、全链路时延、吞吐时延指标进行监控和调优,其中要使用 Flink Metrics 对指标进行监控。接下来这篇文章,干货满满,我将带领读者全面了解 Flink Metrics 指标监控,并通过实战案例,对全链路吞吐、全链路时延、吞吐时延的指标进行性能优化,彻底掌握 Flink Metrics 性能调优的方法和 Metrics 的使用。大纲目录如下:1 Flink Metrics 简介Flink Metri原创 2021-09-30 14:00:31 · 2474 阅读 · 10 评论 -
33张图解flink sql应用提交
前言大家好,我是土哥。这已经是我为读者写的第21篇Flink系列文章了。上周有粉丝在群里问,在流计算平台编写完Flink sql后,为什么通过一键提交按钮,就可以将sql提交到yarn集群上面了?由于现在各大厂对业务分层特别清晰,平台方向和底层技术开发会被单独划分,所以好多大数据同学编写完Flink Sql后,只需通过提交按钮将其提交到集群上,对背后的提交原理些许不太清楚。下面土哥将为大家揭开这层神秘的面纱,挖掘Flink Sql背后的提交原理和源码设计。(硬核文章,建...原创 2021-09-22 12:05:44 · 2482 阅读 · 8 评论 -
Flink1.13.2三种方式安装部署
有位Flink初学者问我有没有Flink的安装教程,看到这后,土哥二话不说直接安排上。以下教程全部使用 Flink1.13.2版本,在普通用户下面部署:1、Standalone部署版本要求:版本节点部署方式flink-1.13.2-bin-scala_2.11.tgz192.168.244.129standalone1.1 将软件安装包放入集群中1.2、软件包解压tar -zxvf flink-1.13.2-bin-scala_2.11原创 2021-09-22 11:49:02 · 11294 阅读 · 13 评论 -
重磅! | Flink1.14新特性预览
欢迎加博主微信:threeknowbigdata,拉你进大数据群、Flink流计算群大家好,我是土哥。目前在某互联网大厂担任大数据算法工程师。今天在查看Flink源码时,发现Flink1.14修复了很多bug,并且提了很多PR,其中完成了33个重要的新特性及优化。Bug修复可见部分截图:Improvement可见部分截图:新版本预计1-2周之内会发布,下面我将带领大家查看一下 Flink1.14的新特性都有哪些?1、流批一体优化流批一体其实从 Flink 1.9 版本开始就受到持续的关注原创 2021-09-08 20:12:36 · 1989 阅读 · 5 评论 -
Kakfa-Flink-Hive集成原理和实战代码
大家好,我是土哥。目前在某互联网大厂担任大数据算法工程师。今天有位粉丝在群里发信息,问有没有Flink DDL的使用资料,表示自己是为刚入门的学习者。为了让这位粉丝快速学会 Flink DDL 使用步骤,下面我将通过Kafka - Flink -Hive这个案例,讲解一下原理,并附上实战代码。1、Flink-Hive理论1.1、Flink-Hive介绍在Flink 1.11 版本中,社区新增了一大功能是实时数仓,可以通过kafka,将kafka sink端的数据实时写入到Hive中。为实现这原创 2021-09-07 13:55:35 · 1272 阅读 · 5 评论 -
Flink面试大全总结(全文6万字、110个知识点、160张图)
添加作者微信:threeknowbigdata,备注Flink,获取文章PDF版本Hello,各位大数据学习爱好者,我是3分钟秒懂大数据公众号的作者土哥,目前在杭州某互联网大厂担任大数据算法工程师,组内专注于Flink流式计算组件以及AB融合技术,为了让更多朋友更清晰的了解流式计算组件,现在我以面试的方式为大家全面总结了Flink所涉及的知识点,全文总共6万字,涉及各种原理,以及源码分析,图片是一张张绘制而出,欢迎大家进行解读!在互联网行业,我们都知道薪资结构跟岗位存在直接关系,如下面这幅关..原创 2021-08-31 10:47:20 · 2556 阅读 · 8 评论 -
硬核!10分钟解读Flink 状态原理(1)
关注并标星微信公众号3分钟秒懂大数据每天1次,打卡阅读获取AI大数据技术、面经、内推信息原文链接:硬核!10分钟解读Flink状态原理(1)前言关于Flink状态存储,同样是面试中的重点考察对象,经常被问到的问题如下:(1)什么是状态?(2)Flink状态类型包含哪些?(3)Flink 广播状态模式了解不?(4)Flink状态接口包含哪些?(5)Flink状态如何存储?(6)Flink状态如何持久化?(7)Flink状态过期后,如何清理?(8)状...原创 2021-08-04 10:10:04 · 248 阅读 · 0 评论 -
Flink 四大基石之时间和水位线原理介绍!
原文链接:Flink四大基石之时间和水位线原理介绍!在Flink中,涉及到时间和水位线这一概念,时间是Flink中的四大基石(Checkpoint、State、Time、Window)之一,是实现流批统一的一个重要特性。本文讲解内容包含以下六部分:Flink 时间分类 WaterMark引入 水印运行原理 水印API调用 侧道输出保障超过WaterMark数据不丢失 WaterMark+EventTimeWindow+Allowed Lateness案例在Fl...原创 2021-07-02 18:50:40 · 597 阅读 · 0 评论 -
Flink SQL 1.13—CDC 实践与一致性分析
原文链接请移步:Flink SQL 1.13—CDC 实践与一致性分析本文将从以下五部分进行分享CDC的原理、使用以及端到端的一致性分析!1、什么是 Flink SQL CDC Connectors2、Flink SQL CDC 原理介绍3、三种数据同步方案4、Flink SQL CDC + JDBC Connector 同步方案验证5、Flink SQL CDC + JDBC Connector 端到端一致性分析在 Flink 1.11 引入了 CDC 机制,CD...原创 2021-06-29 19:05:34 · 1173 阅读 · 5 评论 -
Flink CEP SQL 使用规则及案例介绍
公众号文章链接:Flink CEP SQL 使用规则及案例介绍由于Flink CEP SQL 语法与 Flink SQL语法不太相同,新增许多规则,所以在讲解时,我们通过一个完整的案例来分析具体包含的规则。如下是通过Flink CEP SQL 写的关于金融场景 银行卡盗刷案例。案例介绍:在金融场景中,有时会出现银行卡盗刷现象,犯罪分子利用互联网等技术,在间隔10分钟或者更短时间内,使一张银行卡在不同的两个地方出现多次刷卡记录,这从常规操作来说,在间隔时间很多的情况下,用户是无法同时在两个..原创 2021-06-24 19:43:55 · 838 阅读 · 1 评论 -
Flink CEP 基本概念及使用规则
CEP的概念:Ø复杂事件处理(Complex Event Processing),用于识别输入流中符合指定规则的事件,并按照指定方式输出。Ø起床—>洗漱—>吃饭—>上班一系列串联起来的事件流形成的模式Ø浏览商品—>加入购物车—>创建订单—>支付完成—>发货—>收货事件流形成的模式。通过概念可以了解,CEP主要是识别输入流中用户指定的一些基本规则的事件,然后将这些事件再通过指定方式输出。...原创 2021-06-24 19:37:53 · 664 阅读 · 3 评论 -
Flink SQL 1.13新特性介绍
自从Flink 社区更新Flink1.13版本之后,博主作为一名Flink开发人员,对Flink SQL 1.13进行了探索,接下来将以四个部分对新增的内容进行展开介绍。在整个Flink 1.13版本下,来自全球各地的开发人员共解决ISSUES 1000+,提交PR 200+,针对Flink Table/ SQL模块,解决ISSUES400+。 其中Flink Table / SQL 新增的功能模块主要分为以下5大模块 Window TVF 包含四...原创 2021-06-23 10:31:30 · 819 阅读 · 1 评论 -
pyflink sql udaf 使用流程
当Flink提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF(UDF:user defined function)、(UDAF)、(UDTF)自定义函数类别UDF: 自定义标量函数(User Defined Scalar Function)。一行输入一行输出。UDAF: 自定义聚合函数。多行输入一行输出。UDTF: 自定义表函数。一行输入多行输出或一列输入多列输出。UDAF开发实例: 先看一下json的数据{"productPrice":1}{原创 2021-03-19 13:46:52 · 795 阅读 · 0 评论 -
4 Flink对wordcount进行批处理和流处理
1 Flink使用1.10.1版本1.1 pom.xml配置包名:com.hik.myFlink.Flink74<groupId>com.hik.myFlink</groupId> <artifactId>Flink74</artifactId> <version>1.0-SNAPSHOT</version> <name>Flink74</name> <!-- FIXME .原创 2020-07-15 16:57:14 · 571 阅读 · 0 评论 -
3 DataStream API 简介
本章节是充分全面地了解 DataStream API,以便于编写流式应用入门。1 什么能被转化成流?Flink 的 Java 和 Scala DataStream API 可以将任何可序列化的对象转化为流。Flink 自带的序列化器有基本类型,即 String、Long、Integer、Boolean、Array 复合类型:Tuples、POJOs 和 Scala case classes而且 Flink 会交给 Kryo 序列化其他类型。也可以将其他序列化器和 Flink 一起使用。特别是原创 2020-07-09 16:54:49 · 318 阅读 · 0 评论 -
2 Flink1.11.0 原理及编程模型介绍
你将在本章学习到以下内容:如何实现流数据处理管道(pipelines) Flink 如何管理状态以及为何需要管理状态 如何使用事件时间(event time)来一致并准确地进行计算分析 如何在源源不断的数据流上构建事件驱动的应用程序 Flink 如何提供具有精确一次(exactly-once)计算语义的可容错、有状态流处理本章教程着重介绍四个概念:源源不断的流式数据处理、事件时间、有状态流处理和状态快照。基本概念介绍如下。1 流处理在自然环境中,数据的产生原本就是流式的。无论是来自 W原创 2020-07-09 16:40:11 · 397 阅读 · 0 评论 -
Flink基础概念介绍
1 Flink架构1.1 什么是Flink? Flink 是一个分布式处理引擎框架,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.2 什么是无界流和有界流?任何类型的数据都可以形成一种事件流。 信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。 数据可以被作为 无界 或者 有界 流来处理。...原创 2020-07-09 15:10:52 · 377 阅读 · 1 评论