
Flink
文章平均质量分 72
江畔独步
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink二阶段提交
XA(eXtended Architecture)是指由X/Open 组织提出的分布式交易处理的规范。XA 是一个分布式事务协议,由Tuxedo 提出,所以分布式事务也称为XA 事务。XA 协议主要定义了事务管理器TM(Transaction Manager,协调者)和资源管理器RM(Resource Manager,参与者)之间的接口。其中,资源管理器往往由数据库实现,如Oracle、DB2、MySQL,这些商业数据库都实现了XA 接口,而事务管理器作为全局的调度者,负责各个本地资源的提交和回滚。....原创 2022-08-10 09:06:20 · 4430 阅读 · 0 评论 -
Flink知识点大全总结
全文总计6万字、110个知识点、160张原理、流程图。提纲如下:01、Flink 基础篇Flink是一个以 流 为核心的高可用、高性能的分布式计算引擎。具备 流批一体,高吞吐、低延迟,容错能力,大规模复杂计算等特点,在数据流上提供 数据分发、通信等功能。数据流:所有产生的 数据 都天然带有 时间概念,把 事件 按照时间顺序排列起来,就形成了一个事件流,也被称作数据流。流批一体:首先必须先明白什么是 有界数据 和 无界数据有界数据,就是在一个确定的时间范围内的数据流,有开始,有结束,一旦确定就不会再改变,一转载 2022-07-08 15:02:09 · 11585 阅读 · 4 评论 -
Flinksql insert overwrite 报错 requires that the underlying DynamicTableSink of table
FlinkSql 执行 INSERT OVERWRITE 时报错 requires that the underlying DynamicTableSink of table 'default_catalog.default_database.dwd_xxx' implements the SupportsOverwrite interface.原创 2022-06-01 22:12:23 · 2293 阅读 · 0 评论 -
FlinkSQL实现行转列
说明在hive数仓里,实现一个行转列是很常见的操作,那么如何在 FlinkSQL 中也实现类似的功能呢?以下用以一个样本示例数据来说明。样本数据namelistandy[{“course”:“flink”,“score”:“99”},{“course”:“spark”,“score”:“88”},{“course”:“hadoop”,“score”:“77”}]数据格式化:{ "name": "andy", "list": [{ "course": "flink"原创 2022-05-30 00:05:47 · 6387 阅读 · 0 评论 -
Flink DataStream分流、合流
原文链接:https://blog.csdn.net/wangpei1949/article/details/99698868本文总结Flink DataStream 中非常有用的功能,分流和合流。分流(Split/Side)分流可以将一个流拆分成多个流。基于Split...Select...package com.bigdata.flink;import lombok.extern.slf4j.Slf4j;import org.apache.flink.api.java.tuple.Tup转载 2022-05-26 16:00:38 · 480 阅读 · 0 评论 -
StreamX添加Flink引擎时对scala版本的映射选择
StreamX添加Flink引擎时,报如下错误:FailedThe current Scala version of StreamX is 2.12.7, but the scala version of Flink to be added is 2.11, which does not match, Please check原因分析:由错误提示可以知道,StreamX运行时环境所使用的scala版本是2.12,而当前配置的Flink Standalone集群版本使用的scala版本为2.1原创 2022-05-23 23:13:23 · 1080 阅读 · 0 评论 -
Flink中的JDBC SQL Connector
Flink中的JDBC SQL ConnectorJDBC 连接器允许使用 JDBC 驱动程序从任何关系数据库读取数据并将数据写入数据。 本文档介绍如何设置 JDBC 连接器以针对关系数据库运行 SQL 查询。如果在 DDL 上定义了主键,则 JDBC sink 以 upsert 模式与外部系统交换 UPDATE/DELETE 消息,否则,它以 append 模式运行,不支持消费 UPDATE/DELETE 消息。引入依赖为了使用 JDBC 连接器,使用构建自动化工具(例如 Maven 或 SBT)原创 2022-05-23 11:47:57 · 10433 阅读 · 0 评论 -
实时数仓|基于Flink1.11的SQL构建实时数仓探索实践
原文链接:https://blog.csdn.net/jmx_bigdata/article/details/108045985实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo,涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到:实时数仓的基本架转载 2022-05-19 18:51:37 · 758 阅读 · 3 评论 -
FlinkSQL to MySQL连接器报错:Could not find any factory for identifier ‘jdbc‘
背景在FlinkSql client下尝试将 kafka中映射的虚拟表ods_base_province 导入到mysql表base_province时,抛了如下错误:Flink SQL> INSERT INTO base_provinceSELECT *FROM ods_base_province;[INFO] Submitting SQL update statement to the cluster...[ERROR] Could not execute SQL stateme原创 2022-05-14 21:33:30 · 7530 阅读 · 0 评论 -
Flink1.13中基于flinksql实时数仓简易demo
一、实验环境环境 & 软件版本LinuxOSCentOS 7Flink1.13.6kafka0.11.0Zookeeper3.4.5二、实验原理通过Flink1.13中 FlinkSQL 客户端构建2张虚拟表:sonfather来映射到kafka中与之对应的topic上:sonfather通过一个简单的join来模拟一个虚拟视图实时展示数据join之后的效果,从而简单模拟实时报表或实时数仓的join操作。Flink原创 2022-05-11 23:43:02 · 1283 阅读 · 0 评论 -
FlinkSQL to Kafka连接器报错:could not find any factory for identifier ‘kafka‘ that implements
一、软件环境环境 & 软件版本LinuxOSCentOS 7Flink Standalone单节点测试集群1.13.6kafka0.11.0Zookeeper3.4.5二、启动FlinkSql Client1.13.6版本的flink中的flinksql客户端还是Beta版本启动FlinkSql客户端:[bigdata_admin@dn5 bin]$ ./sql-client.sh embeddedSetting HADOOP_CONF_原创 2022-05-11 21:24:50 · 6533 阅读 · 0 评论 -
Flink从1.7到1.14版本升级汇总
本文分为上下两部分Flink从1.7到1.14版本升级汇总(下)一 .前言官方发布了Flink1.14版本,但是遗憾的是,中文官网中的案例和资料还都是基于很古老的版本。所以大家照着官网资料跑不通基本代码也是很正常的。所以整理一下从1.7 版本到1.14版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数。二 .Flink 1.7 版本在 Flink 1.7.0,我们更关注实现快速数据处理以及以无缝方式为 Flink 社区构建数据密集型应用程序。我们最新版本包括一些令人兴奋的新转载 2022-05-10 21:02:49 · 5159 阅读 · 0 评论 -
Flink编程里常用的隐式转换(scala版本)
import org.apache.flink.streaming.api.scala._import org.apache.flink.table.api._import org.apache.flink.table.api.bridge.scala._原创 2022-03-29 16:53:11 · 2179 阅读 · 0 评论 -
Flink重点难点:Flink Table&SQL必知必会(一)
在阅读本文之前,你应该阅读过的系列:《Flink重点难点:时间、窗口和流Join》《Flink重点难点:网络流控和反压》《Flink重点难点:维表关联理论和Join实战》《Flink重点难点:内存模型与内存结构》什么是Table API和Flink SQLFlink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合转载 2022-03-29 16:13:36 · 2210 阅读 · 0 评论 -
Flink Table与其他类型的转换
1. 将DataStream转换成Table//DataStream可直接转换为Table,方便调用Table api做各种转换、输出操作val dataStream: DataStream[YourModelObject] = ...val table: Table = tableEnv.fromDataStream(dataStream)//转换后的Table schema 与DataStream中定义的属性一一对应, 亦可显式指定出来,如:val dataStream: DataStr.原创 2022-03-29 14:33:11 · 2219 阅读 · 0 评论 -
Flink延迟数据处理3件套
Flink延迟数据处理3件套| watermark(水位线)| allowedLateness(最大迟到数据)| sideOutputLateData(侧输出流)样例代码:package com.andy.flink.demo.datastream.sideoutputsimport com.andy.flink.demo.datastream.sideoutputs.FlinkHandleLateDataTest2.SensorReadingimport org.apache.fl原创 2022-03-23 12:05:32 · 4001 阅读 · 0 评论 -
Flink的状态管理机制
一、前言有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。下面的几个场景都需要使用流处理的状态功能:数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。检查输入流是否符合某个特定的模式,需要将之前流入的元素以状态的形式缓存下来。比如,判断一个温度传感器数据流中的温度是否在持续上升。对一个时间窗口内的数据进行聚合分析,分析一个小时内某项指标的75分位或99分位的数值。原创 2022-03-21 13:41:21 · 625 阅读 · 0 评论 -
Flink 中极其重要的 Time 与 Window 详细解析
转自: https://mp.weixin.qq.com/s/S-RmP5OWiGqwn-C_TZNO5A感谢!转载 2022-03-15 11:21:04 · 370 阅读 · 0 评论 -
Flink算子大全
Flink和Spark类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream)。所以下面将Flink的算子分为两大类:一类是DataSet,一类是DataStream。DataSet一、Source算子1. fromCollectionfromCollection:从本地集合读取数据例:val env = ExecutionEnvironment.getExecutionEnvironmentval textDataSet: DataSe原创 2022-03-15 11:00:47 · 8012 阅读 · 1 评论 -
Maven快速构建flink项目骨架(二、IDEA GUI方式)
生成好的pom.xml内容如下:<!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses th...原创 2022-03-03 18:43:09 · 2964 阅读 · 0 评论 -
Flink Time和Watermark的理解
Flink Time和Watermark的理解1. Time背景在实际开发过程中,我们可能需要接入各种流数据源,比如在线业务用户点击流数据、监控系实时收集到的事件流数据、从传感器采集到的实时数据,等等,为了处理方便他们可能会写入Kafka消息中间件集群中某个/某些topic中,或者选择其它的缓冲/存储系统。这些数据源中数据元素具有固定的时间属性,是在流数据处理系统之外的其它系统生成的。比如,上亿用户通过手机终端操作触发生成的事件数据,都具有对应的事件时间;再特殊一点,可能我们希望回放(Repla转载 2020-09-07 20:30:06 · 278 阅读 · 0 评论 -
追源索骥:透过源码看懂Flink核心框架的执行流程
转载自:https://github.com/bethunebtj/flink_tutorial/blob/master/%E8%BF%BD%E6%BA%90%E7%B4%A2%E9%AA%A5%EF%BC%9A%E9%80%8F%E8%BF%87%E6%BA%90%E7%A0%81%E7%9C%8B%E6%87%82Flink%E6%A0%B8%E5%BF%83%E6%A1%86%E6%9E%B...转载 2019-06-04 14:58:40 · 769 阅读 · 0 评论 -
centos7安装flink1.7.2(standalone cluster HA模式)
目录一、服务规划 1.1 Requirements list: 1.2 Server部署角色列表: 1.3 部署方式 二、软件准备 1、 下载合适的Flink版本 三、 安装flink 1、 创建my_admin用户 2、3节点两两免密配置 3、解压flink安装文件 4、hdfs支撑...原创 2019-05-21 20:43:45 · 1896 阅读 · 0 评论