目录
一.引言
上一篇文章介绍了 DataStream keyBy 生成 KeyedStream 的原理,这篇文章趁热打铁解决一下实战场景下经常遇到的数据倾斜示例,对于原始数据源就不均匀的情况,通过 reblacne 即可解决,本文主要解决 keyBy 后使用 window 的数据倾斜场景并给出更加通用的方法判断自己数据的倾斜程度。
二.Flink 本地任务 + 本地 WebUI 监控实现
为了方便任务观察 window 下 subtask 的处理数据量,我们采用 Flink 本地提交 + URL 的模式,如果在实战中想要查看官方的统计监控,也可以参考 Flink/Scala Metrics 使用与详解,这样具体的数据在 Flink 监控 UI 中就可以看到。