什么是全量数据、增量数据？如何统一一套系统？

「已注销」

已于 2022-07-01 08:03:28 修改

阅读量1.1w

点赞数 8

CC 4.0 BY-SA版权

文章标签：大数据数据库

于 2022-07-01 07:54:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58873085/article/details/125551375

本文介绍了全量数据和增量数据的概念及其在大数据场景下的应用，并探讨了如何使用统一的系统来处理这两种类型的数据，特别提到了Spark和Flink两种开源数据引擎的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是全量数据、增量数据？

二、如何统一一套系统

1.为什么需要统一一套系统来处理全量数据和增量数据？

2.如何实践？

一、什么是全量数据、增量数据？

全量数据和增量数据是在数据库系统迁移时的概念。

1.全量数据：

当前需要迁移的数据库系统的全部数据。

2.增量数据：

在数据库系统迁移过程中，新产生的数据即为增量数据，这些数据直接保存到数据库系统。

*** 在典型的大数据业务场景下，全量数据采用批处理来完成，实时增长的数据采用流式计算来完成。

二、如何统一一套系统

1.为什么需要统一一套系统来处理全量数据和增量数据？

全量数据和增量数据的处理方式不同，批处理和流处理的计算引擎不同时，这可能意味着需要两套代码，增加了额外的成本。

2.如何实践？

开源的数据引擎能同时实现流处理和批处理的计算引擎有 spark 和 flink。

Spark是通过批处理来模拟流处理的（微批处理），有一定的技术局限性。

Flink则是真正的流处理，定义了有界流和无界流，批处理工作在有界流，流处理工作在无界流，从长远来看，Flink是一个很好的选择。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。