大数据 ------hadoop(HDFS文件写的过程)

梦如汐

于 2019-09-26 21:55:10 发布

阅读量466

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Linux与Shell编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45629153/article/details/101479881

Linux与Shell编程专栏收录该内容

5 篇文章

订阅专栏

本文详细阐述了Hadoop分布式文件系统（HDFS）中文件上传的全过程，包括客户端请求、NameNode验证、DataNode分配策略及数据块的传输机制。深入解析了机架感知原理在数据冗余存储中的应用，以及数据包的pipeline传输和应答机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Client 发起文件上传请求, 通过 RPC 与 NameNode 建立通讯, NameNode 检查目标文件是否已存在, 父目录是否存在, 返回是否可以上传

2. Client 请求第一个 block 该传输到哪些 DataNode 服务器上

3. NameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分配, 返回可用的DataNode 的地址如: A, B, CHadoop 在设计时考虑到数据的安全与高效, 数据文件默认在 HDFS 上存放三份, 存储策略为本地一份, 同机架内其它某一节点上一份, 不同机架的某一节点上一份。

4. Client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline）, A 收到请求会继续调用 B, 然后 B 调用 C, 将整个 pipeline 建立完成, 后逐级返回client

5. Client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存）, 以packet 为单位（默认64K）, A 收到一个 packet 就会传给 B, B 传给 C. A 每传一个 packet 会放入一个应答队列等待应答

6. 数据被分割成一个个 packet 数据包在 pipeline 上依次传输, 在 pipeline 反方向上, 逐个发送 ack（命令正确应答）, 最终由 pipeline 中第一个 DataNode 节点 A 将 pipelineack 发送给 Client

7. 当一个 block 传输完成之后, Client 再次请求 NameNode 上传第二个 block 到服务 1

博客等级

码龄6年

25
原创

58
点赞

27
收藏

11
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 大数据之--------hadoop存储(HDFS)

下一篇：: MapReduce运行过程

最新评论

阿里云实际项目应用01--创建表并写入数据
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
FlinkSQL在阿里平台的使用
CSDN-Ada助手: 恭喜您写了第18篇博客！标题“FlinkSQL在阿里平台的使用”非常吸引人。您对于FlinkSQL在阿里平台的应用进行了深入的探索，对读者来说无疑是一次宝贵的学习经验。除了感谢您的分享，我想提供一些建议作为下一步创作的参考。您可以考虑探讨更多实际案例，分享在阿里平台使用FlinkSQL的实践经验，这将进一步丰富读者的知识储备。同时，也可以深入分析在实际应用中遇到的挑战和解决方案，这将对读者解决类似问题时提供有益的指导。期待您未来更多精彩的博客！
Flume采集数据Sink到S3
CSDN-Ada助手: 恭喜你写了第17篇博客！标题“Flume采集数据Sink到S3”听起来非常有深度和实用性。你对Flume的了解和经验一定很丰富，能够分享这样的技术教程对读者来说是非常有价值的。在下一步的创作中，我建议你可以考虑拓展一下主题，比如介绍如何使用Flume采集数据Sink到其他云存储服务，或者分享一些实际案例和经验教训。这样可以让读者更全面地了解不同的数据存储选项，并在实际应用中避免一些常见的错误。继续保持创作的热情和努力，你的博客一定会越来越受欢迎！期待你的下一篇精彩文章。
MySQL列转行
CSDN-Ada助手: 恭喜您写了第16篇博客！标题为“MySQL列转行”，我对您持续创作的努力表示赞赏。您的博客内容一直都很有深度和实用性，对读者来说非常有帮助。在下一步的创作中，我建议您可以考虑探讨一些关于MySQL优化的主题，或者分享一些实际案例与读者分享。谦虚之心是创作的重要品质，我期待您未来更多的精彩作品！
hive基础和入门
CSDN-Ada助手: 恭喜您完成了第14篇博客！标题“hive基础和入门”非常吸引人，让读者对您的博客产生了浓厚的兴趣。不仅如此，您的博客内容也给读者提供了很好的学习资源。不过，我想提供一个谦虚的建议，或许您可以考虑在下一篇博客中深入探讨一些高级的hive技术或应用案例，这样可以进一步拓展读者的知识面。再次恭喜您，期待您未来更多精彩的博客！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。