HDFS中的读写数据流-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

HDFS中的读写数据流

阅读量：5999 次

发布时间：2019-06-20

本文共 820 字，大约阅读时间需要 2 分钟。

1.文件的读取：

首先、客户端铜鼓调用FileSystem对象中的open（）函数读取它需要的数据。FileSystem是HDFS中DistributeFileSystem的一个实例。DistributeFileSystem会通过RPC协议调用NameNode来确定请求文件所在的位置，对于每个返回的块都包换块所在的DataNode地址，随后这些返回的DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离。然后再进行排序，如果客户端本身就是一个DataNode那么它将从本地读取文件。这里要关注的一个设计要点是，客户端通过NameNode引导获取最合适的DataNode地址，然后直接连接DataNode读取数据。这种设计的好处，这可以使HDFS扩展到更大规模的客户端并行处理。这是因为数据的流动所有的DataNode之间分散进行的，同时NameNode的压力也变小。

2.文件写入

①客户端通过调用DistributeFileSystem对象中的Create（）创建一个文件，通过RPC（）调用在NameNode的文件系统命名空间中创建一个新文件。

②NaneNode会通过多种验证保证新的文件不存在文件系统中，并且确保请求客户端有创建按文件的权限。如果成功distributeFileSystem返回一个FSDataOutputStream给客户端写人数据

③当客户端写入数据时，DFSoutputStream会将文件分割成包，然后放入内部队列，DataStreamer，作用是请求NameNode为新的文件包分配合适的DataNode存放副本。

④DFSoutputStream同时也会保存在一个包的内部队列，用来等待管道中的DataNode返回确认信息。

《hadoop实战第二版》…

机械工业出版社

…..

陆嘉恒著；

转载于:https://my.oschina.net/u/782865/blog/126504

你可能感兴趣的文章

lvreduce -L 1000M /dev/vg0/lv0 表示最后缩减至多大,不是减少了多大

ES 自动恢复分片的时候不恢复了是磁盘超过了85%,然后不恢复了 ES可以配置多个数据目录...

linux查杀病毒的几个思路

构建之法阅读笔记5

Android判断网络连接状态

leetcode_1033. Moving Stones Until Consecutive

logback logback.xml常用配置详解（二）<appender>

js常用的函数库

Sqlserver 数据库安全

netstat命令简单使用

Python标示符命名规则

SSL certificate problem unable to get local issuer certificate解决办法

20145209 刘一阳《网络对抗》实验四：恶意代码分析

个人学期总结

CodeForces 985E Pencils and Boxes

为什么Elasticsearch查询变得这么慢了？

Cetos 中添加bbr服务

win7_64位操作系统安装python3.6.3遇到的问题和解决方法

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-01 19:16:57 当前IP: 3.144.227.73 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我