版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Beyond_F4/article/details/80838747
最近经常需要操作hadoop集群进行文件读、写、上传、下载等
这里总结一下使用方法:
首先需要借助三方库pyhdfs
创建一个hadoop连接对象
hdfs_client = pyhdfs.HdfsClient(hdfs_ip,hdfs_port,hdfs_user)
假设hadoop现有目录:/home/data/下有一个文件2018-06-28.out
那么我们如何查看该目录下的文件呢?
方法(类似于os)如下:
hdfs_client.listdir(‘/home/data’)
如果要将该文件拉到本地怎么办?
hdfs.client.copy_to_local('/home/data/2018-06-28.out','/local_path/2018-06-28.out')
如果要将本地的一个文件上传到hadoop怎么办?
hdfs.client.copy_from_local('/local_path/2018-06-28.out','/home/data/2018-06-28.out')
如果要读取hadoop上文件内容怎么办?
with hdfs.client.open(file)as f:
data_list = f.readlines( )
for data in data_list:
print(data.decode())
随着工作中需求的变化,博客会持续更新