spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别:
使用spark-shell进入spark shell 交互界面:
输入命令:
sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)
回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。
单文件
gzip zzz.dat # 压缩 源文件被删除 生成zzz.dat.gz
gzip -d zzz.dat.gz 解压,源文件被珊瑚,生成zzz.dat文件
递归压缩,好像 只支持单文件的压缩
[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ lltotal 4drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t[hadoop@mini1 test]$ cd t/[hadoop@mini1 t]$ lltotal 8-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz