博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark读取gz文件
阅读量:6213 次
发布时间:2019-06-21

本文共 542 字,大约阅读时间需要 1 分钟。

spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别:

使用spark-shell进入spark shell 交互界面:

输入命令:

sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。

 单文件

 

 gzip zzz.dat # 压缩 源文件被删除 生成zzz.dat.gz

 gzip -d  zzz.dat.gz  解压,源文件被珊瑚,生成zzz.dat文件

递归压缩,好像 只支持单文件的压缩

[hadoop@mini1 test]$ gzip -r t

[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 Aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 Aug 9 12:21 t2.dat.gz

 

 

 

转载地址:http://tgsja.baihongyu.com/

你可能感兴趣的文章
linux下redis安装
查看>>
弃 Java 而使用 Kotlin 的你后悔了吗?| kotlin将会是最好的开发语言
查看>>
JavaScript 数据类型
查看>>
量子通信和大数据最有市场突破前景
查看>>
StringBuilder用法小结
查看>>
对‘初学者应该选择哪种编程语言’的回答——计算机达人成长之路(38)
查看>>
如何申请开通微信多客服功能
查看>>
Sr_C++_Engineer_(LBS_Engine@Global Map Dept.)
查看>>
非监督学习算法:异常检测
查看>>
App开发中甲乙方冲突会闹出啥后果?H5 APP 开发可以改变现状吗
查看>>
jquery的checkbox,radio,select等方法总结
查看>>
Linux coredump
查看>>
Ubuntu 10.04安装水晶(Mercury)无线网卡驱动
查看>>
Myeclipes快捷键
查看>>
癌细胞最偏爱10个字,你却每天都在喂养“它”!
查看>>
功能测试的国别差异(日本与欧美)
查看>>
我的友情链接
查看>>
ToRPC:一个双向RPC的Python实现
查看>>
Ubuntu 14 Open Ldap Add Root
查看>>
Vim脚本 - 竖线'|' 和反斜线'\'
查看>>