记录一下spark和pyspark在Zeppelin里面访问lzo文件报错的问题。由于甲方全球500强极度抠门,死活不愿意加服务器,然后接入的数据源又多,小集群很快就会被撑满,所以没办法,原始日志均采用lzo压缩存储。hadoop和spark都是采用正版Cloudera Manager部署,这方面没有太大问题。在命令行方式下,spark-shell是完全可以直接读取lzo的。但是在Zeppelin
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号