pyspark的需要hadoop的支持,具体原理也不是很懂,就是很离谱,由于我的pyspark是直接安转在conda的环境上的,昨晚想跑一个文件,抛出一个pyspark无法找到lzo压缩的异常,最后把lzo压缩删除,
找到hadoop的core-site.xml把lzo配置注释掉重新启动集群,问题解决。
解决不了问题,把提出问题的人解决掉,快乐就是这么简单。
注释掉这些

<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec
</value>
</property>

<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>