pyspark不支持lzo压缩

原创

wx5fe070c23a956 2023-02-02 09:59:32 博主文章分类：Spark ©著作权

文章标签 hadoop big data apache spark 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者wx5fe070c23a956的原创作品，请联系作者获取转载授权，否则将追究法律责任

pyspark的需要hadoop的支持，具体原理也不是很懂，就是很离谱，由于我的pyspark是直接安转在conda的环境上的，昨晚想跑一个文件，抛出一个pyspark无法找到lzo压缩的异常，最后把lzo压缩删除，
找到hadoop的core-site.xml把lzo配置注释掉重新启动集群，问题解决。
解决不了问题，把提出问题的人解决掉，快乐就是这么简单。
注释掉这些

<property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
        </value>
    </property>

    <property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>