Spark使用HanLP分词

原创

jast_zsh 2023-05-06 15:11:14 博主文章分类：spark ©著作权

文章标签 spark hadoop hdfs ide 配置文件 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者jast_zsh的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark使用HanLP分词

将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：root=hdfs://localhost:9000/tmp/
实现com.hankcs.hanlp.corpus.io.IIOAdapter接口

public static class HadoopFileIoAdapter implements IIOAdapter {

        @Override
        public InputStream open(String path) throws IOException {
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(URI.create(path), conf);
            return fs.open(new Path(path));
        }

        @Override
        public OutputStream create(String path) throws IOException {
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(URI.create(path), conf);
            OutputStream out = fs.create(new Path(path));
            return out;
        }
    }

设置IoAdapter，创建分词器

private static Segment segment;

static {
    HanLP.Config.IOAdapter = new HadoopFileIoAdapter();
    segment = new CRFSegment();
}

然后，就可以在Spark的操作中使用segment进行分词了。

上一篇：HBase原理 – snapshot 快照

下一篇：ElasticSearch7 Kibana集群安装

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯