SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证其存储的key-value数据是按照key的某个顺序存储的,同时不支持append操作。在SequenceFile文件中,每一个key-value被看做是一条记录(Record),因此是基于Record的压缩策略.

写入代码

下面是写入了100条(key,value)的信息,其中以LongWriable为key,以Text作为value.

Configuration config = new Configuration();
        FileSystem fs  = FileSystem.get(conf);
        int i = 0;
        Path path = new Path("/home/lake/hello.xml");
        SequenceFile.Writer writer = null;
        SequenceFile.Writer.Option optPath = SequenceFile.Writer.file(path);
        //定义key
        SequenceFile.Writer.Option optKey = SequenceFile.Writer.keyClass(LongWritable.class);
        //定义value
        SequenceFile.Writer.Option optVal = SequenceFile.Writer.valueClass(Text.class);

        writer = SequenceFile.createWriter(conf, optPath, optKey, optVal);
        //写入的数据可以根据你的情况来定,我这只是测试
        String value = "hello world";

        while(i < 100){
            writer.append(new LongWritable(i),new Text(value));
            i ++;
        }
        writer.close();

上面程序运行完成之后,就可以在指定的路径上看到产生的文件。

读取的代码

Configuration config = new Configuration();
                FileSystem fs  = FileSystem.get(conf);
                Path path = new Path("/home/lake/hello.xml");
                SequenceFile.Reader reader = new SequenceFile.Reader(fs.getConf(), SequenceFile.Reader.file(path));
                List<Object> sampleValues = new ArrayList<Object>();
                Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), fs.getConf());
                Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), fs.getConf());
                int count = 0;
                String keyName = "Key";
                String valueName = "Value";
                //change data to json format
                while (reader.next(key, value) && count < 12) {
sampleValues.add("{\"" + keyName + "\": \"" + key + "\", \"" + valueName + "\": \"" + value + "\"}");
                    count++;
                }