java 通过stream load 导入数据到doris java .stream().collect()

转载

mob64ca14137e4f 2024-04-10 13:03:30

文章标签 Java 8 Stream Collectors groupingBy partitioningBy 文章分类 Java 后端开发

Stream 是对集合（Collection）对象功能的增强，它专注于对集合对象进行各种非常便利、高效的聚合操作（aggregate operation），或者大批量数据操作 (bulk data operation)。

Stream的使用，会使代码更加简洁易读；而且Java 8 的 Stream 使用并发模式，程序执行速度更快。

简单的说明下 java.util.stream.Collectors 类：

java.util.stream.Collectors 类的主要作用就是辅助进行各类有用的 reduction 操作，例如转变输出为 Collection，把 Stream 元素进行归组。

#1. groupingBy/partitioningBy

# 按照年龄归组

Map<Integer, List<Person>> personGroups = Stream.generate(new PersonSupplier())
         .limit(100)
         .collect(Collectors.groupingBy(Person::getAge));
Iterator it = personGroups.entrySet().iterator();
while(it.hasNext()) {
      Map.Entry<Integer, List<Person>> persons = (Map.Entry) it.next();
      System.out.println("Age " + persons.getKey() + " = " + persons.getValue().size());
}

上面的 code，首先生成 100 人的信息，然后按照年龄归组，相同年龄的人放到同一个 list 中，可以看到如下的输出：

Age 0 = 2
Age 1 = 2
Age 5 = 2
Age 8 = 1
Age 9 = 1
Age 11 = 2
......

# 按照未成年人和成年人归组

Map<Boolean, List<Person>> children = Stream.generate(new PersonSupplier())
        .limit(100)
        .collect(Collectors.partitioningBy(p -> p.getAge() < 18));
System.out.println("Children number: " + children.get(true).size());
System.out.println("Adult number: " + children.get(false).size());

输出结果：

Children number: 23
Adult number: 77

在使用条件“年龄小于 18”进行分组后可以看到，不到 18 岁的未成年人是一组，成年人是另外一组。partitioningBy 其实是一种特殊的 groupingBy，它依照条件测试的是否两种结果来构造返回的数据结构，get(true) 和 get(false) 能即为全部的元素对象。

#2. Stream 的特性可以归纳为：

不是数据结构
它没有内部存储，它只是用操作管道从 source（数据结构、数组、generator function、IO channel）抓取数据。
它也绝不修改自己所封装的底层数据结构的数据。例如 Stream 的 filter 操作会产生一个不包含被过滤元素的新 Stream，而不是从 source 删除那些元素。
所有 Stream 的操作必须以 lambda 表达式为参数
不支持索引访问
你可以请求第一个元素，但无法请求第二个，第三个，或最后一个。不过请参阅下一项。
很容易生成数组或者 List
惰性化
很多 Stream 操作是向后延迟的，一直到它弄清楚了最后需要多少数据才会开始。
Intermediate 操作永远是惰性化的。
并行能力
当一个 Stream 是并行化的，就不需要再写多线程代码，所有对它的操作会自动并行进行的。
可以是无限的
集合有固定大小，Stream 则不必。limit(n) 和 findFirst() 这类的 short-circuiting 操作可以对无限的 Stream 进行运算并很快完成。