如题:有List<String> list1和List<String> list2,两个集合各有上万个元素,怎样取出两个集合中不同的元素?
方法1:遍历两个集合
1 public static void main(String[] args) {
2 List<String> list1 = new ArrayList<String>();
3 List<String> list2 = new ArrayList<String>();
4
5 for(int i = 0; i < 10000; i++){
6 list1.add("test" + i);
7 list2.add("test" + i*2);
8 }
9 getDifferent(list1, list2);
10 getDiffrent2(list1, list2);
11 getDiffrent3(list1, list2);
12 getDiffrent4(list1, list2);
13 }
14
15 private static List<String> getDifferent(List<String> list1, List<String> list2){
16 long startTime = System.currentTimeMillis();
17 List<String> diff = new ArrayList<String>();
18 for(String str : list1){
19 if(!list2.contains(str)){
20 diff.add(str);
21 }
22 }
23 System.out.println("Total Time: " + (System.currentTimeMillis() - startTime));
24 return diff;
25 }
千万不要采用这种方法,总共要循环的次数是两个List的size相乘的积,从输出看耗时也是比较长的,那么我们有没有其他的方法呢?当然有.
方法2:采用List提供的retainAll()方法:
1 public static void main(String[] args) {
2 List<String> list1 = new ArrayList<String>();
3 List<String> list2 = new ArrayList<String>();
4
5 for (int i = 0; i < 10000; i++) {
6 list1.add("test" + i);
7 list2.add("test" + i * 2);
8 }
9 getDifferent(list1, list2);
10 }
11
12 private static List<String> getDiffrent2(List<String> list1, List<String> list2) {
13 long startTime = System.currentTimeMillis();
14 list1.retainAll(list2);
15 System.out.println("Total Time: " + (System.currentTimeMillis() - startTime));
16 return list1;
17 }
很遗憾,这种方式虽然只要几行代码就搞定,但是这个却更耗时,查看retainAll()的源码:
1 public boolean retainAll(Collection<?> c) {
2 boolean modified = false;
3 Iterator<E> e = iterator();
4 while (e.hasNext()) {
5 if (!c.contains(e.next())) {
6 e.remove();
7 modified = true;
8 }
9 }
10 return modified;
11 }
无需解释这个耗时是必然的,那么我们还有没有更好的办法呢?仔细分析以上两个方法中我都做了mXn次循环,其实完全没有必要循环这么多次,我们的需求是找出两个List中的不同元素,那么我可以这样考虑:用一个map存放lsit的所有元素,其中的key为lsit1的各个元素,value为该元素出现的次数,接着把list2的所有元素也放到map里,如果已经存在则value加1,最后我们只要取出map里value为1的元素即可,这样我们只需循环m+n次,大大减少了循环的次数。
1 private static List<String> getDiffrent3(List<String> list1, List<String> list2) {
2 long startTime = System.currentTimeMillis();
3 Map<String, Integer> map = new HashMap<String, Integer>(list1.size() + list2.size());
4 List<String> diff = new ArrayList<String>();
5 for (String string : list1) {
6 map.put(string, 1);
7 }
8 for (String string : list2) {
9 Integer cc = map.get(string);
10 if (cc != null) {
11 map.put(string, ++cc);
12 continue;
13 }
14 map.put(string, 1);
15 }
16 for (Map.Entry<String, Integer> entry : map.entrySet()) {
17 if (entry.getValue() == 1) {
18 diff.add(entry.getKey());
19 }
20 }
21 System.out.println("Total Time: " + (System.currentTimeMillis() - startTime));
22 return list1;
23 }
显然,这种方法大大减少耗时,是方法1的1/4,是方法2的1/40,这个性能的提升时相当可观的,但是,这不是最佳的解决方法,观察方法3我们只是随机取了一个list作为首次添加的标准,这样一旦我们的list2比list1的size大,则我们第二次put时的if判断也会耗时,做如下改进:
1 private static List<String> getDiffrent4(List<String> list1, List<String> list2) {
2 long st = System.nanoTime();
3 Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size());
4 List<String> diff = new ArrayList<String>();
5 List<String> maxList = list1;
6 List<String> minList = list2;
7 if(list2.size()>list1.size())
8 {
9 maxList = list2;
10 minList = list1;
11 }
12 for (String string : maxList) {
13 map.put(string, 1);
14 }
15 for (String string : minList) {
16 Integer cc = map.get(string);
17 if(cc!=null)
18 {
19 map.put(string, ++cc);
20 continue;
21 }
22 map.put(string, 1);
23 }
24 for(Map.Entry<String, Integer> entry:map.entrySet())
25 {
26 if(entry.getValue()==1)
27 {
28 diff.add(entry.getKey());
29 }
30 }
31 System.out.println("getDiffrent4 total times "+(System.nanoTime()-st));
32 return diff;
33
34 }
这里对连个list的大小进行了判断,小的在最后添加,这样会减少循环里的判断,性能又有了一定的提升,正如一位朋友所说,编程是无止境的,只要你认真去思考了,总会找到更好的方法!
非常感谢binglian的指正,针对List有重复元素的问题,做以下修正,首先明确一点,两个List不管有多少个重复,只要重复的元素在两个List都能找到,则不应该包含在返回值里面,所以在做第二次循环时,这样判断:如果当前元素在map中找不到,则肯定需要添加到返回值中,如果能找到则value++,遍历完之后diff里面已经包含了只在list2里而没在list2里的元素,剩下的工作就是找到list1里有list2里没有的元素,遍历map取value为1的即可:
1 private static List<String> getDiffrent5(List<String> list1, List<String> list2) {
2 long st = System.nanoTime();
3 List<String> diff = new ArrayList<String>();
4 List<String> maxList = list1;
5 List<String> minList = list2;
6 if(list2.size()>list1.size())
7 {
8 maxList = list2;
9 minList = list1;
10 }
11 Map<String,Integer> map = new HashMap<String,Integer>(maxList.size());
12 for (String string : maxList) {
13 map.put(string, 1);
14 }
15 for (String string : minList) {
16 if(map.get(string)!=null)
17 {
18 map.put(string, 2);
19 continue;
20 }
21 diff.add(string);
22 }
23 for(Map.Entry<String, Integer> entry:map.entrySet())
24 {
25 if(entry.getValue()==1)
26 {
27 diff.add(entry.getKey());
28 }
29 }
30 System.out.println("getDiffrent5 total times "+(System.nanoTime()-st));
31 return diff;
32
33 }