一、List Set 区别
- List 有序,可重复;
- Set 无序,不重复;
二、List Set 实现类间区别及原理
- Arraylist 底层实现使用Object[],数组查询效率高(Vector,原理类似,元素操作方法上添加了synchronized修饰,保证线程安全,所以效率低)
扩容机制
1.6采用(capacity * 3)/ 2 + 1,默认容量为10;
1.7采用(capacity >> 2 + capacity)实现,位移动效率高于数学运算,右移一位等于乘以2倍;
capacity >> 1) + capacity)实现。
(Vector:capacity + ((capacityIncrement > 0)? capacityIncrement : capacity))
capacityIncrement:自定义扩容长度
读取速度快,写入会涉及到扩容,所以相对较慢。
- LinkedList底层采用双向链表,只记录 first 和 last(LinkedList.Node);
- Node记录 E item; Node<E> next; Node<E> prev;
- 写入速度快,但是读取速度相对较慢;
- HashSet 无序,不重复。
- 去重原理:所有值保存至HashMap的key中,利用HashMap的键不重复原理达到去重效果;
- ArrayList去重可采用:new ArrayList(new HastSet(list));
- TreeSet 有序,不重复。
- 底层采用TreeMap;
三、Map 实现原理及实现类对比
1. HashMap 线程不安全,无序
1) 内部保存以数组 HashMap.Entry<K, V>[] 形式
1 static class Entry<K, V> implements Map.entry<K, V> {
2 final K key;
3 V value;
4 Entry<K, V> next;
5 int hash;
6
7 Entry(int h, K k, V v, Entry<K, V> n) {
8 value = v;
9 next = n;
10 key = k;
11 hash = h;
12 }
13 }
2) 线程不安全原因:
a 在数据操作方法上未采用synchronized同步标识,当多线程发生hash碰撞时,针对hash相等的key只会有一个能成功;
b 如果上面情况涉及到resize扩容情况,每个线程内都会对内部数组进行重新创建,但只有一个会成功;
3) 扩容(默认大小为16,2的四次方):
capacity = (capacity * 2 * loadFactor)
loadFactor:系数因子,默认为0.75,时间与空间的权衡结果
容量达到0.75时提前扩容;
4) 可通过LinkedHashMap达到有序效果;
2. Hashtable 内部原理及使用几乎等于HashMap,不同的是 所有操作数据方法都进行了 synchronized 修饰,即同步处理,线程安全,但这导致单线程访问情况下效率要低于HashMap;
JDK4将Hashtable实现了Map接口,在JDK5中创建了替代类:ConcurrentHashMap(同步的HashMap)
HashMap想要同步可以采用 java.util.Collections.synchronizeMap(hashMap)(jdk2出现);
同理:
Collections.synchronizeCollection(Collection<T> c)
Collections.synchronizeList(List<T> list)
Collections.synchronizeSet(Set<T> s)
Collections.synchronizeSortedMap(SortedMap<K, V> m)
Collections.synchronizeSortedSet(SortedSet<T> s)
迭代HashMap采用快速失败机制,而hashTable不是;
注:快速失败模式指设计用来即时报告可能会导致失败的任何故障情况,通常会用来停止正常的操作而不是尝试继续做可能有缺陷的工作。与iterator有关,如一个iterator在集合对象上创建了,其他线程欲“结构化”的修改此集合对象,会抛出修改异常(ConcurrentModificationException)
3. 建议优先考虑使用HashMap
a. 单线程下效率高;
b. 想排序可转换LinkedHashMap使用;
c. 多线程下可采用 Collections.synchronizeMap(hashMap) 代替
待学习:
JDK8中的优化点