采用并发编程的目的是为了使程序运行得更快,但并不是启动更多的线程就能让程序最大限度地并发执行。如果希望通过多线程让程序运行得更快,会有许多要考虑的问题,比如上下文切换、死锁、以及来自硬件和软件支持的限制等。
一、上下文切换
1、上下文切换的了解
上下文切换是指CPU从一个进程或线程切换到另一个进程或线程,CPU通过给每个线程分配CPU时间片来实现这个机制。时间片是CPU分配给各个线程的时间,因为时间片很短,所以CPU会不停地切换线程执行,让我们感觉多个线程好像是同时执行的,时间片一般是几十毫秒。
CPU会通过时间片分配算法来循环执行任务,当前任务执行了一个时间片后会切换到下一个任务。但在切换前,会保存上一个任务的状态,以便下次切换回这个任务时保持之前执行后的状态。所以,上下文切换就是从当前执行任务切换到另一个任务执行的过程。
另外,进程和线程上下文切换是有区别的。我们已经了解了,上下文切换就是从当前执行任务切换到另一个任务执行的过程,然后再了解一下线程和进程的区别。首先,线程的进程的一部分,而线程是操作系统最小的调度单位,是进程中的执行流,而进程是操作系统的资源分配的基本单位。进程是有独立的内存空间,而线程是共享进程的内存空间。
所以,进程在上下文切换上,要比线程开销大。他们最主要的区别就是线程的切换虚拟内存空间是相同的,而进程则是不同的。线程的上下文切换要比进程快得多。
2、并发和并行和串行
首先,先弄清它们的概念。并发是指事件在一个时间间隔发生,并行是指事件在一个时间同时发生。在执行并发任务时,是指一个单核CPU同时处理多个任务,好比让你一个人干多件事洗菜做饭刷碗。而执行并行任务,则是指多个CPU同时执行多个任务,是物理上的同时发生,好比从原来你一个人洗菜做饭刷碗,变成了你洗菜你媳妇做饭你儿子刷碗。从一个假装同时干三件事,变成了三个人真的同时干三件事。串行,是指所有的任务都会先后执行,完成一个再做下一个。
3、多线程一定快吗
通过java并发编程的艺术 的书中代码例子可以看到:
并发 串行
1万次循环: 1ms 0ms
10万次循环: 1或2ms 1或2ms
100万次循环: 2或3ms 3或4ms
1000万次循环: 6ms 9ms
1亿次循环: 39ms 74ms
与书中的测试结果不太一样,可能是我的CPU要高一点。
结论:在百万次累加操作以下并发执行要比串行慢,百万次时稍好一点,千万次及以上性能要好很多,而且计算量越多越能体现。
10亿次循环: 374ms 729ms
为什么百万次累加以下并发会比串行慢?是因为线程有创建和上下文切换的开销。那么减少上下文切换次数,就可以提高并发的效率。
书中源码:
package FirstChapter;
public class ConcurrencyTest {
private static final long count = 10000;
public static void main(String[] args) throws InterruptedException {
System.out.println("当前操作次数为:" + count);
//并发执行
concurrency();
//串行执行
serial();
}
//并发执行,a的累加操作由另外一个线程执行,b的递减操作依然后主线程来执行
private static void concurrency() throws InterruptedException {
long start = System.currentTimeMillis();
Thread thread = new Thread(new Runnable() {
@Override
public void run() {
long a = 0;
for(int i = 0;i < count;i++)
a += 5;
}
});
thread.start();
long b = 0;
for(int j = 0;j < count;j ++)
b--;
//将对a的累加的任务交由另外的线程执行
thread.join();
long time = System.currentTimeMillis() - start;
System.out.println("并发执行耗时:"+time+"ms");
}
//串行执行,a的累加操作和b递减操作都由主线程来执行
private static void serial() {
long start = System.currentTimeMillis();
long a = 0;
for(int i = 0; i < count; i++) {
a += 5;
}
long b = 0;
for(int i = 0;i < count; i++) {
b--;
}
long spend = System.currentTimeMillis() - start;
System.out.println("串行耗时:"+spend+"ms");
}
}
4、怎样做会减少上下文切换
减少上下文切换的方法有:无锁并发编程、CAS算法(乐观锁的一种实现方式)、使用最少线程、使用协程
无锁并发编程:多线程竞争锁时,会引起上下文切换,所以多线程处理数据时,可以用一些方式避免锁,如将数据的ID按照Hash算法取模分段,不同的线程处理不同段的数据。
CAS算法:java的Atomic包使用CAS算法来更新数据,不需要加锁。
使用最少线程:避免创建不必要的线程,如果任务很少,没必要创建很多线程来处理,这样会使大量线程处于等待状态。
协程:在单线程里实现多任务的调度,和再单线程里维持多个任务间的切换。
在linux系统下,可以用jstack命令查看指定PID进程的线程的工作状态,以此来判断是否有大量闲置线程。
二、死锁
当我们要在多线程情况下对相同的资源进行修改时,可能会需要用到锁。锁在多线程里很常见,运用场景很多,使用简单易于理解。但它同时也会带来一些困扰,那就是可能引起死锁,一旦产生死锁,就会造成系统功能不可用。
只有对不可剥夺的资源才会产生死锁。举一个简单的例子,线程A先获取了A1资源的锁,但需要对A2资源进行修改,申请A2资源的锁,线程B获取了A2资源的锁,但需要对A1资源进行修改,申请A1资源的锁。因为资源不可剥夺,所以线程A和线程B都在互相等待所需资源释放,所以都会阻塞。默认的锁申请是阻塞的。
1、产生死锁的四个必要条件,有一个不符合就不会产生死锁:
1、互斥条件:进程或线程要求对分配资源进行排他性控制,即在同一时间只有一个进程或线程占有。此时若有其它进程或线程申请则只能等待。
2、不剥夺条件:进程或线程未使用完资源之前,不能被其他进程或线程强行夺走,只能自己释放。
3、请求和保持条件:进程或线程已经保持占有了至少一个资源,但又要申请新的资源,但该资源被别的进程或线程占有,此时请求进程或线程被阻塞,但又对已占有资源保持不放。
4、循环等待条件:存在一个循环等待资源的集合,若干进程或线程形成一种头尾相接的循环等待资源关系。
2、避免死锁的常见方法:
避免一个线程同时获取多个锁。
避免一个线程在锁内同时占用多个资源,尽量保证每个锁只占用一个资源。
尝试使用定时锁,使用lock.tryLock(timeout)来替代使用内部锁机制。
对于数据库锁,加锁和解锁必须在一个数据库连接里,否则会出现解锁失败的情况。
三、资源限制
1、什么是资源限制
资源限制是指在进行并发编程时,程序的执行速度受限于计算机硬件或软件资源。比如,服务器带宽只有2MB/S,某个资源的下载速度是1MB每秒,启动10个线程来下载资源,下载速度不会变成10MB/S,所以并发编程时,要考虑到这些资源的限制。硬件资源限制有带宽的上传/下载速度、硬盘读写速度和CPU的处理速度。软件资源限制有数据库的连接数和socket连接数等。
2、资源限制引发的问题
在并发编程中,将代码执行速度加快的原则是,将代码中串行执行的部分变成并发执行(并行)。但如果将某段串行的代码并发执行,因为受限于资源,仍然在串行执行,这个时候程序不仅不会加快执行,反而更慢,因为增加了上下文切换和资源调度的时间。
3、如何解决资源限制的问题
对于硬件资源限制,可以考虑使用集群并行执行程序。既然单机的资源有限制,那么就让程序在多机上运行。比如使用ODPS、Hadoop或者自己搭建服务器集群,不同的机器处理不同的数据。可以通过 "数据ID%机器数",计算得到一个机器编号,然后由对应编号的机器处理这笔数据。
对于软件资源限制,可以考虑使用资源池将资源复用。比如使用连接池将数据库和Socket连接复用,或者在调用对方webservice接口获取数据时,只建立一个连接。
4、在资源限制情况下进行并发编程
如何在资源限制的情况下,让程序执行得更快?方法就是,根据不同的资源限制调整程序的并发度,比如下载文件程序依赖于两个资源:带宽和磁盘读写速度。有数据库操作时,涉及数据库连接数,如果SQL语句执行的非常快,而线程的数量比数据库连接数大很多,则某些线程会被阻塞,等待数据库连接。
摘抄出处:《java并发编程的艺术》
四、常见面试题问题
1、什么是上下文切换
2、线程和进程的异同
3、线程和进程的上下文切换的区别
4、串行和并发的区别
5、如何能减少上下文切换
6、什么情况下适合用多线程
7、什么是死锁,死锁是怎么产生的,如何避免死锁
8、如何排查运行程序中是否产生了死锁,如何恢复