Each process has its own address space –- in modern processors it is implemented as a set of pages which map virtual addresses to a physical memory. When another process has to be executed on CPU, context switch occurs: after it processor special registers point to a new set of page tables, thus new virtual address space is used. Virtual address space also contains all binaries and libraries and saved process counter value, so another process will be executed after context switch. Processes may also have multiple threads. Each thread has independent state, including program counter and stack, thus threads may be executed in parallel, but they all threads share same address space.


Thread and Process


Process tree in Linux


Processes and threads are implemented through universal ​​task_struct​​​ structure (defined in ​​include/linux/sched.h​​), so we will refer in our book as tasks. The first thread in process is called task group leader and all other threads are linked through list node ​​thread_node​​​ and contain pointer ​​group_leader​​​ which references ​​task_struct​​​ of their process, that is , the ​​task_struct​​ of task group leader. Children processes refer to parent process through ​​parent​​​ pointer and link through ​​sibling​​​ list node. Parent process is linked with its children using ​​children​​ list head.

Relations between ​​task_struct​​ objects are shown in the following picture:


Task which is currently executed on CPU is accessible through ​​current​​​ macro which actually calls function to get task from run-queue of CPU where it is called. To get current pointer in SystemTap, use ​​task_current()​​​. You can also get pointer to a ​​task_struct​​​ using ​​pid2task()​​​ function which accepts PID as its first argument. Task tapset provides several functions similar for functions used as ​​Probe Context​​​. They all get pointer to a ​​task_struct​​ as their argument:

  • ​task_pid()​​​ and ​​task_tid()​​​ –- ID of the process ID (stored in ​​tgid​​​ field) and thread (stored in ​​pid​​​ field) respectively. Note that kernel most of the kernel code doesn't check cached ​​pid​​​ and ​​tgid​​ but use namespace wrappers.
  • ​task_parent()​​​ –- returns pointer to a parent process, stored in ​​parent​​​/​​real_parent​​ fields
  • ​task_state()​​​ –- returns state bitmask stored in ​​state​​​, such as ​​TASK_RUNNING​​​ (0), ​​TASK_INTERRUPTIBLE​​​ (1), ​​TASK_UNINTTERRUPTIBLE​​ (2). Last 2 values are for sleeping or waiting tasks –- the difference that only interruptible tasks may receive signals.
  • ​task_execname()​​​ –- reads executable name from ​​comm​​​ field, which stores base name of executable path. Note that ​​comm​​ respects symbolic links.
  • ​task_cpu()​​ –- returns CPU to which task belongs


There are several other useful fields in ​​task_struct​​:

  • ​mm​​​ (pointer to ​​struct mm_struct​​​) refers to a address space of a process. For example, ​​exe_file​​​ (pointer to ​​struct file​​​) refers to executable file, while ​​arg_start​​​ and ​​arg_end​​ are addresses of first and last byte of argv passed to a process respectively
  • ​fs​​​ (pointer to ​​struct fs_struct​​​) contains filesystem information: ​​path​​​ contains working directory of a task, ​​root​​​ contains root directory (alterable using ​​chroot​​ system call)
  • ​start_time​​​ and ​​real_start_time​​​ (represented as ​​struct timespec​​​ until 3.17, replaced with ​​u64​​ nanosecond timestamps) –- monotonic and real start time of a process.
  • ​files​​​ (pointer to ​​struct files_struct​​) contains table of files opened by process
  • ​utime​​​ and ​​stime​​​ (​​cputime_t​​) contain amount of time spent by CPU in userspace and kernel respectively. They can be accessed through Task Time tapset.

Process tree in Solaris

Solaris Kernel distinguishes threads and processes: on low level all threads represented by ​​kthread_t​​, which are presented to userspace as Light-Weight Processes (or LWPs) defined as ​​klwp_t​​​. One or multiple LWPs constitute a process ​​proc_t​​. They all have references to each other, as shown on the following picture:

Lifetime of a process

Lifetime of a process and corresponding probes are shown in the following image:

Unlike Windows, in Unix process is spawned in two stages:

  • Parent process calls ​​fork()​​​ system call. Kernel creates exact copy of a parent process including address space (which is available in copy-on-write mode) and open files, and gives it a new PID. If ​​fork()​​ is successful, it will return in the context of two processes (parent and child), with the same instruction pointer. Following code usually closes files in child, resets signals, etc.
  • Child process calls ​​execve()​​​ system call, which replaces address space of a process with a new one based on binary which is passed to ​​execve()​​ call.


第一,进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包扩文本区域(text region)、数据区域(data region)和堆栈(stack region)。






  • 动态性:进程的实质是程序在多道程序系统中的一次执行过程,进程是动态产生、消亡的;
  • 并发性:任何进程都可以同其他进程一起并发执行;
  • 独立性:进程是一个能独立运行的基本单位,同时也是系统分配资源和调度的独立单位;
  • 异步性:由于进程间的相互制约,使得进程具有执行的间断性,即进程按各自独立的、不可预知的速度向前推进;


  在面向进程设计的系统(如早期的UNIX,Linux 2.4及更早的版本)中,进程是程序的基本执行实体;在面向线程设计的系统(如当代多数操作系统、Linux 2.6及更新的版本)中,进程本身不是基本运行单位,而是线程的容器。简单地来说,进程与程序是动态与静止的区别,进程与程序是多对一的,同样,线程与进程也是多对一的。

3.1 操作系统是如何组织进程的

在Linux系统中, 进程在​​/linux/include/linux/sched.h​​​ 头文件中被定义为​​task_struct​​​, 它是一个结构体, 一个它的实例化即为一个进程, ​​task_struct​​由许多元素构成, 下面列举一些重要的元素进行分析。

  • 标识符:与进程相关的唯一标识符,用来区别正在执行的进程和其他进程。
  • 状态:描述进程的状态,因为进程有挂起,阻塞,运行等好几个状态,所以都有个标识符来记录进程的执行状态。
  • 优先级:如果有好几个进程正在执行,就涉及到进程被执行的先后顺序的问题,这和进程优先级这个标识符有关。
  • 程序计数器:程序中即将被执行的下一条指令的地址。
  • 内存指针:程序代码和进程相关数据的指针。
  • 上下文数据:进程执行时处理器的寄存器中的数据。
  • I/O状态信息:包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表等。
  • 记账信息:包括处理器的时间总和,记账号等等。

3.1 进程状态(STATE)

在​​task_struct​​结构体中, 定义进程的状态语句为

volatile long state;    /* -1 unrunnable, 0 runnable, >0 stopped */

​valatile​​​关键字的作用是确保本条指令不会因编译器的优化而省略, 且要求每次直接读值, 这样保证了对进程实时访问的稳定性。
进程在​​​/linux/include/linux/sched.h​​​ 头文件中我们可以找到​​state​​的可能取值如下


* Task state bitmask. NOTE! These bits are also

* encoded in fs/proc/array.c: get_task_state().

* We have two separate sets of flags: task->state

* is about runnability, while task->exit_state are

* the task exiting. Confusing, but this way

* modifying one set can‘t modify the other one by

* mistake.
define TASK_TRACED 8

/* in tsk->exit_state */
define EXIT_ZOMBIE 16
define EXIT_DEAD 32

/* in tsk->state again */
define TASK_DEAD 128

根据​​state​​​后面的注释, 可以得到当state<0时,表示此进程是处于不可运行的状态, 当state=0时, 表示此进程正处于运行状态, 当state>0时, 表示此进程处于停止运行状态。
| 状态 | 描述 |
| :---------------------- | :----------------------------------------------------------- |
| 0(TASK_RUNNING) | 进程处于正在运行或者准备运行的状态中 |
| 1(TASK_INTERRUPTIBLE) | 进程处于可中断睡眠状态, 可通过信号唤醒 |
| 2(TASK_UNINTERRUPTIBLE) | 进程处于不可中断睡眠状态, 不可通过信号进行唤醒 |
| 4( TASK_STOPPED) | 进程被停止执行 |
| 8( TASK_TRACED) | 进程被监视 |
| 16( EXIT_ZOMBIE) | 僵尸状态进程, 表示进程被终止, 但是其父程序还未获取其被终止的信息。 |
| 32(EXIT_DEAD) | 进程死亡, 此状态为进程的最终状态 |

3.2 进程标识符(PID)

​c pid_t pid; /*进程的唯一表示*/ pid_t tgid; /*进程组的标识符*/​


3.3 进程的标记(FLAGS)

unsigned int flags; /* per process flags, defined below */



3.4 进程之间的关系

* pointers to (original) parent process, youngest child, younger sibling,
* older sibling, respectively. (p->father can be replaced with
* p->parent->pid)
struct task_struct *real_parent; /* real parent process (when being debugged) */
struct task_struct *parent; /* parent process */
* children/sibling forms the list of my children plus the
* tasks I‘m ptracing.
struct list_head children; /* list of my children */
struct list_head sibling; /* linkage in my parent‘s children list */
struct task_struct *group_leader; /* threadgroup leader */


real_parent指向其父进程,如果创建它的父进程不再存在,则指向PID为1的init进程。 parent指向其父进程,当它终止时,必须向它的父进程发送信号。它的值通常与 real_parent相同。 children表示链表的头部,链表中的所有元素都是它的子进程(进程的子进程链表)。 sibling用于把当前进程插入到兄弟链表中(进程的兄弟链表)。 group_leader指向其所在进程组的领头进程。

3.5 进程调度

3.5.1 优先级

int prio, static_prio, normal_prio;
unsigned int rt_priority;
prio: 用于保存动态优先级
static_prio: 用于保存静态优先级, 可以通过nice系统调用来修改
normal_prio: 它的值取决于静态优先级和调度策略
priort_priority: 用于保存实时优先级

3.5.2 调度策略

unsigned int policy;
cpumask_t cpus_allowed;
policy: 表示进程的调度策略
cpus_allowed: 用于控制进程可以在哪个处理器上运行

​policy​​表示进程调度策略, 目前主要有以下五种策略

* Scheduling policies
#define SCHED_NORMAL 0 //按优先级进行调度
#define SCHED_FIFO 1 //先进先出的调度算法
#define SCHED_RR 2 //时间片轮转的调度算法
#define SCHED_BATCH 3 //用于非交互的处理机消耗型的进程
#define SCHED_IDLE 5//系统负载很低时的调度算法

字段描述所在调度器类SCHED_NORMAL(也叫SCHED_OTHER)用于普通进程,通过CFS调度器实现。SCHED_BATCH用于非交互的处理器消耗型进程。SCHED_IDLE是在系统负载很低时使用CFSSCHED_FIFO先入先出调度算法(实时调度策略),相同优先级的任务先到先服务,高优先级的任务可以抢占低优先级的任务RTSCHED_RR轮流调度算法(实时调度策略),后 者提供 Roound-Robin 语义,采用时间片,相同优先级的任务当用完时间片会被放到队列尾部,以保证公平性,同样,高优先级的任务可以抢占低优先级的任务。不同要求的实时任务可以根据需要用sched_setscheduler()API 设置策略RTSCHED_BATCHSCHED_NORMAL普通进程策略的分化版本。采用分时策略,根据动态优先级(可用nice()API设置),分配 CPU 运算资源。注意:这类进程比上述两类实时进程优先级低,换言之,在有实时进程存在时,实时进程优先调度。但针对吞吐量优化CFSSCHED_IDLE优先级最低,在系统空闲时才跑这类进程(如利用闲散计算机资源跑地外文明搜索,蛋白质结构分析等任务,是此调度策略的适用者)CFS

3.6 进程的地址空间


struct mm_struct *mm, *active_mm;

mm: 进程所拥有的用户空间内存描述符,内核线程无的mm为NULL
active_mm: active_mm指向进程运行时所使用的内存描述符, 对于普通进程而言,这两个指针变量的值相同。但是内核线程kernel thread是没有进程地址空间的,所以内核线程的tsk->mm域是空(NULL)。但是内核必须知道用户空间包含了什么,因此它的active_mm成员被初始化为前一个运行进程的active_mm值。


以上即为操作系统是怎么组织进程的一些分析, 有了这些作为基础, 我们就可以进行下一步的分析


关于linux进程状态(STATE)的定义, 取值以及描述都在进程状态中进行了详细的分析, 这里就不做过多的赘述。

5.1 与进程调度有关的数据结构

在了解进程是如何进行调度之前, 我们需要先了解一些与进程调度有关的数据结构。

5.1.1 可运行队列(runqueue)

在​​/kernel/sched.c​​​文件下, 可运行队列被定义为​​struct rq​​​, 每一个CPU都会拥有一个​​struct rq​​​, 它主要被用来存储一些基本的用于调度的信息, 包括及时调度和CFS调度。在Linux kernel 2.6中, ​​struct rq​​是一个非常重要的数据结构, 接下来我们介绍一下它的部分重要字段:

/*   选取出部分字段做注释   */
spinlock_t lock;

// 此变量是用来记录active array中最早用完时间片的时间
unsigned long expired_timestamp;

//记录该CPU上就绪进程总数,是active array和expired array进程总数和
unsigned long nr_running;

// 记录该CPU运行以来发生的进程切换次数
unsigned long long nr_switches;

// 记录该CPU不可中断状态进程的个数
unsigned long nr_uninterruptible;

// 这部分是rq的最最最重要的部分, 我将在下面仔细分析它们
struct prio_array *active, *expired, arrays[2];

5.1.2 优先级数组(prio_array)

Linux kernel 2.6版本中, 在rq中多加了两个按优先级排序的数组​​active array​​​和​​expired array​​​ 。
这两个队列的结构是​​​struct prio_array​​​, 它被定义在​​/kernel/sched.c​​中, 其数据结构为:

struct prio_array {
unsigned int nr_active; //
DECLARE_BITMAP(bitmap, MAX_PRIO+1); /* include 1 bit for delimiter */
/*开辟MAX_PRIO + 1个bit的空间, 当某一个优先级的task正处于TASK_RUNNING状态时, 其优先级对应的二进制位将会被标记为1, 因此当你需要找此时需要运行的最高的优先级时, 只需要找到bitmap的哪一位被标记为1了即可*/

struct list_head queue[MAX_PRIO]; // 每一个优先级都有一个list头

​Active array​​​表示的是CPU选择执行的运行进程队列, 在这个队列里的进程都有时间片剩余, ​​*active​​​指针总是指向它。
​​​Expired array​​​则是用来存放在​​Active array​​​中使用完时间片的进程, *expired指针总是指向它。
一旦在​​​active array​​​里面的某一个普通进程的时间片使用完了, 调度器将重新计算该进程的时间片与优先级, 并将它从​​active array​​​中删除, 插入到​​expired array​​​中的相应的优先级队列中 。
当active array内的所有task都用完了时间片, 这时只需要将​​​*active​​​与​​*expired​​这两个指针交换下, 即可切换运行队列。

5.2 调度算法(O(1)算法)

5.2.1 介绍O(1)算法

何为O(1)算法: 该算法总能够在有限的时间内选出优先级最高的进程然后执行, 而不管系统中有多少个可运行的进程, 因此命名为O(1)算法。

5.2.2 O(1)算法的原理

在前面我们提到了两个按优先级排序的数组​​active array​​​和​​expired array​​​, 这两个数组是实现O(1)算法的关键所在。
O(1)调度算法每次都是选取在active array数组中且优先级最高的进程来运行。
那么该算法如何找到优先级最高的进程呢? 大家还记得前面​​​prio_array​​​内的​​DECLARE_BITMAP(bitmap, MAX_PRIO+1);​​​字段吗?这里它就发挥出作用了(详情看代码注释), 这里只要找到​​bitmap​​​内哪一个位被设置为了1, 即可得到当前系统所运行的task的优先级(idx, 通过sehed_find_first_bit()方法实现), 接下来找到idx所对应的进程链表(queue), queue内的所有进程都是目前可运行的并且拥有最高优先级的进程, 接着依次执行这些进程,。
该过程定义在​​​schedule​​函数中, 主要代码如下:

struct task_struct *prev, *next;
struct list_head *queue;
struct prio_array *array;
int idx;

prev = current;
array = rq->active;
idx = sehed_find_first_bit(array->bitmap); //找到位图中第一个不为0的位的序号
queue = array->queue + idx; //得到对应的队列链表头
next = list_entry(queue->next, struct task_struct, run_list); //得到进程描述符
if (prev != next) //如果选出的进程和当前进程不是同一个,则交换上下文

6. 对该操作系统进程模型的看法




