C语言的本质（25）——C标准库之内存管理

原创

yinchengmvp 2021-07-14 10:28:19 ©著作权

文章标签 C语言编程 linux C/C++ VC++编程技术编程 文章分类 C/C++ 后端开发

©著作权归作者所有：来自51CTO博客作者yinchengmvp的原创作品，请联系作者获取转载授权，否则将追究法律责任

程序中需要动态分配一块内存时怎么办呢？我们可以定义一个缓冲区数组，但是这种方法不够灵活，C89要求定义的数组是固定长度的，而程序往往在运行时才知道要动态分配多大的内存，例如：

void foo(char *str, int n)
{
         charbuf[?];
         strncpy(buf,str, n);
......
}

n是由参数传进来的，事先不知道是多少，那么buf该定义多大呢？在第 1 节 “数组的基本操作”讲过C99引入VLA特性，可以定义charbuf[n+1] = {};，这样可确保buf是以'\0'结尾的。但即使用VLA仍然不够灵活，VLA是在栈上动态分配的，函数返回时就要释放，如果我们希望动态分配一块全局的内存空间，在各函数中都可以访问呢？由于全局数组无法定义成VLA，所以仍然不能满足要求。

进程有一个堆空间，C标准库函数malloc可以在堆空间动态分配内存，它的底层通过brk系统调用向操作系统申请内存。动态分配的内存用完之后可以用free释放，更准确地说是归还给malloc，这样下次调用malloc时这块内存可以再次被分配。

下面详细说明这两个函数的用法和工作原理。

#include <stdlib.h>
void *malloc(size_t size);

返回值：成功返回所分配内存空间的首地址，出错返回NULL

void free(void *ptr);

malloc的参数size表示要分配的字节数，如果分配失败（可能是由于系统内存耗尽）则返回NULL。由于malloc函数不知道用户拿到这块内存要存放什么类型的数据，所以返回通用指针void *，用户程序可以转换成其它类型的指针再访问这块内存。malloc函数保证它返回的指针所指向的地址满足系统的对齐要求，例如在32位平台上返回的指针一定对齐到4字节边界，以保证用户程序把它转换成任何类型的指针都能用。

动态分配的内存用完之后可以用free释放掉，传给free的参数正是先前malloc返回的内存块首地址。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
 
typedef struct {
         intnumber;
         char*msg;
} unit_t;
 
int main(void)
{
         unit_t*p = malloc(sizeof(unit_t));
 
         if(p == NULL) {
                   printf("outof memory\n");
                   exit(1);
         }
         p->number= 3;
         p->msg= malloc(20);
         strcpy(p->msg,"Hello world!");
         printf("number:%d\nmsg: %s\n", p->number, p->msg);
         free(p->msg);
         free(p);
         p= NULL;
 
         return0;
}

关于这个程序需要注意：

unit_t *p = malloc(sizeof(unit_t));这一句，等号右边是void*类型，等号左边是unit_t *类型，编译器会做隐式类型转换，我们讲过void *类型和任何指针类型之间可以相互隐式转换。

虽然内存耗尽是很不常见的错误，但写程序要规范，malloc之后应该判断是否成功。以后要学习的大部分系统函数都有成功的返回值和失败的返回值，每次调用系统函数都应该判断是否成功。

free(p);之后，p所指的内存空间是归还了，但是p的值并没有变，因为从free的函数接口来看根本就没法改变p的值，p现在指向的内存空间已经不属于用户，换句话说，p成了野指针，为避免出现野指针，我们应该在free(p);之后手动置p = NULL;。

应该先free(p->msg)，再free(p)。如果先free(p)，p成了野指针，就不能再通过p->msg访问内存了。

上面的例子只有一个简单的顺序控制流程，分配内存，赋值，打印，释放内存，退出程序。这种情况下即使不用free释放内存也可以，因为程序退出时整个进程地址空间都会释放，包括堆空间，该进程占用的所有内存都会归还给操作系统。但如果一个程序长年累月运行（例如网络服务器程序），并且在循环或递归中调用malloc分配内存，则必须有free与之配对，分配一次就要释放一次，否则每次循环都分配内存，分配完了又不释放，就会慢慢耗尽系统内存，这种错误称为内存泄漏（Memory Leak）。另外，malloc返回的指针一定要保存好，只有把它传给free才能释放这块内存，如果这个指针丢失了，就没有办法free这块内存了，也会造成内存泄漏。例如：

void foo(void)
{
         char*p = malloc(10);
......
}

foo函数返回时要释放局部变量p的内存空间，它所指向的内存地址就丢失了，这10个字节也就没法释放了。内存泄漏的Bug很难找到，因为它不会像访问越界一样导致程序运行错误，少量内存泄漏并不影响程序的正确运行，大量的内存泄漏会使系统内存紧缺，导致频繁换页，不仅影响当前进程，而且把整个系统都拖得很慢。

关于malloc和free还有一些特殊情况。malloc(0)这种调用也是合法的，也会返回一个非NULL的指针，这个指针也可以传给free释放，但是不能通过这个指针访问内存。free(NULL)也是合法的，不做任何事情，但是free一个野指针是不合法的，例如先调用malloc返回一个指针p，然后连着调用两次free(p);，则后一次调用会产生运行时错误。

下面的图简单的表示malloc和free的工作原理。真正的实现比这要复杂得多，但基本工作原理也是如此。

图中白色背景的框表示malloc管理的空闲内存块，深色背景的框不归malloc管，可能是已经分配给用户的内存块，也可能不属于当前进程，Break之上的地址不属于当前进程，需要通过brk系统调用向内核申请。每个内存块开头都有一个头节点，里面有一个指针字段和一个长度字段，指针字段把所有空闲块的头节点串在一起，组成一个环形链表，长度字段记录着头节点和后面的内存块加起来一共有多长，以8字节为单位（也就是以头节点的长度为单位）。

一开始堆空间由一个空闲块组成，长度为7×8=56字节，除头节点之外的长度为48字节。

调用malloc分配8个字节，要在这个空闲块的末尾截出16个字节，其中新的头节点占了8个字节，另外8个字节返回给用户使用，注意返回的指针p1指向头节点后面的内存块。

又调用malloc分配16个字节，又在空闲块的末尾截出24个字节，步骤和上一步类似。

调用free释放p1所指向的内存块，内存块（包括头节点在内）归还给了malloc，现在malloc管理着两块不连续的内存，用环形链表串起来。注意这时p1成了野指针，指向不属于用户的内存，p1所指向的内存地址在Break之下，是属于当前进程的，所以访问p1时不会出现段错误，但在访问p1时这段内存可能已经被malloc再次分配出去了，可能会读到意外改写数据。另外注意，此时如果通过p2向右写越界，有可能覆盖右边的头节点，从而破坏malloc管理的环形链表，malloc就无法从一个空闲块的指针字段找到下一个空闲块了。

调用malloc分配16个字节，现在虽然有两个空闲块，各有8个字节可分配，但是这两块不连续，malloc只好通过brk系统调用抬高Break，获得新的内存空间。在[K&R]的实现中，每次调用sbrk函数时申请1024×8=8192个字节，在Linux系统上sbrk函数也是通过brk实现的，这里为了画图方便，我们假设每次调用sbrk申请32个字节，建立一个新的空闲块。

新申请的空闲块和前一个空闲块连续，因此可以合并成一个。在能合并时要尽量合并，以免空闲块越割越小，无法满足大的分配请求。

在合并后的这个空闲块末尾截出24个字节，新的头节点占8个字节，另外16个字节返回给用户。

调用free释放这个内存块，由于它和前一个空闲块连续，又重新合并成一个空闲块。注意，Break只能抬高而不能降低，从内核申请到的内存以后都归malloc管理了，即使调用free也不会还给内核。

除了malloc之外，C标准库还提供了另外两个在堆空间分配内存的函数，它们分配的内存同样由free释放。

#include <stdlib.h>
void *calloc(size_t nmemb, size_t size);
void *realloc(void *ptr, size_t size);

返回值：成功返回所分配内存空间的首地址，出错返回NULLcalloc的参数很像fread/fwrite的参数，分配nmemb个元素的内存空间，每个元素占size字节，并且calloc负责把这块内存空间用字节0填充，而malloc并不负责把分配的内存空间清零。

有时候用malloc或calloc分配的内存空间使用了一段时间之后需要改变它的大小，一种办法是调用malloc分配一块新的内存空间，把原内存空间中的数据拷到新的内存空间，然后调用free释放原内存空间。使用realloc函数简化了这些步骤，把原内存空间的指针ptr传给realloc，通过参数size指定新的大小（字节数），realloc返回新内存空间的首地址，并释放原内存空间。新内存空间中的数据尽量和原来保持一致，如果size比原来小，则前size个字节不变，后面的数据被截断，如果size比原来大，则原来的数据全部保留，后面长出来的一块内存空间未初始化（realloc不负责清零）。注意，参数ptr要么是NULL，要么必须是先前调用malloc、calloc或realloc返回的指针，不能把任意指针传给realloc要求重新分配内存空间。作为两个特例，如果调用realloc(NULL, size)，则相当于调用malloc(size)，如果调用realloc(ptr, 0)，ptr不是NULL，则相当于调用free(ptr)。

#include <alloca.h>
void *alloca(size_t size);

返回值：返回所分配内存空间的首地址，如果size太大导致栈空间耗尽，结果是未定义的参数size是请求分配的字节数，alloca函数不是在堆上分配空间，而是在调用者函数的栈帧上分配空间，类似于C99的变长数组，当调用者函数返回时自动释放栈帧，所以不需要free。这个函数不属于C标准库，而是在POSIX标准中定义的。