每个特定平台上的​​编译器​​都有自己的默认“对齐系数”(也叫对齐模数)。程序员可以通过​​预编译​​命令#pragma pack(n),n=1,2,4,8,16来改变这一系数,其中的n就是你要指定的“对齐系数”。

vs默认是#pragma pack(8)

注意gcc默认是#pragma pack(4),并且gcc只支持1,2,4对齐。。

1:数据成员对齐规则:结构(struct)(或联合(union))的数据成员,第一个数据成员放在offset为0的地方,以后每个数据成员存储的起始位置要从该成员大小或者成员的子成员大小(只要该成员有子成员,比如说是数组,结构体等)的整数倍开始(比如int在32位机为4字节,则要从4的整数倍地址开始存储。

 

2:结构体作为成员:如果一个结构里有某些结构体成员,则结构体成员要从其内部最大元素大小的整数倍地址开始存储.(struct a里存有struct b,b里有char,int ,double等元素,那b应该从8的整数倍开始存储.如:



struct Person{
char x;

struct Inner{
int b;
double d;
}inner;

}p;


struct inner内部最大成员为double占8个Byte,由于前面的char x只占1个,所有会有7个空出来,从第8个开始。

由于8是int(4)的倍数,可以,int占4个,接着是double,double可以吗?开始的必须是double的倍数,由于12不是8的倍数,

所以要空出4个,到16的时候再存储double。这时已经占了24个Byte了。收尾工作,结构体的总大小,也必须是内存最大成员的整数倍,由于24恰好是8的整数倍,结束,所以sizeof(p)为24

 

)

 (ps;这句话有理解好,上面是说整个结构体作为一个部分,那么结构体对齐应该是内部最大的元素的整数倍。

3:收尾工作:结构体的总大小,也就是sizeof的结果,.必须是其内部最大成员的整数倍.不足的要补齐.

typedef struct bb

{

 int id;             //[0]....[3]

 double weight;      //[8].....[15]      原则1

 float height;      //[16]..[19],总长要为8的整数倍,补齐[20]...[23]     原则3

}BB;    //sizeof为24

typedef struct aa

{

 char name[2];     //[0],[1]

 int  id;         //[4]...[7]          原则1

 double score;     //[8]....[15]    

 short grade;    //[16],[17]        

 BB b;             //[24]......[47]          原则2

}AA;

int main()

{

  AA a;

  cout<<sizeof(a)<<" "<<sizeof(BB)<<endl;

  return 0;

}

 

结果是

48 24

ok,上面的全看明白了,内存对齐基本过关.

 

再讲讲#pragma pack().

在代码前加一句#pragma pack(1),你会很高兴的发现,上面的代码输出为

32 16

bb是4+8+4=16,aa是2+4+8+2+16=32;

这不是理想中的没有内存对齐的世界吗.没错,#pragma pack(1),告诉编译器,所有的对齐都按照1的整数倍对齐,换句话说就是没有对齐规则.

 

明白了不?

那#pragma pack(2)的结果又是多少呢?对不起,5分钟到了,自己去测试吧.

 

在解释内存对齐的作用前,先来看下内存对齐的规则:



struct st1 
8 {
9 char a ;
10 int b ;
11 short c ;
12 }; //12
13
14 struct st2
15 {
16 short c ;
17 char a ;
18 int b ;
19 };//8


 

1、  对于结构的各个成员,第一个成员位于偏移为0的位置,以后每个数据成员的偏移量必须是min(#pragma pack()指定的数,这个数据成员的自身长度) 的倍数。(这个看后面的可能更清楚,不过,这个定义确实很直白)

2、  在数据成员完成各自对齐之后,结构(或联合)本身也要进行对齐,对齐将按照#pragma pack指定的数值和结构(或联合)最大数据成员长度中,比较小的那个进行。

#pragma pack(n) 表示设置为n字节对齐。 VC6默认8字节对齐

 

以程序1为例解释对齐的规则 :

St1 :char占一个字节,起始偏移为0 ,int 占4个字节,min(#pragma pack()指定的数,这个数据成员的自身长度) = 4(VC6默认8字节对齐),所以int按4字节对齐,起始偏移必须为4的倍数,所以起始偏移为4,在char后编译器会添加3个字节的额外字节,不存放任意数据。short占2个字节,按2字节对齐,起始偏移为8,正好是2的倍数,无须添加额外字节。到此规则1的数据成员对齐结束,此时的内存状态为:

 

oxxx|oooo|oo

0123 4567 89 (地址)

(x表示额外添加的字节)

共占10个字节。还要继续进行结构本身的对齐,对齐将按照#pragma pack指定的数值和结构(或联合)最大数据成员长度中,比较小的那个进行,st1结构中最大数据成员长度为int,占4字节,而默认的#pragma pack 指定的值为8,所以结果本身按照4字节对齐,结构总大小必须为4的倍数,需添加2个额外字节使结构的总大小为12 。此时的内存状态为:

oxxx|oooo|ooxx

0123 4567 89ab  (地址)

到此内存对齐结束。St1占用了12个字节而非7个字节。

 

St2 的对齐方法和st1相同,读者可自己完成。

 


编译器中提供了​​#pragma​​ pack(n)来设定​​变量​​以n​​字节对齐​​方式。n​​字节对齐​​就是说​​变量​​存放的起始地址的​​偏移量​​有两种情况:第一、如果n大于等于该变量所占用的字节数,那么偏移量必须满足默认的对齐方式,第二、如果n小于该变量的类型所占用的字节数,那么偏移量为n的倍数,不用满足默认的对齐方式。结构的总大小也有个约束条件,分下面两种情况:如果n大于所有​​成员变量​​类型所占用的字节数,那么结构的总大小必须为占用空间最大的变量占用的空间数的倍数;否则必须为n的倍数。


下面举例说明其用法。


​#pragma​​ pack(push) //保存对齐状态


​#pragma​​ pack(4)//设定为4​​字节对齐​


struct test


{


char m1;


double m4;


int m3;


};


​#pragma​​ pack(pop)//恢复对齐状态


以上​​结构体​​的大小为16,下面分析其存储情况,首先为m1分配空间,其​​偏移量​​为0,满足我们自己设定的对齐方式(4​​字节对齐​​),m1大小为1个字节。接着开始为m4分配空间,这时其​​偏移量​​为4,需要补足3个字节,这样使偏移量满足为n=4的倍数(因为sizeof(double)大于4),m4占用8个字节。接着为m3分配空间,这时其​​偏移量​​为12,满足为4的倍数,m3占用4个字节。这时已经为所有​​成员变量​​分配了空间,共分配了16个字节,满足为n的倍数。如果把上面的​​#pragma​​ pack(4)改为​​#pragma​​ pack(8),那么我们可以得到结构的大小为24


 


内存对齐的主要作用是:

1、  平台原因(移植原因):不是所有的硬件平台都能访问任意地址上的任意数据的;某些硬件平台只能在某些地址处取某些特定类型的数据,否则抛出硬件异常。

2、  性能原因:经过内存对齐后,CPU的内存访问速度大大提升。具体原因稍后解释。

 

图一:

内存对齐理解_内存对齐

这是普通程序员心目中的内存印象,由一个个的字节组成,而CPU并不是这么看待的。

 

图二:

内存对齐理解_#pragma_02

CPU把内存当成是一块一块的,块的大小可以是2,4,8,16字节大小,因此CPU在读取内存时是一块一块进行读取的。块大小成为memory access granularity(粒度) 本人把它翻译为“内存读取粒度” 。

 

假设CPU要读取一个int型4字节大小的数据到寄存器中,分两种情况讨论:

1、数据从0字节开始

2、数据从1字节开始

再次假设内存读取粒度为4。

图三:

内存对齐理解_字节对齐_03

当该数据是从0字节开始时,很CPU只需读取内存一次即可把这4字节的数据完全读取到寄存器中。

    当该数据是从1字节开始时,问题变的有些复杂,此时该int型数据不是位于内存读取边界上,这就是一类内存未对齐的数据。

 

图四:

内存对齐理解_#pragma_04

此时CPU先访问一次内存,读取0—3字节的数据进寄存器,并再次读取4—5字节的数据进寄存器,接着把0字节和6,7,8字节的数据剔除,最后合并1,2,3,4字节的数据进寄存器。对一个内存未对齐的数据进行了这么多额外的操作,大大降低了CPU性能。

    这还属于乐观情况了,上文提到内存对齐的作用之一为平台的移植原因,因为以上操作只有有部分CPU肯干,其他一部分CPU遇到未对齐边界就直接罢工了。