大端字节序和小端字节序

  • 简介
  • 大端字节序(BigEndian也有称MSB)
  • 小端字节序(LittleEndian也有称LSB)
  • 大小端转换
  • 总结


简介

首先说明下为什么会出现大端和小端两种字节序,原因就是大端更适合人类的阅读习惯,而小端计算机CPU的读取效率更高。因此在计算机内部CPU运算时大多使用小端字节序,而在网络传输和文件存储时大多采用大端字节序。

大端字节序(BigEndian也有称MSB)

大端字节序就是低地址存储数据的高位,而高地址存储数据的低位:
int num = 0x12345678;

地址

数据

0x11111110

12

0x11111111

34

0x11111112

56

0x11111113

78

小端字节序(LittleEndian也有称LSB)

小端字节序的存储方式与大端字节序相反,小端字节序是低地址存储数据的低位,高地址存储数据的高位:
int num = 0x12345678;

地址

数据

0x11111110

78

0x11111111

56

0x11111112

34

0x11111113

12

大小端转换

首先教大家一个如何确认大小端的方法直接上C++代码

int main(int argc, char *argv[])
{
    int num = 0x12345678;
    char *ptr=nullptr;
    ptr = (char *)#
    std::cout<<std::hex<<(int)*ptr<<std::endl;
    return 0;
}
输出如果是78就是小端
输出如果是12就是大端

这个原理很简单就是看num地址首字节存储的数据到底是int的高8bit还是int的低8bit,如果是高8bit(也就是12)就说明是大端字节序,如果是低8bit(也就是78)就说明是小端字节序。
下面用C++实现大小端转换:

#define LSB_TO_MSB_SWAP32(x)((((*(int32_t *)&x)&0xff000000)>>24)|\
                             (((*(int32_t *)&x)&0x00ff0000)>>8)|\
                             (((*(int32_t *)&x)&0x0000ff00)<<8)|\
                             (((*(int32_t *)&x)&0x000000ff)<<24))
int main(int argc, char *argv[])
{
    int32_t lsb = 0x12345678;
    char *ptr=nullptr;
    ptr = (char *)&lsb;
    std::cout<<"lsb:"<<std::endl;
    for(int i=0;i<4;++i)
    {
        std::cout<<std::hex<<(int)*(ptr+i)<<std::endl;
    }
    auto msb = LSB_TO_MSB_SWAP32(lsb);
    ptr = (char *)&msb;
    std::cout<<"msb:"<<std::endl;
    for(int i=0;i<4;++i)
    {
        std::cout<<std::hex<<(int)*(ptr+i)<<std::endl;
    }
    return 0;
}
输出:
lsb:
78
56
34
12
msb:
12
34
56
78

由上面可以看出字节的顺序完全调换了过来小端存储完全转换成了大端存储。

总结

上面示例仅仅展示的是4字节的大小端转换,其实其他字节的大小端转换和他类似。大小端只是数据在存储和传输中的一种约定形式,比如你地址中存储的16进制的四个字节12 34 56 78,按照大端去解析是一个数字按照小端解析是另一个数,按照4字节整型去解析是一个数,按照字符型解析是一个四字节长度的字符串。所以大家要理解这个存储和解析是相对应的,只要对应上就可以解析出预期的结果。

以上结论个人理解如有歧义互相学习!