python读取protobuf编码的数据并解析 protobuf python怎么解析

转载

mob64ca1414098d 2023-10-16 07:05:03

文章标签 protobuf 数据格式数据 XML 反序列化 文章分类 Python 后端开发

Protobuf数据格式解析

Protobuf是Google开源的一款类似于Json，XML数据交换格式，其内部数据是纯二进制格式，不依赖于语言和平台，具有简单，数据量小，快速等优点。目前用于序列化与反序列化官方支持的语言有C++，C#， GO， JAVA， PYTHON。适用于大小在1M以内的数据，因为像在移动设备平台，内存是很珍贵。

使用方法也比较简单:

定义用于消息文件.proto
使用protobuf的编译器编译消息文件
使用编译好对应语言的类文件进行消息的序列化与反序列化

先来定义一个简单的消息:

message Person {
   int32 id = 1;//24
   string name = 2;//wujingchao
   string email = 3;//wujingchao92@gmail.com
}

实际的二进制消息为:

08 18 12 0a 77 75 6a 69 6e 67 63 68 61 6f 1a 16 77 75 6a 69 6e 67 63 68 61 6f 39 32 40 67 6d 61 69 6c 2e 63 6f 6d

下面就讲解这段二进制流数据是怎么组成的：

Varints

一般情况下int类型都是固定4个字节，protobuf定义了一种变长的int，每个字节最高位表示后面还有没有字节，低7位就为实际的值，并且使用小端的表示方法。例如1,varint的表示方法就为:

0000 0001

是不是这样就省了三个字节。

再例如300,4字节表示为:10 0101100,varint表示为:

10101100 00000010

所以前面消息为Person的id的值为00011000，即0x18。

负数的最高位为1，如果负数也使用这种方式表示就会出现一个问题,int32总是需要5个字节，int64总是需要10个字节。

所以定义了另外一种类型:sint32,sint64。采用ZigZag编码，所有的负数都使用正数表示,计算方式:

sint32
(n << 1) ^ (n >> 31)
sint64
(n << 1) ^ (n >> 63)

Signed Original	Encoded As
0	0
-1	1
1	2
-2	3
2147483647	4294967294
-2147483648	4294967295

使用Varint编码的类型有int32, int64, uint32, uint64, sint32, sint64, bool, enum。Java里面没有对应的无符号类型，int32与uint32一样。

Wire Type

每个消息项前面都会有对应的tag，才能解析对应的数据类型，表示tag的数据类型也是Varint。

tag的计算方式: (field_number << 3) | wire_type

每种数据类型都有对应的wire_type:

Wire Type	Meaning Used For
0	Varint int32, int64, uint32, uint64, sint32, sint64, bool, enum
1	64-bit fixed64, sfixed64, double
2	Length-delimited string, bytes, embedded messages, packed repeated fields
3	Start group groups (deprecated)
4	End group groups (deprecated)
5	32-bit fixed32, sfixed32, float

所以wire_type最多只能支持8种，目前有6种。

所以前面Person的id,field_number为1,wire_type为0，所以对应的tag为

1 <<< 3 | 0  = 0x08

Person的name,field_number为2,wire_type为2,所以对应的tag为

2 <<< 3 | 2 = 0x12

对应Length-delimited的wire type,后面紧跟着的Varint类型表示数据的字节数。

所以name的tag后面紧跟的0x0a表示后面的数据长度为10个字节，即"wujingchao"的UTF-8 编码或者ASCII值:

77 75 6a 69 6e 67 63 68 61 6f

嵌套的消息类型embedded messages与packed repeated fields也是使用这种方式表示，对应默认值的数据，是不会写进protobuf消息里面的。

packed repeated与repeated的区别在于编码方式不一样，repeated将多个属性类型与值分开存储。而packed repeated采用Length-delimited方式。下面这个是官方文档的例子:

message Test4 {
    repeated int32 d = 4 [packed=true];
}

22        // tag (field number 4, wire type 2)
06        // payload size (6 bytes)
03        // first element (varint 3)
8E 02     // second element (varint 270)
9E A7 05  // third element (varint 86942)

如果没有packed的属性是这样存储的:

20 //tag(field number 4,wire type 0)
03 //first element (varint 3)
20 //tag(field number 4,wire type 0)
8E 02//second element (varint 270)
20 //tag(field number 4,wire type 0)
9E A7 05  // third element (varint 86942)

是不是这种方式比较节省内存，所以proto3的repeated默认就是使用packed这种方式来存储。(proto2与proto3区别在于.proto的语法)。

有了以上的相关概念，我们在读protobuf的源码就比较容易了。

参考:https://developers.google.com/protocol-buffers/docs/encoding

protof的描述

首先 protobuf是一个开源项目，是goole内部久经考验的一个东西。主要用于结构化数据串行化的灵活、高效、自动的方法，有如XML，不过他更小，更快，也更简单。你可以定义自己的数据结构，然后使用代码生成器生成的代码来读写这个数据结构。甚至可以在无需重新部署程序的情况下更新数据结构。

protobuf的优点：

1、性能好/效率高

时间开销： XML格式化（序列化）的开销还好；但是XML解析（反序列化）的开销就不敢恭维了。但是protobuf在这个方面就进行了优化。可以使序列化和反序列化的时间开销都减短。

空间开销：也减少了很多

2、有代码生成机制

比如你你写个一下类似结构体的内容

1. message testA  
2. {  
3.     required int32 m_testA = 1;  
4. }

向写一个这样的机构可以自动生成它的.h 文件和点.cpp文件。他将对结构体testA的操作封装成一个类。

3、支持向后兼容和向前兼容

当客户端和服务器同事使用一块协议的时候，当客户端在协议中增加一个字节，并不会影响客户端的使用

4、支持多种编程语言

在Google官方发布的源代码中包含了c++、Java、Python三种语言

protobuf的缺陷

1、二进制格式导致可读性差

为了提高性能，protobuf采用了二进制格式进行编码。这直接导致了可读性差。

2、缺乏自描述

一般来说，XML是自描述的，而protobuf格式则不是。给你一段二进制格式的协议内容，不配合你写的结构体是看不出来什么作用的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：命名空间的概念及作用 java 命名空间是什么

下一篇：vwmare多台物理服务器虚拟化服务器虚拟多台电脑

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯