Google Protocol Buffers介绍

简要介绍和总结protobuf的一些关键点，从我之前做的ppt里摘录而成，希望能节省protobuf初学者的入门时间。这是一个简单的Demo。

Protobuf 简介

Protobuf全称Google Protocol Buffers

http://code.google.com/p/protobuf
结构化数据存储格式(xml, json)
用于通信协议、数据存储等
高效的序列化和反序列化
语言无关、平台无关、扩展性好
官方支持C++, Java, Python三种语言

.proto文件

定义和使用

消息定义文件user_def.proto

package user;

message UserInfo {

    required int64 id = ;

    optional string name = ;

    repeated bytes nick_name = ;

}

编译.proto，生成解析器代码

protoc --cpp_out . user.proto  // user_def.pb.h user_def.pb.cc

protoc --java_out . user.proto // user/UserInfo.java

字段ID

optional string name = 2;

唯一性
序列化后，1~15占一个字节，16~2047占两个字节

字段类型

https://developers.google.com/protocol-buffers/docs/proto#scalar
string vs. bytes

.proto类型 c++类型 java类型说明

string std::string String 必须是UTF-8或ASCII文本

bytes std::string ByteString 任意的字节序列

.proto类型	c++类型	java类型	说明
string	std::string	String	必须是UTF-8或ASCII文本
bytes	std::string	ByteString	任意的字节序列

编写建议

常用消息字段(尤其是repeated字段)的ID尽量分配在1~15之间。
尽可能多的（全部）使用optional字段。
命名方式
- .proto文件名用underscore_speparated_names。
- 消息名用CamelCaseNames。
- 字段名用underscore_separated_names。

兼容性建议

不能修改字段的ID。
不能增删任何required字段。
https://developers.google.com/protocol-buffers/docs/proto#updating

序列化后的protobuf消息

一序列的键值对，键是消息字段的ID。
已知消息字段(.proto文件定义)按其ID顺序排列。
未知消息字段：
- c++和java: 排在已知字段之后且顺序不定。
- python: 不保留未知字段。
不包含未赋值的optional消息字段。
使用little-endian字节序存储。

反射

反射是protobuf的一个重要特性，涉及到的类主要有:

根据名称创建消息

以下是一个根据消息名（包含package name）创建protobuf消息的C++函数，需要注意的是返回的消息必须在用完后delete掉。

Message* createMessage(const string &typeName) {

    Message *message = NULL;

    // 查找message的descriptor

    const Descriptor *descriptor = DescriptorPool::generated_pool()->FindMessageTypeByName(typeName);

    if (descriptor) {

        // 创建default message(prototype)

        const Message *prototype = MessageFactory::generated_factory()->GetPrototype(descriptor);

        if (NULL != prototype) {

            // 创建一个可修改的message

            message = prototype->New();

        }

    }

    return message;

}

修改消息

根据消息的字段名称修改其值。以上面的user.UserInfo为例，下面将一个新的UserInfo消息的其id字段设为100。

int main() {

    // 使用上面的函数创建一个新的UserInfo message

    Message *msg = createMessage("user.UserInfo");

    if (NULL == msg) {

        // 创建失败，可能是消息名错误，也可能是编译后message解析器

        // 没有链接到主程序中。

        return -;

    }

    // 获取message的descriptor

    const Descriptor* descriptor = msg->GetDescriptor();

    // 获取message的反射接口，可用于获取和修改字段的值

    const Reflection* reflection = msg->GetReflection();

    // 根据字段名查找message的字段descriptor

    const FieldDescriptor* idField = descriptor->FindFieldByName("id");

    // 将id设置为100

    if (NULL != idField) {

        reflection->SetInt64(msg, idField, );

    }

    // ... 其他操作

    // 最后删除message

    delete msg;

    return ;

}

从字符串或流中读取消息

用createMessage创建一个空的消息后，最常见的使用场景是使用Message的ParseFromString或ParseFromIstream方法从字符串或流中读取一个序列化后的message。

  Message *msg = createMessage("user.UserInfo");

    if (NULL != msg) {

        if (!msg->ParseFromString("... serialized message string ... ")) {

            // 解析失败

            ...

        }

    }

Protobuf优势

扩展性好
- 前后兼容
- 引入(import)已定义的消息
- 嵌套消息
高效 https://code.google.com/p/thrift-protobuf-compare/wiki/Benchmarking
- 适合处理大量小数据(单个Message不超过1M)

Protobuf劣势

没有内置的Set, Map等容器类型。
不适合处理单个Message超过1M的情景，详见Large Data Sets。

进一步阅读

.proto指南 https://developers.google.com/protocol-buffers/docs/proto
.proto规范 https://developers.google.com/protocol-buffers/docs/style
序列化编码方式 https://developers.google.com/protocol-buffers/docs/encoding
教程 https://developers.google.com/protocol-buffers/docs/tutorials
接口文档 https://developers.google.com/protocol-buffers/docs/reference/overview
Protobuf benchmarking https://code.google.com/p/thrift-protobuf-compare/wiki/Benchmarking

阅读资料

Google Protocol Buffers介绍的更多相关文章

Google Protocol Buffers 入门
Google Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化.它很适合做数据存储或 RPC 数据交换格式.可用于通讯协议.数据存储等领域的 ...
C# 使用Google Protocol Buffers
Google Protocol Buffers 使用3.0版本下载protoc.exe 下载链接 https://github.com/protocolbuffers/protobuf/releas ...
Protocol Buffers介绍及例子
Protocol Buffers介绍及例子 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化.它很适合做数据存储或数据交换格式.可用于通讯协 ...
Google Protocol Buffers 快速入门（带生成C#源码的方法）
Google Protocol Buffers是google出品的一个协议生成工具,特点就是跨平台,效率高,速度快,对我们自己的程序定义和使用私有协议很有帮助. Protocol Buffers入门: ...
开源点评：Protocol Buffers介绍
今天来介绍一下“Protocol Buffers”(下面简称protobuf)这个玩意儿.本来俺在构思“生产者/消费者模式 ”系列的下一个帖子:关于生产者和消费者之间的传输数据格式.因为里面扯到了pr ...
【神经网络与深度学习】Google Protocol Buffer介绍
简介什么是 Google Protocol Buffer? 假如您在网上搜索,应该会得到类似这样的文字介绍: Google Protocol Buffer( 简称 Protobuf) 是 Googl ...
Protocol buffers 介绍
Protocol buffers和mxl一样在序列化数据结构时很灵活.高效和智能,但是它的优势在于定义文件更小,读取速度更快,使用更加简单.目前protocol buffers支持C++.java和p ...
Protocol Buffers介绍
基本概念 Protocol Buffers(以下简称PB)是一种独立于语言.独立于开发平台.可扩展的序列化数据结构框架,它常常被用在通信.数据序列化保存等方面. PB是一种敏捷.高效.自动化的用于对数 ...
Google Protocol Buffers简介
什么是 protocol buffers ? Protocol buffers 是一种灵活.高效的序列化结构数据的自动机制--想想XML,但是它更小,更快,更简单.你只需要把你需要怎样结构化你的数据定 ...

随机推荐

C# chart控件基础使用
基本介绍:chart(图表) 功能:主要用来绘制折线图,柱状图与饼状图,也可达到动态效果(例如作示波器): 需要说明一个chart可以包含多个chartArea. chartArea是具体的坐标区域 ...
Android 内存泄漏总结（转）
Android 内存泄漏总结内存管理的目的就是让我们在开发中怎么有效的避免我们的应用出现内存泄漏的问题.内存泄漏大家都不陌生了,简单粗俗的讲,就是该被释放的对象没有释放,一直被某个或某些实例所持有却 ...
java LimitedThreadPool
此线程池一直增长,直到上限,增长后不收缩(因为池子里面的线程是永生的).这个keepAliveTime参数设置的为Long.MAX_VALUE,所以池子里面的线程几乎不会因为idle而被termina ...
一网打尽2013最常用的NoSQL数据库
摘要:与关系数据库相比,每个NoSQL都有自己不同的适用场景,这里带大家盘点文档数据库.图数据库.键值数据存储.列存储数据库与内存数据网络等领域的常用的NoSQL. 在几年内,NoSQL数据库一直 ...
adb forward交互流程
命令:adb forward tcp:6100 tcp:7100 // PC上所有6100端口通信数据将被重定向到手机端7100端口server上或者adb forward tcp:6100 loc ...
Unrecognized option: -jrockit
weblogic报错: starting weblogic with Java version: Unrecognized option: -jrockit Error: Could not crea ...
微信小程序解决方案合集
微信小程序解决方案合集:http://www.wxapp-union.com/special/solution.html 跳坑系列:http://www.wxapp-union.com/forum.p ...
【TP3.2】TP3.2下实现ajax分页（原创+亲测可用）
一,写在最开始:ajax分页的原理,是利用了js的ajax执行请求,获取分页list和分页page [代码块],去替换页面显示数据的[代码块] 技术:js的ajax + TP3.2的fetch(&qu ...
yum安装nodejs 8
Install Node.js 8 on Enterprise Linux Distributions To install Node.js 8 on Enterprise Linux distros ...
<转>字节码指令
本文转自:http://www.cnblogs.com/nazhizq/p/6525263.html 在llimits.h文件中定义了指令的类型.其实就是32个字节. typedef lu_int32 ...