为什么要使用PB？

PB（Protocol Buffer）是 Google 开发的用于结构化数据交换格式，作为腾讯云日志服务标准写入格式。因此用于写入日志数据前，需要将日志原始数据序列化为 PB 数据流后通过 API 写入服务端。而各个端类程序中不便操作PB格式，因此需要在端类和日志服务之间加入一层PB转化层。

当然PB格式也有自己的优点，主要是简单和快。

安装Google PB

如果要想在Python中使用PB，需要先安装PB编译器protoc去编译你的.proto文件，安装方法如下：

下载最新的protobuf release包安装即可，当前版本为3.5.1，安装步骤如下

wget https://github.com/google/protobuf/releases/download/v3.5.1/protobuf-all-3.5.1.tar.gz

tar xvfz protobuf-all-3.5.1.tar.gz

cd protobuf-3.5.1/

./configure --prefix=/usr

make

make check

make install

复制代码

check步骤全部通过即表示编译通过。

继续安装protobuf的python模块

cd ./python

python setup.py build

python setup.py test

python setup.py install

复制代码

安装完成验证protoc命令

root@ubuntu:~# protoc --version

libprotoc 3.5.1

复制代码

protobuf的默认安装位置是 /usr/local，/usr/local/lib 不在Ubuntu系统默认的 LD_LIBRARY_PATH 里，如果在Ubuntu系统中configure时未指定安装路径为/usr，则会出现以下错误

protoc: error while loading shared libraries: libprotoc.so.8: cannot open shared object file: No such file or directory

复制代码

可以使用ldconfig命令解决，参考Protobuf cannot find shared libraries，这个错误在安装包的README中有提到。当然重新安装也可以

验证Python模块是否被正确安装

import google.protobuf

复制代码

在python解释器中如果上面的import没有报错，说明安装正常。

自定义.proto 文件

首先我们需要编写一个 proto 文件，定义我们程序中需要处理的结构化数据，在 protobuf 的术语中，结构化数据被称为 Message。proto 文件非常类似 java 或者 C++ 语言的数据定义。proto示例文件cls.Log.proto如下：

syntax = "proto2";

package cls;

message Log

{

    optional uint64 time = 1; // UNIX Time Format

    required string topic_id = 2;

    required string content = 3;

}

复制代码

.proto文件开头是包的声明，为了帮助防止在不同的工程中命名冲突。在Python中，包通常由目录结构决定的，所以这个.proto文件定义的包，在实际Python代码中是没有效果的。但是，按照官方的建议是坚持声明这条语句，主要作用是为了在PB的命名空间中防止名称冲突。package 名字叫做 cls，定义了一个消息 Log，该消息有三个成员，各个成员的含义如下：

字段名	类型	位置	是否必须	含义
time	uint64	body	否	日志时间，不指定，则使用服务器收到请求的时间
topic_id	string	body	是	日志上报到的日志主题id
content	string	body	是	日志内容

一个比较好的习惯是认真对待 proto 文件的文件名。比如将命名规则定为： packageName.MessageName.proto

编译.proto文件

使用编译器protoc直接编译即可，需要指定源文件路径和目标文件路径

SRC_DIR=/tmp/src_dir

DST_DIR=/tmp/dst_dir

protoc -I=$SRC_DIR --python_out=$DST_DIR $SRC_DIR/cls.Log.proto

复制代码

生成Python类就使用--python_out选项，如果要生成C++类时使用--cpp_out选项

解析目标py文件

在目标文件夹中生成的文件目录对应如下：

root@ubuntu:/tmp/dst_dir# tree

.

└── cls

    └── Log_pb2.py

1 directory, 1 file

复制代码

其中Log_pb2.py文件的内容如下（不允许编辑）：

# Generated by the protocol buffer compiler.  DO NOT EDIT!

# source: cls.Log.proto

import sys

_b=sys.version_info[0]<3 and (lambda x:x) or (lambda x:x.encode('latin1'))

from google.protobuf import descriptor as _descriptor

from google.protobuf import message as _message

from google.protobuf import reflection as _reflection

from google.protobuf import symbol_database as _symbol_database

from google.protobuf import descriptor_pb2

# @@protoc_insertion_point(imports)

_sym_db = _symbol_database.Default()

DESCRIPTOR = _descriptor.FileDescriptor(

  name='cls.Log.proto',

  package='cls',

  syntax='proto2',

  serialized_pb=_b('\n\rcls.Log.proto\x12\x03\x63ls\"6\n\x03Log\x12\x0c\n\x04time\x18\x01 \x01(\x04\x12\x10\n\x08topic_id\x18\x02 \x02(\t\x12\x0f\n\x07\x63ontent\x18\x03 \x02(\t')

)

_LOG = _descriptor.Descriptor(

  name='Log',

  full_name='cls.Log',

  filename=None,

  file=DESCRIPTOR,

  containing_type=None,

  fields=[

    _descriptor.FieldDescriptor(

      name='time', full_name='cls.Log.time', index=0,

      number=1, type=4, cpp_type=4, label=1,

      has_default_value=False, default_value=0,

      message_type=None, enum_type=None, containing_type=None,

      is_extension=False, extension_scope=None,

      options=None, file=DESCRIPTOR),

    _descriptor.FieldDescriptor(

      name='topic_id', full_name='cls.Log.topic_id', index=1,

      number=2, type=9, cpp_type=9, label=2,

      has_default_value=False, default_value=_b("").decode('utf-8'),

      message_type=None, enum_type=None, containing_type=None,

      is_extension=False, extension_scope=None,

      options=None, file=DESCRIPTOR),

    _descriptor.FieldDescriptor(

      name='content', full_name='cls.Log.content', index=2,

      number=3, type=9, cpp_type=9, label=2,

      has_default_value=False, default_value=_b("").decode('utf-8'),

      message_type=None, enum_type=None, containing_type=None,

      is_extension=False, extension_scope=None,

      options=None, file=DESCRIPTOR),

  ],

  extensions=[

  ],

  nested_types=[],

  enum_types=[

  ],

  options=None,

  is_extendable=False,

  syntax='proto2',

  extension_ranges=[],

  oneofs=[

  ],

  serialized_start=22,

  serialized_end=76,

)

DESCRIPTOR.message_types_by_name['Log'] = _LOG

_sym_db.RegisterFileDescriptor(DESCRIPTOR)

Log = _reflection.GeneratedProtocolMessageType('Log', (_message.Message,), dict(

  DESCRIPTOR = _LOG,

  __module__ = 'cls.Log_pb2'

  # @@protoc_insertion_point(class_scope:cls.Log)

  ))

_sym_db.RegisterMessage(Log)

# @@protoc_insertion_point(module_scope)

复制代码

关于pb生成的py文件的源代码的解析暂时搁置，可以参见附件中的资料

序列化和反序列化

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""

Created on 1/30/18 4:23 PM

@author: Chen Liang

@function: pb test

"""

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import Log_pb2

import json

def serialize_to_string(msg_obj):

    ret_str = msg_obj.SerializeToString()

    return ret_str

def parse_from_string(s):

    log = Log_pb2.Log()

    log.ParseFromString(s)

    return log

if __name__ == '__main__':

    # serialize_to_string

    content_dict = {"live_id": "1239182389648923", "identify": "zxc_unique"}

    tencent_log = Log_pb2.Log()

    tencent_log.time = 1510109254

    tencent_log.topic_id = "John Doe"

    tencent_log.content = json.dumps(content_dict)

    ret_s = serialize_to_string(tencent_log)

    print(type(ret_s))

    print(ret_s)

    # parse_from_string

    log_obj = parse_from_string(ret_s)

    print(log_obj)

复制代码

其中关键的操作在于message对象的写入和读取以及序列化函数SerializeToString和反序列化函数ParseFromString

更复杂的Message

到这里为止，我们只给出了一个简单的上传日志的例子。在实际应用中，人们往往需要定义更加复杂的 Message。我们用“复杂”这个词，不仅仅是指从个数上说有更多的 fields 或者更多类型的 fields，而是指更加复杂的数据结构：

Message嵌套
Import Message

下面分别介绍

Message嵌套

嵌套是一个神奇的概念，一旦拥有嵌套能力，消息的表达能力就会非常强大。具体的嵌套 Message 的例子如下

message Person {

 required string name = 1;

 required int32 id = 2;        // Unique ID number for this person.

 optional string email = 3; 

 enum PhoneType {

   MOBILE = 0;

   HOME = 1;

   WORK = 2;

 } 

 message PhoneNumber {

   required string number = 1;

   optional PhoneType type = 2 [default = HOME];

 }

 repeated PhoneNumber phone = 4;

}

复制代码

在 Message Person 中，定义了嵌套消息 PhoneNumber，并用来定义 Person 消息中的 phone 域。这使得人们可以定义更加复杂的数据结构。

Import Message

在一个 .proto 文件中，还可以用 Import 关键字引入在其他 .proto 文件中定义的消息，这可以称做 Import Message，或者 Dependency Message。具体的import message的例子如下

import common.header; 

message youMsg{

 required common.info_header header = 1;

 required string youPrivateData = 2;

}

复制代码

其中 ,common.info_header定义在common.header包内。

Import Message 的用处主要在于提供了方便的代码管理机制，类似 C 语言中的头文件。您可以将一些公用的 Message 定义在一个 package 中，然后在别的 .proto 文件中引入该 package，进而使用其中的消息定义。

Google Protocol Buffer 可以很好地支持嵌套 Message 和引入 Message，从而让定义复杂的数据结构的工作变得非常轻松愉快。

动态编译

一般情况下，使用 Protobuf 的人们都会先写好 .proto 文件，再用 Protobuf 编译器生成目标语言所需要的源代码文件。将这些生成的代码和应用程序一起编译。

可是在某且情况下，人们无法预先知道 .proto 文件，他们需要动态处理一些未知的 .proto 文件。比如一个通用的消息转发中间件，它不可能预知需要处理怎样的消息。这需要动态编译 .proto 文件，并使用其中的 Message。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

原文链接：https://juejin.cn/post/6906391695802236941

想要获取更多Python学习资料可以加
QQ:2955637827私聊
或加Q群630390733
大家一起来学习讨论吧！

详解Python Google Protocol Buffer的更多相关文章

前端后台以及游戏中使用Google Protocol Buffer详解
前端后台以及游戏中使用Google Protocol Buffer详解 0.什么是protoBuf protoBuf是一种灵活高效的独立于语言平台的结构化数据表示方法,与XML相比,protoBuf更 ...
Google Protocol Buffer入门
简介 Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准,目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 ...
Google Protocol Buffer 的使用和原理[转]
本文转自: http://www.ibm.com/developerworks/cn/linux/l-cn-gpb/ Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构 ...
Google Protocol Buffer的安装与.proto文件的定义
什么是protocol Buffer呢? Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准. 我理解的就是:它是一种轻便高效的结构 ...
Google Protocol Buffer 的使用和原理
Google Protocol Buffer 的使用和原理 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,很适合做数据存储或 RPC 数据交换格式.它 ...
【Google Protocol Buffer】Google Protocol Buffer
http://www.ibm.com/developerworks/cn/linux/l-cn-gpb/ Google Protocol Buffer 的使用和原理 Protocol Buffers ...
Google Protocol Buffer的安装与.proto文件的定义(转)
转自(https://www.cnblogs.com/yinheyi/p/6080244.html) 什么是protocol Buffer呢? Google Protocol Buffer( 简称 P ...
转Google Protocol Buffer 的使用和原理
Google Protocol Buffer 的使用和原理 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,很适合做数据存储或 RPC 数据交换格式.它 ...
Google Protocol Buffer安装编译及使用
近期玩了玩谷歌的Protocol Buffer.以下就简介下 Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准.眼下已经正在使用的 ...

随机推荐

MySQL开发篇(未完待续)
一.索引什么是索引? 索引是帮助Mysql提高获取数据的数据结构,换一句话讲就是"排好序的快速查找的数据结构". 1.索引的分类 MySQL主要的几种索引类型:1.普通索引.2. ...
分析 5种分布式事务方案，还是选了阿里的 Seata（原理 + 实战）
好长时间没发文了,最近着实是有点忙,当爹的第 43 天,身心疲惫.这又赶上年底,公司冲 KPI 强制技术部加班到十点,晚上孩子隔两三个小时一醒,基本没睡囫囵觉的机会,天天处于迷糊的状态,孩子还时不时起 ...
java实验类的实现
1 //1.矩形类的定义及应用 2 package classwork_5; 3 4 public class juxing1 { 5 private double a,b;//长,宽 6 priva ...
Python爬虫入门（二）之Requests库
Python爬虫入门(二)之Requests库我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
Beta冲刺随笔——Day_Seven
这个作业属于哪个课程软件工程 (福州大学至诚学院 - 计算机工程系) 这个作业要求在哪里 Beta 冲刺这个作业的目标团队进行Beta冲刺作业正文正文其他参考文献无今日事今日毕林涛: ...
SQL Server 索引碎片整理
索引碎片整理的四种方法: 1)删除索引并重建 2)使用 DROP_EXISTING 语句重建索引 3)使用 ALTER INDEX REBUILD 语句重建索引 4)使用 ALTER INDEX RE ...
Log4net 的 ASP.NET Core 扩展库
给大家安利一款 log4net 的 ASP.NET Core 扩展库,它是基于 log4net 开发的. 简单易用,开源免费,使用ASP.NET Core自身提供的DI容器来实现服务的注册和消费.直接 ...
moviepy音视频剪辑：lum_contrast什么时候使用以及图像处理什么时候需要调整亮度与对比度
☞ ░ 前往老猿Python博文目录 ░ 一.亮度.对比度的概念图像的亮度(luminosity )也即对明度的度量(参考<音视频处理基础知识扫盲:数字视频YUV像素表示法以及视频帧和编解码概 ...
PyQt（Python+Qt）学习随笔：QListView的layoutMode属性和batchSize属性
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址 batchSize属性该属性是在layoutMode属性设置为Batched时,用于控制每个批量的 ...
当你在浏览器输入一个网址（如http://www.taobao.com），按回车之后发生了什么？
首先你输入了一个网址并按下了回车,这个时候浏览器会根据这个URL去查找其对应的IP,具体过程如下: 首先是查找浏览器缓存,浏览器会保存一段时间你之前访问过的一些网址的DNS信息,不同浏览器保存的时常不 ...

详解Python Google Protocol Buffer