hadoop RPC

　　网络通信是hadoop的核心模块之一，他支撑了整个Hadoop的上层分布式应用(HBASE、HDFS、MapReduce), Hadoop RPC具有以下几个特性，透明性（用户本身不应该感觉到跨机器调用的细节）、高性能（高吞吐、高并发）、可控性（轻量级、网络链接、超时、缓冲区设计可定制可扩展）。

　　RPC框架实现分为四个层面：

　　序列化层

　　　　这里序列化特指将结构化的对象转为字节流以便在网络中传输或者持久化存储、hadoop 实现了自己的序列化框架（hadoop子项目Avro），良好的序列化框架应该有以下特点，压缩，序列化应该压缩数据以便在网络中传输和存储；可扩展性，理论上结构化对象的属性变化，不影响反序列化；良好的兼容性，支持多语言；高效性，序列化或者反序列化速率高效。java本身也有自己的序列化框架，但是java的序列化框架不够灵活，不能控制序列化的整个流程，序列化算法也不标准，没有做一定的压缩，java序列化首先写类名，然后再是整个类的数据，而且成员对象在序列化中只存引用，成员对象的可以出现的位置很随机，既可以在序列化的对象前，也可以在其后面，这样就对随机访问造成影响，一旦出错，整个后面的序列化就会全部错误。

　　　　 Avro是个支持多语言的数据序列化框架，支持c，c++，c＃，python，java，php，ruby，java。他的诞生主要是为了弥补Writable只支持java语言的缺陷。很多人会问类似的框架还有Thrift和Protocol，那为什么不使用这些框架，而要重新建一个框架呢，或者说Avro有哪些不同。首先，Avro和其他框架一样，数据是用与语言无关的schema描述的，不同的是Avro的代码生成是可选的，schema和数据存放在一起，而schema使得整个数据的处理过程并不生成代码、静态数据类型等，为了实现这些，需要假设读取数据的时候模式是已知的，这样就会产生紧耦合的编码，不再需要用户指定字段标识。

　　　　Avro的schema是JSON格式的，而编码后的数据是二进制格式（当然还有其他可选项）的，这样对于已经拥有JSON库的语言可以容易实现。

　　　　Avro还支持扩展，写的schema和读的schema不一定要是同一个，也就是说兼容新旧schema和新旧客户端的读取，比如新的schema增加了一个字段，新旧客户端都能读旧的数据，新客户端按新的schema去写数据，当旧的客户端读到新的数据时可以忽略新增的字段。

　　　　Avro还支持datafile文件，schema写在文件开头的元数据描述符里，Avro datafile支持压缩和分割，这就意味着可以做Mapreduce的输入。

　　函数调用层

　　　　函数调用层的主要功能是定位要调用的函数并执行该函数、Hadoop RPC 采用反射和动态代理来实现函数调用。

　　网络传输层

　　　　网络传输层主要描述了server与client之间的消息传输方式、Hadoop RPC 采用了基于TCP/IP的socket调用。

　　服务端处理框架

　　　　服务端处理框架可被抽象为网络I/O 模型，他的设计直接影响PRC的处理能力，常见的网路I/O模型分为，阻塞、非阻塞、事件驱动等、Hadoop RPC的服务端处理采用了基于Reactor模式的事件驱动I/O模型。

深入理解hadoop（二）的更多相关文章

深入理解Hadoop之HDFS架构
Hadoop分布式文件系统(HDFS)是一种分布式文件系统.它与现有的分布式文件系统有许多相似之处.但是,与其他分布式文件系统的差异是值得我们注意的: HDFS具有高度容错能力,旨在部署在低成本硬件上 ...
深入理解hadoop之排序
MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列.下面我们主要聊聊面试 ...
深入理解hadoop之HDFS
深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文,趁热打铁接下来聊聊HDFS.本博文参考资料为HADOOP权威指南第3版完版,博文如有错漏之处,敬请指正. HDFS即Hado ...
深入理解OOP(二):多态和继承(继承)
本文是深入浅出OOP第二篇,主要说说继承的话题. 深入理解OOP(一):多态和继承(初期绑定和编译时多态) 深入理解OOP(二):多态和继承(继承) 深入理解OOP(三):多态和继承(动态绑定和运行时 ...
C++ 中类的构造函数理解（二）
C++ 中类的构造函数理解(二) 写在前面上次的笔记中简要的探索了一下C++中类的构造函数的一些特性,这篇笔记将做进一步的探索.主要是复制构造函数的使用. 复制构造函数复制构造函数也称拷贝构造函数 ...
如何进行Hadoop二次开发指导视频下载
本视频适合对Java有一定了解,熟悉java se的Hadoop爱好者,想对Hadoop进行二次开发.下面是以伪分布为例: 想对Hadoop二次开发:一.首先需要Hadoop和Java之间搭建Ecli ...
ppp 完全理解（二）【转】
转自:https://blog.csdn.net/tianruxishui/article/details/44057717 ppp 完全理解(二) pppd 协议及代码分析作者:李圳均日期:20 ...
hadoop(二MapReduce)
hadoop(二MapReduce) 介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起. Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理.可以进行拆分的前提是这 ...
Java 反射理解（二）-- 动态加载类
Java 反射理解(二)-- 动态加载类概念在获得类类型中,有一种方法是 Class.forName("类的全称"),有以下要点: 不仅表示了类的类类型,还代表了动态加载类编 ...
深入理解hadoop数据倾斜
深入理解hadoop之数据倾斜 1.什么是数据倾斜我们在用map /reduce程序执行时,有时候会发现reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理 ...

随机推荐

JDK常用类解读--StringBuffer、StringBuilder
上一篇博客讲到String对象一旦被创建该内容就不能被修改了如: String s = "hello world"; s.substring(6); s.replace(" ...
fastDFS shiro权限校验 redis FreeMark页面静态化
FastDFS是一个轻量级分布式文件系统, 使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传.下载等服务 FastDFS服务端有两个角色:跟踪器(tracker)和存储节点( ...
Shiro 自定义登陆、授权、拦截器
Shiro 登陆.授权.拦截按钮权限控制一.目标 Maven+Spring+shiro 自定义登陆.授权自定义拦截器加载数据库资源构建拦截链使用总结: 1.需要设计的数据库:用户.角色.权限 ...
R in action读书笔记（11）-第八章：回归-- 选择“最佳”的回归模型
8.6 选择“最佳”的回归模型 8.6.1 模型比较用基础安装中的anova()函数可以比较两个嵌套模型的拟合优度.所谓嵌套模型,即它的一些项完全包含在另一个模型中用anova()函数比较 &g ...
H.264学习笔记6——指数哥伦布编码
一.哥伦布码哥伦布码就是将编码对象分能成等间隔的若干区间(Group),每个Group有一个索引值:Group Id. >对于Group Id采用二元码编码: >对于Group内的编码对 ...
关于AMAZON SES设置的一些要点
1.首先要有一个企业邮箱,如果没有可以去腾讯(http://exmail.qq.com/onlinesell/intro)申请一个,网易也有,不过解析几次搞了两天都是未通过,腾讯几分钟就好了企业邮箱 ...
druid数据库连接池整合到SpringMvc
1.maven项目加入相关的依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>dru ...
Java基础知识强化98.01：Jsp和servlet有什么区别
1. Jsp和servlet有什么区别首先你先要弄懂什么是servlet,servlet是在服务器端执行的java程序,只不过它有专门的一套规则(就是我们平常所说的api):jsp说得简单点就是用另 ...
QList模板类常用接口函数
插入操作:insert()函数原型:void QList::insert(int i, const T &value) 在索引后插入值 i:索引 value:插入值 Example: QLis ...
cal - 显示一个日历
总览 cal [-mjy ] [月份 [年份 ] ] 描述 Cal 显示一个简单的日历.. 如果没有指定参数, 则显示当前月份. 选项如下所列: -m 显示星期一作为一周的第一天.. (缺省为星期日. ...

深入理解hadoop（二）

hadoop RPC

序列化层

函数调用层

网络传输层

服务端处理框架

深入理解hadoop（二）的更多相关文章

随机推荐

热门专题

　　序列化层

　　函数调用层

　　网络传输层

　　服务端处理框架