Spark Streaming笔记——技术点汇总】的更多相关文章

目录 目录 概况 原理 API DStream WordCount示例 Input DStream Transformation Operation Output Operation 缓存与持久化 Checkpoint 性能调优 降低批次处理时间 设置合理批次时间间隔 内存调优 概况 Spark Streaming支持实时数据流的可扩展(scalable).高吞吐(high-throughput).容错(fault-tolerant)的流处理(stream processing). 架构图 特性…
目录 概述 原理 组成 执行流程 性能 API 应用程序模板 通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源 数据库JDBC数据源 DataFrame Operation 性能调优 缓存数据 参数调优 案例 数据准备 查询部门职工数 查询各部门职工工资总数,并排序 查询各部门职工考勤信息 概述 Spark SQL是Spark的结构化数据处理模块. Spark SQL特点 数据兼容:可从Hive表.外部数据库(JDBC).RDD.Parqu…
Spark Streaming学习笔记 liunx系统的习惯创建hadoop用户在hadoop根目录(/home/hadoop)上创建如下目录app 存放所有软件的安装目录 app/tmp 存放临时文件 data 存放测试数据lib 存放开发用的jar包software 存放软件安装包的目录source 存放框架源码 hadoop生态系统 CDH5.7.x地址:http://archive.cloudera.com/cdh5/cdh/5/ 需求:统计主站每个课程访问的客户端,地域信息分布地域:i…
spark streaming项目 学习笔记 为什么要flume+kafka? 生成数据有高峰与低峰,如果直接高峰数据过来flume+spark/storm,实时处理容易处理不过来,扛不住压力.而选用flume+kafka添加了消息缓冲队列,spark可以去kafka里面取得数据,那么就可以起到缓冲的作用. Flume架构: 参考学习:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 启动一个agent: bin…
目录 概况 手工搭建集群 引言 安装Python 配置文件 启动与测试 应用部署 参数配置 Storm命令 原理 Storm架构 Storm组件 Stream Grouping 守护进程容错性(Daemon Fault Tolerance) 数据可靠性(Guaranteeing Message Processing) 消息传输机制 API WordCount示例 应用部署方式 组件接口 组件实现类 数据连接方式 常用Topology模式 日志(集群模式) 并行度设置 tick定时机制 序列化 与…
目录 概况 手工搭建集群 引言 安装Scala 配置文件 启动与测试 应用部署 部署架构 应用程序部署 核心原理 RDD概念 RDD核心组成 RDD依赖关系 DAG图 RDD故障恢复机制 Standalone模式的Spark架构 YARN模式的Spark架构 应用程序资源构建 API WordCount示例 RDD构建 RDD缓存与持久化 RDD分区数 共享变量 RDD Operation RDD Operation隐式转换 RDD[T]分区Operation RDD[T]常用聚合Operati…
目录 · 概况 · Hadoop · 云计算 · 大数据 · 数据挖掘 · 手工搭建集群 · 引言 · 配置机器名 · 调整时间 · 创建用户 · 安装JDK · 配置文件 · 启动与测试 · Cloudera Manager · 原理 · Hadoop架构 · 性能调优 · 硬件选型 · 操作系统调优 概况 Hadoop 1. ASF(Apache软件基金会)给出定义:Hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算. 2. Hadoop生态圈 a) H…
Table of contents Table of contents Overview Introduction Use cases Manual setup Assumption Configuration Startup & test Principle Topic Distribution Producer Consumer Operation Adding topics Modifying topics Removing a topic Graceful shutdown Balanc…
目录 · 初步认识 · Java里程碑(关键部分) · 理解虚拟机 · Java虚拟机种类 · Java语言规范 · Java虚拟机规范 · 基本结构 · Java堆(Heap) · Java栈(Stacks) · 方法区(Method Area) · 直接内存(Direct Memory) · 本地方法栈(Native Method Stacks) · 常用参数 · 设置参数 · 查看参数 · 跟踪垃圾回收 · 跟踪类加载/卸载 · 设置初始堆和最大堆 · 设置堆分布 · 处理堆溢出 · 配置…
目录 · Linux网络IO模型 · 文件描述符 · 阻塞IO模型 · 非阻塞IO模型 · IO复用模型 · 信号驱动IO模型 · 异步IO模型 · BIO编程 · 伪异步IO编程 · NIO编程 · Buffer和Channel · 深入Buffer · Selector · AIO编程 · 四种IO编程对比及选择Netty的原因 · Netty入门 · 开发与部署 · Hello World · 粘包/拆包问题 · 问题及其解决 · LineBasedFrameDecoder · Delim…