Spark SQL笔记——技术点汇总】的更多相关文章

目录 概述 原理 组成 执行流程 性能 API 应用程序模板 通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源 数据库JDBC数据源 DataFrame Operation 性能调优 缓存数据 参数调优 案例 数据准备 查询部门职工数 查询各部门职工工资总数,并排序 查询各部门职工考勤信息 概述 Spark SQL是Spark的结构化数据处理模块. Spark SQL特点 数据兼容:可从Hive表.外部数据库(JDBC).RDD.Parqu…
目录 目录 概况 原理 API DStream WordCount示例 Input DStream Transformation Operation Output Operation 缓存与持久化 Checkpoint 性能调优 降低批次处理时间 设置合理批次时间间隔 内存调优 概况 Spark Streaming支持实时数据流的可扩展(scalable).高吞吐(high-throughput).容错(fault-tolerant)的流处理(stream processing). 架构图 特性…
目录 概况 手工搭建集群 引言 安装Scala 配置文件 启动与测试 应用部署 部署架构 应用程序部署 核心原理 RDD概念 RDD核心组成 RDD依赖关系 DAG图 RDD故障恢复机制 Standalone模式的Spark架构 YARN模式的Spark架构 应用程序资源构建 API WordCount示例 RDD构建 RDD缓存与持久化 RDD分区数 共享变量 RDD Operation RDD Operation隐式转换 RDD[T]分区Operation RDD[T]常用聚合Operati…
HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> 128M + 2M3.NameNode.DataNode负责内容:NN:1)负责客户端请求的响应2)负责元数据(文件名称.副本系数.Block存放的DN)的管理DN:1)存储用的文件对应的数据块(Block)2)定期向NN发送心跳信息(默认3秒),汇报本身及其所有的Block信息,健康状况4. 重要提示…
记录了日常使用时遇到的特殊的查询语句.不断更新- 1. SQL查出内容输出到文件 hive -e "...Hive SQL..." > /tmp/out sparkhive --disableQuotingForSV=true --slient=true --showHeader=false --outputformat=tsv -e "...SPARK SQL..." > /tmp/out --disableQuotingForSV=true 可以去掉…
Spark SQL 简介 SparkSQL 的前身是 Shark, SparkSQL 产生的根本原因是其完全脱离了 Hive 的限制.(Shark 底层依赖于 Hive 的解析器, 查询优化器) SparkSQL 支持查询原生的 RDD. 能够在 scala/java 中写 SQL 语句. 支持简单的 SQL 语法检查, 能够在 Scala 中 写Hive 语句访问 Hive 数据, 并将结果取回作为RDD使用 Spark on Hive 和 Hive on Spark Spark on Hiv…
目录 · 概况 · Hadoop · 云计算 · 大数据 · 数据挖掘 · 手工搭建集群 · 引言 · 配置机器名 · 调整时间 · 创建用户 · 安装JDK · 配置文件 · 启动与测试 · Cloudera Manager · 原理 · Hadoop架构 · 性能调优 · 硬件选型 · 操作系统调优 概况 Hadoop 1. ASF(Apache软件基金会)给出定义:Hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算. 2. Hadoop生态圈 a) H…
目录 · 线程安全 · 线程安全的实现方法 · 互斥同步 · 非阻塞同步 · 无同步 · volatile关键字 · 线程间通信 · Object.wait()方法 · Object.notify()方法 · 编写线程间通信代码的套路 · 面试题:子线程.主线程交替循环 · 生产者-消费者问题 · 哲学家进餐问题 · 读者-写者问题 · 线程内共享 · 定时器 · JDK5新功能 · 线程池 · Callable和Future · ReentrantLock · ReadWriteLock · …
目录 概况 手工搭建集群 引言 安装Python 配置文件 启动与测试 应用部署 参数配置 Storm命令 原理 Storm架构 Storm组件 Stream Grouping 守护进程容错性(Daemon Fault Tolerance) 数据可靠性(Guaranteeing Message Processing) 消息传输机制 API WordCount示例 应用部署方式 组件接口 组件实现类 数据连接方式 常用Topology模式 日志(集群模式) 并行度设置 tick定时机制 序列化 与…
目录 · 概况 · 手工安装 · 引言 · 创建HDFS目录 · 创建元数据库 · 配置文件 · 测试 · 原理 · 架构 · 与关系型数据库对比 · API · WordCount · 命令 · 数据类型 · 文件存储格式 · 数据格式 · 数据库 · 数据表 · 装载数据 · 插入数据 · 导出数据 · 查询数据 · 函数 · 性能调优 · join调优 · Reduce任务数 · 合并小文件 · multi-group-by insert和multiple insert · union a…