以某课网日志分析为例 进入大数据 Spark SQL 的世界
- 第1章 初探大数据
本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识
- 第2章 Spark及其生态圈概述
Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ...
- 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。
- 第3章 实战环境搭建
工欲善其事必先利其器,本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行
- 第4章 Spark SQL概述
Spark SQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构,这几个角度进行展开讲解...
- 第5章 从Hive平滑过渡到Spark SQL
Hive是SQL-on-Hadoop的解决方案和默认的标准,如何将数据处理从Hive过渡到Spark SQL上来是我们必须要掌握的。本章我们将讲解在Spark中操作Hive中的数据几种方式
- 第6章 DateFrame&Dataset
DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的产生背景、DataFrame对比RDD、DataFrame API操作等方面对DataFrame做详细的编程开发讲解
- 第7章 External Data Source
Spark SQL中的核心功能,可以使用外部数据源非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用外部数据源来操作Hive、Parquet、MySQL中的数据以及综合使用
- 第8章 SparkSQL愿景
本章将讲解Spark的愿景:写更少的代码、读更少的数据、让优化器自动优化程序
- 第9章 慕课网日志实战
本章使用Spark SQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及Spark on YARN。通过本实战项目将Spark SQL中的知识点融会贯通,达到举一反三的效果 ...
- 第10章 Spark SQL扩展和总结
本章将列举Spark SQL在工作中经常用到的方方方面的总结
以某课网日志分析为例 进入大数据 Spark SQL 的世界的更多相关文章
- 以慕课网日志分析为例-进入大数据Spark SQL的世界
下载地址.请联系群主 第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目 ...
- 【慕课网实战】八、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...) 用户行为轨迹.流量日志 日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的ur ...
- 【慕课网实战】九、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFi ...
- 【慕课网实战】七、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
用户: 方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json.parquet)写回到 ...
- 【慕课网实战】六、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
DataFrame它不是Spark SQL提出的,而是早起在R.Pandas语言就已经有了的. A Dataset is a distributed collection of data:分布式的 ...
- 【慕课网实战】五、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \ ...
- 【慕课网实战】四、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin... ...
- 【慕课网实战】三、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS=&qu ...
- 【慕课网实战】二、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
MapReduce的局限性: 1)代码繁琐: 2)只能够支持map和reduce方法: 3)执行效率低下: 4)不适合迭代多次.交互式.流式的处理: 框架多样化: 1)批处理(离线):MapRed ...
随机推荐
- Azure 经典模式中虚拟机证书指纹的生成和作用
用户在使用经典虚拟机时,经常会有如下疑问:门户主板页面中的 SSH/RDP 证书指纹这项信息是怎么来的?用途是什么?为什么有的时候为空?有没有对虚拟机使用有什么影响?以下我们进行一些基本的介绍: 证书 ...
- 微信开发平台中有个接口是上传多媒体文件,我用的是java 开发的,我怎么样才能在后台实现呢?
/** * 文件上传到微信服务器 * @param fileType 文件类型 * @param filePath 文件路径 * @return JSONObj ...
- ORM------多表操作
上面介绍了单表操作 下面就好比我们的sql语句这只能满足于我们的一些简单的操作不能适应我们更多的需要 所以我们需要用到更多的需求来进行我们的关系的建立以及查找 其实ORM语句就对应着我们的sql语句 ...
- FTP列出文件列表
#定义FTP服务器地址$ftpURL = "ftp://192.168.12.6/"#定义登录FTP服务器的账户及密码$username = "testj\adadmin ...
- Python学习---Model拾遗[1]180318
Model: 强大的数据库操作,弱小的数据验证 Form: 强大的数据验证 ModelForm: 强大的数据验证 + 弱小的数据库操作 Model拾遗 Model基本操作 1. 创建数据库表2. 修 ...
- windows2003 iis6配置文件和win2008/2012 iis7.5配置文件
转载某大牛.... 日国外站的单子 :反正跑着玩 简单看下 先 在线web扫描 https://www.yascanner.com/之后发现存在注入漏洞 asp的站 穿山甲可以注入,但是发现是m ...
- socket端口复用问题一二
实际上,默认的情况下,如果一个网络应用程序的一个套接字 绑定了一个端口( 占用了 8000 ),这时候,别的套接字就无法使用这个端口( 8000 ), 验证例子如下: #include <std ...
- calayer defaultValueForKey
例如:我们新建一个SubLayer类继承自CALayer,则在SubLayer.m中重写此方法.如下: + (id)defaultValueForKey:(NSString *)key { if ([ ...
- swift中的"类型擦除"
代理模式.或者协议模式 因为swift泛型还不支持逆变和协变也就不会有真的类型擦除,而这里说的"类型擦除"是指:利用一个具体实现的通用泛型类(参看系统库的AnySequence), ...
- 第04章-VTK基础(7)
[译者:这个系列教程是以Kitware公司出版的<VTK User's Guide -11th edition>一书作的中文翻译(出版时间2010年.ISBN: 978-1-930934- ...