# -*- coding: utf-8 -*-

from pyspark import SparkConf, SparkContext

from pyspark.sql import HiveContext

conf = SparkConf().setMaster("local").setAppName("My App")

sc = SparkContext(conf=conf)

hiveCtx = HiveContext(sc)

rows = hiveCtx.sql("select * from db.table where pt=20171111 limit 10")

firstRow = rows.first()

print firstRow.userid

'''运行结果：

11308542

'''

提交到集群：

/opt/local/spark-2.1.1-bin-hadoop2.7/bin/spark-submit /home/rainymorns/aaa.py --master yarn-cluster --executor-memory 1G --num-executors 1

【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）的更多相关文章

TensorFlow基础笔记(1) 数据读取与保存
https://zhuanlan.zhihu.com/p/27238630 WholeFileReader # 我们用一个具体的例子感受tensorflow中的数据读取.如图, # 假设我们在当前文件 ...
【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）
目录线性回归原理线性回归代码(Spark Python) 线性回归原理详见博文:http://www.cnblogs.com/itmorn/p/7873083.html 返回目录线性回归代码( ...
【Spark机器学习速成宝典】基础篇02RDD常见的操作（Python版）
目录引例入门:textFile.collect.filter.first.persist.count 创建RDD的方式:parallelize.textFile 转化操作:map.filter.fl ...
【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea（Scala版）
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开 ...
【Spark机器学习速成宝典】基础篇04数据类型（Python版）
目录 Vector LabeledPoint Matrix 使用C4.5算法生成决策树使用CART算法生成决策树预剪枝和后剪枝应用:遇到连续与缺失值怎么办? 多变量决策树 Python代码(sk ...
【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）
目录保序回归原理保序回归代码(Spark Python) 保序回归原理待续... 返回目录保序回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/ ...
【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）
目录决策树原理决策树代码(Spark Python) 决策树原理详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spar ...

随机推荐

tf-图像预处理
tensorflow 中自带了很多图像处理的方法,基本都在 tf.image 模块中,虽然不如 opencv 强大,但也比较常用,这里做个记录. 图像编解码 1. 用 tf 的方法读取图片后,都需要进 ...
php 数组助手类
ArrayHelper.php <?php /** * php 数组助手类 * Class ArrayHelper * @package app\helper */ class ArrayHel ...
云服务器linux重新挂载指定目录（非扩充）
新买的香港云服务器,系统只能在商家的控制台上安装. 系统和硬盘分开的,根目录空间只有10G.需要重新设置相关目录的大小,如:/usr./var./home等. 以下是自己的解决方法小计. 一.初始的分 ...
RocketMQ 源码分析 —— Message 发送与接收
1.概述 Producer 发送消息.主要是同步发送消息源码,涉及到异步/Oneway发送消息,事务消息会跳过. Broker 接收消息.(存储消息在<RocketMQ 源码分析 —— Mes ...
npm 命令行基本操作
npm命令选项选项说明search 在存储库中查找模块包 npm search expressinstall 使用在存储库或本地位置上的一个package.json文件来安装 ...
1.Java 字符分割
使用方法性能比较使用方法或|,点.,加+,乘*,在字符串中出现时,如果这个字符串需要被split,则split时候,需要在前面加两个反斜杠. 与&,在split时候,不需要转义. 一.j ...
关于IDEA中@Autowired 注解报错~图文
例如鼠标放上去会报错如下: Could not autowire. No beans of 'StudentMapper' type found. less... (Ctrl+F1) Inspecti ...
隐马尔可夫模型的前向算法(java实现)，今天奉上
隐马尔可夫模型的前向算法(手动实现),今天奉上,由于研究生期间,实现的时候没有多加注释,这里为了让更好的人进入自然语言处理领域,特此,将前向算法奉上,具体公式可参考52nlp的HMN系列博客. 参考了 ...
牛客OI周赛13-提高组比赛总结
比赛情况 1h才写出T1 100pts + T2 50pts(都是简单dp可还行).然后就去颓废了.颓废完来康康T3的暴力,wow,T3咋这么难呢!?期望概率好像不太会了,退了吧qwq. 所以最后 1 ...
从位图图像中读取2D纹理（C ++，OpenGL）
一共有2个.cpp文件和1个.h头文件步骤: 需要安装GLUT,因为GLUT是第三方库,即它不是OpenGL的一部分.因此,它不是Windows系统API的一部分,因此不属于标准Windows SD ...

【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）

目录

保存为文本文件：saveAsTextFile

保存为json：saveAsTextFile

保存为SequenceFile：saveAsSequenceFile

读取hive

【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）的更多相关文章

随机推荐

热门专题