Spark向HDFS中存储数据

程序如下：

import org.apache.spark.sql.Row;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.SQLContext;

public class QueryAndStoreHDFSData {

    static SparkConf sparkConf = new SparkConf().setAppName("HDFSQuery").setMaster("local[2]");

    static JavaSparkContext sc = new JavaSparkContext(sparkConf);

    static SQLContext sqlContext = new SQLContext(sc);

    public static void main(String[] args){

//        JavaRDD<String> poi = sc.textFile("hdfs://node2:9000/user/flume/events/2015-11-27-21/events-.1448629506841");

        DataFrame df = sqlContext.read().json("hdfs://node2:9000/user/flume/events/2015-11-26-21/events-.1448543965316");

        // 打印模式

        df.printSchema();

        // 将数据框架注册成一个表

        df.registerTempTable("poi");

        // 使用sql语句从表中读取数据

        DataFrame poi = sqlContext.sql("SELECT * FROM poi WHERE cid=57425749418");

        JavaRDD<Row> row = poi.javaRDD();

        //将RDD中的数据存入HDFS（也可以指定其他目录和格式）

        row.saveAsTextFile("hdfs://node2:9000/user/poi.txt");

        row.foreach(new VoidFunction<Row>(){

            @Override

            public void call(Row r) throws Exception {

                System.out.println(r.mkString());

            }

        });

    }

}

Spark向HDFS中存储数据的更多相关文章

Spark读取HDFS中的Zip文件
1. 任务背景近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同 ...
HDFS中的数据块(Block)
我们在分布式存储原理总结中了解了分布式存储的三大特点: 数据分块,分布式的存储在多台机器上数据块冗余存储在多台机器以提高数据块的高可用性遵从主/从(master/slave)结构的分布式存储集群 ...
Sqoop2 将hdfs中的数据导出到MySQL
1.进入sqoop2终端: [root@master /]# sqoop2 2.为客户端配置服务器: sqoop:000> set server --host master --port 120 ...
Linux启动kettle及linux和windows中kettle往hdfs中写数据(3)
在xmanager中的xshell运行进入图形化界面 sh spoon.sh 新建一个job
jquery在元素中存储数据:data()
转自:http://www.php.cn/js-tutorial-405445.html 在元素中存储数据:data() 1 2 3 4 5 6 7 8 9 10 <!DOCTYPE html& ...
hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）
实现将 HDFS 中的数据写入到 HBase 表中 Runner类 package com.yjsj.hbase_mr2; import com.yjsj.hbase_mr2.ReadFruitFro ...
java程序向hdfs中追加数据,异常以及解决方案
今天在学习hdfs时,遇到问题,就是在向hdfs中追加数据总是报错,在经过好几个小时的努力之下终于将他搞定解决方案如下:在hadoop的hdfs-sit.xml中添加一下三项 <propert ...
使用spark将内存中的数据写入到hive表中
使用spark将内存中的数据写入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" st ...
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...

随机推荐

PostgreSQL 入门
1.连接数设置为:-1.表示链接数不受限制,理论上可以使用无数个链接. 2.使用外键约束,外键用来在两个表的数据之间建立连接,一个表的外键可以为空值,若不为空值,则每一个外键值必须等于另一个表中主键的 ...
15：链表中倒数第K个节点
/** * 面试题15:链表中倒数第K个节点 * 输入一个链表,输出该链表中倒数第k个结点. */ public class _15_linked_K { public static void mai ...
【知了堂学习笔记】java 底层容易忽略的知识点
1. java中的关键字提到关键字,最主要的就是不能用关键字作为标识符,值得注意的有以下几点. ①其中goto与const在java中没有定义,但是也是关键字.这个基本用不到,但是应该有个认知. ② ...
CTF Writeup 一个专门收集WP的网站
www.ctfwp.com 创建于2019-04-15 致力于收集网上公开writeup,方便大家学习.
JAVAEE——宜立方商城13：订单系统实现、订单生成、Mycat数据库分片
1. 学习计划 1.订单系统实现 2.订单生成 3.Mycat数据库分片 2. 订单系统 2.1. 功能分析 1.在购物车页面点击“去结算”按钮,跳转到订单确认页面 a) 必须要求用户登录 b) 使用 ...
Java 关于集合框架那点事儿
1.引入集合框架采用数组存在的一些缺陷: 1.数组长度固定不变,不能很好地适应元素数量动态变化的情况. 2.可通过数组名.length获取数组的长度,却无法直接获取数组中真实存储的个数. ...
1016 Phone Bills (25)（25 point(s)）
problem A long-distance telephone company charges its customers by the following rules: Making a lon ...
centos+uwsgi+nginx+python+django服务器安装配置
1.ssh登录后使用fdisk –l查看需要格式化硬盘的名称: 2.运行fdisk /dev/vdb,对数据盘进行分区,按照提示,依次输入n,p,1,两次回车,wq,分区开始.(注意数据盘的名称,和阿 ...
Needed Learning(Updating)
决定把掌握不熟练或是模型见的少的知识点在这里列一列希望能在自己AFO前成功get技能点吧…… 优先级:动态规划-分治-字符串-图论-数据结构-数学-计算几何-其它动态规划 1.四边形不等式优化 2 ...
Codeforces.724G.Xor-matic Number of the Graph(线性基)
题目链接 \(Description\) 给定一张带边权无向图.若存在u->v的一条路径使得经过边的边权异或和为s(边权计算多次),则称(u,v,s)为interesting triple(注意 ...

Spark向HDFS中存储数据

程序如下：

Spark向HDFS中存储数据的更多相关文章

随机推荐

热门专题