Spark向HDFS中存储数据

程序如下：

import org.apache.spark.sql.Row;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.SQLContext;

public class QueryAndStoreHDFSData {

    static SparkConf sparkConf = new SparkConf().setAppName("HDFSQuery").setMaster("local[2]");

    static JavaSparkContext sc = new JavaSparkContext(sparkConf);

    static SQLContext sqlContext = new SQLContext(sc);

    public static void main(String[] args){

//        JavaRDD<String> poi = sc.textFile("hdfs://node2:9000/user/flume/events/2015-11-27-21/events-.1448629506841");

        DataFrame df = sqlContext.read().json("hdfs://node2:9000/user/flume/events/2015-11-26-21/events-.1448543965316");

        // 打印模式

        df.printSchema();

        // 将数据框架注册成一个表

        df.registerTempTable("poi");

        // 使用sql语句从表中读取数据

        DataFrame poi = sqlContext.sql("SELECT * FROM poi WHERE cid=57425749418");

        JavaRDD<Row> row = poi.javaRDD();

        //将RDD中的数据存入HDFS（也可以指定其他目录和格式）

        row.saveAsTextFile("hdfs://node2:9000/user/poi.txt");

        row.foreach(new VoidFunction<Row>(){

            @Override

            public void call(Row r) throws Exception {

                System.out.println(r.mkString());

            }

        });

    }

}

Spark向HDFS中存储数据的更多相关文章

Spark读取HDFS中的Zip文件
1. 任务背景近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同 ...
HDFS中的数据块(Block)
我们在分布式存储原理总结中了解了分布式存储的三大特点: 数据分块,分布式的存储在多台机器上数据块冗余存储在多台机器以提高数据块的高可用性遵从主/从(master/slave)结构的分布式存储集群 ...
Sqoop2 将hdfs中的数据导出到MySQL
1.进入sqoop2终端: [root@master /]# sqoop2 2.为客户端配置服务器: sqoop:000> set server --host master --port 120 ...
Linux启动kettle及linux和windows中kettle往hdfs中写数据(3)
在xmanager中的xshell运行进入图形化界面 sh spoon.sh 新建一个job
jquery在元素中存储数据:data()
转自:http://www.php.cn/js-tutorial-405445.html 在元素中存储数据:data() 1 2 3 4 5 6 7 8 9 10 <!DOCTYPE html& ...
hbase使用MapReduce操作4（实现将 HDFS 中的数据写入到 HBase 表中）
实现将 HDFS 中的数据写入到 HBase 表中 Runner类 package com.yjsj.hbase_mr2; import com.yjsj.hbase_mr2.ReadFruitFro ...
java程序向hdfs中追加数据,异常以及解决方案
今天在学习hdfs时,遇到问题,就是在向hdfs中追加数据总是报错,在经过好几个小时的努力之下终于将他搞定解决方案如下:在hadoop的hdfs-sit.xml中添加一下三项 <propert ...
使用spark将内存中的数据写入到hive表中
使用spark将内存中的数据写入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" st ...
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...

随机推荐

LoadRunner 一参多用
LoadRunner参数化后的值在脚本中多处位置引用(LoadRunner 一参多用) LoadRunner的参数化给了我们很多便利,但是当一个脚本中同一个值出现多处,并且值都是一致的.这个时候, ...
HDU 4443 带环树形dp
思路:如果只有一棵树这个问题很好解决,dp一次,然后再dfs一次往下压求答案就好啦,带环的话,考虑到环上的点不是很多,可以暴力处理出环上的信息,然后最后一次dfs往下压求答案就好啦.细节比较多. # ...
python3与mysql交互：pymysql
python3与mysql交互 1.安装pymysql模块 pip3 install pymysql3 2.pymysql的简单使用: # /usr/bin/env python3 import py ...
java 工厂模式和内部类的完美结合
package com.bikeqx.test; public class Main{ public static void apply(ServiceFactory sf){ Service s = ...
牛客练习赛1 A - 矩阵
链接:https://www.nowcoder.com/acm/contest/2/A来源:牛客网题目描述给出一个n * m的矩阵.让你从中发现一个最大的正方形.使得这样子的正方形在矩阵中出现了至 ...
Python之路【第十篇】: python基础之socket编程
阅读目录一客户端/服务器架构二 osi七层三 socket层四 socket是什么五套接字发展史及分类六套接字工作流程七基于TCP的套接字八基于UDP的套接字九 recv与 ...
python 与 mongodb的交互
Kubernetes(k8s)集群部署（k8s企业级Docker容器集群管理）系列之部署master/node节点组件（四）
0.前言整体架构目录:ASP.NET Core分布式项目实战-目录 k8s架构目录:Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列目录 1.部署master组件 ...
UNP学习总结（二）
本文是UNP复习系列的第二篇,主要包括了以下几个内容 UNIX系统下5种I/O模型阻塞.非阻塞,同步.异步 epoll函数用例一.Unix下的五种可用I/O模型阻塞式I/O模型阻塞式I/O是最 ...
request.get_full_path() 和request.path区别
1. 都是获取request 请求的url路径 2. request.get_full_path() -- 获取当前url,(包含参数) 请求一个http://127.0.0.1:8000/200/? ...

Spark向HDFS中存储数据

程序如下：

Spark向HDFS中存储数据的更多相关文章

随机推荐

热门专题