大数据实战手册-开发篇之IO

2.4 sparkContext IO:读
2.4.1 textFile

 # Load a text file and convert each line to a Row.

 lines = sc.textFile("examples/src/main/resources/people.txt")

2.4.2 hadoopFile
2.4.3 newAPIHadoopFile

parquet_rdd = sc.newAPIHadoopFile(

        path,

        'org.apache.parquet.avro.AvroParquetInputFormat',

        'java.lang.Void',

        'org.apache.avro.generic.IndexedRecord',

        valueConverter='org.apache.spark.examples.pythonconverters.IndexedRecordToJavaConverter')

2.4.4 pickleFile

备注：Load an RDD previously saved using RDD.saveAsPickleFile method.
2.4.5 parallelize
2.4.6 broadcast
2.5 sparkSql IO
2.5.1 DataFrameReader

**parquet**

df = spark.read.parquet("examples/src/main/resources/users.parquet")

**JSON**

peopleDF = spark.read.json("examples/src/main/resources/people.json")

**ORC**

df = spark.read.orc("examples/src/main/resources/users.orc")

**JDBC支持的db**

jdbcDF = spark.read \

        .format("jdbc") \

        .option("url", "jdbc:postgresql:dbserver") \

        .option("dbtable", "schema.tablename") \

        .option("user", "username") \

        .option("password", "password") \

        .load()

2.5.2 DataFrameWriter

**parquet**

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

**JSON**

 (df.write

        .partitionBy("favorite_color")

        .bucketBy(42, "name")

        .saveAsTable("people_partitioned_bucketed"))

**ORC**

(df.write.format("orc")

        .option("orc.bloom.filter.columns", "favorite_color")

        .option("orc.dictionary.key.threshold", "1.0")

        .save("users_with_options.orc"))

**JDBC支持的db**

  jdbcDF.write \

        .format("jdbc") \

        .option("url", "jdbc:postgresql:dbserver") \

        .option("dbtable", "schema.tablename") \

        .option("user", "username") \

        .option("password", "password") \

        .save()

大数据实战手册-开发篇之IO的更多相关文章

大数据学习笔记——Java篇之IO
IO学习笔记整理 1. File类 1.1 File对象的三种创建方式: File对象是一个抽象的概念,只有被创建出来之后,文件或文件夹才会真正存在注意:File对象想要创建成功,它的目录必须存在! ...
《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台
一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...
SparkSQL大数据实战：揭开Join的神秘面纱
本文来自网易云社区 . Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景. Join背景介 ...
Java，面试题，简历，Linux，大数据，常用开发工具类，API文档，电子书，各种思维导图资源，百度网盘资源，BBS论坛系统 ERP管理系统 OA办公自动化管理系统车辆管理系统各种后台管理系统
Java,面试题,简历,Linux,大数据,常用开发工具类,API文档,电子书,各种思维导图资源,百度网盘资源BBS论坛系统 ERP管理系统 OA办公自动化管理系统车辆管理系统家庭理财系统各种后 ...
《OD大数据实战》HDFS入门实例
一.环境搭建 1. 下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境 ...
《OD大数据实战》Hive环境搭建
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建二.Hive环境搭建 1. 准备安装文件下载地址: http://archive.cloudera.com/cd ...
大数据学习笔记——Java篇之基础知识
Java / 计算机基础知识整理在进行知识梳理同时也是个人的第一篇技术博客之前,首先祝贺一下,经历了一年左右的学习,从完完全全的计算机小白,现在终于可以做一些产出了!可以说也是颇为感慨,个人认为,学 ...
【原创干货】大数据Hadoop/Spark开发环境搭建
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深 ...
Azure HDInsight 和 Spark 大数据实战(一)
What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Stor ...
《OD大数据实战》环境整理
一.关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode ...

随机推荐

Python常见部分内置方法与操作
Python常见内置方法与操作整型int 类型转换 int(其它数据类型),但只支持数字类型和小数类型 >>> num1 = input('Your age>>> ...
Algorithm参数记录
一.vector<Point2f> vector是一个存储二维点坐标的容器,其中每个元素都是一个Point2f类型的对象.在OpenCV中,Point2f表示一个由两个单精度浮点数构成的二 ...
四月二十三号java基础知识
1.异常是指在程序运行中由代码产生的一种错误2.按照错误的性质将错误分为语法错.语义错.和逻辑错三种3.语法错是有由于违反程序设计语言的语言规则而产生的错误,如标识符未标明.表达式中运算符与操作数类型 ...
LeeCode数组问题（二）
LeeCode 977:有序数组的平方题目描述: 给你一个按非递减顺序排列的整数数组nums,返回每个数字的平方组成的新数组,要求也按非递减顺序排序. 标签:数组,首尾指针,最大值优先时间复杂度: ...
IIS部署网站，运行网站时出现的错误
大概情况就是一台新电脑在部署IIS中出现的各种问题,做了一个整合,大部分都是找的别人写的博客,但是有的原文连接找不到了,见谅! 问题: 不能在此路径中使用此配置节.如果在父级别上锁定了该节,便 ...
快速上手Linux核心命令（八）：网络相关命令
目录前言测试主机之间网络是否联通 ifconfig 配置或显示网络信息 route 显示或管理路由表 netstat 查看网络状况 telnet 远程登录主机 ssh 安全的远程登录主机 wget ...
JavaScript封装大全
JavaScript封装大全-持续更新 Ajax封装 // 使用该封装需注意 // Ajax(method(默认GET), url(网址必传), success(res){(成功时数据处理函数必传 ...
rnacos——用rust重新实现的nacos开源配置、注册中心服务
1. 简介 rnacos 是一个用rust实现的nacos服务. rnacos是一个轻量.快速.稳定的服务,包含注册中心.配置中心.web管理控制台功能. rnacos兼容nacos client s ...
5分钟实现调用ChatGPT接口API实现多轮问答
5分钟实现调用ChatGPT接口API完成多轮问答最近ChatGPT也是火爆异常啊,在亲自使用了几个月之后,我发现这东西是真的好用,实实在在地提高了生产力.那么对于开发人员来说,有时候可能需要在自己 ...
查找命令 (which 、 find ）----grep 、 wc 和管道符，echo ，反引号 `
which命令通过which命令,查看所使用的一系列命令的程序文件存放在哪里 find命令按文件大小查找文件语法:find 起始路径 -size [(+,-)k,m,g ] •+.-表示 ...

大数据实战手册-开发篇之IO

大数据实战手册-开发篇之IO的更多相关文章

随机推荐

热门专题