Pyspark笔记一

1. pyspark读csv文件后无法显示中文

#pyspark读取csv格式时，不能显示中文

df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema)

#解决方法，加入encoding='gbk'，即

df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema, encoding='gbk')

2. 查看和修改默认编码格式

import sys

#查看默认编码格式

print(sys.getdefaultencoding())

#修改编码格式

sys.setdefaultencoding('utf8')

#参考：https://blog.csdn.net/abc_321a/article/details/81945577

3. pyspark导入spark

原因：python中没有默认的sparksession，需要导入

#方法

from pyspark import SparkContext

from pyspark.sql.session import SparkSession

sc = SparkContext('local', 'test')

spark = SparkSession(sc)

#之后即可以使用spark
#参考：https://blog.csdn.net/zt7524/article/details/98173650

4. Pyspark引入col函数出错，ImportError: cannot import name 'Col' from 'pyspark.sql.functions'

#有人建议的是，不过我用的时候会报错

from pyspark.sql.functions import col

#后来测试了一种方式可以用

from pyspark.sql import Row, column

#也试过另一个参考，不过要更新pyspark包之类的，于是暂时没有用该方法，也就是安装pyspark-stubs包：pip install pyspark-stubs

#参考：http://isunix.github.io/blog/2019/06/04/pysparkzhong-yin-ru-colhan-shu-de-fang-shi/
#参考：https://stackoverflow.com/questions/40163106/cannot-find-col-function-in-pyspark
#参考：https://pypi.org/project/pyspark-stubs/

5. Exception: Python in worker has different version 2.6 than that in driver 3.7, PySpark cannot run with different minor versions.

#我是在Red hat环境下，装了两个python版本，于是报错

# 解决方案：在环境中加入想用的python版本

import os

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
#参考：https://blog.csdn.net/wmh13262227870/article/details/77992608

6. 在Red hat上使用pip3 安装pandas的时候出错：pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.

原因：python 3.7版本会出现这个问题，是因为openssl的版本比较低

方法：必须先升级openssl，然后重新编译或者安装python，顺序要注意

升级openssl和编译python可参考：https://www.cnblogs.com/jasonLiu2018/articles/10730605.html

注意：./configure --prefix=/usr/local/python3 --with-openssl=/usr/local/openssl 是先cd到python解压后的目录，再使用的，例如解压目录是当前目录的：Python-3.7.0，则先在命令行执行 cd Python-3.7.0，进入该目录，执行上述./configure代码，/usr/local/python3是python将要安装的目录，/usr/local/openssl是openssl已安装的目录；然后直接依次：make, make install重装python。

升级openssl可参考：

https://www.cnblogs.com/caibao666/p/9698842.html

https://www.cnblogs.com/mqxs/p/9103031.html

Pyspark笔记一的更多相关文章

PySpark笔记
spark源码位置:https://github.com/apache/spark Spark Core核心RDD及编程什么是RDD:1.是一个抽象类不能直接使用,在子类中实现抽象方法是一个抽象类不 ...
Spark调研笔记第4篇 - PySpark Internals
事实上.有两个名为PySpark的概念.一个是指Sparkclient内置的pyspark脚本.而还有一个是指Spark Python API中的名为pyspark的package. 本文仅仅对第1个 ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...
pyspark 学习笔记
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark.ML之PipeLine学习笔记
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户 ...
Spark调研笔记第2篇 - 怎样通过Sparkclient向Spark提交任务
在上篇笔记的基础上,本文介绍Sparkclient的基本配置及Spark任务提交方式. 1. Sparkclient及基本配置从Spark官网下载的pre-built包中集成了Sparkclient ...
Spark 基本函数学习笔记一
Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions. Transformations为一些数据转换类函数,actions为一些行动类函数: ...
大数据学习——spark笔记
变量的定义 val a: Int = 1 var b = 2 方法和函数区别:函数可以作为参数传递给方法方法: def test(arg: Int): Int=>Int ={ 方法体 } v ...

随机推荐

Warning: Hash history cannot PUSH the same path; a new entry will not be added to the history stack
现象在用`mobx-react-router`的`this.props.history.push("/")`的时候,浏览器会提示 Warning: Hash history ca ...
java程序cpu问题排查
方法一: 转载:http://www.linuxhot.com/java-cpu-used-high.html 1.jps 获取Java进程的PID. 2.jstack pid >> ja ...
ggplot绘图之基本语法
ggplot绘图之基本语法 2018年09月03日 22:29:56 一个人旅行*-* 阅读数 4332更多分类专栏: R语言 1.ggplot2图形之基本语法: ggplot2的核心理念是将绘 ...
【C/C++开发】C语言实现函数可变参数
函数原型: int printf(const char *format[,argument]...) 返回值: 成功则返回实际输出的字符数,失败返回-1. 函数说明: ...
GitToc-为你的Github仓库的Readme自动生成一个目录
维护自己的Github仓库的时候发现Github的Readme不支持Toc目录,所以就自己写了一个小工具. 工具地址:https://github.com/Holy-Shine/GitToc 简介如 ...
对spring的简单了解
对spring的简单了解什么是spring Spring是一个开源框架,是为了解决企业应用开发的复杂性而创建的,同时Spring也是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架特点 ...
深入理解Flink核心技术及原理
前言 Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注.本文将深入分析Flink的一些关键技术与特性,希望 ...
TensorSpace：超酷炫3D神经网络可视化框架
TensorSpace:超酷炫3D神经网络可视化框架 TensorSpace - 一款 3D 模型可视化框架,支持多种模型,帮助你可视化层间输出,更直观地展示模型的输入输出,帮助理解模型结构和输出方法 ...
C++ enable_if 模板特化实例（函数返回值特化、函数参数特化、模板参数特化、模板重载）
1. enable_if 原理关于 enable_if 原理这里就不细说了,网上有很多,可以参考如下教程,这里只讲解用法实例,涵盖常规使用全部方法. 文章1 文章2 文章3 1. 所需头文件 #in ...
Django使用指南
一.安装Django 1.命令行安装 pip3 install django(默认安装最新稳定版本) pip3 install django==版本号(指定版本安装) 2.Pycharm安装在Pyc ...

Pyspark笔记一

Pyspark笔记一的更多相关文章

随机推荐

热门专题