一、安装Spark

《Spark2.4.0入门:Spark的安装和使用》

博客地址:http://dblab.xmu.edu.cn/blog/1307-2/

1.1 基础环境

1.1.1 安装Spark之前需要安装:

Linux系统

Java环境(Java8或JDK1.8以上版本)

Hadoop环境

Hadoop安装教程地址:http://dblab.xmu.edu.cn/blog/install-hadoop/

按照这个教程,就可以完成JDK和Hadoop这二者的安装

1.1.2 安装JDK与Hadoop平台镜像文件:

下载虚拟机镜像文件

Oracle VM VirtualBox

管理

导入虚拟电脑

已经下载到本地的镜像文件,导入,就可以生成Ubuntu虚拟机

进入Ubuntu系统时,系统登录用户名是hadoop,密码是123456

里面安装的MySQL数据库的root用户对应的密码也是hadoop

1.1.3 环境准备检查

1.2 下载安装文件

Spark安装包下载地址: http://spark.apache.org/downloads.html

登录Linux,打开Firefox,访问官网

进入下载页面后,点击主页右侧的“Download Spark”按钮进入下载页面

第1项Spark release一般默认选择最新的发行版本

第2项package type则选择“Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”,可适用于多数Hadoop版本

选择好之后,再点击第3项给出的链接就可以下载Spark了

Windows --> Linux文件传输:

从windows网盘下载或复制

从Windows传到Linux

开始安装:

解压安装包spark-2.4.0-bin-without-hadoop.tgz至路径 /usr/local/ 注意,下载的路径或文件名不同,命令的相应地方不同。 

更改文件名

修改文件夹权限

$ cd ~/下载
$ sudo tar -zxf ~/下载/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/ #解压
$ cd /usr/local
$ sudo mv ./spark-2.4.0-bin-without-hadoop/ ./spark # 更改文件夹名
$ sudo chown -R hadoop ./spark # 修改文件夹权限,此处的 hadoop 为系统用户名

1.3 配置相关文件

配置Spark 的classpath

$ cd /usr/local/spark
$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh #拷贝配置文件

编辑该配置文件,在文件最后面加上如下一行内容:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存配置文件后,就可以启动、运行Spark了

若需要使用HDFS中的文件,则在使用Spark前需要启动Hadoop

start-dfs.sh

1.4 配置环境变量

gedit ~/.bashrc

export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9-src.zip:PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$PATH:$SPARK_HOME/bin

source ~/.bashrc

查看配置结果

1.5 运行pyspark

执行如下命令启动pyspark(无参数,默认是local[*]模式):

$ cd /usr/local/spark
$ ./bin/pyspark

(启动pyspark成功后在输出信息的末尾可以看到“>>>”的命令提示符)

1 在pyspark中运行代码

可以在里面输入python代码进行测试:

>>> print('spark')
>>> 8*2+5
>>> 6*502-1
>>> sc

可以使用命令“exit()”退出pyspark:

>>> exit()

Spark任务执行流程

四个步骤

1.构建DAG(有向无环图)(调用RDD上的方法)

2.DAGScheduler将DAG切分Stage(切分的依据是Shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler

3.TaskScheduler调度Task(根据资源情况将Task调度到相应的Executor中)

4.Executor接收Task,然后将Task丢入到线程池中执行

二、Python编程练习:英文文本的词频统计

2.1 准备文本文件(新建并编辑实验所需的英文文本)

$ gedit article.txt

2.2 实现英文文本的词频统计

2.2.1 方法一:使用python3运行py文件

(1)编写py文件

$ gedit wordcount.py

# wordcount.py
# 读文件
file = open("/usr/local/spark/article.txt","r",encoding='UTF-8').read() # 预处理(大小写、标点符号)
file = file.lower() # 替换为小写
for str in '.?!,:;-_()[]{}"`!@#$%^&*+=*/\<|>':
file = file.replace(str, " ") # 替换标点符号为空格 # 分词
words = file.split() # 统计每个单词出现的次数
wordcount = {}
for word in words:
wordcount[word] = wordcount.get(word,0)+1
wclist = list(wordcount.items()) # 列表统计 # 按词频大小排序--降序
wclist.sort(key=lambda x:x[1], reverse=True) # 打印列表
print(wclist)

(2)使用python3运行wordcount.py

$ python3 wordcount.py

运行结果

2.2.2 方法二:在pyspark中用shell命令实现词频统计

(1)启动spark-shell

$ pyspark

# 导包
>>> import os
>>> import shutil # 读文件
>>> textFile = sc.textFile("file:///usr/local/spark/article.txt")
>>> textFile.first()

注:first()是一个“行动”(Action)类型的操作,会启动真正的计算过程,从文件中加载数据到变量textFile中,并取出第一行文本,另因为Spark采用了惰性机制,在执行转换操作的时候,即使我们输入了错误的语句,pyspark也不会马上报错,而是等到执行“行动”类型的语句时启动真正的计算,那个时候“转换”操作语句中的错误就会显示出来:拒绝连接!

# 分词(指令将文档类的内容“拍扁”成一个个单词,然后按照“ ”(空格)的样式切割)
>>> word = textFile.flatMap(lambda line:line.split(" ")) # 统计每个单词出现的次数————转换成键值对并计数,将文档中的内容按照(key,value)的方式封装,其中value为1;指令将封装好的map中的同一个key下面的value值进行相加
>>> count = word.map(lambda word:(word,1)).reduceByKey(lambda a, b:a + b) # 将封装好的map按照key的大小进行降序(sortBy()默认为升序,参数传入False则为降序)
>>> count = count.sortBy(lambda x:x[1],False) # 查询一下生成的Rdd内容的样式
>>> count.collect()

# 删除输出目录(非必需)
>>> if os.path.exists("file:///usr/local/spark/output_wordcount"):
... shutil.rmtree("file:///usr/local/spark/output_wordcount", True) # 将统计结果写入结果文件
>>> count.saveAsTextFile("file:///usr/local/spark/output_wordcount")

查看结果

注:方法一和方法二结果稍有不同,原因是方法二没有进行预处理。

三、根据自己的编程习惯搭建编程环境

此处使用PyCharm作为Python编程环境

Ubuntu 16.04 + PyCharm + spark 运行环境配置

1. 检查JAVA配置环境

可以用命令java -version或者javac -version来看你的环境有没有配置完成



出现版本号说明JDK环境配置成功

2. 官网下载地址:http://www.jetbrains.com/pycharm/ ,选择平台为Linux

PyCharm分为社区版和专业版,专业版功能更加齐全但需收费,这里我们下载社区版

3. 在终端中用cd命令跳转到你的下载目录,复制你下载的PyCharm压缩包的名字,然后执行如下命令解压缩

$ sudo tar -zxvf ~/下载/pycharm-community-2021.3.2.tar.gz -C /usr/local/   # 解压
$ sudo mv /usr/local/pycharm-community-2021.3.2 /usr/local/PyCharm # 改名
$ sudo chown -R hadoop /usr/local/PyCharm # 授权
$ /usr/local/PyCharm/bin/pycharm.sh # 启动

4. PyCharm启动界面

5. 新建一个项目测试运行环境

配置完成!

2.安装Spark与Python练习的更多相关文章

  1. Windows下单机安装Spark开发环境

    机器:windows 10 64位. 因Spark支持java.python等语言,所以尝试安装了两种语言环境下的spark开发环境. 1.Java下Spark开发环境搭建 1.1.jdk安装 安装o ...

  2. ubuntu18.04安装spark(伪分布式)

    在安装spark之前,首先需要安装配置Hadoop,这个就不做详细介绍了,可以参看博主的另一篇: https://blog.csdn.net/weixin_42001089/article/detai ...

  3. Spark 的 python 编程环境

    Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用.在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本. Spark 安装 访问Spark 下载页面, ...

  4. 安装spark ha集群

    安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/p ...

  5. Ubuntu 14.04 LTS 安装 spark 1.6.0 (伪分布式)-26号开始

    需要下载的软件: 1.hadoop-2.6.4.tar.gz 下载网址:http://hadoop.apache.org/releases.html 2.scala-2.11.7.tgz 下载网址:h ...

  6. window下安装pip工具,再利用pip安装工具来安装其他的python包

    1.在安装pip前,请确认你window系统中已经安装好了python,和easy_install工具,如果系统安装成功,easy_install在目录C:\Python27\Scripts 下面,如 ...

  7. Python 基础之在ubuntu系统下安装双版本python

    前言:随着python升级更新,新版本较于老版本功能点也有不同地方,作为一个初学者应该了解旧版本的规则,也要继续学习新版本的知识.为了能更好去学习python,我在ubuntu安装python2和py ...

  8. 在Ubuntu上安装Mysql For Python

    安装: 首先安装pip,并且把pip更新到最小版本 apt-get install python-pip pip install -U pip 安装mysql开发包 apt-get install p ...

  9. ubuntu安装spark on yarn

    安装spark 安装hadoop 安装ssh,调试免密钥登录 配置hadoop 配置yarn 测试

随机推荐

  1. windev的弹窗详情页滚动条实现方法以及弹窗尺寸规划

    按照企业信息系统的设计习惯,我们一般将信息以列表的方式在主窗口展现,同时设置需要展现的字段,一些系统会将这个窗口称为总表页.列表页等.而信息的编辑或完整信息的查询,一般通过一个弹窗来实现,一些系统会将 ...

  2. 【Windows 访问控制】九、AccessCheck 的工作原理

    授权和访问控制组件 下图说明了授权Windows访问控制过程. 在此图中,主题 (由用户启动) 访问对象(如共享文件夹)的过程. 将用户的访问令牌中的信息与对象的安全描述 (AES) 中的访问控制项进 ...

  3. Kubernetes集群搭建(详细)

    kubernetes集群搭建(kubeadm方式) kubeadm是官方社区推出的一个用于快速部署kubernetes集群的工具.这个工具能通过两条指令完成一个kubernetes集群的部署: # 创 ...

  4. 编译原理 | 构造LR(1)自动机的注意事项

    在画图之前,有时候要先对产生式集合进行某些操作. 下图所示的情况,不需要补一条拓广产生式,因为开始符Z没有出现在某条产生式的右侧. 即,如果开始符出现在某条产生式的右部,需要增加拓广产生式.

  5. kibana实现条件查询和修改

    GET jyb_report_index_preprod/_search { "query": { "match": { "report_id&quo ...

  6. Pycharm:设置自带控制台的python版本

    之前在用chr将一个编码转化为对应的字符时,出现以下提示 chr() arg not in range(256) 后来发现,只有python2.x才会出现这种情况,python3.x统一使用unico ...

  7. Pycharm:集体缩进、注释、折叠

    1.集体缩进 选中代码块,按TAB 2.集体前移 选中代码块,Shift TAB 3.集体注释 选中代码块,CTRL + / 4.取消集体注释 再按一下CTRL+/ 5.集体折叠 CTRL+SHIFT ...

  8. 让Node.js支持ES6的语法

    使用命令,全局安装es-checker: cnpm install -g es-checker 安装好之后,执行以下命令来查看Node.js对ES6的支持情况. es-checker 可以从输出中查看 ...

  9. Flutter的强制自我审查

    在<如何做好 Code Review>中我论述过代码审查对于保证代码品质的重要性,最近开始采用Git Hooks的方式为Flutter项目增加提交前的强制自我审查.这样做的好处在于将机械化 ...

  10. laravel 框架增删改查+数据恢复

    ...............路由页面 //修改页面的自定义路由Route::post('unigoods/updata','uniGoodsController@updata');//数据恢复Rou ...