Spark-Linux环境准备 视频教程: 1.优酷 2.YouTube 硬软件环境 1.虚拟机:VMware Workstation 12 2.虚拟机操作系统:RedHat5u4,单核,1G内存,2两台 3.虚拟机运行环境: java version "1.7.0_79" 64位 Scala version 2.10.5 hadoop-2.6.0 spark-2.0.0-bin-hadoop2.6 Python 2.7.12 配置IP 192.168.3.100 master 192…
Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到master和slave机器的hadoop用户installer目录下 两台机器都要做 [hadoop@master installer]$ ls hadoop2  hadoop-2.6.0.tar.gz  scala-2.10.5.tgz 解压 [hadoop@master installer]$…
Spark简介 视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL.Spark Streaming.MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台. Spark使用Scala语言实现,…
map,filter,flatMap算子 视频教程: 1.优酷 2.YouTube 1.map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的JavaRDD. java: package com.bean.spark.trans; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark…
Transformation和action详解 视频教程: 1.优酷 2.YouTube 什么是算子 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作. 算子分类: 具体: 1.Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对. 3.Action算子,这类算子会触发SparkC…
Spark-Hadoop集群搭建 视频教程: 1.优酷 2.YouTube 配置java 启动ftp [root@master ~]# /etc/init.d/vsftpd restart 关闭 vsftpd:                                                     [失败] 为 vsftpd 启动 vsftpd:                                               [确定] 默认情况下 root不允许使用f…
groupByKey,reduceByKey,sortByKey算子 视频教程: 1.优酷 2. YouTube 1.groupByKey groupByKey是对每个key进行合并操作,但只生成一个sequence,groupByKey本身不能自定义操作函数. java: package com.bean.spark.trans; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf;…
尚学python课程---11.linux环境下安装python注意 一.总结 一句话总结: 准备安装依赖包:zlib.openssl:yum install zlib* openssl*:python的pip需要依赖这两个包 安装ipython:python的好用工具:在python中可以敲 shell命令 1.python3.6.1安装需要注意的是什么? 准备安装依赖包:zlib.openssl:yum install zlib* openssl*:python的pip需要依赖这两个包 2.…
尚学linux课程---10.linux环境下安装python 一.总结 一句话总结: 直接在官网下载python的源码包即可,然后在linux下安装 linux下安装软件优先想到的的确是yum,但是yum库里面的python版本太低 1.pstree:命令作用(linux系统中如何才能使用pstree命令)? pstree:显示进程树 2.yum如何查看和安装一组软件(比如Development Tools)(比较好用)? 查看:yum grouplist 安装:yum groupinstal…
目录 Linux 环境下安装python相关 linux软件包管理工具之yum工具(如同pip3工具) yum源理解 下载阿里云的.repo仓库文件 ,放到/etc/yum.repos.d/ yum安装nginx软件 linux环境编译安装python3 在linux下安装Django程序 安装python的虚拟环境, 解决多个解释器问题 解决本地开发环境,和线上开发环境一致性的问题 virtualenvwrapper工具学习(方便) Linux 环境下安装python相关 linux软件包管理…