python之路之一pyspark

pip包下载安装pyspark

pip install pyspark 这里可能会遇到安装超时的情况加参数 --timeout=100

pip -default -timeout=100 install -U pyspark

下面是我写的一些代码，在运行时，没什么问题，但是目前不知道怎么拿到rdd与dataframe中的值

from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext,Row,DataFrame
from pyspark.sql.types import StructType,StructField,StringType,IntegerType

appname = "myappname"
master = "local"
myconf = SparkConf().setAppName(appname).setMaster(master)
sc = SparkContext(conf=myconf)
hc = HiveContext(sc)

#  构建一个表格 Parallelize a list and convert each line to a Row  将列表并行化并将每行转换为一行
#  构建表可以用applySchema  或者 inferSchema  inferSchema已经在1.5之后弃用，由createDataFrame代替
datas = ["1 b 28", "3 c 30", "2 d 29"]
source = sc.parallelize(datas)

splits = source.map(lambda line: line.split(" "))  # 后面是注释
rows = splits.map(lambda words : Row(id=int(words[0]),name=words[1],age=int(words[2])))

myrows = Row(id="a",name="zhangkun",age="28")
#print(myrows.__getitem__(0))
#print(myrows.__getitem__(1))
#print(myrows.__getitem__(2))

# Infer the schema,and register the schema as a table 推断架构，并将架构注册为表
fields=[]
fields.append(StructField("id", IntegerType(), True))
fields.append(StructField("name", StringType(), True))
fields.append(StructField("age", IntegerType(), True))
schema = StructType(fields)
people=hc.createDataFrame(myrows,schema);  # 1.5之前使用的是inferSchema
# people.printSchema()
people.registerTempTable("people")
#  SQL can be run over SchemaRDD that been registered as a table  sql 可以在注册过的表上正常运行了
results=hc.sql("select * from people")

#print(results.show)
for i in results :
    print(i)
sc.stop()

突然来个新任务，CDH部署大数据分布式平台 ，含以下组建安装：hadoop、hbase、hive、kafka、spark  暂时上面的线搁置，等回头用到在看，主要还是本人基础比较差，需要多学习一些基础。

python之路之一pyspark的更多相关文章

Python之路【第一篇】python基础
一.python开发 1.开发: 1)高级语言:python .Java .PHP. C# Go ruby c++ ===>字节码 2)低级语言:c .汇编 2.语言之间的对比: 1)py ...
Python之路
Python学习之路第一天 Python之路,Day1 - Python基础1介绍.基本语法.流程控制第一天作业第二天 Python之路,Day2 - Pytho ...
python之路目录
目录 python python_基础总结1 python由来字符编码注释 pyc文件 python变量导入模块获取用户输入流程控制if while python 基础2 编码转换 pych ...
Python之路【第十九篇】：爬虫
Python之路[第十九篇]:爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用 ...
Python之路【第十八篇】：Web框架们
Python之路[第十八篇]:Web框架们 Python的WEB框架 Bottle Bottle是一个快速.简洁.轻量级的基于WSIG的微型Web框架,此框架只由一个 .py 文件,除了Pytho ...
Python之路【第十七篇】：Django【进阶篇】
Python之路[第十七篇]:Django[进阶篇 ] Model 到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这么搞: 创建数据库,设计表结构和字段使用 MySQLdb 来连接 ...
Python之路【第十六篇】：Django【基础篇】
Python之路[第十六篇]:Django[基础篇] Python的WEB框架有Django.Tornado.Flask 等多种,Django相较与其他WEB框架其优势为:大而全,框架本身集成了O ...
Python之路【第十五篇】：Web框架
Python之路[第十五篇]:Web框架 Web框架本质众所周知,对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端. 1 2 3 4 5 6 ...
Python之路【第九篇】：Python操作 RabbitMQ、Redis、Memcache、SQLAlchemy
Python之路[第九篇]:Python操作 RabbitMQ.Redis.Memcache.SQLAlchemy Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用 ...

随机推荐

Swap Nodes in Pairs（链表操作）
Given a linked list, swap every two adjacent nodes and return its head. For example,Given 1->2-&g ...
Oracle表空间 ORA-01653:
--1.查看表空间USERS使用情况SELECT T.TABLESPACE_NAME,D.FILE_NAME, D.AUTOEXTENSIBLE,D.BYTES,D.MAXBYTES,D.STATUS ...
Codeforces Round #247 (Div. 2) B
B. Shower Line time limit per test 1 second memory limit per test 256 megabytes input standard input ...
linux 下使用genymotion
在官网下载genymotion http://www.genymotion.cn/ 然后进行下面操作 1.假设本机没有virtualbox 下载一个能够通过指令 sudo apt-get inst ...
1.1 Spring概述
Spring是分层的Java SE/EE应用一站式的轻量开源框架,以反转控制(Inverse of Control,IoC).面向切面编程(Aspect Oriented Programmi ...
GDI+学习之------ 画线、区域填充、写字
<精通GDI编程>里的代码.在学习过程中对它加以总结,以防以后用到,全部代码都是在MFC 单文档中实现的,写在View::OnDraw(CDC */*pDC*/)中画线/边框(Pen) ...
Tomcat 6.x Perm区内存泄露问题
Tomcat 6.x JSP文件最后改动时间大于当前系统时间导致Perm区内存泄露问题(java Memory pool CMS Perm Gen) 出现场景: 因为測试业务,须要模拟跨天測试,所以一 ...
php与国付宝对接过程吐槽
最近.我们在打造全国第一家互联网+风险管理平台(避险谷)时.须要与第三方支付平台"国付宝"进行在线交易对接. 之前对接过支付宝 .感觉还非常easy,拿到国付宝的接口文档.我晕啊. ...
JSON参数
JSON(JavaScript Object Notation,JavaScript 对象表示法),多么简单,不就是键值对嘛. 可是每次在前后端之间通过json作为参数传递,我都心烦意乱,甚至吓到面无 ...
TableLayout与MigLayout
最近新接触的两个Layout,另外之前用的GridBagLayoutHelper以及最近听说的Qt for java的QCSS据说也不错, 只是Qt的跨平台需要单独发布,假如使用QT for java ...

python之路 之一pyspark

python之路 之一pyspark的更多相关文章

随机推荐

热门专题

python之路之一pyspark

python之路之一pyspark的更多相关文章