[apache spark]洞见纽约车辆事故|bluemix|apache spark
今天,我们用spark 来分析 下一纽约市车辆事故的大数据。
前提条件:
1.有bluemix 帐号,并并在bluemix的dashboard里创建了一个sparck instance。
2.稳定可以访问纽约市开放公共数据中心NYPD Motor Vehicle Collisions的网络。
3.在bluemix 中的spark instance 里点击进入notebook网页,并创建新的notebook(默认语言:python).
步骤1:获取数据.
到网站:NYPD Motor Vehicle Collisions,导出csv文件。并把这个文件导入到bluemix的storeage,首先点击右上角的Palette>Data Sources。 点击 **Add Source**, 选择**From file**, and 从你本地磁盘选择csv文件。因为数据比较大,上传数据需要一点时间。
步骤2.访问数据。
在你访问csv数据之前,要配置hadoop的相关配置信息。把下面的代码填入即可,如下:
def set_hadoop_config(credentials):
prefix = "fs.swift.service." + credentials['name']
hconf = sc._jsc.hadoopConfiguration()
hconf.set(prefix + ".auth.url", credentials['auth_url']+'/v3/auth/tokens')
hconf.set(prefix + ".auth.endpoint.prefix", "endpoints")
hconf.set(prefix + ".tenant", credentials['project_id'])
hconf.set(prefix + ".username", credentials['user_id'])
hconf.set(prefix + ".password", credentials['password'])
hconf.setInt(prefix + ".http.port", 8080)
hconf.set(prefix + ".region", credentials['region'])
hconf.setBoolean(prefix + ".public", True)
点击插入新代码行,
在新代码行里插入数据配置,点击数据下面的Insert to code
注意,这里自动插入的代码还要自己调整修改,如下:
credentials = {}
credentials['name'] = 'keystone'
credentials['auth_url'] = 'https://identity.open.softlayer.com'
credentials['project_id'] = 'XXX'
credentials['region'] = 'dallas'
credentials['user_id'] = 'XXX'
credentials['password'] = 'XXX'
credentials['container'] = 'notebooks'
其中,credentials['name'] = 'keystone',意思是给hadoop取个名字,这里可以自行决定。
然后,再新建一行代码行,填入下面的代码,如下 :
set_hadoop_config(credentials)
这是指把上面的credentials相关的信息配置进hadoop的配置实例里。
步骤3.加载数据。在新代码行,填入以下代码:
from __future__ import division
import numpy as np
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
# adding the PySpark modul to SparkContext
sc.addPyFile("https://raw.githubusercontent.com/seahboonsiew/pyspark-csv/master/pyspark_csv.py")
import pyspark_csv as pycsv
collisions = sc.textFile("swift://" + credentials['container'] + "." + credentials['name'] + "/NYPD_Motor_Vehicle_Collisions.csv")
def skip_header(idx, iterator):
if (idx == 0):
next(iterator)
return iterator
collisions_header = collisions.first()
collisions_header_list = collisions_header.split(",")
collisions_body = collisions.mapPartitionsWithIndex(skip_header)
# filter not valid rows
collisions_body = collisions_body.filter(lambda line : len(line.split(","))>29)
# create Spark DataFrame using pyspark-csv
collisions_df = pycsv.csvToDataFrame(sqlContext, collisions_body, sep=",", columns=collisions_header_list)
collisions_df.cache()
依次执行以上的代码,应该会有个输出:
代表数据加载成功!spark已经成功创建RDD数据集。
现在你可用这些数据来做些有趣的事情了。
a.先检查下python的schema
# Python expressions in a code cell will be outputted after computation
collisions_df.printSchema()
输出:
b.取第一行数据:
collisions_df.take(1)
输出:
更多内容请访问IBM的bluemix数据分析主页:https://console.ng.bluemix.net/data/analytics
[apache spark]洞见纽约车辆事故|bluemix|apache spark的更多相关文章
- Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
- Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functio ...
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
- Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
- Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession ...
- Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
- 《Apache Kafka 实战》读书笔记-认识Apache Kafka
<Apache Kafka 实战>读书笔记-认识Apache Kafka 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.kafka概要设计 kafka在设计初衷就是 ...
- 禁止apache显示目录索引的常见方法(apache禁止列目录)
禁止Apache显示目录索引,禁止Apache显示目录结构列表,禁止Apache浏览目录,这是网上提问比较多的,其实都是一个意思.下面说下禁止禁止Apache显示目录索引的常见的3种方法. 要实现禁止 ...
随机推荐
- SpringMVC - <mvc:default-servlet-handler/> 导致 Controller失效
原文地址:http://blog.csdn.net/j080624/article/details/66969987
- insert和insertSelective区别
两者的区别在于如果选择insert 那么所有的字段都会添加一遍即使没有值 <insert id="insert" parameterType="com.ego.po ...
- JPagination分页插件的使用(ASP.NET中使用)
前台代码 <%@ Page Language="C#" AutoEventWireup="true" CodeBehind="Index.asp ...
- 测试版和正式版微信小程序共享存储空间问题
一般习惯将变量存储在小程序的storage缓存中,然后用到的时候再去取.但是有一次我在做小程序相关内容的时候发现,对于苹果手机,测试版本小程序和正式版本小程序的缓存变量是相互通用的.
- c++中byte数组与字符串的转化
我们不讨论与字符集有关的内容,只讨论在字节流传递过程中的问题. 我们在做一系统操作时会需要使用到数据流,比如接收网络数据,文件数据,图片数据,原始数据大多是以byte数组的形式提供,与其它语言(c#, ...
- Servlet生命周期 Servlet获取配置信息 ServletContext
一.Servlet生命周期 实例化 ——> 初始化 ——> 服务 ——> 销毁 出生:(实例化 然后 初始化)tomcat第一次访问,Servlet就出生(默认情况下) 活着:( ...
- kms自动激活Windows和Office
采用脚本激活 无毒无公害 下载后解压,然后双击运行即可自动激活 激活脚本点此下载
- 解决172.17 或者172.18 机房环境下harbor服务器不通的问题
直接改docker-compose.yml文件: 把原来的network选项注释掉,自定义 #networks: # harbor: # external: false networks: harbo ...
- Intersection of Two Arrays(交集)
来源:https://leetcode.com/problems/intersection-of-two-arrays Given two arrays, write a function to co ...
- switch条件变量的取值类型
switch条件变量的取值类型主要有以下六种: 1)JDK1.5(不含JDK1.5)之前只能是byte.short.int.char类型,不能是float.double.long.boolean类型. ...