spark dataframe 类型转换

读一张表，对其进行二值化特征转换。可以二值化要求输入类型必须double类型，类型怎么转换呢？

直接利用spark column 就可以进行转换：

DataFrame dataset = hive.sql("select age,sex,race from hive_race_sex_bucktizer ");

/**

* 类型转换

dataset = dataset.select(dataset.col("age").cast(DoubleType).as("age"),dataset.col("sex"),dataset.col("race"));

是不是很简单。想起之前的类型转换做法，遍历并创建另外一个满足类型要求的RDD，然后根据RDD创建Datafame，好复杂！！！！

		JavaRDD<Row> parseDataset =   dataset.toJavaRDD().map(new Function<Row,Row>() {

			@Override

			public Row call(Row row) throws Exception {

				System.out.println(row);

				long age = row.getLong(row.fieldIndex("age"));

				String sex = row.getAs("sex");

				String race =row.getAs("race");

				double raceV  = -1;

				if("white".equalsIgnoreCase(race)){

					raceV = 1;

				} else if("black".equalsIgnoreCase(race)) {

					raceV = 2;

				} else if("yellow".equalsIgnoreCase(race)) {

					raceV = 3;

				} else if("Asian-Pac-Islander".equalsIgnoreCase(race)) {

					raceV = 4;

				}else if("Amer-Indian-Eskimo".equalsIgnoreCase(race)) {

					raceV = 3;

				}else {

					raceV = 0;

				}

				return RowFactory.create(age,("male".equalsIgnoreCase(sex)?1:0),raceV);

			}

		});

		StructType schema = new StructType(new StructField[]{

				 createStructField("_age", LongType, false),

				  createStructField("_sex", IntegerType, false),

				  createStructField("_race", DoubleType, false)

				});

		DataFrame  df  =  hive.createDataFrame(parseDataset, schema);

　　不断探索，不断尝试！

spark dataframe 类型转换的更多相关文章

spark dataframe unionall
今天本来想写一个spark dataframe unionall的demo,由于粗心报下面错误: Exception in thread "main" org.apache.spa ...
spark dataframe操作集锦（提取前几行，合并，入库等）
https://blog.csdn.net/sparkexpert/article/details/51042970 spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当 ...
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集 ...
Spark DataFrame中的join使用说明
spark sql 中join的类型 Spark DataFrame中join与SQL很像,都有inner join, left join, right join, full join; 类型说明 ...
转】Spark DataFrame小试牛刀
原博文出自于: https://segmentfault.com/a/1190000002614456 感谢! 三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame ...
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐 ...
spark DataFrame 读写和保存数据
一.读写Parquet(DataFrame) Spark SQL可以支持Parquet.JSON.Hive等数据源,并且可以通过JDBC连接外部数据源.前面的介绍中,我们已经涉及到了JSON.文本格式 ...
spark DataFrame的创建几种方式和存储
一. 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载.转换.处理等功能.Sp ...
spark DataFrame
DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能.Spark能够轻松实现从MySQL到DataFrame的转化, ...

随机推荐

jQuery系列：DOM操作
1. 访问元素在访问页面时,需要与页面中的元素进行交互式的操作.在操作中,元素的访问主要包括对元素属性.内容.值.CSS的操作. 1.1 元素属性操作 1.1.1 设置或返回被选元素的属性值语法格 ...
c 线程（平行世界）
我们已经知道如何使用进程来做一些事情了,然而它并不是在什么地方都是最适合的. 我们看看进程的缺点是什么: 线程隆重登场 1. 如何创建线程创建线程可以使用多种线程库,在此我们使用最流行的一种:PO ...
CloudNotes之桌面客户端篇：笔记撰写样式的支持
最近在CloudNotes桌面客户端中新增了笔记撰写样式的功能.当用户新建笔记的时候,可以在输入笔记标题的同时,选择笔记撰写样式,由安装包默认提供的样式主要有默认样式(Default).羊皮纸样式(L ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
A chatroom for all! Part 1 - Introduction to Node.js（转发）
项目组用到了 Node.js,发现下面这篇文章不错.转发一下.原文地址:<原文>. ------------------------------------------- A chatro ...
.NET Core全面扫盲贴
标签: .NETCore Asp.NETCore 1. 前言 2. .NET Core 简介 2.1 .NET Core是什么 2.2 .NET Core的组成 2.3 .NET Core的特性 2. ...
VNC软件的安装及使用方法说明
本篇仅为作业... 实验课程:Linux系统指导老师:刘臣奇实验机器:联想y410p 实验时间:2016年9月11日学生学号:140815 姓名:杨文乾在一台机器安装viewer的同时,在另一 ...
nginx反向代理下thinkphp、php获取不到正确的外网ip
在记录用户发送短信需要获取用户ip时,tp一直获取的是内网ip:10.10.10.10 tp框架获取ip方法:get_client_ip /** * 获取客户端IP地址 * @param intege ...
mariadb 最新精简压缩版 win64 解压即用
包含版本: mariadb-10.1.18-winx64 mariadb-5.5.53-winx64 32的没有压缩,估计用的人也比较少. 网盘链接: http://pan.baidu.com/s/1 ...
SharePoint2016母版页的直接依赖项的数目限制超过10的限制解决方案Direct Dependencies Limit with Master page User Controls
前言最近母版制作站点模板,根据站点模板新建后发现如下错误: 解决方案 1. 打开C:\inetpub\wwwroot\wss\VirtualDirectories\,如下图: 2. 打开web.co ...

spark dataframe 类型转换

spark dataframe 类型转换的更多相关文章

随机推荐

热门专题