pyspark数据准备

鸢尾花数据集

 5.1,3.5,1.4,0.2,Iris-setosa

 4.9,3.0,1.4,0.2,Iris-setosa

 4.7,3.2,1.3,0.2,Iris-setosa

 4.6,3.1,1.5,0.2,Iris-setosa

 5.0,3.6,1.4,0.2,Iris-setosa

 5.4,3.9,1.7,0.4,Iris-setosa

 4.6,3.4,1.4,0.3,Iris-setosa

 5.0,3.4,1.5,0.2,Iris-setosa

转换成libsvm格式代码

 import sys

 file = sys.argv[1]

 def main():

     with open(file,'r') as df:

         for line in df:

             ss = line.strip().split(",")

             if ss[4]=="Iris-setosa":

                 ss[4]=0

             if ss[4]=="Iris-versicolor":

                 ss[4]=1

             if ss[4]=="Iris-virginica":

                 ss[4]=2

             print("%d 1:%.1f 2:%.1f 3:%.1f 4:%.1f"%(ss[4],float(ss[0]),float(ss[1]),float(ss[2]),float(ss[3])))

 if __name__ == '__main__':

     try:

         main()

     except Exception as e:

         raise e

libsvm格式的鸢尾花数据集

 0 1:5.1 2:3.5 3:1.4 4:0.2

 0 1:4.9 2:3.0 3:1.4 4:0.2

 0 1:4.7 2:3.2 3:1.3 4:0.2

 0 1:4.6 2:3.1 3:1.5 4:0.2

 0 1:5.0 2:3.6 3:1.4 4:0.2

 0 1:5.4 2:3.9 3:1.7 4:0.4

 0 1:4.6 2:3.4 3:1.4 4:0.3

 0 1:5.0 2:3.4 3:1.5 4:0.2

 0 1:4.4 2:2.9 3:1.4 4:0.2

 0 1:4.9 2:3.1 3:1.5 4:0.1

 0 1:5.4 2:3.7 3:1.5 4:0.2

pyspark读取libsvm格式数据并转换

>>> from pyspark.mllib.util import MLUtils

>>> examples = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")

　>>> examples.take(2)
　[Stage 26:> (0 + 1) / 1]

　[LabeledPoint(0.0, (4,[0,1,2,3],[5.1,3.5,1.4,0.2])), LabeledPoint(0.0, (4,[0,1,2
　,3],[4.9,3.0,1.4,0.2]))]

pyspark数据准备的更多相关文章

Spark机器学习2·准备数据(pyspark)
准备环境 anaconda nano ~/.zshrc export PATH=$PATH:/anaconda/bin source ~/.zshrc echo $HOME echo $PATH ip ...
python学习笔记1-python相关应用套件
完整的数据分析套件统计科学计算 Numpy,Scipy,statsmodels 深度学习 TensorFlow,MXNET 结构化数据处理与分析 Pandas 大数据处理 PySpark 数据探索编 ...
zeppelin中运行spark streaming kakfa & 实时可视化
notebook方式运行spark程序是一种比较agile的方式,一方面可以体验像spark-shell那样repl的便捷,同时可以借助notebook的作图能力实现快速数据可视化,非常方便快速验证和 ...
Python01 python入门介绍
1 python简介 1.1 为什么学python python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van ...
使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
pyspark dataframe 格式数据输入做逻辑回归
该方法好处是可以调节阈值,可调参数比其他形式模型多很多. [参照]http://blog.csdn.net/u013719780/article/details/52277616 [3种模型效果比较: ...
spark- PySparkSQL之PySpark解析Json集合数据
PySparkSQL之PySpark解析Json集合数据数据样本 12341234123412342|asefr-3423|[{"}] 正菜: #-*- coding:utf-8 –*- ...
基于PySpark的网络服务异常检测系统 (四) Mysql与SparkSQL对接同步数据 kmeans算法计算预测异常
基于Django Restframework和Spark的异常检测系统,数据库为MySQL.Redis, 消息队列为Celery,分析服务为Spark SQL和Spark Mllib,使用kmeans ...
将数据从数据库直接通过 pyspark 读入到dataframe
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...

随机推荐

intellij构建多模块项目
1.新建sailfish总目录, 2.新建maven项目,并将其手动移入sailfish,再用intellij打开该项目, <groupId>com.rainbow.sailfish< ...
Ubuntu 16.04安装vsftpd 并开启ftp服务
1. 安装 sudo apt-get install vsftpd 2.可以使用下列命令来打开,关闭,重启ftp服务 sudo /etc/init.d/vsftpd start sudo /etc/i ...
结合以太通道的VLAN配置
实验要求:建立一条以太通道,并划分vlan,让同一vlan的主机能够通信,不同vlan的主机则不能通信拓扑如下: 涉及内容有: 1.以太通道的建立和配置 2.vlan的创建和划分配置如下: A e ...
Git 创建分支与合并分支
下面以branchName=>aiMdTest为例介绍 1. 下载code git clone masterUrl iva(另存文件名) 2. 创建并切换分支 cd iva git chec ...
2.12 单选框和复选框（radiobox、checkbox）
2.12 单选框和复选框(radiobox.checkbox) 本篇主要介绍单选框和复选框的操作一.认识单选框和复选框 1.先认清楚单选框和复选框长什么样 2.各位小伙伴看清楚哦,上面的单选框是 ...
LINUX7安装Oracle11g单实例小结
LINUX7安装Oracle11g遇到问题如下,记录添加组: groupadd -g 1000 oinstall #报错:提示组被占用 #useradd: group 'oinstall' does ...
tmux不自动加载配置文件.tmux.conf
/********************************************************************** * tmux不自动加载配置文件.tmux.conf * ...
【linux】ARM板子开启浮点和neon加速
参考 1. ARM平台NEON指令的编译和优化; 2. 交叉编译器 arm-linux-gnueabi 和 arm-linux-gnueabihf 的区别; 3. https://blog.csdn. ...
mask-code-python
tf.sqeeze: 给定张量输入,此操作返回相同类型的张量,并删除所有尺寸为1的尺寸. 如果不想删除所有尺寸1尺寸,可以通过指定squeeze_dims来删除特定尺寸1尺寸.如果不想删除所有大小是1 ...
ODOO v10.0 自动生成财务凭证的科目设置
ODOO v10.0 自动生成财务凭证的科目设置可以在产品类别及产品档案里设置,建议在产品类别下设置,方便维护. 项目设置为(具体科目以公司科目表为主) 对应作用业务 Income Account ...

pyspark数据准备

pyspark数据准备的更多相关文章

随机推荐

热门专题