pyspark - 逻辑回归

是在整理文件时, 翻到的, 感觉是好久以前的代码了, 不过看了, 还是可以的. 起码注释还是蛮清晰的. 那时候我真的是妥妥的调包man....

# 逻辑回归-标准化套路

from pyspark.ml.feature import VectorAssembler

import pandas as pd

# 1. 准备数据 - 样本数据集

sample_dataset = [

    (0, "male", 37, 10, "no", 3, 18, 7, 4),

    (0, "female", 27, 4, "no", 4, 14, 6, 4),

    (0, "female", 32, 15, "yes", 1, 12, 1, 4),

    (0, "male", 57, 15, "yes", 5, 18, 6, 5),

    (0, "male", 22, 0.75, "no", 2, 17, 6, 3),

    (0, "female", 32, 1.5, "no", 2, 17, 5, 5),

    (0, "female", 22, 0.75, "no", 2, 12, 1, 3),

    (0, "male", 57, 15, "yes", 2, 14, 4, 4),

    (0, "female", 32, 15, "yes", 4, 16, 1, 2),

    (0, "male", 22, 1.5, "no", 4, 14, 4, 5),

    (0, "male", 37, 15, "yes", 2, 20, 7, 2),

    (0, "male", 27, 4, "yes", 4, 18, 6, 4),

    (0, "male", 47, 15, "yes", 5, 17, 6, 4),

    (0, "female", 22, 1.5, "no", 2, 17, 5, 4),

    (0, "female", 27, 4, "no", 4, 14, 5, 4),

    (0, "female", 37, 15, "yes", 1, 17, 5, 5),

    (0, "female", 37, 15, "yes", 2, 18, 4, 3),

    (0, "female", 22, 0.75, "no", 3, 16, 5, 4),

    (0, "female", 22, 1.5, "no", 2, 16, 5, 5),

    (0, "female", 27, 10, "yes", 2, 14, 1, 5),

    (1, "female", 32, 15, "yes", 3, 14, 3, 2),

    (1, "female", 27, 7, "yes", 4, 16, 1, 2),

    (1, "male", 42, 15, "yes", 3, 18, 6, 2),

    (1, "female", 42, 15, "yes", 2, 14, 3, 2),

    (1, "male", 27, 7, "yes", 2, 17, 5, 4),

    (1, "male", 32, 10, "yes", 4, 14, 4, 3),

    (1, "male", 47, 15, "yes", 3, 16, 4, 2),

    (0, "male", 37, 4, "yes", 2, 20, 6, 4)

]

columns = ["affairs", "gender", "age", "label", "children", "religiousness", "education", "occupation", "rating"]

# pandas构建dataframe，方便

pdf = pd.DataFrame(sample_dataset, columns=columns)

# 2. 特征选取：affairs为目标值，其余为特征值 - 这是工作中最麻烦的地方, 多张表, 数据清洗

df2 = df.select("affairs","age", "religiousness", "education", "occupation", "rating")

# 3. 合并特征-将多列特征合并为一列"feature", 如果是离散数据, 需要先 onehot 再合并, 挺繁琐的

# 3.1 用于计算特征向量的字段

colArray2 = ["age", "religiousness", "education", "occupation", "rating"]

# 3.2 计算出特征向量

df3 = VectorAssembler().setInputCols(colArray2).setOutputCol("features").transform(df2)

# 4. 划分分为训练集和测试集(随机)

trainDF, testDF = df3.randomSplit([0.8,0.2])

# print("训练集：")

# trainDF.show(10)

# print("测试集：")

# testDF.show(10)

# 5. 训练模型

from pyspark.ml.classification import LogisticRegression

# 5.1 创建逻辑回归训练器

lr = LogisticRegression()

# 5.2 训练模型

model = lr.setLabelCol("affairs").setFeaturesCol("features").fit(trainDF)

# 5.3 预测数据

model.transform(testDF).show()

# todo

# 6. 评估, 交叉验证, 保存, 封装.....

主要也是作为一个历史的笔记, 当然也作为一个反例, 即如果不懂原理,来调用包的话, 你会发现, ML 其实是多么的无聊, 至少从代码套路上看这样的.

pyspark - 逻辑回归的更多相关文章

pyspark 逻辑回归程序
http://www.qqcourse.com/forum.php?mod=viewthread&tid=3688 [很重要]:http://spark.apache.org/docs/lat ...
pyspark dataframe 格式数据输入做逻辑回归
该方法好处是可以调节阈值,可调参数比其他形式模型多很多. [参照]http://blog.csdn.net/u013719780/article/details/52277616 [3种模型效果比较: ...
分布式机器学习：逻辑回归的并行化实现（PySpark）
1. 梯度计算式导出我们在博客<统计学习:逻辑回归与交叉熵损失(Pytorch实现)>中提到,设\(w\)为权值(最后一维为偏置),样本总数为\(N\),\(\{(x_i, y_i)\} ...
逻辑回归 Logistic Regression
逻辑回归(Logistic Regression)是广义线性回归的一种.逻辑回归是用来做分类任务的常用算法.分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上.比如一个人有没有病,又因为噪声的 ...
用R做逻辑回归之汽车贷款违约模型
数据说明本数据是一份汽车贷款违约数据 application_id 申请者ID account_number 账户号 bad_ind 是否违约 vehicle_year ...
逻辑回归（LR）总结复习
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合内容: 1.算法概述最基本的LR分类器适合于对两分类(类0,类1)目标进行分类:这个模型以样 ...
scikit-learn 逻辑回归类库使用小结
之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结.这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结.重点讲述调参中要注意的事项. 1. 概述在scikit-lear ...
逻辑回归LR
逻辑回归算法相信很多人都很熟悉,也算是我比较熟悉的算法之一了,毕业论文当时的项目就是用的这个算法.这个算法可能不想随机森林.SVM.神经网络.GBDT等分类算法那么复杂那么高深的样子,可是绝对不能小看 ...
逻辑回归（Logistic Regression）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 本文主要讲解分类问题中的逻辑回归.逻辑回归是一个二分类问题. 二分类问题二分类问题是指预测的y值只有两个 ...
逻辑回归算法的原理及实现(LR)
Logistic回归虽然名字叫"回归" ,但却是一种分类学习方法.使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素.逻辑回归(Logistic Regression, L ...

随机推荐

AWS - [01] 概述
题记部分 001 || 概述 AWS,全称Amazon Web Services,是亚马逊公司旗下的云计算服务平台,自2006年起向全球用户提供广泛而深入的云计算服务.AWD是全球最全面.应用最广 ...
Flume - [02] Spooling Directory Source
一.概述可以通过将文件放入磁盘上的 "Spooldir" 目录中来获取数据.此源会监视指定目录中的新文件,并在新文件出现时解析新文件中的事件.事件解析逻辑是可插入的.在将指定 ...
WPF到Web的无缝过渡：英雄联盟客户端的OpenSilver迁移实战
开源项目名称:leagueoflegends-OpenSilver 作者:Vicky&James leagueoflegends-opensilver:https://github.com/j ...
NebulaGraph Desktop 使用初体验
前言前两天 NebulaGraph 官方宣布了全新的开源 Desktop,旨在通过一体化方案解决图数据库部署复杂.工具碎片化.学习成本高等的痛点问题,我也是跃跃欲试.前期在初识 NebulaGrap ...
HTTP协议与RESTful API实战手册（二）：用披萨店故事说透API设计奥秘 🍕
title: HTTP协议与RESTful API实战手册(二):用披萨店故事说透API设计奥秘 date: 2025/2/27 updated: 2025/2/27 author: cmdragon ...
go的异常抛出
defer func() { if r := recover(); r != nil { fmt.Println("Recovered:", r) } }() 在任何涉及到数组取值 ...
用css就可以实现累加效果的神器--counter
今天在做一个类似下面显示效果的活动页: 在前端骚操作越来越多的普遍趋势影响下,前面用箭头表示出的东西,我打算直接用before伪类去搞,这样不仅减少了标签的使用,对自己工作量的减少也是有少许作用的,然 ...
基于DotNetty实现自动发布 - 背景篇
故事背景小公司,单体项目,接口和页面都在一起,生产和测试环境都是 Windows 服务器和 IIS, 本地编译完成,把相关的页面和程序集拷贝到服务器上,尤其是涉及到多个页面,一个个页面找到对应的位置 ...
Windows下Dll在Unity中使用的一般方式
Windows下Dll在Unity中使用的一般方式 Unity中虽然已经有广泛的库和插件,但是相较于C++的库生态而言,还是有一定的差距:因此本篇博文记录Windows下将C++函数打包成动态链接库在 ...
什么是 CSS 设计模式
这是转载的,先收藏到我的博客园. 什么是设计模式? 曾有人调侃,设计模式是工程师用于跟别人显摆的,显得高大上:也曾有人这么说,不是设计模式没用,是你还没有到能懂它,会用它的时候. 先来看一下比较官方的 ...

pyspark - 逻辑回归

pyspark - 逻辑回归的更多相关文章

随机推荐

热门专题