该方法好处是可以调节阈值,可调参数比其他形式模型多很多。

【参照】http://blog.csdn.net/u013719780/article/details/52277616

【3种模型效果比较:逻辑回归,决策树,随机森林】http://blog.csdn.net/chaoran_liu/article/details/52203831

from pyspark import SparkContext
from pyspark.mllib.classification import LogisticRegressionWithLBFGS,LogisticRegressionModel
from pyspark.mllib.regression import LabeledPoint
from pyspark.sql import Row
from pyspark.mllib.linalg import *
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.linalg import Vectors
from __future__ import print_function

#需要数据框格式数据

lines=sc.textFile('hdfs://getui-bi-hadoop/user/zhujx/1029_IOS_features_sex') #全是0和1的数据
parts=lines.map(lambda x:x.split('\t'))
col=["f_"+str(i) for i in range(227)] #设置数据框变量
dataset=sqlContext.createDataFrame(parts,col) #转换成数据框格式

#建立标签索引,转换标签格式

#当前的数据类型是字符型,将数据转换为数值型
data=dataset.map(lambda x:([float(x[i]) for i in range(0,227)])) #转换后已经不是dataframe格式了
datadf=sqlContext.createDataFrame(data,col) #再次转换成数据框格式
#datadf.printSchema #显示出变量名
feature_data=datadf.map(lambda x:(Vectors.dense([x[i] for i in range(1,227)]),x[0]))
forma_data=sqlContext.createDataFrame(feature_data,['features','labels']) #定义好标签值和特征值,形成数据框
#forma_data.show()
train_data,test_data=forma_data.randomSplit([0.8,0.2],6) #随机种子为6 ,随机分样本
#train_data.show()

#建立模型

lr=LogisticRegression(featuresCol="features",labelCol="labels",maxIter=100,regParam=0.01,predictionCol="prediction",fitIntercept=True,threshold=0.3)
model=lr.fit(train_data) #拟合训练集
#model.coefficients
#model.intercept
#
result=model.transform(test_data)
#result1=model.transform(test_data).head()
#result.prediction
#result.probability
#result.rawPrediction
result.select('probability','prediction','prediction').show(truncate=False)

result.select('probability','prediction','rawPrediction').show(100,truncate=False)

pyspark dataframe 格式数据输入 做逻辑回归的更多相关文章

  1. Python3 Pandas的DataFrame格式数据写入excle文件、json、html、剪贴板、数据库

    Python3 Pandas的DataFrame格式数据写入excle文件.json.html.剪贴板.数据库 一.DataFrame格式数据 Pandas是Python下一个开源数据分析的库,它提供 ...

  2. R语言做逻辑回归

    前面写过一个多分类的逻辑回归,现在要做一个简单的二分类,用glm函数 导入csv格式如下: mydata<-read.csv("D://li.csv",header=T) c ...

  3. 用R做逻辑回归之汽车贷款违约模型

    数据说明 本数据是一份汽车贷款违约数据 application_id    申请者ID account_number 账户号 bad_ind            是否违约 vehicle_year  ...

  4. 逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡(AAA推荐)

    sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...

  5. Sklearn实现逻辑回归

    方法与参数 LogisticRegression类的各项参数的含义 class sklearn.linear_model.LogisticRegression(penalty='l2', dual=F ...

  6. 机器学习二 逻辑回归作业、逻辑回归(Logistic Regression)

    机器学习二 逻辑回归作业   作业在这,http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的. 57 ...

  7. scikit-learn 逻辑回归类库使用小结

    之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结.这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结.重点讲述调参中要注意的事项. 1. 概述 在scikit-lear ...

  8. 10分钟搞懂Tensorflow 逻辑回归实现手写识别

    1. Tensorflow 逻辑回归实现手写识别 1.1. 逻辑回归原理 1.1.1. 逻辑回归 1.1.2. 损失函数 1.2. 实例:手写识别系统 1.1. 逻辑回归原理 1.1.1. 逻辑回归 ...

  9. 【机器学习】逻辑回归(Logistic Regression)

    注:最近开始学习<人工智能>选修课,老师提纲挈领的介绍了一番,听完课只了解了个大概,剩下的细节只能自己继续摸索. 从本质上讲:机器学习就是一个模型对外界的刺激(训练样本)做出反应,趋利避害 ...

随机推荐

  1. Go随机数的使用

    随机数使用比较广泛,例如,抽奖.均衡等等. 下面简单说明其使用方法. Example1 package main import ( "log" "math/rand&qu ...

  2. iPhone激活策略知识讲解:官方解锁和黑解

    iPhone激活策略知识讲解:官方解锁和黑解 [复制链接]     LEECHY 该用户从未签到 1372 XY豆 438 帖子 440 贡献 苹果花 积分 2250 发消息 电梯直达 楼主    发 ...

  3. Jq复选框选择(取复选框被选中的值)

      <input type="button" id="btn5" value="获得选中的所有值"> <input typ ...

  4. 【转】深入理解java异常处理机制

    深入理解java异常处理机制 ; int c; for (int i = 2; i >= -2; i--) { c = b / i; System.out.println("i=&qu ...

  5. 【Spring学习笔记-MVC-11--】Spring MVC之表单标签

    一.使用方法 1.要使用Spring MVC提供的表单标签,首先需要在视图页面添加: <%@ taglib prefix="form" uri="http://ww ...

  6. spring boot学习(5) SpringBoot 之Spring Data Jpa 支持(2)

    第三节:自定义查询@Query 有时候复杂sql使用hql方式无法查询,这时候使用本地查询,使用原生sql的方式:   第四节:动态查询Specification 使用 什么时候用呢?比如搜索有很多条 ...

  7. poj 3253 Fence Repair (贪心,优先队列)

    Description Farmer John wants to repair a small length of the fence around the pasture. He measures ...

  8. POJ 1182 食物链(并查集的使用)

    食物链 Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 81915   Accepted: 24462 Description ...

  9. 1058 A+B in Hogwarts (20 分)

    1058 A+B in Hogwarts (20 分) If you are a fan of Harry Potter, you would know the world of magic has ...

  10. Delphi Webbrowser使用方法详解(二)

    delphi如何用webbrowser模拟登录网站? 我们就以如何登录博客园来做示例: 1.要登入一个网站,首先要获取网页的源代码,我们可以通过网页菜单--查看--查看源代码来获取. 2.我们找到登录 ...