python 10大算法之二 LogisticRegression 笔记

使用的包

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np
from sklearn import datasets

获取数据

方式一读取网页提供的数据：

df = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
df.columns = ['d1', 'd2', 'd3', 'd4', 'd5']

X = df.iloc[:, [0, 3]].values  # 取出2个特征，并把它们用Numpy数组表示

方式二由于Iris是很有名的数据集，scikit-learn已经原生自带了

iris = datasets.load_iris()

X = iris.data[:, [0, 1, 2]]  # 1,2,3列

y = iris.target  # 结果集

方式三 scikit-learn随机数据生成

def get_data1():

    """

    scikit-learn随机数据生成   make_regression生成回归模型数据

    :return:

    """

    # X为样本特征，y为样本输出， coef为回归系数w，共100个样本，每个样本1个特征

    # coef 默认为false  true为线性模型

    # noise 干扰 0为一条直线上的点

    X, y, coef = datasets.make_regression(n_samples=100, n_features=1, noise=30, coef=True)

    # 画图

    plt.scatter(X, y, color='black')

    plt.plot(X, X * coef, color='blue', linewidth=3)

    plt.xticks()

    plt.yticks()

    plt.show()

def get_data2():

    """

    scikit-learn随机数据生成  make_blobs生成聚类模型数据

    :return:

    """

    # X为样本特征，Y为样本簇类别，

    # 共100个样本，每个样本2个特征，共3个簇，

    # random_state 为具体数字表示每次生成的随机数不变

    # 簇中心

    centers = [[1, 5], [2, 3], [5, 1]]

    # 簇方差

    cluster_std = [0.4, 0.3, 0.2]

    X, y = datasets.make_blobs(n_samples=100, n_features=2, centers=centers, cluster_std=cluster_std, random_state=1)

    # 画图 按照y区分颜色

    plt.scatter(X[:, 0], X[:, 1], marker='o', c=y)

    plt.xticks()

    plt.yticks()

    plt.show()

参考： http://www.cnblogs.com/pinard/p/6047802.html

train_test_split

# from sklearn.cross_validation import train_test_split

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

train_test_split 随机划分训练集和测试集

参数解释：

train_data：所要划分的样本特征集

train_target：所要划分的样本结果

test_size：样本占比，如果是整数的话就是样本的数量

random_state：是随机数的种子。

随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

数据转换 - 标准化

参考：http://www.cnblogs.com/charlotte77/p/5622325.html

# 标准化 -- 为了追求机器学习和最优化算法的最佳性能，我们将特征缩放

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

sc.fit(X_train)  # 估算每个特征的平均值和标准差

print(sc.mean_)  # 查看特征的平均值，由于Iris我们只用了两个特征，所以结果是array([ 3.82857143,  1.22666667])

print(sc.scale_)  # 查看特征的标准差，这个结果是array([ 1.79595918,  0.77769705])

X_train_std = sc.transform(X_train)

# 注意：这里我们要用同样的参数来标准化测试集，使得测试集和训练集之间有可比性

X_test_std = sc.transform(X_test)

X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))

感知器 - Perceptron

    from sklearn.metrics import accuracy_score

    # 训练感知机模型

    from sklearn.linear_model import Perceptron

    # n_iter：可以理解成梯度下降中迭代的次数

    # eta0：可以理解成梯度下降中的学习率

    # random_state：设置随机种子的，为了每次迭代都有相同的训练集顺序

    ppn = Perceptron(max_iter=40, eta0=0.1, random_state=0)

    ppn.fit(X_train_std, y_train)

    # 分类测试集，这将返回一个测试结果的数组

    y_pred = ppn.predict(X_test_std)

    # 计算模型在测试集上的准确性，我的结果为0.9，还不错

    print('训练结果的准确性:', accuracy_score(y_test, y_pred))

逻辑回归-LogisticRegression

    from sklearn.linear_model import LogisticRegression

    lr = LogisticRegression(C=1000.0, random_state=0)

    lr.fit(X_train_std, y_train)

    y_pred = lr.predict_proba(X_test_std)  # 查看第一个测试样本属于各个类别的概率

    print(y_test)

    print(y_pred)

    print('训练结果的准确性:', metrics.accuracy_score(y_test, lr.predict(X_test_std)))

参考：http://blog.csdn.net/xlinsist/article/details/51289825

官方逻辑回归案例：

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

python 10大算法之二 LogisticRegression 笔记的更多相关文章

python 10大算法之一 LinearRegression 笔记
简单的线性回归预测房价 #!/usr/bin/env python # encoding: utf-8 """ @version: @author: --*--. @fi ...
数据挖掘10大算法(1)——PageRank
1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1).文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现.如果发现文中有错,希望各位指出来,一起讨论. 图1 来自 ...
数据结构笔记01：编程面试过程中常见的10大算法（java）
以下是在编程面试中排名前10的算法相关的概念,我会通过一些简单的例子来阐述这些概念.由于完全掌握这些概念需要更多的努力,因此这份列表只是作为一个介绍.本文将从Java的角度看问题,包含下面的这些概念: ...
面试10大算法汇总——Java篇
问题导读 1 字符串和数组 2 链表 3 树 4 图 5 排序 6 递归 vs 迭代 7 动态规划 8 位操作 9 概率问题 10 排列组合 11 其他 -- 寻找规律英文版以下从Java角度解释 ...
面试10大算法汇总+常见题目解答（Java）
原文地址:http://www.lilongdream.com/2014/04/10/94.html(为转载+整理) 以下从Java的角度总结了面试常见的算法和数据结构:字符串,链表,树,图,排序,递 ...
JavaScript实现10大算法可视化
参考博客: https://www.cnblogs.com/Unknw/p/6346681.html#4195503 十大经典算法一张图概括: 名词解释: n:数据规模 k:“桶”的个数 In-pl ...
Python十大经典排序算法
现在很多的事情都可以用算法来解决,在编程上,算法有着很重要的地位,将算法用函数封装起来,使程序能更好的调用,不需要反复编写. Python十大经典算法: 一.插入排序 1.算法思想从第二个元素开始和 ...
人们对Python在企业级开发中的10大误解
From : 人们对Python在企业级开发中的10大误解在PayPal的编程文化中存在着大量的语言多元化.除了长期流行的C++和Java,越来越多的团队选择JavaScript和Scala,Bra ...
C语言的10大基础算法
C语言的10大基础算法算法是一个程序和软件的灵魂,作为一名优秀的程序员,只有对一些基础的算法有着全面的掌握,才会在设计程序和编写代码的过程中显得得心应手.本文包括了经典的Fibonacci数列.简易 ...

随机推荐

posgreSQL安装失败解决方案
选择适合自己电脑版本的postgreSQL进行安装,显示安装失败,错误信息:problem running post-install step.installation may not complet ...
（贪心字符串打好基础）51nod 1182完美字符串
约翰认为字符串的完美度等于它里面所有字母的完美度之和.每个字母的完美度可以由你来分配,不同字母的完美度不同,分别对应一个1-26之间的整数. 约翰不在乎字母大小写(也就是说字母A和a的完美度相同).给 ...
<02>labSQL的配置和使用方法
任务布置:制作简单地铁站点管理系统<2> 要求一:正确配置系统,建立基本正常的数据通道:要求二:实现地铁站点的登记,拥有查询功能: 正文: 今天介绍labview虚拟仪器软件中 labS ...
Java基础学习--数组
1.数组的定义: 数组(Array)是相同数据类型的数据的有序集合. 2.数组的3个特点: 2.1数组长度是确定.数组一旦申请完空间,长度不能发生变化,用length属性访问. 2.2数组的元素都是同 ...
Eclipse MAT 安装及使用
Eclipse MAT官方网页:https://www.eclipse.org/mat/downloads.php 一.MAT是什么? MAT(Memory Analyzer Tool),一个基于Ec ...
Java IO系列之二：NIO基本操作
核心部分 NIO( New Input/ Output) , 引入了一种基于通道和缓冲区的 I/O 方式,NIO 是一种同步非阻塞的 IO 模型.同步是指线程不断轮询 IO 事件是否就绪,非阻塞是指 ...
EasyUI整合篇
easy ui combobox getValue 获取不到值问题必须设置属性showblank: true,否则只能从onSelect事件中获取 $("#ddlType").c ...
使用Hexo+github搭建个人博客
目录创建Github仓库环境安装安装Node.js 安装Git 检查安装安装Hexo 连接Hexo和Github 设置Git的用户名和邮箱配置SSH 配置Deployment 新建第一篇博客 ...
解决MySQL Access denied for user 'root'@'IP地址' 问题
1.mysql -u root -p 登陆进MYSQL: 2.执行以下命令: GRANT ALL PRIVILEGES ON *.* TO 'your name'@'%' IDENTIFIED BY ...
go [第一篇]初识
[第一篇] 简介 Go 是一个开源的编程语言,它能让构造简单.可靠且高效的软件变得容易. Go是从2007年末由Robert Griesemer, Rob Pike, Ken Thompson主持开发 ...

python 10大算法之二 LogisticRegression 笔记

python 10大算法之二 LogisticRegression 笔记的更多相关文章

随机推荐

热门专题