from sklearn.datasets import make_classification创建分类数据集

make_classification创建用于分类的数据集，官方文档

例子：

### 创建模型

def create_model():

    # 生成数据

    from sklearn.datasets import make_classification

    X, y = make_classification(n_samples=10000,        # 样本个数

                               n_features=25,          # 特征个数

                               n_informative=3,        # 有效特征个数

                               n_redundant=2,          # 冗余特征个数（有效特征的随机组合）

                               n_repeated=0,           # 重复特征个数（有效特征和冗余特征的随机组合）

                               n_classes=3,            # 样本类别

                               n_clusters_per_class=1, # 簇的个数

                               random_state=0)

    print("原始特征维度",X.shape)

    # 读取数据

    print("读取数据")

    #import pandas as pd

    #data = pd.read_csv(datapath)

    # 数据划分

    print("数据划分")

    from sklearn.model_selection import train_test_split

    global x_train,x_valid,x_test,y_train,y_valid,y_test

    x_train,x_test,y_train,y_test = train_test_split(X,y,random_state = 33,test_size = 0.25)

    x_train,x_valid,y_train,y_valid = train_test_split(x_train,y_train,random_state = 33,test_size = 0.25)

    # 创建模型

    print("创建模型")

    from sklearn.linear_model import LogisticRegression

    global model

    model = LogisticRegression(penalty = 'l2').fit(x_train,y_train)

### 保存模型

def save_model():

    print("保存模型")

    from sklearn.externals import joblib

    joblib.dump(model,'model.pkl')

### 模型验证

def validate_model():

    print("模型验证")

    print(model.score(x_valid,y_valid))  

### 模型预测

def predict_model():

    print("模型预测")

    global pred

    pred = model.predict_proba(x_test)

    print(pred)

if __name__ == "__main__":

    create_model()

    save_model()

    validate_model()

    predict_model()

from sklearn.datasets import make_classification创建分类数据集的更多相关文章

实验一使用sklearn的决策树实现iris鸢尾花数据集的分类
使用sklearn的决策树实现iris鸢尾花数据集的分类要求: 建立分类模型,至少包含4个剪枝参数:max_depth.min_samples_leaf .min_samples_split.max ...
sklearn提供的自带的数据集
sklearn 的数据集有好多个种自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded ...
Python——sklearn提供的自带的数据集
sklearn提供的自带的数据集 sklearn 的数据集有好多个种自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下 ...
【sklearn】网格搜索 from sklearn.model_selection import GridSearchCV
GridSearchCV用于系统地遍历模型的多种参数组合,通过交叉验证确定最佳参数. 1.GridSearchCV参数 # 不常用的参数 pre_dispatch 没看懂 refit 默认为Tr ...
【sklearn】from sklearn.extermals import joblib（保存模型和加载模型）
原创博文,转载请注明出处! sklearn中保存和加载模型的方法 1.载入模块 from sklearn.externals joblib. model = joblib. # -*- coding: ...
（数据科学学习手札21）sklearn.datasets常用功能详解
作为Python中经典的机器学习模块,sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集,本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进 ...
sklearn训练感知器用iris数据集
简化版代码 from sklearn import datasets import numpy as np #获取data和类标 iris = datasets.load_iris() X = iri ...
特征选取1-from sklearn.feature_selection import SelectKBest
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
sklearn datasets模块学习
sklearn.datasets模块主要提供了一些导入.在线下载及本地生成数据集的方法,可以通过dir或help命令查看,我们会发现主要有三种形式:load_<dataset_name>. ...

随机推荐

Spring Boot CRUD+分页（基于JPA规范）
步骤一:JPA概念 JPA(Java Persistence API)是Sun官方提出的Java持久化规范,用来方便大家操作数据库. 真正干活的可能是Hibernate,TopLink等等实现了JPA ...
LeetCode——Unique Binary Search Trees
Question Given n, how many structurally unique BST's (binary search trees) that store values 1...n? ...
bzoj 3039: 玉蟾宫单调栈或者悬线法求最大子矩阵和
3039: 玉蟾宫 Time Limit: 2 Sec Memory Limit: 128 MB[Submit][Status][Discuss] Description 有一天,小猫rainbow ...
简单UML
http://www.cnblogs.com/pluviophile/p/7542017.html,看了这篇博文感觉这个例子有用遂搬运过来方便查阅上面的类图就体现了所需要了解的类的6个基本关系该类 ...
mongodb复制集开启安全认证
之前我有一篇博客写的是“node.js通过权限验证连接MongoDB”,这篇博客上提到如何在启动文件中通过配置auth参数来开启权限认证,但这种认证方式只适合单机节点,当我们使用复制集时应该怎么开启权 ...
Oracle Solaris 11.4 GA 版发布，这将是 Solaris 的绝唱
美国当地时间8月28日,Oracle 正式宣布推出 Oracle Solaris 11.4 GA 稳定版,距离上个版本 11.3 的发布已过去近三年.Oracle 的产品管理总监 Scott Lynn ...
PWA web应用模型
2018年的第一篇博客,最近都去挤图书馆了,希望新年新气象... 简介 PWA 是一门Google推出的web前端新技术,全称是Progressive Web App,是Google在2015年提出, ...
Java对象的初始化顺序
new一个对象时,该对象的初始化顺序如下 : 父类中的静态成员变量父类中的静态代码块子类中的静态成员变量子类中的静态代码块父类中的非静态变量父类中的非静态代码块父类构造函数子类中的非静态 ...
三十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启
scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态 1.首先cd进入到scrapy项目里 2.在scrapy项 ...
jQuery之-拼图小游戏
在线实例:http://lgy.1zwq.com/puzzleGame/ 源代码思路分析: [一]如何生成图片网格,我想到两种方法: (1)把这张大图切成16张小图,然后用img标签的src (2)只 ...

from sklearn.datasets import make_classification创建分类数据集

from sklearn.datasets import make_classification创建分类数据集的更多相关文章

随机推荐

热门专题