sk-learning(2)

sk-learning 学习(2)

sklearing 训练评估

针对kdd99数据集使用逻辑回归分类训练然后进行评估发觉分数有点高的离谱取出10%数据494021条，并从中选择四分之一作为测试集结果这么高是否过拟合了？

import numpy as np

from sklearn import linear_model

from sklearn.externals import joblib

from sklearn import cross_validation

print("data loading ....")

data=np.loadtxt("newfile.csv",delimiter=",",dtype=np.int32)

print("load done....")

X=data[:,:-1]

target=data[:,-1]

X_train,X_test,y_train,y_test=cross_validation.train_test_split(X,target,test_size=0.25,random_state=1)

print("begin fit the model....")

clf=linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None)

score=clf.fit(X_train,y_train).score(X_test,y_test)

print("the model have train success, we will save the model to file...")

#s=pickle.dumps(clf)

joblib.dump(clf, 'model.pkl')

#score

print(score)

# result output....

data loading ....

load done....

begin fit the model....

dd

the model have train success, we will save the model to file...

0.997449516623

十则交叉验证

>>> from sklearn import cross_validation

>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])

>>> y = np.array([1, 2, 3, 4])

>>> kf = cross_validation.KFold(4, n_folds=2)

>>> len(kf)

2

>>> print(kf)

sklearn.cross_validation.KFold(n=4, n_folds=2, shuffle=False,

                               random_state=None)

>>> for train_index, test_index in kf:

...    print("TRAIN:", train_index, "TEST:", test_index)

...    X_train, X_test = X[train_index], X[test_index]

...    y_train, y_test = y[train_index], y[test_index]

TRAIN: [2 3] TEST: [0 1]

TRAIN: [0 1] TEST: [2 3]

.. automethod:: __init__

sk-learning(2)的更多相关文章

CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns
论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion. 代码:https://github.com/ahangchen/TFusion 解 ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...
人工智能（Machine Learning）—— 机器学习
https://blog.csdn.net/luyao_cxy/article/details/82383091 转载:https://blog.csdn.net/qq_27297393/articl ...
【Learning Notes】线性链条件随机场（CRF）原理及实现
1. 概述条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminative ...
Statistics and Samples in Distributional Reinforcement Learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1902.08102v1 [stat.ML] 21 Feb 2019 Abstract 我们通过递归估计回报分布的统计量,提供 ...
Training spiking neural networks for reinforcement learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 原文链接:https://arxiv.org/pdf/2005.05941.pdf Contents: Abstract Introduc ...
Privacy-Preserving Deep Learning via Additively Homomorphic Encryption
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Full version of a paper at the 8-th International Conference on Appli ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
【Machine Learning】Python开发工具：Anaconda+Sublime
Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...
【Machine Learning】机器学习及其基础概念简介
机器学习及其基础概念简介作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

随机推荐

request.form()和request()的区别
Request.Form:获取以POST方式提交的数据(接收Form提交来的数据):Request.QueryString:获取地址栏参数(以GET方式提交的数据)Request:包含以上两种方式(优 ...
[CentOS7] at, bash, cron, anacron
声明:本文主要总结自:鸟哥的Linux私房菜-第十五章.例行性工作排程(crontab),如有侵权,请通知博主 at => /var/spool/at /etc/at.allow, /etc/a ...
Go:定时执行任务time.sleep和time.tick的优劣
golang 写循环执行的定时任务,常见的有以下三种实现方式:1.time.Sleep方法: for { time.Sleep(time.Second) fmt.Println("我在定时执 ...
python 基于 wordcloud + jieba + matplotlib 生成词云
词云词云是啥?词云突出一个数据可视化,酷炫.以前以为很复杂,不想python已经有成熟的工具来做词云.而我们要做的就是准备关键词数据,挑一款字体,挑一张模板图片,非常非常无脑.准备好了吗,快跟我一起 ...
Hadoop eclipse plugin
我的eclipse是在win7上,hadoop在win7里的虚拟机里的ubuntu上,为了方便起见,想在eclipse上安装hadoop的插件,主要参考 https://my.oschina.net/ ...
51nod1091(贪心)
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1091 题意:中文题诶- 思路:贪心: 我们先将数据按照左端点 ...
洛谷P2700 逐个击破
P2700 逐个击破题目背景三大战役的平津战场上,傅作义集团在以北平.天津为中心,东起唐山西至张家口的铁路线上摆起子一字长蛇阵,并企图在溃败时从海上南逃或向西逃窜.为了就地歼敌不让其逃走,毛主席制 ...
CDN working principle diagram
转自 https://cloud.tencent.com/developer/article/1358553
Objective-C对象的申请空间与初始化
对象分配空间与初始化对象分配空间与初始化使用Objective-C语言创建一个对象有两个步骤,你必须: 为新对象动态分配内存空间初始化新分配的内存,并赋初值不经过如上两步,一个对象就没有完全功 ...
emmet缩写大全
Syntax Child: > nav>ul>li <nav> <ul> <li></li> </ul> </n ...

sk-learning(2)

sk-learning 学习(2)

sklearing 训练评估

十则交叉验证

sk-learning(2)的更多相关文章

随机推荐

热门专题