机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall

1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例， random_state 随机种子

2. KFold(len(train_x), 5, shuffle=False) # len(train_x) 第一个参数数据数据大小， 5表示切分的个数，即循环的次数， shuffle表示是否进行打乱数据

3. recall_score 表示的是召回率，即预测对的/这个类别的个数

我们将数据分为训练集和测试集，为了确定好参数，我们从训练集中对数据进行再次的切分，切分成训练集和验证集以此来获得好的训练参数

我们对正则化参数c做验证

交叉验证的意思是比如，KFold(len(train_x), 5, shuffle=False) 将索引值分成5份，四分作为训练集，1份作为验证集,为了防止由于部分数据表现不好，导致结果的偏低或者偏高

训练集验证集

1234 5

2345 1

3451 2

4512 3

5123 4

一共5次循环，对获得的score求平均作为最终的预测得分

我们使用recall_score 来做为验证结果，使用KFold来进行数据的索引的拆分，返回最佳的参数

# 进行整体数据的拆分

train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=0)

# 进行下采样数据的拆分

under_train_x, under_text_x, under_train_y, under_test_y = train_test_split(under_x, under_y, test_size=0.3, random_state=0)

from sklearn.cross_validation import KFold

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import recall_score

# 使用交叉验证来选择参数

def printing_KFold_score(train_x, train_y):

    """

    进行数据的交叉验证

    :param train_x:输入的数据的变量

    :param train_y:输入数据的标签

    :return: 返回最佳的参数

    """

    # 对数据的索引进行拆分

    fold = KFold(len(train_x), 5, shuffle=False)

    # 正则化参数

    c_parameter = [0.01, 0.1, 1, 10, 100]

    # 建立DataFrame用于参数和recall得分的储存

    train_score = pd.DataFrame(index=range(len(c_parameter), 2), columns=['c_parameter', 'F_score_mean'])

    train_score['c_parameter'] = c_parameter

    for c in c_parameter:

        scores = []

        for iter, fol in enumerate(fold, start=1):

            lr = LogisticRegression(C=c, penalty='l1')

            lr.fit(train_x.iloc[fol[0], :], train_y.iloc[fol[0], :])

            pred_y = lr.predict(train_x.iloc[fol[1], :])

            # 导入recall_score模块进行计算

            score = recall_score(train_y.iloc[fol[1], :], pred_y)

            print('{} {}'.format(iter, score))

            scores.append(score)

        mean_score = np.mean(scores)

        train_score['F_score_mean'] = mean_score

    print(train_score)

    # 根据索引, idxmax() 表示获得最大值的索引,获得最佳的best_parameter

    best_parameter = train_score.iloc[train_score['F_score_mean'].idxmax(), :]['c_parameter']

    print('the best_parameter is {}'.format(best_parameter))

    return best_parameter

best_c = printing_KFold_score(under_train_x, under_train_y)

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)的更多相关文章

机器学习入门 - Google机器学习速成课程 - 笔记汇总
机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介前提条件和准备工作完成课程的下一步机器学 ...
python进行机器学习（四）之模型验证与参数选择
一.模型验证进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果. 这里我们将 ...
支持向量机(SVM)利用网格搜索和交叉验证进行参数选择
上一回有个读者问我:回归模型与分类模型的区别在哪?有什么不同,我在这里给他回答一下 : : : : 回归问题通常是用来预测一个值,如预测房价.未来的天气情况等等,例如一个产品的实际价格为500元,通过 ...
机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)
使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数 ...
机器学习入门07 - 验证 (Validation)
原文链接:https://developers.google.com/machine-learning/crash-course/validation/ 1- 检查直觉将一个数据集划分为训练集和测试 ...
python大战机器学习——模型评估、选择与验证
1.损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数绝对损失函数平方损失函数对数损失函数 (2)风险函数:损失函数的期望经验风险:模型在数据集T上的平均损失根据大 ...
【机器学习】机器学习入门02 - 数据拆分与测试&算法评价与调整
0. 前情回顾上一周的文章中,我们通过kNN算法了解了机器学习的一些基本概念.我们自己实现了简单的kNN算法,体会了其过程.这一周,让我们继续机器学习的探索. 1. 数据集的拆分上次的kNN算法介 ...
吴裕雄 python 机器学习——模型选择参数优化暴力搜索寻优GridSearchCV模型
import scipy from sklearn.datasets import load_digits from sklearn.metrics import classification_rep ...
吴裕雄 python 机器学习——模型选择参数优化随机搜索寻优RandomizedSearchCV模型
import scipy from sklearn.datasets import load_digits from sklearn.metrics import classification_rep ...

随机推荐

Android中logcat和日志打印
一.logcat对日志过滤 1.# logcat --help # logcat --help Usage: logcat [options] [filterspecs] options inclu ...
day23 python学习类人狗大战
面向过程 VS 面向对象面向过程的程序设计的核心是过程(流水线式思维),过程即解决问题的步骤,面向过程的设计就好比精心设计好一条流水线,考虑周全什么时候处理什么东西. 面向过程优点是:极大的降低了 ...
Ribbon Control
https://documentation.devexpress.com/#WindowsForms/CustomDocument2492 The Ribbon Control replaces tr ...
移植RTL8188CUS USB-WIFI(移植失败)
1.主makefile CONFIG_POWER_SAVING = n CONFIG_PLATFORM_I386_PC = n CONFIG_PLATFORM_HI3518E = y ##swann ...
Python函数 dict()
dict() 作用:dict() 函数用于创建一个字典.返回一个字典. 语法: class dict(**kwarg) class dict(mapping, **kwarg) class dict( ...
使用Apriori进行关联分析（二）
书接上文(使用Apriori进行关联分析(一)),介绍如何挖掘关联规则. 发现关联规则我们的目标是通过频繁项集挖掘到隐藏的关联规则. 所谓关联规则,指通过某个元素集推导出另一个元素集.比如有一个频繁 ...
Microsoft Dynamics CRM4.0 和 Microsoft Dynamics CRM 2011 JScript 方法对比
CRM 2011 如果需要再IE里面调试,可以按F12在前面加上contentIFrame,比如 contentIFrame.document.getElementById("字段" ...
如何在ASP.NET页面中使用异步任务(PageAsyncTask)
在页面加载期间,可能有些操作是要比较耗用时间的(例如调用外部资源,要长时间等待其返回),正常情况下,这个操作将一直占用线程.而大家知道,ASP.NET在服务端线程池中的线程数是有限的,如果一直占用的话 ...
Android画图之抗锯齿 paint 和 Canvas 两种方式
在画图的时候,图片如果旋转或缩放之后,总是会出现那些华丽的锯齿.其实Android自带了解决方式. 方法一:给Paint加上抗锯齿标志.然后将Paint对象作为参数传给canvas的绘制方法. ...
关于 android 返回键代码实现
转自:http://www.dewen.io/q/11313/android+%E6%A8%A1%E6%8B%9F%E8%BF%94%E5%9B%9E%E9%94%AE%E5%8A%9F%E8%83% ...

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)的更多相关文章

随机推荐

热门专题