【笔记】KNN之超参数

超参数

很多时候，对于算法来说，关于这个传入的参数，传什么样的值是最好的？

这就涉及到了机器学习领域的超参数

超参数简单来说就是在我们运行机器学习之前用来指定的那个参数，就是在算法运行前需要决定的参数

像是knn算法中的k就是典型的超参数

同时，还有一种是模型参数，即在算法过程中学习的参数，不过由于KNN算法没有模型参数，这里就不再赘述

那么怎么才能寻找到好的参数？

大致分为三点：

领域知识

经验数值

实验搜索

前两种是需要专业环境来养成，关于最后一种实验搜索就可以实践体现出来

实践部分（实验搜索）

为保证可复现，种子为666，数据集为sklearn的手写数字数据集

如果我们想要寻找一个好的k，可以使用一个循环，在初始的时候设置成最好的值为0，将for范围为从第二个参数开始的是个参数，那么我们在循环的过程中，每一次我们都创建一个knn_clf，进行fit操作，这样我们就可以得到当前k的分类准确度是多少

然后我们就可以开始比较，如果当前的score比历史上的score都好，那么就将现在的变成best_score，k同理，最后输出最好的k和其对应的预测准确率

  best_score = 0.0

  best_k = -1

  for k in range(1,11):

      knn_clf = KNeighborsClassifier(n_neighbors=k)

      knn_clf.fit(X_train ,y_train)

      score = knn_clf.score(X_test,y_test)

      if score > best_score:

          best_k = k

          best_score = score

  print("best_k =", best_k)

  print("best_score =",best_score)

然而k近邻算法中是不止一个K这样的超参数

还存在一个超参数，距离的权重（可使用倒数比较）

本来如果按照原有的knn算法，当出现三个不一样种类的情况的时候，我们只能随机出来得到一个样本，但是使用距离权重以后，可以有效地解决这种平票的问题

这样，我们引入距离这个想法以后，算法就变成了需不需要考虑距离这个要素的情况

  best_method = ""

  best_score = 0.0

  best_k = -1

  for method in ["uniform","distance"]:

      for k in range(1,11):

          knn_clf = KNeighborsClassifier(n_neighbors=k,weights = method)

          knn_clf.fit(X_train ,y_train)

          score = knn_clf.score(X_test,y_test)

          if score > best_score:

              best_k = k

              best_score = score

              best_method = method

  print("best_method =",best_method)

  print("best_k =", best_k)

  print("best_score =",best_score)

输出结果

那么距离的定义到底是什么

我们到底需要使用哪种距离

通过对曼哈顿距离和欧拉距离的变形推广，我们可以得到明科夫斯基距离

这样我们就获得了一个新的超参数 p

在sklearn中，p的默认为2，相当于取得是欧拉距离

那么继续修改算法为

  %%time

  best_p = -1

  best_score = 0.0

  best_k = -1

  for k in range(1,11):

      for p in range(1,6):

          knn_clf = KNeighborsClassifier(n_neighbors=k,weights ="distance",p=p)

          knn_clf.fit(X_train ,y_train)

          score = knn_clf.score(X_test,y_test)

          if score > best_score:

              best_k = k

              best_score = score

              best_p = p

  print("best_p =",best_p)

  print("best_k =", best_k)

  print("best_score =",best_score)

一般这种叫做网格搜索策略

【笔记】KNN之超参数的更多相关文章

机器学习：调整kNN的超参数
一.评测标准模型的测评标准:分类的准确度(accuracy): 预测准确度 = 预测成功的样本个数/预测数据集样本总数: 二.超参数超参数:运行机器学习算法前需要指定的参数: kNN算法中的超参数 ...
【笔记】KNN之网格搜索与k近邻算法中更多超参数
网格搜索与k近邻算法中更多超参数网格搜索与k近邻算法中更多超参数网络搜索前笔记中使用的for循环进行的网格搜索的方式,我们可以发现不同的超参数之间是存在一种依赖关系的,像是p这个超参数,只有在 ...
DeepLearning.ai学习笔记（二）改善深层神经网络：超参数调试、正则化以及优化--Week2优化算法
1. Mini-batch梯度下降法介绍假设我们的数据量非常多,达到了500万以上,那么此时如果按照传统的梯度下降算法,那么训练模型所花费的时间将非常巨大,所以我们对数据做如下处理: 如图所示,我 ...
Coursera Deep Learning笔记改善深层神经网络：超参数调试正则化以及梯度相关
笔记:Andrew Ng's Deeping Learning视频参考:https://xienaoban.github.io/posts/41302.html 参考:https://blog.cs ...
deeplearning.ai 改善深层神经网络 week3 超参数调试、Batch正则化和程序框架听课笔记
这一周的主体是调参. 1. 超参数:No. 1最重要,No. 2其次,No. 3其次次. No. 1学习率α:最重要的参数.在log取值空间随机采样.例如取值范围是[0.001, 1],r = -4* ...
[DeeplearningAI笔记]02_3.1-3.2超参数搜索技巧与对数标尺
Hyperparameter search 超参数搜索觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.1 调试处理需要调节的参数级别一:\(\alpha\)学习率是最重要的需要调节的 ...
Deep Learning.ai学习笔记_第二门课_改善深层神经网络：超参数调试、正则化以及优化
目录第一周(深度学习的实践层面) 第二周(优化算法) 第三周(超参数调试.Batch正则化和程序框架) 目标: 如何有效运作神经网络,内容涉及超参数调优,如何构建数据,以及如何确保优化算法快速运行, ...
ng-深度学习-课程笔记-8: 超参数调试，Batch正则(Week3)
1 调试处理( tuning process ) 如下图所示,ng认为学习速率α是需要调试的最重要的超参数. 其次重要的是momentum算法的β参数(一般设为0.9),隐藏单元数和mini-batc ...
【笔记】CART与决策树中的超参数
CART与决策树中的超参数先前的决策树其实应该称为CART CART的英文是Classification and regression tree,全称为分类与回归树,其是在给定输入随机变量X条件下输 ...

随机推荐

资源：HTML调色板
调色板路径 https://encycolorpedia.cn/
18 shell 重定向以及文件描述符
1.对重定向的理解 2.硬件设备和文件描述符文件描述符到底是什么 3.Linux Shell 输出重定向 4.Linux Shell 输入重定向 5.结合Linux文件描述符谈重定向 6.Shell ...
php混淆加密解密实战
在查看别人的php源码的时候,我们经常会看到加密后的php代码.那么php加密原理是什么呢?怎么解密呢? 混淆加密我们从百度随便搜索一个加密网站,例如:http://dezend.qiling.or ...
基于redis的分布式锁防止高并发重复请求
需求: 我们先举个某系统验证的列子:(A渠道系统,业务B系统,外部厂商C系统)(1)B业务系统调用A渠道系统,验证传入的手机.身份证.姓名三要素是否一致.(2)A渠道系统再调用外部厂商C系统.(3)A ...
「Ynoi2015」我回来了
「Ynoi2015」我回来了这东西已经不是 Ynoi 了,因为太水被嫌弃了. 如何提升自己的数据结构能力?从Ynoi做起题目链接其实这个题很小清新的辣,而且不卡常. 由于边权为 \(1\),所以 ...
Django基础-03篇操作Django自带的admin后台
1.使用model.py来定义表结构,使用命令同步到数据库 python manage.py makemigrations #生成表结构(py) python manage.py makemigrat ...
PYTHON 使用re.findall如果没有引用
python使用re.findall时必须提前import re否则不提示错误,只是找不到结果 import re ab=re.findall('cmp=com.(.*?)/',aa)
【学习笔记】Github的使用
在github上上传项目代码在github官网上新建自己的仓库,需要写好标题和说明文件,然后复制自己的仓库地址在要上传到的本地project中右键, Git bash here,接着输入 git ...
POJ3268-最短路径-反向存边
因为是单向边,牛儿来回的路径长度并不相同,所以需要用两次dijkstra,一次正向从x开始dijkstra,再将边全部反向存再来一次. 因为是板子题比较良心n比较小,我们就可以用矩阵来存储啦.如果n比 ...
win 10，Maven 配置
来源:https://www.cnblogs.com/lihan829/p/11503497.html 所需工具 : JDK 1.8 Maven 3.6.2 Windows 10 注Maven 3.2 ...

【笔记】KNN之超参数

超参数

实践部分（实验搜索）

【笔记】KNN之超参数的更多相关文章

随机推荐

热门专题