PAC、KNN和GridSearchCV

PCA

PCA主要是用来数据降维，将高纬度的特征映射到低维度，具体可学习线性代数。

这里，我们使用sklearn中的PCA.

from sklearn.decomposition import PCA

X = np.array([[-1, -1, 1, -3], [-2, -1, 1, -3], [-3, -2, 1, -3], [1, 1, 1, -3], [2, 1, 1, -3], [3, 2, -1, -3]])

pca = PCA(n_components=4)

pca.fit(X)

print(pca.explained_variance_ratio_) #各成分百分比

print(pca.explained_variance_)    #各成分值

pca = PCA(n_components=1)   #原来是4维，现在降至1维

XX = pca.fit_transform(X)

print(XX)

结果：

[0.94789175 0.04522847 0.00687978 0.        ]

[8.21506183 0.39198011 0.05962472 0.        ]

[[-1.42149543]

 [-2.2448796 ]

 [-3.60382274]

 [ 1.29639085]

 [ 2.11977502]

 [ 3.85403189]]

其实，直接看数据也能发现。例如，最后一维没变化所以百分比为0，倒数第二维只有一点点变化所以百分比也很小，它们对结果的影响很小，在降维时可以去掉。

KNN

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

流程如下：

计算出样本数据和待分类数据的距离；
为待分类数据选择K个与其距离最小的样本；
统计出K个样本中大多数样本所属的分类；
这个分类就是待分类数据所属的分类。

classifier = KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

            metric_params=None, n_jobs=1, n_neighbors=10, p=2,

            weights='uniform')

超参数需要自己尝试。

其他

from sklearn.neighbors import KNeighborsClassifier

from sklearn.linear_model import LogisticRegression

from sklearn.ensemble import RandomForestClassifier

from sklearn.tree import DecisionTreeClassifier

from sklearn.svm import SVC

from sklearn.naive_bayes import GaussianNB

from sklearn import metrics

classifier = LogisticRegression(random_state = 0)  #0.78

#classifier = KNeighborsClassifier(algorithm='kd_tree',n_neighbors = 5, metric = 'minkowski', p = 2, weights='uniform')  #0.839

#classifier = SVC(kernel = 'linear', random_state = 0)  #0.81

#classifier = SVC(kernel = 'rbf', random_state = 0)  #0.77

#classifier = GaussianNB()   #0.77

#classifier = DecisionTreeClassifier(criterion = 'entropy', random_state = 0)  #0.64

#classifier = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0)  #0.83

classifier.fit(X_stard, Y_stard)

YY_pred = classifier.predict(X_pred)

result_NMI=metrics.normalized_mutual_info_score(YY_pred, Y_pred)

print("result_NMI:",result_NMI)  #3,1,minkowski   3,1,manhattan

GridSearchCV寻找超参数

sklearn调参有一个工具gridsearchcv，它存在的意义就是自动调参，只要把参数输进去，就可以对算法进行相应的调优，找到合适的参数。

### KNN

from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import GridSearchCV

clf = KNeighborsClassifier()

n_neighbors = list(range(1,10))

weights = ['uniform','distance']

algorithm_options = ['auto','ball_tree','kd_tree','brute']

leaf_range = list(range(1,10))

p = list(range(1,10))

param_grid = [{'n_neighbors': n_neighbors, 'weights': weights, 'algorithm': algorithm_options, 'leaf_size': leaf_range, 'p':p}]

grid_search = GridSearchCV(clf, param_grid=param_grid, cv=10)

grid_search.fit(X_pred, Y_pred)

grid_search.best_score_, grid_search.best_estimator_, grid_search.best_params_

结果：

(0.9675572519083969,

 KNeighborsClassifier(algorithm='auto', leaf_size=1, metric='minkowski',

                      metric_params=None, n_jobs=None, n_neighbors=7, p=2,

                      weights='uniform'),

 {'algorithm': 'auto',

  'leaf_size': 1,

  'n_neighbors': 7,

  'p': 2,

  'weights': 'uniform'})

参考链接：

1. https://blog.csdn.net/puredreammer/article/details/52255025

2. https://www.makcyun.top/2019/06/15/Machine_learning08.html

3. https://blog.csdn.net/szj_huhu/article/details/74909773

4. https://www.zybuluo.com/spiritnotes/note/295894

PAC、KNN和GridSearchCV的更多相关文章

室内定位系列（三）——位置指纹法的实现（KNN）
位置指纹法中最常用的算法是k最近邻(kNN):选取与当前RSS最邻近的k个指纹的位置估计当前位置,简单直观有效.本文介绍kNN用于定位的基本原理与具体实现(matlab.python). 基本原理位 ...
使用PCA + KNN对MNIST数据集进行手写数字识别
首先引入需要的包 %matplotlib inline import numpy as np import scipy as sp import pandas as pd import matplot ...
KNN算法的实现
K近邻(KNN)算法简介 KNN是通过测量不同特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其 ...
美团店铺评价语言处理以及分类（tfidf，SVM，决策树，随机森林，Knn，ensemble）
第一篇数据清洗与分析部分第二篇可视化部分, 第三篇朴素贝叶斯文本分类支持向量机分类支持向量机网格搜索临近法决策树随机森林 bagging方法 import pandas as pd ...
k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
吴裕雄数据挖掘与分析案例实战（10）——KNN模型的应用
# 导入第三方包import pandas as pd # 导入数据Knowledge = pd.read_excel(r'F:\\python_Data_analysis_and_mining\\1 ...
如何利用AI识别未知——加入未知类（不太靠谱），检测待识别数据和已知样本数据的匹配程度（例如使用CNN降维，再用knn类似距离来实现），将问题转化为特征搜索问题而非决策问题，使用HTM算法（记忆+模式匹配预测就是智能），GAN异常检测，RBF
https://www.researchgate.net/post/How_to_determine_unknown_class_using_neural_network 里面有讨论,说是用rbf神经 ...
GridSearchCV和RandomizedSearchCV调参
1 GridSearchCV实际上可以看做是for循环输入一组参数后再比较哪种情况下最优. 使用GirdSearchCV模板 # Use scikit-learn to grid search the ...
机器学习第5篇：knn回归
基于最邻近算法的分类,本质上是对离散的数据标签进行预测,实际上,最邻近算法也可以用于对连续的数据标签进行预测,这种方法叫做基于最邻近数据的回归,预测的值(即数据的标签)是连续值,通过计算数据点最临近数 ...

随机推荐

[转载]3.14 UiPath图片操作截图的介绍和使用
一.截图(Take Screenshot)的介绍截取指定的UI元素屏幕截图的一种活动,输出量仅支持图像变量(image) 二.Take Screenshot在UiPath中的使用 1.打开设计器,在 ...
Scala Http 请求调用　－　scalaj-http
Simplified Http This is a fully featured http client for Scala which wraps java.net.HttpURLConnectio ...
2018-2019-2 20162329 《网络对抗技术》Exp9： Web安全基础
目录 Exp9: Web安全基础一.基础知识 1.SQL注入攻击 2.XSS跨站脚本攻击 3.CSRF跨站请求伪造二.SQL注入 1. 命令注入 2. 数字注入 3. 日志欺骗三.XSS攻击 1 ...
ECMAScript 初探 - 基础篇
ECMAScript 语言的标准是由 Netscape.Sun.微软.Borland 等公司基于 JavaScript 和 JScript 锤炼.定义出来的. ECMAScript 仅仅是一个描述,定 ...
thinkphp中怎么使用phpmailer发送邮件
phpmailer发送邮件是php开发者首选的一个邮件发送插件了,下面我来介绍怎么集成phpmailer到thinkphp框架了,有需要了解的朋友可参考. phpmailer发送邮件功能很强大,今天真 ...
Can't locate Math/Round.pm in @INC
遭遇报错: Can't locate Math/Round.pm in @INC 经过亲自测试,下面的命令解决了我的问题. yum install perl-Math-Round 参考资料 ===== ...
springboot 远程调试
首先以调试模式启动编译好的jar包,监听端口为5005 java -jar -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,addre ...
《 .NET并发编程实战》阅读指南 - 第6章
先发表生成URL以印在书里面.等书籍正式出版销售后会公开内容.
dotnet + LinQ 按照指定的字段和排序方式排序
/// <summary> /// 根据指定属性名称对序列进行排序 /// </summary> /// <typeparam name="TSource&qu ...
ELK学习笔记之filebeat合并多行日志示例
0x00 概述本节中的示例包括以下内容: 将Java堆栈跟踪日志组合成一个事件将C风格的日志组合成一个事件结合时间戳处理多行事件同理,你可以把如下的正则应用在容器的yaml文件内. 0x01 ...

PAC、KNN和GridSearchCV

PCA

KNN

其他

GridSearchCV寻找超参数

PAC、KNN和GridSearchCV的更多相关文章

随机推荐

热门专题