基础版本:用KNN算法实现预测facebook签到位置模型的训练(内含数据集下载)
实现模型的训练一般的流程便是
# 导包 # 导入数据 # 数据处理 # 特征工程 # KNN算法预估流程 # 模型评估
接下来便实现以上流程
实现该模型训练我们需要导入一下的函数
1 # 导包
2
3 import pandas as pd # 使用其文件操作
4 from sklearn.preprocessing import StandardScaler # 用来实现数据标准化
5 from sklearn.neighbors import KNeighborsClassifier # 预估器
6 from sklearn.model_selection import GridSearchCV # 网格搜索和交叉验证
7 from sklearn.model_selection import train_test_split # 可将数据分为训练集和测试集
然后导入数据
# 导入数据
data = pd.read_csv('train.csv')
# read_csv()是pandas里面的一个函数,用于读取.cvs文件,这里接的是相对路径,也可以是绝对路径
(ps:这里仅仅是解决训练模型,所以并没有导入test.cvs文件)
作者这里提供下载这两个数据:(文件挺大的,别用流量下载哇)
百度网盘:链接:https://pan.baidu.com/s/1WSHqf06brFVy-5lYUI2Idg
提取码:ss52
对于数据处理,由于是练习,所以我添加了一个减少数据量,实际中,数据量越多越好
接下来便是把数据集里面的时间戳变为更好理解的年月日;
而对于签到少的地方可以去除,因为签到少的地方不具有代表性;
然后就是把数据集里面的特征值与目标值分离出来
# 数据处理 # 1)偷懒:减少数据(练习专属)
data = data.copy()
data = data.query("x < 2.5 & x > 2 & y < 1.5 & y > 1.0")
# 2)把时间特征转换成更有意义的年月日
time = pd.to_datetime(data["time"], unit="s")
t = pd.DatetimeIndex(time)
data["day"] = t.day
data["weekday"] = t.weekday
data["hour"] = t.hour
# 3)过滤签到次数少的地方
place_count = data.groupby("place_id").count()["row_id"]
data_final = data[data["place_id"].isin(place_count[place_count>3].index.values)]
# 4)筛选特征值和目标值
x = data_final[["x","y","accuracy","day","weekday","hour"]]
y = data_final["place_id"]
接着就是特征工程了
# 特征工程:标准化 # 数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)
#random_state是种子,一样的种子表示一样的分法 # 标准化
# 实例化一个预估器
transfer = StandardScaler()
# 把数据标准化
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test) # 注:以上x_test是用transform方法,是应为fit_transform方法实际上可以分为两个方法,
一个是fit,一个是transform,fit是用来计算数据的标准差和平均数,transform是用来
转化数据的,在第一次使用fit_transform时,transfer里面已经通过fit得到了x_train
的标准差和平均值了,为了数据标准化更加真实,所以x_test也要用一样的标准差和平均值,
这就是x_test使用transform的原因
然后是KNN算法预估流程
# KNN算法预估流程
# 实例化一个预估器
estimator = KNeighborsClassifier() #使用网格搜索和CV优化
estimator = GridSearchCV(estimator=estimator, param_grid={"n_neighbors": [3, 5, 7, 9]}, cv=3)
# 第一个参数是一个预估器;
第二个参数表示的是需要进行网格搜索的所有K值,值为字典或者列表;第三个参数是交叉验证的折数 estimator.fit(x_train, y_train) # 这个是输入训练的特征值和目标值,然后训练模型
最后是模型评估了
# 模型评估
# 方法一:查看预测的目标值
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict) # 方法二:直接查看准确率
score = estimator.score(x_test, y_test)
print("准确率为:", score) # 查看优化后端最佳参数
print("最佳参数:", estimator.best_params_)
print("最佳结果:", estimator.best_score_)
print("最佳估计器:", estimator.best_estimator_)
print("最佳验证结果:", estimator.cv_results_)
整体下来,我们就完成了一个超级基础的:用KNN算法实现预测facebook签到位置模型的训练辣!
(ps:该随笔是作者一边学习一边写的,里面有一些自己的拙见,如果有错误或者哪里可以改正的话,还请大家指出并批评改正!)
基础版本:用KNN算法实现预测facebook签到位置模型的训练(内含数据集下载)的更多相关文章
- knn算法之预测数字
训练算法并对算法的准确值准确率进行估计 #导入相应模块 import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%mat ...
- 吴裕雄--天生自然python机器学习实战:K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
- 机器学习--最邻近规则分类KNN算法
理论学习: 3. 算法详述 3.1 步骤: 为了判断未知实例的类别,以所有已知类别的实例作为参照 选择参数K 计算未知实例与所有已知实例的距离 选 ...
- KNN算法推理与实现
Overview K近邻值算法 KNN (K - Nearest Neighbors) 是一种机器学习中的分类算法:K-NN是一种非参数的惰性学习算法.非参数意味着没有对基础数据分布的假设,即模型结构 ...
- 机器学习--kNN算法识别手写字母
本文主要是用kNN算法对字母图片进行特征提取,分类识别.内容如下: kNN算法及相关Python模块介绍 对字母图片进行特征提取 kNN算法实现 kNN算法分析 一.kNN算法介绍 K近邻(kNN,k ...
- KNN算法原理及实现
1.KNN算法概述 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.该方法在确定分类决策上只依据最邻近的一 ...
- 手动实现KNN算法
手动实现KNN算法 计算距离 取k个邻近排序 距离(欧氏) 预习 import numpy as np # 数组运算是面向元素级别的 arr1 = np.array([1,2,3]) arr2 = n ...
- 《机学五》KNN算法及实例
一.概述 [定义]如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 二.距离计算公式 两个样本的距离可以通过如下公式计算,又叫[欧式距 ...
- 机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
- 机器学习&深度学习基础(tensorflow版本实现的算法概述0)
tensorflow集成和实现了各种机器学习基础的算法,可以直接调用. 代码集:https://github.com/ageron/handson-ml 监督学习 1)决策树(Decision Tre ...
随机推荐
- 大规模 Transformer 模型 8 比特矩阵乘简介 - 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes
引言 语言模型一直在变大.截至撰写本文时,PaLM 有 5400 亿参数,OPT.GPT-3 和 BLOOM 有大约 1760 亿参数,而且我们仍在继续朝着更大的模型发展.下图总结了最近的一些语言模型 ...
- for of 和 for in 的区别
1 var arr = ["f", "6", 3, "a", 7]; 2 var obj = { name: "shun" ...
- C# 手写识别方案整理
书写识别,网上的大佬们都有输出. 书写识别存在的2个问题: 直接拿官网的案例(将 Windows Ink 笔划识别为文本和形状 - Windows apps | Microsoft Learn),会发 ...
- 【Visual C#】基于《斗鱼弹幕服务器第三方接入协议v1.6.2》实现斗鱼弹幕服务器接入
最近在给某个主播开发斗鱼直播间辅助工具,为了程序的高效稳定,也搜索了大量的资料,经过大量什么百度,谷歌搜索... 虽然有很多Python的脚本及JS脚本实现了拉取斗鱼弹幕信息,但是这些年来的开发职业病 ...
- 2022-06-13:golang中,[]byte和结构体如何相互转换?
2022-06-13:golang中,[]byte和结构体如何相互转换? 答案2022-06-13: []byte和结构体的转换的应用场景是数据解析. 代码里有两种方法,一种是内存不共用,另一种是内存 ...
- 2022-03-01:k8s安装phpmyadmin,yaml如何写?
2022-03-01:k8s安装phpmyadmin,yaml如何写? 答案2022-03-01: yaml如下: apiVersion: apps/v1 kind: Deployment metad ...
- reverse逆转,即反向排序
reverse逆转,即反向排序 print(Student.objects.all().exclude(nickname='A').reverse()
- Kubernetes GoRoutineMap工具包代码详解
1.概述 GoRoutineMap 定义了一种类型,可以运行具有名称的 goroutine 并跟踪它们的状态.它防止创建具有相同名称的多个goroutine,并且在上一个具有该名称的 goroutin ...
- Redis系列13:分布式锁实现
Redis系列1:深刻理解高性能Redis的本质 Redis系列2:数据持久化提高可用性 Redis系列3:高可用之主从架构 Redis系列4:高可用之Sentinel(哨兵模式) Redis系列5: ...
- ping不通能curl通
今天发现一个域名或ip居然在ping不通的情况下能curl通,以前的思维定式直接给整破防了啊!!! 涨见识了,具体原因和原理后续补充~