实现模型的训练一般的流程便是

# 导包

# 导入数据

# 数据处理

# 特征工程

# KNN算法预估流程

# 模型评估

接下来便实现以上流程

实现该模型训练我们需要导入一下的函数

1 # 导包
2
3 import pandas as pd # 使用其文件操作
4 from sklearn.preprocessing import StandardScaler # 用来实现数据标准化
5 from sklearn.neighbors import KNeighborsClassifier # 预估器
6 from sklearn.model_selection import GridSearchCV # 网格搜索和交叉验证
7 from sklearn.model_selection import train_test_split # 可将数据分为训练集和测试集

然后导入数据

# 导入数据

data = pd.read_csv('train.csv')  

# read_csv()是pandas里面的一个函数,用于读取.cvs文件,这里接的是相对路径,也可以是绝对路径

(ps:这里仅仅是解决训练模型,所以并没有导入test.cvs文件)

作者这里提供下载这两个数据:(文件挺大的,别用流量下载哇)

  百度网盘:链接:https://pan.baidu.com/s/1WSHqf06brFVy-5lYUI2Idg
  提取码:ss52

对于数据处理,由于是练习,所以我添加了一个减少数据量,实际中,数据量越多越好

接下来便是把数据集里面的时间戳变为更好理解的年月日;

而对于签到少的地方可以去除,因为签到少的地方不具有代表性;

然后就是把数据集里面的特征值与目标值分离出来

# 数据处理

# 1)偷懒:减少数据(练习专属)
data = data.copy()
data = data.query("x < 2.5 & x > 2 & y < 1.5 & y > 1.0")
# 2)把时间特征转换成更有意义的年月日
time = pd.to_datetime(data["time"], unit="s")
t = pd.DatetimeIndex(time)
data["day"] = t.day
data["weekday"] = t.weekday
data["hour"] = t.hour
# 3)过滤签到次数少的地方
place_count = data.groupby("place_id").count()["row_id"]
data_final = data[data["place_id"].isin(place_count[place_count>3].index.values)]
# 4)筛选特征值和目标值
x = data_final[["x","y","accuracy","day","weekday","hour"]]
y = data_final["place_id"]

接着就是特征工程了

# 特征工程:标准化

# 数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)
#random_state是种子,一样的种子表示一样的分法 # 标准化
# 实例化一个预估器
transfer = StandardScaler()
# 把数据标准化
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test) # 注:以上x_test是用transform方法,是应为fit_transform方法实际上可以分为两个方法,
  一个是fit,一个是transform,fit是用来计算数据的标准差和平均数,transform是用来
  转化数据的,在第一次使用fit_transform时,transfer里面已经通过fit得到了x_train
  的标准差和平均值了,为了数据标准化更加真实,所以x_test也要用一样的标准差和平均值,
  这就是x_test使用transform的原因

然后是KNN算法预估流程

# KNN算法预估流程
# 实例化一个预估器
estimator = KNeighborsClassifier() #使用网格搜索和CV优化
estimator = GridSearchCV(estimator=estimator, param_grid={"n_neighbors": [3, 5, 7, 9]}, cv=3)
# 第一个参数是一个预估器;
第二个参数表示的是需要进行网格搜索的所有K值,值为字典或者列表;第三个参数是交叉验证的折数 estimator.fit(x_train, y_train) # 这个是输入训练的特征值和目标值,然后训练模型

最后是模型评估了

# 模型评估
# 方法一:查看预测的目标值
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict) # 方法二:直接查看准确率
score = estimator.score(x_test, y_test)
print("准确率为:", score) # 查看优化后端最佳参数
print("最佳参数:", estimator.best_params_)
print("最佳结果:", estimator.best_score_)
print("最佳估计器:", estimator.best_estimator_)
print("最佳验证结果:", estimator.cv_results_)

整体下来,我们就完成了一个超级基础的:用KNN算法实现预测facebook签到位置模型的训练辣!

(ps:该随笔是作者一边学习一边写的,里面有一些自己的拙见,如果有错误或者哪里可以改正的话,还请大家指出并批评改正!)

基础版本:用KNN算法实现预测facebook签到位置模型的训练(内含数据集下载)的更多相关文章

  1. knn算法之预测数字

    训练算法并对算法的准确值准确率进行估计 #导入相应模块 import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%mat ...

  2. 吴裕雄--天生自然python机器学习实战:K-NN算法约会网站好友喜好预测以及手写数字预测分类实验

    实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...

  3. 机器学习--最邻近规则分类KNN算法

    理论学习: 3. 算法详述        3.1 步骤:      为了判断未知实例的类别,以所有已知类别的实例作为参照      选择参数K      计算未知实例与所有已知实例的距离      选 ...

  4. KNN算法推理与实现

    Overview K近邻值算法 KNN (K - Nearest Neighbors) 是一种机器学习中的分类算法:K-NN是一种非参数的惰性学习算法.非参数意味着没有对基础数据分布的假设,即模型结构 ...

  5. 机器学习--kNN算法识别手写字母

    本文主要是用kNN算法对字母图片进行特征提取,分类识别.内容如下: kNN算法及相关Python模块介绍 对字母图片进行特征提取 kNN算法实现 kNN算法分析 一.kNN算法介绍 K近邻(kNN,k ...

  6. KNN算法原理及实现

    1.KNN算法概述 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性.该方法在确定分类决策上只依据最邻近的一 ...

  7. 手动实现KNN算法

    手动实现KNN算法 计算距离 取k个邻近排序 距离(欧氏) 预习 import numpy as np # 数组运算是面向元素级别的 arr1 = np.array([1,2,3]) arr2 = n ...

  8. 《机学五》KNN算法及实例

    一.概述 [定义]如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 二.距离计算公式 两个样本的距离可以通过如下公式计算,又叫[欧式距 ...

  9. 机器学习-K近邻(KNN)算法详解

    一.KNN算法描述   KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...

  10. 机器学习&深度学习基础(tensorflow版本实现的算法概述0)

    tensorflow集成和实现了各种机器学习基础的算法,可以直接调用. 代码集:https://github.com/ageron/handson-ml 监督学习 1)决策树(Decision Tre ...

随机推荐

  1. ChatGPT Plugin 插件开发:基于 ASP.NET Core Minimal API

    前言 这是一篇ChatGPT插件开发教程,描述如何使用 ASP.NET Core Minimal API 开发 ChatGPT 插件,以最简单的 Todo List 指导示例作为入门教程. 这个Tod ...

  2. Prism Sample 15-FilteringEvents

    例14演示了怎样事件聚合器怎样发布与接收信息. 例15增加了一个事件的过滤功能,即设定一个条件,符合的才接收. _ea.GetEvent<MessageSentEvent>().Subsc ...

  3. 2022-05-31:某公司游戏平台的夏季特惠开始了,你决定入手一些游戏。现在你一共有X元的预算。 该平台上所有的 n 个游戏均有折扣,标号为 i 的游戏的原价a_i元,现价只要b_i元, 也就是说该

    2022-05-31:某公司游戏平台的夏季特惠开始了,你决定入手一些游戏.现在你一共有X元的预算. 该平台上所有的 n 个游戏均有折扣,标号为 i 的游戏的原价a_i元,现价只要b_i元, 也就是说该 ...

  4. 2021-08-25:给定数组father大小为N,表示一共有N个节点,father[i] = j 表示点i的父亲是点j, father表示的树一定是一棵树而不是森林,queries是二维数组,大小为

    2021-08-25:给定数组father大小为N,表示一共有N个节点,father[i] = j 表示点i的父亲是点j, father表示的树一定是一棵树而不是森林,queries是二维数组,大小为 ...

  5. SQL Server 2014 英文版安装教程

    安装过程如下 1. 点击setup开始安装. 2. 选择如下的全新安装. 3. 自动生成产品密钥,然后点击下一步. 4. 勾选接受条款,然后点击下一步. 5. 自动更新根据实际情况进行选择,点击下一步 ...

  6. import MySQLdb as Database ModuleNotFoundError: No module named ‘MySQLdb‘

    import MySQLdb as Database ModuleNotFoundError: No module named 'MySQLdb' import MySQLdb as Database ...

  7. Hugging News #0519: 我们把 HuggingChat 开源了

    每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...

  8. Qt数据可视化项目

    一.创建项目(步骤按常规来即可) 二.ui设计界面 控件的使用 默认视角:Label标签和horizontalSlider标签 水平旋转:Label标签和horizontalSlider标签 垂直旋转 ...

  9. 每周更新 | Verilog测试用例及波形展示图功能上线

    Hi,亲爱的技术伙伴,经过产研团队的努力,本周ShowMeBug有以下4个功能上线啦- 芯片语言 Verilog 支持测试用例 芯片语言 Verilog 支持测试用例,自动评分同步上线- 同时,Ver ...

  10. 智慧饮水系统_Android客户端

    智慧饮水系统(又名:水牛 APP) 1.介绍 该项目基于 Rfid-RC522.ESP-32 进行下位机开发,硬件模块 Rfid-RC522 主要读取用户的卡号,ESP32 单片机通过 WiFi 模块 ...