机器学习入门-Knn算法

knn算法不需要进行训练，耗时，适用于多标签分类情况

1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离、

2. 将求得的欧式距离进行降序排序，取前n_个

3. 计算这前n_个的y值的平均或者(类别)，获得测试数据的预测值

4.根据测试数据的实际值和测试数据的预测值计算当前的rmse，判断该方法的好坏

使用AIRbob的房子的特征与房价做演示：

演示1.首先使用accommodates属性对一个数据做演示，采用的距离是绝对值距离

import pandas as pd

import numpy as np

df_listings = pd.read_csv('listings.csv')

# 选取部分特征

features = ['accommodates', 'bedrooms', 'bathrooms', 'beds', 'price', 'minimum_nights', 'maximum_nights', 'number_of_reviews']

# 选取部分特征重新组合

df_listings = df_listings[features]

# 先只对accommodates进行操作

new_accomodates = 3  # 有一个房子的可容纳住房为3

df_listings['distance'] = np.abs(df_listings['accommodates'] - new_accomodates)

# 接下来对df_listings按照'distance'进行排序操作.value_counts()统计个数， sort_index() 进行排序

df_listings.distance.value_counts().sort_index()

# 使用洗牌操作,重新赋值

df_listings = df_listings.sample(frac=1, random_state=0)

# 重新继续排序

df_listings = df_listings.sort_values('distance')

print(df_listings.price.head())

# 由于价格是$150 ，我们需要将其转换为float类型

df_listings['price'] = df_listings['price'].str.replace('\$|,', "").astype(float)

# 取前5个数据，求价格的平均值

price_mean_5 = df_listings['price'].iloc[:5].mean()

print(price_mean_5)

演示2 将住房数据分为训练集和测试集，使用单个特征进行测试

df_listings = df_listings.drop('distance', axis=1)

# 将数据进行拆分

train_df = df_listings[:2792]

test_df = df_listings[2792:]

# 定义预测函数

def predict_price(test_content, feature_name):

    temp_df = train_df

    temp_df['distance'] = np.abs(test_content - temp_df[feature_name])

    # 根据distance进行排序

    temp_df = temp_df.sort_values('distance')

    price_mean_5 = temp_df.price.iloc[:5].mean()

    return price_mean_5

cols = ['accommodates']

# 这个.apply相当于将每一个数据输入，参数为函数， feature_name为第二个参数

test_df['predict_price'] = test_df[cols[0]].apply(predict_price, feature_name = 'accommodates')

print(test_df['predict_price'])

# 计算rmse

mse = ((test_df['predict_price'] - test_df['price']) ** 2).mean()

rmse = mse ** (1 / 2)

print(rmse)

# 分别比较其他属性单个的区别

for feature in ['accommodates', 'bedrooms', 'bathrooms', 'number_of_reviews']:

    test_df['predict_price'] = test_df[feature].apply(predict_price, feature_name=feature)

    print(test_df['predict_price'])

    # 计算rmse

    mse = ((test_df['predict_price'] - test_df['price']) ** 2).mean()

    rmse = mse ** (1 / 2)

    print('where{}:{}'.format(feature, rmse))

演示3：在上面的基础上，添加数据标准化（zeros）操作，标准化的意思是先减去均值，然后再除于标准差。同时引入多变量操作

使用的包有： from sklearn.mean_squred_error 用于求平均值
from scipy.spatial import distance 用于求欧式距离

from sklearn.processing import StandardScaler 用于进行标准化操作

from sklearn.preprocessing import StandardScaler

df_listings = pd.read_csv('listings.csv')

# 选取部分特征

features = ['accommodates', 'bedrooms', 'bathrooms', 'beds', 'price', 'minimum_nights', 'maximum_nights', 'number_of_reviews']

# 选取部分特征重新组合

df_listings = df_listings[features]

# 对价格进行处理

df_listings['price'] = df_listings['price'].str.replace('\$|,', "").astype(float)

# 去除有缺失值的行

df_listings = df_listings.dropna()

# 对数据进行标准化的操作

df_listings[features] = StandardScaler().fit_transform(df_listings[features])

# 进行数据拆分

train_df = df_listings[:2792]

test_df = df_listings[2792:]

# 使用欧式距离构成距离

from scipy.spatial import distance

from sklearn.metrics import mean_squared_error

# 构造多变量函数

def predict_price(new_content, feature_name):

    temp_df = train_df.copy()

    temp_df['distance'] = distance.cdist(temp_df[feature_name], [new_content[feature_name]])

    temp_df = temp_df.sort_values('distance')

    price_mean_5 = temp_df.price.iloc[:5].mean()

    return price_mean_5
# 选取其中的两个变量

cols = ['accommodates', 'bathrooms']

test_df['predict_price'] = test_df.apply(predict_price, feature_name=cols, axis=1)

mse = mean_squared_error(test_df['predict_price'], test_df['price'])

rmse = mse ** (1 / 2)

print(rmse)

演示4 使用sklearn附带的knn进行运算

from sklearn.neighbors import KNeighborsRegressor

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import mean_squared_error

df_listings = pd.read_csv('listings.csv')

# 选取部分特征

features = ['accommodates', 'bedrooms', 'bathrooms', 'beds', 'price', 'minimum_nights', 'maximum_nights', 'number_of_reviews']

# 选取部分特征重新组合

df_listings = df_listings[features]

# 对价格进行处理

df_listings['price'] = df_listings['price'].str.replace('\$|,', "").astype(float)

# 去除有缺失值的行

df_listings = df_listings.dropna()

# 拆分数据

df_listings[features] = StandardScaler().fit_transform(df_listings[features])

train_df = df_listings[:2792]

test_df = df_listings[2792:]

print(test_df.head())

cols = ['accommodates', 'bathrooms']

# 实例化一个knn, n_neighbors用来调整k值

knn = KNeighborsRegressor(n_neighbors=10)

# 进行模型的训练

knn.fit(train_df[cols], train_df['price'])

# 进行模型的预测

test_df['predict_price'] = knn.predict(test_df[cols])

# 计算mse

mse = mean_squared_error(test_df['predict_price'], test_df['price'])

rmse = mse ** (1 / 2)

print(rmse)

# 使用全部特征做一个比较

cols = ['accommodates', 'bedrooms', 'bathrooms', 'beds', 'minimum_nights', 'maximum_nights', 'number_of_reviews']

knn = KNeighborsRegressor(n_neighbors=10)

knn.fit(train_df[cols], train_df['price'])

test_df['predict_price'] = knn.predict(test_df[cols])

mse = mean_squared_error(test_df['predict_price'], test_df['price'])

rmse = mse ** (1 / 2)

print(rmse)

机器学习入门-Knn算法的更多相关文章

JavaScript机器学习之KNN算法
译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...
机器学习之KNN算法
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属 ...
机器学习：k-NN算法（也叫k近邻算法）
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...
菜鸟之路——机器学习之KNN算法个人理解及Python实现
KNN(K Nearest Neighbor) 还是先记几个关键公式距离:一般用Euclidean distance E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离 ...
机器学习笔记--KNN算法2-实战部分
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
初识机器学习之kNN算法
k近邻(k-Nearest Neighbor,简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本.然后基于这k个“邻居”的 ...
机器学习之KNN算法（分类）
KNN算法是解决分类问题的最简单的算法.同时也是最常用的算法.KNN算法也可以称作k近邻算法,是指K个最近的数据集,属于监督学习算法. 开发流程: 1.加载数据,加载成特征矩阵X与目标向量Y. 2.给 ...
机器学习入门KNN近邻算法(一)
1 机器学习处理流程: 2 机器学习分类: 有监督学习主要用于决策支持,它利用有标识的历史数据进行训练,以实现对新数据的表示的预测 1 分类分类计数预测的数据对象是离散的.如短信是否为垃圾短信,用 ...

随机推荐

MySQL的innoDB锁机制以及死锁处理
MySQL的nnoDB锁机制 InnoDB与MyISAM的最大不同有两点:一是支持事务(TRANSACTION):二是采用了行级锁.行级锁与表级锁本来就有许多不同之处,innodb正常的select ...
几本不错的graphql 电子书
当前专门讲graphql 的数据不是很多,但是越来越多的graphql 项目的出现以及graphql 自身的便捷,老外已经有人去写graphql 的设计以及基本使用了. ebooks 地址 http ...
Python学习系列（一）(基础入门)
Python入门本系列为Python学习相关笔记整理所得,IT人,多学无害,多多探索,激发学习兴趣,开拓思维,不求高大上,只求懂点皮毛,作为知识储备,不至于落后太远.如果兴趣学习者,推荐一个基础视频 ...
k最邻近算法——加权kNN
加权kNN 上篇文章中提到为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重,在此描述如何加权. 反函数该方法最简单的形式是返回距离的倒数,比如距离d,权重1/d.有时候,完全一样或非常接 ...
RAC5——11gR2以后GI进程的变化
参考文档: 11gR2 Clusterware and Grid Home - What You Need to Know (Doc ID 1053147.1)诊断 Grid Infrastructu ...
3种web会话管理方式：基于server端session方式、cookie-based方式、token-based方式
出处:http://www.cnblogs.com/lyzg/p/6067766.html
java 的关键字 native
native native 关键字说明其修饰的方法是一个原生态方法,方法对应的实现不是在当前文件,而是在用其他语言(如C和C++)实现的文件中.Java语言本身不能对操作系统底层进行访问和操作,但是可 ...
android studio 更新 Gradle错误解决方法(Gradle sync failed)
android studio 更新 Gradle错误解决方法 Android Studio每次更新版本都会更新Gradle这个插件,但由于长城的问题每次更新都是失败,又是停止在Refreshing ...
C# 正则表达式入门
转自:http://www.cnblogs.com/KissKnife/archive/2008/03/23/1118423.html 另外推荐一篇学正则表达式的文章:http://www.unibe ...
第4章 NumPy基础
NumPy是高性能科学计算和数据分析的基础包. 主要功能: 1.ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组. 2.用于对整组数据进行快速运算的标准数学函数(无需编写循 ...

机器学习入门-Knn算法

机器学习入门-Knn算法的更多相关文章

随机推荐

热门专题