应用kNN算法预测豆瓣电影用户的性别

摘要

本文认为不同性别的人偏好的电影类型会有所不同，因此进行了此实验。利用较为活跃的274位豆瓣用户最近观看的100部电影，对其类型进行统计，以得到的37种电影类型作为属性特征，以用户性别作为标签构建样本集。使用kNN算法构建豆瓣电影用户性别分类器，使用样本中的90%作为训练样本，10%作为测试样本，准确率可以达到81.48%。

实验数据

本次实验所用数据为豆瓣用户标记的看过的电影，选取了274位豆瓣用户最近看过的100部电影。对每个用户的电影类型进行统计。本次实验所用数据中共有37个电影类型，因此将这37个类型作为用户的属性特征，各特征的值即为用户100部电影中该类型电影的数量。用户的标签为其性别，由于豆瓣没有用户性别信息，因此均为人工标注。

数据格式如下所示：
X1,1，X1,2，X1,3，X1,4……X1,36，X1,37，Y1
X2,1，X2,2，X2,3，X2,4……X2,36，X2,37，Y2
…………
X274,1，X274,2，X274,3，X274,4……X274,36，X274,37，Y274

示例：
0,0,0,3,1,34,5,0,0,0,11,31,0,0,38,40,0,0,15,8,3,9,14,2,3,0,4,1,1,15,0,0,1,13,0,0,1,1 0,1,0,2,2,24,8,0,0,0,10,37,0,0,44,34,0,0,3,0,4,10,15,5,3,0,0,7,2,13,0,0,2,12,0,0,0,0

像这样的数据一共有274行，表示274个样本。每一个的前37个数据是该样本的37个特征值，最后一个数据为标签，即性别：0表示男性，1表示女性。

kNN算法

k-近邻算法（KNN），是最基本的分类算法，其基本思想是采用测量不同特征值之间的距离方法进行分类。

算法原理：存在一个样本数据集合（训练集），并且样本集中每个数据都存在标签（即每一数据与所属分类的关系已知）。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较（计算欧氏距离），然后提取样本集中特征最相似数据（最近邻）的分类标签。一般会取前k个最相似的数据，然后取k个最相似数据中出现次数最多的标签（分类）最后新数据的分类。

在此次试验中取样本的前10%作为测试样本，其余作为训练样本。

首先对所有数据归一化。对矩阵中的每一列求取最大值（max_j）、最小值（min_j)，对矩阵中的数据X_j，
X_j=(X_j-min_j)/(max_j-min_j) 。

然后对于每一条测试样本，计算其与所有训练样本的欧氏距离。测试样本i与训练样本j之间的距离为：
distance_i_j=sqrt((Xi,1-Xj,1)^2+(Xi,2-Xj,2)^2+……+(Xi,37-Xj,37)^2) ，
对样本i的所有距离从小到大排序，在前k个中选择出现次数最多的标签，即为样本i的预测值。

实验结果

首先选择一个合适的k值。对于k=1,3,5,7，均使用同一个测试样本和训练样本，测试其正确率，结果如下表所示。

表1 选取不同k值的正确率表

k	1	3	5	7
测试集1	62.96%	81.48%	70.37%	77.78%
测试集2	66.67%	66.67%	59.26%	62.96%
测试集3	62.96%	74.07%	70.37%	74.07%
平均值	64.20%	74.07%	66.67%	71.60%

由上述结果可知，在k=3时，测试的平均正确率最高，为74.07%，最高可以达到81.48%。

上述不同的测试集均来自同一样本集中，为随机选取所得。

Python代码

2016/03 更新：自己重新实现了一下kNN的代码，对上次的算法一小处（从k个近邻中选择频率最高的一项）做了简化。

from numpy import *

#打开数据文件，导出为矩阵，其中最后一列为类别

def fileToMatrix(filename, sep=','):

    f = open(filename)

    content = f.readlines()

    f.close()

    first_line_list = content[0].strip().split(sep)

    data_matrix = zeros( (len(content), len(first_line_list)-1) )

    label_vector = []

    index = 0

    for line in content:

        list_from_line = line.strip().split(sep)

        data_matrix[index,:] = list_from_line[0:-1]

        label_vector.append(int(list_from_line[-1]))

        index += 1

    return (data_matrix,label_vector)

def classify(inX, data_matrix, label_vector, k):

    diff_matrix = inX - data_matrix

    square_diff_matrix = diff_matrix ** 2

    square_distances = square_diff_matrix.sum(axis=1)

    sorted_indicies = square_distances.argsort()

    label_count = {}

    for i in range(k):

        cur_label = label_vector[ sorted_indicies[i] ]

        label_count[cur_label] = label_count.get(cur_label, 0) + 1

    max_count = 0

    nearest_label = None

    for label in label_count:

        count = label_count[label]

        if count > max_count:

            max_count = count

            nearest_label = label

    return nearest_label

def test(filename,k=3,sep=',',hold_ratio=0.3):

        data_matrix, label_vector = fileToMatrix(filename,sep=sep)

        data_num = data_matrix.shape[0]

        test_num = int(hold_ratio * data_num)

        train_num = data_num - test_num

        train_matrix = data_matrix[0:train_num,:]

        test_matrix = data_matrix[train_num:,:]

        train_label_vector = label_vector[0:train_num]

        test_label_vector = label_vector[train_num:]

        right_count = 0

        for i in range(test_num):

                inX = test_matrix[i,:]

                classify_result = classify(inX, train_matrix, train_label_vector, k)

                if classify_result == test_label_vector[i]:

                        right_count += 1

                print("  The classifier came back with: %d, the real answer is: %d" % (classify_result, test_label_vector[i]))

        accuracy = float(right_count)/float(test_num)

        print('The total accuracy is %f' % accuracy)

参考文献

（美）Peter Harrington；李锐，李鹏，曲亚东，王斌译者. 机器学习实战. 北京：人民邮电出版社, 2013.06.

[Python] 应用kNN算法预测豆瓣电影用户的性别的更多相关文章

Python实现KNN算法
Python实现Knn算法关键词:KNN.K-近邻(KNN)算法.欧氏距离.曼哈顿距离 KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间 ...
Python实现KNN算法及手写程序识别
1.Python实现KNN算法输入:inX:与现有数据集(1xN)进行比较的向量 dataSet:已知向量的大小m数据集(NxM) 个标签:数据集标签(1xM矢量) k:用于比较的邻居数 ...
k-近邻(KNN) 算法预测签到位置
分类算法-k近邻算法(KNN): 定义: 如果一个样本在特征空间中的k个最相似 (即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样本也属于这个类别来源: KNN算法最早是由Cover和H ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
ML一：python的KNN算法
(1):list的排序算法: 参考链接:http://blog.csdn.net/horin153/article/details/7076321 示例: DisListSorted = sorted ...
利用Python实现kNN算法
邻近算法(k-NearestNeighbor) 是机器学习中的一种分类(classification)算法,也是机器学习中最简单的算法之一了.虽然很简单,但在解决特定问题时却能发挥很好的效果.因此,学 ...
基于python 实现KNN 算法
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/11/7 14:50 # @Author : gylhaut # @Site ...
python爬虫--用xpath爬豆瓣电影
步骤将目标网站下的页面抓取下来将抓取下来的数据根据一定规则进行提取具体流程将目标网站下的页面抓取下来 1. 倒库 import requests 2.头信息(有时候可不写) headers ...
吴裕雄 python 机器学习-KNN算法（1）
import numpy as np import operator as op from os import listdir def classify0(inX, dataSet, labels, ...

随机推荐

jQuery EasyUI API 中文文档 - 面板（Panel）
Panel 面板用$.fn.panel.defaults重写defaults. 用法示例创建Panel 1. 经由标记创建Panel 从标记创建Panel更容易.把 'easyui-panel ...
Oops信息及栈回溯
1. Oops信息来源及格式Oops这个单词含义为“惊讶”,当内核出错时(比如访问非法地址)打印出来的信息被称为Oops信息.Oops信息包含以下几部分内容:(1)一段文本描述信息. 比如类 ...
git基础命令
git pull 更新git status 查看文件状态git add .添加所有git commit -a -m "xxxx" 提交git push 推送至服务器git dif ...
修改jquery的remote让前段显示服务器错误信息
remote: function (value, element, param) { //param 是你的rules中规定的参数,在这里肯定是remote中的参数了 //value是你输入的值 // ...
LFS，编译自己的Linux系统 - 前言
近期工作计划:1. 上班时,用Django编写一个网站:2. 下班时,用C#.WPF编写一个单机版应用软件:3. 其他时间,根据LFS编译自己的Linux系统. LFS是一本书,书中列出了从零开始编译 ...
Git学习03 －－远程仓库
把本地库的内容推送到远程(github), 用git push命令,实际上是把当前分支master推送到远程. 由于远程库是空的,我们第一次推送master分支时,加上了-u参数,Git不但会把本地的 ...
Linux install Maven3
1. Download JDK1.6 http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u31-download-1501634 ...
一篇memcache基础教程
Memcache是什么Memcache是danga.com的一个项目,最早是为 LiveJournal 服务的,目前全世界不少人使用这个缓存项目来构建自己大负载的网站,来分担数据库的压力.它可以应对任 ...
知道版本对于出0day后批量攻击dedecms有非常大的帮助，先判断版本再选择相应exp，效率大增
需要知道织梦网站版本URL路径后面添加/data/admin/ver.txt 例如:http://www.dedecms.com/data/admin/ver.txt 20100708是最新版本5.6 ...
关于URL编码的问题
在进行WEB开发时,字符集编码常常困扰着我们.我们需要区分两种情况,一是URL编码,二是HTTP Body编码.这两种编码所处理的机制不同. URL编码和解码客户端负责对URL编码,服务端负责解码. ...

[Python] 应用kNN算法预测豆瓣电影用户的性别