机器学习：scikit-learn 做笑脸识别 (SVM, KNN, Logisitc regression)

scikit-learn 是 Python 非常强大的一个做机器学习的包，今天介绍scikit-learn 里几个常用的分类器

SVM, KNN 和 logistic regression，用来做笑脸识别。

这里用到的是GENKI4K 这个数据库，每张图像先做一个人脸检测与剪切，然后提取HOG特征。这个数据库有 4000 张图，分成4组，做一个 cross validation，取平均值作为最终的识别率:

import string, os, sys

import numpy as np

import matplotlib.pyplot as plt

import scipy.io

import random

from sklearn import neighbors, linear_model, svm

dir = '/GENKI4K/Feature_Data'

print '----------- no sub dir'  

# prepare the data

files = os.listdir(dir)

for f in files:

    print dir + os.sep + f

file_path=dir+os.sep+files[14]

#print file_path

dic_mat = scipy.io.loadmat(file_path)

data_mat=dic_mat['Hog_Feat']

print 'feature: ',  data_mat.shape

#print data_mat.dtype

file_path2=dir+os.sep+files[15]

#print file_path2

dic_label=scipy.io.loadmat(file_path2)

label_mat=dic_label['Label']

file_path3=dir+os.sep+files[16]

print 'fiel 3 path: ', file_path3

dic_T=scipy.io.loadmat(file_path3)

T=dic_T['T']

T=T-1

print T.shape

label=label_mat.ravel()

# Acc=np.zeros((1,4))

Acc=[0,0,0,0]

for i in range (0, 4):

    print "the fold %d" % (i+1)

    train_ind=[]

    for j in range (0, 4):

        if j==i:

            test_ind=T[j]

        else:

            train_ind.extend(T[j])

#    print len(test_ind), len(train_ind)

#    print max(test_ind), max(train_ind)

    train_x=data_mat[train_ind, :]

    test_x=data_mat[test_ind, :]

    train_y=label[train_ind]

    test_y=label[test_ind]

#   SVM

    clf=svm.LinearSVC()

#   KNN

#    clf = neighbors.KNeighborsClassifier(n_neighbors=15)

#    Logistic regression

#    clf = linear_model.LogisticRegression()

    clf.fit(train_x, train_y)

    predict_y=clf.predict(test_x)

    Acc[i]=np.mean(predict_y == test_y)

    print "Accuracy: %.2f" % (Acc[i])

print "The mean average classification accuracy: %.2f" % (np.mean(Acc))

# SVM 的实验结果

(4, 1000)

the fold 1

Accuracy: 0.89

the fold 2

Accuracy: 0.88

the fold 3

Accuracy: 0.89

the fold 4

Accuracy: 0.90

The mean average classification accuracy: 0.89

# KNN 的实验结果

(4, 1000)

the fold 1

Accuracy: 0.83

the fold 2

Accuracy: 0.84

the fold 3

Accuracy: 0.84

the fold 4

Accuracy: 0.85

The mean average classification accuracy: 0.84

# logistic regression 的实验结果

(4, 1000)

the fold 1

Accuracy: 0.91

the fold 2

Accuracy: 0.91

the fold 3

Accuracy: 0.90

the fold 4

Accuracy: 0.92

The mean average classification accuracy: 0.91

机器学习：scikit-learn 做笑脸识别 (SVM, KNN, Logisitc regression)的更多相关文章

机器学习: Tensor Flow +CNN 做笑脸识别
Tensor Flow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库.节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数 ...
机器学习: TensorFlow with MLP 笑脸识别
Tensor Flow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库.节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数 ...
机器学习-scikit learn学习笔记
scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
机器学习： Tensor Flow with CNN 做表情识别
我们利用 TensorFlow 构造 CNN 做表情识别,我们用的是FER-2013 这个数据库, 这个数据库一共有 35887 张人脸图像,这里只是做一个简单到仿真实验,为了计算方便,我们用其中到 ...
硬核机器学习干货，手把手教你写KNN！
机器学习相关概念人工智能.机器学习和深度学习的关系在探讨算法之前,我们先来谈一谈什么是机器学习.相信大家都听说过AlphaGo:2016年3月,AlphaGo与围棋世界冠军李世石进行围棋人机大战, ...
Python 3 利用机器学习模型进行手写体数字识别
0.引言介绍了如何生成数据,提取特征,利用sklearn的几种机器学习模型建模,进行手写体数字1-9识别. 用到的四种模型: 1. LR回归模型,Logistic Regression 2. SGD ...

随机推荐

Java学习很好的笔记
http://www.cnblogs.com/vamei/archive/2013/03/31/2991531.html
php课程 2-7 php中常量如何定义
php课程 2-7 php中常量如何定义一.总结一句话总结:函数方式定义和普通变量方式定义 define('PI','3.14').键值对,和session一样. const PI=3 ...
poj 2063 Investment ( zoj 2224 Investment ) 完全背包
传送门: POJ:http://poj.org/problem?id=2063 ZOJ:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problem ...
hadoop调优之一：概述分类： A1_HADOOP B3_LINUX 2015-03-13 20:51 395人阅读评论(0) 收藏
hadoop集群性能低下的常见原因 (一)硬件环境 1.CPU/内存不足,或未充分利用 2.网络原因 3.磁盘原因 (二)map任务原因 1.输入文件中小文件过多,导致多次启动和停止JVM进程.可以设 ...
借助gdb实现pstack
pstack.sh: #! /bin/sh if [ -z $1 ] then echo "gdb script for print stack" echo "usage ...
【MySQL】15个有用的MySQL/MariaDB性能调整和优化技巧
MySQL 是一个强大的开源关系数据库管理系统(简称 RDBMS).它发布于 1995 年(20年前).它采用结构化查询语言(SQL),这可能是数据库内容管理中最流行的选择.最新的 MySQL 版本是 ...
关于serialVersionUID的说明分类： B1_JAVA 2014-05-24 11:02 1334人阅读评论(0) 收藏
1.为什么要使用serialVersionUID (1)对于实现了Serializable接口的类,可以将其序列化输出至磁盘文件中,同时会将其serialVersionUID输出到文件中. (2)然后 ...
source insight -i failed reason
双击.c调用sourceinsight.exe -i "路径" 如果路径太长就会新开一个窗口,测试相同文件,不同路径现象不同.
Java开发报表——Grid++Report 报表设计器
为了让数据显示的更加形象生动,报表在项目中差点儿是很常见的,可是大致能够分为两类: 一,图形:以图形的形式显示数据,比如柱状图,折线图,饼形图等等,这里有许多关于这方面的工具,比如JFreeChart ...
css样式继承规则详解
css样式继承规则详解一.总结一句话总结:继承而发生样式冲突时,最近祖先获胜(最近原则). 1.继承中哪些样式不会被继承? 多数边框类属性,比如象Padding(补白),Margin(边界),背景 ...

机器学习：scikit-learn 做笑脸识别 (SVM, KNN, Logisitc regression)

机器学习：scikit-learn 做笑脸识别 (SVM, KNN, Logisitc regression)的更多相关文章

随机推荐

热门专题