要求:使用10-fold交叉验证方法实现SVM的对人脸库识别,列出不同核函数参数对识别结果的影响,要求画对比曲线. 使用Python完成,主要参考文献[4],其中遇到不懂的功能函数一个一个的查官方文档和相关资料.其中包含了使用Python画图,遍历文件,读取图片,PCA降维,SVM,交叉验证等知识. 0.数据说明预处理 下载AT&T人脸数据(http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html),解压缩后为40个文件夹…
http://www.cnblogs.com/batteryhp/p/5046450.html 对数据进行分组并对各组应用一个函数,是数据分析的重要环节.数据准备好之后,通常的任务就是计算分组统计或生成透视表.groupby函数能高效处理数据,对数据进行切片.切块.摘要等操作.可以看出这跟SQL关系密切,但是可用的函数有很多.在本章中,可以学到: 根据一个或多个键(可以是函数.数组或DataFrame列名)拆分pandas对象 计算分组摘要统计,如计数.平均值.标准差.,或自定义函数 对Data…
  数据不完整在数据分析的过程中很常见. pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据. pandas使用isnull()和notnull()函数来判断缺失情况. 对于缺失数据一般处理方法为滤掉或者填充. 滤除缺失数据   对于一个Series,dropna()函数返回一个包含非空数据和索引值的Series,例如: 对于DataFrame,dropna()函数同样会丢掉所有含有空元素的数据,例如:   但是可以指定how='all',这表示只有行里的数据全部为空时才丢弃,例如:…
写在前面的话: 实例中的所有数据都是在GitHub上下载的,打包下载即可. 地址是:http://github.com/pydata/pydata-book 还有一定要说明的: 我使用的是Python2.7,书中的代码有一些有错误,我使用自己的2.7版本调通. # coding: utf-8 from pandas import Series, DataFrame import pandas as pd import numpy as np df = pd.read_csv('D:\Source…
pandas 对象拥有一些常用的数学和统计方法.   例如,sum() 方法,进行列小计:   sum() 方法传入 axis=1 指定为横向汇总,即行小计:   idxmax() 获取最大值对应的索引:   还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数据里的唯一值:   value_counts() 方法用于统计各值出现的频率:   isin() 方法用于判断成员资格:   安装步骤已经在首篇随笔里写过了,这里不在赘述.利用 Pyt…
使用python的机器学习包sklearn的时候,如果训练集是固定的,我们往往想要将一次训练的模型结果保存起来,以便下一次使用,这样能够避免每次运行时都要重新训练模型时的麻烦. 在python里面,有一个joblib可以实现将模型保存,并将保存后的模型取出用于不同的测试集: from sklearn import svm from sklearn.externals import joblib #训练模型 clf = svc = svm.SVC(kernel='linear') rf=clf.f…
转自:https://www.cnblogs.com/yjd_hycf_space/p/7094005.html 题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习.并利用scikit-learn包中的PCA算法来对聚类后的数据进行降维,然后画图展示出聚类效果.通过调节聚类算法的参数,来观察聚类效果的变化,练习调参. 数据介绍…
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习.并利用scikit-learn包中的PCA算法来对聚类后的数据进行降维,然后画图展示出聚类效果.通过调节聚类算法的参数,来观察聚类效果的变化,练习调参. 数据介绍: 选取某一个驾驶员的经过处理的数据集trip.csv,将该驾驶人的各个时间段的特征进行聚类.(注:其中的driv…
之前提到过聚类之后,聚类质量的评价: 聚类︱python实现 六大 分群质量评估指标(兰德系数.互信息.轮廓系数) R语言相关分类效果评估: R语言︱分类器的性能表现评价(混淆矩阵,准确率,召回率,F1,mAP.ROC曲线) . 一.acc.recall.F1.混淆矩阵.分类综合报告 1.准确率 第一种方式:accuracy_score # 准确率 import numpy as np from sklearn.metrics import accuracy_score y_pred = [0,…
# 文字特征提取 词库模型(bag of words) 2016年2月26,星期五 # 1.词库表示法 In [9]: # sklearn 的 CountVectorizer类能够把文档词块化(tokenize),代码如下 from sklearn.feature_extraction.text import CountVectorizer corpus=['UNC played Duke in basketball','Duke lost the basketball game','I ate…