前言

最近迷上了看黄片（大雾）。每次总是去搜索想看的片子，什么asian porn anal pussy 什么的我都不知道。

搜索着搜索着我手也累了，而且我喜欢的片子也是有一定的特征的，我不想把所有的时间花费在重复劳动上，于是决定让机器帮我……找出喜欢的片子。

（所有代码都在Github上了，文中不放出全部代码了，实在太冗长了）

代码在此：https://github.com/TsingJyujing/xhamster_analysis

我连表结构（CREATE TABLE的SQL语句）都放上去了啊同志们！！！所以我打这么厚的马赛克你么你也得原谅我啊！！！！

主要的代码是这个：

https://github.com/TsingJyujing/xhamster_analysis/blob/master/PornDataAnalysis.ipynb

PS：最近准备找新东家，有没有公司愿意养我这个喜欢喝咖啡的老不正经，我保证用从硬到软的强大的原型开发能力给你一个HUG。

原始数据的采集

首先是原始数据的收集，我随机收集了大约30万部片子，包括标签，下载链接，标题，时长，好评率等等。

使用的代码是这个：https://github.com/TsingJyujing/DataSpider

自己写的一个数据获取的API，xhamster也是好脾气，我爬取的过程中并没有遭到限速或者封IP之类的问题。关于爬虫的编写，在这里不是重点，可以回去自己补设计模式和并发的课。

数据的预处理

首先最重要的是我为300~400部电影打了分，打分的方式是建立一个django网站，随机抽取一些片子，显示其预览图并且给我打分的选项，源代码也已经公开了。说实话，打分完成以后看太阳都是绿色的……

评分依据当然是根据个人的喜好，比如我对平刘海有着深刻的好感，没有平刘海简直就不是女生（逃

为了让机器知道我喜欢那些电影，以后自动帮我下载（误

我需要让机器学习一下我的癖好，就根据网站上的标签（我简称之为Tag，其实是Categories，否则打字太痛苦了）

Logistic Regression进行影片分类

原理不明的可以看这两篇：

https://zhuanlan.zhihu.com/p/20511129

https://zhuanlan.zhihu.com/p/20545718

下面是用Logistic Regression对性癖进行学习，使用了sklearn中的LogisticRegressionCV（带交叉验证的Logistic回归）我特地没有考虑时间因子，因为实际验证的时候，因为有些片子的时间有错误，有的长达十几个小时，导致推荐的都是这些乱七八糟的影片。

短时间的视频大多数都是渣渣，但是长时间的也未必好看，我不如去掉这个因子让它不再干扰我。虽然使用时间能达到更高的精度，但是却和“学习性癖”这个主题背道而驰了，最终的效果也并不理想。

import sklearn.linear_model
regr = sklearn.linear_model.LogisticRegressionCV(
    Cs=60, fit_intercept=True, cv=4, dual=False,
    penalty='l2', scoring=None, solver='lbfgs', tol=0.0001,
    max_iter=1000, class_weight=None, n_jobs=1, verbose=1)
regr.fit(Xt_train, y_train>-0.5)

y_train_predict = regr.predict(Xt_train)
y_test_predict = regr.predict(Xt_test)
y_train_real = np.reshape(y_train>-0.5,y_train_predict.shape)
y_test_real = np.reshape(y_test>-0.5,y_test_predict.shape)

# 输出报告
from sklearn import metrics
print('------------ACCURACY-------------')
print "Train accuracy: %f%%" % (sum(y_train_predict==y_train_real)*100.0/len(y_train_real))
print "Test accuracy: %f%%" % (sum(y_test_predict==y_test_real)*100.0/len(y_test_real))

输出：

------------ACCURACY-------------
Train accuracy: 68.211921%
Test accuracy: 70.886076%

还可以，说实话，数据噪声比较大，能做到这样我已经比较欣慰了。回头用CNN带图像的时候争取做到95%+

线性的Logistic回归有很好的可解释性，让我们来看一下究竟是哪些标签让我着迷呢？

我们输出对正负分别贡献最大的N个标签：

index = np.argsort(regr.coef_[0])
tag_sorted = []
for i in index:
    tag_sorted.append(tag_list[i])

# 显示对分类有正贡献的词汇和负贡献的词汇
N = 20
print "Positive top N words:",",".join(tag_sorted[-N:])
print "Negative top N words:",",".join(tag_sorted[:N])

输出：

Positive top N words: Fucking,Porno Vrai,Blowjobs,German,Shaved,French,Young Masturbating,Masturbating,Chubby,Sexy Latina,Fisting and Squirting,Teens,Gangbang,Pussy Fucking,Muscular Women,Double Penetration,Hardcore,Creampie,Japanese,Anal

Negative top N words: Amateur,Close-ups,Throat Fuck,Big Dick,Bisexuals,Sexy Horny,Flashing,Outdoor,Hidden Cams,Public Nudity,Redheads,Wife,Sofia Gucci,Anal Fuck,Granny,Cock Suckers,Student,Oral,Mexican,Private

（好吧我觉得我暴露了）

Logistic模型实战用于影片推荐

虽然后来又试了SVR或者Lasso等回归方法来推荐，但是最后还是选择了Logistic回归为我的影片进行打分。

下面是用训练好的Logistic模型为我爬虫爬到的所有电影打分，并且我使用了一个django网站来显示这些影片的预览，来看看和我的喜好是否相符合。

我可以对推荐的视频进行打分，打分多了以后可以重新学习，提高系统精度。

我们来看一下机器给我的30W个视频打分的分布：（0最低，1最高）

我们可以看到，高于0.5分（分类界）的视频少之又少，说明这个网站整体质量欠佳（至少对我而言），但是不乏也有一些金矿可以开发。

附录：评分的分布

可以看到我打分是偏低的，并不是说我是一个严格的评分者，而是网站并不很对我胃口。

最后我以-0.5为分界线作为正样本和负样本的标签依据。

附录：播放时间的统计分析

数据下载到本地的数据库以后（本文使用的是PostgreSQL数据库）随后我对这30万个数据进行了初步的分析：

首先查看播放时间的分布：

[F,x,p]=hist(Tall,bins=35)
xlabel('Time(s)')
ylabel('Frequency')

我们发现聚集在0附近的比较多，而且播放时间都是大于0的（这算常识了）我们再统计一下log(T)的分布：

[F,x,p]=hist(np.log10(Tall),bins=50,normed=True,histtype='stepfilled',alpha=0.35)
xlabel('log_10(Time(s))')
ylabel('Frequency')

可以看到现在的分布比较好看了，也具有更“好”的性质了（其实就是长的像正态，至于是不是正态应该qqplot一下）

import pylab
import scipy.stats as stats
stats.probplot(np.log10(Tall).reshape((len(Tall),)), dist="norm", plot=pylab)
pylab.show()

可以看到，还是基本符合正态分布的。但是最后的分析并没有用到时间，原因有说明。

附录：彩蛋一枚，请唱出来

Logistic, 带带我，我要上火车啊

Logistic, 带带我，我要看小片啊

Logistic不是那种“人”，那种事情不可能

阿哩哩，阿哩哩，阿哩阿哩哩

Logistic, 带带我，并行性能高啊

Logistic, 带带我，鲁棒性能好啊

管你分类不分类，噪声太大先清洗

阿哩哩，阿哩哩，阿哩阿哩哩

Logistic, 带带我，我的数据多啊

Logistic, 带带我，可解释性好啊

梯度上升要并发，送入模型快训练

阿哩哩，阿哩哩，阿哩阿哩哩

很污的机器学习：从xhamster网站找到喜欢的片子的更多相关文章

如何从ST网站找到对应的固件库
ST官方网站改版后,基本上很难搜索到固件库的地址,找了半天才找到固件库的下载地址,通过此方法可以找到其他需要的资源,故记下来方便大家. 下载的网站地址为: Home>Tools and Soft ...
STM32 ~ 如何从ST网站找到对应的固件库
ST官方网站改版后,基本上很难搜索到固件库的地址,找了半天才找到固件库的下载地址,通过此方法可以找到其他需要的资源,故记下来方便大家. 下载的网站地址为: Home>Tools and Soft ...
iOS之学习资源收集--很好的IOS技术学习网站
点击图片也能打开相关的网站: https://boxueio.com/skill/swift http://ios.b2mp.cn/ http://gold.xitu.io/welcome/?utm_ ...
检测SSL证书很好用的三个网站
https://cryptoreport.websecurity.symantec.com/checker/views/certCheck.jsp https://cipherli.st/ https ...
大型网站都喜欢把js写在html中的真正原因
相信经常观察大站的朋友都会发现,他们都把CSS写在HTML页面里,一个页面的或者多个页面的背景图片,都集成到一张图片里,他们有的JS文件,也写到页面里了……也许你会迷惑,现在到处讲页面的优化,不都是要 ...
RS chap1:好的推荐系统
一.什么是推荐系统 1.个性化推荐系统:从庞大的电影库中找几部符合你兴趣的电影供你选择. 2.推荐系统是帮助用户快速发现有用信息的工具.和搜索引擎不同的是,推荐系统不需要用户提供明确的需求,而是通过分 ...
00-01.PHP 网站假设win7配置自己的IIS服务器亲自做的图文很详细 [转 - 赞 ]
win7配置自己的IIS服务器亲自做的图文很详细分步阅读跟人网站爱好初学者必看的win7系统配置自己的IIS,可以在你自己的电脑上配置网站服务器发不到网上,下面就跟着我的步骤一起做吧100%成功. ...
【机器学习Machine Learning】资料大全
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...
【转】自学成才秘籍！机器学习&深度学习经典资料汇总
小编都深深的震惊了,到底是谁那么好整理了那么多干货性的书籍.小编对此人表示崇高的敬意,小编不是文章的生产者,只是文章的搬运工. <Brief History of Machine Learn ...

随机推荐

php之有点复杂的流程管理
1.流程管理的用法是什么样的? 2.怎么发起想要的流程? 3.审批的人要是怎么审批通过? 4.流程审核是不是要挨个走过? 一.还是要有数据库的内容的肯定会有表的,首先就是用户表了,然后就是流程表,用 ...
HDU2602(背包)
Bone Collector Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)To ...
利用享元模式来解决DOM元素过多导致的网页解析慢、卡死的问题
我也不知道应该为本文的思路取一个什么比较恰当的标题,但是感觉符合享元模式的思路. 在一些网页应用中,有时会碰到一个超级巨大的列表,成千上万行,这时大部份浏览器解析起来就非常痛苦了(有可能直接卡死). ...
ESRI ArcGIS 产品线资源网站大集合
友情提示:国外网站国内访问速度较慢,可以配合VPN等进行加速访问. 首先给出官方网站,以下所有链接均可在官方找到. http://www.esri.com 紧接着是产品线: http://www.es ...
Java性能优化_转载
一.避免在循环条件中使用复杂表达式 1.在不做编译优化的情况下,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快. 2.不可使用多层循嵌套. 二.集合大 ...
深入浅出ThreadLocal
前言 ThreadLocal为变量在每个线程中都创建了一个副本,所以每个线程可以访问自己内部的副本变量,不同线程之间不会互相干扰.本文会基于实际场景介绍ThreadLocal如何使用以及内部实现机制. ...
uml的图与代码的转换——类图
Uml是我们经常使用的统一建模语言或称标准建模语言.它的图是如何和代码对应的呢?下面我们就来就这个问题讨论一下: 首先是类:uml中的类图是这样的在这个图中,我们可以看出,这个类图总共分了三行,第一 ...
iOS动画案例(2) 仿网易新闻标题动画
由于产品的需要,做了一个和网易新闻标题类似的动画效果,现在新闻类的APP都是采用这样的动画效果,来显示更多的内容.先看一下动画效果: 由于这个动画效果在很多场合都有应用,所以我专门封装了一个控 ...
SUI Mobile
<header class="bar bar-nav"> <h1 class='title'>只有图标的表单</h1> </header& ...
BZOJ 2456: mode（乱搞）
挺神奇的一道题，被1M内存坑了好久= =，这道题得记录当前众数以及众数与其他数的差，如果现在读入的这个数与众数相等，就加1，否则减一，如果差为0就替代掉他，可以证明如果众数存在的话这样一定能找出来 C ...

很污的机器学习：从xhamster网站找到喜欢的片子