5000+图片找到你喜欢的那个TA，Python爬虫+颜值打分

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：罗罗攀

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

一见钟情钟的不是情，是脸

日久生情生的不是脸，是情

项目简介

本项目利用Python爬虫和百度人脸识别API，针对简书交友专栏，爬取用户照片（侵删），并进行打分。本项目包括以下内容：

图片爬虫
人脸识别API使用
颜值打分并进行文件归类

图片爬虫

现在各大交友网站都会有一些用户会爆照，本文爬取简书交友专栏的所有帖子，并进入详细页，获取所有图片并下载到本地。

代码

import requests

from lxml import etree

import time



headers = {

 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}



def get_url(url):

 res = requests.get(url,headers=headers)

 html = etree.HTML(res.text)

 infos = html.xpath('//ul[@class="note-list"]/li')

 for info in infos:

 root = 'https://www.jianshu.com'

def get_img(url):

 res = requests.get(url, headers=headers)

 html = etree.HTML(res.text)

 title = html.xpath('//div[@class="article"]/h1/text()')[0].strip('|').split('，')[0]

 name = html.xpath('//div[@class="author"]/div/span/a/text()')[0].strip('|')

 infos = html.xpath('//div[@class = "image-package"]')

 i = 1

 for info in infos:

 try:

 img_url = info.xpath('div[1]/div[2]/img/@data-original-src')[0]

 print(img_url)

 data = requests.get('http:' + img_url,headers=headers)

 try:

 fp = open('row_img/' + title + '+' + name + '+' + str(i) + '.jpg','wb')

 fp.write(data.content)

 fp.close()

 except OSError:

 fp = open('row_img/' + name + '+' + str(i) + '.jpg', 'wb')

 fp.write(data.content)

 fp.close()

 except IndexError:

 pass

 i = i + 1



if __name__ == '__main__':

 urls = ['https://www.jianshu.com/c/bd38bd199ec6?order_by=added_at&page={}'.format(str(i)) for i in range(1,201)]

 for url in urls:

 get_url(url)

人脸识别API使用

由于爬取了帖子下面的所有图片，里面有各种图片（不包括人脸），而且是为了找到高颜值小姐姐，如果人工筛选费事费力，这里调用百度的人脸识别API，进行图片过滤和颜值打分。

人脸识别应用申请

首先，进入百度人脸识别官网，点击立即使用，登陆百度账号（没有就注册一个）。

创建应用，完成后，点击管理应用，就能看到AppID等，这些在调用API时需要使用的。

API调用

这里使用杨超越的图片先试下水。通过结果，可以看到75分，还算比较高了（自己用了一些网红和明星测试了下，分数平均在80左右，最高也没有90以上的）。

from aip import AipFace

import base64

APP_ID = ''

API_KEY = ''

SECRET_KEY = ''

aipFace = AipFace(APP_ID, API_KEY, SECRET_KEY)

filePath = r'C:\Users\LP\Desktop\6.jpg'

def get_file_content(filePath):

 with open(filePath, 'rb') as fp:

 content = base64.b64encode(fp.read())

 return content.decode('utf-8')

imageType = "BASE64"

options = {}

options["face_field"] = "age,gender,beauty"

result = aipFace.detect(get_file_content(filePath),imageType,options)

print(result)

颜值打分并进行文件归类

最后结合图片数据和颜值打分，设计代码，过滤掉非人物以及男性图片，获取小姐姐图片的分数（这里处理为1-10分），并分别存在不同的文件夹中。

from aip import AipFace

import base64

import os

import time

APP_ID = ''

API_KEY = ''

SECRET_KEY = ''

aipFace = AipFace(APP_ID, API_KEY, SECRET_KEY)

def get_file_content(filePath):

 with open(filePath, 'rb') as fp:

 content = base64.b64encode(fp.read())

 return content.decode('utf-8')

imageType = "BASE64"

options = {}

options["face_field"] = "age,gender,beauty"

file_path = 'row_img'

file_lists = os.listdir(file_path)

for file_list in file_lists:

 result = aipFace.detect(get_file_content(os.path.join(file_path,file_list)),imageType,options)

 error_code = result['error_code']

 if error_code == 222202:

 continue

 try:

 sex_type = result['result']['face_list'][-1]['gender']['type']

 if sex_type == 'male':

 continue

 # print(result)

 beauty = result['result']['face_list'][-1]['beauty']

 new_beauty = round(beauty/10,1)

 print(file_list,new_beauty)

 if new_beauty >= 8:

 os.rename(os.path.join(file_path,file_list),os.path.join('8分',str(new_beauty) + '+' + file_list))

 elif new_beauty >= 7:

 os.rename(os.path.join(file_path,file_list),os.path.join('7分',str(new_beauty) + '+' + file_list))

 elif new_beauty >= 6:

 os.rename(os.path.join(file_path,file_list),os.path.join('6分',str(new_beauty) + '+' + file_list))

 elif new_beauty >= 5:

 os.rename(os.path.join(file_path,file_list),os.path.join('5分',str(new_beauty) + '+' + file_list))

 else:

 os.rename(os.path.join(file_path,file_list),os.path.join('其他分',str(new_beauty) + '+' + file_list))

 time.sleep(1)

 except KeyError:

 pass

 except TypeError:

 pass

最后结果8分以上的小姐姐很少，如图（侵删）。

讨论

简书交友小姐姐数量较少，读者可以去试试微博网红或知乎美女。
虽然这是一个看脸的时代，但喜欢一个人，始于颜值，陷于才华，忠于人品（最后正能量一波，免得被封）。

5000+图片找到你喜欢的那个TA，Python爬虫+颜值打分的更多相关文章

Python爬虫+颜值打分，5000+图片找到你的Mrs. Right
一见钟情钟的不是情,是脸日久生情生的不是脸,是情项目简介本项目利用Python爬虫和百度人脸识别API,针对简书交友专栏,爬取用户照片(侵删),并进行打分. 本项目包括以下内容: 图片爬 ...
小白如何入门 Python 爬虫？
本文针对初学者,我会用最简单的案例告诉你如何入门python爬虫! 想要入门Python 爬虫首先需要解决四个问题熟悉python编程了解HTML 了解网络爬虫的基本原理学习使用python爬虫 ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
python爬虫——《英雄联盟》英雄及皮肤图片
还记得那些年一起网吧开黑通宵的日子吗?<英雄联盟>绝对是大学时期的风靡游戏,即使毕业多年的大学同学相聚,难免不怀念一番当时一起玩<英雄联盟>的日子. 今天就给大家分享一下英雄及 ...
字符型图片验证码识别完整过程及Python实现
字符型图片验证码识别完整过程及Python实现 1 摘要验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的防火墙功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...

随机推荐

vue基础指令学习
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
cin.getline()的用法和坑
cin.getline()的用法和坑 cin.getline大致原型:**istream& getline (char* s, streamsize n, char delim='\n');* ...
重磅！！！一文总结Pytorch的8张思维导图！
本文以思维导图的形式,为大家介绍了深度学习的核心内容,主要包括:深度学习与Pytorch简介.词向量.用pytorch处理常见的NLP和CV任务.图片风格迁移和GAN.Seq2Seq与Attentio ...
+load 和 +initialize
APP 启动到执行 main 函数之前,程序就执行了很多代码. 执行顺序: 将程序依赖的动态链接库加载到内存加载可执行文件中的所有符号,代码 runtime 解析被编译的符号代码遍历所有的 cla ...
B 基因改造
时间限制 : - MS 空间限制 : - KB 问题描述 "人类智慧的冰峰,只有萌萌哒的我寂寞地守望."--TBTB正走在改造人类智慧基因的路上.TB发现人类智慧基因一点也不 ...
override 重写
//override:子类继承父类,子类重写父类的方法 public class override { public static void main(String[] args) { horse h ...
STM32F103C8T6最小系统开发板原理图
1.
ClickHouse学习系列之三【配置文件说明】
背景最近花了些时间看了下ClickHouse文档,发现它在OLAP方面表现很优异,而且相对也比较轻量和简单,所以准备入门了解下该数据库系统.在介绍了安装和用户权限管理之后,本文对其配置文件做下相关的 ...
1035 Password (20分)(水)
To prepare for PAT, the judge sometimes has to generate random passwords for the users. The problem ...
转载：Docker源码分析（一）：Docker架构
原文地址: http://www.infoq.com/cn/articles/docker-source-code-analysis-part1 作者:孙宏亮 1 背景 1.1 Docker简介 D ...

5000+图片找到你喜欢的那个TA，Python爬虫+颜值打分

5000+图片找到你喜欢的那个TA，Python爬虫+颜值打分的更多相关文章

随机推荐

热门专题