用Python来找合适的妹子
时间真的有点仓促,匆匆忙忙撸完这篇文章.
虽然今天是情人节,但还是要关心一下单身狗们,帮助他们俩脱单。
古人云:知己知彼,百战不殆. 好好去了解一下妹子们的内心想法,早日脱单!
这次我在一个某知名婚恋网站,抓取了一些数据,对她们的内心读白进行分析.
我这次筛选条件:女性,年龄20-30,学历本科,就这些条件.
3000条妹子内心读白词云如下:
放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?
完整代码
# coding=utf-8
from selenium import webdriver
import time
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
"""
PEP8 Python编程规范
https://www.douban.com/note/134971609/
"""
# 获取浏览器驱动
driver = webdriver.Firefox()
driver.maximize_window()
webUrl = 'http://www.lovewzly.com/jiaoyou.html'
driver.get(webUrl)
# 等15秒,我来手动做一下筛选条件。,女性,21-30左右,学历本科,\
# 本来想通过js代码,来自动执行,但无奈对js真的不熟,也没有太多时间去整了,凑合看看.
time.sleep(15)
"""
下拉滚动条,从1开始到3结束 分2次加载完每页数据
"""
while True:
for i in range(1, 20):
height = 1000 * i # 每次滑动20000像素
strword = "window.scrollBy(0," + str(height) + ")"
driver.execute_script(strword)
time.sleep(3)
s = etree.HTML(driver.page_source)
selectors = s.xpath('//*[@id="hibox"]/table/tbody/tr/td/div')
with open('内心读白.txt', 'a') as f:
for selector in selectors:
img = selector.xpath('./div[1]/img/@src')
nick = selector.xpath('./div[2]/p[1]/span/text()')
age = selector.xpath('./div[2]/p[2]/span[1]/text()')
height = selector.xpath('./div[2]/p[2]/span[2]/text()')
address = selector.xpath('./div[2]/p[2]/span[3]/text()')
heart = selector.xpath('./div[2]/p[3]/text()')
img = img[0] if len(img) > 0 else ''
nick = nick[0] if len(nick) > 0 else ''
age = age[0] if len(age) > 0 else ''
height = height[0] if len(height) > 0 else ''
address = address[0] if len(address) > 0 else ''
heart = heart[0] if len(heart) > 0 else ''
print nick, age, height, address, heart, img
f.write(heart)
生成词云的代码之前的文章里面有,这里就不展示了,自行前往查阅!
时间确实太仓促了,我想做一个更好一点,但时间不够了
下一步准备:
- 我们可以输入自己的需求,然后进行筛选.
- 把妹子照片,身高,籍贯,收入,学历,摘偶要求,都一起配上,并配上她们的链接,让单身狗们有目标的找妹子!哈哈
- http://www.aibbt.com/a/18059.html
用Python来找合适的妹子的更多相关文章
- python——快速找出两个电子表中数据的差异
最近刚接触python,找点小任务来练练手,希望自己在实践中不断的锻炼自己解决问题的能力. 公司里会有这样的场景:有一张电子表格的内容由两三个部门或者更多的部门用到,这些员工会在维护这些表格中不定期的 ...
- vs code开发python时找不到当前目录下的文件、UnicodeDecodeError: 'gbk'
一.vs code开发python时找不到当前目录下的文件, file = open("readme.txt")一直报错,找不到目录下面的文件 原来vscode 默认都是以打开的项 ...
- Python爬虫入门教程 2-100 妹子图网站爬取
妹子图网站爬取---前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们 ...
- 一个简单的python爬虫,以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到.(不知道为什么???) 目标是抓取前50页的爆乳图,代码如下: import urllib2,url ...
- Python协程爬取妹子图(内有福利,你懂得~)
项目说明: 1.项目介绍 本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
- 算法面试题(python)——如何找出数组中出现一次的数
题目描述: 一个数组里,除了三个数是唯一出现的,其余的数都出现了偶数次,找出这三个数中任意一个.比如数组序列为[1,2,4,5,6,4,2],只有1.5.6这三个数字是唯一出现的,数字2.4均出现了偶 ...
- HDU 2059 龟兔赛跑(超级经典的线性DP,找合适的j,使得每个i的状态都是最好的)
龟兔赛跑 Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit Status ...
- python路径找类并获取静态字段
Python通过路径找类并获取其中大写的静态字段 settings.py class Foo: DEBUG = True TEST = True xx.py import importlib path ...
- 用 Python 爬取网易严选妹子内衣信息,探究妹纸们的偏好
网易商品评论爬取 分析网页 评论分析 进入到网易精选官网,搜索“文胸”后,先随便点进一个商品. 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页Python入门到精通学 ...
随机推荐
- ECMAScript 6 笔记(一)
一.ECMAScript 6简介 1996年11月,JavaScript的创造者Netscape公司,决定将JavaScript提交给国际标准化组织ECMA,希望这种语言能够成为国际标准.次年,ECM ...
- 📉 Draggable Curve Control (English)
Conmajia 2012 Updated on Feb. 18, 2018 In Photoshop, there is a very powerful feature called Curve A ...
- git使用步骤_2017
(部署项目) zbot deploy developer git对文件chmod 777后导致status发生变化,使用: git config core.fileMode false [当 ...
- Python:main函数
什么是函数? 一个程序可以包含多个模块,程序越复杂,包含的模块和功能就越多,模块细分里面包含多个类,类这个概念在任何一门面向对象语言里面都很重要,在类里面最主要的就是包含的函数,函数式实现某一个功能的 ...
- 插入排序实现&&选择排序实现
萌新刚刚开始学习算法,第一步是学习排序,毕竟算法的四大块"排序,查找,图,字符串"里面,排序是第一位的(PS:今天才知道算法提供的只是一个程序编写思路,一直以为是一个函数,难怪传入 ...
- Java经典编程题50道之四十四
求0~7所能组成的奇数个数.分析:组成1位数是4个,组成2位数是7*4个,组成3位数是7*8*4个,组成4位数是7*8*8*4个…… public class Example44 { publi ...
- C/C++语言的语法基础
数据类型指明变量或表达式的状态和行为,数据类型决定了数的取值范围和允许执行的运算符集.c++语言数据类型可以分为两大类:基本类型和引用类型.基本类型是指不能再分解的数据类型,其数据在函数的调用中是以传 ...
- HBuilder常用快捷键
切换tab: Ctrl+Tab全部保存: Ctrl+Shift+S 激活代码助手: Alt+/显示方法参数提示: Alt+Shift+?转到定义: Ctrl+Alt+D 开启关闭注释整行: Ctrl+ ...
- Windows Server 2016-图形化备份域控制器
上边几章节我们补充了有关Windows Server 2016系统层面的相关内容,本章切回Active Directory正题,继续围绕AD域相关内容进行不断梳理补充.Windows Server B ...
- java-redis初探
一.Redis 简介 Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库. Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的 ...