爬虫下载校花网美女信息-lxml

# coding=utf-8

# !/usr/bin/env python

'''

    author: dangxusheng

    desc  :  下载校花网上的个人信息：名字-学校-图片地址-点赞数

    date  : 2018-08-29

'''

# 导入模块

import requests

from lxml import etree

import json

#准备全局变量

home_url = "http://www.xiaohuar.com/"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

    "Referer": home_url

}

# 定义单页解析方法

def one_page_info(page_index=0):

    url = home_url + "list-1-" + str(page_index) + ".html"

    r = requests.get(url, headers=headers)

    html = r.content.decode('gbk')

    # print(html)

    # exit(1)

    html = etree.HTML(html)

    div_list = html.xpath('//div[@class="item masonry_brick"]')

    info_list = []

    for div in div_list:

        name = div.xpath('.//span[@class="price"]/text()')[0]

        name = name if name != None else '暂无名字'

        school = div.xpath('.//a[@class="img_album_btn"]/text()')[0]

        school = school if school != None else '暂无学校'

        img_url = div.xpath('./div[1]/div[1]/a[1]/img[1]/@src')[0]

        img_url = img_url if img_url != None else '暂无图片'

        # 有些url需要补全：/d/file/20180907/075025972927c8e7541b09e272afe5cc.jpg

        if str(img_url).find('http') == -1:

            img_url = home_url[0:-1] + img_url

        else:

            pass

        dianz = div.xpath('.//em[1]/text()')

        dianz = dianz if dianz != None else ''

        info_list.append({'name': name, 'school': school, 'img_url': img_url, 'dianzan': dianz})

    return info_list

    # print(info_list)

# 遍历列表并按照URL下载保存到文件

def donwload_jpg_2_file(info_list):

    for info in info_list:

        url = info['img_url']

        r = requests.get(url, headers=headers, stream=True)

        with open('./xiaohua/%s.jpg' % info['name'], 'wb') as file:

            # 分字节下载

            for i in r.iter_content(1024):

                file.write(i)

        print('%s 下载成功' % info['name'])

# 入口函数

if __name__ == '__main__':

    for i in range(50):

        ls = one_page_info(i)

        donwload_jpg_2_file(ls)

爬虫下载校花网美女信息-lxml的更多相关文章

Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
day1之校花网小试牛刀
一利用生成器来完成爬去校花网视频 import requests import re import os import hashlib import time DOWLOAD_PATH=r'D:\D ...

随机推荐

postgresql9.1数据库加解密
--如下为postgresql9.1数据库加解密模块配置 --设置schemapsql -U postgres -h localhostset schema 'sbdc';--生成日志\o E:/sh ...
js的事件冒泡，事件捕获
addEventListener() 方法可以指定 "useCapture" 参数来设置传递事件类型:false→冒泡 true→捕获默认false. ...
HTML基础-标签
html标签元素 html标签在HTML静态页面中,每个网页具有唯一`<html></html>`,即`<html>`标签. html div标签即网页中的盒子 ...
【python3接口自动化基础】json总结
Json知识归纳: Post请求有两种方法传json参数传json参数(自动转json了)---json=dict 传data参数(需json转换) ---data=json.dumps(dic) ...
Postgresql查询出换行符和回车符:
1.有时候,业务因为回车和换行出现的错误,第一步,首先要查询出回车符和换行符那一条数据: -- 使用chr()和chr()进行查询 SELECT * )||)||'%'; -- 其实查询chr()和c ...
.net core 2.x - 日志 - to elasiticsearch
记录日志到elasticsearch(es),下面简写es,然后我们可以通过kibana可视化的观察日志信息以及统计分析等. 1.起源年中旬时候,公司有个需求是需要分析用户的地址,需要先分词处理然后 ...
SQL反模式学习笔记19 使用*号，隐式的列
目标:减少输入反模式:捷径会让你迷失方向使用通配符和未命名的列能够达到减少输入的目的,但是这个习惯会带来一些危害. 1.破坏代码重构:增加一列后,使用隐式的Insert插入语句报错: 2.查询中使 ...
centos没有可用软件包 libgtk2
在编写一个C程序,使用基于文本的终端图形编程库(curses)或图形界面(QT/GTK),分窗口显示三个并发进程的运行,因为centos并未安装gtk,所以运行命令行安装gtksudo yum -y ...
《C和指针》---指针
内存和地址计算机的内存由许多的位(bit)组成,每个位可以容纳值0或1. 由于一个位所能表示的范围太有限,所以通常许多位合成一组作为一个单元. 这些位置的每一个都被称为字节(byte),每个字节包含 ...
Scrapy 框架
1. 基本使用 1.1 定义及安装为了爬取网站数据,提取结构性数据而编写的应用框架 scrapy组件工作流程引擎首先会将爬虫文件中的起始url获取,并且提交到调度器中.如果需要从url中下载数据, ...

爬虫下载校花网美女信息-lxml

爬虫下载校花网美女信息-lxml的更多相关文章

随机推荐

热门专题