爬虫下载校花网美女信息-lxml

# coding=utf-8

# !/usr/bin/env python

'''

    author: dangxusheng

    desc  :  下载校花网上的个人信息：名字-学校-图片地址-点赞数

    date  : 2018-08-29

'''

# 导入模块

import requests

from lxml import etree

import json

#准备全局变量

home_url = "http://www.xiaohuar.com/"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

    "Referer": home_url

}

# 定义单页解析方法

def one_page_info(page_index=0):

    url = home_url + "list-1-" + str(page_index) + ".html"

    r = requests.get(url, headers=headers)

    html = r.content.decode('gbk')

    # print(html)

    # exit(1)

    html = etree.HTML(html)

    div_list = html.xpath('//div[@class="item masonry_brick"]')

    info_list = []

    for div in div_list:

        name = div.xpath('.//span[@class="price"]/text()')[0]

        name = name if name != None else '暂无名字'

        school = div.xpath('.//a[@class="img_album_btn"]/text()')[0]

        school = school if school != None else '暂无学校'

        img_url = div.xpath('./div[1]/div[1]/a[1]/img[1]/@src')[0]

        img_url = img_url if img_url != None else '暂无图片'

        # 有些url需要补全：/d/file/20180907/075025972927c8e7541b09e272afe5cc.jpg

        if str(img_url).find('http') == -1:

            img_url = home_url[0:-1] + img_url

        else:

            pass

        dianz = div.xpath('.//em[1]/text()')

        dianz = dianz if dianz != None else ''

        info_list.append({'name': name, 'school': school, 'img_url': img_url, 'dianzan': dianz})

    return info_list

    # print(info_list)

# 遍历列表并按照URL下载保存到文件

def donwload_jpg_2_file(info_list):

    for info in info_list:

        url = info['img_url']

        r = requests.get(url, headers=headers, stream=True)

        with open('./xiaohua/%s.jpg' % info['name'], 'wb') as file:

            # 分字节下载

            for i in r.iter_content(1024):

                file.write(i)

        print('%s 下载成功' % info['name'])

# 入口函数

if __name__ == '__main__':

    for i in range(50):

        ls = one_page_info(i)

        donwload_jpg_2_file(ls)

爬虫下载校花网美女信息-lxml的更多相关文章

Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
Python 爬虫校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得.... 1.第一步,需要下 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*- import re import requests # 拿到校花网主页的内容 re ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
day1之校花网小试牛刀
一利用生成器来完成爬去校花网视频 import requests import re import os import hashlib import time DOWLOAD_PATH=r'D:\D ...

随机推荐

sublime 配置过程
https://www.cnblogs.com/chengqi521/p/7600379.html
配置php5.6.4 + Apache2.4.10
一.下载并安装apache 下载地址:www.apachelounge.com 解压后:执行以下命令: #httpd.exe –k install #httpd.exe -k start 在执行过程中 ...
Linux文件系统的目录结构详解
Linux文件系统的目录结构详解一.前言文章对Linux下所有目录一一说明,对比较重要的目录加以重点解说,以帮助初学者熟练掌握Linux的目录结构. 二.目录 1.什么是文件系统 2.文件 ...
[原创]基于Zynq Linux环境搭建(二)
在此篇,我们编译UBOOT 解压: [#17#17:26:56 FPGADeveloper@ubuntu ~/Zybo_Demo]$tar zxvf *.tar.gz 在解压过程中出现下述问题 tar ...
Python学习（三十三）—— Django之ORM
Object Relational Mapping(ORM) 一.ORM介绍 ORM概念对象关系映射(Object Relational Mapping,简称ORM)模式是一种为了解决面向对象与关系 ...
Vue H5 项目模板
使用了 mint-ui sass vue fastclick vue router 一个项目的初始化状态,一个新项目,陆陆续续花了2天时间搭起来的. 里面有mint-ui的基本用法 tabbar 还有 ...
用户管理和su，id 命令
useradd userdel usermod groupadd groupdel 用户管理为什么需要有用户? 1. linux是一个多用户系统 2. 权限管理(权限最小化) 用户:存在的目录是为了 ...
ubuntu中如何安装python3.6
此处使用命令行方式来安装Python3.6: sudo wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tar.xz sudo ta ...
jmeter下TPS插件的安装
1.下载插件http://pan.baidu.com/s/1mioVJni 2.解压下载的安装包: 将 jpgc-graphs-basic-2.0.zip 解压缩后只有一个 lib 目录,该目录下有一 ...
JS _函数作用域及变量提升
虽然看了多次js函数作用域及变量提升的理论知识,但也是一知半解~ 这几天做了几道js小题,对这部分进行了从新的理解,还是有所收获的~ 主要参考书籍: <你不知道的JavaScript(上卷)&g ...

爬虫下载校花网美女信息-lxml

爬虫下载校花网美女信息-lxml的更多相关文章

随机推荐

热门专题