第六篇 - bs4爬取校花网

环境：python3 pycharm

模块：requests bs4 urlretrieve os time

第一步：获取网页源代码

import requests

from bs4 import BeautifulSoup

from urllib.request import urlretrieve

import os

import time

def get_html(url):

    try:

        response = requests.get(url)

        response.encoding = 'gbk'

        return response.text

    except Exception as e:

        print(e)

if __name__ == '__main__':

    url = 'http://www.521609.com/meinvxiaohua/'

    get_html(url)

第二步：下载美女图片

def down_show(html,page):

    try:

        soup = BeautifulSoup(html,'lxml')

        all_img = soup.find("div",class_="index_img list_center").find_all('img')

        num = 1

        for img in all_img:

            src = img.get('src')

            url_pic = 'http://www.521609.com' + src

            if os.path.exists('show'):

                pass

            else:

                os.mkdir('show')

            urlretrieve(url_pic,'./show/'+'第%s页-%s.jpg'%(page,num))

            num += 1

    except Exception as e:

        print(e)

第三步：可选打印多少页，代码所示下载5页

def get_pages(page):

    for i in range(121,page+121):

        url = 'http://www.521609.com/meinvxiaohua/list%d.html' % i

        html = get_html(url)

        down_show(html,i-120)

        time.sleep(1)

    print("图片下载完毕")

if __name__ == '__main__':

    get_pages(5)

也可以采用多线程

import requests

from bs4 import BeautifulSoup

import threading

import time

import os

headers = {

    'Referer': 'http://www.521609.com/meinvxiaohua/',

    'User-Agent': '',

}

def get_html(url):

    try:

        response = requests.get(url=url,headers=headers)

        response.encoding = "gb2312"

        return response.text      #文本，字符串

    except Exception as e:

        print(e)

def mk_dir():

    os.makedirs('./show/',exist_ok=True)

def down_image(html,page):

    try:

        soup = BeautifulSoup(html,'lxml')#可以解析html,xml

        all_img = soup.find('div',class_='index_img list_center').find_all('img')

        num = 1

        for img in all_img:

            src = img.get('src')#后半部分的地址

            url = 'http://www.521609.com' + src

            content = requests.get(url=url,headers=headers).content#字节流

            with open('./show/第%s页-%s.jpg' % (page,num),'wb') as file:

                file.write(content)

            num += 1

            time.sleep(1)

    except Exception as e:

        print(e)

        pass

def get_pages(page):

    for i in range(121,121+page):

        url = "http://www.521609.com/meinvxiaohua/list%s.html" % i

        html = get_html(url)

        if not os.path.exists('show'):

            mk_dir()

        down_image(html,page)

        time.sleep(1)

        print('美女图片前%s页下载完毕' % str(i-120))

    # if not os.path.exists('show'):

    #     mk_dir()

    # thread = []

    # for i in range(121,121+page):

    #     url = "http://www.521609.com/meinvxiaohua/list%s.html" % i

    #     html = get_html(url)

    #     t = threading.Thread(target=down_image,args=(html,str(i-120)))

    #     thread.append(t)

    # for i in thread:

    #     i.start()

    # for j in thread:

    #     j.join()

def main():

    start_time = time.time()

    get_pages(3)

    stop_time = time.time()

    load_time = stop_time - start_time

    print(load_time)#48.115086793899536

if __name__ == '__main__':

    main()

第六篇 - bs4爬取校花网的更多相关文章

python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Go语言实战-爬取校花网图片
一.目标网站分析爬取校花网http://www.xiaohuar.com/大学校花所有图片. 经过分析,所有图片分为四个页面,http://www.xiaohuar.com/list-1-0.htm ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
scrapy爬取校花网男神图片保存到本地
爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点 1.创建项目 scrapy startproject xiaohuawang scrapy.cfg: 项目的配置文件xiaohua ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
Python-爬取校花网视频(单线程和多线程版本)
一.参考文章 python爬虫爬取校花网视频,单线程爬取爬虫----爬取校花网视频,包含多线程版本上述两篇文章都是对校花网视频的爬取,由于时间相隔很久了,校花网上的一些视频已经不存在了,因此上述文 ...
<scrapy爬虫>爬取校花信息及图片
1.创建scrapy项目 dos窗口输入: scrapy startproject xiaohuar cd xiaohuar 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) # ...
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item. 每个Item Pipeline ...
爬虫（猫眼电影+校花网+github+今日头条+拉钩）
Requests+正则表达式爬取猫眼TOP100榜电影信息 MARK:将信息写入文件解决乱码方法,开启进程池秒爬. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...

随机推荐

ASP.NET4.0所有网页指令
ASP.NET网页指令(Page Directive)就是在网页开头的标签声明: <% Page Language="C#" %> 而指令的作用在于指定网页和用户控件编 ...
Python——管道通信
管道:双向通信 2个进程之间相互通信 from multiprocessing import Pipe,Process def func(conn1,conn2): conn2.close() whi ...
遍历map中的内容
Map<String, CartItem> cartItems = cart.getCartItems();for(Map.Entry<String, CartItem> en ...
hdu-1251（字典树）
字典树模板题. ps:数组要开大,40w左右才行,不然疯狂re 代码: #include<iostream> #include<algorithm> #include<c ...
Let's Encrypt免费泛域名证书申请
一. 下载acme.sh,以下四条命令任选一条即可 curl https://get.acme.sh | shwget -O - https://get.acme.sh | sh curl https ...
第二十天模块 sys os os下path settings random shuit
一.sys模块 1.sys.argv 命令行参数List,第一个元素是程序本身路径 2.sys.exit(n) 退出程序,正常退出时exit(0) 3.sys.version 获取Pythonn解释程 ...
L - Vases and Flowers HDU - 4614 线段树+二分
题意给出一排空花瓶有两种操作 1是从A花瓶开始放F朵花如果当前瓶有花就跳过前往下一个直到花用完或者瓶子到了最后一个为止输出成功放花的第一个和最后一个如果没有输出 can not. ...
序列化模块组 pickle，json , xml , shelve , configparser
序列化是什么? 序列化指的是将内存中的数据结构转化为一种中间格式并存储到硬盘上. 反序列化是什么? 将硬盘上存储的中间格式数据再还原为内存中的数据结构. 为什么要有序列化? 是为了将数据持久存储较 ...
Game HDU - 3657(最小割)
Game Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submis ...
ubuntu配置mysql
1.安装mysql: sudo apt-get install mysql-server sudo apt-get install mysql-client sudo apt-get install ...

第六篇 - bs4爬取校花网

第六篇 - bs4爬取校花网的更多相关文章

随机推荐

热门专题