【python爬虫】爬取美女图片

一，导入包文件

os：用于文件操作。这里是为了创建保存图片的目录
re：正则表达式模块。代码中包含了数据处理，因此需要导入该模块
request：请求模块。通过该模块向对方服务器发送请求获取数据包
lxml：通过etree模块中的xpath方法来获取html标签中的属性值或者文本内容
headers：根据使用的浏览器不同，headers也不同。这里主要是做一层ua伪装。不然对方服务器很容易就看出我们的请求不是一个正常的请求而是一个爬虫。

import os

import re

import time

import requests

from lxml import etree

# 1.ua伪装

headers = {

    'Cookie': 'UM_distinctid=183de2bde63bdd-0a9891aebfde0c-26021f51-15f900-183de2bde64211; __gads=ID=12c03794dd79a744-22151ed314d7003e:T=1665879761:RT=1665879761:S=ALNI_MayIUbqx7Eoqn3Rfhw4y3sdBWO8Hw; __gpi=UID=00000b63230f485e:T=1665879761:RT=1665879761:S=ALNI_MY73_h2FkMuU64S-R9TpNud-Rao2Q; _d_id=1ac93cdb5a0e86565209190f7f0314; CNZZDATA1281132404=586521712-1665876889-https%253A%252F%252Fwww.baidu.com%252F%7C1665983833',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

}

二，程序入口和参数传值

main是程序的入口文件。代码的主要逻辑是因为我们发现，要访问的url网址，指定人物的第一页和第二页以后的地址不同。因此不能直接获取。所以需要做一个判断把两种情况都包含在内，这样就可以获取指定人物的所有分页中的图片。这个规律对这个网站的其他人物同样适用。
将url传递给get_url函数中进行图片链接的获取并返回回来。返回值是links。这里存储着返回归来的图片地址。
再将获取到的links数组传递给download函数进行处理和下载。

if __name__ == '__main__':

    # 每个url链接的第一页的页码和第二页以后的页面不同因此这里需要做一个判断

    for i in range(1, 2):

        if i == 1:

            url = 'http://www.cgtpw.com/xgmn/732.html'

        else:

            url = f'http://www.cgtpw.com/xgmn/732_{i + 1}.html'

        # 将url传递给get_url函数，并获得返回后的结果

        links = get_url(url)

        # 将get_url返回后的结果传递给download函数

        download(links)

三，获取图片链接

注释中都细讲了每个步骤的意思，请参照注释。

# 2.获取url

def get_url(url):

    all_link = []  # 用于存储获取到的链接


    # 发送请求

    r = requests.get(url)

    time.sleep(1)

    r.encoding = r.apparent_encoding  # 解决代码中文乱码问题

    html = etree.HTML(r.text)

    # 获取链接指定目录页下的所有链接

    pic_links = html.xpath('//div[@class="art-picBox"]/ul/li//a/@href')

    # 去重

    set_links = list(set(pic_links))

    # 获取的链接不完整,因此需要加上链接头部拼接链接

    for link in set_links:

        index_urls = 'http://www.cgtpw.com' + link

        # 将拼接好的链接添加到all_link数组中并返回

        all_link.append(index_urls)

    return all_link

四，下载并保存图片

# 3.下载图片

def download(links):

    # 遍历链接数组

    for link in links:

        # 通过正则表达式将链接中.html以外的部分提取出来。因为每个链接页跟之前一样第一页和第二页页码不同需要做处理

        new_str_list = re.sub(r'\.html$', '', link)

        try:

            # 为了存储图片要给图片编号因此这里用到了枚举

            for num, i in enumerate(range(1, 19)):

                num += 1

                # 如果链接为第一页则直接用Link,反之则拼接一下页码

                if i == 1:

                    url = link

                else:

                    url = new_str_list + f'_{i}.html'

                r = requests.get(url, headers=headers)

                time.sleep(1)

                # 这里是为了防止中文乱码

                r.encoding = r.apparent_encoding

                # 提取链接中的所有图片和title名称

                html = etree.HTML(r.text)

                title = html.xpath('//div[@class="art-top"]/h1/text()')[0]

                img_urls = html.xpath('/html/body/div[3]/div[2]//div[@class="artbody"]//img/@src')

                # 创建目录，如果目录不存在就创建目录文件夹。为了存储不同类型的照片

                if not os.path.exists(f'美女图片/{title}'):

                    os.makedirs(f'美女图片/{title}')

                # 获取到每个人对应的所有地址后进行逐一遍历

                for img in img_urls:

                    # 将图片以二进制码流的方式输出

                    pics = requests.get(img, headers=headers).content

                    # 存盘

                    with open(f'美女图片/{title}/{title}_{num}.jpg', 'wb') as f:

                        f.write(pics)

                        print(f'已下载>>{title}...编号:{num}')

                    # 关闭读写

                    f.close()

        except Exception:

            continue

五，完整代码

import os

import re

import time

import requests

from lxml import etree

# 1.ua伪装

headers = {

    'Cookie': 'UM_distinctid=183de2bde63bdd-0a9891aebfde0c-26021f51-15f900-183de2bde64211; __gads=ID=12c03794dd79a744-22151ed314d7003e:T=1665879761:RT=1665879761:S=ALNI_MayIUbqx7Eoqn3Rfhw4y3sdBWO8Hw; __gpi=UID=00000b63230f485e:T=1665879761:RT=1665879761:S=ALNI_MY73_h2FkMuU64S-R9TpNud-Rao2Q; _d_id=1ac93cdb5a0e86565209190f7f0314; CNZZDATA1281132404=586521712-1665876889-https%253A%252F%252Fwww.baidu.com%252F%7C1665983833',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

}

# 2.获取url

def get_url(url):

    all_link = []  # 用于存储获取到的链接

    r = requests.get(url)

    time.sleep(1)

    r.encoding = r.apparent_encoding  # 解决代码中文乱码问题

    html = etree.HTML(r.text)

    # 获取链接指定目录页下的所有链接

    pic_links = html.xpath('//div[@class="art-picBox"]/ul/li//a/@href')

    # 去重

    set_links = list(set(pic_links))

    # 获取的链接不完整,因此需要加上链接头部拼接链接

    for link in set_links:

        index_urls = 'http://www.cgtpw.com' + link

        # 将拼接好的链接添加到all_link数组中并返回

        all_link.append(index_urls)

    return all_link

# 3.下载图片

def download(links):

    # 遍历链接数组

    for link in links:

        # 通过正则表达式将链接中.html以外的部分提取出来。因为每个链接页跟之前一样第一页和第二页页码不同需要做处理

        new_str_list = re.sub(r'\.html$', '', link)

        try:

            # 为了存储图片要给图片编号因此这里用到了枚举

            for num, i in enumerate(range(1, 19)):

                num += 1

                # 如果链接为第一页则直接用Link,反之则拼接一下页码

                if i == 1:

                    url = link

                else:

                    url = new_str_list + f'_{i}.html'

                r = requests.get(url, headers=headers)

                time.sleep(1)

                # 这里是为了防止中文乱码

                r.encoding = r.apparent_encoding

                # 提取链接中的所有图片和title名称

                html = etree.HTML(r.text)

                title = html.xpath('//div[@class="art-top"]/h1/text()')[0]

                img_urls = html.xpath('/html/body/div[3]/div[2]//div[@class="artbody"]//img/@src')

                # 创建目录，如果目录不存在就创建目录文件夹。为了存储不同类型的照片

                if not os.path.exists(f'美女图片/{title}'):

                    os.makedirs(f'美女图片/{title}')

                # 获取到每个人对应的所有地址后进行逐一遍历

                for img in img_urls:

                    # 将图片以二进制码流的方式输出

                    pics = requests.get(img, headers=headers).content

                    # 存盘

                    with open(f'美女图片/{title}/{title}_{num}.jpg', 'wb') as f:

                        f.write(pics)

                        print(f'已下载>>{title}...编号:{num}')

                    # 关闭读写

                    f.close()

        except Exception:

            continue

if __name__ == '__main__':

    # 每个url链接的第一页的页码和第二页以后的页面不同因此这里需要做一个判断

    for i in range(1, 2):

        if i == 1:

            url = 'http://www.cgtpw.com/xgmn/732.html'

        else:

            url = f'http://www.cgtpw.com/xgmn/732_{i + 1}.html'

        # 将url传递给get_url函数，并获得返回后的结果

        links = get_url(url)

        # 将get_url返回后的结果传递给download函数

        download(links)

爬取春光图片网美女图片

【python爬虫】爬取美女图片的更多相关文章

python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python爬虫 —— 抓取美女图片（Scrapy篇）
杂谈: 之前用requests模块爬取了美女图片,今天用scrapy框架实现了一遍. (图片尺度确实大了点,但老衲早已无恋红尘,权当观赏哈哈哈) Item: # -*- coding: utf-8 - ...
Python爬虫爬取网页图片
没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴 ...
Python爬虫 —— 抓取美女图片
代码如下: #coding:utf-8 # import datetime import requests import os import sys from lxml import etree im ...
使用Python批量爬取美女图片
运行截图实列代码: from bs4 import BeautifulSoup import requests,re,os headers = { 'User-Agent': 'Mozilla/5. ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
Scrapy爬取美女图片第三集代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...

随机推荐

项目：口令保管箱，批处理文件配置.bat
#! python3 import sys import pyperclip PASSWORDS = {'email': 'F7minlBDDuvMJuxESSKHFhTxFtjVB6', 'blog ...
解决VSCode无法显示Unity代码提示和源代码
1,先删除项目目录下的配置文件,也可以理解为除文件夹外的其他文件 2,先把vscode选中,下拉框中没有vscode的找到文件就可以导进来再选中.然后红框里的不要勾选,因为我是这么做的,你也可以试着勾 ...
实验一Linux系统与应用准备
实验一Linux系统与应用准备 |这个作业属于哪个课程|内容| | ---- | ---- | ---- | |这个作业属于哪个课程|2021春季Linux系统与应用 (南昌航空大学 - 信息工程学院 ...
代理模式_v1
代理模式概念: 1.真实对象:要被代理的对象 2.代理对象 3.代理模式 : 代理对象代理真实对象,达到增强真实对象功能的作用实现方式: 1.静态代理:有一个类文件描述代理模式 2.动态代理:在内 ...
整数划分问题（Java递归）
整数划分问题(Java递归) 文章目录整数划分问题(Java递归) 0. 问题描述 1.递归式 2.代码 3.参考 0. 问题描述整数划分问题将正整数n表示成一系列正整数之和:n=n1+n2+- ...
EVE如何提升名望值
目录背景介绍简介名望值划分军团名望值利弊背景介绍玩eve将近3个星期,开着毒蜥级刷1级代理人任务感觉没有一点难度,想尽快刷3.4级代理任务,而我目前能够接到的最高代理任务也就才1级. ...
Sqoop从MySQL向Hive增量式导入数据报错：Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject
1.问题描述: (1)问题示例: Step1:创建作业: [Hadoop@master TestDir]$ sqoop job \> --create myjob_1 \> -- impo ...
Fastboot_Cmd
/* -*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*- */adb命令:/* -*-* ...
ECharts连接数据库的具体实现
相关描述我们由之前的实例可以得知,要是不连接数据库的话,只是需要套用一下ECharts的相关模板即可,这部分内容我在前几篇中已经叙述过了: 现在,我们需要实现的是,将数据库里面的数据导入到web网页 ...
Kafka为什么比其他消息中间件快
更多内容,前往 IT-BLOG 无论 Kafka 作为 MQ 也好,还是作为存储层也罢,无非就是两个功能,一是 Producer 生产的数据存到 Broker,二是 Consumer 从 Broker ...

【python爬虫】爬取美女图片

【python爬虫】爬取美女图片的更多相关文章

随机推荐

热门专题