python批量爬取猫咪图片

不多说直接上代码

首先需要安装需要的库，安装命令如下

pip install BeautifulSoup

pip install requests

pip install urllib

pip install lxmlfrom bs4 import BeautifulSoup # 贵族名宠网页爬虫

import requests

import urllib.request

# 网址

url = 'http://www.hengdadog.com/sale-1.html'

def allpage():  # 获得所有网页

    all_url = []

    for i in range(1, 8): #循环翻页次数

        each_url = url.replace(url[-6], str(i))  # 替换

        all_url.append(each_url)

    return (all_url)  # 返回地址列表

if __name__ == '__main__':

    img_url = allpage()  # 调用函数

    for url in img_url:

        # 获得网页源代码

        print(url)

        requ = requests.get(url)

        req = requ.text.encode(requ.encoding).decode()

        html = BeautifulSoup(req, 'lxml')

        t = 0

        # 选择目标url

        img_urls = html.find_all('img')

        for k in img_urls:

            img = k.get('src')  # 图片

            print(img)

            name = str(k.get('alt'))  # 名字，这里的强制类型转换很重要

            type(name)

            # 先本地新建一下文件夹，保存图片并且命名

            path = 'F:\\CAT\\'  # 路径

            file_name = path + name + '.jpg'

            imgs = requests.get(img)     # 存储入文件

            try:

                urllib.request.urlretrieve(img, file_name)  # 打开图片地址，下载图片保存在本


            except:

                print("error")

运行效果：

上面代码有不少缺陷，比如需要手动创建目录以及判断目录是否存在，下载没有提示，于是做了些优化：

from bs4 import BeautifulSoup  # 贵族名宠网页爬虫

import requests

import urllib.request

import os

# 网址

url = 'http://www.hengdadog.com/sale-1.html'

if os.path.exists('F:\\CAT'):#判断目录是否存在，存在则跳过，不存在则创建

    pass

else:

    os.mkdir('F:\\CAT')

def allpage():  # 获得所有网页

    all_url = []

    for i in range(1, 10): #循环翻页次数

        each_url = url.replace(url[-6], str(i))  # 替换

        all_url.append(each_url)

    return (all_url)  # 返回地址列表

if __name__ == '__main__':

    img_url = allpage()  # 调用函数

    for url in img_url:

        # 获得网页源代码

        print(url)

        requ = requests.get(url)

        req = requ.text.encode(requ.encoding).decode()

        html = BeautifulSoup(req, 'lxml')

        t = 0

        # 选择目标url

        img_urls = html.find_all('img')

        for k in img_urls:

            img = k.get('src')  # 图片

            print(img)

            name = str(k.get('alt'))  # 名字，这里的强制类型转换很重要

            type(name)

            # 保存图片并且命名

            path = 'F:\\CAT\\'  # 路径

            file_name = path + name + '.jpg'

            imgs = requests.get(img)     # 存储入文件

            try:

                urllib.request.urlretrieve(img, file_name)  # 打开图片地址，下载图片保存在本地，

                print('正在下载图片到F:\CAT目录······')

            except:

                print("error")

打包成EXE文件：

进入文件目录输入如下命令

pyinstaller -F get_cat.py

python批量爬取猫咪图片的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python爬虫——爬取NUS-WIDE数据库图片
实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 由于这个数据只给了每个图片的URL,所以需 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
python批量爬取动漫免费看！！
实现效果运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应先上代码,代码非常简短,包含空行也才50 ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
java爬取猫咪上的图片
首先是对知识点归纳 1.用到获取网页源代码,分析图片地址,发现图片的地址都是按编号排列的,所以想到用循环获取 2.保存图片要用到流操作和文件操作,对两部分知识进行了复习巩固 3.保存后的图片有一部分是 ...

随机推荐

【垃圾回收-CMS】Java内存回收实践经验防止内存报警
jdk6和7服务器端(-server) 默认的新生代的垃圾回收器为:PS Scavenge,老年代默认的垃圾回收器为:PS MarkSweep 目前项目使用了jdk7,tomcat7,经常出现内存堆使 ...
Qt导入CMakeLists.txt后无法调试
问题: Qt导入CMakeLists.txt后无法单步调试解决方法: 在CMakeLists.txt后加入一句: SET(CMAKE_BUILD_TYPE DEBUG)
Spring MVC json配置
接口类的Controller,一般返回的是json数据,而Spring MVC中默认返回的string,而jsp页面的话,会按配置中自己行匹配转义字符串为对应的jsp文件. @Controller @ ...
Learn day5 迭代器\生成器\高阶函数\推导式\内置函数\模块(math.time)
1.迭代器 # ### 迭代器 """能被next调用,并不断返回下一个值的对象""" """ 特征:迭代器会 ...
C# 泛型的协变
class Program { static void Main(string[] args) { Person person = new Person(); Person chinese2 = ne ...
Git的介绍及使用
一.配置用户信息: 配置用户名和邮箱: $ git config --global user.name "chunyu" $ git config --global user.em ...
尝试从零开始构建我的商城 (二) :使用JWT保护我们的信息安全，完善Swagger配置
前言 GitHub地址 https://github.com/yingpanwang/MyShop/tree/dev_jwt 此文对应分支 dev_jwt 此文目的上一篇文章中,我们使用Abp vN ...
【Elasticsearch 技术分享】—— 十张图带大家看懂 ES 原理！明白为什么说：ES 是准实时的！
前言说到 Elasticsearch ,其中最明显的一个特点就是 near real-time 准实时 -- 当文档存储在Elasticsearch中时,将在1秒内以几乎实时的方式对其进行索引和完全 ...
微服务接口设计（RESTful规范）
微服务的接口设计(RESTful规范) 基本知识 URI:在RESTful架构中,每个URI代表一种资源 URI规范: 不用大写用中杠-,不用下划线_ 路径中不能有动词,只能有名词名词表示资源集合 ...
企业网络拓扑MSTP功能实例(二)
组网图形 MSTP简介以太网交换网络中为了进行链路备份,提高网络可靠性,通常会使用冗余链路.但是使用冗余链路会在交换网络上产生环路,引发广播风暴以及MAC地址表不稳定等故障现象,从而导致用户通信质量 ...

python批量爬取猫咪图片

python批量爬取猫咪图片的更多相关文章

随机推荐

热门专题