概述：

站长之家的图片爬取

使用BeautifulSoup解析html

通过浏览器的形式来爬取,爬取成功后以二进制保存，保存的时候根据每一页按页存放每一页的图片

第一页：http://sc.chinaz.com/tupian/index.html

第二页：http://sc.chinaz.com/tupian/index_2.html

第三页：http://sc.chinaz.com/tupian/index_3.html

以此类推，遍历20页

源代码

# @Author: lomtom

# @Date:   2020/2/27 14:22

# @email: lomtom@qq.com

# 站长之家的图片爬取

# 使用BeautifulSoup解析html

# 通过浏览器的形式来爬取,爬取成功后以二进制保存

# 第一页：http://sc.chinaz.com/tupian/index.html

# 第二页：http://sc.chinaz.com/tupian/index_2.html

# 第三页：http://sc.chinaz.com/tupian/index_3.html

# 遍历14页

import os

import requests

from bs4 import BeautifulSoup

def getImage():

    url = ""

    for i in range(1,15):

        # 创建文件夹,每一页放进各自的文件夹

        download = "images/%d/"%i

        if not os.path.exists(download):

            os.mkdir(download)

        # url

        if i ==1:

            url = "http://sc.chinaz.com/tupian/index.html"

        else:

            url = "http://sc.chinaz.com/tupian/index_%d.html"%i

        #发送请求获取响应，成功状态码为200

        response = requests.get(url)

        if response.status_code == 200:

            # 使用bs解析网页

            bs = BeautifulSoup(response.content,"html5lib")

            # 定位到图片的div

            warp = bs.find("div",attrs={"id":"container"})

            # 获取img

            imglist = warp.find_all_next("img")

            for img in imglist:

                # 获取图片名称和链接

                title = img["alt"]

                src = img["src2"]

                # 存入文件

                with open(download+title+".jpg","wb") as file:

                    file.write(requests.get(src).content)

            print("第%d页打印完成"%i)

if __name__ == '__main__':

    getImage()

效果图

作者

1、作者个人网站

2、作者CSDN

3、作者博客园

4、作者简书

【python数据挖掘】批量爬取站长之家的图片的更多相关文章

python爬取站长之家植物图片
from lxml import etree from urllib import request import urllib.parse import time import os def hand ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
【Python】批量查询-提取站长之家IP批量查询的结果v1.0
0 前言写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 1 使 ...
使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...
【Python】批量查询-提取站长之家IP批量查询的结果加强版本v3.0
1.工具说明写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 某 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
【Python】批量爬取网站URL测试Struts2-045漏洞
1.概述都懒得写了.... 就是批量测试用的,什么工具里扣出来的POC,然后根据自己的理解写了个爬网站首页URL的代码... #!/usr/bin/env python # -*- coding: u ...
Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...

随机推荐

Jmeter使用—使用 HTTP代理服务器抓取接口
这里说一下怎么使用jmeter的HTTP代理服务器来抓取接口. 首先,打开jmeter,进入主页面,然后在对工作台(Jmeter版本4.0)点击右键->添加->非测试元件->HTTP ...
[CF 487C Prefix Product Sequence]
题意将1~n的正整数重排列,使得它的前缀积在模n下形成0~n-1的排列,构造解或说明无解.n≤1E5. 思考小范围内搜索解,发现n=1,n=4和n为质数时有解. 不难发现,n一定会放在最后,否则会 ...
数据库中事务的ACID特性
数据库中事务的ACID特性前言前面我们介绍过数据库中带你了解数据库中JOIN的用法与带你了解数据库中group by的用法的相关用法.本章节主要来介绍下数据库中一个非常重要的知识点事务,也是 ...
Day8-Python3基础-Socket网络编程
目录: 1.Socket语法及相关 2.SocketServer实现多并发 Socket语法及相关 socket概念 socket本质上就是在2台网络互通的电脑之间,架设一个通道,两台电脑通过这个通道 ...
tomcat性能优化梳理
tomcat性能优化 Tomcat本身优化 Tomcat内存优化启动时告诉JVM我要一块大内存(调优内存是最直接的方式) 我们可以在 tomcat 的启动脚本 catalina.sh 中设置 jav ...
Redis | 使用redis存储对象反序列化异常SerializationFailedException
案例使用Redis进行对象存储,在处理业务逻辑的时候,丛Redis获取对象发现反序列化失败,抛出如下异常: Caused by: org.springframework.data.redis.ser ...
BaseAdapter的三种表达式分析，startActivityForResult的使用
(一)BaseAdapter的三种表达式: ①逗比式: public View getView(int position, View convertView, ViewGroup parent) { ...
LUA学习笔记（第1-4章）
需要一种简单的脚本语言来代替批处理,它需要足够小巧,同时功能上也应该足够强劲,自然选择了LUA语言. 第一章 Hello World print('Hello World') print(" ...
linux入门系列9--用户管理及文件权限控制
前面文章分享了Linux下常用命令以及Shell编程相关知识,本节继续学习Linux用户管理及文件权限控制. Linux是多用户多任务操作系统,具有很好的稳定性和安全性.既然是多用户,那就意味 ...
尝试用 Python 写了个病毒传播模拟程序
病毒扩散仿真程序,用 python 也可以. 概述事情是这样的,B 站 UP 主 @ele 实验室,写了一个简单的疫情传播仿真程序,告诉大家在家待着的重要性,视频相信大家都看过了,并且 UP 主也放 ...

【python数据挖掘】批量爬取站长之家的图片

概述：

源代码

效果图

作者

【python数据挖掘】批量爬取站长之家的图片的更多相关文章

随机推荐

热门专题