概述：

站长之家的图片爬取

使用BeautifulSoup解析html

通过浏览器的形式来爬取,爬取成功后以二进制保存，保存的时候根据每一页按页存放每一页的图片

第一页：http://sc.chinaz.com/tupian/index.html

第二页：http://sc.chinaz.com/tupian/index_2.html

第三页：http://sc.chinaz.com/tupian/index_3.html

以此类推，遍历20页

源代码

# @Author: lomtom

# @Date:   2020/2/27 14:22

# @email: lomtom@qq.com

# 站长之家的图片爬取

# 使用BeautifulSoup解析html

# 通过浏览器的形式来爬取,爬取成功后以二进制保存

# 第一页：http://sc.chinaz.com/tupian/index.html

# 第二页：http://sc.chinaz.com/tupian/index_2.html

# 第三页：http://sc.chinaz.com/tupian/index_3.html

# 遍历14页

import os

import requests

from bs4 import BeautifulSoup

def getImage():

    url = ""

    for i in range(1,15):

        # 创建文件夹,每一页放进各自的文件夹

        download = "images/%d/"%i

        if not os.path.exists(download):

            os.mkdir(download)

        # url

        if i ==1:

            url = "http://sc.chinaz.com/tupian/index.html"

        else:

            url = "http://sc.chinaz.com/tupian/index_%d.html"%i

        #发送请求获取响应，成功状态码为200

        response = requests.get(url)

        if response.status_code == 200:

            # 使用bs解析网页

            bs = BeautifulSoup(response.content,"html5lib")

            # 定位到图片的div

            warp = bs.find("div",attrs={"id":"container"})

            # 获取img

            imglist = warp.find_all_next("img")

            for img in imglist:

                # 获取图片名称和链接

                title = img["alt"]

                src = img["src2"]

                # 存入文件

                with open(download+title+".jpg","wb") as file:

                    file.write(requests.get(src).content)

            print("第%d页打印完成"%i)

if __name__ == '__main__':

    getImage()

效果图

作者

1、作者个人网站

2、作者CSDN

3、作者博客园

4、作者简书

【python数据挖掘】批量爬取站长之家的图片的更多相关文章

python爬取站长之家植物图片
from lxml import etree from urllib import request import urllib.parse import time import os def hand ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
【Python】批量查询-提取站长之家IP批量查询的结果v1.0
0 前言写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 1 使 ...
使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...
【Python】批量查询-提取站长之家IP批量查询的结果加强版本v3.0
1.工具说明写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 某 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
【Python】批量爬取网站URL测试Struts2-045漏洞
1.概述都懒得写了.... 就是批量测试用的,什么工具里扣出来的POC,然后根据自己的理解写了个爬网站首页URL的代码... #!/usr/bin/env python # -*- coding: u ...
Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...

随机推荐

线性最长cover（无讲解）
#include<bits/stdc++.h> using namespace std; ; int n,f[maxn],cover[maxn],R[maxn]; char str[max ...
JS-03-数据基本类型与转换
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
自动化运维之Ansible入门
Ansible简介 Ansible是什么? Ansible 简单的说是一个配置管理系统(ConfiGuration Management System).你只需要可以使用ssh访问你的服务器或设备.它 ...
CTF--HTTP服务--暴力破解
开门见山 1. 扫描靶机ip,发现PCS 192.168.1.103 2. 用nmap扫描靶机开放服务和服务版本 3. 再扫描全部信息 4. 用nikto探测敏感文件 5. 打开敏感网页发掘信息 6. ...
python之路：day3
内容变量的创建过程身份运算和None 数据类型一. 变量创建过程首先,当我们定义了一个变量name = ‘oldboy’的时候,在内存中其实是做了这样一件事: 程序开辟了一块内存空间,将‘ol ...
用 C# 写一个 Redis 数据同步小工具
用 C# 写一个 Redis 数据同步小工具 Intro 为了实现 redis 的数据迁移而写的一个小工具,将一个实例中的 redis 数据同步到另外一个实例中.(原本打算找一个已有的工具去做,找了一 ...
react脚手架搭建命令 react常用库
react项目一般需要的组件库 react-redux 状态管理库 react-router-dom 路由 sass /less style-compon ...
1755: N相关孪生素数
#include<stdio.h>int f(int n,int L,int R){ int ch[10000],i,j,count=0; j=1; for(i=L;i<=R;i++ ...
在jsp页面下, 让eclipse完全支持HTML/JS/CSS智能提示
我们平时用eclipse开发jsp页面时智能提示效果不太理想,今天用了两个小时发现了eclipse也可以像Visual Studio 2008那样完全智能提示HTML/JS/CSS代码,使用eclip ...
[win]更改win终端编码
更改cmd的编码格式 chcp: 显示当前的编码格式 chcp 65001: 更改当前编码格式为UTF-8 字体选择`Lucida Console` 更改PowerShell编码格式(from zhi ...

【python数据挖掘】批量爬取站长之家的图片

概述：

源代码

效果图

作者

【python数据挖掘】批量爬取站长之家的图片的更多相关文章

随机推荐

热门专题