深夜，我用python爬取了整个斗图网站，不服来斗

QQ、微信斗图总是斗不过，索性直接来爬斗图网，我有整个网站的图，不服来斗。

废话不多说，选取的网站为斗图啦，我们先简单来看一下网站的结构

网页信息

从上面这张图我们可以看出，一页有多套图，这个时候我们就要想怎么把每一套图分开存放（后边具体解释）

通过分析，所有信息在页面中都可以拿到，我们就不考虑异步加载，那么要考虑的就是分页问题了，通过点击不同的页面，很容易看清楚分页规则

很容易明白分页URL的构造，图片链接都在源码中，就不做具体说明了明白了这个之后就可以去写代码抓图片了

存图片的思路

因为要把每一套图存入一个文件夹中（os模块），文件夹的命名我就以每一套图的URL的最后的几位数字命名，然后文件从文件路径分隔出最后一个字段命名,具体看下边的截图。

这些搞明白之后，接下来就是代码了（可以参考我的解析思路，只获取了30页作为测试）全部源码

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

import os

class doutuSpider(object):

    headers = {

        "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"}

    def get_url(self,url):

        data = requests.get(url, headers=self.headers)

        soup = BeautifulSoup(data.content,'lxml')

        totals = soup.findAll("a", {"class": "list-group-item"})

        for one in totals:

            sub_url = one.get('href')

            global path

            path = 'J:\\train\\image'+'\\'+sub_url.split('/')[-1]

            os.mkdir(path)

            try:

                self.get_img_url(sub_url)

            except:

                pass

    def get_img_url(self,url):

        data = requests.get(url,headers = self.headers)

        soup = BeautifulSoup(data.content, 'lxml')

        totals = soup.find_all('div',{'class':'artile_des'})

        for one in totals:

            img = one.find('img')

            try:

                sub_url = img.get('src')

            except:

                pass

            finally:

                urls = 'http:' + sub_url

            try:

                self.get_img(urls)

            except:

                pass

    def get_img(self,url):

        filename = url.split('/')[-1]

        global path

        img_path = path+'\\'+filename

        img = requests.get(url,headers=self.headers)

        try:

            with open(img_path,'wb') as f:

                f.write(img.content)

        except:

            pass

    def create(self):

        for count in range(1, 31):

            url = 'https://www.doutula.com/article/list/?page={}'.format(count)

            print '开始下载第{}页'.format(count)

            self.get_url(url)

if __name__ == '__main__':

    doutu = doutuSpider()

    doutu.create()

结果

总结

总的来说，这个网站结构相对来说不是很复杂，大家可以参考一下，爬一些有趣的

原创作者：loading_miracle，原文链接:

https://www.jianshu.com/p/88098728aafd

欢迎关注我的微信公众号「码农突围」，分享Python、Java、大数据、机器学习、人工智能等技术，关注码农技术提升•职场突围•思维跃迁，20万+码农成长充电第一站，陪有梦想的你一起成长。

深夜，我用python爬取了整个斗图网站，不服来斗的更多相关文章

Python 爬取各大代理IP网站(元类封装)
import requests from pyquery import PyQuery as pq base_headers = { 'User-Agent': 'Mozilla/5.0 (Windo ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

随机推荐

地理位置(Geolocation)API 简介
一.开篇简述 Geolocation API(地理位置应用程序接口)提供了一个可以准确知道浏览器用户当前位置的方法.且目前看来浏览器的支持情况还算不错(因为新版本的IE支持了该API),这使得在不久之 ...
Luogu_2279_[HNOI2003]消防局的设立
题目描述 2020年,人类在火星上建立了一个庞大的基地群,总共有n个基地.起初为了节约材料,人类只修建了n-1条道路来连接这些基地,并且每两个基地都能够通过道路到达,所以所有的基地形成了一个巨大的树状 ...
django Highcharts制作图表--显示CPU使用率
Highcharts 是一个用纯JavaScript编写的一个图表库. Highcharts 能够很简单便捷的在web网站或是web应用程序添加有交互性的图表 Highcharts 免费提供给个人学习 ...
实现 add()(1,2)(3,4)(7,8,9)()
function add(){ var sum=0; function inner(pre,cur){ return pre+cur; } sum=Array.prototype.slice.call ...
Linux命令alias - 设置命令的别名
用途说明设置命令的别名.在linux系统中如果命令太长又不符合用户的习惯,那么我们可以为它指定一个别名.虽然可以为命令建立“链接”解决长文件名的问题,但对于带命令行参数的命令,链接就无能为力了.而指定 ...
Gif截屏工具 - GifCam
如果你需要录制截屏并保存成gif图片格式,那么你一定不能错过GifCam这个神奇的小工具.它虽然只有600K,但功能不可小觑. GifCam (Gif相机) 是一款免费且非常优秀的视频录制/剪辑的GI ...
C# InputStream获取后乱码处理
Post推送过来的数据流获取后部分中文出现乱码,晚上找了好多办法,不如朋友鼎力相助,哈哈哈~不说废话了上代码把旧代码基本是网上普遍写法,字段不长用起来不会有乱码情况,但是传送字段一旦过长,超过byt ...
仿segmentfault-table横向滚动
问题描述自己的博客在用移动端访问时,如果table的列数足够多会显示不全,如下图红圈所示正常情况如图解决过程使用chrome发现segmentfault的解决方法是在table上套一个tabl ...
【JavaScript】DOM之表单操作
DOM 表单操作 1.获取表单获取表单元素以Document对象中forms属性来获取当前HTML页面所有表单集合以Document对象中表单的name属性值来获取表单元元素 <body&g ...
psql的时间类型，通过时间查询
psql的时间类型,通过时间查询 psql有date/timestamp类型,date只显示年月日1999-01-08,而timestamp显示年月日时分秒 1999-01-08 09:54:03.2 ...

深夜，我用python爬取了整个斗图网站，不服来斗

深夜，我用python爬取了整个斗图网站，不服来斗的更多相关文章

随机推荐

热门专题