Python 爬虫爬取煎蛋网图片

今天，试着爬取了煎蛋网的图片。

用到的包：

urllib.request

分别使用几个函数，来控制下载的图片的页数，获取图片的网页，获取网页页数以及保存图片到本地。过程简单清晰明了

直接上源代码：

import urllib.request

import os

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36')

    response = urllib.request.urlopen(url)

    html = response.read()

    return html

def get_page(url):

    html = url_open(url).decode('utf-8')

    a = html.find('current-comment-page')+23

    b = html.find(']',a)

    return html[a:b]

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    img_addrs = []

    a = html.find('img src=')

    while a != -1:

        b = html.find('.jpg',a ,a+255)

        if b != -1:

            img_addrs.append('https:'+html[a+9:b+4]) # 'img src='为9个偏移  '.jpg'为4个偏移

        else:

            b = a+9

        a = html.find('img src=', b)

    return img_addrs

def save_imgs(folder, img_addrs):

    for each in img_addrs:

        filename = each.split('/')[-1]

        with open(filename, 'wb') as f:

            img = url_open(each)

            f.write(img)

        print(img_addrs)

def download_mm(folder = 'xxoo', pages = 5):

    os.mkdir(folder)

    os.chdir(folder)

    url = 'http://jandan.net/ooxx/'

    page_num = int(get_page(url))

    for i in range(pages):

        page_num -= i

        page_url = url + 'page-'+ str(page_num) + '#comments'

        img_addrs = find_imgs(page_url)

        save_imgs(folder, img_addrs)

if __name__ == '__main__':

    download_mm()

其中在主函数download_mm()中，将pages设置在了5面。

本来设置的是10，但是在程序执行的过程中。出现了404ERROR错误

即imgae_url出现了错误。尝试着在save_img()函数中加入了测试代码：print(img_addrs)，

想到会不会是因为后面页数的图片，img_url的格式出现了改变，导致404，所以将pages改成5，

再次运行，结果没有问题，图片能正常下载：

仔细观察发现，刚好是在第五面的图片往后，出现了不可下载的问题（404）。所以在煎蛋网上，我们直接跳到第6面查看图片的url。

上图是后5面的图片url，下图是前5面的图片url

而源代码中，寻找的图片url为使用find()函数，进行定为<img src=‘’> <.jpg>中的图片url，所以后5面出现的a href 无法匹配，即出现了404 ERROR。如果想要下载后续的图片，需要重新添加一个url定位

即在find中将 img src 改成 a href，偏移量也需要更改。

总结：

使用find()来定位网页标签确实太过low，所以以后在爬虫中要尽量使用正则表达式和Beautifulsoup包来提高效率，而这两项我还不是特别熟，所以需要更多的训练。

Python 爬虫爬取煎蛋网图片的更多相关文章

python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
python爬虫爬取煎蛋网妹子图片
import urllib.request import os def url_open(url): req = urllib.request.Request(url) req.add_header( ...
python3爬虫爬取煎蛋网妹纸图片（上篇）
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看 ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
scrapy从安装到爬取煎蛋网图片
下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/pip install wheelpip install lxmlpip install pyopens ...
python3爬虫爬取煎蛋网妹纸图片（下篇）2018.6.25有效
分析完了真实图片链接地址,下面要做的就是写代码去实现了.想直接看源代码的可以点击这里大致思路是:获取一个页面的的html---->使用正则表达式提取出图片hash值并进行base64解码--- ...
Python Scrapy 爬取煎蛋网妹子图实例（二）
上篇已经介绍了图片的爬取,后来觉得不太好,每次爬取的图片都在一个文件下,不方便区分,且数据库中没有爬取的时间标识,不方便后续查看数据时何时爬取的,所以这里进行了局部修改修改一:修改爬虫执行方式 ...
python爬取煎蛋网图片
``` py2版本: #-*- coding:utf-8 -*-#from __future__ import unicode_literimport urllib,urllib2,timeimpor ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...

随机推荐

增强学习Q-learning分析与演示（入门）
一些说明.参阅 https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/1_ ...
Runtime.getRuntime().exec()实现Java调用python程序
使用Runtime.getRuntime().exec()来实现Java调用python,调用代码如下所示: import java.io.BufferedReader; import java.io ...
[系列] go-gin-api 路由中间件 - Jaeger 链路追踪（五）
概述首先同步下项目概况: 上篇文章分享了,路由中间件 - 捕获异常,这篇文章咱们分享:路由中间件 - Jaeger 链路追踪. 啥是链路追踪? 我理解链路追踪其实是为微服务架构提供服务的,当一个请求 ...
Spinner列表选择框
Spinner首先它是一个弹出式的列表选择框,由于间接继承了ViewGroup,所以它可以当做一个容器使用; 如果我们可以明确下拉列表中的列表项, 则可以不需要编写代码, 只需要为spinner指定a ...
spring boot 配置文件加密数据库用户名/密码
这篇文章为大家分享spring boot的配置文件properties文件里面使用经过加密的数据库用户名+密码,因为在自己做过的项目中,有这样的需求,尤其是一些大公司,或者说上市公司,是不会把这些敏感 ...
charles 视图菜单总结
本文参考:charles 视图菜单总结 Charles的视图菜单里的东西其实是非常常用的功能: 但是我们一般是不需要从这里点进来的: 里面,无非是查看的视图结构(按照域名和按照访问时间) 然后是一些概 ...
创建型模式总结(2.x)
顾名思义,创建型模式的聚焦点在如何创建对象能够将对象的创建与使用最大化的分离从而降低系统的耦合度. 创建型模式可分为: 单例模式:一个类只能有一个实例对象工厂模式: 简单工厂模式:聚焦单个产品种类的 ...
Spring Cloud异步场景分布式事务怎样做？试试RocketMQ
一.背景在微服务架构中,我们常常使用异步化的手段来提升系统的吞吐量和解耦上下游,而构建异步架构最常用的手段就是使用消息队列(MQ),那异步架构怎样才能实现数据一致性呢?本文主要介绍如何使用 ...
numpy库使用总结
numpy study 0x01:n维数组对象ndaarray 存放同类型元素的多维数组 0x02:numpy数据类型 numpy 的数值类型实际上是 dtype 对象的实例,并对应唯一的字符,包括 ...
基于djiango实现简易版的图书管理系统
介绍: 本程序仅仅实现图书数据的增删查树形结构如下全部代码如下: url: from django.urls import path from front import views as fr ...

Python 爬虫 爬取 煎蛋网 图片

Python 爬虫 爬取 煎蛋网 图片的更多相关文章

随机推荐

热门专题

Python 爬虫爬取煎蛋网图片

Python 爬虫爬取煎蛋网图片的更多相关文章