漫画链接：https://www.manhuadb.com/manhua/324

建议：早上爬，速度较快。

天下无双宫本武藏

代码

# https://www.manhuadb.com/manhua/324

import os

import re

import time

import requests

from requests import codes

from bs4 import BeautifulSoup

from requests import RequestException

def get_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36'

                   + '(KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

        return 'status_code = ' + str(status_code)

    except RequestException:

        return 'RequestException'

def get_pagesNumber(text):

    soup = BeautifulSoup(text, 'lxml')

    pagesNumber = soup.find(name='div', class_="d-none vg-r-data")

    return pagesNumber.attrs['data-total'] 

def parse_page(text):

    soup = BeautifulSoup(text, 'lxml')

    url = soup.find(name='img', class_="img-fluid show-pic")

    chapter = soup.find(name='h2', class_="h4 text-center")

    page = soup.find(name='span', class_="c_nav_page")

    yield {

        'url': url['src'],

        'chapter': chapter.get_text(),

        'page': page.get_text()

    }  

def save_image(item):

    img_path = '浪客行' + os.path.sep + item.get('chapter') #os.path.sep是路径分隔符\

    if not os.path.exists(img_path):

        os.makedirs(img_path)

    try:

        resp = requests.get(item.get('url'))

        if codes.ok == resp.status_code:

            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(

                file_name=item.get('chapter')[-2:]+'-'+item.get('page'), file_suffix='jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(resp.content)

                print('Downloaded image path is %s' % file_path)

            else:

                print('Already Downloaded', file_path)

    except Exception as e:

        print(e)

if __name__ == '__main__':

    for chapter in range(3678, 3715): #共37章节，3678到3714

        base_url = 'https://www.manhuadb.com/manhua/324/320_'+str(chapter)

        text = get_page(base_url+'.html')

        pagesNumber = get_pagesNumber(text) #获取当前章节总页数

        for page in range(1, int(pagesNumber)+1):

            url = base_url+'_'+str(page)+'.html'

            text = get_page(url)

            for item in parse_page(text):

                save_image(item)

爬取漫画DB上的《浪客行》的更多相关文章

爬取漫画DB上的JoJo的奇妙冒险第七部飙马野郎
SBR是JOJO系列我最喜欢的一部,所以今天把漫画爬取到本地,日后慢慢看. import re import time import requests from requests import cod ...
python爬取漫画
抓取漫画的网址是:sf互动传媒抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩首页中每个漫画的url是类似这样存储的: <tr> <td height="3 ...
【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
使用BeautifulSoup 爬取一个页面上的所有的超链接
# !/usr/bin/python # -*-coding:utf-8-*- import urllib from bs4 import BeautifulSoup response = urlli ...
Python 002- 爬虫爬取淘宝上耳机的信息
参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 #-*- coding:utf-8 -*- import re i ...
python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
Python爬取知乎上搞笑视频，一顿爆笑送给大家
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Huangwei AI 来源:Python与机器学习之路 PS:如有需 ...
利用python3 爬取网易云上周杰伦所有专辑，歌曲，评论，并完成可视化分析已经歌曲情绪化分析
这篇文章适合于python爱好者,里面可能很多语句是冗长的,甚至可能有一些尚未发现的BUG,这个伴随着我们继续学习来慢慢消解吧.接下来我把里面会用到的东西在这里做一个简单总结吧:本文用到了两门解释性 ...

随机推荐

CUDA学习（五）之使用共享内存（shared memory）进行归约求和（一个包含N个线程的线程块）
共享内存(shared memory)是位于SM上的on-chip(片上)一块内存,每个SM都有,就是内存比较小,早期的GPU只有16K(16384),现在生产的GPU一般都是48K(49152). ...
1755: N相关孪生素数
#include<stdio.h>int f(int n,int L,int R){ int ch[10000],i,j,count=0; j=1; for(i=L;i<=R;i++ ...
c++中对象的构造和销毁
对象的初始化如下 ckasss Person { public: ]; char sex; int age; }; Person p={}; //对象初始化构造数组对象时,需要一个没有参数的构造函 ...
在Centos上安装docker，部署mysql数据库
何为docker? Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级.可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化. 本机环境 24小时不关机的Centos ...
Eclipse中文语言包安装和设置中文
对于英语水平不好或者初学者来说使用中文开发环境可以有效提高学习效率,便于快速的学习和上手,不过对于当前的技术环境学习英语还是非常有必要的,当对Eclipse掌握到一定程度还是应该多使用英语环境来开发, ...
FFMPEG学习----遍历所支持的封装格式
#include <stdio.h> extern "C" { #include "libavformat/avformat.h" }; int m ...
JVM性能优化系列-(4) 编写高效Java程序
4. 编写高效Java程序 4.1 面向对象构造器参数太多怎么办? 正常情况下,如果构造器参数过多,可能会考虑重写多个不同参数的构造函数,如下面的例子所示: public class FoodNor ...
使用ASDM 管理 ciscoASA设备
用vm虚拟机模拟了一台 ASA设备自适应安全设备软件为 ASA8.25 asdm镜像为asdm-6.49.bin 用客户端连接时,一定要安装java jre,版本我是用的是7,6应该也可以. ...
分区格式化大于2 TiB磁盘
如果您要分区格式化一块大于2 TiB的作数据盘用的云盘(本文统一称为大容量数据盘,小于2 TiB的数据盘统称为小容量数据盘),您必须采用GPT分区形式.本文档描述了如何在不同的操作系统里分区格式化 ...
你应该了解的 Java SPI 机制
前言不知大家现在有没有去公司复工,我已经在家办公将近 3 周了,同时也在家呆了一个多月:还好工作并没有受到任何影响,我个人一直觉得远程工作和 IT 行业是非常契合的,这段时间的工作效率甚至比在办公室 ...

爬取漫画DB上的《浪客行》

代码

爬取漫画DB上的《浪客行》的更多相关文章

随机推荐

热门专题