爬取漫画DB上的JoJo的奇妙冒险第七部飙马野郎

SBR是JOJO系列我最喜欢的一部，所以今天把漫画爬取到本地，日后慢慢看。

import re

import time

import requests

from requests import codes

from bs4 import BeautifulSoup

from requests import RequestException

def get_page(url):

    try:

        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36'

                   + '(KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def get_pagesNumber(text):

    soup = BeautifulSoup(text, 'lxml')

    pagesNumber = soup.find(name='div', class_="d-none vg-r-data")

    return pagesNumber.attrs['data-total'] 

def parse_page(text):

    soup = BeautifulSoup(text, 'lxml')

    url = soup.find(name='img', class_="img-fluid show-pic")

    chapter = soup.find(name='h2', class_="h4 text-center")

    page = soup.find(name='span', class_="c_nav_page")

    yield {

        'url': url['src'],

        'chapter': chapter.get_text(),

        'page': page.get_text()

    }

#return 在返回结果后 结束函数的运行

#而yield 则是让函数变成一个生成器，生成器每次产生一个值，函数被冻结，被唤醒后再产生一个值

def save_image(item):

    img_path = 'SBR' + os.path.sep + item.get('chapter') #os.path.sep是路径分隔符\

    if not os.path.exists(img_path):

        os.makedirs(img_path)

    try:

        resp = requests.get(item.get('url'))

        if codes.ok == resp.status_code:

            file_path = img_path + os.path.sep + '{file_name}.{file_suffix}'.format(

                file_name=item.get('page'), file_suffix='jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(resp.content)

                print('Downloaded image path is %s' % file_path)

            else:

                print('Already Downloaded', file_path)

    except Exception as e:

        print(e)

if __name__ == '__main__':

    for chapter in range(292, 316): #观察可发现共24章节，292到315 彩漫13283, 13306

        url = 'https://www.manhuadb.com/manhua/147/4_'+str(chapter)+'.html'

        text = get_page(url)

        pagesNumber = get_pagesNumber(text) #获取当前章节总页数

        for page in range(1,int(pagesNumber)+1):

            url = 'https://www.manhuadb.com/manhua/147/4_'+str(chapter)+'_'+str(page)+'.html'

　　　　　　　#彩漫#url = 'https://www.manhuadb.com/manhua/147/1330_'+str(chapter)+'_'+str(page)+'.html'

            text = get_page(url)

            for item in parse_page(text):

                save_image(item)

最后得到，

爬取漫画DB上的JoJo的奇妙冒险第七部飙马野郎的更多相关文章

爬取漫画DB上的《浪客行》
漫画链接:https://www.manhuadb.com/manhua/324 建议:早上爬,速度较快. 天下无双宫本武藏代码 # https://www.manhuadb.com/manhua/ ...
python爬取漫画
抓取漫画的网址是:sf互动传媒抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩首页中每个漫画的url是类似这样存储的: <tr> <td height="3 ...
【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
使用BeautifulSoup 爬取一个页面上的所有的超链接
# !/usr/bin/python # -*-coding:utf-8-*- import urllib from bs4 import BeautifulSoup response = urlli ...
Python 002- 爬虫爬取淘宝上耳机的信息
参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 #-*- coding:utf-8 -*- import re i ...
python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
Python爬取知乎上搞笑视频，一顿爆笑送给大家
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:Huangwei AI 来源:Python与机器学习之路 PS:如有需 ...
利用python3 爬取网易云上周杰伦所有专辑，歌曲，评论，并完成可视化分析已经歌曲情绪化分析
这篇文章适合于python爱好者,里面可能很多语句是冗长的,甚至可能有一些尚未发现的BUG,这个伴随着我们继续学习来慢慢消解吧.接下来我把里面会用到的东西在这里做一个简单总结吧:本文用到了两门解释性 ...

随机推荐

TCP三次握手四次挥手过程梳理
1. 数据传输的大致示意图 1.1 TCP数据报文首部内部 1.2 TCP连接的几种状态说明即命令 netstat 结果中的所有状态: 2. TCP连接建立的全过程 2.1 TCP三次握手建立TCP ...
vue自由拖拽、缩放组件
github地址:https://github.com/kirillmurashov/vue-drag-resize 安装: npm i -s vue-drag-resize 使用: <temp ...
Windows更改、自定义键盘功能键
为什么要改? 使用mac盘习惯之后回到Windows感觉实盘使用起来很是别扭,所以... 开始行动新建一个.reg后缀的文件,文件名称随意,编辑输入一下内容:(以下内容是把键盘左侧的CTRL和ALT ...
Pyinstaller打包exe，丢失图标等问题
Pyinstaller打包exe,丢失图标等问题一.原因 exe运行时会解压一个名为'_MEI*'的资源文件夹到电脑的临时目录,程序结束时删除. 程序里使用'\图标.png'这样的路径,exe运行时 ...
【Go语言系列】2.3、Go语言基本程序结构：变量及常量
1.什么变量变量来源于数学,从根本上说,变量相当于是对一块数据存储空间的命名,程序可以通过定义一个变量来申请一块数据存储空间,之后可以通过引用变量名来使用这块存储空间. 1.1变量声明 Go 语言变 ...
springboot 后台框架平台 mybatis 集成代码生成器 shiro 权限 websocket
1.代码生成器: [正反双向](单表.主表.明细表.树形表,快速开发利器)freemaker模版技术 ,0个代码不用写,生成完整的一个模块,带页面.建表sql脚本.处理类.service等完整模块2. ...
CSS中元素的显示模式
在CSS中,根据元素显示模式的不同元素标签被分为了两类:行内元素(inline-level).块级元素(block-level). 1,首先介绍什么是行内元素,什么又是块级元素? 1.1,行内元素就 ...
redis 5.0.7 源码阅读——双向链表
redis中双向链表相关的文件为:adlist.h与adlist.c 一.数据结构 redis里定义的双向链表,与普通双向链表大致相同单个节点: typedef struct listNode { ...
ggEditor给节点增加提示框
参考官方文档: https://www.yuque.com/antv/g6/plugin.tool.tooltip 在react-ggEditor使用方法: import React from 're ...
matlab 中 find() 函数用法
一. 功能: 寻找非零元素的索引和值二.相关函数语法: ind = find(X) ind = find(X, k) ind = find(X, k, 'first') ind = find(X, ...

爬取漫画DB上的JoJo的奇妙冒险 第七部 飙马野郎

爬取漫画DB上的JoJo的奇妙冒险 第七部 飙马野郎的更多相关文章

随机推荐

热门专题

爬取漫画DB上的JoJo的奇妙冒险第七部飙马野郎

爬取漫画DB上的JoJo的奇妙冒险第七部飙马野郎的更多相关文章