【python3】爬取鼠绘汉化的海贼王漫画

特别说明：

因为早些时候鼠绘的接口调整，之前的代码已经不能用了。

正好最近在学习scrapy，于是重新写了一个，项目放在github https://github.com/TurboWay/ishuhui

一、起因：

　　很喜欢看海贼漫画，其中鼠绘汉化的海贼王无疑是最好的，更新最快的。但是由于版权的问题，迫于压力，鼠绘官网早一点的海贼王已经看不了，但是。。。重点是，我发现接口还是可以用的，于是就写了个爬虫把鼠绘翻译的海贼王漫画都爬了下来。分享下源码，供有需要的海迷使用。另外建议不要在高峰时段爬取，毕竟我们都爱鼠绘。

二、如何使用：

　　有安装python环境的，直接复制源码，运行.py

三、代码如下：

# -*- coding: utf-8 -*-

import requests,json,time,os,shutil,logging,sys

from PIL import Image

from io import BytesIO

logger = logging.getLogger('log')

logger.setLevel(logging.DEBUG)

# log format

formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')

# console log

ch = logging.StreamHandler()

ch.setLevel(logging.DEBUG)

ch.setFormatter(formatter)

logger.addHandler(ch)

def get_url(url):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

                             ' Chrome/62.0.3202.75 Safari/537.36'}

    response = requests.get(url=url, headers=headers, timeout=5)

    js = json.loads(response.text)

    if js["errNo"] == 0:

        return js["data"]

    else:

        logger.warning("请求失败：{0}".format(js))

# 去掉文件名禁止符号

def clean(text):

    kws = ['/','\\',':','*','"','<','>','|','？']

    for kw in kws:

        text = text.replace(kw,'.')

    return text

# 新建文件夹

def makefile(path,istruncate):

    if os.path.exists(path) and istruncate:

        shutil.rmtree(path)

        os.mkdir(path)

    elif not os.path.exists(path):

        os.mkdir(path)

# 下载图片

def save_pic(img_src,picname):

    try:

        response = requests.get(img_src)

        image = Image.open(BytesIO(response.content))

        image = image.convert('RGB')

        image.save(picname)

        logger.info("{0}图片下载成功".format(picname))

        flag = True

    except Exception as e:

        logger.info("{0}图片下载失败:{1}".format(picname,e))

        flag = False

    return flag

# 保存图片

def resave_pic(img_src,picname):

    count,flag = 0,save_pic(img_src,picname)

    while not flag:

        flag = save_pic(img_src, picname)

        count += 1

        if count > 5:

            break

def get_data(path,nextid):

    url = 'http://hhzapi.ishuhui.com/cartoon/post/ver/76906890/id/{0}.json'.format(nextid)

    data = get_url(url)

    if data:

        server = 'http://pic04.ishuhui.com/'

        source, id, title, book, number = data['source'], data['id'], data['title'], data['book_text'], data['number']

        content_img = eval(data['content_img']) if data['content_img'] else {}

        if source == 1: # 鼠绘汉化

            makefile(path + '\\' + book, False)

            title = clean(title)

            filepath = path + '\{0}\{0} 第 {1} 话 {2}'.format(book,number,title)

            makefile(filepath, True) # 新建文件夹

            if content_img: # 下载图片

                for img, imgurl in content_img.items():

                    imgurl = server + imgurl.replace('/upload/','')

                    picname = filepath + '\\'+ img

                    resave_pic(imgurl,picname)

            logger.info("ID:{2} 第 {0} 话 {1}下载完成".format(number,title,id))

            next = data['prev']

            if next:

                return next['id']

            elif nextid == 900: # 900的时候会找不到上一页

                return 899

if __name__ == "__main__":

    path=sys.path[0]

    nextid=get_data(path,10881)

    while nextid:

        nextid=get_data(path,nextid)

        time.sleep(3)

四、结果如下：

　　第598话 2年后 -- 第908话世界會議開幕，共309话，3.22G，其中680和681话缺失了，接口扫了一下也没找到。

【python3】爬取鼠绘汉化的海贼王漫画的更多相关文章

scrapy 动态网页处理——爬取鼠绘海贼王最新漫画
简介 scrapy是基于python的爬虫框架,易于学习与使用.本篇文章主要介绍如何使用scrapy爬取鼠绘漫画网海贼王最新一集的漫画. 源码参见:https://github.com/liudaol ...
python3爬取网页
爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com' ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
python3爬取全民K歌
Python3爬取全民k歌环境 python3.5 + requests 1.通过歌曲主页链接爬取首先打开歌曲主页,打开开发者工具(F12). 选择Network,点击播放,会发现有一个请求返回的 ...
Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...
利用python3 爬取网易云上周杰伦所有专辑，歌曲，评论，并完成可视化分析已经歌曲情绪化分析
这篇文章适合于python爱好者,里面可能很多语句是冗长的,甚至可能有一些尚未发现的BUG,这个伴随着我们继续学习来慢慢消解吧.接下来我把里面会用到的东西在这里做一个简单总结吧:本文用到了两门解释性 ...

随机推荐

Sql语法高级应用之三：存储过程
一.存储过程概述 SQL Server中的存储过程是使用T_SQL编写的代码段.它的目的在于能够方便的从系统表中查询信息,或者完成与更新数据库表相关的管理任务和其他的系统管理任务.T_SQL语句是SQ ...
springMVC入门-07
删除功能实现,对应controller类中的代码如下所示: @RequestMapping(value="/{username}/delete",method=RequestMet ...
MsSQL使用加密连接SSL/TLS
说明应用程序通过未加密的通道与数据库服务器通信, 这可能会造成重大的安全风险.在这种情况下, 攻击者可以修改用户输入的数据, 甚至对数据库服务器执行任意 SQL 命令. 例如,当您使用以下连接字符串 ...
JavaScript DOM 編程藝術(2版) 綜合實例Band js代碼
function addLoadEvent(func){ var oldonload=window.onload; if(typeof window.onload!='function') { win ...
[控件] LabelView
LabelView 此LabelView是用来将Label显示在固定的View上的,需要计算Label的高度与宽度. 源码: NSString+StringHeight.h 与 NSString+St ...
Linux echo命令详解
echo :输出文字到控制台 -n: 不换行输出 -e:解析转移字符 (-b: 退格 -n 换行 -t 空格) 常用的命令展示 echo {1..4} ==> seq -s " ...
【matlab】幂法求解最大特征值
一. 算法: 1.输入矩阵A,初始向量x误差限ep,最大迭代次数N 2.置 k = 1, m1 = 0; 3.求Xr-> norm(x) abs(Xr)=max[Xi] 1<=i< ...
铁乐学python_day10_作业
1.继续整理函数相关知识点,写博客. 2.写函数,接收n个数字,求这些参数数字的和.(动态传参) def sum_n(*args): sum = 0 for i in args: sum += i r ...
【教程】【FLEX】#004 反射机制
总结: 目前用到反射的主要有两个方法 1. getDefinitionByName //根据类名,返回对象(反射实例化对象) 2. describeType ...
web虎所用2个64位驱动：到底在build时要生成几个版本？
更准确的问法是: 是否需要根据wdk+目标os不同,根据组合生成不同的多组驱动: 1.wdk10:生成windows10和windows2016+的驱动 2. wdk8和wdk8.1:生成window ...

【python3】爬取鼠绘汉化的海贼王漫画

【python3】爬取鼠绘汉化的海贼王漫画的更多相关文章

随机推荐

热门专题