用Python爬E站本

一、前言

参考并改进自 OverJerry 大佬的教你怎么用Python爬取E站的本子_OverJerry。

本文为技术学习记录，不提供访问无存在网站的任何方法，也不包含不和谐内容。

环境：

Python版本为从Win10应用商店安装的Python3.7.5，大概若无已安装版本，cmd输入python就会自动打开商店页面吧。不用设置PATH，但无法使用 py 命令。安装的位置在 C:\Users\<用户名>\AppData\Local\Microsoft\WindowsApps\，pip安装的模块位置大概在 C:\users\<用户名>\appdata\local\packages\

编辑器为VSCode，使用推荐的Python插件

语法检查工具flake8：python -m pip install flake8

格式化工具autopep8：python -m pip install autopep8

依赖：

BeautifulSoup4：python -m pip install BeautifulSoup4

requests：python -m pip install requests

lxml：pip install lxml

二、改进内容

支持分页下载；
允许一次输入多条链接，方便批量执行；
文件名使用id+序号的方式，方便排序；
允许对同名文件跳过；
对于某些图片不稳定导致卡死问题，做了请求超时处理，允许设置超时时长和最大重新请求次数，可以超时时间短但重发次数多，或者时间长但次数少；
对于用本名创建文件夹可能存在的名称有不合法字符问题，允许检查并替换字符；
对于站点某些本的内容不和谐提示：在cookie中添加nw=1，避免重定向导致错误；
那啥代理池没有用，原先以为卡住是被反爬虫了，原来只是单纯下载卡住了，网上扒来的方法似乎也只会报错。
想到但没做的，添加传入参数，方便批处理。

三、最终代码

# -*- coding: utf-8 -*-

# ehentai本子爬取，学习from：https://blog.csdn.net/weixin_41732074/article/details/87287726

import requests

import os

import re

import time

from bs4 import BeautifulSoup

# import random

# import multiprocessing

# 默认请求头

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',

           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

           'cookie': 'nw=1',  # 处理是否查看不宜内容的检查，需要写入cookie，不能用cookies直接写。

           'Upgrade-Insecure-Requests': '1',  # 用于从http到https转换允许通知给服务器

           'DNT': '1'}  # 禁止追踪

rootdir = 'E:/MyGallery/comic/'

overwrite = False  # 当文件名存在时是否覆盖重写

replacechar = '_'  # 用于替换不当文件名的字符

conndelay = 5  # 连接服务器最大秒数

readdelay = 30  # 读取最大秒数

maxretry = 2  # 下载单图失败时重试次数

ip_list = []  # 代理ip池

# def get_ip_list(url, headers):  # 从匿名ip提供网站获取ip列表

#     web_data = requests.get(url, headers=headers)

#     soup = BeautifulSoup(web_data.text, 'lxml')

#     ips = soup.find_all('tr')

#     ip_list = []

#     for i in range(1, len(ips)):

#         ip_info = ips[i]

#         tds = ip_info.find_all('td')

#         ip_list.append(tds[1].text + ':' + tds[2].text)

#     return ip_list

# def get_random_ip(ip_list):  # 生成随机ip加端口号

#     proxy_list = []

#     for ip in ip_list:

#         proxy_list.append('http://' + ip)

#     proxy_ip = random.choice(proxy_list)

#     proxies = {'http': proxy_ip}

#     return proxies

# def init_proxies():  # 初始化随机代理

#     url = 'http://www.xicidaili.com/nn/'

#     headers = {

#         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'

#     }

#     global ip_list

#     ip_list = get_ip_list(url, headers=headers)

#     # proxies = get_random_ip(ip_list)

#     # print(proxies)

def saveFile(url, path):  # 保存文件

    # print('目标链接： ' + url)

    # 代理, 超时 , proxies=get_random_ip(ip_list), timeout=(180, 3000)

    response = requests.get(url, headers=headers,

                            timeout=(conndelay, readdelay))

    with open(path, 'wb') as f:  # 只写二进制文件，存在则重写，不存在则创建

        f.write(response.content)

        f.flush()

def getPicUrl(url):  # 获取图片源

    site_2 = requests.get(url, headers=headers)

    content_2 = site_2.text

    soup_2 = BeautifulSoup(content_2, 'lxml')

    imgs = soup_2.find_all(id="img")  # 图片的id正是img

    for img in imgs:

        picSrc = img['src']

        return picSrc

def getPicList(url):  # 获取图片分页

    site = requests.get(url, headers=headers)

    content = site.text

    soup = BeautifulSoup(content, 'lxml')

    # 获取当前分页所有gdtm类，gdtm是eh的默认小缩略图类，gdtl是eh的大缩略图类；find_all()返回一个包含元素的列表

    divs = soup.find_all(class_='gdtm')

    imgcount = 0    # 图片计数器

    for div in divs:

        imgcount = imgcount + 1

    print('||共 %d 张图，开始下载...' % (imgcount))

    title = re.sub(r'[\\/:*?"<>|\r\n]', replacechar, soup.h1.get_text())

    imgnum = 0

    i = 0

    for div in divs:

        picUrl = div.a.get('href')

        picAlt = div.a.img.get('alt')

        # 获取链接最右边一段，形如<漫画id-图片序号>，因图片序号前确少0可能导致排序问题，使用alt拼接

        picName = picUrl.rpartition('/')[2].rpartition('-')[0] + '-' + picAlt

        imgnum = imgnum + 1

        print('>> Saving：' + picName + '.jpg')

        picPath = '%s%s/%s.jpg' % (rootdir, title, picName)

        try:

            # 非覆写模式下，判断文件是否存在

            if not overwrite and os.path.exists(picPath) and os.path.isfile(picPath):

                print('Already Exists <<')

            else:

                saveFile(getPicUrl(picUrl), picPath)

        # except requests.exceptions.ConnectionError:

        #     print('链接失败')

        #     print('Failed <<')

        #     time.sleep(1)

        # except requests.exceptions.ConnectTimeout:

        #     print('链接超时')

        #     print('Failed <<')

        #     time.sleep(1)

        # except requests.exceptions.ReadTimeout:

        #     print('返回数据超时')

        #     print('Failed <<')

        #     time.sleep(1)

        except Exception as e:

            print(e)

            if(maxretry < 1):

                print('Failed <<')

            time.sleep(1)

            for ri in range(0, maxretry):  # 重获链接尝试下载

                try:

                    print('>> Retry times ' + str(ri + 1) + '：')

                    saveFile(getPicUrl(picUrl), picPath)

                except Exception as e2:

                    print(e2)

                    if(ri == maxretry - 1):

                        print('Failed <<')

                    time.sleep(1)

                else:  # 下载成功，结束循环

                    print('Succeed <<')

                    i = i + 1

                    break

        else:

            print('Succeed <<')

            i = i + 1

    print('||本页共下载 %d 个文件，其中 %d 个成功。' % (imgnum, i))

    return [imgnum, i]

def getGallery(url):  # 主页，输入url

    if (url.find('https://e-hentai.org/g/') != -1):

        url = url.partition('?p')[0]  # 从参数出现的第一个位置起，将字符串分成包含前中后三个元素的元组

        print('== 正在获取内容...==')

        try:

            site = requests.get(url, headers=headers)

            # print(str(site.cookies))

            # print(str(site.headers))

            content = site.text

            # 推荐使用lxml解析器解析而不是默认的html解析器，更快，更强

            soup = BeautifulSoup(content, 'lxml')

            # 获取分页数，ptds是当前页的class，不是最后一页的；ptt是头部页码table的类，ptd是底部页码table类名

            pages = soup.find(class_='ptt').find_all('a')

            # for link in pages:

            #     print(link.get_text())

            # 获取列表倒数第二个项，对应页码最大数值

            pagecount = int(pages[len(pages) - 2].get_text())

            # 获取标题，gn是大标题，gj是日文标题

            title = str(soup.h1.get_text())

            title2 = str(soup.find(id="gj").get_text())

            print('||[漫画名] 《%s》\n||[日文名] 《%s》\n||共 %d 页' %

                  (title, title2, pagecount))

            title = re.sub(r'[\\/:*?"<>|\r\n]', replacechar,

                           title)  # 处理windows不支持的文件名

            if not os.path.exists(rootdir + title):  # 创建目标文件夹

                os.mkdir(rootdir + title)

        except Exception as e:

            print(e)

            print('== 未知错误！已停止解析。==')

        else:

            totalfile = 0

            succeedfile = 0

            for pagenum in range(0, pagecount):  # range是从参数1到参数2前一个的范围，且参数2须大于参数1

                print('||当前第 %d 页' % (pagenum + 1))

                targeturl = url

                if pagenum != 0:  # 不是第一页，需加上页码get参数

                    targeturl = url + '?p=' + str(pagenum)

                returnargs = getPicList(targeturl)

                totalfile += returnargs[0]

                succeedfile += returnargs[1]

            print('== 《%s》下载完成！共 %d 个文件，其中 %d 个成功！==' %

                  (title, totalfile, succeedfile))

    else:

        print('<错误："' + url + '" 不是一个有效的eh漫画目录页面的地址。>\n')

def main():

    # init_proxies()  # 初始化ip池

    # print(str(ip_list))

    urls = []  # 允许批量处理，方便睡觉时下载

    url = input('<请输入链接（输入空白内容结束）：>\n')

    while url != "":

        urls.append(url)

        url = input('== 已输入链接列表 ==\n' + str(urls) + '\n<请输入链接（输入空白内容结束）：>\n')

    print('== 输入结束 ==')

    if(len(urls) > 0):

        for item in urls:

            getGallery(item)

        main()

    else:

        print('== 结束运行 ==')

main()

四、效果图

五、参考来源

教你怎么用Python爬取E站的本子_OverJerry - weixin_41732074的博客

Python 3.7.5 文档

requests 模块官方文档

Beautiful Soup 4.4.0 文档

python 判断文件是否存在 - 熔遁丶螺旋手里剑 - 博客园

Python Windows文件名称检查 - Just do IT

python捕获异常及方法总结 - Mr、北乐 - 博客园

python中全局变量与局部变量 - CoderWangSon

vscode 编写python如何禁止 flake8 提示 line too long - 你好阿汤哥 - 博客园

Autopep8的使用 - WrYcF - 博客园

Python爬取大量数据时防止被封IP - freeking101的博客

用Python爬E站本的更多相关文章

萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
python爬取基础网页图片
python基础爬虫总结 1.爬取信息原理与浏览器客户端类似,向网站的服务器发送一个请求,该请求一般是url,也就是网址.之后服务器响应一个html页面给客户端,当然也有其他数据类型的信息,这些就是 ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
Python快速建站系列-Part.One-组装开发环境
|版权声明:本文为博主原创文章,未经博主允许不得转载. 源代码都在github上:SmallStudyStation 现在是个demo,但回来会租个服务器,等功能完善了放到服务器上挂着,域名jusot ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...

随机推荐

渗透技巧——Windows系统的帐户隐藏
渗透技巧——Windows系统的帐户隐藏 2017-11-28-00:08:55 0x01 帐户隐藏的方法该方法在网上已有相关资料,本节只做简单复现测试系统:·Win7 x86/WinXP 1. ...
Jenkins + pipeline + Git + PHP （九）
一.准备环境介绍 192.168.5.71 # gitlab 仓库IP 192.168.5.72 # 开发环境,用于提交代码等 192.168.5.150 # www.leon.com 运行wordp ...
vs2017离线安装vs tools for unity
Visual Studio Tools for Unity 从vs2017开始就不提供单独的安装包下载,需要通过vs安装程序在线安装. vs2017离线安装vs tools for unity 那么如 ...
js处理日历
我们在做自动化的时候可能会遇到选择日期这种情况这个时候我们可能就会想到直接定位不就可以了,为啥还要使用js这种东西呢? 首先,我们想一下定位:定位不仅麻烦而且还不稳定,所以这种方式我是直接就弃用了 ...
Dubbo介绍（一）
Dubbo是一个分布式.高性能.透明化的 RPC 服务框架,作用是提供服务自动注册.自动发现等高效服务治理方案. 一.Dubbo架构图 Provider:提供者,服务发布方 Consumer:消费者, ...
创建maven父子项目（九）
一.父子-聚合项目通过 maven 可以创建父子-聚合项目. 所谓的父子项目,即有一个父项目,有多个子项目.这些子项目,在业务逻辑上,都归纳在这个父项目下,并且一般来说,都会有重复的jar包共享.所 ...
知识点总结 VUE部分
1.v-show和v-if的区别 v-show 操作的是元素的display属性 v-if 操作的是元素的创建和插入 v-if有更高的开销,而v-show有更高的初始渲染开销,如果需要非常频繁的切换, ...
动态规划 | 对输入进行hash处理的LIS 1045
把序列M处理为有序序列,并且M不存在的序列要在A中删除. 对A进行了处理之后,执行LIS的操作(O(N^2)复杂度).当然可以优化为对数复杂度的,不过pat不卡这个. LCS解法:动态规划 | 保留重 ...
IntelliJ idea 创建Web项目后web文件夹下没有WEB-INF的解决方法
1.Ctrl+Shift+Alt+S快捷键进入Project structure(项目结构)管理的界面 2.选择左边菜单栏里的Facet,点击后能看到有Deployment Descriptors的输 ...
MySQL实战45讲学习笔记：第十讲
一 .本节内容概要前面我们介绍过索引,你已经知道了在 MySQL 中一张表其实是可以支持多个索引的.但是,你写 SQL 语句的时候,并没有主动指定使用哪个索引.也就是说,使用哪个索引是由MySQL ...

用Python爬E站本

用Python爬E站本

一、前言

二、改进内容

三、最终代码

四、效果图

五、参考来源

用Python爬E站本的更多相关文章

随机推荐

热门专题