python批量爬取动漫免费看！！

实现效果

运行环境

IDE VS2019
Python3.7
Chrome、ChromeDriver
Chrome和ChromeDriver的版本需要相互对应

先上代码，代码非常简短，包含空行也才50行，多亏了python强大的库

import os
import time
import requests
from selenium import webdriver
from lxml import etree

def getChapterUrl(url):
 headers = {
 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
 }
 part_url = "http://ac.qq.com"
 res = requests.get(url, headers=headers)
 html=res.content.decode()
 el = etree.HTML(html)
 li_list = el.xpath('//*[@id="chapter"]/div[2]/ol[1]/li')
 for li in li_list:
 for p in li.xpath("./p"):
 for span in p.xpath("./span[@class='works-chapter-item']"):
 item = {}
 list_title = span.xpath("./a/@title")[0].replace(' ', '').split('：')
 if list_title[1].startswith(('第', '序')):
 getChapterFile(part_url + span.xpath("./a/@href")[0], list_title[0],list_title[1])

def getChapterFile(url,path1,path2):
 #path = os.path.join(path)
 #漫画名称目录
 path=os.path.join(path1)
 if not os.path.exists(path):
 os.mkdir(path)
 #章节目录
 path=path+'\\'+path2
 if not os.path.exists(path):
 os.mkdir(path)
 chrome=webdriver.Chrome()
 #"http://ac.qq.com/ComicView/index/id/505435/cid/2"
 chrome.get(url)
 time.sleep(4)
 imgs = chrome.find_elements_by_xpath("//div[@id='mainView']/ul[@id='comicContain']//img")
 for i in range(0, len(imgs)):
 js="document.getElementById('mainView').scrollTop="+str((i) * 1280)
 chrome.execute_script(js)
 time.sleep(3)
 print(imgs[i].get_attribute("src"))
 with open(path+'\\'+str(i)+'.png', 'wb') as f:
 f.write(requests.get(imgs[i].get_attribute("src")).content)
 chrome.close() 
 print('下载完成') 

if __name__ == '__main__':
 getChapterUrl('http://ac.qq.com/Comic/ComicInfo/id/505435')

简单解释

输入一个漫画的url即可爬取该漫画所有的章节，由于是模拟用户爬取的，所以速度方面有点慢，我试了下爬取银魂前70章，用了1个半小时，代码中的sleep可以适当简短点已加快爬取的速度

付费的漫画是没有办法爬取的

python批量爬取动漫免费看！！的更多相关文章

从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python批量爬取文档
最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...
python批量爬取猫咪图片
不多说直接上代码首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...
使用Python批量爬取美女图片
运行截图实列代码: from bs4 import BeautifulSoup import requests,re,os headers = { 'User-Agent': 'Mozilla/5. ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

SpringBoot2 + Druid + Mybatis 多数据源动态配置
在大数据高并发的应用场景下,为了更快的响应用户请求,读写分离是比较常见的应对方案.读写分离会使用多数据源的使用.下面记录如何搭建SpringBoot2 + Druid + Mybatis 多数据源配 ...
mysql系列--sql实现原理
count(*) MyISAM 引擎把⼀个表的总⾏数存在了磁盘上,因此执⾏ count(*) 的时候会直接返回这个数,效率很⾼:但是加了条件则不能快速返回⽽ InnoDB 引擎就麻烦了,它执⾏ cou ...
BFS与DFS常考算法整理
BFS与DFS常考算法整理 Preface BFS(Breath-First Search,广度优先搜索)与DFS(Depth-First Search,深度优先搜索)是两种针对树与图数据结构的遍历或 ...
近期 github 机器学习热门项目 top5
欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 作者:Walker No1:NVIDIA's vid2vid Technique( ...
使用electron和node-serialport的环境搭建过程
项目运行所需环境 1,必须安装nodejs 附上node下载地址-Nodejs node安装过程简单, 一直next就行了,我安装的版本是12.16.1,可以在powershell中通过 node - ...
图解JVM类加载机制和双亲委派模型
我们都知道以 .java 结尾的 Java 源文件,经过编译之后会变成 .class 结尾的字节码文件.JVM 通过类加载器来加载字节码文件,然后再执行程序. 什么时候加载一个类那么,什么时候类加载 ...
Python中类型的概念（一）
本课程主要介绍6种Python语言中的类型:数字类型.字符串类型.元组类型.列表类型文件类型.字典类型 1.数字类型 Python语言包括三种数字类型:整数类型.浮点数类型.复数类型 (1)整数类型 ...
layuiadmin使用Ueditor 获取不了数据的解决方法
表单根元素请使用form元素,layuiadmin 默认使用div作为表单根元素. <form class="layui-form"> <textarea nam ...
深入解读ES6系列（三）
ES6字符串哈喽小伙伴们,爱说'废'话的Z又回来了,欢迎来到Super IT曾的博客时间,上一节说了函数,解构赋值和数组的五大将,这一节我们继续我们知识的海洋,一起奋斗不秃头!不足的欢迎提问留言. ...
jenkins集成sonarQube实现代码质量检查
1.sonarQube的简介 SonarQube是一款自动化代码审查工具,用于检测代码中的错误.漏洞和代码异味.它可以与你现有的工作流集成,以支持跨项目分支和拉取请求的连续代码检查. 其工作流程如下: ...

python批量爬取动漫免费看！！

python批量爬取动漫免费看！！的更多相关文章

随机推荐

热门专题