【python】使用爬虫爬取动漫之家漫画全部更新信息
本篇仅在于交流学习
网站名称为:
https://manhua.dmzj.com/
1.首先将相应的库导入:
import requests
from lxml import etree
2.确定漫画更新页面上限:

第一页
第二页
可以确定页面转换是通过修改数字改变网页的
3.使用for循环遍历页面:
for page in range(1,11):
url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1)
print(url)
得到漫画更新全网页链接
4.截取网站信息进行分析:
heads = {}
heads['User-Agent'] = '用自己的网页头部'
html = requests.get(url=url, headers=heads).text
list = etree.HTML(html)
5.截取信息:
分析网页内容:

l = list.xpath("//div[@class='boxdiv1']")
for info in l:
title = info.xpath('div/ul/li/a/@title')[0] # 作品名
doc = info.xpath('div/ul/li/text()')[1] # '作者:'
name = info.xpath('div/ul/li/span/text()')[0] # 作者名·-
type = info.xpath('div/ul/li/text()')[2] # 类型
link = info.xpath('div/ul/li/a/@href')[0] # 作品链接
link = 'https://manhua.dmzj.com/' + link
newlink = info.xpath('div/ul/li/a/@href')[1] # 最新作品链接
newlink = 'https://manhua.dmzj.com/' + newlink
buff = info.xpath('div/ul/li/text()')[5] # 作品状态
print(title + " " + doc + name + " " + type + " " + link + " " + buff + " " + newlink + " ")x
效果:

6.完整代码:
import requests
from lxml import etree for page in range(1,11):
url = 'https://manhua.dmzj.com/update_%s.shtml' % (page * 1)
print(url)
heads = {}
heads['User-Agent'] = '用自己的头部'
html = requests.get(url=url, headers=heads).text
list = etree.HTML(html)
l = list.xpath("//div[@class='boxdiv1']")
for info in l:
title = info.xpath('div/ul/li/a/@title')[0] # 作品名 doc = info.xpath('div/ul/li/text()')[1] # '作者:' name = info.xpath('div/ul/li/span/text()')[0] # 作者名·- type = info.xpath('div/ul/li/text()')[2] # 类型 link = info.xpath('div/ul/li/a/@href')[0] # 作品链接
link = 'https://manhua.dmzj.com/' + link newlink = info.xpath('div/ul/li/a/@href')[1] # 最新作品链接
newlink = 'https://manhua.dmzj.com/' + newlink buff = info.xpath('div/ul/li/text()')[5] # 作品状态 print(title + " " + doc + name + " " + type + " " + link + " " + buff + " " + newlink + " ")
【python】使用爬虫爬取动漫之家漫画全部更新信息的更多相关文章
- 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
- 利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题 案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
- 通过爬虫爬取四川省公共资源交易平台上最近的招标信息 --- URLConnection
通过爬虫爬取公共资源交易平台(四川省)最近的招标信息 一:引入JSON的相关的依赖 <dependency> <groupId>net.sf.json-lib< ...
- Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
- Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
- python制作爬虫爬取京东商品评论教程
作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
- 如何用Python网络爬虫爬取网易云音乐歌曲
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两 ...
- python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
- 【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
- python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
随机推荐
- tensorflow2.0+TF-lite 各种报错
generic_type: type "InterpreterWrapper" is already registered! 原因:tensorflow2.5.0rc0版本太高,降 ...
- pycharm安装包的简便方法
- NodeJS安装(Mac版本)
nvm,node,npm之间的区别 nvm:nodejs 版本管理工具. 也就是说:一个 nvm 可以管理很多 node 版本和 npm 版本. nodejs:在项目开发时的所需要的代码库 npm:n ...
- AI 脸部美容,一键让你变瘦变美变老变年轻
目录 项目效果 项目安装 安装环境 项目使用 项目效果 随着 AI 技术的发展,你不仅随时可以看到自己的老了之后的样子,还能看到自己童年的样子 随着这部分技术的开源,会有越来越多的应用,当然我觉得前景 ...
- C#/VB.NET:如何将PDF转为PDF/A
PDF/A是一种ISO标准的PDF文件格式版本,是为长期保存文件而设计的.它提供了一种工具,使电子文件在长时间之后依然以一种保留其外观的方式重现,而不管该文件是用什么工具和系统创建.储存或制作的.这种 ...
- Go 语言:通过TDD测试驱动开发学习 Mocking (模拟)的思想
正文: 现在需要你写一个程序,从 3 开始依次向下,当到 0 时打印 「GO!」 并退出,要求每次打印从新的一行开始且打印间隔一秒的停顿. 3 2 1 Go! 我们将通过编写一个 Co ...
- Wondershare Recovery - 万兴数据恢复专家,恢复你 Mac 上的重要文件
Wondershare Recoverit 是恢复被删除文件最有效的软件之一.计算机用户面临的一个主要问题是失去机密信息.我们可能是误删除了数据和文件,或者可能是由于病毒袭击.操作系统故障或硬盘故障而 ...
- 机器学习算法(九): 基于线性判别模型的LDA手写数字分类识别
1.机器学习算法(九): 基于线性判别模型的LDA手写数字分类识别 1.1 LDA算法简介和应用 线性判别模型(LDA)在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用.LDA是一种 ...
- 从头开始,手写android应用框架(一)
前言 搭建android项目框架前,我们需要先定义要框架的结构,因为android框架本身的结构就很复杂,如果一开始没定义好结构,那么后续的使用就会事倍功半. 结构如下: com.kiba.frame ...
- AI工具导航
.xe-comment-entry img { float: left; display: block; background: rgba(136, 136, 136, 0.15); margin-r ...