python爬取哦漫画

 import requests

 from lxml import etree

 from bs4 import BeautifulSoup

 import os

 from selenium import webdriver

 #解析每个漫画分页并下载漫画

 def manhua(url):

     browser.get(url)

     #获取模拟访问的页面源码

     html=browser.page_source

     html = etree.HTML(html)

     img_url = html.xpath('//img[@id="mangaFile"]/@src')[0]

     alt = html.xpath('/html/body/div[2]/div[2]/h1/a/text()')[0]

     title = html.xpath('/html/body/div[2]/div[2]/h2/text()')[0]

     print(img_url,alt,title)

     # print(html)

     path='./漫画/'+alt+'/'+title+'/'

     if not os.path.exists(path):

         os.makedirs(path)

     fname=img_url.split('/')[-1]

     # print(fname)

     print(os.path.join(path,fname))

     # request.urlretrieve(img_url,os.path.join(path,fname))

     #请求图片地址

     response = requests.get(img_url)

     #二进制解码

     data= response.content

     #保存文件

     with open(path+fname,'wb') as f:

         f.write(data)

 #解析获取漫画分页链接

 def manhua_url(url):

     response = requests.get(url)

     response.encoding = response.apparent_encoding

     html = response.text

     html = etree.HTML(html)

     # print(html)

     #i为漫画页数

     i = html.xpath('/html/body/div[2]/div[2]/span/text()')[1][1:-1]

     i=int(i)

     # print(i)

     #找到分页规律

     #拼接分页链接，选择用format函数

     url = url +'/index.html?p={}'

     # print(url)

     for n in range(1,i+1):

         fullurl = url.format(n)

         print(fullurl)

         # time.sleep(2)

         #fullurl为所有的分页漫画链接

         manhua(fullurl)

 #解析列表页

 def list(lb_url):

     response = requests.get(lb_url)

     response.encoding = response.apparent_encoding

     html = response.text

     html = BeautifulSoup(html,'lxml')

     #匹配所有章节链接

     url_list = html.select('div.subBookList ul li')

     for url in url_list :

         url = url.select('a')[0].get('href').split('/')[-2]

         # print(url)

         fullurl = os.path.join(lb_url,url)

         print(fullurl)

         #章节链接

         manhua_url(fullurl)

     # print(url_list)

     # print(html)

 #解析首页

 def shouye():

     #首页链接

     base_url = 'http://www.omanhua.com/'

     #发起请求

     response = requests.get(base_url)

     #解码

     response.encoding = response.apparent_encoding

     #获取返回的网页

     html = response.text

     # print(html)

     #解析

     html =BeautifulSoup(html,'lxml')

     #匹配最热漫画链接

     url_list = html.select('ul#cartoon_image_show1 li')

     for url in url_list:

         # print(url)

         url = url.select('a')[0].get('href')[1:]

         # alt = url.select('a')

         # print(alt)

         #拼接链接

         fullurl = os.path.join(base_url,url)

         print(fullurl)

         list(fullurl)

 if __name__ == '__main__':

     # 用自动测试模块selenium模拟浏览器访问，这里用谷歌 图片加载获取不到图片链接

     #后面的路径是chorm驱动路径

     browser = webdriver.Chrome(executable_path=r'C:\Users\zhaozhi\Desktop\chromedriver.exe')

     shouye()

刚开始自学爬虫不久，代码可能写的有点繁琐，希望和大家一起学习学习进步

python爬取哦漫画的更多相关文章

Node.js/Python爬取网上漫画
某个周日晚上偶然发现了<火星异种>这部漫画,便在网上在线看了起来.在看的过程中图片加载很慢,而且有时候还不小心点到广告,大大延缓了我看的进度.后来想到能不能把先把漫画全部抓取到本地再去看. ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

随机推荐

四种为HttpClient添加默认请求报头的解决方案
HttpClient在Web调用中具有广泛的应用,而为它添加默认请求头是我们经常遇到的需求,本文介绍4种为HttpClient添加默认请求头的方式. 第一种方式直接在创建的HttpClient对象的 ...
CF 538 D. Flood Fill 递归区间DP
link:https://codeforces.com/contest/1114/problem/D 题意: 给定一个数组,有不同的颜色,你可以从任意一个位置开始,改变颜色,相邻的是同一种颜色的位子的 ...
hdu 5887 Herbs Gathering （dfs+剪枝 or 超大01背包）
题目链接:http://acm.split.hdu.edu.cn/showproblem.php?pid=5887 题解:这题一看像是背包但是显然背包容量太大了所以可以考虑用dfs+剪枝,贪心得到的不 ...
第 14 篇：交流的桥梁“评论功能”——HelloDjango 系列教程
截止到目前为止我们的 django blog 文章展示部分,已经实现的"八九不离十"了.你以为本系列文章就要结束了吗?不能够!新的征程才刚刚开始,HelloDjango 系列文章刚 ...
jQuery - 02. 样式表属性操作/类操作、动画、显示隐藏、滑入、淡入、停止动画、节点操作、添加对象、清空节点
样式表属性操作.css $("div").css({'width':100,'height':100,'background':'red'}); $("div" ...
git 生成密钥
1.本地安装好git: 2.桌面右键 Git Bash Here 打开git命令行: 3.ssh-keygen -t rsa -C "nideyouxiang@xxx.com" ...
JavaScript数组和伪数组
伪数组和数组记住一句话: 伪数组是一个Object,数组是Array. 对象和数组之间的关系 JavaScript的内置函数继承与 Object.prototype. 可以认为new Array() ...
二进制协议gob及msgpack介绍
本文主要介绍二进制协议gob及msgpack的基本使用. 最近在写一个gin框架的session服务时遇到了一个问题,Go语言中的json包在序列化空接口存放的数字类型(整型.浮点型等)都序列化成fl ...
ElasticSearch常见经典面试题
1.为什么要使用Elasticsearch? 因为在我们商城中的数据,将来会非常多,所以采用以往的模糊查询,模糊查询前置配置,会放弃索引,导致商品查询是全表扫面,在百万级别的数据库中,效率非常低下 ...
小白专场-树的同构-c语言实现.md
目录一.题意理解二.求解思路 2.1 二叉树表示 2.2 程序框架搭建 2.3 如何建二叉树 2.4 如何判别两二叉树同构更新.更全的<数据结构与算法>的更新网站,更有python. ...

python爬取哦漫画

python爬取哦漫画的更多相关文章

随机推荐

热门专题