学习了一天的python,终于可以爬爬了-

恒久恒久以前在语言大陆就听过一种叫,人生苦短,我用python的至理名言.陆陆续续在课下和业余生活中学习的一点python,知道基本的语法和规则,不过py的库实在是太多了,而且许多概念也没有深入的学习,不过这并不影响使用py,基本上面的知识就可以应对了,工具服务生活,那我就用py来干有意思的事情了.

环境:

　　python3.3.6

首先添加依赖包,这里用到xpath,json,urllib3,有些库需要自己下载安装,这网上教程一大堆,就不再赘述了.

from lxml import etree

import urllib3, urllib

import json

import random as rd

import os

import time

　　设置请求头

'''

漫画爬取-请求头

'''

header = {

    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",

    "Cache-Control": "no-cache",

    "Connection": "keep-alive",

    "Cookie": "",

    "Host": "",

    "Pragma": "no-cache",

    "Referer": "",

    "Upgrade-Insecure-Requests": "1",

    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"

}

'''

请求参数

'''

request = {

}

'''

漫画主站

'''

comicHost = ""

'''

漫画访问路径

'''

imgTemp = "/action/play/read"

　具体网站就不公开了,毕竟是免费的.其他网站的爬取也是大同小异.

'''

构造请求参数

t=0.01

id:漫画id

jid:漫画当前级数

tid:当前图片数

rand:随机数

'''

imgData = {"id": "", "jid": "", "tid": "", "rand": ""}

'''

本地存储路径

'''

localImgs = "F:\\comic\\"

http = urllib3.PoolManager();

'''

分类解析(主站和漫画首页)

'''

urllib3.disable_warnings()

def isContain(strUrl):

    return ".html" in strUrl

'''

漫画首页html信息

'''

bodyContent = ""

'''

返回解析数据

'''

def requestRemote(url, pattern):

    res = http.request("GET", url, header)

    # 保存页面信息

    urlArray = etree.HTML(res.data.decode("utf-8")).xpath(pattern)

    return urlArray

# 获取首页的漫画链接

arrayHtml = requestRemote(comicHost, "//div/ul/li/a/@href")

# 去掉下载完成的连接 级数

endArray = []

# 正在操作的漫画连接

nowOperate = ""

endSeries = 0

for url in arrayHtml:

    if isContain(url):

        pass

    else:

        flag = True

        for endUrl in endArray:

            if url == endUrl:

                flag = False

                break

        if flag:

            descArray = requestRemote(comicHost + url, "//div[@class='chapters']/ul/li/a/@href")

            for imgUrl in descArray:

                # 获取漫画id

                comicId = requestRemote(comicHost + imgUrl, "//div[@class='info clearfix']/form/input[@id='dataid']/@value")

                # 拼接漫画图片路径

                imgRealUrl = comicHost + imgTemp

                # 获取漫画级数

                sid = imgUrl.split("/")[2].split(".")[0]

                if url == nowOperate and int(sid) > endSeries:

                    print("略过已经下载的级数..." + sid + "级")

                    continue

                iid = 1

                # 存储图片数组

                imgArray = []

                # 循环获取图片

                while True:

                    if len(comicId) != 0:

                        imgData = {"did": comicId[0], "id": sid, "jid": id, "rand": rd.random()}

                        print("请求的路径: " + imgRealUrl + "?" + urllib.parse.urlencode(imgData))

                        # 得到漫画的json数据

                        resJson = http.request("GET", imgRealUrl + "?" + urllib.parse.urlencode(imgData), header)

                        # 判断漫画时候为空 JSON解析: JSON字符串中的内容应该用双引号，而非单引号。

                        result = json.loads(resJson.data.decode("utf-8"), encoding="utf-8")

                        if result["Code"] == "":

                            break

                        else:

                            imgArray.append(result["Code"])

                            iid += 1

                        # 遍历漫画

                        for imgSrc in imgArray:

                            print("图片开始下载")

                            # 构造图片本地存储路径

                            title = requestRemote(comicHost + url, "//div[@class='info d-item-content']/h1")

                            createPath = localImgs + title[0].text.strip() + "\\" + sid + "\\"

                            # 存储本级漫画

                            if os.path.exists(createPath):

                                pass

                            else:

                                os.makedirs(createPath)

                            img = http.request("GET", imgSrc)

                            file = open(createPath + imgSrc.split("/")[6], "wb+")

                            file.write(img.data)

                            print("图片下载成功! " + time.strftime('%Y-%m-%d %H%M%S',time.localtime(time.time())))

                        print("成功保存第" + sid + "级...")

                    else:

                        print("无法获取漫画id忽略下载...")

                        break

print("结束爬取...")

结果:

这里面需要注意几个就可以通用了:

所要爬去的具体地址,注意有的地址在网页上是无法发现的,需要第三方的抓包工具找到具体的请求地址
我这里使用的xpath对网页进行解析的,这个也比较简单,安装看下文档就可以直接使用了
我这里对照的每个下载的漫画做了一个过滤免下载,如果中间爬去错误的时候,则下载重新进行的时候,忽略其已经下载好的漫画

# 去掉下载完成的连接 级数

endArray = []

# 正在操作的漫画连接

nowOperate = ""

endSeries = 0

只需要知道点py的语法,urllib3知识,地方放的文档解析的插件,人人都可爬虫

学习了一天的python,终于可以爬爬了-_-的更多相关文章

[Python学习笔记][第七章Python文件操作]
2016/1/30学习内容第七章 Python文件操作文本文件文本文件存储的是常规字符串,通常每行以换行符'\n'结尾. 二进制文件二进制文件把对象内容以字节串(bytes)进行存储,无法用笔 ...
[Python学习笔记][第五章Python函数设计与使用]
2016/1/29学习内容第四章 Python函数设计与使用之前的几页忘记保存了很伤心变量作用域 -一个变量已在函数外定义,如果在函数内需要修改这个变量的值,并将这个赋值结果反映到函数之外,可 ...
[Python学习笔记][第四章Python字符串]
2016/1/28学习内容第四章 Python字符串与正则表达式之字符串编码规则 UTF-8 以1个字节表示英语字符(兼容ASCII),以3个字节表示中文及其他语言,UTF-8对全世界所有国家需要 ...
Python学习入门基础教程(learning Python)--5.6 Python读文件操作高级
前文5.2节和5.4节分别就Python下读文件操作做了基础性讲述和提升性介绍,但是仍有些问题,比如在5.4节里涉及到一个多次读文件的问题,实际上我们还没有完全阐述完毕,下面这个图片的问题在哪呢? 问 ...
从零开始学习PYTHON3讲义(一)认识Python
课程名称从零开始PYTHON3 课程长度 15讲适用年龄 15-20岁(初三-大一) 本讲名称认识Python 时长 90分钟教学内容分析 Python是时下最流行的计算机编程语言之一.本课程 ...
python3.4学习笔记(二十六) Python 输出json到文件,让json.dumps输出中文实例代码
python3.4学习笔记(二十六) Python 输出json到文件,让json.dumps输出中文实例代码 python的json.dumps方法默认会输出成这种格式"\u535a\u ...
python3.4学习笔记(二十五) Python 调用mysql redis实例代码
python3.4学习笔记(二十五) Python 调用mysql redis实例代码 #coding: utf-8 __author__ = 'zdz8207' #python2.7 import ...
python3.4学习笔记(二十四) Python pycharm window安装redis MySQL-python相关方法
python3.4学习笔记(二十四) Python pycharm window安装redis MySQL-python相关方法window安装redis,下载Redis的压缩包https://git ...
python3.4学习笔记(二十二) python 在字符串里面插入指定分割符，将list中的字符转为数字
python3.4学习笔记(二十二) python 在字符串里面插入指定分割符,将list中的字符转为数字在字符串里面插入指定分割符的方法,先把字符串变成list然后用join方法变成字符串str=' ...

随机推荐

sendmail邮件自动发送
配置邮件自动发送: 1.安装软件 yum -y install sendmail mailx 2.发送邮件的邮箱授权 eg:y******@126.com 网页网易云邮箱登陆 --> 设置 -- ...
mysql中的事物处理
首先,事物的概念,保证一组sql语句操作的完整性,在这个过程中要充分考虑到多用户同时访问数据库数据的情况. 关键词有COMMIT,ROLLBACK,,START TRANSACTION
Vue2学习笔记:计算属性（computed）
参考:https://www.cnblogs.com/zycbloger/p/6428907.html
mac重启，开启apache时报错~~~镜像没有找到
mac重启apache时,报类似下面的错 dyld: Library not loaded: /usr/local/lib/libjpeg8.dylib Referenced from: /usr/l ...
2.node.js (二)服务器登录注册与包的发布
get: 不安全小 2k 数据会在地址栏上显示从服务器获取快 post: 相对安全 https 大 1G 不会向服务器发送慢 get:直接解析url地址借助 url模块 var urlOb ...
mysql 查询排名返回值拼接的骚操作
故事背景: 依照原系统的框子搞一个新的系统给其他人使用,因为新的系统配置库依然需要使用原有的表,表中有字段区分新的系统,然后就有了这个很没劲的数据同步. 难点:配置库码表数据的主键之前是自增,后来改造 ...
RabbitMQ之路由键转发消息
RabbitMQ学习参考:https://www.jianshu.com/p/6b62a0ed2491 消息队列:目前流行的有 Kafka.RabbitMQ.ActiveMQ等功能:为了解决消息的 ...
DIOCP3-粘包处理
DIOCP3-粘包处理什么是粘包: 第一次发送 12345, 第二次发送abcde, 底层socket可能会一次性进行发送12345abcde,或者对方可能一次性进行了接收,那接收的时候,你可 ...
AsyncHttpClient使用
github地址:AsyncHttpClient, API:API 1.X和2.X差别很大,我用的1.X中的最新版 1.9.39. 这是一个异步请求的工具,越简单越好,不喜欢再结合netty使用.As ...
IntelliJ IDEA java文件注释模板
一.设置二.注释模板 /*** @version: java version 1.7+* @Author : * @Explain :* @contact: * @Time : ${DATE} ${ ...

学习了一天的python,终于可以爬爬了-_-

学习了一天的python,终于可以爬爬了-_-的更多相关文章

随机推荐

热门专题