wzry-spider

python通用爬虫-通用爬虫爬取静态网页，面向小白

基本上纯python语法切片索引，少用到第三方爬虫网络库

这是一只小巧方便，强大的爬虫，由python编写

主要实现了：

1.爬取高清皮肤大图

2.爬取所有英雄背景故事

所需的库有

1. requests 只用来发送请求和保存二进制文件

纯python爬虫，利用python索引切片文件读写不依赖第三方网络爬虫库实现硬核爬虫

完整项目放在GitHub：https://github.com/Ymy214/meizitu-spider

具体实现思路：

1. 分析网页源代码结构
1. 找到合适的入口
1. 穷举访问并解析
1. 爬取所有英雄所有皮肤图片

代码思路/程序流程：

我分析王者荣耀网站上面的英雄资料库发现所有英雄的页面基本上都是连贯的，并且还是偏向与静态网页没有过多的JavaScript渲染，所以比较适合来一波穷举遍历爬虫，但是速度也很快。利用python语法字符串操作，列表操作，字典操作等等循环遍历英雄页面利用python列表切片索引和字符串拼接等等方法来解析HTML得到皮肤图片链接和背景故事文本，将皮肤图片二进制文件保存为png高清大图，将所有英雄背景故事合并保存为文本文档

下面是功能以及效果展示

整体展示

爬取效果展示-丰功伟绩

爬取效果展示-硕果累累

背景故事

所有图片链接写入文本文件

代码展示

王者荣耀【皮肤高清大图爬虫】源代码如下

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

import requests

fo = open('./wzry-jpg/wzry-pf.txt', 'w')

path = './wzry-jpg/'

ls = []

for i in range(105,200):

    url = "http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{0}/{0}-bigskin-1.jpg".format(i)

    status_code = requests.request('get', url).status_code

    if status_code != 200:

        continue

    for j in range(1, 9):

        imgurl = url[:-5] + '{}.jpg'.format(j)

        response = requests.request('get', imgurl)

        if response.status_code != 200:

            continue

        ls.append(imgurl)

        ##下载

        print("开始下载第{}-{}个英雄皮肤图片>>>".format(i,j), end='')

        with open(path+str(i)+'-'+str(j)+'.png', 'wb') as f:

            f.write(response.content)

            print('======下载完成======')

for i in range(501,516):

    url = "http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{0}/{0}-bigskin-1.jpg".format(i)

    status_code = requests.request('get', url).status_code

    if status_code != 200:

        continue

    for j in range(1, 9):

        imgurl = url[:-5] + '{}.jpg'.format(j)

        response = requests.request('get', imgurl)

        if response.status_code != 200:

            continue

        ls.append(imgurl)

        ##下载

        print("开始下载第{}-{}个英雄皮肤图片>>>".format(i,j), end='')

        with open(path+str(i)+'-'+str(j)+'.png', 'wb') as f:

            f.write(response.content)

            print('======下载完成======')

##print(ls)

##连接写入txt文件

for line in ls:

    fo.write(line+'\n')

fo.close()

王者荣耀【英雄背景故事爬虫】源代码如下

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

import requests

fo = open('R:/python123全国等考/wzry-jpg/pop-bd.txt', 'w')

ls = []

for i in range(105,200):

    url = "https://pvp.qq.com/web201605/herodetail/{}.shtml".format(i)

    r = requests.request('get', url)

    if r.status_code != 200:

        continue

    r.encoding = 'gbk'

    name = r.text.split('cname')[1].split(',')[0].split("'")[1]

    text = r.text.split('pop-bd')[1].split('p>')[1][:-2]

    print("开始保存第{}个英雄背景故事>>>".format(i))

    fo.write('【'+name+'】'+'\n'+text+'\n'+'-'*30)

for i in range(501,516):

    url = "https://pvp.qq.com/web201605/herodetail/{}.shtml".format(i)

    r = requests.request('get', url)

    if r.status_code != 200:

        continue

    r.encoding = 'gbk'

    name = r.text.split('cname')[1].split(',')[0].split("'")[1]

    text = r.text.split('pop-bd')[1].split('p>')[1][:-2]

    print("开始保存第{}个英雄背景故事>>>".format(i))

    fo.write('【'+name+'】'+'\n'+text+'\n'+'-'*30)

##连接写入txt文件

fo.close()

另外本人还有面下给小白的

1. 反防盗链爬取妹子图
1. 王者荣耀背景故事爬虫

欢迎学习支持

有用或帮到你的话不妨点个star我将感激不尽

python爬虫王者荣耀高清皮肤大图背景故事通用爬虫的更多相关文章

python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
Python爬虫——你们要的王者荣耀高清图
曾经144区的王者学了计算机后头发逐渐从李白变成了达摩秀发有何用,变秃亦变强 (emmm徒弟说李白比达摩强,变秃不一定变强) 前言前几天开了农药的安装包,发现农药是.Net实现的游戏虽然游戏 ...
Python爬无止境，获得王者荣耀全部高清皮肤
作为一名热爱王者两年的程序员,早就想爬取所有英雄皮肤的高清照片,在设个幻灯片放映,真香,这次只用16行代码就能实现,对于新手拿这个作为实战练手项目既简单又容易上手,快来尝试下. 百度"王者荣 ...
python妹子图爬虫5千张高清大图突破防盗链福利5千张福利高清大图
meizitu-spider python通用爬虫-绕过防盗链爬取妹子图这是一只小巧方便,强大的爬虫,由python编写所需的库有 requests BeautifulSoup os lxml 伪 ...
用Python爬取《王者荣耀》英雄皮肤数据并可视化分析，用图说话
大家好,我是辰哥~ 今天辰哥带大家分析一波当前热门手游<王者荣耀>英雄皮肤,比如皮肤上线时间.皮肤类型(勇者:史诗:传说等).价格. 1.获取数据数据来源于<王者荣耀官方网站> ...
参考分享《Python深度学习》高清中文版pdf+高清英文版pdf+源代码
学习深度学习时,我想<Python深度学习>应该是大多数机器学习爱好者必读的书.书最大的优点是框架性,能提供一个"整体视角",在脑中建立一个完整的地图,知道哪些常用哪些 ...
Python实现王者荣耀小助手（二）
接下来我们获取英雄和武器信息,详细代码KingGlory.py如下(代码中有详细注解): # -*- coding: utf-8 -*- #!/usr/bin/env python # @Time : ...
Python实现王者荣耀小助手（一）
简单来说网络爬虫,是指抓取万维网信息的程序或者脚本,Python在网络爬虫有很大优势,今天我们用Python实现获取王者荣耀相关数据,做一个小助手: 前期准备,环境搭建: Python2.7 sys模 ...
Nginx+uWSGI+Python+Django构建必应高清壁纸站
写在前面做这个网站的初衷是因为,每次打开必应搜索搜东西的时候都会被上面的背景图片吸引,我想必应的壁纸应该是经过专业人员精选出来的,我甚至会翻看以前的历史图片,唯一美中不足的是必应的首页只能查看最多7 ...

随机推荐

HDU - 6025 Coprime Sequence（前缀gcd+后缀gcd）
题意:去除数列中的一个数字,使去除后数列中所有数字的gcd尽可能大. 分析:这个题所谓的Coprime Sequence,就是个例子而已嘛,题目中没有任何语句说明给定的数列所有数字gcd一定为1→_→ ...
Java compare方法和compareTo方法
Java Comparator接口排序用法,详细介绍可以阅读这个链接的内容:https://www.cnblogs.com/shizhijie/p/7657049.html 对于 public int ...
POJ 3096：Surprising Strings
Surprising Strings Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 6258 Accepted: 407 ...
三十、CI框架之使用cookies实现用户登录和退出。
一.在控制器中,写入3个函数.一个是login用于登录,一个是logout用于退出,一个show用来展示界面. login代码如下: logout和showuser函数如下: 二.我们的登录界面三. ...
URAL_1146/uva_108 最大子矩阵 DP 降维
题意很简单,给定一个N*N的大矩阵,求其中数值和最大的子矩阵. 一开始找不到怎么DP,没有最优子结构啊,后来聪哥给了我思路,化成一维,变成最大连续和即可.为了转化成一维,必须枚举子矩阵的宽度,通过预处 ...
如何通过C语言获取主机WLAN下的IPv4地址,MAC地址
#include "stdio.h" #include "windows.h" void GetHostWLAN_IPv4_AND_MAC(char IPv4[ ...
PAT 2018 秋
A 1148 Werewolf - Simple Version 思路比较直接:模拟就行.因为需要序列号最小的两个狼人,所以以狼人为因变量进行模拟. #include <cstdio> # ...
POJ 1160：Post Office 邮局经典DP
Post Office Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 17168 Accepted: 9270 Desc ...
Tensorflow Mask-RCNN（三）——实时检测视频
参考:https://www.youtube.com/watch?v=lLM8oAsi32g import cv2 import numpy as np def ran ...
python导出oracle中的表内容，并生成excel文件
export NLS_LANG=AMERICAN_AMERICA.ZHS16GBK; ### 如果oracle表中有中文输出,为防止乱码,执行脚本前,需要先制定字符集: #!/usr/bin/pyth ...

python爬虫王者荣耀高清皮肤大图背景故事通用爬虫