用Python爬虫爬取炉石原画卡牌图片

前段时间看了点Python的语法以及制作爬虫常用的类库，于是动手制作了一个爬虫尝试爬取一些炉石原画图片。本文仅记录对特定目标网站的分析过程和爬虫代码的编写过程。代码功能很局限，无通用性，仅作为一个一般爬虫程序提供参考。

要爬取的网站入口页面是:https://hearthstone.gamepedia.com/Full_art。网页上半部分的<li>标记了每个炉石资料片图片的名称(其实是锚点连接)，通过这些名称就可以获得各个资料片的专题链接，比如，冠军的试炼的专题资料片对应的网址为:https://hearthstone.gamepedia.com/The_Grand_Tournament_full_art

进入专题页面后，可以看到该资料片的图片列表，其中也有各个图片的缩略图连接，但是我想找到每个图片的原图。单个图片介绍的页面连接在每个class="image"的<a>标签中。比如连接：https://hearthstone.gamepedia.com/File:Argent_Horserider_full.png

进入单个图片的介绍页面后，可以找到class='internal'的<a>标签，它的href属性值就是该图片的原图连接。(嗯，判断的依据是从这个连接下载得到的图是最大的。。)

目标网站的情况大致分析完了，好像也不复杂。下面按照分析过程给出一些代码。

题外话:利用Python制作爬虫，我引用了两个类库。分别是BeautifulSoup和requests。Python版本是3.6.1。

首先是根据入口页面获取各个资料片的连接：

def get_links(url):
    r = requests.get(url)
    r.encoding = "utf-8"
    only_li = SoupStrainer(class_=re.compile("toclevel-1"))
    lis = BeautifulSoup(r.text, "html.parser", parse_only=only_li)
    links = []
    for li in lis:
        link = li.a["href"]
        links.append(link)

    return links

参数url就是入口连接的字符串值："https://hearthstone.gamepedia.com/Full_art"。通过requests.get(str)方法获得响应对象并设置其编码格式为"UTF-8"。然后创建了一个SoupStrainer对象，这个对象的作用是在解析(HTML)文档时进行过滤和筛选。class_=re.compile("toclevel-1")表示标签的类中含有值"toclevel-1"。然后就是进行文档解析，解析出来后得到的lis对象，就是包含资料片名称的各个<li>的集合。循环获取其中的<a>标签的href属性值即可。

第二步，根据关键字集合拼接连接。这个很简单。

def get_real_links(basic_url, keywords):

    real_links = []

    for keyword in keywords:

        keyword = keyword[1:]

        real_links.append(basic_url+"/"+keyword)

    return real_links

basic_url是指:https://hearthstone.gamepedia.com，keywords就是前一步操作得到的links集合。keyword = keyword[1:]是截取去掉锚点"#"号。

第三步就是根据资料片专题画面获取该资料片下的所有图片的图片介绍页面的链接。

def get_img_page_links(basic_url, real_link):
    all_img_page_link = []
    r = requests.get(real_link)
    r.encoding = "utf-8"
    ss = SoupStrainer(class_="image")
    only_img_a = BeautifulSoup(r.text, "html.parser", parse_only=ss)
    for img_a in only_img_a:
        all_img_page_link.append(basic_url+img_a["href"])
    print(all_img_page_link)
    return all_img_page_link

参数real_link是单个资料片的连接。主要代码和第一步是类似的，不再赘述了。

第四步，根据图片介绍页面的链接集合，获取原图片的资源链接。

def get_all_img_link(all_img_page_link):

    all_img_link = []

    for link in all_img_page_link:

        img_name = link[link.index("File:") + len("File:"):]

        path = "D://python/heartstoneimg/Knights_of_the_Frozen_Throne_full_art/"+img_name

        if os.path.exists(path):

            print(img_name+" exists")

            continue

        else:

            print("requesting:%s"%(link))

            r = requests.get(link)

            r.encoding = "utf-8"

            ss = SoupStrainer(class_="internal")

            img_a = BeautifulSoup(r.text, "html.parser", parse_only=ss)

            print("imag_a:%s" % (img_a))

            print(img_a.a["href"])

            img_link = img_a.a["href"]

            all_img_link.append((img_link, img_name))

            time.sleep(10)

            if len(all_img_link) > 20:

                break

    print(all_img_link)

    return all_img_link

这里的代码有偷懒的痕迹，在实际下载过程中，如果将所有资料片的所有图片一起循环下载，如果中间有报连接错误(公司网络不行)，文档解析的工作就会从头开始。所以我是按照每个资料片，单独下载的。所以，在本地硬盘中创建对应资料片文件夹这项的工作是手动完成的，更换一次资料片的下载也要再手工修改一次代码，这部分可以再完善。这部分程序首先是取得文件名字，然后判断是否已经下载过了，接着获取原图链接，并把图片名称和原图链接做成一个tuple存储在集合中。这里我每次运行只解析二十张图片的信息(还是网络原因)。

最后一步就是图片下载了。

def do_get_img(all_image_link):

    for img_link in all_image_link:

        path = "D://python/heartstoneimg/Knights_of_the_Frozen_Throne_full_art/"+img_link[1];

        if os.path.exists(path):

            print(img_link[1]+" exists.")

            continue

        else:

            print("downloading:%s" % (img_link[0]))

            try:

                pic = requests.get(img_link[0], timeout=60)

            except requests.exceptions.ConnectionError:

                print("fail or timeout!!")

                continue

            # path = "D://python/heartstoneimg/basic_full_art/"+img_link[1]

            print("writing:%s" % (path))

            file = open(path, 'wb')

            file.write(pic.content)

            file.close()

            time.sleep(10)

好像也很简单，每张图片下载的超时时间是六十秒，每次下载完一张图片后延迟十秒再下载，不然有时网站会因为你访问太过频繁而拒绝访问。

main部分的代码。

from bs4 import BeautifulSoup

import requests

import re

from bs4 import SoupStrainer

import time

import os

import socket

def start_get_img():

    url = "http://hearthstone.gamepedia.com/Full_art"

    keywords = get_links(url)

    basic_url = "http://hearthstone.gamepedia.com"

    real_links = get_real_links(basic_url, keywords)

    all_img_page_link = get_img_page_links(basic_url, real_links[11])

    all_img_link = get_all_img_link(all_img_page_link)

    do_get_img(all_img_link)

if __name__ == "__main__":

    start_get_img()

get_img_page_links(str,str)方法的第二个参数是当前的资料片链接。更完善的做法是循环real_links集合进行下载。

如果网络正常，每个资料片一百多张图片可以在一个小时内下载完。

我把下载到的原画图片作为资源制作了一个网站。

http://www.blz-art.com

有兴趣的可以去看下。

用Python爬虫爬取炉石原画卡牌图片的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

vs2010查看quartz.net 2.1.2的源码时其中一报错的解决方法
问题: 使用vs2010查看quartz.net 2.1.2的源码时,报错: ..\Quartz.NET-2.1.2\server\Quartz.Server\Quartz.Server.2010.c ...
[转]Asp.Net 网站多语言解决方案
本文转自:https://www.cnblogs.com/FredTang/archive/2013/01/23/2873231.html 最近领导要求实现PMSWeb应用程序的多区域语言的支持,所以 ...
[转]AngularJS中$timeout和$interval的用法详解
本文转自:http://www.cnblogs.com/moli-/p/5827618.html 1. 先将$interval,$timeout,作为参数注入到controller中,例如rds.co ...
linux vi模式下基本命令和快捷键
移动光标上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行下:j nj:向下移动n行左:h nh:向左移动n列右:l nl:向右移动n列 w:光标以单词向前移动 nw:光标向前 ...
微信 weui 初体验
最近微信推出他们自己的H5组件(weui)组件的优点有两个: 做为开发者的我们可以不用写太多css,直接拿过来就可以用. 组件都有点击态,大大增加了用户的体验好感高清屏幕下 border : 0.5 ...
【原】Shiro框架基础搭建[2]
简介: 关于搭建一个最基础的shiro网上的例子有很多,这里是记录一下自己尝试去看官方文档所搭建的一个小demo,项目采用的是原始的java静态工程,导入相关jar包后就能运行. 首先进入官网http ...
撩课-Web大前端每天5道面试题-Day25
1.web前端开发,如何提高页面性能优化? 内容方面: .减少 HTTP 请求 (Make Fewer HTTP Requests) .减少 DOM 元素数量 (Reduce the Number o ...
AutoFac简介
在.NET上现在存在许多的依赖注入容器, 如:Castle Windsor.StructureMap.Autofac .Unity. 这里主要介绍一下Autofac,Autofac和其他容器的不同之处 ...
Stream grouping-storm的流分组策略
A stream grouping tells a topology how to send tuples between two components. Remember, spouts and b ...
PHPCMS V9 fsockopen 函数被禁用解决方案
PHPCMS V9 fsockopen 禁用解决方案, 把fsockopen 替换成 pfsockopen 替换文件:phpsso_server/api/uc_client_1_5/client.ph ...

用Python爬虫爬取炉石原画卡牌图片

用Python爬虫爬取炉石原画卡牌图片的更多相关文章

随机推荐

热门专题