问题来源

来打算写一个的小游戏,但是图片都在GitHub仓库中,GitHub网页版又没有批量下载图片的功能,只有单独一张一张的下载,所以自己就写了个爬虫脚本模拟人的操作把整个页面上需要的图片爬取下来了。

图片网址: 点击此处跳转到图片仓库

下面截图比较多,可以点击图片查看高清截图!

[整体思路]

爬虫就是模拟人在网页上的操作,只是使用代码会比较快速,毕竟人点击鼠标的速度是有限的。

所以我们就先要看一下在GitHub上怎么下载一张图片,然后使用代码自动化去一张一张的下载全部内容。

手动下载一张图片的操作就是进入图片仓库,点击一张图片名,然后点击Download按钮,操作步骤如下:

  • 粘贴网址进入

  • 点击想要下载的图片名

  • 点击Download下载

下面我们要用代码模拟这个过程:

图片仓库地址

点击此处跳转到图片仓库,页面内总共有39张图片,我下面会详细介绍怎么去爬取这39张图片。

所需工具

chrome浏览器、pycharm

前期准备

1.首先第一步是打开这个网页,整体查看一下这个网页的概况,在一个图片名称右键选择元素。这样会定位到在这个页面内,这个图片所代表的url地址



2.接着第二步是通过检查我们把这个图片的点击链接复制下来,如下图,要选择复制HTML地址。



3.把刚刚复制的地址粘贴放在一个文本中,等下要分析这个东西。如下:

<a class=“js-navigation-open” title=“background.png” id=“9c1385517cbc8860981a2e72e3ad310f-24a041e8d54e0fff125a544ccd28616a44ecf226” href="/duanmingpy/beat-flight-game-/blob/master/images/background.png">background.png

我们把这段代码中的href后面的地址给分离出来(这个地址是不完整的), 我们等下要给它添加前面的网址文件,还要用代码自动替换后面的图片名,这样就可以进行批量自动化下载了,不完整的url地址如下:

“/duanmingpy/beat-flight-game-/blob/master/images/background.png”

4.我们再在页面中点击图片名进入到该图片的详细页面

页面内图片链接地址:



5.点击之后会进入到下面这个界面,我们再右键点击Download选择检查



6.进入检查界面如下,复制对应这个下载按钮的url地址:



把复制的这段代码粘贴在同一个文本中:

<a id=“raw-url” class=“btn btn-sm BtnGroup-item” href="/duanmingpy/beat-flight-game-/raw/master/images/background.png">Download

我们要其中的href后面引号内的url地址:

“/duanmingpy/beat-flight-game-/raw/master/images/background.png”

7.复制完之后,我们再点击一下这个url这时候会跳转一个新的网页,这里就称作是会把图片放大的网址吧,如下图, 我们把这个网址复制下来:



8. 我们接着回到最初的图片仓库点击此处跳转到图片仓库,复制这个图片仓库的地址:

  1. 然后我们把刚刚复制的四个网址放在一起分析

    第一个网址是所有图片一个页面内的时候的其中一张图片的url
"/duanmingpy/beat-flight-game-/blob/master/images/background.png"

第二个是单独一张图片Download按钮的url

"/duanmingpy/beat-flight-game-/raw/master/images/background.png"

第三个是点击download对应的url会跳转出来的url网址

https://raw.githubusercontent.com/duanmingpy/beat-flight-game-/master/images/background.png

第四个是图片仓库的地址:

https://github.com/duanmingpy/beat-flight-game-/tree/master/images

现在我们先把这四个网址放在这里,其中的相似之处想必已经明了。


[进入pycharm实验]

我们这里要用到的是python中的一个requests库,需要使用import requests 导入,这个库可以满足我们进行对指定网址的请求(访问)操作

我们还需要一个re模块,这个是python的内置正则匹配的一个库,同样需要import re导入使用。



紧接着我们要使用requests库中的get进行请求网址,get可以请求到很多内容,但是我们需要的并不多,先看例子:

首先我们在get方法中填入图片仓库的url,即https://github.com/duanmingpy/beat-flight-game-/tree/master/images,然后把返回值赋值给results, 再通过text打印出来:



通过上图我们可以发现,我们拿到了图片仓库页面的所有源代码,这里面就有所有的图片的url,我们接着需要使用正则表达式把我们需要的url匹配出来。

这个时候我们可以回头看一下我们上面复制的url中的第一个,单独一张图片的url样式是:/duanmingpy/beat-flight-game-/blob/master/images/background.png, 每张图片只有.png前面的名字不同,我们可以使用这样一个正则表达式:"/duanmingpy/beat-flight-game-/blob/master/images/\w+\.png"来匹配results.txt中的所有图片的url,(其中的\w+表示的是出现至少一次字母数下划线,用来匹配图片名称,\.用来匹配一个.)。

代码如下,匹配到的url存在一个列表中:



可以看到我们成功的拿到了每个图片的url


然后我们测试一下刚刚复制的四个url中的第三个("https://raw.githubusercontent.com/duanmingpy/beat-flight-game-/master/images/background.png"),点击Download对应的url跳出的网页的地址,试试这个网址我们可以请求到什么:



我们可以看到,拿到的是一串bytes,其实这个就是一个图片的编码,我们只要把这串编码以二进制形式存入文件,并且设置文件的后缀为png就可以点开查看了:

我们把这个二进制串存入文件并打开查看:



存入成功,查看一下:


到这里并没有结束,翻到上面,我们仔细看一下我们在text中匹配的每个url和当前这个能够保存图片的url(https://raw.githubusercontent.com/duanmingpy/beat-flight-game-/master/images/background.png)有什么区别:我们可以清楚的看到,我们需要为刚才匹配的各个url添加前缀网址,还要删除/blob这个字段, 使用循环处理每个网址:



这时候我们看到,每个url都有了前缀并去掉了/blob,可以用作下载图片使用了,这时候我们循环遍历这个存放处理后的url,让它能够自动get图片并且自动存入到指定文件夹:



如上图,所有图片都已下载到d盘文件夹下,我们打开看一下:



【完成!】用到的都是一些基础的知识。 总代码还不到十行,如果有看不懂的小伙伴可以加下面的群找我讲解,大家共同交流进步!

上面我们复制的四个地址中,只用到了两个,其实在分析的时候是需要四个进行比对的,这里我已经知道了规律所以没有进行比较分析,可以通过这个方式简单爬取一些其他网站图片或者文字


欢迎小伙伴们加入我创建的python交流群:625988679

8行代码批量下载GitHub上的图片的更多相关文章

  1. 利用Python几行代码批量生成验证码

    几行代码批量生成authCode 整体步骤: 1.创建图片 2.创建画笔 3.在图片上生成点 4.在图片上画线 5.在图片在画圆 6.在图片在写文本 7.在图片在生成指定字体的文本 代码奉上 #!/u ...

  2. 下载GitHub上的dnSpy源码

    一.方法 下载GitHub上项目的方法,目前我知道的有四种: 1.用svn软件checkout下载 2.安装git,然后git命令下载 3.直接下载项目压缩包 4.安装GitHub的客户端,然后下载项 ...

  3. 使用Android studio下载github上的工程及问题解决

    Android studio内置了github的插件,可以直接下载github上的工程,感觉好爽啊.具体怎么做呢?1.如图所示操作,如果是初次使用会提示输入用户名密码. 2.等android stud ...

  4. 将项目(代码)从GitHub上克隆(下载)到本地仓库

    要将项目从GitHub上克隆到本地,首先你得下载并安装好git for window. 下载地址:http://www.xp510.com/xiazai/Application/other/30988 ...

  5. Git学习笔记-----下载GitHub上某个分支的代码

    在GitHub上的仓库里,往往建有几个分支,如果只是想下载某个分支的代码,怎么办呢? 1.需要知道远程分支的名称,及远程分支所在的Git仓库 2.按下面指令下载 git clone -b 远程分支名称 ...

  6. 如何通过Git命令行把代码提交到github上

    1.http://www.cnblogs.com/leesf456/p/5169765.html   参考博客 背景:最近入手了mac,看见mac上的大神都是在用git命令行推代码,我很羡慕有木有,好 ...

  7. Git 将项目(代码)从GitHub上克隆(下载)到本地仓库

    要将项目从GitHub上克隆到本地,首先你得下载并安装好git for window. 配置Git: 1.安装完后,右键单击桌面空白处,选择Git Gui Here,进去之后,选择左上角的help选项 ...

  8. 不写1行代码,在Mac上体验ASP.NET 5的最简单方法

    昨天微软发布了ASP.NET 5 beta2(详见ASP.NET 5 Beta2 发布),对ASP.NET 5的好奇心又被激发了. 今天下午在Mac OS X上体验了一下ASP.NET 5,而且借助Y ...

  9. 将自己的代码托管到github上

    这几天一直在做一个爬虫的小demo,代码基本写的差不多了,想着如何把他放在一个地方,如是乎注册了一个github账号,开始了自己的git之旅. 首先是下载git,这个我就不多说啦!到处都有推荐看看廖雪 ...

随机推荐

  1. 02-18 scikit-learn库之k近邻算法

    目录 scikit-learn库之k近邻算法 一.KNeighborsClassifier 1.1 使用场景 1.2 代码 1.3 参数详解 1.4 方法 1.4.1 kneighbors([X, n ...

  2. A-05 前向选择法和前向梯度法

    目录 前向选择法和前向梯度法 一.前向选择法 1.1 余弦相似度求投影 1.2 举例 1.3 前向选择法优缺点 1.3.1 优点 1.3.2 缺点 二.前向梯度法 2.1 举例 2.2 前向梯度法优缺 ...

  3. 【DP合集】背包 bound

    N 种物品,第 i 种物品有 s i 个,单个重量为 w i ,单个价值为 v i .现有一个限重为 W 的背包,求能容 纳的物品的最大总价值. Input 输入第一行二个整数 N , W ( N ≤ ...

  4. Springboot 系列(十四)迅速启用 HTTPS 加密你的网站

    1. 获取 HTTPS 证书 正常情况下 HTTPS 证书需要从证书授权中心获得,这样获得的证书才具有公信力,也会被各种浏览器客户端所认可.常见的证书品牌如 Symantec,GeoTrustm,Tr ...

  5. Kubernetes WebSSH终端窗口自适应Resize

    追求完美不服输的我,一直在与各种问题斗争的路上痛并快乐着 上一篇文章Django实现WebSSH操作Kubernetes Pod最后留了个问题没有解决,那就是terminal内容窗口的大小没有办法调整 ...

  6. Dropzone.js

    2015-11-25 发布 DropzoneJS 官网没有中文版的,很多东西只能跟着自己的感觉去理解,有些地方把握不了是否准确,在网上搜了一下中文版,看到一位大神简易的中文版 个人觉得和原官网对比着看 ...

  7. vue 页面滚动到原位置

    哈哈哈,昨天登QQ的时候,意外发现有人看了我写的博客,居然还加了我,这就激起了我内心的小波澜啊 公司最近在做电商,用的前端框架依然是VUE 矩MAX(微信公众号)可以搜的到哦,安卓商店或苹果AppSt ...

  8. Mybaits 源码解析 (三)----- Mapper接口底层原理(为什么Mapper不用写实现类就能访问到数据库?)

    上一篇我们讲解到mapperElement方法用来解析mapper,我们这篇文章具体来看看mapper.xml的解析过程 mappers配置方式 mappers 标签下有许多 mapper 标签,每一 ...

  9. 中国大学MOOC-数据结构与算法实战 P6 括号匹配 (15 分)

    检查一段C语言代码的小括号( ). 中括号 [ ] 和大括号{ } 是否匹配. 输入格式: 在一行中输入一段C语言代码,长度不超过1000个字符(行末以换行符结束). 输出格式: 第一行输出左括号的数 ...

  10. Robot Framework——对时间操作的datetime库常用关键字

    1.对固定日期进行操作,增加或减去单位时间或者时间段 2.对两个时间段进行操作 3.对时间格式转化,获取时间戳 4.从完整时间中取指定年月日等 5.对时间类型进行格式化 6.获取当前时间或者指定时区时 ...