利用Python爬取网页图片

　　最近几天，研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文：

　　你可能需要的工作环境：

　　我们这里以sogou作为爬取的对象。

　　首先我们进入搜狗图片http://pic.sogou.com/，进入壁纸分类（当然只是个例子Q_Q），因为如果需要爬取某网站资料，那么就要初步的了解它…

进去后就是这个啦，然后F12进入开发人员选项，笔者用的是Chrome。

右键图片>>检查

发现我们需要的图片src是在img标签下的，于是先试着用 Python 的 requests提取该组件，进而获取img的src然后使用 urllib.request.urlretrieve逐个下载图片，从而达到批量获取资料的目的，思路好了，下面应该告诉程序要爬取的url为http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD，此url来自进入分类后的地址栏。明白了url地址我们来开始愉快的代码时间吧：

在写这段爬虫程序的时候，最好要逐步调试，确保我们的每一步操作正确，这也是程序猿应该有的好习惯。笔者不知道自己算不算个程序猿哈。线面我们来剖析该url指向的网页。

import requests

import urllib

from bs4 import BeautifulSoup

res = requests.get('http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD')

soup = BeautifulSoup(res.text,'html.parser')

print(soup.select('img'))

output：

发现输出内容并不包含我们要的图片元素，而是只剖析到logo的img，这显然不是我们想要的。也就是说需要的图片资料不在url 即 http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD里面。因此考虑可能该元素是动态的，细心的同学可能会发现，当在网页内，向下滑动鼠标滚轮，图片是动态刷新出来的，也就是说，该网页并不是一次加载出全部资源，而是动态加载资源。这也避免了因为网页过于臃肿，而影响加载速度。下面痛苦的探索开始了，我们是要找到所有图片的真正的url 笔者也是刚刚接触，找这个不是太有经验。最后找的位置F12>>Network>>XHR>>(点击XHR下的文件)>>Preview。

发现，有点接近我们需要的元素了，点开all_items 发现下面是0 1 2 3...一个一个的貌似是图片元素。试着打开一个url。发现真的是图片的地址。找到目标之后。点击XHR下的Headers

得到第二行

Request URL:

http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=%E5%A3%81%E7%BA%B8&tag=%E5%85%A8%E9%83%A8&start=0&len=15&width=1536&height=864，试着去掉一些不必要的部分，技巧就是，删掉可能的部分之后，访问不受影响。经笔者筛选。最后得到的url：http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=%E5%A3%81%E7%BA%B8&tag=%E5%85%A8%E9%83%A8&start=0&len=15 字面意思，知道category后面可能为分类。start为开始下标，len为长度，也即图片的数量。好了，开始愉快的代码时间吧：

开发环境为Win7 Python 3.6，运行的时候Python需要安装requests，

Python3.6 安装requests 应该CMD敲入：

pip install requests

笔者在这里也是边调试边写，这里把最终的代码贴出来：

import requests

import json

import urllib

def getSogouImag(category,length,path):

    n = length

    cate = category

    imgs = requests.get('http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category='+cate+'&tag=%E5%85%A8%E9%83%A8&start=0&len='+str(n))

    jd = json.loads(imgs.text)

    jd = jd['all_items']

    imgs_url = []

    for j in jd:

        imgs_url.append(j['bthumbUrl'])

    m = 0

    for img_url in imgs_url:

            print('***** '+str(m)+'.jpg *****'+'   Downloading...')

            urllib.request.urlretrieve(img_url,path+str(m)+'.jpg')

            m = m + 1

    print('Download complete!')

getSogouImag('壁纸',2000,'d:/download/壁纸/')

程序跑起来的时候，笔者还是有点小激动的。来，感受一下：

至此，关于该爬虫程序的编程过程叙述完毕。整体来看，找到需要爬取元素所在url，是爬虫诸多环节中的关键

利用Python爬取网页图片的更多相关文章

python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
用python 爬取网页图片
import re import string import sys import os import urllib url="http://tieba.baidu.com/p/252129 ...
python爬取网页图片
# html:网页地址 def getImg2(html): soup = BeautifulSoup(html, 'html.parser') href_regex = re.compile(r'^ ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
利用python爬取城市公交站点
利用python爬取城市公交站点页面分析 https://guiyang.8684.cn/line1 爬虫我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据.得 ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...

随机推荐

Excel日期中那个著名的bug
一个软件中的bug能够持续多久?答案不一,大多数bug在软件测试阶段就已经被干掉,又有许多死在Preview阶段,抑或正式上线后不久被干掉,有些则伴随软件终生,直到下一代产品发布才寿终正寝,而Exce ...
移动设备分辨率（终于弄懂了为什么移动端设计稿总是640px和750px）
在我开始写移动端页面至今,一直有2个疑问困扰着我,我只知道结果但不知道为什么问题1:为什么设计师给的设计稿总是640px或750px(现在一般以Phone6为基准,给的750px) 问题2:为什么我 ...
使用前端技术和MySQL+PHP制作自己的一个个人博客网站
源代码地址:https://github.com/YauCheun/BlogCode 我的博客网站地址:http://www.yublog.fun/ 制作前景: 想拥有一个自己独自开发的一个小型博客网 ...
linux 下搭建php环境
linux 下搭建php环境 1.下载apache (http://httpd.apache.org/download.cgi) 下载php组件 ( http://cn2.php.net/get/ph ...
IntelliJ IDEA激活，永久有效
2017.3.4版本正版的idea实在太贵了,有能力请支持正版. 下载jar包,放置在idea的bin目录下,传送门 https://files.cnblogs.com/files/dslx/Jet ...
Netty源码服务端的启动
最近一直在看netty,看完之后就想做点笔记.可是实在是太忙了,挤了还要几个晚上终于挤出来了上图是服务端的实例代码.大致的流程先梳理一遍. 首先会执行用于创建两个线程组,boosGroup用于接受 ...
Python 包构建教程
目录 setuptools 和 setup.py 你所需要做的事 & 一些概念基础概念关于源码分发文件和二进制分发文件示例和分发选择 pure python module package ...
Python 为什么要使用描述符？
学习 Python 这么久了,说起 Python 的优雅之处,能让我脱口而出的, Descriptor(描述符)特性可以排得上号. 描述符是Python 语言独有的特性,它不仅在应用层使用,在语言的 ...
ASP.NET Core 基于JWT的认证(二)
ASP.NET Core 基于JWT的认证(二) 上一节我们对 Jwt 的一些基础知识进行了一个简单的介绍,这一节我们将详细的讲解,本次我们将详细的介绍一下 Jwt在 .Net Core 上的实际运用 ...
oracle数据库导出表结构步骤
导出完成后在状态栏中显示Find

利用Python爬取网页图片

利用Python爬取网页图片的更多相关文章

随机推荐

热门专题