python 爬取图片

使用python的requests库爬取网页时，获取文本一般使用text方法，如果要获取图片并保存要用content

举个栗子，爬煎蛋网的图：

#!/usr/bin/env python

#-*- coding:utf-8 -*-

import requests

import re

import os

url="http://jandan.net/ooxx"

s = requests.session()

header_jandan={'Host': 'jandan.net',

        'Connection': 'keep-alive',

        'Cache-Control': 'max-age=0',

        'Upgrade-Insecure-Requests': '',

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Referer': 'http://jandan.net/ooxx',

        'Accept-Encoding': 'gzip, deflate, sdch',

        'Accept-Language':'zh-CN,zh;q=0.8'}

resp = s.get(url,headers=header_jandan,timeout=10)

if len(resp.text) < 1500:

    resp2 = s.get(url,headers=header_jandan,timeout=10)

    text=resp2.text

else:

    text=resp.text

#print rn.text

img_url=re.findall(ur'(?<=\<img src\=").*?(?=\")',text)

d=os.getcwd()

for i in img_url:

    ret=i.split("/")

    file = ret[-1]

    #print file

    if i.find("http") == -1:

        url_img="http:"+i

        r_img=s.get(url_img,headers=header_jandan,timeout=10)

        open(os.path.join(d,file), 'wb+').write(r_img.content)

        print "write %s" % file

考虑到如果图片很大，获取需要时间，设置timeout超时避免内容取不完整。

写文件内容为r_img.content

打开文件的方式使用wb+，二进制文件覆盖方式写入。

python 爬取图片的更多相关文章

Python爬去图片实例,python 爬取图片
# coding:utf-8 import requests import re import time proxies = { "http": "http://124. ...
20170912多线程Python爬取图片
import threading #导入线程 from urllib import request #导入网页请求模块 import re #导入正则表达式模块 import os # 引入模块 fr ...
python爬取图片
1.导入需要的模块requests,BeautifulSoup,os(用于文件读写). 2.创建一个类,并初始化. 1 2 3 4 5 6 7 8 class BeautifulPicture: ...
python如何使用request爬取图片
下面是代码的简单实现,变量名和方法都是跑起来就行,没有整理,有需要的可以自己整理下: image2local: import requests import time from lxml import ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
孤荷凌寒自学python第八十二天学习爬取图片2
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文 ...
孤荷凌寒自学python第八十一天学习爬取图片1
孤荷凌寒自学python第八十一天学习爬取图片1 (完整学习过程屏幕记录视频地址在文末) 通过前面十天的学习,我已经基本了解了通过requests模块来与网站服务器进行交互的方法,也知道了Beauti ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...
python网络爬虫之使用scrapy爬取图片
在前面的章节中都介绍了scrapy如何爬取网页数据,今天介绍下如何爬取图片. 下载图片需要用到ImagesPipeline这个类,首先介绍下工作流程: 1 首先需要在一个爬虫中,获取到图片的url并存 ...

随机推荐

java基础(三)之面向对象编程
对象的创建方法语法: class 类名{ 属性; 方法; } 生成对象的方法类名对象名 = new 类名(); Dog dog = new Dog(); 对象的使用方法1.对象.变量;2.对象. ...
关于spring boot集成MQTT
安装说到mqtt,首先肯定要安装了,安装什么的地址:http://activemq.apache.org/ap...我本地是Windows的环境,所以装的是Windows版本,这里是第一个注意的地方 ...
Python - 反向遍历序列(列表、字符串、元组等)的五种方式
1. reversed() a = [1, 2, 3, 4] for i in reversed(a): print(i) 2. range(len(a)-1, -1, -1) a = [1, 2, ...
bzoj 4196：[NOI2015] 软件包管理器（树链剖分）
第一次做树剖找同学要了模板 + 各种借鉴先用dfs在划分轻重链并编号, install的时候就从查询的节点到根寻找标记的点有多少个,再用深度减去标记的点的个数,并把路径上所有点都标记 uninst ...
servlet中的“/”代表当前项目，html中的“/”代表当前服务器
servlet中重定向或请求转发的路径如果用“/”开头,代表当前项目下的路径,浏览器转发这条路径时会自动加上当前项目的路径前缀,如果这个路径不是以“/”开头,那么代表这个路径和当前所在servlet的 ...
bootstrap联动校验（转载）
接触bootstrapvalidator时间不久,最近需要多个字段共同验证,网上查了一下未找到,查阅api文档,发现确实可以实现. 先看dom <div class="form-gro ...
sourcetree（mac）设置代理
Mercurial: edit ~/.hgrcas shown here: http://www.selenic.com/mercurial/hgrc.5.html#http-proxy Git: e ...
Promise简单实现（正常思路版）
转自: http://www.jianshu.com/p/473cd754311f Promise 看了些promise的介绍,还是感觉不够深入,这个在解决异步问题上是一个很好的解决方案,所以详细看一 ...
winform学习（4）控件的添加、显示和隐藏
窗体的添加.显示与隐藏可以直接通过工具栏将某个控件直接拖动至UI界面(也可以在工具栏里双击某个控件) 也可以在代码里直接添加:窗体的标识.Controls.Add(控件标识符); Button my ...
在使用VS过程中关于Javascript没有智能提示的解决方法
问题:编写基本Script代码没有问题,但是在编写DOM代码时候没有智能提示.也就是在编写一般javascript代码时候没有问题,但是要写DOM代码的时候发现没有智能提示,如document等都需要 ...

python 爬取图片

python 爬取图片的更多相关文章

随机推荐

热门专题