python爬取百度图片

import requests

import re

from urllib import parse

import os

from threading import Thread

def download(i,j,key,url):

    header = {'content-type': 'application/json',

             "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",

              "Connection":"keep-alive",

              "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

              "Accept-Language":"zh-CN,zh;q=0.8"

              }

    response = requests.get(url,headers=header)

    link = re.findall(r'"objURL":"(.*?)"',response.text,re.S)

    if not os.path.exists(key):

        os.mkdir("./"+key+"/")

    for web in link:

        url = decodeurl(web)

        print(url)

        try:

            #allow_redirects=False 关闭重定向

            pic = requests.get(url,timeout=10,headers=header,allow_redirects=False)

            dirfile = "./"+key+"/" +key + '_' + str(j) + '.jpg'

            fp = open(dirfile, 'wb')

            fp.write(pic.content)

            fp.close()

            j += 1

        except requests.exceptions.ConnectionError:

            print(web,"【错误】当前图片无法下载")

            continue

        except requests.exceptions.ReadTimeout:

            print(web, "【错误】超时")

            continue

        except requests.exceptions.ChunkedEncodingError:

            print(web, "【错误】远程主机强迫关闭了一个现有的连接")

            continue

def decodeurl(url):

    str_table = {

    '_z2C$q': ':',

    '_z&e3B': '.',

    'AzdH3F': '/'

    }

    char_table = {

        'w': 'a',

        'k': 'b',

        'v': 'c',

        '': 'd',

        'j': 'e',

        'u': 'f',

        '': 'g',

        'i': 'h',

        't': 'i',

        '': 'j',

        'h': 'k',

        's': 'l',

        '': 'm',

        'g': 'n',

        '': 'o',

        'r': 'p',

        'q': 'q',

        '': 'r',

        'f': 's',

        'p': 't',

        '': 'u',

        'e': 'v',

        'o': 'w',

        '': '',

        'd': '',

        'n': '',

        '': '',

        'c': '',

        'm': '',

        '': '',

        'b': '',

        'l': '',

        'a': ''

    }

    char_table = {ord(key): ord(value) for key, value in char_table.items()}

    for key,value in str_table.items():

        url = url.replace(key,value)

    url = url.translate(char_table)

    return url

def main():

    j = 0

    key = "树叶标本"

    data = parse.quote(str(key))

    for i in range(j,2000,30):

        if j == 0:

            j +=1

        url = "http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord+=&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&word="+data+"&z=&ic=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&step_word="+data+"&pn="+str(i)+"&rn=30&gsm=3c&1527055161957="

        download(i,j,key,url)

        j += 30

if __name__ == "__main__":

    main()

python爬取百度图片的更多相关文章

百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
selenium+chrome浏览器驱动-爬取百度图片
百度图片网页中中,当页面滚动到底部,页面会加载新的内容. 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片. from selenium im ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...

随机推荐

while循环嵌套
<1>while嵌套的格式 while 条件1: 条件1满足时,做的事情1 条件1满足时,做的事情2 条件1满足时,做的事情3 ...(省略)... while 条件2: 条件2满足时,做 ...
代码实现:两个乒乓球队进行比赛，各出三人。甲队为a,b,c三人，乙队为x,y,z三人。已抽签决定比赛名单。有人向队员打听比赛的名单。 a说他不和x比，c说他不和x,z比，请编程序找出三队赛手的名单
/*两个乒乓球队进行比赛,各出三人.甲队为a,b,c三人,乙队为x,y,z三人. 已抽签决定比赛名单.有人向队员打听比赛的名单. a说他不和x比,c说他不和x,z比,请编程序找出三队赛手的名单.*/ ...
[pipenv]Warning: Python 3.7 was not found on your system…
前置条件: 切换到pipfile文件所在目录gotest_official 问题描述: 使用pipenv install创建虚拟环境,报错 wangju@wangju-HP--G4:~/Desktop ...
React之父子组件之间传值
1.新增知识点 /** React中的组件: 解决html 标签构建应用的不足. 使用组件的好处:把公共的功能单独抽离成一个文件作为一个组件,哪里里使用哪里引入. 父子组件:组件的相互调用中,我们把调 ...
我非要捅穿这 Neutron（三）架构分析与代码实现篇（基于 OpenStack Rocky）
目录文章目录目录 Neutron 的软件架构分析与实现 Neutron Server 启动流程获取 WSGI Application Core API & Extension API C ...
阶段3 2.Spring_10.Spring中事务控制_4 spring中事务控制的一组API
分析aop的 xml 的代码.更直观一些事务提交和回滚就是我们重复的代码 spring业余事务管理器,我们拿过来直接用就可以提交和回滚的后面直接调用释放.所以释放资源之类就是多余的在绑定连接到线 ...
系统分析与设计HW9
使用 ECB 实现 make reservation 用例的详细设计(包含用例简介,顺序图,类图) 用例简介: 搜索酒店 1.1 选择城市 1.2 选择日期生成订单 2.1 选择酒店 2.2 选择日 ...
使用FreeHttp任意篡改http报文（FreeHttp使用及实现说明）
本文转自:https://www.cnblogs.com/lulianqi/p/10428551.html 前言 FreeHttp是一个Fiddler插件借助FreeHttp您可按照您自己的设定修改请 ...
js实现动画（移动方块）
1.使方块移动源码 : <script type="text/javascript"> var div = document.createElement('di ...
【Ruby on Rails 学习三】Ruby 基本数据类型（类、类的实例、对象）
数字.文本.范围.符合.True.False.Nil 1为什么是一个类的对象,使用methods方法可以查看一个对象的所有函数(方法) $ irb irb(main)::> => irb( ...

python爬取百度图片

python爬取百度图片的更多相关文章

随机推荐

热门专题