python爬取百度图片

import requests

import re

from urllib import parse

import os

from threading import Thread

def download(i,j,key,url):

    header = {'content-type': 'application/json',

             "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",

              "Connection":"keep-alive",

              "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

              "Accept-Language":"zh-CN,zh;q=0.8"

              }

    response = requests.get(url,headers=header)

    link = re.findall(r'"objURL":"(.*?)"',response.text,re.S)

    if not os.path.exists(key):

        os.mkdir("./"+key+"/")

    for web in link:

        url = decodeurl(web)

        print(url)

        try:

            #allow_redirects=False 关闭重定向

            pic = requests.get(url,timeout=10,headers=header,allow_redirects=False)

            dirfile = "./"+key+"/" +key + '_' + str(j) + '.jpg'

            fp = open(dirfile, 'wb')

            fp.write(pic.content)

            fp.close()

            j += 1

        except requests.exceptions.ConnectionError:

            print(web,"【错误】当前图片无法下载")

            continue

        except requests.exceptions.ReadTimeout:

            print(web, "【错误】超时")

            continue

        except requests.exceptions.ChunkedEncodingError:

            print(web, "【错误】远程主机强迫关闭了一个现有的连接")

            continue

def decodeurl(url):

    str_table = {

    '_z2C$q': ':',

    '_z&e3B': '.',

    'AzdH3F': '/'

    }

    char_table = {

        'w': 'a',

        'k': 'b',

        'v': 'c',

        '': 'd',

        'j': 'e',

        'u': 'f',

        '': 'g',

        'i': 'h',

        't': 'i',

        '': 'j',

        'h': 'k',

        's': 'l',

        '': 'm',

        'g': 'n',

        '': 'o',

        'r': 'p',

        'q': 'q',

        '': 'r',

        'f': 's',

        'p': 't',

        '': 'u',

        'e': 'v',

        'o': 'w',

        '': '',

        'd': '',

        'n': '',

        '': '',

        'c': '',

        'm': '',

        '': '',

        'b': '',

        'l': '',

        'a': ''

    }

    char_table = {ord(key): ord(value) for key, value in char_table.items()}

    for key,value in str_table.items():

        url = url.replace(key,value)

    url = url.translate(char_table)

    return url

def main():

    j = 0

    key = "树叶标本"

    data = parse.quote(str(key))

    for i in range(j,2000,30):

        if j == 0:

            j +=1

        url = "http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord+=&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&word="+data+"&z=&ic=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&step_word="+data+"&pn="+str(i)+"&rn=30&gsm=3c&1527055161957="

        download(i,j,key,url)

        j += 30

if __name__ == "__main__":

    main()

python爬取百度图片的更多相关文章

百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
selenium+chrome浏览器驱动-爬取百度图片
百度图片网页中中,当页面滚动到底部,页面会加载新的内容. 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片. from selenium im ...
使用python爬取百度贴吧内的图片
1. 首先通过urllib获取网页的源码 # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.ur ...
Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...

随机推荐

Linux高级调试与优化——内存管理
1.物理地址和虚拟地址 Linux采用页表机制管理内存,32位系统中页大小一般为4KB,物理内存被划分为连续的页,每一个页都有一个唯一的页号. 为了程序的的可移植性,进程往往需要运行在flat mem ...
[mysql]root用户登录mysql,输入密码后报错:Access denied for user 'root'@'localhost'
问题如下: wangju-G4:~$ mysql -u root -p Enter password: ERROR (): Access denied for user 'root'@'localho ...
Word模板替换
package com.sisa.auweb.tools.bookmarkprocess; import org.apache.poi.openxml4j.opc.OPCPackage; import ...
git 如何把master分支代码合并到自己的分支
master分支的代码领先自己的分支,git 如何把master分支代码合并到自己的分支 1.首先切换到主分支 git checkout master 2.使用git pull 把领先的主分支代码pu ...
k8s中使用harbor
参考地址:https://www.cnblogs.com/wayneiscoming/p/7716238.html .在harbor的ui界面上注册一个账号姓名:zihao 全名:zhuzihao ...
【LeetCode】188、买卖股票的最佳时机 IV
Best Time to Buy and Sell Stock IV 题目等级:Hard 题目描述: Say you have an array for which the ith element i ...
leetcode之53.最大子序和
题目详情给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和. 示例: 输入: [-2,1,-3,4,-1,2,1,-5,4], 输出: 6 解释: ...
简述Vue中使用Vuex
1.为什么要用vuex 在vue组件通信的过程中,我们通信的目的往往就是在组件之间传递数据或组件的状态(这里将数据和状态统称为状态),进而更改状态.但可以看到如果我们通过最基本的方式来进行通信,一旦需 ...
二、Kubernetes_V1.10集群部署-master-etcd
1.ETCD集群服务器: (1)172.18.6.39 (2)172.18.6.40 (3)172.18.6.41 1.安装etcd # yum -y install etcd 2.发布证书 cp - ...
HDU 1873 看病要排队（优先队列）
看病要排队 Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submi ...

python爬取百度图片

python爬取百度图片的更多相关文章

随机推荐

热门专题