Python 爬虫实例（1）—— 爬取百度图片

爬取百度图片在Python 2.7上运行

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Author: loveNight

import json

import itertools

import urllib

import requests

import os

import re

import sys

str_table = {

    '_z2C$q': ':',

    '_z&e3B': '.',

    'AzdH3F': '/'

}

char_table = {

    'w': 'a',

    'k': 'b',

    'v': 'c',

    '': 'd',

    'j': 'e',

    'u': 'f',

    '': 'g',

    'i': 'h',

    't': 'i',

    '': 'j',

    'h': 'k',

    's': 'l',

    '': 'm',

    'g': 'n',

    '': 'o',

    'r': 'p',

    'q': 'q',

    '': 'r',

    'f': 's',

    'p': 't',

    '': 'u',

    'e': 'v',

    'o': 'w',

    '': '',

    'd': '',

    'n': '',

    '': '',

    'c': '',

    'm': '',

    '': '',

    'b': '',

    'l': '',

    'a': ''

}

# str 的translate方法需要用单个字符的十进制unicode编码作为key

# value 中的数字会被当成十进制unicode编码转换成字符

# 也可以直接用字符串作为value

char_table = {ord(key): ord(value) for key, value in char_table.items()}

# 解码图片URL

def decode(url):

    # 先替换字符串

    for key, value in str_table.items():

        url = url.replace(key, value)

    # 再替换剩下的字符

    return url.translate(char_table)

# 生成网址列表

def buildUrls(word):

    word = urllib.quote(word)

    url = r"http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&st=-1&ic=0&word={word}&face=0&istype=2nc=1&pn={pn}&rn=60"

    urls = (url.format(word=word, pn=x) for x in itertools.count(start=0, step=60))

    return urls

# 解析JSON获取图片URL

re_url = re.compile(r'"objURL":"(.*?)"')

def resolveImgUrl(html):

    imgUrls = [decode(x) for x in re_url.findall(html)]

    return imgUrls

def downImg(imgUrl, dirpath, imgName):

    filename = os.path.join(dirpath, imgName)

    try:

        res = requests.get(imgUrl, timeout=15)

        if str(res.status_code)[0] == "":

            print(str(res.status_code), ":" , imgUrl)

            return False

    except Exception as e:

        print("抛出异常：", imgUrl)

        print(e)

        return False

    with open(filename, "wb") as f:

        f.write(res.content)

    return True

def mkDir(dirName):

    dirpath = os.path.join(sys.path[0], dirName)

    if not os.path.exists(dirpath):

        os.mkdir(dirpath)

    return dirpath

if __name__ == '__main__':

    word = raw_input("请输入你要下载的图片关键词：\n")

    word = str(word)

    dirpath = mkDir("results")

    urls = buildUrls(word)

    index = 0

    for url in urls:

        print("正在请求：", url)

        html = requests.get(url, timeout=10).content.decode('utf-8')

        imgUrls = resolveImgUrl(html)

        if len(imgUrls) == 0:  # 没有图片则结束

            break

        for url in imgUrls:

            if downImg(url, dirpath, str(index) + ".jpg"):

                index += 1

                print("已下载 %s 张" % index)

Python 爬虫实例（1）—— 爬取百度图片的更多相关文章

Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
python 爬虫之requests爬取页面图片的url，并将图片下载到本地
大家好我叫hardy 需求:爬取某个页面,并把该页面的图片下载到本地思考: img标签一个有多少种类型的src值?四种:1.以http开头的网络链接.2.以“//”开头网络地址.3.以“/”开头绝对 ...
芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...
【python爬虫】之爬取百度首页
刚开始学习爬虫,照着教程手打了一遍,还是蛮有成就感的.使用版本:python2.7 注意:python2的默认编码是ASCII编码而python3默认编码是utf-8 import urllib2 u ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

Linux环境redis集群搭建
集群后tomcat context.xml的配置  <Valve className="com.radiadesign.catalina.sessi ...
USACO numtri 数塔问题
/* ID:kevin_s1 PROG:numtri LANG:C++ */ #include <iostream> #include <cstdio> #include &l ...
Android开发，布局xml文件命名注意事项——不能包含任何大写字母
转自:http://blog.sina.com.cn/s/blog_628b45090100zuit.html 在开发Android应用时,会接触到布局文件,一般在工程名/res/layout/*. ...
LTE试题
D 如果出现eNB的告警1018007“小区退服,光口不可用”,不可能是以下哪种原因造成的?( ) 基带板上Ir接口光模块损坏基带板上Ir接口光模块被拔出基带板上Ir接口光模块型 ...
Python操作dict时避免出现KeyError的几种方法
见原文:https://www.polarxiong.com/archives/Python-%E6%93%8D%E4%BD%9Cdict%E6%97%B6%E9%81%BF%E5%85%8D%E5% ...
pidera安装node.js(树莓派)
1. 下载node.js wget http://nodejs.org/dist/v0.10.5/node-v0.10.5-linux-arm-pi.tar.gz tar -xzvf node-v0. ...
Qt 事件处理机制（上篇）
本篇来介绍Qt 事件处理机制 .深入了解事件处理系统对于每个学习Qt人来说非常重要,可以说,Qt是以事件驱动的UI工具集. 大家熟知Signals/Slots在多线程的实现也依赖于Qt的事件处理机制. ...
scala lambda 小括号与大括号
看akka源码的时候看到这样的一个用法: 作为接触scala两天半的我有些看不明白了.好一番搜索看到这样的答案: <scala雾中风景(2): 小括号与花括号> 下面的问题,表面上看是小括 ...
/etc/vsftpd.conf配置（ftp上传）
# Example config file /etc/vsftpd.conf## The default compiled in settings are fairly paranoid. This ...
[Angular] Angular Elements Intro
Make sure install the latest Angular v6 with Angular CLI. Checkout ght Github for the code. 1. Creat ...

Python 爬虫实例（1）—— 爬取百度图片

Python 爬虫实例（1）—— 爬取百度图片的更多相关文章

随机推荐

热门专题