Python_爬虫_百度图片

百度图片有些有编码问题，暂时不能爬取，多试几个

#思路：抓取图片地址，根据地址转存图片(注意名称)；难点：转码

# -*- coding:utf-8 -*-

from urllib import request,error

import json,re

# for page in range(4):

#     url = "http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%93%88%E5%A3%AB%E5%A5%87&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=%E5%93%88%E5%A3%AB%E5%A5%87&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn="+str(page*30)+"&rn=30&gsm=1e&1520997016315="

#     try:

#         response = request.urlopen(url).read().decode("utf-8")

#         print(type(response))

#

#     except error.URLError as e:

#         print(e.reason)

#

class BaiduImg(object):

    def __init__(self):

        super(BaiduImg,self).__init__()

        print('开始采集图片')

        self.page = 30

    def request(self):

        while self.page <= 30:

            request_url='http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%93%88%E5%A3%AB%E5%A5%87&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=%E5%93%88%E5%A3%AB%E5%A5%87&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=30&rn=30&gsm=1e&1520997014923='

            # print(len(request_url))

            headers = {

                'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'

                # 'Content-type':'text/html'

                # 'Content-type': 'text/html'

            }

            req=request.Request(request_url,headers=headers)

            with request.urlopen(req) as f:

                if f.status == 200:

                    content = f.read().decode('utf-8')

                    content_dict = json.loads(content)

                    self.download2(content_dict['data'])

            self.page += 30

    #下载图片的方法

    def dowload(self,data):

        for image in data:

            if image.get('middleURL'):

                url = image['middleURL']

            elif image.get('thumbURL'):

                url = image['thumbURl']

            elif image.get('hoverURL'):

                url = image['hoverURL']

            else:

                url=''

            if url:

                data = request.urlopen(url).read()

                imageName = strip(image['fromPageTitleEnc'])

                FileName = str('images/')+imageName+str('.jpg')

                with open(FileName,'wb') as f:

                    f.write(data)

    #使用urllib.request.urlretrive()保存图片

    # 使用urllib.request.urlretrieve()保存图片

    def download2(self, data):

        for image in data:

            if image.get('middleURL'):

                url = image['middleURL']

            elif image.get('thumbURL'):

                url = image['thumbURL']

            else:

                url = ""

            if url:

                imageName = strip(image['fromPageTitleEnc'])

                filePath = str('images/') + imageName + str('.jpg')

                request.urlretrieve(url, filePath)

#过滤函数

def strip(path):

    path = re.sub(r'[?\\*|"<>:/!?]','',str(path))

    return path

if __name__ == '__main__':

    bi = BaiduImg()

    bi.request()

Python_爬虫_百度图片的更多相关文章

python爬虫获取百度图片（没有精华，只为娱乐）
python3.7,爬虫技术,获取百度图片资源,msg为查询内容,cnt为查询的页数,大家快点来爬起来.注:现在只能爬取到百度的小图片,以后有大图片的方法,我会陆续发贴. #!/usr/bin/env ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...
Python爬虫_百度贴吧（title、url、image_url）
本爬虫以百度贴吧为例,爬取某个贴吧的[所有发言]以及对应发言详情中的[图片链接] 涉及: request 发送请求获取响应 html 取消注释通过xpath提取数据数据保存思路: 由于各贴吧发言 ...
Python_爬虫_案例汇总：
1.豆瓣采集 1 #coding:utf-8 2 #采集豆瓣书信息和图片,写进数据库 3 4 from urllib import request 5 # from bs4 import Beauti ...
Python爬虫_百度贴吧
# 本爬虫为爬取百度贴吧并存储HTMLimport requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_nam ...
Python_爬虫_基础
1.urllib 和 Xpath的区别与联系 from urllib import request from lxml import etree from bs4 import BeautifulS ...
Python_爬虫笔记_2018.3.19
Python_爬虫_笔记 1.前言 1.1爬虫用途: 网站采集.接口采集(地图(jis 热力学屋里端口/协议).微信.知乎.) 1.2基本流程:网页下载(requests)+网页解析+爬虫调度网页 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
【Python网络爬虫四】通过关键字爬取多张百度图片的图片
最近看了女神的新剧<逃避虽然可耻但有用>,同样男主也是一名程序员,所以很有共鸣被大只萝莉萌的一脸一脸的,我们来爬一爬女神的皂片. 百度搜索结果:新恒结衣本文主要分为4个部分: 1.下载 ...

随机推荐

35岁的程序员正在消失？No，我认识了一个50岁的程序员！
35岁的话题真是无穷无尽.一开始的时候,以为只有社交媒体上会有这种问题的讨论,没想到,公司内部的论坛上也有不少这类的文章.大家各有各的说法,但终究也没有找到银弹似的解决方案. 这段时间,倒是接触了一个 ...
jmeter_02_目录文档说明
jmeter目录文档说明 bin目录是可执行文件 jmeter.bat 是启动文件可以启动jmeter. 使用notpad++ 等文本编辑器打开 bat文件可以配置jvm的参数比如堆内存[Hea ...
kafka伪集群搭建
https://blog.csdn.net/zxy987872674/article/details/72466504
centos8使用timedatectl管理时间
一,centos8中默认使用chronyd来做时间服务 1,查看chronyd服务的状态 [root@blog ~]# systemctl status chronyd ● chronyd.servi ...
centos8平台使用dnf/yum管理软件包
一,dnf的用途 centos7开始,DNF 成为了默认的软件包管理器,同时 yum 仍然是可用的 DNF包管理器克服了YUM包管理器的一些瓶颈,提升了用户体验,内存占用,依赖分析,运行速度等方面 D ...
laravel服务容器转
laravel框架底层解析本文参考陈昊<Laravel框架关键技术解析>,搭建一个属于自己的简化版服务容器.其中涉及到反射.自动加载,还是需要去了解一下. laravel服务容器建立项 ...
doment ready事件和load事件的区别及实现
从2017年9月至今工作中大部分使用react,前端渲染的一些基础性知识记忆不是很深刻了.面试**公司的时候,碰到"document ready和load的区别,以及document rea ...
老板，来五道misc
开个杂项坑穿越时空的思念音频隐写,audacity分离音道,摩斯密码一把锁金三胖是个gif,明显能感觉到里面藏有flag stegsolve逐帧分离太low了,直接用脚本一把梭 import ...
项目实战：流水线图像显示控件（列刷新、1ms一次、缩放、拽拖、拽拖预览、性能优化、支持OpenGL GPU加速）
需求流水线图像扫描采集控件(带模拟数据测试)性能需求 1.需至少满足可1ms接收一次列数据,而不丢包(接收后可不必立马显示) 2.图片刷新率可达30HZ:限制需求 1.图片高度最小只能 ...
python获取响应某个字段值的三种方法
近期将要对两个接口进行测试,第一个接口的响应值是第二个接口的查询条件.为了一劳永逸,打算写个自动化测试框架.因为请求和响应都是xml格式的,遇到的问题就是怎么获取xml响应的某一个值.尝试了很多博客的 ...

Python_爬虫_百度图片

Python_爬虫_百度图片的更多相关文章

随机推荐

热门专题