selenium实现百度图片爬取

因为是百度图片是瀑布流ajax异步上传的数据，所以这里用到抓包工具来抓取链接（fiddler）

好了直接上代码，

 from selenium import webdriver

 from selenium.webdriver.common.by import By

 import requests,time

 from queue import Queue

 from urllib import request

 import os,gevent

 from lxml import etree

 def get_img(html):

     html = html.get()

     html = etree.HTML(html)

     img_url = html.xpath('//div[@id="imgid"]/div[last()]//li/@data-objurl')

     # print(img_url)

     path = './baidupic/'

     if not os.path.exists(path):

         os.makedirs(path)

     for url in img_url:

         print(url)

         # response = requests.get(url)

         # img = response.content

         try:

             fname = url.split('/')[-1]

             request.urlretrieve(url,os.path.join(path, fname))

             print('下载成功')

         except:

             print('图片不存在')

 def get_page():

     #创建数据队列

     q = Queue()

     #百度图片搜索地址

     base_url = 'https://image.baidu.com/'

     #返回浏览器对象

     browser = webdriver.Chrome(executable_path=r'C:\Users\zhaozhi\Desktop\chromedriver.exe')

     #模拟访问

     browser.get(base_url)

     #输入搜索关键字

     browser.find_element_by_id('kw').send_keys('美女')

     #按键

     browser.find_element_by_class_name('s_search').click()

     # time.sleep(2)

     for i in range(10):

         browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

         # time.sleep(2)

         # html = browser.page_source

         q.put(browser.page_source)

     # browser.close()

     # print(browser.page_source)

     g_list=[]

     for i  in range(20):

         g= gevent.spawn(get_img,q)

         g_list.append(g)

     gevent.joinall(g_list)

 # browser.save_screenshot('baidupic.png')

 # print(browser.page_source)

 # browser.find_element(By_)

 if __name__ == '__main__':

     get_page()

selenium实现百度图片爬取的更多相关文章

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中 ...
使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
4k图片爬取+中文乱码
4k图片爬取+中文乱码此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 import requests import os from lxml import ...
scrapy之360图片爬取
#今日目标 **scrapy之360图片爬取** 今天要爬取的是360美女图片,首先分析页面得知网页是动态加载,故需要先找到网页链接规律, 然后调用ImagesPipeline类实现图片爬取 *代码实 ...
[Python_scrapy图片爬取下载]
welcome to myblog Dome地址爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
selenium+chrome浏览器驱动-爬取百度图片
百度图片网页中中,当页面滚动到底部,页面会加载新的内容. 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片. from selenium im ...
Scrapy项目 - 实现百度贴吧帖子主题及图片爬取的爬虫设计
要求编写的程序可获取任一贴吧页面中的帖子链接,并爬取贴子中用户发表的图片,在此过程中使用user agent 伪装和轮换,解决爬虫ip被目标网站封禁的问题.熟悉掌握基本的网页和url分析,同时能灵活使 ...

随机推荐

Badboy录制模式
参考: http://leafwf.blog.51cto.com/872759/1109940 http://www.51testing.com/html/00/130600-1367743.html ...
HDU2874 Connections between cities 最近公共祖先
第一次按常规的方法求,将所有的查询的u,v,和最近公共祖先都保存起来,然后用tarjan+并查集求最近公共祖先.因为询问的次数过多,所以在保存查询的时候总是MLE,后来参考了一下别人的代码,才突然觉悟 ...
如何配置nginx和tomcat实现反向代理？
什么是反向代理通常的代理服务器,只用于代理内部网络对Internet的连接请求,客户机必须指定代理服务器,并将本来要直接发送到Web服务器上的http请求发送到代理服务器中由代理服务 ...
第10讲-Java集合框架
第10讲 Java集合框架 1.知识点 1.1.课程回顾 1.2.本章重点 1.2.1 List 1.2.2 Set 1.2.3 Map 2.具体内容 2.1.Java集合框架 2.1.1 为什么需要 ...
Erlang模块file翻译
模块摘要文件接口模块描述模块file提供了文件系统的接口. 在具有线程支持的操作系统上,可以让文件操作以其自己的线程执行,从而允许其他Erlang进程与文件操作并行地 ...
实现一个基于码云Storage
实现一个简单的基于码云(Gitee) 的 Storage Intro 上次在 asp.net core 从单机到集群一文中提到存储还不支持分布式,并立了一个 flag 基于 github 或者开源 ...
微服务时代之自定义archetype（模板/骨架/脚手架）
1. 场景描述 (1)随着微服务越来越常见,一个大的项目会被拆分成多个小的微服务,jar包以及jar之间的版本冲突问题,变得越来越常见,如何保持整体微服务群jar及版本统一,也变成更加重要了,mave ...
Redis字符串键的底层原理
before C语言基础 Redis基础导入 redis的命令如下: set x "hello"; get x; hello Redis作为一种存储字符串的缓存结构,其具体实现是 ...
javascript 中 typeof 和 instanceof 的区别
在 javascript 中经常会用到 typeof 和 instanceof 来判断一个对象的类型,可能 typeof 用得多些,那来看看这两个之间的区别吧. typeof : typeof 是一个 ...
[大数据学习研究]2.利用VirtualBox模拟Linux集群
1. 在主机Macbook上设置HOST 前文书已经把虚拟机的静态IP地址设置好,以后可以通过ip地址登录了.不过为了方便,还是设置一下,首先在Mac下修改hosts文件,这样在ssh时就不用输入ip ...

selenium实现百度图片爬取

selenium实现百度图片爬取的更多相关文章

随机推荐

热门专题