文章目录


前言

作为一名CVer,数据集获取少不了用到数据、图片爬虫技术,谷歌作为全球最大的数据搜索网站,如何从中快速获取大量有用图片数据尤为重要,但是技术更新,很多代码大多就会失效,爬与反爬永远斗智斗勇...


提示:以下是本篇文章正文内容,下面案例可供参考

一、环境配置

1.安装selenium

selenium是一个自动化测试工具,能够模拟浏览器行为,在爬虫上得到了广泛引用。如果你没有安装,请pip install

pip install selenium

2.使用正确的谷歌浏览器驱动

下载符合你的谷歌浏览器的驱动,chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。

查看自己谷歌浏览器的版本,我这里是92.0.4515.131

找到对应的ChromeDriver版本,然后可以从下面的网站下载。

下载地址:https://npm.taobao.org/mirrors/chromedriver/

完整的代码包以及chromedriver已上传资源:https://download.csdn.net/download/m0_49688739/21005123

二、使用步骤

1.加载chromedriver.exe

修改以下代码中的路径,使用你自己的:

driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)

2.设置是否开启可视化界面

selenium模拟浏览器行为,其实相当于将我们手动搜索,输入,点击等操作用代码完成,这里可以设置是否开启可视化界面。

开启:可以看到浏览器自动打开并输入关键词搜索,滑动页面等过程,可以监测下载过程。

关闭:不开启浏览器界面,后台运行下载。

默认为关闭,如果需要开启请注释掉那两行代码

1 # 创建一个参数对象,用来控制chrome是否以无界面模式打开
2 ch_op = Options()
3 # 设置谷歌浏览器的页面无可视化,如果需要可视化请注释这两行代码
4 ch_op.add_argument('--headless')
5 ch_op.add_argument('--disable-gpu')

3.输入关键词、下载图片数、图片保存路径

这里的图片保存路径需要使用\\区分

之后就是获取图片url的过程,由于谷歌图片页面是动态加载的,获取每个图片的原图就需要点开大图,并等它加载一会才能获取到原图的url,如果时间太短,获取到的就会是缩略图,或者出错。

如果你的网络状况不好,请适当延长等待时间time.sleep()。

1 image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
2
3 # 此选项为下载缩略图
4 # image_src = image.get_attribute("src")
5 image.click() # 点开大图
6 time.sleep(4) # 因为谷歌页面是动态加载的,需要给予页面加载时间,否则无法获取原图url,如果你的网络状况一般请适当延长
7 # 获取原图的url
8 image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
9 image_url = image_real.get_attribute("src")

三、爬取效果

由于需要等待页面加载,所以爬取时间会比较长,请耐心等待。


下载的基本都是原图,除非获取原图url失败。

四、完整代码

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import time
import os
import urllib.request
import uuid def download_pic(url, name, path): if not os.path.exists(path):
os.makedirs(path)
res = urllib.request.urlopen(url, timeout=3).read()
with open(path + name +'.jpg', 'wb') as file:
file.write(res)
file.close() def get_image_url(num, key_word): box = driver.find_element_by_xpath('/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input')
box.send_keys(key_word)
box.send_keys(Keys.ENTER)
box = driver.find_element_by_xpath('//*[@id="hdtb-msb"]/div[1]/div/div[2]/a').click() # 滚动页面
last_height = driver.execute_script('return document.body.scrollHeight')
while True:
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(2)
new_height = driver.execute_script('return document.body.scrollHeight')
try:
driver.find_elements_by_xpath('//*[@id="islmp"]/div/div/div/div/div[5]/input').click()
except:
pass
if new_height == last_height:
# 点击显示更多结果
try:
box = driver.find_element_by_xpath('//*[@id="islmp"]/div/div/div/div[1]/div[2]/div[2]/input').click()
except:
break
last_height = new_height image_urls = [] for i in range(1, num):
try:
image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')
# 此选项为下载缩略图
# image_src = image.get_attribute("src")
image.click() # 点开大图
time.sleep(4) # 因为谷歌页面是动态加载的,需要给予页面加载时间,否则无法获取原图url,如果你的网络状况一般请适当延长
# 获取原图的url
image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')
image_url = image_real.get_attribute("src")
image_urls.append(image_url)
print(str(i) + ': ' + image_url)
except:
print(str(i) + ': error')
pass
return image_urls
if __name__ == '__main__':
# 创建一个参数对象,用来控制chrome是否以无界面模式打开
ch_op = Options()
# 设置谷歌浏览器的页面无可视化,如果需要可视化请注释这两行代码
ch_op.add_argument('--headless')
ch_op.add_argument('--disable-gpu') url = "https://www.google.com/"
driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)
driver.get(url) key_word = input('请输入关键词:')
num = int(input('请输入需要下载的图片数:'))
_path = input('请输入图片保存路径,例如G:\\\\google\\\\images\\\\ :') # path = "G:\\google\\images_download\\" + key_word + "\\" # 图片保存路径改为自己的路径
path = _path + key_word + "\\"
print('正在获取图片url...')
image_urls = get_image_url(num, key_word)
for index, url in enumerate(image_urls):
try:
print('第' + str(index) + '张图片开始下载...')
download_pic(url, str(uuid.uuid1()), path)
except Exception as e:
print(e)
print('第' + str(index) + '张图片下载失败')
continue
driver.quit()

Python批量爬取谷歌原图,2021年最新可用版的更多相关文章

  1. 从0实现python批量爬取p站插画

    一.本文编写缘由 很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论 二.获取网页源码 爬取 ...

  2. python 批量爬取四级成绩单

    使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...

  3. python批量爬取动漫免费看!!

    实现效果 运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应 先上代码,代码非常简短,包含空行也才50 ...

  4. 用Python批量爬取优质ip代理

    前言 有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析 首先看看今天要爬取的网址 ...

  5. python 批量爬取代理ip

    import urllib.request import re import time import random def getResponse(url): req = urllib.request ...

  6. python批量爬取文档

    最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...

  7. python批量爬取猫咪图片

    不多说直接上代码 首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...

  8. 使用Python批量爬取美女图片

    运行截图 实列代码: from bs4 import BeautifulSoup import requests,re,os headers = { 'User-Agent': 'Mozilla/5. ...

  9. from appium import webdriver 使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium)

    使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

  1. P5666-[CSP-S2019]树的重心【树状数组】

    正题 题目链接:https://www.luogu.com.cn/problem/P5666 题目大意 给出\(n\)个点的一棵树,对于每条边割掉后两棵树重心编号和. \(1\leq T\leq 5, ...

  2. Java编程思想 第九章 接口

    第九章 接口 抽象类和抽象方法 抽象:从具体事物抽出.概括出它们共同的方面.本质属性与关系等,而将个别的.非本质的方面.属性与关系舍弃,这种思维过程,称为抽象. 这句话概括了抽象的概念,而在Java中 ...

  3. Sentry 监控 - Snuba 数据中台架构简介(Kafka+Clickhouse)

    系列 1 分钟快速使用 Docker 上手最新版 Sentry-CLI - 创建版本 快速使用 Docker 上手 Sentry-CLI - 30 秒上手 Source Maps Sentry For ...

  4. Apache ShardingSphere 邀您相约 Open Source Day

    Apache ShardingSphere 很荣幸接受 AnitaB.org 的邀请参加 OpenSourceDay Summer 2021 活动. Open Source Day (OSD) 是一个 ...

  5. Java(3)基本数据类型及其类型转换

    作者:季沐测试笔记 原文地址:https://www.cnblogs.com/testero/p/15201501.html 博客主页:https://www.cnblogs.com/testero ...

  6. python web1

    ***本篇中的测试均需要使用python3完成. 攻击以下面脚本运作的服务器. 针对脚本的代码逻辑,写出生成利用任意代码执行漏洞的恶意序列的脚本: 打开攻击机端口, 将生成的东西输入网页cookie: ...

  7. 如何将jdk12的源码导入idea

    如何将jdk12的源码导入idea中 一 首先,在idea中新建一个java工程 接着,在本地找到jdk所在的文件目录,进入jdk目录,找到javasrc目录或者一个src.zip的压缩包, 在向下或 ...

  8. 【Java虚拟机6】Java内存模型(Java篇)

    什么是Java内存模型 <Java虚拟机规范>中曾试图定义一种"Java内存模型"(Java Memory Model,JMM)来屏蔽各种硬件和操作系统的内存访问差异, ...

  9. hystrix的dashboard和turbine监控

    当我们的应用程序使用了hystrix后,每个具体的hystrixCommand命令执行后都会产生一堆的监控数据,比如:成功数,失败数,超时数以及与之关联的线程池信息等.既然有了这些监控数据数据,那么我 ...

  10. 我的一些JAVA基础见解

    这个学期学习JAVA基础课,虽说之前都自学过,但在学习时仍可以思考一些模糊不清的问题,可以更深一步的思考.在这里写下一些需要深入的知识点,对小白们也很友好~ 一.Java数据类型 1.基本数据类型 这 ...