文章目录

前言

一、环境配置

1.安装selenium

2.使用正确的谷歌浏览器驱动

前言

作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永远斗智斗勇...

提示：以下是本篇文章正文内容，下面案例可供参考

一、环境配置

1.安装selenium

selenium是一个自动化测试工具，能够模拟浏览器行为，在爬虫上得到了广泛引用。如果你没有安装,请pip install

pip install selenium

2.使用正确的谷歌浏览器驱动

下载符合你的谷歌浏览器的驱动，chromedriver的版本一定要与Chrome的版本一致，不然就不起作用。

查看自己谷歌浏览器的版本，我这里是92.0.4515.131

找到对应的ChromeDriver版本，然后可以从下面的网站下载。

下载地址：https://npm.taobao.org/mirrors/chromedriver/

完整的代码包以及chromedriver已上传资源：https://download.csdn.net/download/m0_49688739/21005123

二、使用步骤

1.加载chromedriver.exe

修改以下代码中的路径，使用你自己的：

driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)

2.设置是否开启可视化界面

selenium模拟浏览器行为，其实相当于将我们手动搜索，输入，点击等操作用代码完成，这里可以设置是否开启可视化界面。

开启：可以看到浏览器自动打开并输入关键词搜索，滑动页面等过程，可以监测下载过程。

关闭：不开启浏览器界面，后台运行下载。

默认为关闭，如果需要开启请注释掉那两行代码

1 # 创建一个参数对象，用来控制chrome是否以无界面模式打开

2     ch_op = Options()

3     # 设置谷歌浏览器的页面无可视化，如果需要可视化请注释这两行代码

4     ch_op.add_argument('--headless')

5     ch_op.add_argument('--disable-gpu')

3.输入关键词、下载图片数、图片保存路径

这里的图片保存路径需要使用\\区分

之后就是获取图片url的过程，由于谷歌图片页面是动态加载的，获取每个图片的原图就需要点开大图，并等它加载一会才能获取到原图的url，如果时间太短，获取到的就会是缩略图，或者出错。

如果你的网络状况不好，请适当延长等待时间time.sleep()。

1 image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')

2

3 # 此选项为下载缩略图

4 # image_src = image.get_attribute("src")

5 image.click() # 点开大图

6 time.sleep(4)  # 因为谷歌页面是动态加载的，需要给予页面加载时间，否则无法获取原图url，如果你的网络状况一般请适当延长

7 # 获取原图的url

8 image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')

9 image_url = image_real.get_attribute("src")

三、爬取效果

由于需要等待页面加载，所以爬取时间会比较长，请耐心等待。

下载的基本都是原图，除非获取原图url失败。

四、完整代码

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.chrome.options import Options

import time

import os

import urllib.request

import uuid

def download_pic(url, name, path):

    if not os.path.exists(path):

        os.makedirs(path)

    res = urllib.request.urlopen(url, timeout=3).read()

    with open(path + name +'.jpg', 'wb') as file:

        file.write(res)

        file.close()

def get_image_url(num, key_word):

    box = driver.find_element_by_xpath('/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input')

    box.send_keys(key_word)

    box.send_keys(Keys.ENTER)

    box = driver.find_element_by_xpath('//*[@id="hdtb-msb"]/div[1]/div/div[2]/a').click()

    # 滚动页面

    last_height = driver.execute_script('return document.body.scrollHeight')

    while True:

        driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

        time.sleep(2)

        new_height = driver.execute_script('return document.body.scrollHeight')

        try:

            driver.find_elements_by_xpath('//*[@id="islmp"]/div/div/div/div/div[5]/input').click()

        except:

            pass

        if new_height == last_height:

            # 点击显示更多结果

            try:

                box = driver.find_element_by_xpath('//*[@id="islmp"]/div/div/div/div[1]/div[2]/div[2]/input').click()

            except:

                break

        last_height = new_height

    image_urls = []

    for i in range(1, num):

        try:

            image = driver.find_element_by_xpath('//*[@id="islrg"]/div[1]/div[' + str(i) + ']/a[1]/div[1]/img')

            # 此选项为下载缩略图

            # image_src = image.get_attribute("src")

            image.click() # 点开大图

            time.sleep(4)  # 因为谷歌页面是动态加载的，需要给予页面加载时间，否则无法获取原图url，如果你的网络状况一般请适当延长

            # 获取原图的url

            image_real = driver.find_element_by_xpath('//*[@id="Sva75c"]/div/div/div[3]/div[2]/c-wiz/div/div[1]/div[1]/div[2]/div[1]/a/img')

            image_url = image_real.get_attribute("src")

            image_urls.append(image_url)

            print(str(i) + ': ' + image_url)

        except:

            print(str(i) + ': error')

            pass

    return image_urls

if __name__ == '__main__':

    # 创建一个参数对象，用来控制chrome是否以无界面模式打开

    ch_op = Options()

    # 设置谷歌浏览器的页面无可视化，如果需要可视化请注释这两行代码

    ch_op.add_argument('--headless')

    ch_op.add_argument('--disable-gpu')

    url = "https://www.google.com/"

    driver = webdriver.Chrome('E:/anaconda/chromedriver.exe', options=ch_op)

    driver.get(url)

    key_word = input('请输入关键词：')

    num = int(input('请输入需要下载的图片数：'))

    _path = input('请输入图片保存路径,例如G:\\\\google\\\\images\\\\ :')

    # path = "G:\\google\\images_download\\" + key_word + "\\"  # 图片保存路径改为自己的路径

    path = _path + key_word + "\\"

    print('正在获取图片url...')

    image_urls = get_image_url(num, key_word)

    for index, url in enumerate(image_urls):

        try:

            print('第' + str(index) + '张图片开始下载...')

            download_pic(url, str(uuid.uuid1()), path)

        except Exception as e:

            print(e)

            print('第' + str(index) + '张图片下载失败')

            continue

    driver.quit()

Python批量爬取谷歌原图，2021年最新可用版的更多相关文章

从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
python批量爬取动漫免费看！！
实现效果运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应先上代码,代码非常简短,包含空行也才50 ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
python批量爬取文档
最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...
python批量爬取猫咪图片
不多说直接上代码首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...
使用Python批量爬取美女图片
运行截图实列代码: from bs4 import BeautifulSoup import requests,re,os headers = { 'User-Agent': 'Mozilla/5. ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

每日总结：Java课堂测试第三阶段第一次优化（2021.9.20）
package jisuan2; import java.util.*;public class xiaoxue { public static void main(String[] args) { ...
C#并行编程：Parallel的使用
前言:在C#的System.Threading.Tasks 命名空间中有一个静态的并行类:Parallel,封装了Task的使用,对于执行大量任务提供了非常简便的操作.下面对他的使用进行介绍. 本篇内 ...
SpringMVC 数据响应
页面跳转返回字符串形式直接返回字符串:此种方式会将返回的字符串与视图解析器的前后缀拼接后跳转. @RequestMapping("/quick") public String ...
攻防世界XCTF-WEB入门全通关
为了更好的体验,请见我的---->个人博客 XCTF的web块入门区非常简单,适合一些刚接触安全或者对网络安全常识比较了解的同学在安全搞累之余娱乐娱乐. 其主要考察下面几点: 基本的PHP.Py ...
perl打开读取文件（open）
在Perl中可以用open或者sysopen函数来打开文件进行操作,这两个函数都需要通过一个文件句柄(即文件指针)来对文件进行读写定位等操作.下面以open函数为例:1:读:open(文件句柄,&qu ...
vue3 element-plus 配置json快速生成form表单组件，提升生产力近600%（已在公司使用，持续优化中）
️本文为博客园社区首发文章,未获授权禁止转载大家好,我是aehyok,一个住在深圳城市的佛系码农‍♀️,如果你喜欢我的文章,可以通过点赞帮我聚集灵力️. 个人github仓库地址: https:gi ...
javascript-jquery对象的动画处理
一.显示与隐藏动画效果 1.hide(动画持续时间,easing用来指定切换效果,动画执行完毕调用函数): $("p").hide(5000,"swing",f ...
单机CentOS 安装 TiDB
目录一.官网教程二.安装步骤 1.下载并安装 TiUP: 2.声明一下环境变量,否则会找不到 tiup 命令 3.安装 TiUP 的 cluster 组件: 4.官方教程说,由于模拟多机部署,需要 ...
vue基础-组件&插槽
组件组件化的意义:封装(复用,把逻辑隐藏起来,提高可维护性),快速开发(搭积木) 约定:我们通常把那些除了HTML标签以外的自定义组件,才称为'组件',结论是,我们说"父组件"& ...
【数据结构与算法Python版学习笔记】图——拓扑排序 Topological Sort
概念很多问题都可转化为图, 利用图算法解决例如早餐吃薄煎饼的过程制作松饼的难点在于知道先做哪一步.从图7-18可知,可以首先加热平底锅或者混合原材料.我们借助拓扑排序这种图算法来确定制作松饼的步 ...

Python批量爬取谷歌原图，2021年最新可用版

文章目录

前言

一、环境配置

1.安装selenium

2.使用正确的谷歌浏览器驱动

二、使用步骤

1.加载chromedriver.exe

2.设置是否开启可视化界面

3.输入关键词、下载图片数、图片保存路径

三、爬取效果

四、完整代码

Python批量爬取谷歌原图，2021年最新可用版的更多相关文章

随机推荐

热门专题