一、Selenium

  1. selenium是什么

Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。

在python爬虫可以简单的理解为:Selenium就是模仿人使用浏览器

  1. 如何下载或者是安装selenium

    cmd进入win终端,输入命令

    pip install selenium

二、ChromeDriver

  1. ChromeDrive是什么

    这个和JDBC类似,就是Selenium操作Chrome浏览器的驱动。同理Selenium操作Firefox浏览器就需要geckodriver,操作IE浏览器需要IEDriverServer驱动。

  2. 如何下载或者安装ChromeDriver

    注意:ChromeDriver要和自己使用的chrome版本一致

    注意:ChromeDriver要和自己使用的chrome版本一致

    注意:ChromeDriver要和自己使用的chrome版本一致

    2.1 查询自己chrome的版本

    ​ 地址栏输入:

    chrome://version/

    比如我的是:80.0.3987.149

    2.2 下载ChromeDriver

    地址栏:

    https://npm.taobao.org/mirrors/chromedriver/

    这里可能有人要问,不是最后一位不一样吗?

    答:的却,但是我估计只要前三位相同应该都可以的。有兴趣的同学可以试一下哈

    点击进去,下载对应的OS版本,比如我的是win电脑,我就下载第三个。

2.3 下载好之后,解压,把chromedriver.exe放到任意位置都可以。但是有要求:

  • 路径上不能有中文
  • 存放的路径不需要特殊权限

这样就可以了,接下来我们来测试一下。


三、测试

  1. 直接看代码

    from selenium import webdriver #导入必要的库
    #功能需求:模仿人类使用搜索框进行搜索
    # 业务分析:在搜索框中输入“关键字”,点击“百度一下”或者是“回车” #chromedriver.exe的存放路径
    driver_path=r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe" # 通过webdriver对象的Chrome方法【不同的浏览器对应不同的方法】,获取到chromedriver.exe
    driver = webdriver.Chrome(executable_path=driver_path) # 访问百度
    driver.get("http://www.baidu.com") # 根据页面的id值定位到搜索框的
    input_tag = driver.find_element_by_id("kw") #假如我们搜索“java”
    input_tag.send_keys("java") # 根据页面id获取到“百度一下”按钮
    submit_btn = driver.find_element_by_id("su") #这个方法其实就是模仿人们点击“百度一下”按钮或者是“回车”
    submit_btn.click()
  2. 运行代码。它会自动打开浏览器并自动输入“java”,并回车。

  3. 看效果


四、为什么要用它——Selenium

答:因为有很多网站的数据都是异步请求(Ajax)加载数据的,我们直接爬取是获取不到数据的。因此我们使用selenium爬取返回来的页面是已经经过浏览器解析好的页面,我们再通过使用Xpath、bs4等,就可以爬取自己想要的数据了。

爬虫&Selenium&ChromeDriver的更多相关文章

  1. 爬虫 selenium+Xpath 爬取动态js页面元素内容

    介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ...

  2. 爬虫----selenium模块

    一.介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳 ...

  3. Python爬虫——selenium模块

    selenium模块介绍 selenium最初是一个测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览 ...

  4. 爬虫---selenium动态网页数据抓取

    动态网页数据抓取 什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页 ...

  5. selenium + ChromeDriver 实战系列之启信宝(一)

    之前写了一篇selenium + ChromeDriver的一些入门的知识,这篇博客里面找了启信宝这个网站,简单的进行了一个实战练习.本篇博客的结构如下:       首先会给出一些使用seleniu ...

  6. Python爬虫-selenium的使用(2)

    使用selenium打开chrome浏览器百度进行搜索 12345678910111213141516171819202122232425 from selenium import webdriver ...

  7. [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

    前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...

  8. [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

    前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...

  9. [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

    前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...

随机推荐

  1. iOS开发黑科技之runtime

    iOS 开发之黑科技-runtime runtime其实就是oc底层的一套C语音的API 调用方法的本质就是发消息, 1.动态交换两个方法的实现(特别是交换系统自动的方法) 2.动态添加对象的成员变量 ...

  2. Presto单机/集群模式安装笔记

    Presto单机/集群模式安装笔记 一.安装环境 二.安装步骤 三.集群模式安装: 3.1 集群模式修改配置部分 3.1.1 coordinator 节点配置. Node172配置 3.1.2 nod ...

  3. “一亿”的教训:一次Google信箱诈骗是如何得手的?

    网络诈骗是指以非法占有为目的,利用互联网采用虚构事实或者隐瞒真相的方法,骗取数额较大的公私财物的行为.一年比一年网络诈骗越来越高手段,可以说是日益猖獗.在这里提醒一次各位朋友一定要注意自己的网络安全. ...

  4. poi简介

    POI简介(用于操作Excel) 1 Java Aspose Cells Java Aspose Cells 是一种纯粹的Java授权的Excel API,开发和供应商Aspose发布.这个API的最 ...

  5. C# InputStream获取后乱码处理

    Post推送过来的数据流获取后部分中文出现乱码,晚上找了好多办法,不如朋友鼎力相助,哈哈哈~不说废话了上代码把 旧代码基本是网上普遍写法,字段不长用起来不会有乱码情况,但是传送字段一旦过长,超过byt ...

  6. 深度学习遥感影像(哨兵2A/B)超分辨率

    这段时间,用到了哨兵影像,遇到了一个问题,就是哨兵影像,它的RGB/NIR波段是10米分辨率的,但是其他波段是20米和60米的,这就需要pansharpening了,所以我们需要设计一种算法来进行解决 ...

  7. vuex源码阅读分析

    这几天忙啊,有绝地求生要上分,英雄联盟新赛季需要上分,就懒着什么也没写,很惭愧.这个vuex,vue-router,vue的源码我半个月前就看的差不多了,但是懒,哈哈.下面是vuex的源码分析在分析源 ...

  8. Xcode辅助工具之热重载插件利器

    该博客首发于github.io 2018-06-13 13:43:44 文章最新修改于: 2019-03-31 13:47:20 昨天刚刚看完iOSTips微信公众号推送的文章, Injection: ...

  9. 前端小微团队的Gitlab实践

    疫情期间我感觉整个人懒散了不少,慢慢有意识要振作起来了,恢复到正常的节奏.最近团队代码库从Gerrit迁移到了Gitlab,为了让前端团队日常开发工作有条不紊,高效运转,开发历史可追溯,我也查阅和学习 ...

  10. 使用java短信验证

    package cn.geekss.util; import java.io.BufferedReader;import java.io.InputStreamReader;import java.i ...