简介

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

作用：可以让浏览器完成相关自动化的操作

和爬虫的关联：

模拟登陆
可以获取动态加载的页面数据

编码流程：

导包
实例化浏览器对象（驱动）
制定相关自动化的行为动作

环境安装

下载安装selenium：pip install selenium
下载浏览器驱动程序：
- http://chromedriver.storage.googleapis.com/index.html
查看驱动和浏览器版本的映射关系：
- http://blog.csdn.net/huilan_same/article/details/51896672

简单使用/效果展示

01：

from selenium import webdriver

from time import sleep

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('https://www.baidu.com')    #获取的连接页面

sleep(2)

#标签定位

tag_input = bro.find_element_by_id('kw')

tag_input.send_keys('人民币')   #标签中输入值

sleep(2)

btn = bro.find_element_by_id('su')

btn.click()  #标签点击事件

sleep(2)

bro.quit()  #退出

02.

from selenium import webdriver

from time import sleep

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('https://xueqiu.com/')

sleep(5)

#执行js实现滚轮向下滑动

js = 'window.scrollTo(0,document.body.scrollHeight)'    #两个参数一个是X轴，一个是y轴，此时用的是Y轴

bro.execute_script(js)

sleep(2)

bro.execute_script(js)

sleep(2)

bro.execute_script(js)

sleep(2)

bro.execute_script(js)

sleep(2)

a_tag = bro.find_element_by_xpath('//*[@id="app"]/div[3]/div/div[1]/div[2]/div[2]/a')

a_tag.click()

sleep(5)

#获取当前浏览器页面数据(动态)

print(bro.page_source)    

bro.quit()

PhantomJs及谷歌无头浏览器无可视化：

#PhantomJs是一款无可视化界面的浏览器（免安装）

from selenium import webdriver

from time import sleep

bro = webdriver.PhantomJS(executable_path=r'C:\Users\Administrator\Desktop\爬虫+数据\爬虫day03\phantomjs-2.1.1-windows\bin\phantomjs.exe')

bro.get('https://xueqiu.com/')

sleep(2)

bro.save_screenshot('./1.png')

#执行js实现滚轮向下滑动

js = 'window.scrollTo(0,document.body.scrollHeight)'

bro.execute_script(js)

sleep(2)

bro.execute_script(js)

sleep(2)

bro.execute_script(js)

sleep(2)

bro.execute_script(js)

sleep(2)

bro.save_screenshot('./2.png')

# a_tag = bro.find_element_by_xpath('//*[@id="app"]/div[3]/div/div[1]/div[2]/div[2]/a')

# bro.save_screenshot('./2.png')

# a_tag.click()

sleep(2)

#获取当前浏览器页面数据(动态)

print(bro.page_source)

bro.quit()

现在用的很少，知道即可 




from selenium import webdriver

from time import sleep

from selenium.webdriver.chrome.options import Options

# 创建一个参数对象，用来控制chrome以无界面模式打开

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

bro = webdriver.Chrome(executable_path='./chromedriver.exe',options=chrome_options)

bro.get('https://www.baidu.com')

sleep(2)

bro.save_screenshot('1.png')

#标签定位

tag_input = bro.find_element_by_id('kw')

tag_input.send_keys('人民币')

sleep(2)

btn = bro.find_element_by_id('su')

btn.click()

sleep(2)

print(bro.page_source)

bro.quit()

谷歌无头浏览器

爬虫之Selenium的更多相关文章

[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
爬虫系列---selenium详解
一安装 pip install Selenium 二安装驱动 chrome驱动文件:点击下载chromedriver (yueyu下载) 三配置chromedrive的路径(仅添加环境变量即可) ...
Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
Python爬虫之selenium的使用（八）
Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
Python爬虫之selenium高级功能
Python爬虫之selenium高级功能原文地址表单操作元素拖拽页面切换弹窗处理表单操作表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...
python爬虫利器Selenium使用详解
简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...
Python爬虫小白---（二）爬虫基础--Selenium PhantomJS
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...

随机推荐

使用jackson解析json串得到树模型，然后遍历树模型获得需要的数据
Problem:从网址 http://quotes.money.163.com/hs/service/marketradar_ajax.php?host=http%3A%2F%2Fquotes.mon ...
Java的String.matches不区分大小写正则表达式匹配示例
需求:输入的cmd符合create,listall,delete三种形式,不用区分大小写写成函数: public static boolean isAllowed3Cmd(String cmd) { ...
Readme for Software engineering
作业任务: 软件工程软件工程作业要求作业要求作业目标博客园.github注册自我介绍软工5问自我介绍: 广东工业大学计算机学院18级信息安全二班广东工业大学AD攻防工作室成员& ...
第一次编程作业(My Own Score)
博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018SE2 作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018SE ...
Combine 框架，从0到1 —— 4.在 Combine 中使用计时器
本文首发于 Ficow Shen's Blog,原文地址: Combine 框架,从0到1 -- 4.在 Combine 中使用计时器. 内容概览前言使用计时器执行周期性的工作将计时器转换为计时 ...
通过例子讲解Spring Batch入门，优秀的批处理框架
1 前言欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章! Spring相关文章:Springboot-Cloud相关 Spring Batch是一个轻量级的.完善的批处理框架,作为S ...
[LeetCode]560. 和为K的子数组(前缀和)
题目给定一个整数数组和一个整数 k,你需要找到该数组中和为 k 的连续的子数组的个数. 示例 1 : 输入:nums = [1,1,1], k = 2 输出: 2 , [1,1] 与 [1,1] 为 ...
[剑指Offer]66-构建乘积数组
题目给定一个数组A[0,1,...,n-1],请构建一个数组B[0,1,...,n-1],其中B中的元素B[i]=A[0]A[1]...A[i-1]A[i+1]...A[n-1].不能使用除法. 题 ...
js监听事件的绑定与移除
监听事件的绑定与移除主要是addEventListener和removeEventListener的运用. addEventListener语法 element.addEventListener(ty ...
maven使用心得
1.一个项目下创建module,需要在project的pom下加入module,这个工程的pom <?xml version="1.0" encoding="UTF ...

爬虫之Selenium

简介

环境安装

简单使用/效果展示

PhantomJs及谷歌无头浏览器无可视化：

爬虫之Selenium的更多相关文章

随机推荐

热门专题