Python3爬虫（十三）爬取动态页之Selenium

Infi-chu:

http://www.cnblogs.com/Infi-chu/

Python提供了很多模拟浏览器运行的库，比如：Selenium、Splash等

1.常用的引用

from selenium import webdriver

from selenium.webdriver.commom.by import By

from selenium.webdriver.commom.keys import Keys

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

2.常用声明浏览器对象

browser = webdriver.Chrome()

browser = webdriver.Firefox()

browser = webdriver.Edge()

browser = webdriver.PhantomJS()

browser = webdriver.Safari()

3.访问页面
使用get()方法

from selenium import webdriver

browser = webdriver.Chrome()

browser.get('http://www.baidu.com')

print(browser.page_source)

browser.close()

4.查找节点
单个节点

find_element_by_name()	# 根据name值获取

find_element_by_id()	# 根据id值获取

find_element_by_xpath()

find_element_by_link_text()

find_element_by_partial_link_text()

find_element_by_tag_name()

find_element_by_class_name()

find_element_by_css_selector()	# 根据css选择

# 另外一种写法

find_element(By.ID,id)等价于find_element_by_id(id)

多个节点
使用find_elements()方法

find_elements_by_name()	# 根据name值获取

find_elements_by_id()	# 根据id值获取

find_elements_by_xpath()

find_elements_by_link_text()

find_elements_by_partial_link_text()

find_elements_by_tag_name()

find_elements_by_class_name()

find_elements_by_css_selector()	# 根据css选择

5.节点交互
所谓节点交互，可以理解成为你让浏览器去执行一些动作，比如在输入框输入文字、点击提交按钮等。
输入文字时使用send_keys()方法
清空文字时使用clear()方法
点击按钮时使用click()方法

6.动作链
动作链是扩展版本的节点交互，节点交互是一瞬间的动作，而动作链是持续性的动作，比如：拖动某个图片等

# 鼠标拖拽

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = brower.find_element_by_css_selector('#draggable')

target = brower.find_element_by_css_selector('#draggable')

actions = ActionChains(brower)

actions.drag_and_drop(source,target)	# drag_and_drop()方法指定区间

actions.perform()    # perform()方法让动作执行

7.执行JavaScript
使用execute_script()方法，参数是JavaScript语法

8.获取节点信息
获取属性
使用get_attribute()方法获得属性，前提需选中该节点

获取文本值
通过text属性获得，前提需要选中该节点

获取id、位置、标签和大小
使用id属性可以获得id
使用location属性可以获得location
使用tag_name属性可以获得tag_name
使用size属性可以获得size

9.延时等待
隐式等待
当查找节点时，节点并没有立即出现，则等待一段时间再查找DOM，默认时间时0

显式等待
指定要查找的节点，并指定最长等待时间，如果在此时间段内加载出来该节点，则返回查找结果；否则抛出异常

等待条件及含义

等待条件 　　　　　　　　　　　　　　　　　　　　　　　　               含义

title_js	　　　　　　　　　　　　　　　　　　　　　　　　　　	标题是某一内容

title_contains	　　　　　　　　　　　　　　　　　　　　　　   	标题包含某内容

presence_of_element_located	　　　　　　　　　　　　　　    	节点加载出来，传入定位元组，如（By.ID,'p'）

visibility_of_element_located	　　　　　　　　　　　　　　　　	节点可见，传入定位元祖

visibility_of	　　　　　　　　　　　　　　　　　　　　　　　　	可见，传入节点对象

presence_of_all_element_located	　　　　　　　　　　　　　　	所有节点加载完成

text_to_be_present_in_element	　　　　　　　　　　　　　　  	某个节点文本包含某文字

text_to_be_present_in_element_value	　　　　　　　　　　　     某个节点值包含文字

frame_to_be_available_and_switch_to_it	　　　　　　　　　　 	加载并切换

invisibility_of_element_located	　　　　　　　　　　　　　　        节点不可见

element_to_be_clickable	　　　　　　　　　　　　　　　　     	节点可点击

staleness_of	　　　　　　　　　　　　　　　　　　　　　　   	判断一个节点是否仍在DOM，可判断页面是否已经刷新

element_to_be_selected	　　　　　　　　　　　　　　　　             节点可选择，传节点对象

element_located_to_be_selected	　　　　　　　　　　　　     	节点可选择，传入元组对象

element_selection_state_to_be	　　　　　　　　　　　　　　 	传入节点对象以及状态，相等返回True，否则False

element_located_selection_state_to_be	　　　　　　　　　　 	传入定位元组及状态，相等返回True，否则False

alert_is_present	　　　　　　　　　　　　　　　　　　　        是否出现警告

10.前进、后退
back()方法为后退
forward()方法为前进

11.cookies操作
get_cookies()方法获得cookies信息
add_cookies()方法添加cookies信息
delete.all_cookies()方法删除所有cookies信息

Python3爬虫（十三）爬取动态页之Selenium的更多相关文章

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
Python3爬虫之爬取某一路径的所有html文件
要离线下载易百教程网站中的所有关于Python的教程,需要将Python教程的首页作为种子url:http://www.yiibai.com/python/,然后按照广度优先(广度优先,使用队列:深度 ...
python3爬虫应用--爬取网易云音乐（两种办法）
一.需求好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...
爬取动态网页：Selenium
参考:http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬虫过程中,一般情况下都是直接解析html源码进行分析解析即可.但是,有一种情 ...
爬虫（GET）——爬取多页的html
工具:python3 目标:将编写的代码封装,不同函数完成不同功能,爬取任意页数的html 新学语法:with open as 除了有更优雅的语法,with还可以很好的处理上下文环境产生的异常. # ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
多线程爬虫爬取详情页HTML
注意:如果想爬取详情页的信息请按须添加方法 import requests import os import re import threading from lxml import etree #爬 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...

随机推荐

织梦CMS调用文章列表时，怎么显示短时间格式
问题描述:织梦在上传文章的时候,默认的上传文章的时间格式都是年.月.日.小时.分钟.秒的格式,怎么才能实现仅显示年.月.日的格式呢? 解决方法: [field:pubdate function=&qu ...
在centos7中安装redis，并通过node.js操作redis
引言最近在学习node.js 连接redis的模块,所以尝试了一下在虚拟机中安装cent OS7,并安装redis,并使用node.js 操作redis.所以顺便做个笔记. 如有不对的地方,欢迎大家 ...
Oracle10g使用$ORACLE_HOME/rdbms/admin/awrrpt.sql报错
Enter value for report_name: Using the report name awrrpt_1_591_593.htmlselect output from table(dbm ...
NODE-windows 下安装nodejs及其配置环境
相信对于很多关注javascript发展的同学来说,nodejs已经不是一个陌生的词眼.有关nodejs的相关资料网上已经铺天盖地.由于它的高并发特性,造就了其特殊的应用地位. 国内目前关注最高,维护 ...
（第五场）J plan 【贪心】
题目链接:https://www.nowcoder.com/acm/contest/143/J 题目描述 There are n students going to travel. And hotel ...
Python的基本库与第三方库
一:Python 模块,包,库的概念理解: 1.python模块是: python模块:包含并且有组织的代码片段为模块. 表现形式为:写的代码保存为文件.这个文件就是一个模块.sample.py 其中 ...
sql 查询表的字段数量
select COUNT(a.name) from sys.all_columns a,sys.tables bwhere a.object_id=b.object_id and b.name='ta ...
学大伟业 Day 5 培训总结
今天讲数据结构先从mzx大佬的ppt摘抄一段: 数据结构是计算机存储.组织数据的方式.数据结构是指相互之间存在一种或多种特定关系的数据元素的集合. 通常情况下,精心选择的数据结构可以带来更高的运行或 ...
HDU 1071 The area（求三个点确定的抛物线的面积，其中一个点是顶点）
传送门: http://acm.hdu.edu.cn/showproblem.php?pid=1071 The area Time Limit: 2000/1000 MS (Java/Others) ...
如何解决mosh中翻页只能查看一屏的问题
最近用mosh替换了ssh作为连接开发机的工具,发现另外一个问题,ls cat随便什么命令输出结果超过一行的,向上翻页就没有了,找了下官网的FAQ也提到了这个问题,目前解决方案是使用tmux或者scr ...

Python3爬虫（十三） 爬取动态页之Selenium

Python3爬虫（十三） 爬取动态页之Selenium的更多相关文章

随机推荐

热门专题

Python3爬虫（十三）爬取动态页之Selenium

Python3爬虫（十三）爬取动态页之Selenium的更多相关文章