安装

pip install selenium

开始

# coding=utf-8
from selenium import webdriver # 引用selenium库
import time # 实例化一个浏览器
driver = webdriver.Chrome()
# 请求网页地址
driver.get("http://www.baidu.com")
# 元素定位方法
driver.find_element_by_id("kw").send_keys("python")
driver.find_element_by_id("su").click() # 退出浏览器
time.sleep(3)
driver.quit()

报错

raceback (most recent call last):
File "D:/python_work/18-20爬虫代码V3.1/爬虫代码V3.1/day06/code/01_try_selenium.py", line 6, in <module>
driver = webdriver.Chrome()
File "D:\Programs\Python\Python35\lib\site-packages\selenium\webdriver\chrome\webdriver.py", line 73, in __init__
self.service.start()
File "D:\Programs\Python\Python35\lib\site-packages\selenium\webdriver\common\service.py", line 83, in start
os.path.basename(self.path), self.start_error_message)
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

原因:没有安装chromedriver

chromedriver下载地址:https://chromedriver.storage.googleapis.com/index.html

解压缩

unzip chromedriver_linux64.zip

把文件夹移动到/usr/bin目录下

sudo mv chromedriver /usr/bin/

测试是否成功

继续运行代码,成功

selenium用法

# coding=utf-8
from selenium import webdriver # 引用selenium库
import time # 实例化一个浏览器
driver = webdriver.Chrome()
# 请求网页地址
driver.get("http://www.baidu.com")
# 最大化窗口
# driver.maximize_window()
# 自定义窗口大小
driver.set_window_size("","")
# 保存图片
driver.save_screenshot('./baidu.png') # 元素定位方法
driver.find_element_by_id("kw").send_keys("python")
driver.find_element_by_id("su").click() # 请求
# 获取cookies
cookies = driver.get_cookies()
cookies = {i["name"]:i["value"] for i in cookies}
print(cookies)
# 获取网页elenments 即 html字符串
html = driver.page_source
print(html)
# 获取当前请求的url
current_url = driver.current_url
print(current_url) # 退出当前页面
driver.close()
# 退出浏览器
driver.quit()

find_element

# coding=utf-8
from selenium import webdriver
import time driver = webdriver.Chrome()
driver.get("https://www.baidu.com/s?ie=UTF-8&wd=python") # find_element和find_elements区别
# find_element返回一个对象,如果没有会报错
# find_elements返回一个对象集组成的列表,如果没有返回一个空列表 # 获取内容块列表
ret = driver.find_elements_by_xpath("//div[@id='content_left']//div[contains(@class,'c-container')]")
# by_xpath中获取属性需要使用get_attribute()
for i in ret:
# print(i.get_attribute('srcid'))
pass
# by_xpath中获取文本钥匙用text 注:不是text()
# 获取"下一页>"文本所在的链接
print(driver.find_elements_by_link_text("下一页>")[0].get_attribute("href"))
# 获取含有"下一页"文字的文本所在的链接
print(driver.find_element_by_partial_link_text("下一页").get_attribute("href"))
# 根据表签名获取内容
ret1 = driver.find_elements_by_tag_name("h3")
for i in ret1:
# print(i.text)
pass
# 根据class获取内容
ret2 = driver.find_elements_by_class_name("c-container")
print(ret2)
# 获取css选择器
print(driver.find_element_by_class_name("table,img")) driver.quit()

frame操作

# coding=utf-8
from selenium import webdriver
import time driver = webdriver.Chrome()
driver.get("https://mail.qq.com") # 切换到iframe
driver.switch_to.frame("login_frame")
# 如果没有切换到iframe的话 会找不到元素而报错
driver.find_element_by_id("u").send_keys("") time.sleep(3)
driver.quit()

爬虫-selenium的使用的更多相关文章

  1. [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

    前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...

  2. [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

    前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...

  3. [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

    前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...

  4. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

  5. python爬虫---selenium库的用法

    python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器 在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...

  6. [python爬虫] Selenium常见元素定位方法和操作的学习介绍

    这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...

  7. [python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)

    转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍 一. 定位元素方法 官网地址:http://selenium-python.readthedocs.org/locat ...

  8. 笔记-爬虫-selenium常用方法

    笔记-爬虫-selenium常用方法 1.      查找元素 常用的查找方法 find_element_by_name find_element_by_xpath find_element_by_l ...

  9. Python爬虫-selenium的使用(2)

    使用selenium打开chrome浏览器百度进行搜索 12345678910111213141516171819202122232425 from selenium import webdriver ...

  10. [Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

    前两篇文章介绍了安装,此篇文章算是一个简单的进阶应用吧!它是在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现搜索截图的功能.        [Pyth ...

随机推荐

  1. 用 cgroups 管理 cpu 资源

    转自:http://xiezhenye.com/2013/10/用-cgroups-管理-cpu-资源.html 这回说说怎样通过 cgroups 来管理 cpu 资源.先说控制进程的 cpu 使用. ...

  2. activiti在线画流程图

    springboot2.2 activiti6.0 activiti-modeler 5.22.0 注明:版本不一样会导致报错 上一篇:springboot整合activiti 效果图 代码分享:ht ...

  3. Kettle提高表输出写入速度(每秒万条记录)

    重点: ETL 优化多数在于表输入和表输出. 转自: https://blog.csdn.net/qq_37124304 https://blog.csdn.net/qq_37124304/artic ...

  4. 洛谷疯狂coding~

    1.关于数学建模思想在coding之中的应用. 将马路作为一条数轴,每棵树的位置作为数轴上的坐标点,再将坐标点与数组的下标联系到一起,完成建模. 2.本题坑点在于对“其中有多少个数,恰好等于集合中另外 ...

  5. update改数据详解

    update修改数据的要素  : 改哪张表? 改哪几列的值? 分别改成什么值? 在哪些行生效?(这个很重要,否则所有行都会受影响) mysql> update class ; where 表达式 ...

  6. github 白嫖记(一)

    位运算 按位操作符:0或者1之间的运算 a|b 或 任意一个为1结果为1 console.log(0 | 1) //1 console.log(1 | 0) //1 console.log(1 | 1 ...

  7. AtomicReference示例

    对引用类型的原子性操作 /** * *对引用变量的原子操作 note: *在java中对引用类型的变量,赋值是原子性的,为什么还要有atomicReference,假如要对一个引用类型进行比较,设置等 ...

  8. Prometheus Grafana可视化展示Linux资源使用率

    Prometheus Grafana可视化展示Linux资源使用率  Grfana官方仪表盘下载:https://grafana.com/dashboards 数据源推荐:https://grafan ...

  9. 基于 HTML5 换热站可视化应用

    换热站是整个热网系统中最核心的环节,它将一侧蒸汽或高温水通过热交换器换成可以直接进入用户末端的采暖热水.换热站控制系统是集中供热监控系统的核心部分,换热站控制系统既可独立工作,也可以接受调度中心的监督 ...

  10. 【BZOJ3328】PYXFIB(单位根反演,矩阵快速幂)

    [BZOJ3328]PYXFIB(单位根反演,矩阵快速幂) 题面 BZOJ 题解 首先要求的式子是:\(\displaystyle \sum_{i=0}^n [k|i]{n\choose i}f_i\ ...