selenium爬虫使用

1. 网页的打开

from selenium import webdriver

import time

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

# 1.打开浏览器

driver.get('https://www.baidu.com/')

2.网页浏览器的关闭

from selenium import webdriver

import time

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

time.sleep(5)

driver.close() # 关闭当前网页

driver.quit() # 关闭整个浏览器

3. 关于内容元素分析

from selenium import webdriver

import time

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

# 使用id进行查找

inputTag = driver.find_element_by_id('kw')

# 使用class_name 进行查找

inputTag = driver.find_element_by_class_name('s_ipt')

# 使用xpath 进行查找

inputTag = driver.find_element_by_xpath("//input[@id='kw']")

# 使用css解析器进行查找

inputTag = driver.find_element_by_css_selector('.s_ipt')

# 我们也可以使用By进行元素的查找

from selenium.webdriver.common.by import By

inputTag = driver.find_element(By.ID, 'kw')

inputTag.send_keys('python')

# 如果需要进行文本分析的话

from lxml import etree

html = etree.HTML(driver.page_source)

print(html.xpath(''))

4. 操作表单元素

from selenium import webdriver

import time

# 第一种：send_keys() 发送文本

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

inputTag = driver.find_element_by_id('kw')

inputTag.send_keys('python') # 向kw发送python

time.sleep(5)

inputTag.clear() # 进行输入的清除

# 第二种：进行点击操作

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

inputTag = driver.find_element_by_id('kw')

inputTag.send_keys('python') # 向kw发送python

time.sleep(5)

inputTag.click() # 进行输入的清除

# 第三种进行下拉框的操作

from selenium.webdriver.support.ui import Select

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

SelectBn = Select(driver.find_element_by_class_name('pf'))

SelectBn.select_by_index(1)

SelectBn.deselect_all()

5.行为链模仿鼠标进行移动，点击，双击操作

from selenium import webdriver

from selenium.webdriver.common.action_chains import ActionChains

import time

from selenium.webdriver.support.ui import Select

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

inputTag = driver.find_element_by_id('kw')

submitBn = driver.find_element_by_id('su')

actions = ActionChains(driver)

actions.move_to_element(inputTag) # 将鼠标进行移动

inputTag.send_keys('python') # 发送python文本

actions.click(submitBn) # 对百度一下进行点击

actions.perform() # 进行action操作

# click_and_hold(element) 右键点击且不松手

# context_click(element) # 右键点击

# double_click(element) # 进行双击操作

6. 对cookie进行操作，包括获取当前cookie，删除cookie

from selenium import webdriver

from selenium.webdriver.common.action_chains import ActionChains

import time

from selenium.webdriver.support.ui import Select

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

for cookie in driver.get_cookies(): # 获得所有的cookie信息

    print(cookie)

driver.delete_cookie('BD_HOME') # 删除cookie

print(driver.get_cookie('BD_HOME')) # 获得当前的cookie值

driver.delete_all_cookies() # 删除所有的cookie值

7. 隐式等待和显示等待

# 隐式等待

from selenium import webdriver

from selenium.webdriver.common.action_chains import ActionChains

import time

from selenium.webdriver.support.ui import Select

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

# 隐式等待

driver.implicitly_wait(10) # 最长等待10秒

driver.find_element_by_id('kw').send_keys('python')

driver.find_element_by_id('su').click()

# 显示等待, 如果在10秒内没有出现就爬出异常

# 显示等待

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome(executable_path=r"C:\Users\qq302\Desktop\chromedriver.exe")

driver.get('https://www.baidu.com/')

try:

    WebDriverWait(driver, 10).until(

        EC.presence_of_element_located((By.ID, 'kw'))

    )

finally:

    print('end')

8. 进行窗口的切换driver.switch_to.window(driver.window_handles[1])

from selenium import webdriver

driver_path = r'C:\Users\qq302\Desktop\chromedriver.exe'

driver = webdriver.Chrome(executable_path=driver_path)

driver.get('https://www.baidu.com/')

driver.execute_script("window.open('https://www.douban.com/')") # 打开豆瓣的网址

driver.execute_script('window.scrollTo(0, 1000000)')# 进行窗口的刷新移动

print(driver.window_handles) # 打印文件句柄

driver.switch_to.window(driver.window_handles[1])  # 切换driver的窗口

print(driver.current_url)

9.使用免费的代理ip打开网页

# 9 设置代理Ip

from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('--proxy-server=http://61.189.242.243:55484')  # 61.189.242.243表示ip, 55484表示端口号

driver = webdriver.Chrome(executable_path=r'C:\Users\qq302\Desktop\chromedriver.exe', options=options)

driver.get(r'http://httpbin.org/ip') # 使用代理ip打开网页

10.webdriverElement补充操作

# 10. WebElement元素补充操作

from selenium import webdriver

from selenium.webdriver.remote.webelement import WebElement

driver_path = r'C:\Users\qq302\Desktop\chromedriver.exe'

driver = webdriver.Chrome(executable_path=driver_path)

driver.get('https://www.baidu.com/')

submitBn = driver.find_element_by_id('su')

print(submitBn.get_attribute('value')) # 获得当前的value属性

driver.save_screenshot('baidu.png') # 进行截图保存

selenium爬虫使用的更多相关文章

Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数 async ...
爬虫(十一)：selenium爬虫
1. selenium基础 selenium部分可以去看我写的selenium基础部分,由于链接太多了这里就不发出来了. 代理ip: 有时候频繁爬取一些网页.服务器发现你是爬虫后会封掉你的ip地址.这 ...
Selenium爬虫实践（踩坑记录）之ajax请求抓包、浏览器退出
上一篇: 使用Selenium截取网页上的图片前言最近在搞公司内部系统,累的一批,需要从另一个内部系统导出数据存到数据库做分析,有大量的数据采集工作,又没办法去直接拿到那个系统的接口,太难了,只能 ...
Ubuntu下的Selenium爬虫的配置
在服务器Ubuntu系统上跑爬虫,爬虫是基于Selenium写的,遇到好几个问题,现在这里记录一下. 1. 安装环境阿里云,Ubuntu16.04,因为没有界面,所以远程命令行操作.爬虫是基于Sel ...
Katalon Recorder 自动录制 Selenium 爬虫脚本
相信很多小伙伴都用过 Selenium 来完成爬虫工作,今天就给大家带来一个神器,可以录制你的浏览器动作,然后直接生成 Selenium 脚本,是不是心动了? 1 Selenium 简介 Seleni ...
selenium爬虫
Web自动化测试工具,可运行在浏览器,根据指令操作浏览器,只是工具,必须与第三方浏览器结合使用,相比于之前学的爬虫只是慢了一点而已.而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制.因此找 ...
使用selenium爬虫抓取数据
写在前面本来这篇文章该几个月前写的,后来忙着忙着就给忘记了.ps:事多有时候反倒会耽误事.几个月前,记得群里一朋友说想用selenium去爬数据,关于爬数据,一般是模拟访问某些固定网站,将自己关注的 ...
selenium爬虫入门（selenium+Java+chrome）
selenium是一个开源的测试化框架,可以直接在浏览器中运行,就像用户直接操作浏览器一样,十分方便.它支持主流的浏览器:chrome,Firefox,IE等,同时它可以使用Java,python,J ...
python selenium爬虫工具
今天seo的同事需要一个简单的爬虫工具, 根据一个url地址,抓取改页面的a连接,然后进入a连接里面的页面再次抓取a连接 1.需要一个全局的set([])集合来保存抓取的url地址 2.由于现在单页面 ...

随机推荐

【4】Zookeeper数据模型
一.Znode节点是什么 1.1.概念 Znode节点是Zookeeper中数据模型中最小的数据单元.Zookeeper的数据模型是一颗树,由"/"进行分割路径.每个znode ...
linux命令详解——sed
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换.删除.新增.选取等特定工作,下面先了解一下sed的用法 sed命令行格式为: se ...
facenet中pairs文件制作
1.对图片进行重命名 """Rename the image based on the folder name""" import os i ...
Selenium（3）
练习1:Ecshop 录制登录后退出业务打开系统存储页面的标题 a.点击"登录"按钮 b.输入用户名:testing 存储输入的用户名 c.输入密码:123456 d.点击&q ...
JVM 字节码指令手册 - 查看 Java 字节码
JVM 字节码指令手册 - 查看 Java 字节码 jdk 进行的编译生成的 .class 是 16 进制数据文件,不利于学习分析.通过下命令 javap -c Demo.class > Dem ...
runnerw.exe: CreateProcess failed with error 216 (no message available)
看描述,创建进程失败,应该是main这个入口文件的问题. 检查包名.发现问题,IDE自动将包名导成了当前的目录名(模块) 上图两者不一致导致解决: 修改包名为main 注:一个model下只能有一个 ...
tensorflow2.0编程规范
背景 tensorflow2.0 相比于1.0 有很大变化,1.0版本的placeholder,Session都没有了,2.0版本强推使用keras.keras是一个比较高层的api,确实挺好用的,一 ...
js栈和堆的区别
一. 堆(heap)和栈(stack) 栈(stack)会自动分配内存空间,会自动释放.堆(heap)动态分配的内存,大小不定也不会自动释放. 二. 基本类型和引用类型基本类型:简单的数据段,存 ...
Ubuntu系统没声音
问题: http://www.linuxdiyf.com/linux/22936.html $aplay -l 得到下面的信息ubuntu aplay: device_list:268: no so ...
一例swoole_process运行swoole_http_server
swoole_process swoole_process('执行的文件路径','文件所需的参数');//利用swoole-process执行一个外部脚本 swoole_process__constr ...

selenium爬虫使用

selenium爬虫使用的更多相关文章

随机推荐

热门专题