一、简介

网页三元素:

  • html负责内容
  • css负责样式
  • JavaScript负责动作;

从数据的角度考虑,网页上呈现出来的数据的来源:

  • html文件
  • ajax接口
  • javascript加载

如果用requests对一个页面发送请求,只能获得当前加载出来的部分页面,动态加载的数据是获取不到的,比如下拉滚轮得到的数据。selenium最初是一个自动化测试工具, 而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。Selenium是python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。

selenium在爬虫中的应用:

  • 模拟登录
  • 便捷的获取动态加载的数据

缺点:

  • 爬取数据的效率底
  • 环境部署繁琐

二、环境安装

查看谷歌浏览器版本

下载好以后,就有驱动程序了。

三、基本使用

1.浏览器创建

Selenium支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackBerry等手机端的浏览器。另外,也支持无界面浏览器PhantomJS。

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()
browser.quit() # 关闭浏览器
browser.close() # 关闭当前页面

 close 只会关闭当前窗口,而 quit 退出驱动并会关闭所有的窗口。

2.打开网页

browser.get(url)                         # 打开path路径
page_text = browser.page_source # 获取当前浏览器页面的源码数据

3.元素定位

查找一个元素(单节点)

element = find_element_by_id()
element = find_element_by_name()
element = find_element_by_class_name()
element = find_element_by_tag_name()
element = find_element_by_link_text()
element = find_element_by_partial_link_text()
element = find_element_by_xpath()
element = find_element_by_css_selector()

查找多个元素(多节点)

element = find_elements_by_id()
element = find_elements_by_name()
element = find_elements_by_class_name()
element = find_elements_by_tag_name()
element = find_elements_by_link_text()
element = find_elements_by_partial_link_text()
element = find_elements_by_xpath()
element = find_elements_by_css_selector()

注意:

(1)find_element_by_xxx第一个符合条件的标签,find_elements_by_xxx找的是所有符合条件的标签。

(2)根据ID、CSS选择器和XPath获取,它们返回的结果完全一致。

(3)另外,Selenium还提供了通用方法find_element(),它需要传入两个参数:查找方式By和值。实际上,它就是find_element_by_id()这种方法的通用函数版本,比如find_element_by_id(id)就等价于find_element(By.ID, id),二者得到的结果完全一致。

# 通过id定位
<html>
<body>
<form id="loginForm">
<input name="username" type="text" />
<input name="password" type="password" />
<input name="continue" type="submit" value="Login" />
</form>
</body>
<html> login_form = driver.find_element_by_id('loginForm') # 通过name定位
<html>
<body>
<form id="loginForm">
<input name="username" type="text" />
<input name="password" type="password" />
<input name="continue" type="submit" value="Login" />
<input name="continue" type="button" value="Clear" />
</form>
</body>
<html> username = driver.find_element_by_name('username')
password = driver.find_element_by_name('password') # 通过链接文本定位
<html>
<body>
<p>Are you sure you want to do this?</p>
<a href="continue.html">Continue</a>
<a href="cancel.html">Cancel</a>
</body>
<html> continue_link = driver.find_element_by_link_text('Continue')
continue_link = driver.find_element_by_partial_link_text('Conti') # 通过标签名定位
<html>
<body>
<h1>Welcome</h1>
<p>Site content goes here.</p>
</body>
<html> heading1 = driver.find_element_by_tag_name('h1') # 通过类名定位
<html>
<body>
<p class="content">Site content goes here.</p>
</body>
<html> content = driver.find_element_by_class_name('content') # 通过CSS选择器定位
<html>
<body>
<p class="content">Site content goes here.</p>
</body>
<html> content = driver.find_element_by_css_selector('p.content') # 推荐使用xpath定位
username = driver.find_element_by_xpath("//form[input/@name='username']")
username = driver.find_element_by_xpath("//form[@id='loginForm']/input[1]")
username = driver.find_element_by_xpath("//input[@name='username']")

4.节点操作

ele.text 拿到节点的内容 (包括后代节点的所有内容)

driver.find_element_by_id('gin').text 

ele.send_keys("")搜索框输入文字

driver.find_element_by_id('kw').send_keys("Python") 

ele.click()标签

driver.find_element_by_id('su').click() 

ele.get_attribute("")获取属性值

#  获取元素标签的内容
att01 = a.get_attribute('textContent') # # 获取元素内的全部HTML
att02 = a.get_attribute('innerHTML') # # 获取包含选中元素的HTML
att03 = a.get_attribute('outerHTML') # 获取该元素的标签类型
tag01 = a_href.tag_name

5.动作链

from selenium.webdriver import ActionChains

source = browser.find_element_by_css_selector('')
target = browser.find_element_by_css_selector('') actions = ActionChains(browser)
actions.drag_and_drop(source, target).perform() actions.release()

6.在页面间切换

适用与页面中点开链接出现新的页面的网站,但是浏览器对象browser还是之前页面的对象

window_handles = driver.window_handles
driver.switch_to.window(window_handles[-1])

7.保存网页截图

driver.save_screenshot('screen.png')

8.执行JavaScript

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

9.前进和后退

browser.back()
browser.forward()

10.等待

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome()
driver.get("http://somedomain/")
try:
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "myDynamicElement"))
)
finally:
driver.quit()

条件

title_is
title_contains
presence_of_element_located
visibility_of_element_located
visibility_of
presence_of_all_elements_located
text_to_be_present_in_element
text_to_be_present_in_element_value
frame_to_be_available_and_switch_to_it
invisibility_of_element_located
element_to_be_clickable
staleness_of
element_to_be_selected
element_located_to_be_selected
element_selection_state_to_be
element_located_selection_state_to_be
alert_is_present

11.Cookie处理

获取、添加、删除Cookies

browser.get_cookies()
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
browser.delete_all_cookies()

12. 搜索属性值

  • 获得element之后搜索
url = driver.find_element_by_name('t2').get_attribute('href')
  • 页面源码中搜索
源码中搜索字符串,可以是文本值也可以是属性值
res = driver.page_source.find('字符串') 返回值
-1 未找到
其他 找到

13.谷歌无头浏览器

from selenium.webdriver.chrome.options import Options。

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
browser = webdriver.Chrome(executable_path=path, chrome_options=chrome_options)

14.规避监测

相关的网站会对selenium发起的请求进行监测,网站后台可以根据window.navigator.webdriver返回值进行selenium的监测,若返回值为undefinded,则不是selenium进行的请求发送;若为true,则是selenium发起的请求。

规避监测的方法:

from selenium.webdriver import ChromeOptions

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
bro = webdriver.Chrome(executable_path='chromedriver.exe',options=option)

15. 切换子框架

此操作主要作用与 ifram子框架 的互相切换使用

iframe = driver.find_element_by_xxx('')
driver.switch_to_frame(节点对象)

16. 不请求图片模式

只需要如下设置则不会请求图片, 会加快效率

chrome_opt = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_opt.add_experimental_option("prefs", prefs)

四、鼠标键盘操作(ActionChains)

1. ActionChains基本用法

ActionChains的执行原理:当你调用ActionChains的方法时,不会立即执行,而是会将所有的操作按顺序存放在一个队列里当你调用perform()方法时,队列中的时间会依次执行

有两种调用方法:

链式写法

menu = driver.find_element_by_css_selector(".nav")
hidden_submenu = driver.find_element_by_css_selector(".nav #submenu1") ActionChains(driver).move_to_element(menu).click(hidden_submenu).perform()

分步写法

menu = driver.find_element_by_css_selector(".nav")
hidden_submenu = driver.find_element_by_css_selector(".nav #submenu1") actions = ActionChains(driver)
actions.move_to_element(menu)
actions.click(hidden_submenu)
actions.perform()

两种写法本质是一样的,ActionChains都会按照顺序执行所有的操作。

2. ActionChains方法列表

click(on_element=None)                       ——单击鼠标左键
click_and_hold(on_element=None)                ——点击鼠标左键,不松开
context_click(on_element=None)                  ——点击鼠标右键
double_click(on_element=None)                  ——双击鼠标左键 send_keys(*keys_to_send)                     ——发送某个键到当前焦点的元素
send_keys_to_element(element, *keys_to_send)         ——发送某个键到指定元素 key_down(value, element=None)                  ——按下某个键盘上的键
key_up(value, element=None)                    ——松开某个键 drag_and_drop(source, target)                  ——拖拽到某个元素然后松开
drag_and_drop_by_offset(source, xoffset, yoffset)      ——拖拽到某个坐标然后松开
move_by_offset(xoffset, yoffset)                ——鼠标从当前位置移动到某个坐标
move_to_element(to_element)                   ——鼠标移动到某个元素
move_to_element_with_offset(to_element, xoffset, yoffset) ——移动到距某个元素(左上角坐标)多少距离的位置
perform()                              ——执行链中的所有动作
release(on_element=None)                     ——在某个元素位置松开鼠标左键 

3. 代码示例

(1)点击操作

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep driver = webdriver.Firefox()
driver.implicitly_wait(10)
driver.maximize_window()
driver.get('http://sahitest.com/demo/clicks.htm') click_btn = driver.find_element_by_xpath('//input[@value="click me"]')         # 单击按钮
doubleclick_btn = driver.find_element_by_xpath('//input[@value="dbl click me"]')   # 双击按钮
rightclick_btn = driver.find_element_by_xpath('//input[@value="right click me"]')   # 右键单击按钮 ActionChains(driver).click(click_btn).double_click(doubleclick_btn).context_click(rightclick_btn).perform() # 链式用法 print driver.find_element_by_name('t2').get_attribute('value') sleep(2)
driver.quit()

element.get_attribute()获取某个元素属性

(2)鼠标移动

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep driver = webdriver.Firefox()
driver.implicitly_wait(10)
driver.maximize_window()
driver.get('http://sahitest.com/demo/mouseover.htm') write = driver.find_element_by_xpath('//input[@value="Write on hover"]') # 鼠标移动到此元素,在下面的input框中会显示“Mouse moved”
blank = driver.find_element_by_xpath('//input[@value="Blank on hover"]') # 鼠标移动到此元素,会清空下面input框中的内容 result = driver.find_element_by_name('t1') action = ActionChains(driver)
action.move_to_element(write).perform() # 移动到write,显示“Mouse moved”
print result.get_attribute('value') # action.move_to_element(blank).perform()
action.move_by_offset(10, 50).perform() # 移动到距离当前位置(10,50)的点,与上句效果相同,移动到blank上,清空
print result.get_attribute('value') action.move_to_element_with_offset(blank, 10, -40).perform() # 移动到距离blank元素(10,-40)的点,可移动到write上
print result.get_attribute('value') sleep(2)

(3)拖拽

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep driver = webdriver.Firefox()
driver.implicitly_wait(10)
driver.maximize_window()
driver.get('http://sahitest.com/demo/dragDropMooTools.htm') dragger = driver.find_element_by_id('dragger') # 被拖拽元素
item1 = driver.find_element_by_xpath('//div[text()="Item 1"]') # 目标元素1
item2 = driver.find_element_by_xpath('//div[text()="Item 2"]') # 目标2
item3 = driver.find_element_by_xpath('//div[text()="Item 3"]') # 目标3
item4 = driver.find_element_by_xpath('//div[text()="Item 4"]') # 目标4 action = ActionChains(driver)
action.drag_and_drop(dragger, item1).perform() # 1.移动dragger到item1
sleep(2)
action.click_and_hold(dragger).release(item2).perform() # 2.效果与上句相同,也能起到移动效果
sleep(2)
action.click_and_hold(dragger).move_to_element(item3).release().perform() # 3.效果与上两句相同,也能起到移动的效果
sleep(2)
# action.drag_and_drop_by_offset(dragger, 400, 150).perform() # 4.移动到指定坐标
action.click_and_hold(dragger).move_by_offset(400, 150).release().perform() # 5.与上一句相同,移动到指定坐标
sleep(2)
driver.quit()

一般用坐标定位很少,用上例中的方法1足够了,如果看源码,会发现方法2其实就是方法1中的drag_and_drop()的实现。注意:拖拽使用时注意加等待时间,有时会因为速度太快而失败。

(4)按键

  模拟按键有多种方法,能用win32api来实现,能用SendKeys来实现,也可以用selenium的WebElement对象的send_keys()方法来实现,这里ActionChains类也提供了几个模拟按键的方法。

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep driver = webdriver.Firefox()
driver.implicitly_wait(10)
driver.maximize_window()
driver.get('http://sahitest.com/demo/keypress.htm') key_up_radio = driver.find_element_by_id('r1') # 监测按键升起
key_down_radio = driver.find_element_by_id('r2') # 监测按键按下
key_press_radio = driver.find_element_by_id('r3') # 监测按键按下升起 enter = driver.find_elements_by_xpath('//form[@name="f1"]/input')[1] # 输入框
result = driver.find_elements_by_xpath('//form[@name="f1"]/input')[0] # 监测结果 # 监测key_down
key_down_radio.click()
ActionChains(driver).key_down(Keys.CONTROL, enter).key_up(Keys.CONTROL).perform()
print result.get_attribute('value') # 监测key_up
key_up_radio.click()
enter.click()
ActionChains(driver).key_down(Keys.SHIFT).key_up(Keys.SHIFT).perform()
print result.get_attribute('value') # 监测key_press
key_press_radio.click()
enter.click()
ActionChains(driver).send_keys('a').perform()
print result.get_attribute('value')
driver.quit() 

示例2:

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
from time import sleep driver = webdriver.Firefox()
driver.implicitly_wait(10)
driver.maximize_window() driver.get('http://sahitest.com/demo/label.htm') input1 = driver.find_elements_by_tag_name('input')[3]
input2 = driver.find_elements_by_tag_name('input')[4] action = ActionChains(driver)
input1.click()
action.send_keys('Test Keys').perform()
action.key_down(Keys.CONTROL).send_keys('a').key_up(Keys.CONTROL).perform() # ctrl+a
action.key_down(Keys.CONTROL).send_keys('c').key_up(Keys.CONTROL).perform() # ctrl+c action.key_down(Keys.CONTROL, input2).send_keys('v').key_up(Keys.CONTROL).perform() # ctrl+v print input1.get_attribute('value')
print input2.get_attribute('value') driver.quit()

五、使用示例

示例1:打开百度,搜索爬虫

from selenium import webdriver
from time import sleep bro = webdriver.Chrome()
bro.get(url='https://www.baidu.com/')
sleep(2) text_input = bro.find_element_by_id('kw')
text_input.send_keys('爬虫')
sleep(2) bro.find_element_by_id('su').click()
sleep(3) print(bro.page_source)
bro.quit()

示例2:获取豆瓣电影中更多电影详情数据(谷歌无头浏览器)

from selenium import webdriver
from time import sleep
from selenium.webdriver.chrome.options import Options 第1步:下面三行固定
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu'
) url = 'https://movie.douban.com/typerank?type_name=%E6%83%8A%E6%82%9A&type=19&interval_id=100:90&action=' 第2步:把chrome_options对象作为参数
bro = webdriver.Chrome(chrome_options=chrome_options)
bro.get(url)
sleep(3)
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(3)
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(3)
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
page_text = bro.page_source with open('./douban.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print(page_text)
sleep(1)
bro.quit()

示例3:登录qq空间

  在web 中,经常会遇到frame 嵌套页面的应用,使用WebDriver 每次只能在一个页面上识别元素,对于frame 嵌套内的页面上的元素,直接定位是定位是定位不到的。这个时候就需要通过switch_to_frame()方法将当前定位的主体切换了frame 里。先定位到iframe,再在iframe中进行标签定位。否则,定位不到我们想要的标签。

import requests
from selenium import webdriver
from lxml import etree
import time driver = webdriver.Chrome(executable_path=r'C:\Users\Administrator\chromedriver.exe')
driver.get('https://qzone.qq.com/') #switch_to操作切换frame,此时才能进行登陆页面的操作。
driver.switch_to.frame('login_frame')

#点击使用账号密码登陆,需要绑定click事件

driver.find_element_by_id('switcher_plogin').click() #driver.find_element_by_id('u').clear()
driver.find_element_by_id('u').send_keys('QQ') #driver.find_element_by_id('p').clear()
driver.find_element_by_id('p').send_keys('密码') #点击登陆,绑定click事件
driver.find_element_by_id('login_button').click()
time.sleep(2) driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(2)
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(2)
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(2) page_text = driver.page_source #获取页面源码数据,注意page_source无括号。
tree = etree.HTML(page_text) #执行解析操作
li_list = tree.xpath('//ul[@id="feed_friend_list"]/li')
for li in li_list:
text_list = li.xpath('.//div[@class="f-info"]//text()|.//div[@class="f-info qz_info_cut"]//text()')
text = ''.join(text_list)
print(text+'\n\n\n') driver.quit()

发现小框是嵌套在大框里面的,在当前的html源码中,又嵌套了一个html子页面,这个子页面是包含在iframe标签中的。所以,如果定位的标签是存在于iframe中的,那么一定需要使用switch to函数,将当前浏览器页面的参照物切换到iframe中,iframe中有一个id为login_frame的属性值,可以根据它来定位。

示例4:利用搜狗搜索接口抓取微信公众号(无头、规避检测、等待、切换页面)

# 添加启动参数 (add_argument)
# 添加实验性质的设置参数 (add_experimental_option) from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
import time
import requests
from lxml import etree option = webdriver.ChromeOptions()
option.add_argument('headless')
#设置chromedriver启动参数,规避对selenium的检测机制
option.add_experimental_option('excludeSwitches', ['enable-automation']) driver = webdriver.Chrome(chrome_options=option) url = 'http://weixin.sogou.com/weixin?type=1&s_from=input&query=python_shequ' driver.get(url)
print(driver.title) timeout = 5
link = WebDriverWait(driver, timeout).until(
lambda d: d.find_element_by_link_text('Python爱好者社区'))
link.click()
time.sleep(1) # 切换页面
window_handles = driver.window_handles
driver.switch_to.window(window_handles[-1])
print(driver.title) article_links = WebDriverWait(driver, timeout).until(
# EC.presence_of_element_located((By.XPATH, '//h4[@class="weui_media_title"]'))
lambda d: d.find_elements_by_xpath('//h4[@class="weui_media_title"]'
)) article_link_list = []
for item in article_links:
article_link = 'https://mp.weixin.qq.com' + item.get_attribute('hrefs')
# print(article_link)
article_link_list.append(article_link)
print(article_link_list) first_article_link = article_link_list[0]
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60
} response = requests.get(first_article_link,
headers=header,
timeout=5
) tree = etree.HTML(response.text)
title = tree.xpath('//h2[@id="activity-name"]/text()')[0].strip()
content = tree.xpath('//div[@id="js_content"]//text()')
content = ''.join(content).strip() print(title)
print(content)

示例5:用selenium实现一个头条号的模拟发文接口

import time
import redis
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait r = redis.Redis('127.0.0.1', 6379) def toutiao_save_and_preview(title, content, expand_link):
option = webdriver.ChromeOptions()
option.add_argument('headless')
driver = webdriver.Chrome(chrome_options=option) # 获取渲染的正文
driver.get('file:///Users/Documents/toutiao.html')
driver.execute_script("contentIn('"+ content +"');")
timeout = 5
content_copy = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath('//button[@class="btn"]'))
content_copy.click() # 模拟登录发文页面
cookie_toutiao = [{'name': 'ccid', 'value': 'db43e70fd9404338c49209ba04f7a11f'}, {'name': 'tt_webid', 'value': ''}, {'name': 'UM_distinctid', 'value': '1667a53d28d449-0e229246a33996-4a506a-1fa400-1667a53d28e361'}, {'name': 'sso_uid_tt', 'value': '4c8179804d74252717c675607c721602'}, {'name': 'toutiao_sso_user', 'value': '8acc9b248cd201034637248021183d5a'}, {'name': 'sso_login_status', 'value': ''}, {'name': 'sessionid', 'value': '8441fa3fc5ae5bc08c3becc780b5b2df'}, {'name': '_mp_test_key_1', 'value': '6aba81df9e257bea2a99713977f1e33b'}, {'name': 'uid_tt', 'value': '75b5b52039d4c9dd41315d061c833f0b'}, {'name': 'ccid', 'value': '4231c5cd5a98033f2e78336b1809a18a'}, {'name': 'tt_webid', 'value': ''}, {'name': 'UM_distinctid', 'value': '16783e1566479-0ae7bcdcaeb592-113b6653-13c680-16783e156656d4'}, {'name': 'passport_auth_status', 'value': '99f731f2c6dc150e6dfea46799f20e90'}, {'name': 'sso_uid_tt', 'value': 'f4bcd2cf972384b428449b0479475ce6'}, {'name': 'toutiao_sso_user', 'value': '60df7bb620b4b6d1d17a1de83daec9c1'}, {'name': 'sso_login_status', 'value': ''}, {'name': 'sessionid', 'value': '786fe64e9186d51b8427290a557b3c7b'}, {'name': 'uid_tt', 'value': '91a7a72a85861ae686fb66177bc16bca'}, {'name': '__tea_sdk__ssid', 'value': '60b289e6-e2a4-4494-a3e8-7936f9731426'}, {'name': 'uuid', 'value': 'w:3ec91cefd76b438583154fea77baa54b'}, {'name': 'tt_im_token', 'value': ''}] driver.get('https://mp.toutiao.com/profile_v3/index')
for cookie in cookie_toutiao:
driver.add_cookie(cookie)
driver.get('https://mp.toutiao.com/profile_v3/graphic/publish')
print(driver.title) # driver.maximize_window()
# 写标题
print('写标题')
write_title = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath('//*[@id="title"]'))
write_title.click()
write_title.send_keys(title) # 粘贴正文
print('写正文')
write_content = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//*[@id="graphic"]/div/div/div[2]/div[1]/div[2]/div[3]/div[2] | //div[contains(@class,"ql-editor")]'))
write_content.click()
write_content.clear()
write_content.send_keys(Keys.SHIFT + Keys.INSERT)
# time.sleep(1) # 检测图片上传是否完成
try:
if 'img' in content:
WebDriverWait(driver, timeout).until(
lambda d: d.find_element_by_xpath('//div[@class="pgc-img-wrapper"]'))
print('images uploaded success')
else:
print('no image included')
except:
print('images uploaded fail') # 页面向下滚动
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
time.sleep(1) # 添加扩展链接
expand_check = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//div[@class="pgc-external-link"]//input[@type="checkbox"]',
))
expand_check.click()
expand_link_box = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//div[@class="link-input"]//input[@type="text"]',
))
expand_link_box.send_keys(expand_link)
time.sleep(1) # 自动封面
front_img = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//div[@class="article-cover"]/div/div[@class="tui2-radio-group"]/label[3]/div/input',
))
front_img.click()
time.sleep(1) # 保存草稿
save_draft = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//div[@class="publish-footer"]/button[4]/span'))
save_draft.click()
time.sleep(1) # 从内容管理页,获取预览链接和文章ID
print('get preview_link and article_id')
# driver.refresh()
preview_link = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//div[@id="article-list"]//div[@class="master-title"][1]/a')).get_attribute('href')
article_id = preview_link.split('=')[-1]
print(preview_link, article_id)
time.sleep(1) content_management = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_link_text('内容管理'))
content_management.click()
time.sleep(1)
driver.refresh()
preview_link = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath(
'//*[@id="article-list"]/div[2]/div/div/div[1]/div/a')).get_attribute('href')
article_id = preview_link.split('=')[-1] index_page = WebDriverWait(driver, timeout).until(lambda d: d.find_element_by_xpath('//a[@class="shead_logo"]'))
index_page.click()
driver.get('https://mp.toutiao.com/profile_v3/index') print(r.scard('cookie_pool_toutiao'))
return preview_link, article_id if __name__ == "__main__":
print('start')
start_time = time.time()
title = 'Children'
content = '<p>cute</p><p><img class="wscnph" src="http://img.mp.itc.cn/upload/20170105/1a7095f0c7eb4316954dda4a8b93b88c_th.jpg" /></p>'
expand_link = 'https://www.cnblogs.com/Summer-skr--blog/'
img = ''
preview_link, article_id = toutiao_save_and_preview(title, content, expand_link)
print(preview_link)
print(article_id)
finish_time = time.time()
print(finish_time - start_time)

selenium相关文档:

https://www.seleniumhq.org/docs/

https://selenium-python.readthedocs.io

哈哈,认认真真的写了这么长博文,如果您觉得对您有帮助,麻烦帮忙点个赞哦!一起加油!

Python爬虫 | Selenium详解的更多相关文章

  1. python爬虫知识点详解

    python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使 ...

  2. Python爬虫实战详解:爬取图片之家

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 如何使用python去实现一个爬虫? 模拟浏览器请求并获取网站数据在原始数据 ...

  3. python爬虫---selenium库的用法

    python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器 在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...

  4. python协程详解,gevent asyncio

    python协程详解,gevent asyncio 新建模板小书匠 #协程的概念 #模块操作协程 # gevent 扩展模块 # asyncio 内置模块 # 基础的语法 1.生成器实现切换 [1] ...

  5. Python基础知识详解 从入门到精通(七)类与对象

    本篇主要是介绍python,内容可先看目录其他基础知识详解,欢迎查看本人的其他文章Python基础知识详解 从入门到精通(一)介绍Python基础知识详解 从入门到精通(二)基础Python基础知识详 ...

  6. Python爬虫-selenium的使用(2)

    使用selenium打开chrome浏览器百度进行搜索 12345678910111213141516171819202122232425 from selenium import webdriver ...

  7. Python 字符串方法详解

    Python 字符串方法详解 本文最初发表于赖勇浩(恋花蝶)的博客(http://blog.csdn.net/lanphaday),如蒙转载,敬请保留全文完整,切勿去除本声明和作者信息.        ...

  8. [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

    前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...

  9. [Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论

    前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...

随机推荐

  1. 干货|Dubbo社区开发者日经验分享

    Hello,各位小伙伴大家好,我是小栈君,昨天也就是2019年10月26日,有幸在成都参加了由阿里举办的"Dubbo社区开发者日". 本次活动汇聚了各方面的大神欢聚一堂,主要是对现 ...

  2. 『异或粽子 堆 可持久化trie』

    异或粽子 Description 小粽是一个喜欢吃粽子的好孩子.今天她在家里自己做起了粽子. 小粽面前有 n 种互不相同的粽子馅儿,小粽将它们摆放为了一排,并从左至右编号为 1 到 n.第 i 种馅儿 ...

  3. servlet是一组规范--Servlet是JavaEE规范的一种

    Java Servlet API是Servlet容器和Servlet之间的接U,它定义了Servlet的各种方法, 还定义了Servlet容器传送给Servlet的对象类,其中最重要的是请求对象Ser ...

  4. C#读写设置修改调整UVC摄像头画面-曝光

    有时,我们需要在C#代码中对摄像头的曝光进行读和写,并立即生效.如何实现呢? 建立基于SharpCamera的项目 首先,请根据之前的一篇博文 点击这里 中的说明,建立基于SharpCamera的摄像 ...

  5. swiper4基础

    这段时间在公司实习做前端,感觉前端没学习到很多前端框架,接口那些都是写好的,只需要调用就好,感觉没什么好记的,唯一觉得有必要记的就是swiper轮播了,在前端做网站的时候经常用到swiper做公告,图 ...

  6. 设计模式之(六)原型模式(ProtoType)

    认识原型模式 原型模式是比较简单的设计模式.废话不多说,直接看定义:用原型实例指定创建对象的种类,并通过拷贝这些原型创建新的对象.通过实例指定种类,种类就是初始化的类,然后通过拷贝创建对象.先展示一个 ...

  7. 在现有的mysql主从基础上,搭建mycat实现数据的读写分离

    环境准备:MySQL服务器做好主从复制:centos6的系统 主:192.168.164.131 从:192.168.164.144 mycat服务器:192.168.164.141 a.将MySQL ...

  8. 微博api接口登陆,获取信息,分享微博

    import json from datetime import datetime import MySQLdb import requests from flask import Flask, re ...

  9. excel 大文件解析原理实现

    问题 目前的excel 不像之前的excel了可以支持的数据量更大,可以支持支持1048576行,16384列. 之前使用poi读取,直接报错,使用excel 事件的方式读取,还有不少的bug,关键是 ...

  10. Centos 6.5 实战-MySQL定时增量备份(2)

    首先在进行增量备份之前需要查看一下配置文件,查看 log_bin 是否开启,因为要做增量备份首先要开启 log_bin .首先,进入到 myslq 命令行,输入如下命令: [root@localhos ...