python爬虫动态html selenium.webdriver

python爬虫：利用selenium.webdriver获取渲染之后的页面代码！

1 首先要下载浏览器驱动：

　　常用的是chromedriver 和phantomjs

　　chromedirver下载地址: 　　https://npm.taobao.org/mirrors/chromedriver
　　phantomjs下载地址:　　 http://phantomjs.org/download.html

　　使用chromedriver要保证有chrome浏览器

2 安装

　　phantomjs：

　　　　将下载好的文件解压缩(此处版本用xxx代替了)

　　　　tar -xvf phantomjs-xxxx.tar.bz2

　　　　将压缩结果移动到系统中软件应该呆在的地方去(此处版本用xxx代替了)

　　　　sudo mv phantomjsxxx /usr/local/src/phantomjs

　　　　创建软连接到系统环境这样就可以使用phantomjs命令了

　　　　sudo ln -sf /usr/local/src/phantojs/bin/phantomjs /usr/local/bin/phantomjs

　　　　将软连接添加执行的权限

　　　　sudo chmod u+x,o+x /usr/local/bin/phantomjs

　　　　检验一下正常使用：返回版本信息就代表能正常使用

　　　　phantomjs --version

　　chromedriver:

　　　　将下载的文件移动到软件应该呆的目录去:

　　　　sudo mv chromedriver /usr/local/bin/chromedriver

　　　　改变用户执行的权限：

　　　　sudo chmod u+x,o+x /usr/local/bin/chromedriver

　　　　检验是否正常使用：

　　　　chromedriver --version

3 程序代码：

 from selenium import webdriver

 import time

 # 获取一个Chrome的驱动

 driver = webdriver.Chrome()

 '''

 发送请求

 '''

 driver.get('http://www.baidu.com/')

 # 设置打开窗口的大小

 driver.set_window_size(1024,768)

 '''

 获取页面内容的常用方式

 '''

 # 获取元素并输入内容

 driver.find_element_by_id('kw').send_keys('苹果')

 # 获取元素并点击

 driver.find_element_by_id('su').click()

 # 利用xpath获取

 # div_list = driver.find_element_by_xpath('//div')

 #利用页面内容

 # next_page = driver.find_element_by_link_text('下一页').get_attribute('href')

 # 将浏览器页面截图保存本地

 driver.save_screenshot('./百度.png')

 # 获得浏览器的页面源码（经过渲染之后)

 html = driver.page_source

 print('*'*50)

 # 获取页面的cookies

 cookie_list = driver.get_cookies()

 # cookie 转换成字典

 cookies = { dict['name']:dict['value'] for dict in cookie_list }

 print(cookies)

 # 退出当前页面

 driver.close()

 # 退出浏览器

 driver.quit()

python爬虫动态html selenium.webdriver的更多相关文章

Python爬虫之设置selenium webdriver等待
Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...
[Python爬虫] 之七：selenium webdriver定位不到元素的五种原因及解决办法（转载）
转载:http://www.51testing.com/html/87/300987-831171.html 1.动态id定位不到元素for example: //WebElement ...
[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据
用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urll ...
python爬虫之初始Selenium
1.初始 Selenium[1] 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Moz ...
python爬虫笔记----4.Selenium库（自动化库）
4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...
Python爬虫——Scrapy整合Selenium案例分析（BOSS直聘）
概述本文主要介绍scrapy架构图.组建.工作流程,以及结合selenium boss直聘爬虫案例分析架构图组件 Scrapy 引擎(Engine) 引擎负责控制数据流在系统中所有组件中流动,并 ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
数据之路 - Python爬虫 - 动态页面
一.Ajax数据爬取 1.Ajax介绍 Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML. 它不是一门编程语言,而是利用JavaSc ...

随机推荐

ubuntu下cmake 使用clang
安装llvm.clang sudo apt-get install llvm clang clang命令会在/usr/bin/clang cmake配置交叉编译链建立linux.toolchain. ...
MySQL异步、同步、半同步复制
异步复制 MySQL复制默认是异步复制,Master将事件写入binlog,提交事务,自身并不知道slave是否接收是否处理: 缺点:不能保证所有事务都被所有slave接收. 同步复制 Master提 ...
戴尔R720xd服务器系统安装
型号:R720xd 开启服务器,Ctrl+R进入raid配置配置完raid后F2对硬盘进行格式化保存并重启 F11进入BIOS选项设置U盘启动选择U盘启动开始进行系统安装!
[JLOI2014] 松鼠的新家
Description 松鼠的新家是一棵树,前几天刚刚装修了新家,新家有n个房间,并且有n-1根树枝连接,每个房间都可以相互到达,且俩个房间之间的路线都是唯一的.天哪,他居然真的住在"树&q ...
Mycat 分片规则详解--ASCII 取模范围分片
实现方式:该算法与取模范围算法类似,该算法支持数值.符号.字母取模.首先截取长度为 prefixLength 的子串,在对子串中每一个字符的 ASCII 码求和,然后对求和值进行取模运算(sum%pa ...
poj supermaket (贪心)
http://poj.org/problem?id=1456 #include<cstring> #include<iostream> #include<algorith ...
The Beginning of the Graph Theory
The Beginning of the Graph Theory 是的,这不是一道题.最近数论刷的实在是太多了,我要开始我的图论与树的假期生活了. 祝愿我吧??!ShuraK...... poj18 ...
python（函数）
Python中的namespace Python中通过提供 namespace 来实现重名函数/方法.变量等信息的识别,其一共有三种 namespace,分别为: local namespace: 作 ...
基于hi-nginx的web开发（python篇）——cookie和会话管理
hi-nginx通过redis管理会话. 要开启管理,需要做三件事. 第一件开启userid: userid on; userid_name SESSIONID; userid_domain loca ...
node 基础精简
Node 创建node应用引入require模块 var http = require("http"); 创建服务器 http.createServer() 绑定端口: ...

python爬虫动态html selenium.webdriver

python爬虫动态html selenium.webdriver的更多相关文章

随机推荐

热门专题