python爬虫:利用selenium.webdriver获取渲染之后的页面代码!

1 首先要下载浏览器驱动:

  常用的是chromedriver 和phantomjs

  chromedirver下载地址:   https://npm.taobao.org/mirrors/chromedriver
  phantomjs下载地址:   http://phantomjs.org/download.html

  使用chromedriver要保证有chrome浏览器

2 安装

  phantomjs:

    将下载好的文件 解压缩(此处版本用xxx代替了)

    tar -xvf phantomjs-xxxx.tar.bz2

    将压缩结果移动到系统中软件应该呆在的地方去(此处版本用xxx代替了)

    sudo mv phantomjsxxx  /usr/local/src/phantomjs

    创建软连接到系统环境 这样就可以使用phantomjs命令了

    sudo ln -sf  /usr/local/src/phantojs/bin/phantomjs  /usr/local/bin/phantomjs

    将软连接 添加执行的权限

    sudo chmod u+x,o+x  /usr/local/bin/phantomjs

    检验一下正常使用: 返回版本信息就代表能正常使用

    phantomjs --version

  chromedriver:

    将下载的文件移动到软件应该呆的目录去:

    sudo mv chromedriver  /usr/local/bin/chromedriver

    改变用户执行的权限:

    sudo chmod u+x,o+x   /usr/local/bin/chromedriver

    检验是否正常使用:

    chromedriver --version

3 程序代码:

 from selenium import webdriver
import time
# 获取一个Chrome的驱动
driver = webdriver.Chrome()
'''
发送请求
'''
driver.get('http://www.baidu.com/') # 设置打开窗口的大小
driver.set_window_size(1024,768) '''
获取页面内容的常用方式
'''
# 获取元素并输入内容
driver.find_element_by_id('kw').send_keys('苹果')
# 获取元素并点击
driver.find_element_by_id('su').click()
# 利用xpath获取
# div_list = driver.find_element_by_xpath('//div')
#利用页面内容
# next_page = driver.find_element_by_link_text('下一页').get_attribute('href') # 将浏览器页面截图保存本地
driver.save_screenshot('./百度.png') # 获得浏览器的页面源码(经过渲染之后)
html = driver.page_source print('*'*50) # 获取页面的cookies
cookie_list = driver.get_cookies()
# cookie 转换成字典
cookies = { dict['name']:dict['value'] for dict in cookie_list }
print(cookies) # 退出当前页面
driver.close()
# 退出浏览器
driver.quit()

python爬虫动态html selenium.webdriver的更多相关文章

  1. Python爬虫之设置selenium webdriver等待

    Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...

  2. [Python爬虫] 之七:selenium webdriver定位不到元素的五种原因及解决办法(转载)

    转载:http://www.51testing.com/html/87/300987-831171.html 1.动态id定位不到元素for example:        //WebElement ...

  3. [Python爬虫] 之一 : Selenium+Phantomjs动态获取网站数据信息

    本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...

  4. 吴裕雄--天生自然PYTHON爬虫:使用Selenium爬取大型电商网站数据

    用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urll ...

  5. python爬虫之初始Selenium

    1.初始 Selenium[1]  是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Moz ...

  6. python爬虫笔记----4.Selenium库(自动化库)

    4.Selenium库 (自动化测试工具,支持多种浏览器,爬虫主要解决js渲染的问题) pip install selenium 基本使用 from selenium import webdriver ...

  7. Python爬虫——Scrapy整合Selenium案例分析(BOSS直聘)

    概述 本文主要介绍scrapy架构图.组建.工作流程,以及结合selenium boss直聘爬虫案例分析 架构图 组件 Scrapy 引擎(Engine) 引擎负责控制数据流在系统中所有组件中流动,并 ...

  8. PYTHON 爬虫笔记七:Selenium库基础用法

    知识点一:Selenium库详解及其基本使用 什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...

  9. 数据之路 - Python爬虫 - 动态页面

    一.Ajax数据爬取 1.Ajax介绍 Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML. 它不是一门编程语言,而是利用JavaSc ...

随机推荐

  1. Linux中安装字体

    Linux中安装字体 查看系统中的字体 fc-list 查看系统中的中文字体 fc-list :lang=zh将然后将字体文件拷贝到/usr/share/fonts/中 cp aa.ttl /usr/ ...

  2. DOM生成XML文档

    import java.io.File; import javax.xml.parsers.DocumentBuilder; import javax.xml.parsers.DocumentBuil ...

  3. Eclipse项目中web app libraries和 Referenced Libraries区别

    Referenced  Libraries是编译环境下使用的JAR包,所谓编译环境下使用的JAR包, 就是说你在Eclipse中进行源文件的编写的时候,所需要引用到的类都从Referenced  Li ...

  4. JAVA基础之字符串和面向对象

    * [String 类] * 1. String类位于java.lang包中,java.lang是java的语言包,使用时无须导包,自动导入. * * 2.拿到一个字符串对象: * ①字面量声明:St ...

  5. C#触发器知识总结及案例

    触发器 触发器是在对表进行插入.更新.删除操作时自动执行的存储过程,常用于强制业务规则,是一种高级约束,可以定义比用check约束更为复杂的约束.可以执行复杂的SQL语句(if/while/case) ...

  6. MySQL数据库操作类(PHP实现,支持连贯操作)

    <?php /** * Author: suvan * CreateTime: 2018/2/27 * description: 数据库操作类(仅对接MySQL数据库,主要利用MySQLi函数) ...

  7. Leetcode 4——Partition List

    Problems: Given a linked list and a value x, partition it such that all nodes less than x come befor ...

  8. 记录python接口自动化测试--pycharm执行测试用例时需要使用的姿势(解决if __name__ == "__main__":里面的程序不生效的问题)(第三目)

    1.只运行某一条case 把光标移动到某一条case后面,然后右键,选择"Run..."来运行程序 此时,pycharm会只运行光标所在位置的这一条case 2.如果想执行全部ca ...

  9. Beta冲刺 第五天

    Beta冲刺 第五天 1. 昨天的困难 1.昨天的困难主要是在类的整理上,一些逻辑理不清,也有一些类写的太绝对了,扩展性就不那么好了,所以,昨天的困难就是在重构上. 页面结构太凌乱,之前没有统筹好具体 ...

  10. Beta版本展示

    Beta版本展示 开发团队:MyGod 团队成员:程环宇 张芷祎 王田路 张宇光 王婷婷 源码地址:https://github.com/WHUSE2017/MyGod MyGod团队项目的目标: 让 ...