Python 配置 selenium 模拟浏览器环境，带下载链接

使用浏览器渲染引擎。直接用浏览器在显示网页时解析HTML，应用CSS样式并执行JavaScript的语句。

这方法在爬虫过程中会打开一个浏览器，加载该网页，自动操作浏览器浏览各个网页，顺便把数据抓下来。用一句简单而通俗的话说，使用浏览器渲染方法，爬取动态网页变成了爬取静态网页。

我们可以用Python的selenium库模拟浏览器完成抓取。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，浏览器自动按照脚本代码做出点击，输入，打开，验证等操作，就像真正的用户在操作一样

selenium 的安装与基本介绍

selenium的安装非常简单，和其他的Python 库一样，我们可以用pip 安装。

pip install selenium

火狐浏览器：geckodriver.exe

　　下载对应浏览器的版本 geckodriver.exe v15.0版本

　　由于最新版火狐不在支持FireBug等开发工具，可以在https://ftp.mozilla.org/pub/firefox/releases/下载49版本以下的火狐，就可以增加Firebug等扩展了。

　　我下载了火狐Firefox Setup 48.0b9.exe，安装后，在https://github.com/mozilla/geckodriver/releases/下载最新版geckodriver，将geckodriver.exef放在C:\Program Files (x86)\Mozilla Firefox目录下（就是你装浏览器的目录哈），并将其加入环境变量，

#!/usr/bin/python
#coding: utf-8

from selenium import webdriver

driver = webdriver.Firefox()

driver.get('https://www.baidu.com')

IE11浏览器：IEDriverServer.exe

　　IE浏览器驱动下载链接：http://selenium-release.storage.googleapis.com/index.html（需爬梯），安装最新版v3.9，将其放在C:\Windows\System32目录下（不用加入环境变量，默认在环境变量中），运行如下代码，发现报错如下，降低版本为3.0.0，重新运行代码发现成功。

#!/usr/bin/python

#coding: utf-8

from selenium import webdriver

driver = webdriver.Ie()

driver.get('http://www.baidu.com')

Python 配置 selenium 模拟浏览器环境，带下载链接的更多相关文章

python下selenium模拟浏览器基础操作
1.安装及下载 selenium安装: pip install selenium 即可自动安装selenium geckodriver下载:https://github.com/mozilla/ge ...
【Python】 Selenium 模拟浏览器寻路
selenium 最开始我碰到SE,是上学期期末,我们那个商务小组做田野调查时发的问卷的事情.当时在问卷星上发了个问卷,但是当时我对另外几个组员的做法颇有微词,又恰好开始学一些软件知识了,就想恶作剧( ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python使用mechanize模拟浏览器
Python使用mechanize模拟浏览器之前我使用自带的urllib2模拟浏览器去进行訪问网页等操作,非常多站点都会出错误,还会返回乱码.之后使用了 mechanize模拟浏览器,这些情况都没出 ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
Python对Selenium调用浏览器进行封装包括启用无头浏览器，及对应的浏览器配置文件
""" 获取浏览器打开本地浏览器打开远程浏览器关闭浏览器打开网址最大化最小化标题 url 刷新 Python对Selenium封装浏览器调用 ------b ...
使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
selenium模拟浏览器对搜狗微信文章进行爬取
在上一篇博客中使用redis所维护的代理池抓取微信文章,开始运行良好,之后运行时总是会报501错误,我用浏览器打开网页又能正常打开,调试了好多次都还是会出错,既然这种方法出错,那就用selenium模 ...
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...

随机推荐

vue-cli项目多页面配置
参考 : https://www.jianshu.com/p/0a30aca71b16
Navicat for Mysql导入mysql数据库脚本文件
1.鼠标右键点击,然后选中运行sql文件,执行,然后选中编码方式为Utf8,即可. 2.可能会出现一系列的问题,参照着报错,进行mysql配置文件的修改.
git解决代码冲突
1.当项目开发是几个人的时候,难免会出现代码冲突,使用git命令行解决冲突的方法如下: git checkout develop git pullgit checkout feature/新建会员功能 ...
Spring跟mybatis结合
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.spr ...
git上传到github时犯的错误
以下是git的正确顺序 git config --global user.name "xxx" 全局注册名字 git config --global user.email &quo ...
Problem 1: Multiples of 3 and 5
小白一枚,python解法,共同学习,一起进步. Problem 1: Multiples of 3 and 5 If we list all the natural numbers below 10 ...
soapui 测试带hear 验证的写法
<soapenv:Envelope xmlns:soapenv="http://schemas.xmlsoap.org/soap/envelope/" xmlns:web=& ...
mysqldumpslow简单使用方法-mysqldumpslow详细用法
慢查询日志分析工具mysqldumpslow经常使用的参数:-s,是order的顺序----- al 平均锁定时间-----ar 平均返回记录时间-----at 平均查询时间(默认)-----c 计数 ...
nginx——优化 Nginx access 日志
1. 配置日志切割 #!/bin/bash savepath_log='/usr/local/clogs' nglogs='/usr/local/nginx/logs' mkdir -p $savep ...
认识Python 列表和元组
列表用方括号 l=[['xyz',123], 'abc', 3140000000.0, (23+1.3j), 'ddd'] 元组用圆括号 t=(['xyz', 123],'abc', 3140 ...

Python 配置 selenium 模拟浏览器环境，带下载链接

selenium 的安装与基本介绍

Python 配置 selenium 模拟浏览器环境，带下载链接的更多相关文章

随机推荐

热门专题