在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫

go2coding 2024-11-08 17:46:21 原文

爬虫抓取数据时有些数据是动态数据，例如是用js动态加载的，使用普通的urllib2 抓取数据是找不到相关数据的，这是爬虫初学者在使用的过程中，最容易发生的情况，明明在浏览器里有相应的信息，但是在python抓取的网页中缺少了对应的信息，这通常是网页使用的是js异步加载数据，在动态显示出来。一种处理方式是找出相应的js接口，但是有时这是非常难得，因为还的分析js的调用参数，而有些参数是有加密的，还的进行解密操作；另一种出来方式是python调用浏览器，控制浏览器返回相应的信息，这也是本文要介绍的selenium 。

安装selenium

在python下安装selenium，命令：

pip install -U selenium

测试是否成功：

#!/usr/bin/python

#coding=utf-8

"""

start python 项目

"""

from selenium import webdriver

browser = webdriver.Firefox() # Get local session of firefox

browser.get("http://www.baidu.com") # Load page

print browser.page_source

虽然selenium 安装成功了，但是还是会报错：

selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.

这是因为：

使用pip安装selenium，默认安装的是最新版本的selenium，使用pip list查了一下我的selenium版本，是3.4.2的，firefox版本，是43.0.1的，selenium 3.x开始，webdriver/firefox/webdriver.py的__init__中，executable_path="geckodriver"；而2.x是executable_path="wires"

把firefox升级到最新版本

下载地址：https://github.com/mozilla/geckodriver/releases，根据自己的电脑，下载的win64位的；

在firefox的安装目录下，解压geckodriver，然后将该路径添加到path环境变量下。

selenium 的文档在 http://selenium-python.readthedocs.io/api.html 下可进行相应的研究。

使用BeautifulSoup进行html的解析

如果对BeautifulSoup 还不了解的话，可以参看这篇文章 http://www.bugingcode.com/python_start/ex12.html

找到了得到了html后使用 BeautifulSoup可以进行解析。

from bs4 import BeautifulSoup

bs = BeautifulSoup(browser.page_source, "lxml")

更多的教程：大家来编程

在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫的更多相关文章

Python基础：获取平台相关信息
Windows 10家庭中文版,Python 3.6.4, 本文介绍了使用os.platform.sys三个模块获取Python程序的运行平台相关的信息. os模块:提供各种各样的操作系统接口 os ...
Python使用wmi获取Windows相关信息
在使用Python获取Windows系统上的相关的信息可以使用WMI接口来获取, 什么是wmi? WMI是一项核心的Windows管理技术,WMI作为一种规范和基础结构,通过它可以访问.配置.管理和监 ...
python开发_platform_获取操作系统详细信息工具
''' python中,platform模块给我们提供了很多方法去获取操作系统的信息如: import platform platform.platform() #获取操作系统名称及版本号,'Win ...
Python使用itchat获取微信好友信息～
最近发现了一个好玩的包itchat,通过调用微信网页版的接口实现收发消息,获取好友信息等一些功能,各位可以移步itchat项目介绍查看详细信息. 目标: 获取好友列表统计性别及城市分布根据好友签名 ...
Python 通过wmi获取Window服务器硬件信息
通过pip install wmi安装wmi 查看cpu序列号: wmic cpu get processorid 查看主板序列号: wmic baseboard get serialnumber 查 ...
Python 通过dmidecode获取Linux服务器硬件信息
通过 dmidecode 命令可以获取到 Linux 系统的包括 BIOS. CPU.内存等系统的硬件信息,这里使用 python 代码来通过调用 dmidecode 命令来获取 Linux 必要的系 ...
python+pymssql+selenium 获取短信验证码登录(实战练习)
登录页面输入手机号, 获取短信验证码(验证码有10分钟有效期) 1 连接sql server数据库,获取10分钟之内的有效短信验证码 2 页面输入手机号,并获取验证码.若存在有效验证码则输入验证码,若 ...
python 学习笔记 12 -- 写一个脚本获取城市天气信息
近期在玩树莓派,前面写过一篇在树莓派上使用1602液晶显示屏,那么可以显示后最重要的就是显示什么的问题了. 最easy想到的就是显示时间啊,CPU利用率啊.IP地址之类的.那么我认为呢,假设可以显示当 ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...

随机推荐

创造新时代！谷歌、微软、Facebook等巨头推出全新数据计划的背后
对于所有互联网企业来说,用户及其数据都是最核心.最根本的宝贵财富.因此,每家互联网企业都不会轻易将自家的数据与别人分享.试想一下,阿里会将淘宝和天猫的数据共享给京东吗?腾讯会把QQ和微信的数据分享给微 ...
lower_bound()和upper_bound()用法详解
lower_bound( )和upper_bound( )都是利用二分查找的方法在一个排好序的数组中进行查找的. lower_bound( begin,end,num):从数组的begin位置到end ...
goweb-web服务
Web服务 Web服务可以让你在HTTP协议的基础上通过XML或者JSON来交换信息.如果你想知道上海的天气预报.中国石油的股价或者淘宝商家的一个商品信息,你可以编写一段简短的代码,通过抓取这些信息然 ...
iOS个人中心渐变动画、微信对话框、标签选择器、自定义导航栏、短信验证输入框等源码
iOS精选源码简单的个人中心页面-自定义导航栏并予以渐变动画程序员取悦女票的正确姿势---Tip1(iOS美容篇) iOS 前台重启应用和清除角标的问题微信原生提醒对话框3.0 JHLikeBu ...
lr cc安装后提示“内部出现错误，无法创建文件夹”的解决办法
好多人在使用lr过程中提示“内部出现错误,无法创建文件夹”,今天MacW小编给大家带来了解决的方法,一起来看看吧! 1.此问题主要是用户权限的问题. 下载这个shell 脚本,此 shell 脚本可自 ...
获取deeplearning电子书
deeplearning 电子书 http://www.deeplearningbook.org/ 获取文件名,有顺序 curl http://www.deeplearningbook.org/ | ...
17.3.15---关于GPIO学习笔记
STM32的IO口可以由软件配置成为8种模式: 1--输入浮空 2--输入上拉 3--输入下拉 4--模拟输入 5--开漏输出 6--推挽输出 7--推挽复用 8--开漏复用 STM32的每个IO口都 ...
python实现XML解析的三种方法
python实现XML解析的三种方法三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合:二是xml.sax.*模块,它是SAX API的实 ...
解决ubuntu16.04启动时长时间陷入紫屏
今天我的ubuntu系统进不去,一启动就陷入紫屏的死循环中,重装了两遍系统还是一样进不去,后来上网查找了各种解决办法,网上都说是显卡的问题,我也不懂什么意思.试了几种方法,终于解决了这个问题,在这里记 ...
Java基础的坑
仍会出现NPE 需要改成