Python3抓取javascript生成的html网页

用urllib等抓取网页，只能读取网页的静态源文件，而抓不到由javascript生成的内容。

究其原因，是因为urllib是瞬时抓取，它不会等javascript的加载延迟，所以页面中由javascript生成的内容，urllib读取不到。

那由javascript生成的内容就真的没有办法读取了吗？非也！

本文要介绍一个python库：selenium，目前最新版本是 2.44.0

先安装：

pip install -U selenium

下面用三个例子来说明其用法：

【例0】

打开一个Firefox浏览器
载入所给url地址的页面

 from selenium import webdriver

 browser = webdriver.Firefox()

 browser.get('http://www.baidu.com/')

【例1】

打开一个Firefox浏览器
载入百度主页
搜索 “seleniumhq”
关闭浏览器

 from selenium import webdriver

 from selenium.webdriver.common.keys import Keys

 browser = webdriver.Firefox()

 browser.get('http://www.baidu.com')

 assert '百度' in browser.title

 elem = browser.find_element_by_name('p')  # Find the search box

 elem.send_keys('seleniumhq' + Keys.RETURN)  # 模拟按键

 browser.quit()

【例2】

Selenium WebDriver 常用于网络程序的测试。下面是一个使用Python标准库 unittest 的例子:

 import unittest

 class BaiduTestCase(unittest.TestCase):

     def setUp(self):

         self.browser = webdriver.Firefox()

         self.addCleanup(self.browser.quit)

     def testPageTitle(self):

         self.browser.get('http://www.baidu.com')

         self.assertIn('百度', self.browser.title)

 if __name__ == '__main__':

     unittest.main(verbosity=2)

Python3抓取javascript生成的html网页的更多相关文章

java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...
python3抓取异步百度瀑布流动态图片（二）get、json下载代码讲解
制作解析网址的get def gethtml(url,postdata): header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; ...
【JAVA系列】Google爬虫如何抓取JavaScript的？
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
谷歌启用抓取JavaScript，应对方案！
谷歌启用了抓取JavaScript来深入了解网站,这样,如果网站或黑页是加了跳转代码或判断代码,很有可能将会被识别出来.虽然目前只是谷歌启用识别JavaScript文件,但国内搜索引擎很可能也会跟着模 ...
简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页
这是简易数据分析系列的第 12 篇文章. 前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据.点击"更多按钮"加载数据和下拉自动加载 ...
通过Java进行网页抓取并生成plist创建代码
抓取网页的方法: 抓取网页可以通过正则表达式也可以通过Java. 通过firefox浏览器,安装Firebug来查看网页的源代码. 首先将要抓取的部分保存到本地,步骤如下: 1.在要抓取的位置右键,选 ...
Scrapy爬虫框架教程（四）-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...
htmlunit抓取js执行后的网页源码
上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...

随机推荐

.NET基础一
.NET FrameWork是用于Windows的新托管代码编程模型,它包含CLR(Common Language Runtime)以及BCL(Base CLass Library)构成. 一.CLR ...
Jboss的jmx-console中查看内存和线程状态
步骤: 1.假设jboss运行在 192.168.1.100:8080 地址和端口上. 2. 浏览器中访问http://192.168.1.100:8080/,然后选择jmx-console 3.选择 ...
asp.net --- Menu控件\CSS 和样式
几乎 Menu 控件外观的各个方面都可以使用 Menu 控件的属性或级联样式表 (CSS) 来管理.通过了解哪些属性控制呈现的哪些方面,可以定制菜单的外观.本主题介绍由 Menu 控件公开的样式类型, ...
关于easyUI的一些js方法
1. $("#dg").datagrid("load",{ "userName":$("#s_userName").va ...
url用法
url中的name用法: 0.定义主rul.py urlpatterns = [ url(r'^sinfors/', include('sinfors.urls', namespace="s ...
MacOS（苹果电脑&苹果系统）连接京瓷300i 打印机
前往京瓷官网下载打印机驱动: http://www.kyoceradocumentsolutions.com.cn/support/mfp/download/taskalfa300i.html 驱动安 ...
【matlab】 QR分解求矩阵的特征值
"QR_H.m" function [Q,R] = QR_tao(A) %输入矩阵A %输出正交矩阵Q和上三角矩阵R [n,n]=size(A); E = eye(n); X = ...
zabbix的日常监控-API
Zabbix API提供两项主要功能: 远程管理Zabbix配置远程检索配置和历史数据官方文档:https://www.zabbix.com/documentation/3.4/zh/manual ...
一、HTML概述二、web相关的概念三、HTML的常用标签
一.HTML概述###<1>概念 HTML:Hypertext Markup Language,超文本标记语言,用来描述网页的一种语言. 非编程语言,由浏览器直接解释运行. ###< ...
第八章计时器（DIGCLOCK）
/*-------------------------------------- DIGCLOCK.C -- Digital Clock (c) Charles Petzold, 1998 ----- ...

Python3抓取javascript生成的html网页

Python3抓取javascript生成的html网页的更多相关文章

随机推荐

热门专题