Chrome + Python 抓取动态网页内容

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

import urllib2

url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"

up=urllib2.urlopen(url)#打开目标页面，存入变量up

cont=up.read()#从up中读入该HTML文件

key1='<a href="http'#设置关键字1

key2="target"#设置关键字2

pa=cont.find(key1)#找出关键字1的位置

pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)

urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)

print urlx

但是，在动态页面中，所显示的内容往往不是通过HTML页面呈现的，而是通过调用js等方式从数据库中得到数据，回显到网页上。以发改委网站上的“备案信息”（http://beian.hndrc.gov.cn/）为例，要抓取此页面中的某些备案项目。例如“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”。

那么，在浏览器中打开此页面：

相关信息都显示的很全了，但是如果按照之前的办法：

up=urllib2.urlopen(url)

cont=up.read()

就抓取不到上述内容了。

我们查看一下这个页面对应的源码：

由源码可以看出，这个《备案确认书》属于“填空”形式的，HTML提供文字模板，js根据不同的id提供不同的变量，“填入”到文字模板中，形成了一个具体的《备案确认书》。所以单纯抓取此HTML，只能得到一些文字模板，而无法得到具体内容。

那么，该如何找到那些具体内容呢？可以利用Chrome的“开发者工具”来寻找谁是真正的内容提供者。

打开Chrome浏览器，按下键盘F12即可呼出此工具。如下图：

此时选中“Network”标签，在地址栏中输入此页面“http://beian.hndrc.gov.cn/indexinvestment.jsp?id=162518”，浏览器会分析出此次响应的全过程，而红框内的文件，就是此次响应中，浏览器和web后端的所有通信。

因为要获得不同企业对应的不同信息，那么浏览器发送给服务器的请求里面一定会有一个和当前企业id有关的参数。

那么，参数是多少呢？URL上有，是“jsp?id=162518”，问号表示要调用参数，后面跟的是id号即是被调用的参数。而通过对这几个文件的分析，很显然，企业信息存在于“indexinvestment.action”文件中。

然而，双击打开此文件并不能获得企业信息，而是一堆代码。因为没有对应的参数为它指明要显示第几号的信息。如图：

那么，应该如何将参数传递给它呢？这时我们仍旧看F12窗口：

“Header”一栏中明确地显示出了此次响应的过程：

对目标URL，用POST的方式，传递了一个id为162518的参数。

我们先手工操作一下。js是如何调用参数的呢？对，上面说过：问号+变量名+等号+变量对应的数字。也就是说，向“http://beian.hndrc.gov.cn/indexinvestment.action”这个页面提交id为162518的参数时，应该在URL后面加上

“?id=162518”,即

“http://beian.hndrc.gov.cn/indexinvestment.action?id=162518”。

我们把这个URL粘贴到浏览器中来看：

似乎有了点内容，可是都是乱码啊，怎么破？熟悉的朋友可能一眼就看出来，这是编码的问题。是因为响应回来的内容与浏览器默认的编码方式不同。只需要在Chrome右上角菜单——更多工具——编码——“自动检测”即可。（其实这是UTF-8的编码，而Chrome默认的是中文简体）。如下图：

好了，真正的信息源已经被挖出，剩下的就是用Python处理这些页面上的字符串，然后剪切、拼接，重新组成新的《项目备案书》了。

再然后使用for、while等循环，批量获取这些《备案书》。

正如“不论是静态网页，动态网页，模拟登陆等，都要先分析、搞懂逻辑，再去写代码”所说，编程语言只是一个工具，重要的是解决问题的思路。有了思路，再寻找趁手的工具去解决，就OK了。

Chrome + Python 抓取动态网页内容的更多相关文章

python抓取动态验证码,具体第几帧数的位置静态图片
一.代码+注解 import os from PIL import Image import requests import io def save_img(): headers = { 'User- ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
python 多线程抓取动态数据
利用多线程动态抓取数据,网上也有不少教程,但发现过于繁杂,就不能精简再精简?! 不多解释,直接上代码,基本上还是很好懂的. #!/usr/bin/env python # coding=utf-8 i ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...

随机推荐

*LOJ#2134. 「NOI2015」小园丁与老司机
$n \leq 5e4$个平面上的点,从原点出发,能从当前点向左.右.上.左上或右上到达该方向最近的给定点.问三个问:一.最多经过多少点:二.前一问的方案:三.其所有方案种非左右走的边至少要开几辆挖掘 ...
一个简单有效的兼容IE7浏览器的办法
最近发现了一个简单有效的兼容IE7浏览器的办法直接将下面代码复制道页面 <meta http-equiv="X-UA-Compatible" content="I ...
乌班图中的ssh服务
SSH服务(TCP端口号22):安全的命令解释器为客户机提供安全的Shell 环境,用于远程管理 ...
Node.js应用场景及发展趋势
node主要应用场景是在大前端,阿里的思路是比较合适的,但是必须要注意,绝对不能让node做太多的业务逻辑,他只适合接受人家生成好的数据,然后或渲染后,或直接发送到客户端.如果让node做复杂的业务逻 ...
Codeforces Gym101063 F.Bandejao (2016 USP-ICMC)
F.Bandejao It is lunch time on Mars! Everyone has got that big smile on their faces, all eager to se ...
python-urllib/urllib2模块
urllib与urllib2: urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL.这意味着,你不可以伪装你的User Agent字符串等. ...
2018年东北农业大学春季校赛 E 阶乘后的0【数论】
链接:https://www.nowcoder.com/acm/contest/93/E来源:牛客网时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 262144K,其他语言52428 ...
ios与js交互获取webview元素和赋值
使用webview的stringByEvaluatingJavaScriptFromString的方法交互,直接提供实例. 下载:http://download.csdn.net/detail/hey ...
Android性能优化第（二）篇---Memory Monitor检测内存泄露
上篇说了一些性能优化的理论部分,主要是回顾一下,有了理论,小平同志又讲了,实践是检验真理的唯一标准,对于内存泄露的问题,现在通过Android Studio自带工具Memory Monitor 检测出 ...
sublime的markdown插件
mac安装 shift+command+p调出package control面板,搜索install调查安装软件搜索面板搜索需要安装markdown软件我安装了下面两个:MarkdownLiveP ...

Chrome + Python 抓取动态网页内容

Chrome + Python 抓取动态网页内容的更多相关文章

随机推荐

热门专题