爬虫系列5：scrapy动态页面爬取的另一种思路

前面有篇文章给出了爬取动态页面的一种思路，即应用Selenium+Firefox（参考《scrapy动态页面爬取》）。但是selenium需要运行本地浏览器，比较耗时，不太适合大规模网页抓取。

事实上，还有一种执行效率更高的方法。就是事先分析js发出的GET或者POST请求的网址，这样通过python向目标地址发出同样的请求，就可以得到与浏览器一致的response结果。

具体的步骤是：采用chrome浏览器中的调试工具，分析网页中用JavaScript获取数据的request语句。具体分析步骤是：打开监视工具（inspect）——网络（Network）——XHR（XMLHttpRequest），可以找到一个POST request对应的JavaScript或者ajax。接下来要做的就是直接对这个JavaScript或ajax做request操作，以获取我们想要的信息。

以下是通过发送request，获取response的代码示例：

import urllib2

import codecs

import json

#读取json中所有的pid，并且生成url list

#sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='

defgetUrlList(pContent, sessionUrl):

    posts = pContent['result']['posts']

    result = ["".join([sessionUrl,i['pid']]) for i in posts]

    return result

url ='http://buluo.qq.com/cgi-bin/bar/post/get_post_by_page?bid=254116&num=20&start=1980&source=2'

#注意headers应当使用dict类型，以适应request.add_header(key,value)的参数要求

#Cookie:pgv_pvi=1061844992; pgv_si=s7051931648

headers ={'Host':'buluo.qq.com',

           'Connection':'keep-alive',

           'Accept': 'application/json',

           'X-Requested-With':'XMLHttpRequest',

           'User-Agent': 'Mozilla/5.0 (WindowsNT 6.1; WOW64) AppleWebKit/537.36 '+

           '(KHTML, like Gecko)Chrome/50.0.2661.102 Safari/537.36',

           'Referer':'http://buluo.qq.com/p/barindex.html?bid=254116',

           'Accept-Language': 'zh-CN,zh;q=0.8',

           }

data = None

req =urllib2.Request(url, data, headers)

response =urllib2.urlopen(req)

content =response.read().decode('utf-8')

withcodecs.open('./content.txt', 'wb', encoding = 'utf-8', errors='ignore') as f:

         f.write(content)

sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='

pContent =json.loads(content);

ifpContent['result']['total'] != 0:

    print getUrlList(pContent, sessionUrl)

else:

    print "no contents in this page!"

爬虫系列5：scrapy动态页面爬取的另一种思路的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用爬取网站:腾讯社会招聘网完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
爬虫系列3：Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文爬虫系列2:https://www ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
Java爬虫系列四：使用selenium-java爬取js异步请求的数据
在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子. ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...

随机推荐

python theading线程开发与加锁、信号量、事件等详解
线程有2种调用方式,如下: 直接调用 import threading import time def sayhi(num): #定义每个线程要运行的函数 print("running on ...
5月17 AJAX返回类型-------JSON和XML
ajax返回类型有TEXT,JSON,XML 一.TEXT 查看之前的练习二.JSON var js = { aa:{code:"p001",name:"张三" ...
【Java】【6】JDK8 Stream操作整理
摘要: 1,List<EntityOld>转换为List<EntityNew> List<EntityOld> list = oldList; List<En ...
python-day75--django项目问题详细
1.项目名要小写 2.表中字段 AutoField() 表示整形字段,建表时不用写,当整形的数字范围不够你用的时候, 你可以用 BigAutoField()字段, 表示长整形当表内新增有关 ...
.NET 高效开发之不可错过的实用工具（第一的当然是ReSharper插件）
工欲善其事,必先利其器,没有好的工具,怎么能高效的开发出高质量的代码呢?本文为 ASP.NET 开发者介绍一些高效实用的工具,包括 SQL 管理,VS插件,内存管理,诊断工具等,涉及开发过程的各个环节 ...
C# 语法特性 - 匿名方法（C#2.0）
概述匿名方法的本质其实就是委托. 编译后会生成委托对象,生成方法,然后把方法装入委托对象,最后赋值给声明的委托变量. (匿名方法可以省略参数:编译的时候会自动为这个方法按照委托签名的参数添加参数) ...
Docker私有仓库介绍
安装环境 Centos 7.4 64位安装Docker yum install docker 说明:docker新版本的安装方式和以前不一样,这里只是为了能运行Harbar, 不展开. 安装Dock ...
python load mat
from scipy import io dataset = io.loadmat("a.mat") exclude = ['__globals__', '__header__', ...
机器学习---笔记----numpy和math包中的常用函数
本文只是简单罗列一下再机器学习过程中遇到的常用的数学函数. 1. math.fabs(x): 返回x的绝对值.同numpy. >>> import numpy >>> ...
VS中常用快捷键
常用的快捷键这里仅列出一些个人觉得好用的快捷键: 调用智能提示:使用组合键“Ctrl+J” 注释/取消注释: 注释用组合键“Ctrl+K+C” 取消注释用组合键“Ctrl+K+U” 大小写转 ...

爬虫系列5：scrapy动态页面爬取的另一种思路

爬虫系列5：scrapy动态页面爬取的另一种思路的更多相关文章

随机推荐

热门专题