爬虫系列5：scrapy动态页面爬取的另一种思路

前面有篇文章给出了爬取动态页面的一种思路，即应用Selenium+Firefox（参考《scrapy动态页面爬取》）。但是selenium需要运行本地浏览器，比较耗时，不太适合大规模网页抓取。

事实上，还有一种执行效率更高的方法。就是事先分析js发出的GET或者POST请求的网址，这样通过python向目标地址发出同样的请求，就可以得到与浏览器一致的response结果。

具体的步骤是：采用chrome浏览器中的调试工具，分析网页中用JavaScript获取数据的request语句。具体分析步骤是：打开监视工具（inspect）——网络（Network）——XHR（XMLHttpRequest），可以找到一个POST request对应的JavaScript或者ajax。接下来要做的就是直接对这个JavaScript或ajax做request操作，以获取我们想要的信息。

以下是通过发送request，获取response的代码示例：

import urllib2

import codecs

import json

#读取json中所有的pid，并且生成url list

#sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='

defgetUrlList(pContent, sessionUrl):

    posts = pContent['result']['posts']

    result = ["".join([sessionUrl,i['pid']]) for i in posts]

    return result

url ='http://buluo.qq.com/cgi-bin/bar/post/get_post_by_page?bid=254116&num=20&start=1980&source=2'

#注意headers应当使用dict类型，以适应request.add_header(key,value)的参数要求

#Cookie:pgv_pvi=1061844992; pgv_si=s7051931648

headers ={'Host':'buluo.qq.com',

           'Connection':'keep-alive',

           'Accept': 'application/json',

           'X-Requested-With':'XMLHttpRequest',

           'User-Agent': 'Mozilla/5.0 (WindowsNT 6.1; WOW64) AppleWebKit/537.36 '+

           '(KHTML, like Gecko)Chrome/50.0.2661.102 Safari/537.36',

           'Referer':'http://buluo.qq.com/p/barindex.html?bid=254116',

           'Accept-Language': 'zh-CN,zh;q=0.8',

           }

data = None

req =urllib2.Request(url, data, headers)

response =urllib2.urlopen(req)

content =response.read().decode('utf-8')

withcodecs.open('./content.txt', 'wb', encoding = 'utf-8', errors='ignore') as f:

         f.write(content)

sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='

pContent =json.loads(content);

ifpContent['result']['total'] != 0:

    print getUrlList(pContent, sessionUrl)

else:

    print "no contents in this page!"

爬虫系列5：scrapy动态页面爬取的另一种思路的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用爬取网站:腾讯社会招聘网完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
爬虫系列3：Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文爬虫系列2:https://www ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
Java爬虫系列四：使用selenium-java爬取js异步请求的数据
在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子. ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...

随机推荐

基于Helm和Operator的K8S应用管理的分享
一.为啥要用helm 对于一些微服务架构来说,会有不同的服务在上面运行,你可能要管理诸如deployment.service.有状态的Statefulset.权限的控制等等.你会发现,部署应用后还会有 ...
git merge和git rebase的区别
git merge是用来合并两个分支的.# 将b分支合并到当前分支git merge b git cherry-pick可以选择某一个分支中的一个或几个commit(s)来进行操作.例如,假设我们有 ...
oracle 创建自定义的流水号
; --你确定流水号只要3位? 使用它的下一个值用: seq_abc_taskid.nextval查询当前值用:seq_abc_taskid.currval比如你现在要插入一行到abc,你可以 ,se ...
在Eclipse上安装Activiti插件
然后点击: Help ---> Install new SoftWare 然后在点击Add添加新的: 我们在Name上写上 Activiti BPMN 2.0 designer Locatio ...
二十二、Spring MVC与Structs2的区别总结
一.框架的入口 1.Structs2采用Filter(StructsPrepartAndExecuteFilter)来进行实现. 2.SpringMVC采用Servlet(DispatcherServ ...
Utils--前台调用后台接口工具类
Utils--前台调用后台接口工具类 package com.taotao.manage.httpclient; import java.io.IOException; import java.net ...
JDBC、JNDI和DBCP的区别
JDBC:Java DataBase Connectivity,java连接数据库和执行SQL语句的API. 数据源:Data Source.就是将IP.数据库.用户名.密码封装起来对外只提供一个JN ...
接收上传的multi-file的文件(四)
构建工程为例创建一个springmvc工程你需要spring-boot-starter-thymeleaf和 spring-boot-starter-web的起步依赖.为例能够上传文件在服务器,你需 ...
关于JAVA的一些知识点
1.java.lang.Runtime.getRuntime().availableProcessors() Returns the number of processors available to ...
CAD绘制扶手5.6
用PL命令绘制出扶手的位置,如图 , “楼梯其他”“添加扶手”选择这条线,扶手宽度60,高度900,中间对齐.生成如图: 三维:

爬虫系列5：scrapy动态页面爬取的另一种思路

爬虫系列5：scrapy动态页面爬取的另一种思路的更多相关文章

随机推荐

热门专题