scrapy实战4 GET方法抓取ajax动态页面(以糗事百科APP为例子)：

一般来说爬虫类框架抓取Ajax动态页面都是通过一些第三方的webkit库去手动执行html页面中的js代码，最后将生产的html代码交给spider分析。本篇文章则是通过利用fiddler抓包获取json数据分析Ajax页面的具体请求内容，找到获取数据的接口url，直接调用该接口获取数据，省去了引入python-webkit库的麻烦，而且由于一般ajax请求的数据都是结构化数据，这样更省去了我们利用xpath解析html的痛苦。

手机打开糗事百科APP ，利用fiddler抓包获取json数据检查得到的接口url是否能正常访问如果能访问在换个浏览器试试如图

打开之后的json数据如图推荐用json—handle插件（chrome安装）打开

代码实现：以99页为例

items.py

 import scrapy

 class QiushibalkeItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     uid=scrapy.Field()

     nickname = scrapy.Field()

     gender=scrapy.Field()

     astrology=scrapy.Field()

     content=scrapy.Field()

     crawl_time=scrapy.Field()

spiders/qiushi.py

 # -*- coding: utf-8 -*-

 import scrapy

 import json

 from qiushibalke.items import QiushibalkeItem

 from datetime import datetime

 class QiushiSpider(scrapy.Spider):

     name = "qiushi"

     allowed_domains = ["m2.qiushibaike.com"]

     def start_requests(self):

         for i in range(1,100):

             url = "https://m2.qiushibaike.com/article/list/text?page={}".format(i)

             yield scrapy.Request(url,callback=self.parse_item)

     def parse_item(self, response):

         datas = json.loads(response.text)["items"]

         print(datas)

         for data in datas:

             # print(data['votes']['up'])

             # print(data['user']['uid'])

             # print(data['user']["login"])

             # print(data['user']["gender"])

             # print(data['user']["astrology"])

             item = QiushibalkeItem()

             item["uid"]= data['user']["uid"]

             item["nickname"] = data['user']["login"]

             item["gender"] = data['user']["gender"]

             item["astrology"] = data['user']["astrology"]

             item["content"]=data["content"]

             item["crawl_time"] = datetime.now()

             yield item

pipelines.py

import pymysql

class QiushibalkePipeline(object):

    def process_item(self, item, spider):

        con = pymysql.connect(host="127.0.0.1", user="youusername", passwd="youpassword", db="qiushi", charset="utf8")

        cur = con.cursor()

        sql = ("insert into baike(uid,nickname,gender,astrology,content,crawl_time)"

               "VALUES(%s,%s,%s,%s,%s,%s)")

        lis = (item["uid"],item["nickname"],item["gender"],item["astrology"],item["content"],item["crawl_time"])

        cur.execute(sql, lis)

        con.commit()

        cur.close()

        con.close()

        return item

settings.py

 BOT_NAME = 'qiushibalke'

 SPIDER_MODULES = ['qiushibalke.spiders']

 NEWSPIDER_MODULE = 'qiushibalke.spiders'

 ROBOTSTXT_OBEY = False

 DOWNLOAD_DELAY = 5

 COOKIES_ENABLED = False

 DEFAULT_REQUEST_HEADERS = {

     "User-Agent":"qiushibalke_10.13.0_WIFI_auto_7",

 #   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

 #   'Accept-Language': 'en',

 }

 ITEM_PIPELINES = {

     'qiushibalke.pipelines.QiushibalkePipeline': 300,

     #   'scrapy_redis.pipelines.RedisPipeline':300,

 }

数据如图：

scrapy实战4 GET方法抓取ajax动态页面(以糗事百科APP为例子)：的更多相关文章

scrapy实战5 POST方法抓取ajax动态页面(以慕课网APP为例子)：
在手机端打开慕课网,fiddler查看如图注意圈起来的位置经过分析只有画线的page在变化上代码: items.py import scrapy class ImoocItem(scrapy.It ...
C#利用phantomJS抓取AjAX动态页面
在C#中,一般常用的请求方式,就是利用HttpWebRequest创建请求,返回报文.但是有时候遇到到动态加载的页面,却只能抓取部分内容,无法抓取到动态加载的内容. 如果遇到这种的话,推荐使用phan ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Scrapy爬虫框架教程（四）-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...

随机推荐

自定义函数Function
定义对于SQL Server来讲,我们声明一个变量的方式是用@变量名,而且相对于编程来讲,SQL Server声明的方式跟我们开了个玩笑,是先变量后面才是类型.对于需要传参跟不需要传参的方式,其实跟 ...
QDialog在hide()之后，就被销毁的原因
一路跟踪源码,关键就是这两句: int QDialog::exec() { Q_D(QDialog); if (d->eventLoop) { qWarning("QDialog::e ...
layabox pc app web同步发布的工具
http://layabox.com/ 或者vs + unity3d开发游戏
Win10《芒果TV - Preview》更新至v3.1.57.0：热门节目和电视台直播回归
Win10<芒果TV - Preview>是Win10<芒果TV>官方唯一指定内测预览版,最新的改进和功能更新将会在此版本优先体验. 为了想让大家能在12月31日看到<湖 ...
SqlServer 可更新订阅升级字段队列数据丢失原因
原文:SqlServer 可更新订阅升级字段队列数据丢失原因之前简单描述过数据冲突发生的原因:SQLServer可更新订阅数据冲突的一个原因 ,但具体内部原理是怎么丢失的还不清楚,今天补充说明.可更 ...
零元学Expression Blend 4 - Chapter 31 看如何简单的把SampleData 绑进ListBox里
原文:零元学Expression Blend 4 - Chapter 31 看如何简单的把SampleData 绑进ListBox里前面几章连续讲到ListBox的运用,本章要讲得是如何简单的把Sa ...
UWP入门（十一）--使用选取器打开文件和文件夹
原文:UWP入门(十一)--使用选取器打开文件和文件夹很漂亮的功能,很有趣重要的 API FileOpenPicker FolderPicker StorageFile 通过让用户与选取器交互来访 ...
[转载] ASP.NET MVC (一)——深入理解ASP.NET MVC
个人认为写得比较透彻得Asp.net mvc 文章,所以转载过来,原文链接在最后: ASP.NET vs MVC vs WebForms 许多ASP.NET开发人员开始接触MVC认为MVC与ASP.N ...
Win7和Vista的安全机制对于应用程序读取配置文件相关操作的影响（虚拟重定向技术）
今天构造了一个新版本的XXXX软件,并且在纯净的系统下进行了较为全面的测试.测试中也发现了一些问题.其中包括在Win7测试时程序竟然在另一个目录中创建了文件夹和配置文件,并且进行相关读取操作,却并没有 ...
设置qt插件路径
1.在Qt中使用 WebKit 浏览器核心使用 QtWebKit 需要在工程文件(*.pro)中加入: QT +=webkitQT += network 2.QtWebKit的flash支持 QtW ...

scrapy实战4 GET方法抓取ajax动态页面(以糗事百科APP为例子)：

scrapy实战4 GET方法抓取ajax动态页面(以糗事百科APP为例子)：的更多相关文章

随机推荐

热门专题