scrapy_splash模块解析动态js

一般遇到动态加载的网页就比较棘手，一般采用scrapy_splash和selenium这两种方式来解决。貌似scrapy_splash更强大，因为就从爬取美团这个网站而言，scrapy_splash可以实现，selenium没有实现。可能selenium没有设置对吧，按理说都应该可以的。

首先需要你安装scrapy_splash，需要用到docker。教程在网上自己找。很简单。两个命令的事，前提是你在linux环境下。安装好之后访问：http://127.0.0.1:8050/

安装模块 pip3 install scrapy-splash

scrapy-splash需要些lua脚本。比如加一些参数，请求头之类的。具体语法百度吧，我也不太清楚。

创建好项目之后。需要在setting中设置几个参数：

DOWNLOADER_MIDDLEWARES = {

    #scrapy_splash相关的中间件

    'scrapy_splash.SplashCookiesMiddleware': 723,

    'scrapy_splash.SplashMiddleware': 725,

    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,

}

SPIDER_MIDDLEWARES = {

   'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,

}

#'scrapy_splash的去重的类

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

# 最后配置一个Cache存储HTTPCACHE_STORAGE

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

#地址

SPLASH_URL = 'http://localhost:8050'

然后开始写爬虫程序，也很简单，就是SplashRequest请求。然后指定需要执行的脚本。就会返回动态加载完成的页面。

# -*- coding: utf-8 -*-

import scrapy

from selenium import webdriver

import  time

from scrapy_splash import SplashRequest

script = """

function main(splash, args)

  assert(splash:wait(0.5))

  splash:set_custom_headers({

    ['Accept'] = '*/*',

    ['Accept-Language'] = 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',

    ['Cache-Control'] = 'max-age=0',

    ['Connection'] = 'keep-alive',

    ['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

  })

  splash.private_mode_enabled = false

  assert(splash:go(args.url))

  assert(splash:wait(10))

  return {

    html = splash:html(),

    png = splash:png(),

    har = splash:har(),

  }

end

"""

class MeituanspiderSpider(scrapy.Spider):

    name = 'meituanSpider'

    # allowed_domains = ['zz.meituan.com']

    start_urls = ['http://zz.meituan.com/meishi/pn/']

    def start_requests(self):

        yield SplashRequest(self.start_urls[0], callback=self.parse, endpoint='execute',

                            args={'lua_source': script, 'wait': 7})

    def parse(self, response):

        # 店铺名字

        list=response.xpath('//*[@id="app"]/section/div/div[2]/div[2]/div[1]/ul/li/div[2]/a/h4/text()').extract()

        for i in list :

            print(i)

如果不写脚本的话，是不会成功的，可能美团那边做了限制，脚本也很简单，就是加一些请求头。

scrapy_splash模块解析动态js的更多相关文章

深入浅出Node.js---Connect模块解析。转载
文章地址:https://blog.csdn.net/zhangyuan19880606/article/details/51509205 1 Connect模块背景 Node.js的愿望是成为一个能 ...
webpack模块解析
前面的话在web存在多种支持JavaScript模块化的工具(如requirejs和r.js),这些工具各有优势和限制.webpack基于从这些系统获得的经验教训,并将模块的概念应用于项目中的任何文 ...
TypeScript和Node模块解析策略
一般我们在模块化编码时,总会导入其它模块,通常我们使用如下语法: import { A } from './a'; // ES6语法 import { A } from 'a'; var A = re ...
深入解析Backbone.js框架的依赖库Underscore.js的作用
这篇文章主要介绍了深入解析Backbone.js框架的依赖库Underscore.js的作用,用过Node.js的朋友对Underscore一定不会陌生:)需要的朋友可以参考下 backbone必须依 ...
webpack-Module Resolution（模块解析）
模块解析(Module Resolution) resolver 是一个库(library),用于帮助找到模块的绝对路径.一个模块可以作为另一个模块的依赖模块,然后被后者引用,如下: import f ...
Angular中懒加载一个模块并动态创建显示该模块下声明的组件
angular中支持可以通过路由来懒加载某些页面模块已达到减少首屏尺寸, 提高首屏加载速度的目的. 但是这种通过路由的方式有时候是无法满足需求的. 比如, 点击一个按钮后显示一行工具栏, 这个工具栏组 ...
Connect模块解析
Connect模块背景 Node.js的愿望是成为一个能构建高速,可伸缩的网络应用的平台,它本身具有基于事件,异步,非阻塞,回调等特性,这在前几篇专栏中有过描述. 正是基于这样的一些特性,Node.j ...
Python之路-python(面向对象进阶（模块的动态导入、断言、Socket Server）)
模块的动态导入断言 Socket Server 一.模块的动态导入 class C(object): def __init__(self): self.name = "zhangsan&q ...
TypeScript 素描 - 模块解析、声明合并
模块解析模块解析有两种方式相对方式也就是以/或 ./或-/开头的,比如import jq from "/jq" 非相对方式比如 import model from ...

随机推荐

Android 根据版本号更新
1 读取android 版本号具体文件位置: app下 build.gradle文件 versionCode和 versionName defaultConfig { versionCode 1 v ...
YC的基本创业建议
原文出处:https://blog.ycombinator.com/ycs-essential-startup-advice/ 我们给初创公司的许多建议都是战术性的; 意味着在日常或周到周的基础上有所 ...
Ionic开发遇到的坑整理
1.修改tabs页的图标,关键是 outline 在使用自定义图标的时候,需要修改 /theme/icons.scss 文件,但是如何定义选中前后的分别使用哪个图标呢定义选中前的状态 .ion-io ...
MT【304】反射路径长度比
(高考压轴题改编)如图,长方体$ABCD-A_1B_1C_1D_1$中,$AB=11,AD=7,AA_1=12.$一质点从顶点$A$设向$E(4,3,12)$遇到长方体的面反射(服从光的反射原理),将 ...
MS-DOS 6.22 +Vim+masm 汇编环境
安装vim 个人习惯用 vim 编辑,因此稍微折腾了一下.不用这么麻烦直接用 edit 编辑也是可以的. 原来安装的 MS-DOS 7.10 虚拟机安装好vim后无法运行,所以改用了 MS-DOS 6 ...
【BZOJ4316】小C的独立集（仙人掌，动态规划）
[BZOJ4316]小C的独立集(仙人掌,动态规划) 题面 BZOJ 题解除了普通的动态规划以外,这题还可以用仙人掌的做法来做. 这里没有必要把圆方树给建立出来 $Tarjan$的本质其实就是一 ...
stm32使用rt-thread在文件《stm32f1xx_hal.h》中头文件包含顺序引出的错误
@2019-01-24 [小记] 在学习 rt-thread BSP制作过程中,发现文件<stm32f1xx_hal.h>中 Env工具生成的原始顺序 1. #include " ...
LOJ#6278. 数列分块入门 2
在一个区间上进行操作,一种操作是某个小区间都加上c,另一个查找这个区间内大于c*c的数我们可以另外开一个数组在保存a中的每个分块内的相对值,然后每次对a加值,并把a的值赋给b,不同的是b内的各个分块 ...
【linux】vim常用操作及vim插件的安装使用
vim是linux下一个非常好用的文本编辑器,在linux下开发的人员要熟练掌握vim常用命令. 1. 打开在第n行 vim +143 filename.txt 2. 只读模式打开 vim -R / ...
CANOE入门（二）
CAPL就是Communication Application Programming Laguage的缩写,CAPL类似于C语言的语法,因此所有的语法请参考C语言教程,这里不在这里进行详述,关于C语 ...

scrapy_splash模块解析动态js

scrapy_splash模块解析动态js的更多相关文章

随机推荐

热门专题