在使用scrapy抓取网页时, 如果遇到使用js动态渲染的页面, 将无法提取到在浏览器中看到的内容. 针对这个问题scrapy官方给出的方案是scrapy-selenium, 这是一个把selenium集成到scrapy的开源项目, 它使用selenium抓取已经渲染好(js代码已经执行完成)的动态网页.

    事实上selenium自己也没有渲染动态网页的能力,它还是得依赖浏览器, 用浏览器作为动态网页的渲染引擎. 目前主流的浏览器都能以headless模式运行, 即没有图形界面只有命令行界面. 同时提供了驱动程序和headless模式运行的浏览器交互的驱动, 驱动程序提供了一些API, 用于控制浏览器的行为, 如: 拖动滚动条, 生成网页缩略图等. selenium整合了这些浏览器驱动, 让用户可以用统一的接口和不同的浏览器进行交互, 所以selenium本质上就是一个adapter.

    本文以chrome浏览器为网页渲染引擎, 完整地讲解抓取动态网页的方法.

第一步 安装chrome

    本人长期在linux服务器平台下工作, 所以使用的环境是ubuntu-18.04.3-live-server. 以前还没在服务器安装过浏览器, 也挺陌生的. 首先进入chrome的官网https://www.google.cn/chrome/ 下载安装包google-chrome-stable_current_amd64.deb. 在页面底部,有个”其他平台“链接, 点进去找到这个安装包.

    安装chrome: sudo dpkg -i google-chrome-stable_current_amd64.deb

    出现依赖问题, 修复: sudo apt --fix-broken install

    再次安装就可以了.

    找个网站验证一下chrome是否能够正常工作:

    google-chrome --headless --no-sandbox --disable-gpu --dump-dom https://www.gushiwen.org/ >> index.html

    如果在当前目录下能够正常的生成index.html文件,表示chrome已经安装成功.

第二步 安装scrapy-selenium, chromedriver

     安装scrapy-selenium: pip install scrapy-selenium

     查看你的chrome版本: google-chrome --version

     Google Chrome 80.0.3987.149

    在这里http://chromedriver.storage.googleapis.com/index.html找到对应版本的chromedriver. 我用的dirver是http://chromedriver.storage.googleapis.com/80.0.3987.16/chromedriver_linux64.zip.

    手动安装dirver:

    unzip chromedriver_linux64.zip

    chmod a+x chromedriver

    cp chromedriver /usr/bin/

    这样就把chromedriver安装到/usr/bin目录下了.

第三步 为你的scrapy项目配置好scrapy-selenium

    在scrapy项目的settings.py文件中添加如下代码配置scrapy-selenium

SELENIUM_DRIVER_NAME = 'chrome' #浏览器driver名字
SELENIUM_DRIVER_EXECUTABLE_PATH = '/usr/bin/chromedriver' #浏览器driver的位置
#chrome浏览器的参数
SELENIUM_DRIVER_ARGUMENTS=['--headless', '--no-sandbox', '--disable-gpu'] #下载器中间件配置
DOWNLOADER_MIDDLEWARES = {
'scrapy_selenium.SeleniumMiddleware': 800
}

    创建一个spider验证一下scrapy-selenium是否可用

import scrapy
from scrapy_selenium import SeleniumRequest class Myspider(scrapy.Spider):
name = "myspider" def start_requests(self):
#这里使用SeleniumRequest抓取页面, 在parse中抓取页面也要用它
yield SeleniumRequest(url='https://www.gushiwen.org/', callback=self.parse) def parse(self, response):
with open('index.html', 'wb') as f:
f.write(response.body)

     运行这个spider

     scrapy crawl myspider

     在当前目录就会有一个index.html文件. 如果正常的话会发现使用js动态生成的内容已经被渲染到dom文档中了.

     现在已经成功地抓取到一个动态页面啦!

使用scrapy-selenium, chrome-headless抓取动态网页的更多相关文章

  1. scrapy和selenium结合抓取动态网页

    1.安装python (我用的是2.7版本的) 2.安装scrapy:   详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...

  2. selenium抓取动态网页数据

    1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...

  3. 【转】详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)

    转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...

  4. python网络爬虫抓取动态网页并将数据存入数据库MySQL

    简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...

  5. Python:利用 selenium 库抓取动态网页示例

    前言 在抓取常规的静态网页时,我们直接请求对应的 url 就可以获取到完整的 HTML 页面,但是对于动态页面,网页显示的内容往往是通过 ajax 动态去生成的,所以如果是用 urllib.reque ...

  6. Chrome + Python 抓取动态网页内容

    用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字.如下所示: import urllib2 url="http: ...

  7. scrapy 抓取动态网页

    -- coding: utf-8 -- ''' gouwu.sogou.com Spider, Created on Dec, 2014 version: 1.0 author: chenqx @ht ...

  8. selenium +chrome headless Adhoc模式渲染网页

    mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process whe ...

  9. selenium +chrome headless Manual 模式渲染网页

    可以看看这个里面的介绍,写得很好.https://duo.com/blog/driving-headless-chrome-with-python from selenium import webdr ...

随机推荐

  1. marquee上下无缝滚动

    <!DOCTYPE html><html><head><meta charset="utf-8"><meta name=&qu ...

  2. Zookeeper的使用场景和集群配置

    Zookeeper的介绍 ZK在分布式系统的应用 Zookeeper搭建 集群角色介绍 ZK的常用命令 一.Zookeeper的介绍 官方:ZooKeeper是一个分布式的,开放源码的分布式应用程序协 ...

  3. vim 编辑器技巧 打开多窗口编辑 vsp

    我有两个配置文件 [root@gameserver1 conf]# ls auth_1.json auth_2.json 先打开auth_2.json 在vim编辑器中打开auth_1.json,在打 ...

  4. docker RPM包安装

    1. 下载 docker RPM包 docker 使用的系统是  Centos 7.6 基础设施服务器 # wget https://download.docker.com/linux/centos/ ...

  5. 性能测试之Mysql数据库调优

    一.前言 性能调优前提:无监控不调优,对于mysql性能的监控前几天有文章提到过,有兴趣的朋友可以去看一下 二.Mysql性能指标及问题分析和定位 1.我们在监控图表中关注的性能指标大概有这么几个:C ...

  6. AJAX 的 Ajax返回数据之前的loading等待效果(gif效果等)

    首先,我们通过ajax请求,向后台传递参数,然后后台经过一系列的运算之后向前台返还数据,我希望在等待数据成功返还之前可以展示一个loading.gif图 不废话,在页面上执行点击事件(<a sc ...

  7. python——字符串截取

    str = ‘0123456789’ print str[0:3] #截取第一位到第三位的字符 print str[:] #截取字符串的全部字符 print str[6:] #截取第七个字符到结尾 p ...

  8. 微信小程序结构目录、配置介绍、视图层(数据绑定,运算,列表渲染,条件渲染)

    目录 一.小程序结构目录 1.1 小程序文件结构和传统web对比 1.2 基本的项目目录 二.配置介绍 2.1 配置介绍 2.2 全局配置app.json 2.3 page.json 三.视图层 3. ...

  9. 使用JS检测自定义协议是否存在

    [该博客是拼接他人的,原因我们这边PC的开发人员问我,有没有关于js某个对象直接能检测手机或者电脑的自定义协议的,我上网搜了下,貌似移动端的解决比较多] 最终解决方案:还是需要github上面大神写的 ...

  10. Mysql(Mariadb)之SET语法分析以及系统变量和用户变量分析(英文&中文)(转载)

    SET Syntax SET variable_assignment [, variable_assignment] ... variable_assignment: user_var_name = ...