Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候，Firefox消耗资源比较多，因此我们希望换一种资源消耗更小的方法来爬取相关的信息。

下面就使用selenium加PhantomJS来实现之前的相同的逻辑。

这里需要修改的就是spider.py文件，其余的部分并不需要做出修改，我们给phantomjs添加一个User-Agent信息，并且设置不加载图片，这样将会加快渲染的速度。

spider.py

from scrapy import Spider,Request

from selenium import webdriver

class JingdongSpider(Spider):

    name = 'jingdong'

    def __init__(self):

        SERVICE_ARGS = ['--load-images=false', '--disk-cache=true', '--ignore-ssl-errors=true']

        self.browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)

        self.browser.set_page_load_timeout(30)

    def closed(self,spider):

        print("spider closed")

        self.browser.close()

    def start_requests(self):

        start_urls = ['https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.his.0.0&page={}&s=1&click=0'.format(str(i)) for i in range(1,10,2)]

        for url in start_urls:

            yield Request(url=url, callback=self.parse)

    def parse(self, response):

        selector = response.xpath('//ul[@class="gl-warp clearfix"]/li')

        print(len(selector))

        print('---------------------------------------------------')

执行程序，效果是一样的。

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）的更多相关文章

Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）
在之前的一篇实战之中,我们已经爬取过京东商城的文胸数据,但是前面的那一篇其实是有一个缺陷的,不知道你看出来没有,下面就来详细的说明和解决这个缺陷. 我们在京东搜索页面输入关键字进行搜索的时候,页面的返 ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
爬虫之selenium爬取京东商品信息
import json import time from selenium import webdriver """ 发送请求 1.1生成driver对象 2.1窗口最大 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...

随机推荐

C++ 的getline问题
在用c++的getline函数的时候碰到两个问题,总结如下: 1.有时候写程序的时候我们会发现getline(cin,str);这样的语句是不会执行,而是直接跳过的, 一般的解决方法是getline一 ...
php发送get和post请求
1. Get方式实现 //初始化 $ch = curl_init(); //设置选项,包括URL curl_setopt($ch, CURLOPT_URL, "http://www.abc. ...
【计蒜客】是男人就过 8 题--Pony.AI 题 A. A String Game 后缀自动机+SG函数
[题目]A. A String Game [题意]给定目标串S和n个子串Ti,Alice和Bob轮流选择一个子串操作,必须且只能在子串末尾添加一个字符使得新串也是S的子串,不能操作即输,求胜利者.|S ...
【CodeForces】915 F. Imbalance Value of a Tree 并查集
[题目]F. Imbalance Value of a Tree [题意]给定n个点的带点权树,求所有路径极差的和.n,ai<=10^6 [算法]并查集 [题解]先计算最大值的和,按点权从小到大 ...
$file函数
引用:http://www.jb51.net/article/26508.htm 如: 复制代码代码如下: <form enctype="multipart/form-data&quo ...
tf.reduce_sum()_tf.reduce_mean()_tf.reduce_max()
根据官方文档: reduce_sum应该理解为压缩求和,用于降维 tf.reduce_sum(input_tensor,axis=None,keepdims=None,name=None,reduct ...
Codeforces Round #466
A. Points on the line 题意给定一条直线上$n$个点,要求去掉最少的点,使得直线上相距最远的两个点的距离$\leq d$. 思路枚举长度为$d$的区间. Code ...
ProxySQL 故障
发现直接连接MGR节点是正常的,可以写入,但通过ProxySQL连接就无法show\select\insert 等使用sysbench对ProxySQL报以下错误: FATAL: `thread_r ...
python requests模块手动设置cookies的几种方式
def use_cookie(self): cookies="YF-V5-G0=731b77772529a1f49eac82a9d2c2957f; SUB=_2AkMsEgief8NxqwJ ...
Tutorial 4: Authentication & Permissions
转载自:http://www.django-rest-framework.org/tutorial/4-authentication-and-permissions/ Tutorial 4: Auth ...

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

spider.py

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）的更多相关文章

随机推荐

热门专题