用scrapy爬取京东商城的商品信息

软件环境：

 gevent (1.2.2)

 greenlet (0.4.12)

 lxml (4.1.1)

 pymongo (3.6.0)

 pyOpenSSL (17.5.0)

 requests (2.18.4)

 Scrapy (1.5.0)

 SQLAlchemy (1.2.0)

 Twisted (17.9.0)

 wheel (0.30.0)

1.创建爬虫项目

2创建京东网站爬虫. 进入爬虫项目目录，执行命令：

scrapy genspider jd www.jd.com

会在spiders目录下会创建和你起的名字一样的py文件：jd.py，这个文件就是用来写你爬虫的请求和响应逻辑的

3. jd.py文件配置

分析的amazon网站的url规则：

https://search.jd.com/Search?

以防关键字是中文，所以要做urlencode

1.首先写一个start_request函数，用来发送第一次请求，并把请求结果发给回调函数parse_index，同时把reponse返回值传递给回调函数,response类型<class 'scrapy.http.response.html.HtmlResponse'>

     def start_requests(self):

         # https://www.amazon.cn/s/ref=nb_sb_ss_i_1_6?field-keywords=macbook+pro

         # 拼接处符合条件的URL地址

         # 并通过scrapy.Requst封装请求，并调用回调函数parse_index处理,同时会把response传递给回调函数

         url = 'https://search.jd.com/Search?'

         # 拼接的时候field-keywords后面是不加等号的

         url += urlencode({"keyword": self.keyword, "enc": "utf-8"})

         yield scrapy.Request(url,

                              callback=self.parse_index,

                              )

2.parse_index从reponse中获取所有的产品详情页url地址，并遍历所有的url地址发送request请求，同时调用回调函数parse_detail去处理结果

 def parse_detail(self, response):

     """

     接收parse_index的回调，并接收response返回值，并解析response

     :param response:

     :return:

     """

     jd_url = response.url

     sku = jd_url.split('/')[-1].strip(".html")

     # price信息是通过jsonp获取，可以通过开发者工具中的script找到它的请求地址

     price_url = "https://p.3.cn/prices/mgets?skuIds=J_" + sku

     response_price = requests.get(price_url)

     # extraParam={"originid":"1"}  skuIds=J_3726834

     # 这里是物流信息的请求地址，也是通过jsonp发送的，但目前没有找到它的参数怎么获取的，这个是一个固定的参数，如果有哪位大佬知道，好望指教

     express_url = "https://c0.3.cn/stock?skuId=3726834&area=1_72_4137_0&cat=9987,653,655&extraParam={%22originid%22:%221%22}"

     response_express = requests.get(express_url)

     response_express = json.loads(response_express.text)['stock']['serviceInfo'].split('>')[1].split('<')[0]

     title = response.xpath('//*[@class="sku-name"]/text()').extract_first().strip()

     price = json.loads(response_price.text)[0]['p']

     delivery_method = response_express

     # # 把需要的数据保存到Item中，用来会后续储存做准备

     item = AmazonItem()

     item['title'] = title

     item['price'] = price

     item['delivery_method'] = delivery_method

     # 最后返回item，如果返回的数据类型是item，engine会检测到并把返回值发给pipelines处理

     return item

4. item.py配置

 import scrapy

 class JdItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     # amazome Item

     title = scrapy.Field()

     price = scrapy.Field()

     delivery_method = scrapy.Field()

5. pipelines.py配置

 from pymongo import MongoClient

 class MongoPipeline(object):

     """

     用来保存数据到MongoDB的pipeline

     """

     def __init__(self, db, collection, host, port, user, pwd):

         """

         连接数据库

         :param db: databaes name

         :param collection: table name

         :param host: the ip for server

         :param port: thr port for server

         :param user: the username for login

         :param pwd: the password for login

         """

         self.db = db

         self.collection = collection

         self.host = host

         self.port = port

         self.user = user

         self.pwd = pwd

     @classmethod

     def from_crawler(cls, crawler):

         """

         this classmethod is used for to get the configuration from settings

         :param crwaler:

         :return:

         """

         db = crawler.settings.get('DB')

         collection = crawler.settings.get('COLLECTION')

         host = crawler.settings.get('HOST')

         port = crawler.settings.get('PORT')

         user = crawler.settings.get('USER')

         pwd = crawler.settings.get('PWD')

         return cls(db, collection, host, port, user, pwd)

     def open_spider(self, spider):

         """

         run once time when the spider is starting

         :param spider:

         :return:

         """

         # 连接数据库

         self.client = MongoClient("mongodb://%s:%s@%s:%s" % (

             self.user,

             self.pwd,

             self.host,

             self.port

         ))

     def process_item(self, item, spider):

         """

         storage the data into database

         :param item:

         :param spider:

         :return:

         """
　　　　　　# 获取item数据，并转换成字典格式

         d = dict(item)
　　　　　　 # 有空值得不保存

         if all(d.values()):
　　　　　　　　　　# 保存到mongodb中

             self.client[self.db][self.collection].save(d)

         return item

         # 表示将item丢弃，不会被后续pipeline处理

         # raise DropItem()

6. 配置文件

 # database server

 DB = "jd"

 COLLECTION = "goods"

 HOST = "127.0.0.1"

 PORT = 27017

 USER = "root"

 PWD = ""

 ITEM_PIPELINES = {

    'MyScrapy.pipelines.MongoPipeline': 300,

 }

用scrapy爬取京东商城的商品信息的更多相关文章

Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy实战篇（四）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...
Scrapy实战篇（五）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...
scrapy爬取京东iPhone11评论（一）
咨询行业中经常接触到文本类信息,无论是分词做词云图,还是整理编码分析用,都非常具有价值. 本文将记录使用scrapy框架爬取京东IPhone11评论的过程,由于一边学习一边实践,更新稍慢请见谅. 1. ...
Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
Python爬虫从入门到放弃（十九）之 Scrapy爬取所有知乎用户信息(下)
在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 cla ...

随机推荐

Vue中路由的嵌套
import Vue from 'vue'; import App from './App.vue'; //引入公共的scss 注意:创建项目的时候必须用scss import './assets/c ...
shell编程系列1--shell脚本中的变量替换
shell编程系列1--shell脚本中的变量替换变量替换总结: .${变量#匹配规则} # 从头开始匹配,最短删除 .${变量##匹配规则} # 从头开始匹配,最长删除(贪婪模式) .${变量%匹 ...
java-mybaits-014-数据库缓存设计【querycache、mybatis一级缓存、二级缓存】
一.概述一般来说,可以在5个方面进行缓存的设计: 1.最底层可以配置的是数据库自带的query cache, 2.mybatis的一级缓存,默认情况下都处于开启状态,只能使用自带的Perpetual ...
阿里云服务器Svn-Server无法连接
总结:关于阿里云服务器Svn-Server无法连接,Svn-Server的配置问题 2018年07月09日 11:51:08 周同学的博客阅读数:355 最近在使用阿里云服务器时,SQL SER ...
深入学习c++--智能指针(二) weak_ptr（打破shared_ptr循环引用）
1. 几种智能指针 1. auto_ptr: c++11中推荐不使用他(放弃) 2. shared_ptr: 拥有共享对象所有权语义的智能指针 3. unique_ptr: 拥有独有对象所有权语义的智 ...
DateUtil 提供一些常用的时间想法的方法
package com.opslab.util; import java.text.ParseException;import java.text.SimpleDateFormat;import ja ...
Qt编写气体安全管理系统24-地图管理
一.前言地图管理的主要功能是将系统中的地图文件做添加和删除,支持常见的jpg.png.bmp等格式图片,图片分辨率建议小于1080P,最好是和目标客户端电脑分辨率一致,这样在拉伸缩放的时候会比较清晰 ...
Linux记录-批量安装LNMP（转载）
#!/bin/bash # Describe: This is a one - button installation service script # 提示:使用此脚本时,尽量先选择第一项配置Yum ...
ubuntu18.04安装flat-remix-gnome主题
flat-remix-gnome主题的github地址:https://github.com/daniruiz/flat-remix-gnome ubuntu下进行如下操作: sudo add-apt ...
【Leetcode_easy】888. Fair Candy Swap
problem 888. Fair Candy Swap solution: class Solution { public: vector<int> fairCandySwap(vect ...