scrapy爬去京东书籍信息

# -*- coding: utf-8 -*-

import scrapy

import urllib

import json

from copy import deepcopy

class JdSpider(scrapy.Spider):

    name = 'jd'

    allowed_domains = ['jd.com', 'p.3.cn']

    start_urls = ['https://book.jd.com/booksort.html']

    def parse(self, response):

        # 大分类

        dt_list = response.xpath("//div[@class='mc']/dl/dt")

        for dt in dt_list:

            item = {}

            item['b_cate_name'] = dt.xpath("./a/text()").extract_first() # 大分类名字

            # 小分类

            dd_list = dt.xpath("./following-sibling::dd[1]")

            for dd in dd_list:

                item['s_cate_name'] = dd.xpath("./em/a/text()").extract_first() # 小分类名字

                item['s_cate_url'] = dd.xpath("./em/a/@href").extract_first() # 小分类url

                if item['s_cate_url'] is not None:

                    item['s_cate_url'] = urllib.parse.urljoin(response.url, item['s_cate_url'])

                    yield scrapy.Request(

                        item['s_cate_url'],

                        callback=self.parse_book_list,

                        meta={'item': deepcopy(item)}

                    )

    def parse_book_list(self, response):

        item = response.meta['item']

        book_list = response.xpath("//li[@class='gl-item']") # 小分类中的书

        for book in book_list:

            item['book_buy_url'] = book.xpath(".//div[@class='p-img']/a/@href").extract_first()

            if item['book_buy_url'] is not None:

                item['book_buy_url'] = urllib.parse.urljoin(response.url, item['book_buy_url'])

            item['book_img_url'] = book.xpath(".//div[@class='p-img']/a/img/@src").extract_first()

            if item['book_img_url'] is None:

                item['book_img_url'] = book.xpath(".//div[@class='p-img']/a/img/@data-lazy-img").extract_first()

            item['book_name'] = book.xpath(".//div[@class='p-name']/a/em/text()").extract_first().strip()

            item['book_author'] = book.xpath(".//span[@class='author_type_1']/a/text()").extract()

            item['skuIds'] = book.xpath(".//div/@data-sku").extract_first() # 通过书的id获取价格

            yield scrapy.Request(

                'https://p.3.cn/prices/mgets?skuIds=J_{}'.format(item['skuIds']),

                callback=self.parse_book_price,

                meta={'item': deepcopy(item)}

            )

        # 小分类 下一页

        next_url = response.xpath("//a[@class='pn-next']/@href").extract_first()

        if next_url is not None:

            next_url = urllib.parse.urljoin(response.url, next_url)

            yield scrapy.Request(

                next_url,

                callback=self.parse_book_list,

                meta={'item': item}

            )

    def parse_book_price(self, response):

        item = response.meta['item']

        item['book_price'] = json.loads(response.body.decode())[0]['op']

        print(item)

        yield item

scrapy爬去京东书籍信息的更多相关文章

selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...
八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
scrapy爬取京东iPhone11评论（一）
咨询行业中经常接触到文本类信息,无论是分词做词云图,还是整理编码分析用,都非常具有价值. 本文将记录使用scrapy框架爬取京东IPhone11评论的过程,由于一边学习一边实践,更新稍慢请见谅. 1. ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...

随机推荐

mock数据，尽量随机，1次插入多条
建表,多设置一个字段id_tmp create table if not exists mall_data.dtw_mall2_adm_customer_d_tmp( id_tmp string co ...
redhat6.5 redis单节点多实例3A集群搭建
在进行搭建redis3M 集群之前,首先要明白如何在单节点上完成redis的搭建. 单节点单实例搭建可以参看这个网:https://www.cnblogs.com/butterflies/p/9628 ...
Python 模块调用的变量与路径
自己编写的python代码经常需要分模块文件以及包,梳理一下调用顺序.执行顺序.工作路径.函数与变量等工作路径首先是工作路径,当模块代码放在统一的包内的时候,其路径和外层的包路径不同,当作为主调用 ...
java web 登录后更新JSESSIONID
https://huangqiqing123.iteye.com/blog/2031455 登录前的请求一般都是http的,http是不安全的,假设用户登录前的JSESSIONID被人取得,如果登录后 ...
Sqlsession 的理解
MyBatis的持久化解决方案是将用户从原始的JDBC访问中解放出来,用户只需要定义需要操作的SQL语句,无须关注底层的JDBC操作,就可以以面向对象的方式来进行持久化层操作.底层数据库连接的获取,数 ...
汇编实验1（又是作业emm）
实验任务:学会使用debug 1.使用Debug,将程序段写入内存: 机器码: b8 20 4e 05 16 14 bb 00 20 01 d8 89 c3 01 d8 b8 1a 00 bb 26 ...
python中logging模块的用法
很多程序都有记录日志的需求,并且日志中包含的信息即有正常的程序访问日志,还可能有错误.警告等信息输出,python的logging模块提供了标准的日志接口,你可以通过它存储各种格式的日志,loggin ...
学习php
一.php是什么? 1.PHP:Hypertext Preprocessor(超文本预处理语言),是一种开源脚本语言. 2.PHP是脚本语言 3.PHP最流行的网站开发语言 4.PHP官网:http: ...
maven无法下载oracle驱动包
由于版权问题,在中央仓库是没有oracle的jdbc驱动的,可以手动下载到本地或者在oracle安装目录的jdbc目录中找到对应的jar,然后通过以下命令安装到本地仓库 mvn install:ins ...
docker安装centos后没有ifconfig命令解决办法
使用docker pull centos命令下载下来的centos镜像是centos7的最小安装包,里面并没有携带ifconfig命令,导致我想查看容器内的ip时不知道该怎么办 yum provide ...

scrapy爬去京东书籍信息

scrapy爬去京东书籍信息的更多相关文章

随机推荐

热门专题