scrapy 爬取当当网产品分类

#spider部分
import scrapy

from Autopjt.items import AutopjtItem

from scrapy.http import Request

class AutospdSpider(scrapy.Spider):

    name = "autospd"

    allowed_domains = ["dangdang.com"]

    start_urls = ['http://category.dangdang.com/pg1-cid4007379.html']

    def parse(self, response):

        item = AutopjtItem()

        item['name'] =response.xpath('//a[@name="itemlist-title"]/@title').extract()

        item['price'] = response.xpath('//span[@class="price_n"]/text()').extract()

        item['link'] = response.xpath('//a[@name="itemlist-title"]/@href').extract()

        item['comnum'] = response.xpath('//a[@name="itemlist-review"]/text()').extract()

        yield item

        for i in range(1,101):

            url = 'http://category.dangdang.com/pg'+str(i)+'-cid4007379.html'

            yield Request(url,callback=self.parse)

pipeline部分

import codecs

import json

class AutopjtPipeline(object):

    def __init__(self):

        self.file = codecs.open('D:/mydata.json','wb',encoding='utf-8')

    def process_item(self, item, spider):

        for j in range(0,len(item['name'])):

            name = item['name'][j]

            price = item['price'][j]

            comnum = item['comnum'][j]

            link =item['link'][j]

            goods = {'name':name,'price':price,'comnum':comnum,'link':link}

            i = json.dumps(dict(goods),ensure_ascii=False)

            line = i + '\n'

            self.file.write(line)

        return item

    def close_spider(self,spider):

        self.file.close()

item部分

import scrapy

class AutopjtItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name = scrapy.Field()

    price = scrapy.Field()

    link = scrapy.Field()

    comnum = scrapy.Field()

scrapy 爬取当当网产品分类的更多相关文章

Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）
1.网页解析当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
scrapy 爬取纵横网实战
前言闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目两条命 ...
scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）
scrapy项目3中已经对网页规律作出解析,这里用crawlspider类对其内容进行爬取: 项目结构与项目3中相同如下图,唯一不同的为book.py文件 crawlspider类的爬虫文件book的 ...
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...
使用scrapy爬取海外网学习频道
一:创建项目文件 1:首先在终端使用命令scrapy startproject huaerjieribao 创建项目 2:创建spider 首先cd进去刚刚创建的项目文件overseas 然后执行ge ...

随机推荐

DBdbvis数据库驱动连接问题
今天使用数据库查询工具DBvis链接mysql数据库时, 发现执行如何sql语句, 都报如下错误: mysql驱动包的版本不对导致的.我的mysql版本是5.7 解决办法: 去mysql官网下载最新的 ...
C#：继承过程中的静态成员
在知乎上看到一个关于"泛基"的实现,感觉挺有意思,想试试效果,代码如下: public abstract class MyBase<T> where T : MyBas ...
Redis之String
一.Redis之String简介 1. String是redis最基本的数据类型,一个key对应一个value. 2. String是二进制安全的,可以包含任何数据,例如图片或序列化的对象. 3. S ...
CSS垂直居中技巧
<body><div class="wrap"> <div class="box" ...
css学习の第一四弹—代码格式简写归纳
一.代码简写方式归纳 >>1.盒模型代码简写: 外边距(margin).内边距(padding)和边框(border)设置上下左右四个方向的边距是按照顺时针方向设置的:上右下左 1.如果t ...
Unity3D UGUI强制刷新Layout（布局）组件
UGUI的Layout布局组件确实节省了我们很多代码如果不使用Layout组件那么光在计算UI的布局上就要花费很大的功夫特别是动态生成其组件的时候当然,Layout组件在大多数时候是非常好用的 ...
centos6.x上安装Java-1.8.0
author : headsen chen date : 2017-12-04 10:32:44 notice :This article is created by headsen chen h ...
需掌握 - JAVA算法编程题50题及答案
[程序1] 题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少? //这是一个菲波拉契数列问题publi ...
angularJS使用rootscope创建父域和子模态框通用的属性与函数
1. 在声明创建controller指明引用$rootscope reviewInterfaceDo.controller('reviewInterfaceDo', function($scope, ...
java创建运行以及项目结构
一创建java project 再src下添加class,选择一个class添加main方法作为程序的入口二.项目结构: src下添加不同的包,命名方法为com.jikexueyuan.hello ...

scrapy 爬取当当网产品分类

scrapy 爬取当当网产品分类的更多相关文章

随机推荐

热门专题