Python爬虫库Scrapy入门1--爬取当当网商品数据

1.关于scrapy库的介绍，可以查看其官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/

2.安装：pip install scrapy 注意这个库的运行需要pywin32的支持，因此还需要安装pywin32。可以在这个网站上选择合适的版本下载安装：https://sourceforge.net/projects/pywin32/files/pywin32/

3.挖掘当当网商品数据：

首先需要创建一个名为dangdang的爬虫项目，在powershell中进入你项目所在的位置：

D:\Py\myweb>scrapy startproject dangdang

New Scrapy project 'dangdang', using template directory 'd:\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in:

    D:\Python35\myweb\dangdang

You can start your first spider with:

    cd dangdang

    scrapy genspider example example.com

创建好了爬虫项目之后，需要进入该爬虫项目，然后在爬虫项目中创建一个爬虫，如下所示：

D:\Py\myweb>cd .\dangdang\

D:\Py\myweb\dangdang>scrapy genspider -t basic dangspd dangdang.com

Created spider 'dangspd' using template 'basic' in module:

  Dangdang.spiders.dangspd

随后，需要编写items.py文件，在该文件中定义好需要爬取的内容，将items.py文件修改为如下所示：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DangdangItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #商品标题

    title=scrapy.Field()

    #商品评论数

    num=scrapy.Field()

随后，需要编写pipelines.py文件，在pipelines.py文件中，一般会编写一些爬取后数据处理的代码们需要将爬取到的信息依次展现到屏幕上同时保存在本地txt中，将pipelines.py文件修改为如下所示：

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

class DangdangPipeline(object):

    def process_item(self, item, spider):

        #item=dict(item)

        #print(len(item["name"]))

        for j in range(0,len(item["title"])):

            print(j)

            title=item["title"][j]

            num=item["num"][j]

            print("商品名："+title)

            print("商品评论数："+num)

            print("--------")

            with open("result.txt",'a') as f:
                f.write(title+"\t"+num +"\n")

        return item

随后，接下来还需要编写配置文件settings.py，编写配置文件的目的有两个：

1）、启用刚刚编写的pipelines，因为默认是不启用的。

2）、设置不遵循robots协议爬行，因为该协议对的爬虫有相关限制，遵循该协议，可能会无法爬取到结果。

可以将配置文件settings.py的robots协议配置部分修改为如下所示，此时值设置为False，代表让爬虫不遵循当当网的robots协议爬行，当然不要利用这些技术做违法事项。

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

然后， 再将配置文件settings.py的pipelines配置部分设置为如下所示，开启对应的pipelines:

# Configure item pipelines

# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

    'dangdang.pipelines.DangdangPipeline': 300,

}

随后，需要分析当当网的网页结构，总结出信息提取的规则以及自动爬行的规律。

打开某一个频道页，各页对应的网址如下所示：

http://category.dangdang.com/pg1-cid4002644.html

http://category.dangdang.com/pg2-cid4002644.html

http://category.dangdang.com/pg3-cid4002644.html

……

此时，会发现，网页的格式形如：http://category.dangdang.com/pg[页码]-cid4002644.html

有了该规律之后，可以将页码位置设置为变量，通过for循环就可以构造出一个频道中所有的商品页，也就通过这种方式实现了自动爬取。

然后，再分析商品信息的提取规律。

打开任意一个频道页http://category.dangdang.com/pg1-cid4002644.html，然后可以看到如下界面：

此时需要提取该页面中所有的商品标题和商品评论信息，将其他无关信息过滤掉。所以，可以查看该网页源代码，以第一个商品为例进行分析，然后总结出所有商品的提取规律。可以右键--查看源代码，然后通过ctrl+find快速定位源码中该商品的对应源代码部分，如下所示：

对应源代码复制出来如下所示：

……

<a title=" [当当自营]EGISOO御姬秀橙花润唇膏3g 无色护唇膏淡化唇纹水润晶莹保湿润唇膏 " class="pic" href="https://ask.hellobi.com/http://product.dangdang.com/60629118.html#ddclick?act=click&pos=60629118_0_2_m&cat=4002644&key=&qinfo=&pinfo=&minfo=14215_1_48&ninfo=&custid=&permid=20160906025129757347420307757891648&ref=&rcount=&type=&t=1476452492000&searchapi_version=test_ori" target="_blank" ><img src='http://img3x8.ddimg.cn/33/30/60629118-1_b_2.jpg' alt=' [当当自营]EGISOO御姬秀橙花润唇膏3g 无色护唇膏淡化唇纹水润晶莹保湿润唇膏 ' /></a> ¥9.90<a title=" [当当自营]EGISOO御姬秀橙花润唇膏3g 无色护唇膏淡化唇纹水润晶莹保湿润唇膏 " href="https://ask.hellobi.com/http://product.dangdang.com/60629118.html#ddclick?act=click&pos=60629118_0_2_m&cat=4002644&key=&qinfo=&pinfo=&minfo=14215_1_48&ninfo=&custid=&permid=20160906025129757347420307757891648&ref=&rcount=&type=&t=1476452492000&searchapi_version=test_ori" target="_blank" > [当当自营]EGISOO御姬秀橙花润唇膏3g 无色护唇膏淡化唇纹水润晶莹保湿润唇膏 </a> 明星都在用水润护唇秋冬换季必备呵护你的双唇晶莹剔透明媚动人正品保证货到付款 <a href="https://ask.hellobi.com/http://comm.dangdang.com/review/reviewlist.php?pid=60629118#ddclick?act=sort_total_review_count_desc&pos=60629118_0_2_m&cat=4002644&key=&qinfo=&pinfo=&minfo=14215_1_48&ninfo=&custid=&permid=20160906025129757347420307757891648&ref=&rcount=&type=&t=1476452492000&searchapi_version=test_ori" target="_blank" name="P_pl">434条评论</a> </div>

……

所以，可以得到提取商品标题和商品评论的Xpath表达式，如下所示：

#提取商品标题

"//a[@class='pic']/@title"

#提取商品评论

"//a[@name='P_pl']/text()"

此时，已经总结出了信息提取的对应的Xpath表达式，然后可以编写刚才最开始的时候创建的爬虫文件dangspd.py了，将爬虫文件编写修改为如下所示：

# -*- coding: utf-8 -*-

import scrapy

import re

from dangdang.items import DangdangItem

from scrapy.http import Request

class DangspdSpider(scrapy.Spider):

    name = "dangspd"

    allowed_domains = ["dangdang.com"]

    start_urls = (

        'http://category.dangdang.com/pg1-cid4002644.html',

    )

    def parse(self, response):

        item=DangdangItem()

        item["title"]=response.xpath("//a[@class='pic']/@title").extract()

        item["num"]=response.xpath("//a[@name='P_pl']/text()").extract()

        yield item

        for i in range(2,101):

            url="http://category.dangdang.com/pg"+str(i)+"-cid4002644.html"

            yield Request(url, callback=self.parse)

这样，就可以实现爬虫的编写了。

随后，可以进入调试和运行阶段。

进入cmd界面，运行该爬虫，出现如下所示结果，中间结果太长，省略了部分：

D:\Py\myweb\dangdang>scrapy crawl dangspd --nolog

……

43

商品名： WIS水润面膜套装24片祛痘控油补水保湿淡痘印收缩毛孔面膜贴男女

商品评论数：255条评论

--------

44

商品名：欧诗漫水活奇迹系列【水活奇迹珍珠水(清润型)+珍珠水活奇迹保湿凝乳】

商品评论数：0条评论

--------

45

商品名：【法国进口】雅漾（Avene）活泉恒润保湿精华乳30ml 0064

商品评论数：0条评论

--------

46

商品名：【法国进口】Avene雅漾敏感肌肤护理净柔洁面摩丝150ml温和泡沫洁面乳洗面奶0655

商品评论数：0条评论

--------

47

商品名：珍视明中老年护眼贴2盒装 30对60贴针对中老年用眼问题缓解眼疲劳

商品评论数：226条评论

而且在本地文件会有一个result.txt文件。里面数据：

Python爬虫库Scrapy入门1--爬取当当网商品数据的更多相关文章

Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
基于爬取百合网的数据，用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...

随机推荐

java 终端练习
Java第一天笔记一．Window中常见的dos命令在哪里操作dos命令: Win7 ---> 开始 ---->所有程序--->附件---->命令提示符 Win7--&g ...
js限制文本框只能输入数字方法小结(转)
这篇文章主要分享下js代码限制文本框中只能输入数字的多个实例,学习下js控制文本框中输入数字的方法,需要的朋友可以参考下有时需要限制文本框输入内容的类型,本节分享下正则表达式限制文本框只能输入数 ...
生成highcharts报表时对数据没有用= eval('([' + seriesArray+ '])')处理生成数组，而是简单的拼成字符串，结果导致大量的场景出现
<script type="text/javascript"> //异步初始周达成率趋势图信息 function goFinishQuery() { var yearN ...
BZOJ 2002 && BZOJ 2409 LCT && BZOJ 3282 初步练习
#include <cstdio> ; inline void Get_Int(int & x) { ; ') ch=getchar(); +ch-'; ch=getchar(); ...
centos 7 lamp （linux+apache+mysql+php）开发环境搭建(转+原创)
准备篇:CentOS 7.0系统安装配置图解教程 http://www.jb51.net/os/188487.html 一.配置防火墙,开启80端口.3306端口 CentOS 7.0默认使用的是fi ...
Android Studio项目目录结构介绍——android菜鸟成长之路
在Android Studio中,提供了以下几种项目结构类型我们一般常用的有以下两种结构: Project 结构类型 app/build/ app模块build编译输出的目录 app/build.g ...
peersim中BT网络核心代码解析
首先大概介绍BT网络运行的整体流程: 开始阶段,一个节点加入到网络中,并向tracker节点发送信息,tracker返回若干个邻居的列表得到列表后,向每个邻居发送bitfiled信息,来获取他们的文 ...
mysql5.7 慢查底里失败的原因
正确配置: log_output = FILEslow-query-log = on slow_query_log_file ="D:/MySQL5.7/data/slow ...
Java(二)
课后,我查阅相关学习资料和Java API制作了以下界面,界面包含了单选按钮(JRadioButton).复选框(JCheckBox).组合框(JComboBox).单行文本输入框(JTextFiel ...
C#多线程线程
“线程同步”的含义当一个进程启动了多个线程时,如果需要控制这些线程的推进顺序(比如A线程必须等待B和C线程执行完毕之后才能继续执行),则称这些线程需要进行“线程同步(thread synchro ...

Python爬虫库Scrapy入门1--爬取当当网商品数据

Python爬虫库Scrapy入门1--爬取当当网商品数据的更多相关文章

随机推荐

热门专题