前言

好久没有写实战博客了，因为前几个月在公司实习，博客更新就耽搁了下来，现在又受疫情影响无法返校，但是技能还是不能丢的，今天就写一篇使用scrapy爬取当当网的实战练习吧。

创建scrapy项目

目标站点： http://search.dangdang.com/?key=python&category_path=01.00.00.00.00.00&page_index=1 这是在当当网搜索关键字python得到的页面

第一步仍然是使用命令行切换到工作目录创建scrapy项目

D:\pythonwork\cnblog>scrapy startproject cnblog_dangdang

然后使用cd命令进入项目中的spiders文件夹使用命令创建爬虫文件（注意：该命令后的网址跟的是目标网址域名，而不是整个网址）

D:\pythonwork\cnblog\cnblog_dangdang\cnblog_dangdang\spiders>scrapy genspider dangdang_spider dangdang.com

此时我们的项目与基础爬虫文件已经创建完毕，接下来编写代码使用pycharm打开项目

内容分析

打开目标站点分析我们需要爬取什么内容

对于目标站点的商品图书而言，我们需要爬取它的标题、价格、作者、评分和概括五个部分

因此首先我们在项目的items.py文件中声明我们需要爬取的内容。

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class CnblogDangdangItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    price = scrapy.Field()

    author = scrapy.Field()

    star = scrapy.Field()

    detail = scrapy.Field()

因此我们的数据表的sql语句创建如下：

CREATE TABLE IF NOT EXISTS dangdang_item (

id INT UNSIGNED AUTO_INCREMENT,

title CHAR(100) NOT NULL,

price CHAR(100) NOT NULL,

author CHAR(100) NOT NULL,

star CHAR(10) NOT NULL,

detail VARCHAR(1000),

PRIMARY KEY (id)

)ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

爬虫文件编写

内容分析完成之后我们到了最关键的爬虫文件编写部分，首先我们要测试下该网站有没有反爬措施。

这一步我们只需要简单的将spiders文件夹中的dangdang_spider.py文件进行简单的修改让其输出目标站点的响应内容即可

dangdang_spider.py

# -*- coding: utf-8 -*-

import scrapy

class DangdangSpiderSpider(scrapy.Spider):

    name = 'dangdang_spider'

    allowed_domains = ['dangdang.com']

    start_urls = ['http://search.dangdang.com/?key=python&category_path=01.00.00.00.00.00&page_index=1']

    def parse(self, response):

        print(response.text)

        pass

为了方便我们进行调试，我们在项目下创建一个main.py文件用于启动爬虫，不然我们每次启动都需要在命令行中使用scrapy命令。

main.py

from scrapy import cmdline

cmdline.execute('scrapy crawl dangdang_spider'.split())

然后直接运行main.py文件，发现输出了目标网站的html源代码，所以目标网站并没有反爬措施，我们可以直接拿取内容，接下来就开始拿取内容了。

五部分内容使用xpath拿取，网页结构很简单，直接从源码分析xpath即可。

开始实际编写爬虫文件dangdang_spider.py

# -*- coding: utf-8 -*-

import scrapy

import re

from cnblog_dangdang.items import CnblogDangdangItem

str_re = re.compile('\d+')

class DangdangSpiderSpider(scrapy.Spider):

    name = 'dangdang_spider'

    allowed_domains = ['dangdang.com']

    start_urls = ['http://search.dangdang.com/?key=python&category_path=01.00.00.00.00.00&page_index=1']

    def parse(self, response):

        book_item = CnblogDangdangItem()

        items = response.xpath("//ul[@class='bigimg']/li")#不用加get 因为此步骤为了拿到一个xpath对象

        for item in items:

            book_item['title'] = item.xpath("./a/@title").get()

            book_item['price'] = item.xpath("./p[@class='price']").xpath("string(.)").get()#使用string(.)方法为了拿取目标节点下的所有子节点文本

            book_item['author'] = item.xpath("./p[@class='search_book_author']").xpath("string(.)").get()

            book_item['star'] = int(str_re.findall(item.xpath("./p[@class='search_star_line']/span/span/@style").get())[0])/20

            book_item['detail'] = item.xpath("./p[@class='detail']//text()").get()

            print(book_item)

            yield book_item

        next_url_end = response.xpath("//li[@class='next']/a/@href").get()

        #如果拿到了下一页链接，则访问

        if next_url_end:

            next_url ='http://search.dangdang.com/'+ next_url_end

            yield scrapy.Request(next_url,callback=self.parse)

再次运行爬虫，发现现在已经可以输出拿取到的信息

说明我们的爬虫文件编写成功，接下来就是对我们拿取到的数据进行处理。

数据的存储

此次我们选择使用mysql进行数据的存储，那么我们首先要干什么呢？是直接编写pipeline.py文件吗？并不是，我们还有一个很重要的地方没有弄，就是settings.py文件。

我们想要通过pipeline.py文件来处理爬取到的数据，首先就需要去settings.py中开启我们的pipeline选项，很简单只需要在settings.py中将ITEM_PIPELINES的注释消掉即可如下图

接下来就可以编写pipeline.py文件来对我们的数据进行操作了

pipeline.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

number = 0

class DangdangPipeline(object):

    # open_spider()爬虫开启时执行一次

    def open_spider(self,spider):

        # 连接数据库

        print("连接数据库，准备写入数据")

        self.db = pymysql.connect('localhost', '你的mysql账户', '你的mysql密码', '你的数据库名称')

        self.cursor = self.db.cursor()

    def process_item(self, item, spider):

        global number

        number = number+1

        print('当前写入第'+str(number)+'个商品数据')

        #使用replace是为了避免数据中存在引号与sql语句冲突

        title=str(item['title']).replace("'","\\'").replace('"','\\"')

        price=str(item['price']).replace("'","\\'").replace('"','\\"')

        author=str(item['author']).replace("'","\\'").replace('"','\\"')

        star=str(item['star']).replace("'","\\'").replace('"','\\"')

        detail=str(item['detail']).replace("'","\\'").replace('"','\\"')

        sql = f'INSERT INTO dangdang_item (title,price,author,star,detail) VALUES (\'{title}\',\'{price}\',\'{author}\',\'{star}\',\'{detail}\');'

        #执行sql语句

        self.cursor.execute(sql)

        #数据库提交修改

        self.db.commit()

        return item

    # close_spider()爬虫关闭后执行

    def close_spider(self,spider):

        print('写入完成,一共'+str(number)+'个数据')

        # 关闭连接

        self.cursor.close()

        self.db.close()

接下来再次运行main.py文件，看看爬虫效果。

我们去数据库中看一下我们刚刚爬取的数据

ok，大功完成了，我们的当当网scrapy爬虫就编写好了。

scrapy 当当网爬虫的更多相关文章

Python爬虫库Scrapy入门1--爬取当当网商品数据
1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy 注意这 ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
Python 爬虫当当网图书 scrapy
目标站点需求分析获取当当网每个图书名字和评论数涉及的库 scrapy,mysql 获取解析单页源码保存到数据库中结果
scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）
1.网页解析当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
scrapy获取当当网中数据
yield 1. 带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 2. yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yiel ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
【转】java爬虫，爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...

随机推荐

Oracle GoldenGate 12.3微服务架构指北
Microservices Architecture introduction Microservices Architecture is a method or approach to develo ...
[转载收藏]C#基础知识梳理系列十一：垃圾回收机制
摘要基于.NET平台的开发语言中,最让开发人员爽的一点就是垃圾回收处理机制,在编码过程中,终于可以解放你的双手来关注更重要的事情.很多的资料中在讲到.NET中的垃圾回收机制时都说"CLR ...
CSS动效集锦，视觉魔法的碰撞与融合（三）
本文讲述的原理和相关demo 扇形DIV的使用——实现雷达扫描图 DIV环形布局—实现loading圈动画的向量合成—实现抛物线动画无限滚动动画—实现跑马灯效果 perspective和trans ...
批量解决win10图标上有两个蓝色箭头的方法
双击“此电脑”,点击“C盘”,可以看到一个”用户“文件夹,双击”用户“, 选择现在正在使用的用户名,双击用户名,找到该文件夹下的”桌面“或”Desktop“点击“属性”, 在“常规”选项卡中的属于项中 ...
Android的学习之路一
在Android的道路上越走越远==,本着一颗童心去学习,没想到最后会成为自己的职业.看到过知乎上写的,并不是兴趣使比尔盖茨以及乔布斯他们成就斐然,而是他们真正的牛逼使得即使买大饼也能成为世界首富.然 ...
jmeter使用—计数器的使用
说一下jmeter中,配置元件-计数器的使用. 如果需要引用的数据量较大,且要求不能重复或者需要自增,那么可以使用计数器来实现. 1.启动jmeter,添加线程组,右键添加配置元件——计数器,如下图: ...
Redis（八）：zset/zadd/zrange/zrembyscore 命令源码解析
前面几篇文章,我们完全领略了redis的string,hash,list,set数据类型的实现方法,相信对redis已经不再神秘. 本篇我们将介绍redis的最后一种数据类型: zset 的相关实现. ...
Basic Thought / Data Structure: 差分 Difference
Intro: 作为查询界的\(O(1)\)王者--前缀和的亲兄弟,差分,他可是修改界的\(O(1)\)王者 Prerequisite knowledge: 前缀和 Function: 仅单次询问的区间 ...
python sqlalchemy mysql 自动映射
SQLAlchemy是Python编程语言下的一款ORM框架,该框架建立在数据库API之上,使用关系对象映射进行数据库操作简言之便是:将对象转换成SQL,然后使用数据API执行SQL并获取执行结果 ...
gcd（最大公约数）算法
PS: 求一个两个数之间的最大公约数,往往需要被记起. int gcd(int x, int y) { if(y == 0) return x; int r = x % y; return gcd(y ...

scrapy 当当网 爬虫

前言

创建scrapy项目

内容分析

爬虫文件编写

数据的存储

scrapy 当当网 爬虫的更多相关文章

随机推荐

热门专题

scrapy 当当网爬虫

scrapy 当当网爬虫的更多相关文章