使用Scrapy爬取图书网站信息

重难点：使用scrapy获取的数值是unicode类型，保存到json文件时需要特别注意处理一下，具体请参考链接：https://www.cnblogs.com/sanduzxcvbnm/p/10309401.html

稍加改造也能保存到csv文件中

网址：https://sobooks.net/

1.网站分析

该图书网站的网址或者是https://sobooks.net/，或者是https://sobooks.cc/,本文以前者为例

首先看到的截止到当前时间(2019-01-23)共有172页，点击第二页，会发现网址变成：https://sobooks.net/page/2，点击第三页网址变成https://sobooks.net/page/3，不难想象，若是网址是https://sobooks.net/page/1，出现的页面是否跟https://sobooks.net/一样呢，结果是一样的，然后访问手动输入地址https://sobooks.net/page/172访问，会发现直接到最后一页了，顺便统计一下，最后一页有6本图书，前171页每页有24本图书，合计图书有171*24+6=4110本

这样一来就可以使用循环的方式来遍历每页的图书了

2.进入到图书详情页面，比如：https://sobooks.net/books/11582.html，会发现页面提供的有百度云网盘和城通网盘的下载地址，不过有些图书页面只提供百度云网盘的地址，所以本文只获取百度云网盘的地址。

页面上提供的是一个跳转链接地址，经过分析发现百度云网盘在=号后面，可以先提取出href的值然后使用split('=')切割获取后者即可得到百度云网盘地址

另外还需要在当前页面输入验证码提交后才能获取到百度云网盘的提取码。通过查看源码可知：

采用post的方式将验证码（2018919）提交到当前页面进而获得百度云提取码

一般的做法是进入到图书详情页面后再使用post方式提交验证码到当前页面获取提取码，不过这两步可以合成一步操作，就是采用post提交数据的方式进入到图书详情页面，这样一来，既进入了图书详情页面，同时页面上直接显示的就有提取码。不过scrapy默认使用的get方式，所以需要修改scrapy的中的相关方法；

3.进入到图书详情页面后接下来就按照正常流程输出需要的字段信息，全部采用css的方式(浏览器调试工具：css选择器)，同时辅助使用表达式。

4.最后把图书信息保存到json文件中

5.源码文件

settings.py

增加如下内容，其余保持不变

ITEM_PIPELINES = {

    'sobooks.pipelines.JsonWithEncodingPipeline': 200,

}

items.py

import scrapy

class SobooksItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    url = scrapy.Field()

    title = scrapy.Field()

    classification = scrapy.Field()

    author = scrapy.Field()

    down_bd_url = scrapy.Field()

    down_bd_code = scrapy.Field()

    down_ct_url = scrapy.Field()

pipelines.py

import codecs

import json

class JsonWithEncodingPipeline(object):

    """

    命令行里输出的是unicode,但是保存到json文件中是中文

    """

    def __init__(self):

        self.file = codecs.open('items.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        line = json.dumps(dict(item), ensure_ascii=False) + "\n"

        # print('图书%s保存成功' % (item['title'].encode('utf-8')))

        self.file.write(line)

        return item

    def close_spider(self, spider):

        self.file.close()

sobook.py

# -*- coding: utf-8 -*-

import re

import scrapy

from sobooks.items import SobooksItem

class SobookSpider(scrapy.Spider):

    """

    爬虫思路梳理

    开始时的想法是使用get方式进入到书籍详情页面，然后再使用post方式给本页发送验证码获得百度云网盘提取密码,这样操作步骤较为繁琐

    倒不如直接使用post方式给本页发送验证码，从而将上面的两步合成一步

    """

    name = 'sobook'

    allowed_domains = ['sobooks.net']

    base_url = 'https://sobooks.net/page/'

    pages = list(range(1, 173))

    def start_requests(self):

        # 遍历循环图书索引页

        for page in self.pages:

            url = self.base_url + str(page)

            # print('请求第%s页' % (page))

            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        # 使用css选择器

        res = response.css('#cardslist div.card').extract()

        for card in res:

            # 获取图书详情页链接

            pattern = re.compile('<h3>.*?<a href="(.*?)".*?>.*?</a>.*?</h3>', re.S)

            url = re.findall(pattern, card)

            # print('Get Book URI %s' % (url[0]))

            # 使用post方式提交验证码进入图书详情页面

            yield scrapy.FormRequest(url=url[0], formdata={'e_secret_key': ''},

                                     callback=self.detail_parse)

    def detail_parse(self, response):

        title = response.css('.article-title > a:nth-child(1)::text').extract_first()

        classification = response.css('#mute-category > a:nth-child(2)::text').extract_first()

        author = response.css('span.muted:nth-child(2) > a:nth-child(2)::text').extract_first()

        # 若是需要城通网盘地址，参考百度云网盘地址写法(CSS选择器)

        down_bd_url = response.css(

            '.dltable > tbody:nth-child(1) > tr:nth-child(3) > td:nth-child(1) > a:nth-child(2)::attr(href)').extract_first().split(

            '=')[1]

        down_bd_code = response.css('.e-secret > strong:nth-child(1)::text').extract_first()

        item = SobooksItem()

        item['title'] = title

        item['classification'] = classification

        item['author'] = author

        item['down_bd_url'] = down_bd_url

        item['down_bd_code'] = down_bd_code

        yield item

6.效果：

通过查看json文件，发现有4098本图书数据，跟之前计算的4110本差2本，这2本具体是啥懒得找了，就先这样吧

通过分析json文件中的地址，应该取的是百度云网盘的地址，但是部分地址是城通网盘的，通过搜索图书查看发现该图书并未提供百度云网盘地址，只提供城通网盘地址

源码下载地址：https://files.cnblogs.com/files/sanduzxcvbnm/sobooks.7z

使用Scrapy爬取图书网站信息的更多相关文章

爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
爬虫框架之Scrapy——爬取某招聘信息网站
案例1:爬取内容存储为一个文件 1.建立项目 C:\pythonStudy\ScrapyProject>scrapy startproject tenCent New Scrapy projec ...
scrapy爬取某网站,模拟登陆过程中遇到的那些坑
本节内容在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问.这个时候我们之前写的傻傻的爬虫就被ban在门外了.所以本节,我们给爬虫配置cookie,使得爬虫能保持用户已登录的状态,达到获得那 ...
爬虫系列3：Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文爬虫系列2:https://www ...
scrapy 爬取天猫商品信息
spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy impo ...
python之scrapy爬取jingdong招聘信息到mysql数据库
1.创建工程 scrapy startproject jd 2.创建项目 scrapy genspider jingdong 3.安装pymysql pip install pymysql 4.set ...
scrapy爬取豆瓣电影信息
最近在学python,对python爬虫框架十分着迷,因此在网上看了许多大佬们的代码,经过反复测试修改,终于大功告成! 原文地址是:https://blog.csdn.net/ljm_9615/art ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...

随机推荐

LeetCode 125. Valid Palindorme (验证回文字符串)
Given a string, determine if it is a palindrome, considering only alphanumeric characters and ignori ...
数据挖掘算法学习（八）Adaboost算法
本文不定期更新.原创文章,转载请附上链接http://blog.csdn.net/iemyxie/article/details/40423907 谢谢 Adaboost是一种迭代算法,其核心思想是针 ...
HDU 5325 Crazy Bobo（思路+dfs 记忆化）
Crazy Bobo Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 131072/65536 K (Java/Others) Tota ...
linux常用命令---持续添加中...
1.cp -r 源文件夹目的文件夹 // -r 可递归所有子目录及文件 2.grep -r 查找内容 ./* //递归查找当前目录下所有文件指定内容 3. 查看系统运行时间 who - ...
ASP.NET_SessionId vs .ASPXAUTH why do we need both of them?
https://stackoverflow.com/questions/23758704/asp-net-sessionid-vs-aspxauth-why-do-we-need-both-of-th ...
在IIS上搭建WebSocket服务器（三）
编写客户端代码 1.新建一个*.html文件. ws = new WebSocket('ws://192.168.85.128:8086/Handler1.ashx?user=' + $(" ...
B1277 [HNOI2002]Tinux系统树形dp
这个题bzoj上没有图,luogu上样例有问题...其实这个题代码不难,但是思考起来还是有一定难度的,其实这些题的重点都在于思考.我就不写了,洛谷上唯一的题解写的挺好,大家可以看一看. 题干: 在do ...
IDEA Spark Streaming 操作(RDD队列流)
import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming. ...
App上架流程 & 上架被拒10大原因
上架前预热先登陆自己的开发者账号(自己提前注册好 iOS 开发者账号,这里假设你已经拥有了一个 iOS 开发者账号),进入这个页面:https://developer.apple.com/accou ...
Gym - 100920E 2010-2011 OpenCup IX Onsite, II Yandex Summer School E.Paint 状压DP
题面题意:给你n(20)个点,m(40条边),让你给每条边染一种颜色,白色0元,红色2元,蓝色1元,现在要保证每一条白边相邻的有一条红边,问至少花多少题解:刚开始想的时候,好像觉得只用染红色和白色 ...

使用Scrapy爬取图书网站信息

使用Scrapy爬取图书网站信息的更多相关文章

随机推荐

热门专题