QuotesBot

This is a Scrapy project to scrape quotes from famous people from http://quotes.toscrape.com (github repo).

This project is only meant for educational purposes.

任务：

爬取该网站的名人名言、作者、作者信息（名字，生日、描述）以及名言标签，并保存

import scrapy

import re

class AuthorSpider(scrapy.Spider):

    name = "author"

    start_urls = ["http://quotes.toscrape.com/"]

    def parse(self, response):

        author_page_links = response.css('.author + a')

        yield from response.follow_all(author_page_links, self.parse_author)

        next_page_links = response.css('li.next a')

        yield from response.follow_all(next_page_links, self.parse)

    def parse_author(self, response):

        def extract_with_css(query):

            return response.css(query).get(default="").strip()

        yield {

            "name": extract_with_css("h3.author-title::text"),

            "birthdate": extract_with_css(".author-born-date::text"),

            "bio": extract_with_css(".author-description::text"),

        }

保存：

scrapy crawl spidername -o test.csv

项目练习：

Extracted data

This project extracts quotes, combined with the respective author names and tags. The extracted data looks like this sample:

{

    'author': 'Douglas Adams',

    'text': '“I may not have gone where I intended to go, but I think I ...”',

    'tags': ['life', 'navigation']

}

Spiders

This project contains two spiders and you can list them using the list command:

$ scrapy list

toscrape-css

toscrape-xpath

Both spiders extract the same data from the same website, but toscrape-css employs CSS selectors, while toscrape-xpath employs XPath expressions.

You can learn more about the spiders by going through the Scrapy Tutorial.

Running the spiders

You can run a spider using the scrapy crawl command, such as:

scrapy crawl toscrape-css

If you want to save the scraped data to a file, you can pass the -o option:

scrapy crawl toscrape-css -o quotes.json

项目代码：

class QuotesbotSpider(scrapy.Spider):

    name = "quotesbot"

    start_urls = ["http://quotes.toscrape.com"]

    def parse(self, response, **kwargs):

        for quote in response.css('div.quote'):

            yield {

                "author":quote.css(".author::text").get(),

                "text":quote.css(".text::text").get(),

                "tags":quote.css(".tags meta::attr(content)").get(),

            }

        next_page_link = response.css("li.next a")

        if next_page_link is not None:

            yield from response.follow_all(next_page_link, callbac

结果：

Scrapy 项目：QuotesBot的更多相关文章

亲测——pycharm下运行第一个scrapy项目 ©seven_clear
最近在学习scrapy,就想着用pycharm调试,但不知道怎么弄,从网上搜了很多方法,这里总结一个我试成功了的. 首先当然是安装scrapy,安装教程什么的网上一大堆,这里推荐一个详细的:http: ...
scrapy（一）建立一个scrapy项目
本项目实现了获取stack overflow的问题,语言使用python,框架scrapy框架,选取mongoDB作为持久化数据库,redis做为数据缓存项目源码可以参考我的github:https ...
Python Scrapy项目创建（基础普及篇）
在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目.通过如下命令即可创建 Scrapy 项目: scrapy startproject ZhipinSpider 在上面命令中,scrapy ...
pycharm创建scrapy项目教程及遇到的坑
最近学习scrapy爬虫框架,在使用pycharm安装scrapy类库及创建scrapy项目时花费了好长的时间,遇到各种坑,根据网上的各种教程,花费了一晚上的时间,终于成功,其中也踩了一些坑,现在整理 ...
【Python3爬虫】第一个Scrapy项目
Python版本:3.5 IDE:Pycharm 今天跟着网上的教程做了第一个Scrapy项目,遇到了很多问题,花了很多时间终于解决了== 一.Scrapy终端(scrapy shell) Sc ...
eclipse创建scrapy项目
1. 您必须创建一个新的Scrapy项目. 进入您打算存储代码的目录中(比如否F:/demo),运行下列命令: scrapy startproject tutorial 2.在eclipse中创建一个 ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
Scrapy项目创建以及目录详情
Scrapy项目创建已经目录详情一.新建项目(scrapy startproject) 在开始爬取之前,必须创建一个新的Scrapy项目.进入自定义的项目目录中,运行下列命令: PS C:\scra ...
Scrapy项目结构分析和工作流程
新建的空Scrapy项目: spiders目录: 负责存放继承自scrapy的爬虫类.里面主要是用于分析response并提取返回的item或者是下一个URL信息,每个Spider负责处理特定的网站或 ...
爬虫系列2：scrapy项目入门案例分析
本文从一个基础案例入手,较为详细的分析了scrapy项目的建设过程(在官方文档的基础上做了调整).主要内容如下: 0.准备工作 1.scrapy项目结构 2.编写spider 3.编写item.py ...

随机推荐

pytest内核测试平台落地初体验
测试平台,有人说它鸡肋,有人说它有用,有人说它轮子,众说纷纭,不如从自身出发,考虑是否要做测试平台: 第1阶段,用Python+requests写接口自动化. 第2阶段,选择unitttest或pyt ...
ES6(四）用Promise封装一下IndexedDB
indexedDB IndexedDB 是一种底层 API,用于在客户端存储大量的结构化数据,它可以被网页脚本创建和操作. IndexedDB 允许储存大量数据,提供查找接口,还能建立索引,这些都是 ...
理解了这三点，才敢说自己会写Python代码
某同学应聘Python岗位被录用.上班第一天,Leader吩咐他写一个获取次日日期信息的函数.该同学信心满满地写下了这样一段代码, 然后就没有然后了. import time def get_next ...
2019 China Collegiate Programming Contest Qinhuangdao Onsite F. Forest Program（DFS计算图中所有环的长度）
题目链接:https://codeforces.com/gym/102361/problem/F 题意有 \(n\) 个点和 \(m\) 条边,每条边属于 \(0\) 或 \(1\) 个环,问去掉一 ...
Codeforces Round #627 (Div. 3) B - Yet Another Palindrome Problem（逻辑）
题意: 问一个数组中是否存在至少长为3的回文子数组(按下标排列,可不连续). 思路: 找三个相同数或两个不连续的相同数. #include <bits/stdc++.h> using na ...
Luogu T10025 排列名次
题目链接题目描述给定一个长度为n的排列,要求输出该排列的字典序名次(1,2,3,...,n的名次为1). 输入输出格式输入格式: 第一行一个数n,表示排列长度. 第二行n个数,用空格分隔,表示一 ...
Codeforces Round #681 (Div. 2, based on VK Cup 2019-2020 - Final) C. The Delivery Dilemma (贪心,结构体排序)
题意:你要买\(n\)份午饭,你可以选择自己去买,或者叫外卖,每份午饭\(i\)自己去买需要消耗时间\(b_i\),叫外卖需要\(a_i\),外卖可以同时送,自己只能买完一份后回家再去买下一份,问最少 ...
牛客编程巅峰赛S1第5场 - 青铜&白银 C.排队 (优先队列,归并排序)
题意:有\(m\)个窗口,\(n\)个人排队,每个人都有各自的办理时间,只有办理完成窗口才能空出来,后面的人开始办理,求有多少人比后面的人开始办理的早但完成的晚. 题解:我们可以用优先队列来模拟办理, ...
c# grpc
刚接触RPC时只知道概念是远程过程调用协议,分为服务端和客户端,客户端请求服务端,服务端再回应客户端,粗看和HTTP一应一答没有什么区别.既然有着存在即合理的说法,网上找找说法,有的讲的太深感觉太啰嗦 ...
EGADS介绍(二)--时序模型和异常检测模型算法的核心思想
EDADS系统包含了众多的时序模型和异常检测模型,这些模型的处理会输入很多参数,若仅使用默认的参数,那么时序模型预测的准确率将无法提高,异常检测模型的误报率也无法降低,甚至针对某些时间序列这些模型将无 ...