20.Scrapy日常练手

1.创建爬虫项目：

scrapy startproject tutorial

2.创建 spider

cd tutorial

scrapy genspider quotes quotes.toscrape.com

如下图：

quotes.py

___________________________________________________________________________

 # -*- coding: utf-8 -*-

 import scrapy

 from tutorial.items import TutorialItem

 import logging

 class QuotesSpider(scrapy.Spider):

     name = 'quotes'

     allowed_domains = ['quotes.toscrape.com']

     start_urls = ['http://quotes.toscrape.com/']

     def parse(self, response):

         quotes=response.css('.quote')

         for quote in quotes:

             item=TutorialItem()

             #内容

             item['text']=quote.css('.text::text').extract_first()

             #作者

             item['author']=quote.css('.author::text').extract_first()

             #标签

             item['tags']=quote.css('.tags .tag::text').extract_first()

             yield item

         #下一页

         next=response.css('.pager .next a::attr("href")').extract_first()

         url=response.urljoin(next)

         yield scrapy.Request(url=url,callback=self.parse)


items.py
________________________________________________________________________

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items

 #

 # See documentation in:

 # https://doc.scrapy.org/en/latest/topics/items.html

 import scrapy

 class TutorialItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     text=scrapy.Field()

     author=scrapy.Field()

     tags=scrapy.Field()

 piplines.py

_________________________________________________________________________

 # -*- coding: utf-8 -*-

 # Define your item pipelines here

 #

 # Don't forget to add your pipeline to the ITEM_PIPELINES setting

 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

 from scrapy.exceptions import DropItem

 import pymysql

 class TutorialPipeline(object):

     # def __init__(self):

     #     self.limit=50

     # def process_item(self, item, spider):

     #     if  item['text']:

     #         if len(item['text'])>self.limit:

     #             item['text']=item['text'][0:self.limit].rstrip()+'...'

     #         return item

     #     else:

     #         return DropItem('Missing Text')

     def __init__(self):

         pass

     def open_spider(self, spider):

         self.my_conn = pymysql.connect(

             host = '192.168.113.129',

             port = 3306,

             database = 'datas',

             user = 'root',

             password = '',

             charset = 'utf8'

         )

         self.my_cursor = self.my_conn.cursor()

     def process_item(self,item, spider):

         dict(item)

         insert_sql = "insert into quotes(author,tags,text) values(%s,%s,%s)"

         self.my_cursor.execute(insert_sql,[item['author'],item['tags'],item['text']])

         return  item

     def close_spider(self, spider):

         self.my_conn.commit()

         self.my_cursor.close()

         self.my_conn.close()


setting.py
___________________________________________________________________________

# Obey robots.txt rules

ROBOTSTXT_OBEY = True

ITEM_PIPELINES = {

   'tutorial.pipelines.TutorialPipeline': 200,

}

代码配置完：

保存文件格式

scrapy crawl  quotes -o quotes.xml

scrapy crawl  quotes -o quotes.csv

20.Scrapy日常练手的更多相关文章

整理了适合新手的20个Python练手小程序
100个Python练手小程序,学习python的很好的资料,覆盖了python中的每一部分,可以边学习边练习,更容易掌握python. 本文附带基础视频教程:私信回复[基础]就可以获取的 [程序1] ...
20个Java练手项目，献给嗜学如狂的人
给大家推荐一条由浅入深的JAVA学习路径,首先完成 Java基础.JDK.JDBC.正则表达式等基础实验,然后进阶到 J2SE 和 SSH 框架学习.最后再通过有趣的练手项目进行巩固. JAVA基础 ...
10个Python基础练习项目，你可能不会想到练手教程还这么有趣
美国20世纪最重要的实用主义哲学家约翰·杜威提出一个学习方法,叫做:Learning By Doing,在实践中精进.胡适.陶行知.张伯苓.蒋梦麟等都曾是他的学生,杜威的哲学也影响了蔡元培.晏阳初等人 ...
Python练手项目：20行爬取全王者全英雄皮肤
引言王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. ...
70个Python练手项目列表（都有完整教程）
前言: 不管学习那门语言都希望能做出实际的东西来,这个实际的东西当然就是项目啦,不用多说大家都知道学编程语言一定要做项目才行. 这里整理了70个Python实战项目列表,都有完整且详细的教程,你可以从 ...
webpack练手项目之easySlide（三）：commonChunks（转）
Hello,大家好. 在之前两篇文章中: webpack练手项目之easySlide(一):初探webpack webpack练手项目之easySlide(二):代码分割与大家分享了webpack的 ...
webpack练手项目之easySlide（二）：代码分割（转）
在上一篇 webpack练手项目之easySlide(一):初探webpack 中我们一起为大家介绍了webpack的基本用法,使用webpack对前端代码进行模块化打包. 但是乍一看webpack ...
webpack练手项目之easySlide（一）：初探webpack （转）
最近在学习webpack,正好拿了之前做的一个小组件,图片轮播来做了下练手,让我们一起来初步感受下webpack的神奇魅力. webpack是一个前端的打包管理工具,大家可以前往:http:/ ...
NYOJ 323 Drainage Ditches 网络流 FF 练手
Drainage Ditches 时间限制:1000 ms | 内存限制:65535 KB 难度:4 描述 Every time it rains on Farmer John's fields, ...

随机推荐

ajax提交post请求出现数组被截断情况的解决方法
一.场景 php post 提交数据时传的数据时数组,没有多数据进行序列化处理.发现传到服务端时,部分数据丢失,查询了资料发现php对参数个数有限制,限制在php配置文件中(max_input_var ...
带CookieContainer进行post
1.获取CookieContainer ——用户登录 CookieContainer cookie = new CookieContainer(); UserLoginPost("post地 ...
&& 和 || 运算
a() && b() :如果执行a()后返回true,则执行b()并返回b的值:如果执行a()后返回false,则整个表达式返回a()的值,b()不执行: a() || b() :如果 ...
使用Spring Boot操作Hive JDBC时，启动时报出错误：NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef
使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef ...
ZH奶酪：Python 中缀表达式转换后缀表达式
实现一个可以处理加减乘数运算的中缀表达式转换后缀表达式的程序: 一个输入中缀表达式inOrder 一个输出池pool 一个缓存栈stack 从前至后逐字读取inOrder 首先看一下不包含括号的: ( ...
grandstack graphql 工具基本试用
grandstack 是一个方便graphql 应用开发的工具使用docker-compose 运行环境准备官方的starter 比较好,已经是使用docker-compose 创建好了所有 ...
TopCoder客户端安装
参考:https://blog.csdn.net/github_39353095/article/details/76165940 首先,下载 Java 环境. https://www.java.co ...
JFrame 与 Frame
JFrame是Frame的子类 Frame is part of java.awt package and exists since JDK1.0. JFrame is part of javax.s ...
C#，SOAP1.1与1.2的发布与禁用(SOAP 1.2 in .NET Framework 2.0)
来源:https://www.codeproject.com/Articles/11878/SOAP-in-NET-Framework SOAP 1.2 in .NET Framework 2.0 ...
WPF Demo7
没有Path/Source的数据绑定本地local资源用法 namespace Demo9 { public class Student { private string name; public ...

20.Scrapy日常练手

20.Scrapy日常练手的更多相关文章

随机推荐

热门专题