scrapy爬虫简单入门

1. 使用cmd+R命令进入命令行窗口，并进入你需要创建项目的目录

cd 项目地址

2. 创建项目

scrapy startproject <项目名>

cd <项目名>

例如

scrapy startproject quote

cd quote

3. 编写item.py文件（定义需要爬取的文件）

import scrapy

class QuoteItem(scrapy.Item):

    # define the fields for your item here like:

    text = scrapy.Field()

    author = scrapy.Field()

    tags = scrapy.Field()

4. 创建爬虫文件

scrapy genspider <爬虫文件名> <域名>

例如

scrapy genspider myspider quotes.toscrape.com

5. 编写myspider.py文件

import scrapy

from quote.items import QuoteItem

class MyspiderSpider(scrapy.Spider):

    name = 'myspider'

    allowed_domains = ['quotes.toscrape.com']

    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):

        for each in response.xpath('//div[@class="quote"]'):

            item = QuoteItem()

            item['text'] = each.xpath('./span/text()').extract()[0]

            item['author'] = each.xpath('.//small/text()').extract()[0]

            list = each.xpath('.//a[@class="tag"]/text()').extract()

            #列表形式的文件不能存入mysql,需要弄成str形式

            item['tags']= '/'.join(list)

            yield item

        next = response.xpath('//li[@class="next"]/a/@href').extract()[0]

        url = response.urljoin(next)

        yield scrapy.Request(url=url,callback=self.parse)

6. 编写pipelines.py（如果需要存入到数据库）

import pymysql.cursors

class QuotePipeline(object):

    def __init__(self):

        self.connect = pymysql.connect(

            host='localhost',

            user='root',

            password='',

            database='quotes',

            charset='utf8',

        )

        self.cursor = self.connect.cursor()

    def process_item(self, item, spider):

        item = dict(item)

        sql = 'insert into quote(text,author,tags) values(%s,%s,%s)'

        self.cursor.execute(sql,(item['text'],item['author'],item['tags']))

        self.connect.commit()

        return item

    def close_spider(self,spider):

        self.cursor.close()

        self.connect.close()

7. 修改setting.py文件

ROBOTSTXT_OBEY = True

8. 运行

scrapy crawl myspider

9. 保存为csv文件

scrapy crawl quotes –o quotes.csv

参考资料

https://www.cnblogs.com/shuimohei/p/10491833.html

https://blog.csdn.net/ck784101777/article/details/104468780/

scrapy爬虫简单入门的更多相关文章

Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
scrapy爬虫简单项目入门练习
[写在开头] scrapy环境配置配置好了之后,开始着手简单项目入门练习.关于环境配置见上一篇博客https://www.cnblogs.com/ljxh/p/11235079.html. [正文部分 ...
Scrapy爬虫快速入门
安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. pip install sc ...
Python之Scrapy爬虫框架入门实例（一）
一.开发环境 1.安装 scrapy 2.安装 python2.7 3.安装编辑器 PyCharm 二.创建scrapy项目pachong 1.在命令行输入命令:scrapy startproject ...
scrapy爬虫框架入门教程
scrapy安装请参考:安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目定义提取的Item 写一个Spider用来爬行 ...
scrapy爬虫框架入门实例（一）
流程分析抓取内容(百度贴吧:网络爬虫吧) 页面: http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=ut ...
【python】Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python爬虫简单入门及小技巧
刚刚申请博客,内心激动万分.于是为了扩充一下分类,随便一个随笔,也为了怕忘记新学的东西由于博主十分怠惰,所以本文并不包含安装python(以及各种模块)和python语法. 目标前几天上B站时看到一 ...
[Python] Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...

随机推荐

Spring Boot 有哪些优点？
a.减少开发,测试时间和努力. b.使用 JavaConfig 有助于避免使用 XML. c.避免大量的 Maven 导入和各种版本冲突. d.通过提供默认值快速开始开发.没有单独的 Web 服务器需 ...
Python错误重试方法
前言 Tenacity是一个 Apache 2.0授权的通用重试库,用 Python 编写,用于简化向几乎所有内容添加重试行为的任务.它起源于一个重新尝试的分支,可惜这个分支已经不复存在了. 使用Te ...
伯俊BOS2.0店铺收入对账功能设计
一.客户需求通过导入银行POS机流水,将流水与ERP系统的零售付款数据进行对比,统计差异! 二.功能设计 1.新增"POS机号对应表单",用于维护POS机与erp店仓对应 2.新 ...
改进你的c#代码的5个技巧（一）
亲爱的读者,在这篇文章中,我提供了一些c#编程的最佳实践. 你是否在用户输入验证中使用异常处理机制? 如果是,那么你就是那个把你的项目执行速度降低了62倍的人.你不相信我吗?等几分钟;我来教你怎么做. ...
Git之pull,fetch差别
简言之, pull=fetch+merge,下拉远程分支并与本地分支合并. fetch只是下拉远程分支,怎么合并,可以自己再做选择. 进一步了解是,git本地有暂存区(亦称为Index区) fetch ...
Spring(1) --入门(IoC，AOP)
说说你对spring的理解? Spring框架是一个轻量级的企业级开发的一站式解决方案,所谓一站式解决方案就是可以基于Spring解决Java EE开发的所有问题.Spring框架主要提供了IoC容器 ...
镜像批量迁移利器：image-transfer
概述用户业务在上云或者云迁移过程中,需要对镜像进行批量迁移.基于此背景,腾讯云容器专家团队开发了镜像批量迁移工具:image-transfer.该工具支持多种云厂商镜像仓库之间的批量迁移,同时支持腾 ...
图像质量评估论文 | Deep-IQA | IEEETIP2018
主题列表:juejin, github, smartblue, cyanosis, channing-cyan, fancy, hydrogen, condensed-night-purple, gr ...
Jenkins+windows+.netcore+git+iis自动化部署入门
什么是自动化部署,就不介绍了,喜欢直接进入主题. 一. 所需环境: 1.系统为windows10 . 2.asp.net core3.1 runtime必须安装,因为我的代码是asp.net core ...
ctfhub技能树—信息泄露—备份文件下载—网站源码
打开靶机查看网页内容使用dirsearch进行扫描命令如下 python3 dirsearch.py -u http://challenge-91f1f5e6a791ab02.sandbox.c ...

scrapy爬虫 简单入门

1. 使用cmd+R命令进入命令行窗口，并进入你需要创建项目的目录

2. 创建项目

3. 编写item.py文件（定义需要爬取的文件）

4. 创建爬虫文件

5. 编写myspider.py文件

6. 编写pipelines.py（如果需要存入到数据库）

7. 修改setting.py文件

8. 运行

9. 保存为csv文件

参考资料

scrapy爬虫 简单入门的更多相关文章

随机推荐

热门专题

scrapy爬虫简单入门

scrapy爬虫简单入门的更多相关文章