scrapy爬虫简单入门

1. 使用cmd+R命令进入命令行窗口，并进入你需要创建项目的目录

cd 项目地址

2. 创建项目

scrapy startproject <项目名>

cd <项目名>

例如

scrapy startproject quote

cd quote

3. 编写item.py文件（定义需要爬取的文件）

import scrapy

class QuoteItem(scrapy.Item):

    # define the fields for your item here like:

    text = scrapy.Field()

    author = scrapy.Field()

    tags = scrapy.Field()

4. 创建爬虫文件

scrapy genspider <爬虫文件名> <域名>

例如

scrapy genspider myspider quotes.toscrape.com

5. 编写myspider.py文件

import scrapy

from quote.items import QuoteItem

class MyspiderSpider(scrapy.Spider):

    name = 'myspider'

    allowed_domains = ['quotes.toscrape.com']

    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):

        for each in response.xpath('//div[@class="quote"]'):

            item = QuoteItem()

            item['text'] = each.xpath('./span/text()').extract()[0]

            item['author'] = each.xpath('.//small/text()').extract()[0]

            list = each.xpath('.//a[@class="tag"]/text()').extract()

            #列表形式的文件不能存入mysql,需要弄成str形式

            item['tags']= '/'.join(list)

            yield item

        next = response.xpath('//li[@class="next"]/a/@href').extract()[0]

        url = response.urljoin(next)

        yield scrapy.Request(url=url,callback=self.parse)

6. 编写pipelines.py（如果需要存入到数据库）

import pymysql.cursors

class QuotePipeline(object):

    def __init__(self):

        self.connect = pymysql.connect(

            host='localhost',

            user='root',

            password='',

            database='quotes',

            charset='utf8',

        )

        self.cursor = self.connect.cursor()

    def process_item(self, item, spider):

        item = dict(item)

        sql = 'insert into quote(text,author,tags) values(%s,%s,%s)'

        self.cursor.execute(sql,(item['text'],item['author'],item['tags']))

        self.connect.commit()

        return item

    def close_spider(self,spider):

        self.cursor.close()

        self.connect.close()

7. 修改setting.py文件

ROBOTSTXT_OBEY = True

8. 运行

scrapy crawl myspider

9. 保存为csv文件

scrapy crawl quotes –o quotes.csv

参考资料

https://www.cnblogs.com/shuimohei/p/10491833.html

https://blog.csdn.net/ck784101777/article/details/104468780/

scrapy爬虫简单入门的更多相关文章

Scrapy 爬虫框架入门案例详解
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者:崔庆才 Scrapy入门本篇会通过介绍一个简单的项目,走一遍Scrapy抓取流程,通过这个过程,可以对 ...
scrapy爬虫简单项目入门练习
[写在开头] scrapy环境配置配置好了之后,开始着手简单项目入门练习.关于环境配置见上一篇博客https://www.cnblogs.com/ljxh/p/11235079.html. [正文部分 ...
Scrapy爬虫快速入门
安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. pip install sc ...
Python之Scrapy爬虫框架入门实例（一）
一.开发环境 1.安装 scrapy 2.安装 python2.7 3.安装编辑器 PyCharm 二.创建scrapy项目pachong 1.在命令行输入命令:scrapy startproject ...
scrapy爬虫框架入门教程
scrapy安装请参考:安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目定义提取的Item 写一个Spider用来爬行 ...
scrapy爬虫框架入门实例（一）
流程分析抓取内容(百度贴吧:网络爬虫吧) 页面: http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=ut ...
【python】Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
Python爬虫简单入门及小技巧
刚刚申请博客,内心激动万分.于是为了扩充一下分类,随便一个随笔,也为了怕忘记新学的东西由于博主十分怠惰,所以本文并不包含安装python(以及各种模块)和python语法. 目标前几天上B站时看到一 ...
[Python] Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...

随机推荐

IDEA和eclips工具对比
描述 eclipse idea 在当前类查找方法 ctrl+o ctrl+F12 查找文件 ctrl+shift+N 大小写转换 ctrl+shift+X ctrl+shift+Y ctrl ...
[Machine Learning] 多变量线性回归(Linear Regression with Multiple Variable)-特征缩放-正规方程
我们从上一篇博客中知道了关于单变量线性回归的相关问题,例如:什么是回归,什么是代价函数,什么是梯度下降法. 本节我们讲一下多变量线性回归.依然拿房价来举例,现在我们对房价模型增加更多的特征,例如房间数 ...
Mac电脑远程连接SSH Host key verification failed 解决办法
苹果电脑远程连接SSH出现如下问题: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ...
JavaDailyReports10_07
动手动脑① 1 package test_1; 2 3 public class Test { 4 5 public static void main(String[] args) { 6 // TO ...
Solon rpc 之 SocketD 协议 - RPC调用模式
Solon rpc 之 SocketD 协议系列 Solon rpc 之 SocketD 协议 - 概述 Solon rpc 之 SocketD 协议 - 消息上报模式 Solon rpc 之 Soc ...
离散傅里叶变换DFT入门
网上对于傅里叶变换相关的文章很多(足够多),有的是从物理相关角度入场,有的从数学分析角度入场.对于有志学习相关概念的同学还是能够很好的理解的. 数学包括三大块:代数学.几何.数学分析.前两块我们在中学 ...
【Redis3.0.x】发布订阅
Redis3.0.x 发布订阅基本命令 SUBSCRIBE channel [channel...] 订阅给定的一个或多个频道 PSUBSCRIBE pattern [pattern...] 订阅符 ...
stat filename
查看文件的mtime,atime,ctime 3个时间
【Linux】saltstack 安装及简单使用
准备三台server,一台为master(10.96.20.113),另两台为minion(10.96.20.117,10.96.20.118) 主机名(master.minion1.minion2) ...
【Oracle】11g direct path read介绍:10949 event、_small_table_threshold与_serial_direct_read
转自刘相兵老师的博文: http://www.askmaclean.com/archives/11g-direct-path-read-10949-_small_table_threshold-_se ...

scrapy爬虫 简单入门

1. 使用cmd+R命令进入命令行窗口，并进入你需要创建项目的目录

2. 创建项目

3. 编写item.py文件（定义需要爬取的文件）

4. 创建爬虫文件

5. 编写myspider.py文件

6. 编写pipelines.py（如果需要存入到数据库）

7. 修改setting.py文件

8. 运行

9. 保存为csv文件

参考资料

scrapy爬虫 简单入门的更多相关文章

随机推荐

热门专题

scrapy爬虫简单入门

scrapy爬虫简单入门的更多相关文章