scrapy爬虫保存数据

1.数据保存为TXT

打开Pipeline.py

import codecs

import os

import json

import pymysql

class CoolscrapyPipeline(object):#需要在setting.py里设置'coolscrapy.piplines.CoolscrapyPipeline':300

    def process_item(self, item, spider):

        # 获取当前工作目录

        base_dir = os.getcwd()

        fiename = base_dir + '/news.txt'

        # 从内存以追加的方式打开文件，并写入对应的数据

        with open(fiename, 'a') as f:

            f.write(item['title'] + '\n')

            f.write(item['link'] + '\n')

            f.write(item['posttime'] + '\n\n')

        return item

2.保存为json格式

在Pipeline.py里面新建一个类

#以下两种写法保存json格式，需要在settings里面设置'coolscrapy.pipelines.JsonPipeline': 200

class JsonPipeline(object):

    def __init__(self):

        self.file = codecs.open('logs.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        line = json.dumps(dict(item), ensure_ascii=False) + "\n"

        self.file.write(line)

        return item

    def spider_closed(self, spider):

        self.file.close()

class JsonPipeline(object):

    def process_item(self, item, spider):

        base_dir = os.getcwd()

        filename = base_dir + '/news.json'

        # 打开json文件，向里面以dumps的方式吸入数据

        # 注意需要有一个参数ensure_ascii=False ，不然数据会直接为utf编码的方式存入比如

        # :“/xe15”

        with codecs.open(filename, 'a') as f:

            line = json.dumps(dict(item), ensure_ascii=False) + '\n'

            f.write(line)

        return item

上面是两种写法，都是一样的

3.保存到mysql

在Pipeline.py里面新建一个类

import json,pymysql

class TianyaBbsPipeline(object):

    def open_spider(self,spider):

        self.conn=pymysql.Connect(host='localhost',db='books',user='book',port=3306,passwd='1q2w3e4r5t',charset='utf8')#连接数据库

        self.course=self.conn.cursor(cursor=pymysql.cursors.DictCursor)#创建游标

        sql="create database if not exists tianya  character set utf8"#创建一个数据库（判断是否存在，不存在就创建，存在就不创建）

        self.course.execute(sql)#执行sql

        sql='''Create Table If Not Exists tianya.guihua (

            id Bigint(8) unsigned Primary key Auto_Increment,

            thTime DateTime,

            title varchar(50),

            auth varchar(50),

            content text(50)

            ) Engine InnoDB'''#创建表（存在就不创建，不存在就创建）

        self.course.execute(sql)

    def process_item(self, item, spider):

        if isinstance(item,TianyaBbsItem):

            if item['bbs_title']==None or item['auth_name']==None or item['content']==None:

                return item

            sql='insert into tianya.guihua (title,auth,content)values(%s,%s,%s)'

            self.course.execute(sql,(item['bbs_title'],item['auth_name'],item['content']))

            self.conn.commit()

        return item

    def close_spider(self,spider):

        self.course.close()

        self.conn.close()

编写Settings.py

我们需要在Settings.py将我们写好的PIPELINE添加进去，
scrapy才能够跑起来
这里只需要增加一个dict格式的ITEM_PIPELINES，
数字value可以自定义，数字越小的优先处理

1 ITEM_PIPELINES={'coolscrapy.pipelines.CoolscrapyPipeline':300,

2                 'coolscrapy.pipelines.JsonPipeline': 200,

3                 'coolscrapy.pipelines.TianyaBbsPipeline': 100,

4 }

scrapy爬虫保存数据的更多相关文章

Scrapy爬虫案例 | 数据存储至MySQL
首先,MySQL创建好数据库和表然后编写各个模块 item.py import scrapy class JianliItem(scrapy.Item): name = scrapy.Field() ...
Scrapy爬虫案例 | 数据存储至MongoDB
豆瓣电影TOP 250网址要求: 1.爬取豆瓣top 250电影名字.演员列表.评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py ...
42.scrapy爬取数据入库mongodb
scrapy爬虫采集数据存入mongodb采集效果如图: 1.首先开启服务切换到mongodb的bin目录下命令:mongod --dbpath e:\data\db 另开黑窗口命令:mongo. ...
scrapy爬虫案例：用MongoDB保存数据
用Pymongo保存数据爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中. items.py class DoubanspiderItem( ...
python3+Scrapy爬虫使用pipeline数据保存到文本和数据库，数据少或者数据重复问题
爬取的数据结果是没有错的,但是在保存数据的时候出错了,出现重复数据或者数据少问题.那为什么会造成这种结果呢? 其原因是由于Spider的速率比较快,而scapy操作数据库操作比较慢,导致pipelin ...
scrapy爬取数据保存csv、mysql、mongodb、json
目录前言 Items Pipelines 前言用Scrapy进行数据的保存进行一个常用的方法进行解析 Items item 是我们保存数据的容器,其类似于 python 中的字典.使用 item ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性
抓取到的item 会被发送到Item Pipeline进行处理 Item Pipeline常用于 cleansing HTML data validating scraped data (checki ...

随机推荐

出现ImportError: Python is not installed as a framework. The Mac OS X backend will not be able to function correctly ....的解决方法
在terminal上运行gluoncv时遇到了一个报错问题. ImportError: Python is not installed as a framework. The Mac OS X bac ...
FIB表中 Next Hop 的几种状态码(drop/receive/attached/no route)的含义
以一个例子来说明,假设有如下两个路由器R1,R2,且均配置了到达彼此环回地址的静态路由. (1.1.1.1/24)R1(Gig0/0)(.1)——12.0.0.0/24——(.2)(Gig0/0)R2 ...
vim编辑超大文件
进入大文件(12g,250w+ lines),vim,耐心等待有两种方法编辑删除冗余字段 1.set number ,可以通过:+数字组合跳到指定行,输入命令 ":100,200d&q ...
吴裕雄--天生自然 PYTHON数据分析：人类发展报告——HDI, GDI，健康，全球人口数据数据分析
import pandas as pd # Data analysis import numpy as np #Data analysis import seaborn as sns # Data v ...
JS中0.1+0.2!=0.3
在控制台输入0.1+0.2,会得出以下结果即不等于0.3.下面我们说一下原因. 一.存储原理 1.在计算机中数字无论是定点数还是浮点数都是以多位二进制的方式进行存储的.2.在JS中数字采用的IEEE ...
js磁力线代码（非压缩，自己在压缩的版本上优化了代码，易于阅读）
拿去白嫖吧: <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=" ...
PHP0004：PHP基础3
php写在标签里
Uva10820 欧拉公式模板（求小于n且与n互素的数的个数）
题意: 给出n,算出小于等于n的所有数中,有几对互质: 解法: 本质就是求有多少个2元组(x,y)满足:1 <= x,y <= n,且x与y互素. 除了(1,1)之外,其他所有的x和y都不 ...
数据类型（8种）和运算符——Java
一.什么是标识符,它有什么作用(重点掌握) 1. 标识符指的是标识符是用户编程时使用的名字,用于给变量.常量.函数.语句块等命名,以建立起名称与使用之间的关系.标识符可由任何字母数字字符串形成. 2 ...
yii2 response响应配置
response参数配置方式一.全局配置用于接口开发适用:只有所有请求都是application/json类型时可用. $config = [ 'components' => [ 'res ...

scrapy爬虫保存数据

编写Settings.py

scrapy爬虫保存数据的更多相关文章

随机推荐

热门专题