Scrapy的piplines.py存储文件和存储mongodb

一、将数据保存到文件

1.piplines.py文件

 import json

 class TencentPipeline(object):

     def open_spider(self,spider):

         if spider.name=='hr_tencent':

             self.file=open('data.json','w')

     def process_item(self, item, spider):

         if spider.name=='hr_tencent':

             data=dict(item)

             # data=json.dumps(data,ensure_ascii=False)

             data=json.dumps(data)

             self.file.write(data+',\n')

         return item

     def close_spider(self,spider):

         if spider.name=='hr_tencent':

             self.file.close()

2.settings.py文件

 ITEM_PIPELINES = {

    'tencent.pipelines.TencentPipeline': 300,

 }

二、将数据保存到mongodb

1.piplines.py文件

 from pymongo import MongoClient

 class Tencent1Pipeline(object):

     def open_spider(self,spider):

         if spider.name == 'hr_tencent1':

             self.client=MongoClient('127.0.0.1',27017)

             self.tencent=self.client['tencent']['tencent']

     def process_item(self,item,spider):

         if spider.name == 'hr_tencent1':

             print(item)

             self.tencent.insert(dict(item))

             return item

     def close_spider(self,spider):

         if spider.name == 'hr_tencent1':

             self.client.close()

2.settings.py文件

 ITEM_PIPELINES = {

    'tencent.pipelines.Tencent1Pipeline': 299,

 }

Scrapy的piplines.py存储文件和存储mongodb的更多相关文章

Python爬虫框架Scrapy实例（三）数据存储到MongoDB
Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...
数据存储 mongodb
数据存储 mongodb from pymongo import MongoClient import os base_dir = os.getcwd() class MongoPipeline(ob ...
scrapy框架基于管道的持久化存储
scrapy框架的使用基于管道的持久化存储的编码流程在爬虫文件中数据解析将解析到的数据封装到一个叫做Item类型的对象将item类型的对象提交给管道管道负责调用process_item的方法 ...
大数据存储:MongoDB实战指南——常见问题解答
锁粒度与并发性能怎么样? 数据库的读写并发性能与锁的粒度息息相关,不管是读操作还是写操作开始运行时,都会请求相应的锁资源,如果请求不到,操作就会被阻塞.读操作请求的是读锁,能够与其它读操作共享,但是当 ...
scrapy爬取数据进行数据库存储和本地存储
今天记录下scrapy将数据存储到本地和数据库中,不是不会写,因为小编每次都写觉得都一样,所以记录下,以后直接用就可以了-^o^- 1．本地存储设置pipel ines.py class Ak17P ...
第二十节：Scrapy爬虫框架之使用Pipeline存储
在上两节当中,我们爬取了360图片,但是我们需要将图片下载下来,这将如何下载和存储呢? 下边叙述一下三种情况:1.将图片下载后存储到MongoDB数据库:2.将图片下载后存储在MySQL数据库:3.将 ...
Scrapy连接到各类数据库(SQLite,Mysql,Mongodb,Redis)
如何使用scrapy连接到(SQLite,Mysql,Mongodb,Redis)数据库,并把爬取的数据存储到相应的数据库中. 一.SQLite 1.修改pipelines.py文件加入如下代码 # ...
scrapy爬取海量数据并保存在MongoDB和MySQL数据库中
前言一般我们都会将数据爬取下来保存在临时文件或者控制台直接输出,但对于超大规模数据的快速读写,高并发场景的访问,用数据库管理无疑是不二之选.首先简单描述一下MySQL和MongoDB的区别:MySQ ...
关于scrapy的piplines
1.进入setting中把ITEM_piplines文件注销去掉 2.在piplines中写好代码 # -*- coding: utf- -*- # Define your item pipeline ...

随机推荐

springboot实现自定义的错误页面展示
https://blog.csdn.net/trusause/article/details/84299886 参考 SpringBoot默认的错误处理机制默认效果为: 返回一个默认的错误页面 Wh ...
PHP——laravel之DB类->查询
DB类之查询: 满足条件的全部获取:DB::table("表名")->where("name",">","1" ...
XML 与 XML Schema的使用教程
引言:我写本文的宗旨在于给需要使用XML,而又对XML不是很熟悉的人们提供一种使用思路,而不没有给出具体的使用方法,至于下文中提到的使用方法,还未尝试过,都是从网上整理而来! 一.概述什么 ...
VBA正则笔记理解肯定环视
之前没有理解好,还以为是学习笔记有谬误. 'VBA正则笔记肯定环视 Public Sub RegExHandle() Dim Regex As Object Dim Mh As Object, On ...
Linq语句jion on后指定多个条件
代码如下: private void FrmMain_Load(object sender, EventArgs e) { var list1 = Supplier.GetSuppliers(); v ...
查看当前Jquery版本
<script type="text/javascript"> $(document).ready(function(){ alert(jQuery.fn.jquery ...
WCF服务无法访问DateTime类型的解决方法
在WCF服务中,如果entity类含有DateTime类型的字段,那么接口将会被执行两次,从而出现无法访问的情况.如下图所示: 原因是WCF中DateTime无法转换成序列化JSON字符串,DateT ...
java打jar包小总结
一命令行方法编译java 在bin目录下,也就是class所在目录下命令行输入如下命令进行归档处理 jar -cvf mylib.jar *.class 现在你可以看见一个已经生成的jar包了此 ...
SQL server 2012安装中出现的INSTALLSHAREDDIR 和 INSTALLSHAREDWOWDIR 参数具有相同的值问题
出现的问题如下: INSTALLSHAREDDIR 和 INSTALLSHAREDWOWDIR 参数具有相同的值“D:\soft\sql”.但是,这些参数必须具有不同的值.请为其中一个参数指定不同的值 ...
es6,es7,es8
概述 ES全称ECMAScript,ECMAScript是ECMA制定的标准化脚本语言.目前JavaScript使用的ECMAScript版本为ECMAScript-262. ECMAScript 标 ...

Scrapy的piplines.py存储文件和存储mongodb

Scrapy的piplines.py存储文件和存储mongodb的更多相关文章

随机推荐

热门专题