scrapy爬取数据进行数据库存储和本地存储

今天记录下scrapy将数据存储到本地和数据库中，不是不会写，因为小编每次都写觉得都一样，所以记录下，以后直接用就可以了-^o^-

１．本地存储

设置pipel ines.py

class Ak17Pipeline(object):

    def __init__(self):

        self.file = open('ak17.json', 'w')     # 存储文件的类型

    def process_item(self, item, spider):

        result = json.dumps(dict(item), ensure_ascii=False) + ',\n'

        self.file.write(result)

        return item

    def close_spider(self):

        self.file.close()

2. 存储到ＭongoＤB数据库

设置setting文件

# mongo数据库

MONGO_HOST = "127.0.0.1"    # 数据库地址

MONGO_PORT = 27017　　　　　　# 端口号

MONGO_DBNAME = "ak17"　　　　# 数据库名称

MONGO_COLNAME = "ak"　　　　 #  集合名称

　设置pipel ines.py

class MongoPipeline(object):

    """

    保存进数据库

    """

    def __init__(self):

        # 初始化操作

        host = settings['MONGO_HOST']

        port = settings['MONGO_PORT']

        dbs = settings['MONGO_DBNAME']

        colname = settings['MONGO_COLNAME']

        # 链接数据库

        self.db = MongoClient(host=host, port=port)

        # 选择数据库

        self.database = self.db[dbs]

        # 选择集合

        self.col = self.database[colname]

    def process_item(self, item, spider):

        # 插入数据

        date = dict(item)

        self.col.insert(date)

        return item

    def close_spider(self):

        # 关闭链接

        self.db.close()

3.MySql数据库存储

　设置setting文件

MYSQL_HOSTS = '127.0.0.1'

MYSQL_USER = 'root'

MYSQL_PASSWORD = 'root'

MYSQL_PORT = 3306

MYSQL_DB='xiciip'

CHARSET='utf8'

设置pipel ines.py

class WebcrawlerScrapyPipeline(object):

    '''保存到数据库中对应的class

       1、在settings.py文件中配置

       2、在自己实现的爬虫类中yield item,会自动执行'''

    def __init__(self, dbpool):

        self.dbpool = dbpool

    @classmethod

    def from_settings(cls, settings):

        '''1、@classmethod声明一个类方法，而对于平常我们见到的叫做实例方法。

           2、类方法的第一个参数cls（class的缩写，指这个类本身），而实例方法的第一个参数是self，表示该类的一个实例

           3、可以通过类来调用，就像C.f()，相当于java中的静态方法'''

        #读取settings中配置的数据库参数

        dbparams = dict(

            host=settings['MYSQL_HOST'],

            db=settings['MYSQL_DBNAME'],

            user=settings['MYSQL_USER'],

            passwd=settings['MYSQL_PASSWD'],

            charset='utf8',  # 编码要加上，否则可能出现中文乱码问题

            cursorclass=MySQLdb.cursors.DictCursor,

            use_unicode=False,

        )

        dbpool = adbapi.ConnectionPool('MySQLdb', **dbparams)  # **表示将字典扩展为关键字参数,相当于host=xxx,db=yyy....

        return cls(dbpool)  # 相当于dbpool付给了这个类，self中可以得到

    # pipeline默认调用

    def process_item(self, item, spider):

        query = self.dbpool.runInteraction(self._conditional_insert, item)  # 调用插入的方法异步处理

        query.addErrback(self._handle_error, item, spider)  # 调用异常处理方法

        return item

    # 写入数据库中

    # SQL语句在这里

    def _conditional_insert(self, tx, item):

        sql = "insert into jsbooks(author,title,url,pubday,comments,likes,rewards,views) values(%s,%s,%s,%s,%s,%s,%s,%s)"

        params = (item['author'], item['title'], item['url'], item['pubday'],item['comments'],item['likes'],item['rewards'],item['reads'])

        tx.execute(sql, params)

    # 错误处理方法

    def _handle_error(self, failue, item, spider):

        print failue

scrapy爬取数据进行数据库存储和本地存储的更多相关文章

如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
将scrapy爬取数据通过django入到SQLite数据库
1. 在django项目根目录位置创建scrapy项目,django_12是django项目,ABCkg是scrapy爬虫项目,app1是django的子应用 2.在Scrapy的settings.p ...
42.scrapy爬取数据入库mongodb
scrapy爬虫采集数据存入mongodb采集效果如图: 1.首先开启服务切换到mongodb的bin目录下命令:mongod --dbpath e:\data\db 另开黑窗口命令:mongo. ...
scrapy爬取数据保存csv、mysql、mongodb、json
目录前言 Items Pipelines 前言用Scrapy进行数据的保存进行一个常用的方法进行解析 Items item 是我们保存数据的容器,其类似于 python 中的字典.使用 item ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫必知必会（6）_提升scrapy框架爬取数据的效率之配置篇
如何提升scrapy爬取数据的效率:只需要将如下五个步骤配置在配置文件中即可增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_ ...
提高Scrapy爬取效率
1.增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. 2.降低 ...

随机推荐

mysql gtid 主从复制
基于GTID环境搭建主从复制 1.环境 ----------------------------------------------------------| |mysql版本 | 5.7.14 | ...
linux小白成长之路9————打包部署SpringBoot项目
[内容指引] SpringBoot项目介绍: 打包SpringBoot项目: 1.pom.xml: 2.application.properties配置: 3.application-dev.prop ...
笔试常考--浏览器输入一个URL点击回车之后发生了什么
解析URL:浏览器首先对拿到的URL进行识别,抽取出域名字段. DNS解析: 查询浏览器缓存(浏览器会缓存之前拿到的DNS 2-30分钟时间),如果没有找到, 检查系统缓存,检查hosts文件,这个文 ...
【R语言系列】R语言初识及安装
一.R是什么 R语言是由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman两个人共同发明. 其词法和语法分别源自Schema和S语言. R定义:一个能够自由幼小的用于统计计算和绘 ...
c语言第五次作业--函数
一.PTA实验作业题目1.使用函数输出一个整数的逆序数 1.本题PTA提交列表 2.设计思路 1.int mod,rever:分别表示余数和返回的数 2.while(number%10 || num ...
C语言第八次作业
一.PTA实验作业题目1:统计一行文本的单词个数 1.本题PTA提交列表 2.设计思路 // 一个非空格和一个空格代表一个单词 char str[1000]: 存放一行文本定义 I,j=0:用作循 ...
那些在django开发中遇到的坑
1. 关于csrf错误 CSRF(Cross-site request forgery)跨站请求伪造,也被称为“one click attack”或者session riding,通常缩写为CSRF或 ...
201621123054 《Java程序设计》第六周实验总结
1. 本周学习总结 1.1 面向对象学习暂告一段落,请使用思维导图,以封装.继承.多态为核心概念画一张思维导图或相关笔记,对面向对象思想进行一个总结. 1.2 可选:使用常规方法总结其他上课内容. 2 ...
【转载】NetFPGA-1G-CML从零开始环境配置
##环境深度Linux ###环境配置 ```bash sudo apt-get install libsigc++ sudo apt-get install qgit sudo apt-get i ...
android 框架LoonAndroid，码农偷懒专用
介绍 http://www.eoeandroid.com/thread-324764-1-1.html 架构培训视频: http://pan.baidu.com/s/1mgv8HTm 简介:下载 ht ...

scrapy爬取数据进行数据库存储和本地存储

scrapy爬取数据进行数据库存储和本地存储的更多相关文章

随机推荐

热门专题