如果是使用centos 需要 yum install python-devel mysql-devel`

接下来保存数据库两种方法：

同步操作：数据少可以
异步操作：大数据（scrapy爬取得速度快于数据库插入速度，当数据量大时，就会出现阻塞，异步就能解决）

1.同步

修改数据，由于我们抓取的时间格式是str 需要转换成date存入数据库

import  datetime

try:

    create_date=datetime.datetime.strptime('create_date',"%Y/%m/%d").date()

except Exception as e:

    create_date =datetime.datetime.now().date()  #如果没有就取当前时间

article_item['create_date'] =create_date

建立MysqlPipeline

import MySQLdb

class MysqlPipeline(object):

    def __init__(self):

        self.conn=MySQLdb.connect('localhost','root','root','article',charset='utf8',use_unicode=True)

        self.cursor=self.conn.cursor()

    def process_item(self, item, spider):

        insert_sql="""

            insert into article(title,url,create_date,url_object_id,front_image_url,front_image_path,

            praise,collect_nums,comment_nums,contents,tags)VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)

        """

        self.cursor.execute(insert_sql,(item['title'],item['url'],item['create_date'],item['url_object_id'],

        item['front_image_url'],item['front_image_path'],item['praise'],item['collect_nums'],item['comment_nums'],item['contents'],item['tags'] ))

        self.conn.commit()

PIPELINE添加配置

ITEM_PIPELINES = {

  'spider_first.pipelines.ArticleImagePipeline': 1,

  'spider_first.pipelines.MysqlPipeline':2,

}

2.异步

settings.py

MYSQL_HOST='localhost'

MYSQL_DBNAME='article'

MYSQL_USER='root'

MYSQL_PASSWORD='root'

创建异步pipeline

import MySQLdb

import MySQLdb.cursors

from twisted.enterprise import adbapi

class MysqlTwistPipeline(object):

    @classmethod

    def from_settings(cls,settings):#名称固定 会被scrapy调用 直接可用setting的值

        adbparams=dict(

            host=settings['MYSQL_HOST'],

            db = settings['MYSQL_DBNAME'],

            user = settings['MYSQL_USER'],

            password = settings['MYSQL_PASSWORD'],

            charset='utf8',

            cursorclass=MySQLdb.cursors.DictCursor,

            use_unicode=True,

            )

        #这是链接数据库的另一种方法，在settings中写入参数

        dbpool=adbapi.ConnectionPool('MySQLdb',**adbparams)

        return cls(dbpool)

    def __init__(self,dbpool):

        self.dbpool=dbpool

    def process_item(self, item, spider):

        #使用twiest将mysql插入变成异步

        query=self.dbpool.runInteraction(self.do_insert,item)

        #因为异步 可能有些错误不能及时爆出

        query.addErrback(self.handle_error)

    #处理异步的异常

    def handle_error(self,failure):

        print('failure')

    def do_insert(self,cursor,item):

        insert_sql = """

                    insert into article(title,url,create_date,url_object_id,front_image_url,front_image_path,

                    praise,collect_nums,comment_nums,contents,tags)VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)

                """

        cursor.execute(insert_sql, (item['title'], item['url'], item['create_date'], item['url_object_id'],item['front_image_url'], item['front_image_path'], item['praise'],item['collect_nums'], item['comment_nums'], item['contents'], item['tags']))

最后同样添加配置即可

scrapy--将爬取得数据保存到数据库中的更多相关文章

ASP.NET网络爬虫小研究 HtmlAgilityPack基础，爬取数据保存在数据库中再显示再自己的网页中
1.什么是网络爬虫关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些 ...
WordPress插件制作教程(四): 将数据保存到数据库
上一篇讲解了添加菜单的方法,这一篇为大家讲解如何将数据保存到数据库中,并且显示在页面上,不会因提交表单时刷新页面输入框中内容消失.要实现这一功能我们需要借助WordPress函数来实现,下面就来讲解具 ...
把Execl表格中的数据获取出来保存到数据库中
比如我们遇到一些需要把execl表格中的数据保存到数据库中,一条一条保存效率底下而且容易出错,数据量少还好,一旦遇到数据量大的时候就会累死个人啊,下面我们就来把execl表格中数据保存到对应的数据库中 ...
Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...
第三百四十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
第三百四十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 ...
二十一 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 # -*- coding: utf-8 -*- # Define your ite ...
把数据保存到数据库附加表 `dede_addonarticle` 时出错，请把相关信息提交给DedeCms官方。Duplicate entry
把数据保存到数据库附加表 `dede_addonarticle` 时出错,请把相关信息提交给DedeCms官方.Duplicate entry ’3′ for key ‘PRIMARY’ 你的主键是不 ...
Android学习笔记——保存数据到SQL数据库中(Saving Data in SQL Databases)
知识点: 1.使用SQL Helper创建数据库 2.数据的增删查改(PRDU:Put.Read.Delete.Update) 背景知识: 上篇文章学习了保存文件,今天学习的是保存数据到SQL数据库中 ...
dedecms新建内容模型“把数据保存到数据库附加表时出错‘xxx’出错”错误的原因分析和解决方案(转)
把数据保存到数据库附加表 `bc_addonarticle17` 时出错,请把相关信息提交给DedeCms官方.INSERT INTO `bc_addonarticle17`(aid,typeid,r ...

随机推荐

Sqlmap注入技巧收集整理
TIP1 当我们注射的时候,判断注入 http://site/script?id=10http://site/script?id=11-1 # 相当于 id=10http://site/script? ...
Fiddler 抓包工具总结(转)
阅读目录 1. Fiddler 抓包简介 1). 字段说明 2). Statistics 请求的性能数据分析 3). Inspectors 查看数据内容 4). AutoResponder 允许拦截制 ...
GO-指针与函数
一.指针类型 1.普通类型,变量存的就是值,也叫值类型.指针类型存的是地址 2.获取变量的地址,用&,比如:var a int, 获取a的地址 &a 3.指针类型,变量存的是一个地址, ...
linux驱动开发：用户空间操作LCD显示简单的图片【转】
转自:http://blog.csdn.net/changliang7731/article/details/53074616 上一章我们简单介绍了LCD的一些基本原理.当然更深奥的还有,比如gamm ...
ssh登录时较慢的解决方法
ssh在登录的时候,通常都会经过DNS的反向解析,过程为: IP --> (反向DNS) --> hostname --> (DNS) --> IP 然后匹配开头申请的和最后得 ...
Ubuntu每次开机后提示：检测到系统程序出现问题的解决方法
首先,错误报告存放位置: cd /var/crash/ ls //可以查看错误报告 1 2 sudo rm /var/crash/* //删除该目录下的所有文件 1 但是,这只是删除掉的是错误报告,如 ...
使用ExtJS做一个用户的增删改查
extjs版本为4.2,用户数据放在静态list中存储 User.java package com.ext.demo.dao; public class User { private int id; ...
自家人不认识自家人——考你一道有趣的Javascript小题目
今天的内容很简单,给大家分享一个有趣的Javascript小题目. 题目很简单,就是填空: var a = ______; var b = a; alert(a==b); // alert " ...
wordpress技术-禁止订阅用户访问后台
begin主题虽然有个功能,但是只是少了入口,实际上测试还是可以进入后台的,那么怎么彻底解决呢?一时半会没思路,百度了下,果然有人贴出了代码. 把下面代码黏贴到主题的模板函数文件里即可: if ( i ...
cocos2dx2.x 创建项目
cocos2d-x下载地址:http://www.cocos2d-x.org/download 2.0之后的创建项目比较easy了第一步,首先 cd cocos2d-x-2.2.1/tools/pr ...

scrapy--将爬取得数据保存到数据库中

如果是使用centos 需要 yum install python-devel mysql-devel`

接下来保存数据库两种方法：

1.同步

2.异步

scrapy--将爬取得数据保存到数据库中的更多相关文章

随机推荐

热门专题