scrapy管道MySQL简记

import pymysql
from scrapy.exceptions import DropItem
import time

class ErshouchePipeline(object):
    def __init__(self):
        self.conn = pymysql.connect(
            host = '127.0.0.1',
            port = 3306,
            user = 'root',
            passwd = 'mlpythonlmoi',
            db = 'ershouche',
            charset = 'utf8'
        )
        self.cusor = self.conn.cursor(cursor=pymysql.cursors.DictCursor)
        sql1 = "select 路由网址 from 二手车之家"
        result = self.cusor.execute(sql1)#读取已经爬取的数据url
        # print(result)
        temp = self.cusor.fetchall()#返回查询到的所有记录
        print('返回查询得到的记录：',temp)
        self.url_list = []
        for i in temp:
            self.url_list.append(i['路由网址'])
        print('存在的：',self.url_list)

    def process_item(self, item, spider):
        if item['car_url'] not in self.url_list:
            sql = "insert into 二手车之家 values(Null,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
            lst = (item['city'],item['trademark'],item['model'],item['colour'],item['price'],item['purpose'],
                   item['vehicle_condition'],item['drive_mode'],item['Truck_kilometer'],item['car_license'],
                   item['Stop_displacemen'],item['year_jian_due'],item['insurance_policy_matures'],item['assurance_due'],
                   item['emission_standard'],item['guohu_number'],item['maintenance'],item['car_url'])
            self.cusor.execute(sql,lst)
            self.conn.commit()
        else:
            raise DropItem('该item数据库中已经存在！')
        return item

    def close_spider(self, spider):
         self.cusor.close()
         self.conn.close()#关闭连接
         print("操作结束！")
         print('结束时间：' + time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()))

scrapy管道MySQL简记的更多相关文章

scrapy 管道里面使用mysql插入数据库
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to t ...
scrapy 管道里面使用mysql插入数据库 python操作mysql
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to t ...
scrapy连接MySQL
Scrapy中连接MySQL所需要做的工作如下: 1.settings中需要设置的部分 # 启动管道组件 ITEM_PIPELINES = { 'QianChengWuYu.mongoDBPiplel ...
scrapy存储mysql
scrapy 数据存储mysql #spider.pyfrom scrapy.linkextractors import LinkExtractor from scrapy.spiders imp ...
scrapy 实现mysql 数据保存
开始用scrapy 爬取数据的时候开始用同步操作始终会报1064 的错误因为 mysql 语法和导入的字段不兼容尝试了 n 次之后开始用异步爬取虽然一路报错但是还是能把数 ...
scrapy操作mysql/批量下载图片
1.操作mysql items.py meiju.py 3.piplines.py 4.settings.py -------------------------------------------- ...
scrapy框架初识
一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具 ...
scrapy爬取猫眼电影排行榜
做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...
scrapy wiki资料汇总
See also: Scrapy homepage, Official documentation, Scrapy snippets on Snipplr Getting started If you ...

随机推荐

spring 与springmvc容器的关系
spring容器是springmvc的父容器,而父容器是不能访问子容器中的东西,但子容器可以访问父容器的东西
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
dbcp2、c3p0、druid连接池的简单配置
引入Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="h ...
C#多线程顺序依赖执行控制
在开发过程中,经常需要多个任务并行的执行的场景,同时任务之间又需要先后依赖的关系.针对这样的处理逻辑,通常会采用多线程的程序模型来实现. 比如A.B.C三个线程,A和B需要同时启动,并行处理,且B需要 ...
yum 安装LAMP
一.安装 MySQL 首先来进行 MySQL 的安装.打开超级终端,输入: [root@localhost ~]# yum install mysql mysql-server 安装完毕,让 MySQ ...
Django中请求的生命周期和 FBV模式和CBV模式
Django的生命周期就是你的一个请求所发生的整个流程 Django的生命周期内到底发生了什么呢?? . 当用户在浏览器中输入url时,浏览器会生成请求头和请求体发给服务端请求头和请求体中会包含浏 ...
《Java并发编程实战》文摘
更新时间:2017-06-03 <Java并发编程实战>文摘,有兴趣的朋友可以买本纸质书仔细研究下. 一线程安全性 1.1 什么是线程安全性当多个线程访问某个类时,不管运行时环境采用何 ...
WORD列表缩进的文本起始点
Figure 1 Figure 2 Figure 3 编号位置以刻度尺为起点0.74厘米(2个字符间距),文本缩进以刻度尺为起点2.96厘米(8个字符间距) 以上两者相减得到的值正好=特殊格式悬挂缩进 ...
haproxy开启日志功能
haproxy在默认情况不会记录日志,除了在haproxy.conf中的global段指定日志的输出外,还需要配置系统日志的配置文件.下面以centos6.4为例,haproxy使用系统自带的rpm报 ...
点开无线显示"已连接安全"，但是点击下面无线图标却显示"无法连接internet"，解决方案
管理员权限运行“命令提示符” 输入:netsh winsock reset 然后重启电脑即可

scrapy管道MySQL简记

scrapy管道MySQL简记的更多相关文章

随机推荐

热门专题