python scrapy爬虫存储数据库方法带去重步骤

import pymongo

import requests

import random

import time

import pymysql

db = pymongo.MongoClient()['cs']['dn']

db1 = pymysql.connect(user='root',password='root',db='cs',charset='utf8')

cursor = db1.cursor()

class CsdnPipeline(object):

    def __init__(self):

        self.set = set()

    def process_item(self, item, spider):

        if item not in self.set:

            title = item['title']

            content_text = item['content_text']

            create_time_datetime = item['create_time_datetime']

            nickName = item['nickName']

            read_count = item['read_count']

            content_img = item['content_img']

            keyword = item['keyword']

            if len(content_img)>0:

                path = []

                for img in content_img:

                    img_name = 'F:\\34\\tu\\'+str(time.time()).split('.')[1]+str(random.randrange(1,9999999999999999999999999))+'.jpg'

                    img_source = requests.get(img).content

                    op = open(img_name,'wb')

                    op.write(img_source)

                    op.close()

                    path.append(img_name)

                item['content_img'] = path

            else:

                item['content_img'] = '暂无图片'

            db.insert(dict(item))

            import json

            data = json.dumps(dict(item))

            sql = "insert into dn1(`data`) VALUES ('{}')".format(data)

            cursor.execute(sql)

            db1.commit()

            self.set.add(item)

            return item

        else:

            print('已经存在')

            return item

python scrapy爬虫存储数据库方法带去重步骤的更多相关文章

python - scrapy 爬虫框架（创建, 持久化, 去重, 深度, cookie）
## scrapy 依赖 twisted - twisted 是一个基于事件循环的异步非阻塞框架/模块 ## 项目的创建 1. 创建 project scrapy startproject ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy爬虫框架之初次使用
此篇博客为本人对小甲鱼的课程的总结. 关于Scrapy的安装网上都有方法,这里便不再叙述. 使用Scrapy抓取一个网站一共需要四个步骤: 0.创建一个Scrapy项目: 1.定义Item容器: 2. ...
如何在vscode中调试python scrapy爬虫
本文环境为 Win10 64bit+VS Code+Python3.6,步骤简单罗列下,此方法可以不用单独建一个Py入口来调用命令行安装Python,从官网下载,过程略,这里主要注意将python目 ...
最全数据分析资料汇总（含python、爬虫、数据库、大数据、tableau、统计学等）
一.Python基础 Python简明教程(Python3) Python3.7.4官方中文文档 Python标准库中文版廖雪峰 Python 3 中文教程 Python 3.3 官方教程中文版 P ...
python中requests库get方法带参数请求
起因是想爬五等分的花嫁的漫画.这是其中的一个坑先上代码 data={ 'cid':567464, , 'key':'', 'language':1, 'gtk':6, '_cid':567464, ...
python scrapy爬虫数据库去重方法
1. scrapy对request的URL去重 yield scrapy.Request(url, self.parse, dont_filter=False) 注意这个参数:dont_filter= ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...

随机推荐

STLC - 软件测试生命周期
什么是软件测试生命周期(STLC)? 软件测试生命周期(STLC)定义为执行软件测试的一系列活动. 它包含一系列在方法上进行的活动,以帮助认证您的软件产品. 图 - 软件测试生命周期的不同阶段每个阶 ...
（一）从设计的角度来看ADT（Java）
<数据结构与抽象——Java语言描述>第一章学习笔记感想:以前学数据结构关注于方法及实现,为了完成作业和手写代码,没有从设计层面考虑过,第一章设计一个bag ADT,借助于Java in ...
Java异常及错误
java提供了两种异常机制,可以分为运行时异常(RuntimeException)与检查式异常(checked Exception). 检查式异常:java编译器对于这种异常需要我们对其用try... ...
IntelliJ IDEA下载及安装，破解
IntelliJ IDEA下载及安装,破解百度百科:IDEA 全称IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助 ...
poj1002 大数的 n的m次
import java.math.BigDecimal; import java.util.Scanner; public class Main { public static void main(S ...
spring多个AOP执行先后顺序（面试问题：怎么控制多个aop的执行循序）
转载:spring多个AOP执行先后顺序(面试问题:怎么控制多个aop的执行循序) 众所周知,spring声明式事务是基于AOP实现的,那么,如果我们在同一个方法自定义多个AOP,我们如何指定他们的执 ...
js 时间戳转特定格式的日期
var Tools = {}; Tools.formatDate = function (fmt,timestamp) { if(timestamp){ var date = new Date(par ...
使用Swagger2构建强大的RESTful API文档（2）（二十三）
添加文档内容在完成了上述配置后,其实已经可以生产文档内容,但是这样的文档主要针对请求本身,而描述主要来源于函数等命名产生,对用户并不友好,我们通常需要自己增加一些说明来丰富文档内容.如下所示,我们通 ...
laravel中对模型和路由做缓存，提高性能
模型缓存命令: php think optimize:schema 路由缓存命令: php think optimize:route
【资料搜集】Python学习
python学习手册 | 演道网 http://dev.go2live.cn/python/python%e5%ad%a6%e4%b9%a0%e6%89%8b%e5%86%8c.html

python scrapy爬虫存储数据库方法带去重步骤

python scrapy爬虫存储数据库方法带去重步骤的更多相关文章

随机推荐

热门专题