爬虫数据使用MongDB保存时自动过滤重复数据

本文转载自以下网站: 爬虫断了？一招搞定 MongoDB 重复数据 https://www.makcyun.top/web_scraping_withpython13.html

需要学习的地方:

MongDB数据库的初步使用

import pymongo

client = pymongo.MongoClient('localhost', 27017) # 链接
db = client.Douban # 数据库
mongo_collection = db.douban # 数据库中的数据表

def write_to_mongodb(self, data):
    for item in data:
        if mongo_collection.update_one(item, {'$set': item}, upsert=True):
            # if mongo_collection.insert_one(item):
            print('存储成功')
        else:
            print('存储失败')

MongoDB 避免插入重复数据。

摘要：尽量使用 update_one() 方法而不是 insert_one() 插入数据。

相信你一定有过这样的经历：大晚上好不容易写好一个爬虫，添加了种种可能出现的异常处理，测试了很多遍都没有问题，点击了 RUN 开始正式运行，然后美滋滋地准备钻被窝睡觉，睡前还特意检查了下确认没有问题，合上眼后期待着第二天起来，数据都乖乖地躺在 MongoDB 中。第二天早上一睁眼就满心欢喜地冲到电脑前，结果发现爬虫半夜断了，你气得想要砸电脑，然后你看了一下 MongoDB 中爬了一半的数据，在想是删掉重新爬，还是保留下来接着爬。

到这儿问题就来了，删掉太可惜，接着爬很可能会爬到重复数据，虽然后期可以去重，但你有强迫症，就是不想爬到重复数据，怎么办呢？

这就遇到了「爬虫断点续传」问题，关于这个问题的解决方法有很多种，不过本文主要介绍数据存储到 MongoDB 时如何做到只插入新数据，而重复数据自动过滤不插入。

先来个简单例子，比如现在有两个 list ，data2 中的第一条数据和 data 列表中的第一条数据是重复的，我们想将这两个 list 依次插入 MnogoDB 中去，通常我们会使用 insert_one() 或者 insert_many() 方法插入，这里我们使用 insert_one() 插入，看一下效果。

data = [
{'index':'A','name':'James','rank':'1' },
{'index':'B','name':'Wade','rank':'2' },
{'index':'C','name':'Paul','rank':'3' },
]

data2 = [
{'index':'A','name':'James','rank':'1' },
{'index':'D','name':'Anthony','rank':'4' },
]

import pymongo
client = pymongo.MongoClient('localhost',27017)
db = client.Douban
mongo_collection = db.douban

for i in data:
    mongo_collection.insert_one(i)

插入第一个 list ：

插入第二个 list ：

你会发现，重复的数据 A 被插入进去了，那么怎么只插入 D，而不插入 A 呢，这里就要用到 update_one() 方法了，改写一下插入方法：

for i in data2:
    mongo_collection.update_one(i,{'$set':i},upsert=True)

这里用到了 $set 运算符，该运算符作用是将字段的值替换为指定的值，upsert 为 True 表示插入。这里也可以用 update() 方法，但是这个方法比较老了，不建议使用。另外尝试使用 update_many() 方法发现不能更新多个相同的值。

for i in data2:
	mongo_collection.update(i, i, upsert=True)

下面举一个豆瓣电影 TOP250 的实例，假设我们先获取 10 个电影的信息，然后再获取前 20 个电影，分别用 insert_one() 和 update_one() 方法对比一下结果。

insert_one() 方法会重复爬取前 10 个电影的数据：

update_one() 方法则只会插入新的 10 个电影的数据：

这就很好了对吧，所以当我们去爬那些需要分页的网站，最好在爬取之前使用 update_one() 方法，这样就算爬虫中断了，也不用担心会爬取重复数据。

代码实现如下：

import requests
import json
import csv
import pandas as pd
from urllib.parse import urlencode
import pymongo

client = pymongo.MongoClient('localhost', 27017)
db = client.Douban
mongo_collection = db.douban
class Douban(object):
    def __init__(self):
        self.url = 'https://api.douban.com/v2/movie/top250?'

    def get_content(self, start_page):
        params = {
            'start': start_page,
            'count': 10
        }
        response = requests.get(self.url, params=params).json()
        movies = response['subjects']
        data = [{
            'rating': item['rating']['average'],
            'genres':item['genres'],
            'name':item['title'],
            'actor':self.get_actor(item['casts']),
            'original_title':item['original_title'],
            'year':item['year'],
        } for item in movies]

        self.write_to_mongodb(data)

    def get_actor(self, actors):
        actor = [i['name'] for i in actors]
        return actor

    def write_to_mongodb(self, data):
        for item in data:
            if mongo_collection.update_one(item, {'$set': item}, upsert=True):
                # if mongo_collection.insert_one(item):
                print('存储成功')
            else:
                print('存储失败')

    def get_douban(self, total_movie):
        # 每页10条，start_page循环1次
        for start_page in range(0, total_movie, 10):
            self.get_content(start_page)

if __name__ == '__main__':
    douban = Douban()
    douban.get_douban(10)

爬虫数据使用MongDB保存时自动过滤重复数据的更多相关文章

Intellij IDEA 代码格式化/保存时自动格式化
这里介绍使用google style 一.安装插件 1.settings -> plugins 选择 Browse repositories… 2.搜索google-java-format 和 ...
vscode代码保存时自动格式化成ESLint风格（支持VUE）
一.问题 vscode的默认的代码格式化ctrl+shift+f 无法通过eslint的代码风格检查是一个非常蛋疼的问题同样在进行vue项目开发的时候,使用eslint代码风格检查是没啥问题的,但是 ...
设置Myeclipse中的代码格式化、注释模板及保存时自动格式化
1:设置注释的模板: 下载此模板: codetemplates.xml 搜索Dangzhang,将其改为你自己的姓名,保存打开eclipse/myeclipse选择 window-->Pre ...
vscode 代码保存时自动格式化成 ESLint 风格
vscode 的默认的代码格式化 alt+shift+f (windows) 无法通过 eslint 的代码风格检查,,, 比如: 4个空格和2个空格(ESLint) 字符串用单引号(ESLint) ...
Myeclipse学习总结（3）——Myeclipse中的代码格式化、注释模板及保存时自动格式化
设置Myeclipse中的代码格式化.注释模板及保存时自动格式化 1:设置注释的模板: 下载此模板: codetemplates.xml This XML file does not appear ...
关于visocode 自动保存时自动添加分号问题
先下载插件: Vueter 打开设置的配置文件,写入一下代码: // //是否需要保存时自动格式化 "editor.formatOnSave": true, //使js 文件保存 ...
vscode代码格式化快捷键及保存时自动格式化
一.实现vs code中代码格式化快捷键:[Shift]+[Alt]+ F 二.实现保存时自动代码格式化: 1)文件 ------.>[首选项]---------->[设置]: 2)搜索 ...
scrapy过滤重复数据和增量爬取
原文链接前言这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...
Elasticsearch去重查询/过滤重复数据（聚合）
带家好,我是马儿,这次来讲一下最近遇到的一个问题我司某个环境的es中被导入了重复数据,导致查询的时候会出现一些重复数据,所以要我们几个开发想一些解决方案,我们聊了聊,相出了下面一些方案: 1.从源头 ...

随机推荐

【转】】}linux awk 命令详解
http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html ----------------------------------- ...
初识ASP.NET---点滴的积累---ASP.NET学习小结
差点儿相同十多天前学习完了北大青鸟的学习视频,没想到没几天的时间就看完了XML视频和牛腩的Javascript视频.学习完了也该总结总结.理理自己的思路.消化一下自己学习到的东西. 视频中的理论知识并 ...
cocos2dx编译安卓版本号查看C++错误
首先,在Mac以下相关软件路径,打开"终端",然后输入 pico .bash_profile 回车 export COCOS2DX_ROOT=/Users/bpmacmini0 ...
MFC小程序003------MFC使用WebBrowser组件，在对话框中创建滚动视图，动态创建一个静态文本控件并设置鼠标单击的消息响应
MFC小程序截图: 一.在MFC中简单使用WebBrowser的ActiveX插件的方法: 见博文: http://blog.csdn.net/supermanking/article/detail ...
卡尔曼滤波（Kalman Filter）的进一步讨论
我们在上一篇文章中通过一个简单的样例算是入门卡尔曼滤波了.本文将以此为基础讨论一些技术细节. 卡尔曼滤波(Kalman Filter) http://blog.csdn.net/baimafujinj ...
学习笔记——SQL SERVER的递归
SQL SERVER似乎天然具有支持递归的属性. 1.比如说,有几次,我编写或修改存储过程的时候,为图方便,在末尾随手写上执行这个存储过程的语句,比如 [sql] view plaincopy A ...
HDU5526/BestCoder Round #61 (div.1)1004 Lie 背包DP
Lie 问题描述一个年级总共有N个学生,每个人属于唯一一个班级.现在他们站在一排,同班同学并不一定会站在一起,但每个人都会说一句话:“站在我左边的有Ai个同班同学,右边有Bi个同班同学”.然而并 ...
Python 39 数据库
一:数据存储引擎 1. 什么是引擎? 一个功能的核心部分引擎可以被分类例如: 自然增压汽油柴油混合动力天然气核动力汽油:动力弱,噪音小,震动小柴油:动力强,污染大,噪音大,震动大 ...
Python 36 死锁现象和递归锁、信号量、Event事件、线程queue
一:死锁现象和递归锁所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去.此时称系统处于死锁状态或系统产生了死锁,这些永远 ...
Win10 计算机管理打不开应急办法
最近Win10重置以后,计算机管理打不开了,经过一番尝试,通过以下命令在cmd下面可以直接打开 compmgmt 或者compmgmt.msc打开在次特做一个记录,以备急用

爬虫数据使用MongDB保存时自动过滤重复数据

爬虫数据使用MongDB保存时自动过滤重复数据的更多相关文章

随机推荐

热门专题