mongodb在插入数据环节避免数据重复的方法（爬虫中的使用update）

mongo 去重

import pymongo

client = pymongo.MongoClient()

collection=client.t.test

# collection.insert({'title':'python','name':'deng','age':23})

data={'title':'go','name':'wang','age':45,'url':1}

collection.update({'url':1},{'$set':data},True)

# 上面的案例，表示如何url重复的话，url不更新，其他字典如果数据不一致就会更新。

爬虫案例：

collection.update({'url':data['url'],'cover_url':data['cover_url']},{'$set':data},True)

# coding=utf8

"""

author:dengjiyun

"""

import pymongo

client=pymongo.MongoClient()

collection = client.dou.douban

import requests

url='https://movie.douban.com/j/chart/top_list'

params={

    'type':'11',

    'interval_id':'100:90',

    'action':'',

    'start':'60',

    'limit':'20'

}

headers={

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'

}

res=requests.get(url,params=params,headers=headers).json()

for item in res:

    data={}

    # print(item['cover_url'])

    data['vote_count']=item['vote_count']  # 评论

    data['score']=item['score']       # 得分

    data['title']=item['title']       # 电影名

    data['url']=item['url']         # 详情页url

    data['cover_url']=item['cover_url']   # 封面图片

    data['rank'] =item['rank']       # 排名

    data['id'] =item['id']         # 电影id

    data['release_date']=item['release_date'] # 发布日期

    print(item)

    # 不插入重复数据  collection.update()

    collection.update({'url':data['url'],'cover_url':data['cover_url']},{'$set':data},True)

client.close()

mongodb在插入数据环节避免数据重复的方法（爬虫中的使用update）的更多相关文章

mysql中在表中insert数据时，有重复主键id时，变成update
MySQL 自4.1版以后开始支持INSERT … ON DUPLICATE KEY UPDATE语法例如: id name sex age 1 kathy male 23 2 Javer f ...
JS中判断JSON数据是否存在某字段的方法 JavaScript中判断json中是否有某个字段
方式一 !("key" in obj) 方式二 obj.hasOwnProperty("key") //obj为json对象. 实例: var jsonwor ...
mysql insert插入时实现如果数据表中主键重复则更新，没有重复则插入的四种方法
[CSDN下载] Powerdesigner 设计主键code不能重复等问题 [CSDN博客] Oracle中用一个序列给两个表创建主键自增功能的后果 [CSDN博客] MySQL自增主键删除后重复问 ...
Django+MongoDB批量插入数据
在百万级和千万级数据级别进行插入,pymongo的insert_many()方法有着很强的优势.原因是每次使用insert_one()方法进行插入数据,都是要对数据库服务器进行一次访问,而这样的访问是 ...
MySQL防止重复插入唯一限制的数据 4种方法
MySQL防止重复插入唯一限制的数据,下面我们逐一分析 : 1.insert ignore into 当插入数据时,如出现错误时,如重复数据,将不返回错误,只以警告形式返回.所以使用ignore请确保 ...
根据从redis缓存的数据查询出来，在从数据库中取出所有的数据，俩个数据进行比较，去掉重复，剩下库中新插入的数据，取出新数据，然后把redis中的缓存数据清空把从数据库中查出来的所有数据放到redis缓存中
参考代码: public String getNewCenter(HttpServletRequest request,HttpServletResponse resonse){ JSONObject ...
大数据时代的数据存储，非关系型数据库MongoDB
在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构. ...
大数据时代的数据存储，非关系型数据库MongoDB（一）
原文地址:http://www.cnblogs.com/mokafamily/p/4076954.html 爆炸式发展的NoSQL技术在过去的很长一段时间中,关系型数据库(Relational Da ...
GoldenGate实时投递数据到大数据平台（1）-MongoDB
mongodb安装安装 linux下可使用apt-get install mongodb-server 或 yum install mongodb-server 进行安装. 也可以在windows上 ...

随机推荐

【LeetCode】421. Maximum XOR of Two Numbers in an Array 解题报告（Python & C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述解题方法依次遍历每一位前缀树日期题目地址:https://lee ...
【LeetCode】162. Find Peak Element 解题报告（Python）
[LeetCode]162. Find Peak Element 解题报告(Python) 标签(空格分隔): LeetCode 题目地址:https://leetcode.com/problems/ ...
Interesting Yang Yui Triangle(hdu3304)
Interesting Yang Yui Triangle Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K ...
Orcale
oracleoracle中不存在引擎的概念,数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing).联机分析处理OLAP(On-Line An ...
Improving Adversarial Robustness Using Proxy Distributions
目录概主要内容 proxy distribution 如何利用构造的数据 Sehwag V., Mahloujifar S., Handina T., Dai S., Xiang C., Chia ...
CapstoneCS5265设计替代CH7211 |Type-C转HDMI2.0方案|替代CH7211
龙迅Chrontel的CH7211是一款Type-C转HDMI2.0半导体设备,可通过USB Type-C连接器将DisplayPort信号转换为HDMI/DVI.这款创新的基于USB Type-C的 ...
SpringCloud创建项目父工程
1.说明本文详解介绍Spring Cloud项目的父工程创建, 由于Spring Cloud项目下有很多模块组件, 需要先创建一个大的父工程项目, 然后在下面创建各个子工程模块. 2.创建父工程这 ...
win10快捷方式小箭头怎么去掉
为了演示,先来看看桌面图标是有小箭头的. 1.打开注册表按下快捷键"win+R",然后输入"regedit",并点击确认按钮. 2.搜索HKEY_CLASSE ...
idea 更换 maven ，并更换阿里镜像
1 ctrl + alt + s 打开设置, 找到Maven 修改maven包的地址,然后修改settings.xml 注意了,有时候repository没有,那么需要在settings.xml配置r ...
深入理解Java虚拟机之自己编译JDK
题外话最近在阅读<深入理解Java虚拟机>,其中有一小节实战是自己编译JDK,实际操作下来后遇到问题不少,为此特地记录,也希望可以给大家带来一些参考! 前置准备平台及工具:Window ...

mongodb在插入数据环节避免数据重复的方法（爬虫中的使用update）

mongodb在插入数据环节避免数据重复的方法（爬虫中的使用update）的更多相关文章

随机推荐

热门专题