mongo批量写入es

import pymongo

import math

from elasticsearch import Elasticsearch

from elasticsearch import helpers

import time

HOST = ['ip:端口']

es = Elasticsearch(HOST,timeout=3600) # 链接ES HOST可以是[ip:端口，ip：端口] 的集群

client = pymongo.MongoClient("")  # 链接数据库

db = client["blue_book_news_dev"]["blue_book_news"]

# 统计mongo里面的数量, 计算分页

nums = db.count()

print(nums)

pages = math.ceil(nums/500)

_index = "ai51_main_prod"

start_time = time.time()

for i in range(pages):

    n =  500 * i

    print("第{}多少个500，第{}条".format(i,n))

    l=list(db.find({},projection={'_id':False,'news_url': True,"content":True,"title": True,"publish_time":True}).skip(n).limit(500))

    for line in l:

        actions = []

        if line.get("news_url"):

            action = {

                "_index": _index, #  类似于主键类型

                "_type": "sources", # 类型

                "_id": line["news_url"], # id 如果不自己定义系统会给创建

                "_source": {

                    "page_category": None,

                    "url": line.get("news_url"),

                    "article_title": line.get("title"),

                    "article_content": line.get("content"),

                    "publish_time_raw": line.get("publish_time"),

                    "publish_time_nomalized": None,

                    "summary":None

                }}

            actions.append(action)

        helpers.bulk(es, actions)  # 批量写入

end_time =time.time()

print(start_time-end_time)

mongo批量写入es的更多相关文章

Spring Boot + Elasticsearch 实现索引批量写入
在使用Eleasticsearch进行索引维护的过程中,如果你的应用场景需要频繁的大批量的索引写入,再使用上篇中提到的维护方法的话显然效率是低下的,此时推荐使用bulkIndex来提升效率.批写入数据 ...
Flink从Kafka取数WordCount后TableApi写入ES
一.背景说明需求为从Kafka消费对应主题数据,通过TableApi对数据进行WordCount后,基于DDL写法将数据写入ES. 二.代码部分说明:代码中关于Kafka及ES的连接部分可以抽象到 ...
DataTable数据批量写入数据库三种方法比较
DataTable数据批量写入数据库三种方法比较标签: it 分类: C#1) insert循环插入:2) sqldataadapter.update(dataset,tablename); ...
mysql批量写入
MySQL批量写入语法是: INSERT INTO table (field1,field2,field3) VALUES (“a”,”b”,”c”), (“a1”,”b1”,”c1”),(“a2”, ...
SqlBulkCopy批量写入25万条数据只需3s
Microsoft SQL Server 提供一个称为 bcp 的流行的命令提示符实用工具,用于将数据从一个表移动到另一个表(表既可以在同一个服务器上,也可以在不同服务器上).SqlBulkCopy ...
openerp 产品图片的批量写入
Write a short python script which loops over the image files, encode with base64 and write to OpenER ...
MySQL通用批量写入工具（Python）
背景平台目前的分析任务主要以Hive为主,分析后的结果存储在HDFS,用户通过REST API或者Rsync的方式获取分析结果,这样的方式带来以下几个问题: (1)任务执行结束时间未知,用户 ...
使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历
原文:使用XML向SQL Server 2005批量写入数据——一次有关XML时间格式的折腾经历常常遇到需要向SQL Server插入批量数据,然后在存储过程中对这些数据进行进一步处理的情况.存储过 ...
Python-将json文件写入ES数据库
1.安装Elasticsearch数据库 PS:在此之前需首先安装Java SE环境下载elasticsearch-6.5.2版本,进入/elasticsearch-6.5.2/bin目录,双击执行 ...

随机推荐

Vue CLI 3 如何自定义 js 的文件名
参考链接:https://blog.csdn.net/weixin_33979363/article/details/88742342
前端JS之HTML利用XMLHttpRequest()和FormData()进行大文件分段上传
用于网页向后端上传大文件 ### 前端代码<body> <input type="file" name="video" id="fi ...
初识gRPC
一.gRPC的概念 gRPC是Google推出的一个开源高性能的轻量级RPC框架,可以在任何环境中运行.它可以有效地连接数据中心内和跨数据中心的服务,并提供可插拔的支持,以实现负载平衡,跟踪,健康检查 ...
PYTHON 100days学习笔记008-3：输入和输出
目录 Day008-03:Python3 输入和输出 1.输出格式美化 1.1 str.format()用法 1.2 旧式字符串格式化 2.读取键盘输入 3.读和写文件 4.文件对象的方法 4.1 f ...
《MIT 6.828 Lab 1 Exercise 11》实验报告
本实验的网站链接:MIT 6.828 Lab 1 Exercise 11. 题目 The above exercise should give you the information you need ...
[转帖]Linux环境变量设置方法总结 PATH、LD_LIBRARY_PATH
Linux环境变量设置方法总结 PATH.LD_LIBRARY_PATH 2018年01月17日 21:10:26 晨至曦阅读数 7548 https://blog.csdn.net/qq_1900 ...
Linux基础目录
一,linux入门介绍二,界面目录介绍三,vim使用四,文件管理. 文件夹管理. 五.用户创建流程.用户管理 .组管理六.权限管理.软连接/硬链接七.磁盘管理八.软件包的管理九.系统服务 ...
AtCoder M-SOLUTIONS 2019 Task E. Product of Arithmetic Progression
problem link Official editorial: code: int main() { #if defined LOCAL && !defined DUIPAI ifs ...
Hystrix的概念
Netflix的 Hystrix 是一个帮助解决分布式系统交互时超时处理和容错的类库, 它同样拥有保护系统的能力. Hystrix的设计原则包括:资源隔离.熔断器.命令模 ...
缓存穿透 & 缓存雪崩 & 缓存击穿
一缓存穿透 1. 行为查询一个一定不存在的数据.存储层(姑且认为是db,下面都用db指代)查不到数据则不写入缓存,那么下次请求这个不存在的数据同样会到db层查询,失去了缓存的意义.流量大或人为恶意 ...

mongo批量写入es

mongo批量写入es的更多相关文章

随机推荐

热门专题