使用pandas把mysql的数据导入MongoDB。

首先说下我的需求，我需要把mysql的70万条数据导入到mongodb并去重，

同时在第二列加入一个url字段，字段的值和第三列的值一样，代码如下:

# -*- coding: utf-8 -*-

# @Time    : 2018/9/29 17:20

# @Author  : cxa

# @File    : run.py

# @Software: PyCharm

import pandas as pd

from sqlalchemy import create_engine

from pymongo import MongoClient

import json

import time

class MongoBase:

    def __init__(self, collection):

        self.collection = collection

        self.OpenDB()

    def read_mysql(self):

        engine = create_engine(

          'mysql+pymysql://usernmae:passwd@ip:port/dbname?charset=utf8')  # 用sqlalchemy创建引擎

        start=time.time()

        max_id=self.get_max_id()

        df1 = pd.read_sql(f'select primary_key,phone,plat_code,crawl_time,jrjt_del_dt from test_info where primary_key>{max_id}', engine)  # 从数据库中读取表存为DataFrame

        end = time.time()

        print("查询完毕条数",len(df1['phone']),"用时",end-start)

        df1.drop_duplicates('phone', keep='first', inplace=True)

        df1.insert(1, 'url', df1['phone'])

        return df1

    def OpenDB(self):

        self.con = MongoClient(host=host)

        self.db = self.con[self.collection]

        self.collection = self.db['test']

    def closeDB(self):

        self.con.close()

    def get_max_id(self):

        max_id = self.collection.find().sort([('primary_key', -1)]).limit(1)[0]

        if max_id:

            return max_id.get("primary_key")

if __name__ == '__main__':

    start=time.time()

    mongo = MongoBase('spider_data')

    df =mongo.read_mysql()

    mongo.collection.insert(json.loads(df.T.to_json()).values())

    mongo.closeDB()

    end=time.time()

    print("运行完成所用时",end-start)

使用pandas把mysql的数据导入MongoDB。的更多相关文章

小白学 Python 数据分析（7）：Pandas （六）数据导入
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
mysql的数据导入导出
1.Navicat for Mysql XML导出导入格式支持二进制数据:虽然同步数据人眼看不出区别,但是java尝试读取数据时,报datetime字段取出的值为“0000-00-00 00:00:0 ...
MySQL之数据导入导出
日常开发中,经常会涉及到对于数据库中数据的导入与导出操作,格式也有很多: TXT,CSV,XLS,SQL等格式,所以,在此总结一下,省的总是百度查询. 一导出 1) 常用的方式就是使用现成的工具例如 ...
Mysql 大量数据导入
今天试图用heidisql 导入一个150M的数据文件(.sql), 结果报out of memory 错误.在网上搜了很多案例,都没能解决问题.我甚至怀疑是mysql 的default的内存设置的太 ...
用sqoop将mysql的数据导入到hive表中
1:先将mysql一张表的数据用sqoop导入到hdfs中准备一张表需求将 bbs_product 表中的前100条数据导导出来只要id brand_id和 name 这3个字段数据存 ...
通过管道传输快速将MySQL的数据导入Redis
通过管道传输pipe将MySQL数据批量导入Redis 自Redis 2.6以上版本起,Redis支持快速大批量导入数据,即官网的Redis Mass Insertion,即Pipe传输, ...
solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引配置笔记
转载请标明出处:http://www.cnblogs.com/chlde/p/3768733.html 1.如何将solr部署,请参考之前的文章 2.按上述配置好后,在solr_home文件夹中,将包 ...
MySQL多线程数据导入导出工具Mydumper
http://afei2.sinaapp.com/?p=456 今天在线上使用mysqldump将数据表从一个库导入到另外一个库,结果速度特别慢,印象中有个多线程的数据导入导出工具Mydumper,于 ...
MySQL示例数据导入
从官网下载示例数据,参考压缩文件中的README.txt,整理所得 /******************* 示例数据导入 *******************/ /** 官网下载 http://d ...

随机推荐

P2151 [SDOI2009]HH去散步
题目描述 HH有个一成不变的习惯,喜欢饭后百步走.所谓百步走,就是散步,就是在一定的时间内,走过一定的距离. 但是同时HH又是个喜欢变化的人,所以他不会立刻沿着刚刚走来的路走回. 又因为HH是个喜欢 ...
Virtual Table
C++对象模型——吴泰 C/C++杂记 C++中的虚函数(表)实现机制以及用C语言对其进行的模拟实现 C++ 多继承和虚继承的内存布局 [已翻译100%] (虚继承参考,推荐) 图说C++对象模型:对 ...
# DZY Love Math 系列
DZY Love Math 系列 [BOZJ3309] DZY Loves Math 顺着套路就能得到:\(Ans = \sum_{T=1}\lfloor \frac{n}{T} \rfloor \l ...
【BZOJ2655】Calc（拉格朗日插值，动态规划）
[BZOJ2655]Calc(多项式插值,动态规划) 题面 BZOJ 题解考虑如何$dp$ 设$f[i][j]$表示选择了$i$个数并且值域在$[1,j]$的答案. \(f[i][j ...
Missing $ inserted解决方法
目录问题描述解决参考问题描述在学习LaTex Tutorial的时候,按照教程输入矩阵的时候发现出现了 ! Missing $ inserted的错误. 解决在矩阵前后要加上$,如图所示 ...
Corosync+Pacemaker+crmsh构建Web高可用集群
一.概述: 1.1 AIS和OpenAIS简介 AIS应用接口规范,是用来定义应用程序接口(API)的开放性规范的集合,这些应用程序作为中间件为应用服务提供一种开放.高移植性的程序接口.是在实现高可用 ...
linux 第三周读书笔记-----第一二章 20135334赵阳林
第一章 Linux内核简介 1.1 Unix的历史由于Unix系统设计简洁并且在发布时提供源代码,所以许多其他组织和团体都对它进了进一步的开发. Unⅸ虽然已经使用了40年,但计算机科学家仍然认为它 ...
python模块之 paramiko
paramiko模块提供了ssh及sft进行远程登录服务器执行命令和上传下载文件的功能.这是一个第三方的软件包,使用之前需要安装. 1 基于用户名和密码的 sshclient 方式登录 # 建立一个s ...
单点登录(七)-----实战-----cas server去掉https验证
我们在搭建cas中已经说过如果不搭建https证书体系的需要去掉https的验证: 单点登录(二)----实战------简单搭建CAS---测试认证方式搭建CAS 因为cas4.2以上的代码做了一些 ...
850. 矩形面积 II
我们给出了一个(轴对齐的)矩形列表 rectangles . 对于 rectangle[i] = [x1, y1, x2, y2],其中(x1,y1)是矩形 i 左下角的坐标,(x2,y2)是该矩形右 ...

使用pandas把mysql的数据导入MongoDB。

使用pandas把mysql的数据导入MongoDB。的更多相关文章

随机推荐

热门专题