临时处理小记:把Numpy的narray二进制文件转换成json文件
临时处理一个Numpy的二进制文件,分析知道里面是dict类型,简单小记一下,如果Numpy和Python基础不熟悉可以看我之前写的文章
%%time import numpy as np
Wall time: 135 ms
%%time import pandas as pd
Wall time: 351 ms
%%time
df = pd.DataFrame(np.load("data.npy")) # 通过narry创建DataFrame
Wall time: 910 ms
%%time df.head(10) # 快速预览前10行
Wall time: 1 ms
| 0 | |
|---|---|
| 0 | {'email': 'liurh@csdn.net', 'pwd': '9755DD0556... |
| 1 | {'email': 'fw19@sina.com', 'pwd': '6BB518D1A42... |
| 2 | {'email': 'whcheng@126.com', 'pwd': '0079ABBA6... |
| 3 | {'email': 'zh4ang@163.com', 'pwd': 'E23E561F02... |
| 4 | {'email': 'johnzhou8888@yahoo.com.cn', 'pwd': ... |
| 5 | {'email': 'zaza902@hotmail.com', 'pwd': '9B084... |
| 6 | {'email': 'yuping_zhong@163.com', 'pwd': '7D07... |
| 7 | {'email': 'annnntning@sina.com', 'pwd': '448A2... |
| 8 | {'email': 'sunnydinasun@sohu.com', 'pwd': 'DBF... |
| 9 | {'email': 'ysmrose@sohu.com', 'pwd': '22DDD26D... |
%%time # 提取email列
df['Email'] = df[0].map(lambda x : dict(x)["email"])
# 提取pwd列
df['MD5'] = df[0].map(lambda x : dict(x)["pwd"] )
# 删除无用列
del df[0]
Wall time: 1.05 s
%%time df.size # 查看总共多少数据
Wall time: 0 ns
2097148
%%time df.shape
Wall time: 0 ns
(1048574, 2)
%%time df.head(10)
Wall time: 0 ns
| MD5 | ||
|---|---|---|
| 0 | liurh@csdn.net | 9755DD05564EAD9EADCACE40B5A02711 |
| 1 | fw19@sina.com | 6BB518D1A42F22DA5CA62D5EE41C5D4F |
| 2 | whcheng@126.com | 0079ABBA66856DAFDF2B9A6E0DB23A09 |
| 3 | zh4ang@163.com | E23E561F0202ACECA30B8F07A48AB8E9 |
| 4 | johnzhou8888@yahoo.com.cn | 0EB1A2DB91A2BF3FB6275DE659A25805 |
| 5 | zaza902@hotmail.com | 9B08473C992C07E98389ED1C280A634A |
| 6 | yuping_zhong@163.com | 7D0710824FF191F6A0086A7E3891641E |
| 7 | annnntning@sina.com | 448A2BCEE09A3B14C22DC000351216B7 |
| 8 | sunnydinasun@sohu.com | DBFBA02E366BAB58DF605D6475189A51 |
| 9 | ysmrose@sohu.com | 22DDD26D62AF8B1C4A216BE18FDFF5B2 |
%%time
df.T.to_json("user.json") # 重新保存为Json(转置只是为了存储成我们常见的json格式)
Wall time: 2.85 s

关于怎么知道是dict类型的扩展:可以加载看看:np.load("data.npy")
临时处理小记:把Numpy的narray二进制文件转换成json文件的更多相关文章
- 将Model对象转换成json文本或者json二进制文件
将Model对象转换成json文本或者json二进制文件 https://github.com/casatwy/AnyJson 注意:经过测试,不能够直接处理字典或者数组 主要源码的注释 AJTran ...
- PHP取二进制文件头快速判断文件类型
<?php /*文件扩展名说明 *7173 gif *255216 jpg *13780 png *6677 bmp *239187 txt,aspx,asp,sql *208207 xls.d ...
- numpy中三维数组转变成二维数组
numpy中reshape()函数对三维数组进行转换成二维数组,见下面例子: >>>a=np.reshape(np.arange(18),(3,3,2)) >>> ...
- 【Python秘籍】numpy到tensor的转换
在用pytorch训练神经网络时,我们常常需要在numpy的数组变量类型与pytorch中的tensor类型进行转换,今天给大家介绍一种它们之间互相转换的方法. 一.numpy到tensor 首先我们 ...
- PHP取二进制文件头快速判断文件类型的实现代码
通过读取文件头信息来识别文件的真实类型. 一般我们都是按照文件扩展名来判断文件类型,但是这个很不靠谱,轻易就通过修改扩展名来躲避了,一般必须要读取文件信息来识别,PHP扩展中提供了类似 exif_im ...
- 从零开始学C++之IO流类库(三):文件的读写、二进制文件的读写、文件随机读写
一.文件的读写 如前面所提,流的读写主要有<<, >>, get, put, read, write 等操作,ofstream 继承自ostream, ifstream 继承自 ...
- JAVA核心技术I---JAVA基础知识(二进制文件读写和zip文件读写)
一:二进制文件读写 (一)写文件 –先创建文件,写入数据,关闭文件 –FileOutputStream, BufferedOutputStream,DataOutputStream –DataOutp ...
- pytorch_13_pytorch 中tensor,numpy,PIL的转换
PIL:使用Python自带图像处理库读取出来的图片格式numpy:使用Python-opencv库读取出来的图片格式tensor:pytorch中训练时所采取的向量格式 import torch i ...
- tensorflow二进制文件读取与tfrecords文件读取
1.知识点 """ TFRecords介绍: TFRecords是Tensorflow设计的一种内置文件格式,是一种二进制文件,它能更好的利用内存, 更方便复制和移动,为 ...
随机推荐
- ios点击输入框,界面放大解决方案
当我们编写的input宽度没有占满屏幕宽度,而且又没有申明meta,就会出现点击输入框,界面放大这个问题. 下面我直接给出解决方案: <meta name="viewport" ...
- js怎么能取得多选下拉框选中的多个值?
方法:获取多选下拉框对象数组→循环判断option选项的selected属性(true为选中,false为未选中)→使用value属性取出选中项的值.实例演示如下: 1.HTML结构 1 2 3 4 ...
- Django--CRM--QueryDict, 模糊搜索, 加行级锁
一 . QueryDict的修改 # QueryDict正常是不允许修改的,要想往里面添加内容,需要另mutable=True dic = request.GET print(dic) # <Q ...
- 当应用程序不是以UserInteractive 模式运行时显示模式对话框或窗体
最近在做一个WCF程序的时候,WCF程序老是弹出一个错误“当应用程序不是以UserInteractive 模式运行时显示模式对话框或窗体是无效操作.请指定ServiceNotification或Def ...
- 使用synchronized 实现ReentrantLock(美团面试题目)
刚看到这个题目的时候无从下手,因为觉得synchronized和lock在加锁的方式上有很大不同,比如,看看正常情况下synchronized时如何加锁的. 方式一: public synchroni ...
- 莫烦scikit-learn学习自修第三天【通用训练模型】
1. 代码实战 #!/usr/bin/env python #!_*_ coding:UTF-8 _*_ import numpy as np from sklearn import datasets ...
- python数据结构与算法第三天【时间复杂度计算方法】
最优时间复杂度(不可靠) 最坏时间复杂度(保证) 平均时间复杂度(平均状况) 不同语句的时间复杂度: (1)顺序语句:使用加法 (2)循环语句:使用乘法 (3)分支语句:使用坏时间复杂度 例如:如下代 ...
- IBM rational rose画时序图软件破解安装
上边这个链接是开头的安装步骤,照着链接中的步骤安装完之后,接下来看下边. 1.然后安装完成打开软件“IBM Rational License Keyadministrator”.出现下图:选中第二项“ ...
- sql 保留2位小数/换行
2.176544保留两位小数 1.select Convert(decimal(18,2),2.176544) 结果:2.18 2.select Round(2.176544,2) 结果:2.180 ...
- 存储过程中的 SET XACT_ABORT ON 和事务
在存储过程中写SET XACT_ABORT ON 有什么用? SET XACT_ABORT ON是设置事务回滚的!当为ON时,如果你存储中的某个地方出了问题,整个事务中的语句都会回滚为OFF时,只回滚 ...