临时处理一个Numpy的二进制文件,分析知道里面是dict类型,简单小记一下,如果Numpy和Python基础不熟悉可以看我之前写的文章

In [1]:
%%time

import numpy as np
 
Wall time: 135 ms
In [2]:
%%time

import pandas as pd
 
Wall time: 351 ms
In [3]:
%%time

df = pd.DataFrame(np.load("data.npy")) # 通过narry创建DataFrame
 
Wall time: 910 ms
In [4]:
%%time

df.head(10) # 快速预览前10行
 
Wall time: 1 ms
Out[4]:
 

  0
0 {'email': 'liurh@csdn.net', 'pwd': '9755DD0556...
1 {'email': 'fw19@sina.com', 'pwd': '6BB518D1A42...
2 {'email': 'whcheng@126.com', 'pwd': '0079ABBA6...
3 {'email': 'zh4ang@163.com', 'pwd': 'E23E561F02...
4 {'email': 'johnzhou8888@yahoo.com.cn', 'pwd': ...
5 {'email': 'zaza902@hotmail.com', 'pwd': '9B084...
6 {'email': 'yuping_zhong@163.com', 'pwd': '7D07...
7 {'email': 'annnntning@sina.com', 'pwd': '448A2...
8 {'email': 'sunnydinasun@sohu.com', 'pwd': 'DBF...
9 {'email': 'ysmrose@sohu.com', 'pwd': '22DDD26D...
In [5]:
%%time

# 提取email列
df['Email'] = df[0].map(lambda x : dict(x)["email"])
# 提取pwd列
df['MD5'] = df[0].map(lambda x : dict(x)["pwd"] )
# 删除无用列
del df[0]
 
Wall time: 1.05 s
In [6]:
%%time

df.size # 查看总共多少数据
 
Wall time: 0 ns
Out[6]:
2097148
In [7]:
%%time

df.shape
 
Wall time: 0 ns
Out[7]:
(1048574, 2)
In [8]:
%%time

df.head(10)
 
Wall time: 0 ns
Out[8]:
 

  Email MD5
0 liurh@csdn.net 9755DD05564EAD9EADCACE40B5A02711
1 fw19@sina.com 6BB518D1A42F22DA5CA62D5EE41C5D4F
2 whcheng@126.com 0079ABBA66856DAFDF2B9A6E0DB23A09
3 zh4ang@163.com E23E561F0202ACECA30B8F07A48AB8E9
4 johnzhou8888@yahoo.com.cn 0EB1A2DB91A2BF3FB6275DE659A25805
5 zaza902@hotmail.com 9B08473C992C07E98389ED1C280A634A
6 yuping_zhong@163.com 7D0710824FF191F6A0086A7E3891641E
7 annnntning@sina.com 448A2BCEE09A3B14C22DC000351216B7
8 sunnydinasun@sohu.com DBFBA02E366BAB58DF605D6475189A51
9 ysmrose@sohu.com 22DDD26D62AF8B1C4A216BE18FDFF5B2
In [9]:
%%time

df.T.to_json("user.json") # 重新保存为Json(转置只是为了存储成我们常见的json格式)
 
Wall time: 2.85 s

关于怎么知道是dict类型的扩展:可以加载看看:np.load("data.npy")

临时处理小记:把Numpy的narray二进制文件转换成json文件的更多相关文章

  1. 将Model对象转换成json文本或者json二进制文件

    将Model对象转换成json文本或者json二进制文件 https://github.com/casatwy/AnyJson 注意:经过测试,不能够直接处理字典或者数组 主要源码的注释 AJTran ...

  2. PHP取二进制文件头快速判断文件类型

    <?php /*文件扩展名说明 *7173 gif *255216 jpg *13780 png *6677 bmp *239187 txt,aspx,asp,sql *208207 xls.d ...

  3. numpy中三维数组转变成二维数组

    numpy中reshape()函数对三维数组进行转换成二维数组,见下面例子: >>>a=np.reshape(np.arange(18),(3,3,2)) >>> ...

  4. 【Python秘籍】numpy到tensor的转换

    在用pytorch训练神经网络时,我们常常需要在numpy的数组变量类型与pytorch中的tensor类型进行转换,今天给大家介绍一种它们之间互相转换的方法. 一.numpy到tensor 首先我们 ...

  5. PHP取二进制文件头快速判断文件类型的实现代码

    通过读取文件头信息来识别文件的真实类型. 一般我们都是按照文件扩展名来判断文件类型,但是这个很不靠谱,轻易就通过修改扩展名来躲避了,一般必须要读取文件信息来识别,PHP扩展中提供了类似 exif_im ...

  6. 从零开始学C++之IO流类库(三):文件的读写、二进制文件的读写、文件随机读写

    一.文件的读写 如前面所提,流的读写主要有<<, >>, get, put, read, write 等操作,ofstream 继承自ostream, ifstream 继承自 ...

  7. JAVA核心技术I---JAVA基础知识(二进制文件读写和zip文件读写)

    一:二进制文件读写 (一)写文件 –先创建文件,写入数据,关闭文件 –FileOutputStream, BufferedOutputStream,DataOutputStream –DataOutp ...

  8. pytorch_13_pytorch 中tensor,numpy,PIL的转换

    PIL:使用Python自带图像处理库读取出来的图片格式numpy:使用Python-opencv库读取出来的图片格式tensor:pytorch中训练时所采取的向量格式 import torch i ...

  9. tensorflow二进制文件读取与tfrecords文件读取

    1.知识点 """ TFRecords介绍: TFRecords是Tensorflow设计的一种内置文件格式,是一种二进制文件,它能更好的利用内存, 更方便复制和移动,为 ...

随机推荐

  1. js压箱底的宝贝

    框架的确好用, 不过他们也隐藏了JavaScript中丑陋的细节和DOM的运作机制. 如果你的目标是敢于自称"我懂JavaScript", 那么花时间学习框架无异于南辕北辙. 下面 ...

  2. js this的含义以及讲解

    this关键字是一个非常重要的语法点.毫不夸张地说,不理解它的含义,大部分开发任务都无法完成. 首先,this总是返回一个对象,简单说,就是返回属性或方法“当前”所在的对象. 下面来两个例子来让大家更 ...

  3. python爬虫之redis环境简单部署

    Redis 简介 Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库. Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久 ...

  4. dom 事件主要内容

    一 . onclick(单击) 原图 单击btn1 在点击btn2 二 . onfocus 和 onblur onfocus(聚焦, 鼠标点击输入框) onblur(模糊, 鼠标点击输入框外的地方) ...

  5. com.alibaba的fastjson简介

    fastjson简介 Fastjson是一个Java语言编写的高性能功能完善的JSON库.它采用一种“假定有序快速匹配”的算法,把JSON Parse的性能提升到极致,是目前Java语言中最快的JSO ...

  6. sql left join多表

    表A---------------------------------关联第一张表B-----------------------关联第二张表c select * fomr 表名A left join ...

  7. Xtoken

    “我希望有一种模式,利用群体的智慧让最好的想法总能够脱颖而出”. 博弈模型 背景 本文为NEO社区理事会秘书长陶荣祺在全球创业周区块链创新与发展论坛上的主题演讲<Xtoken代观社区驱动群体智慧 ...

  8. Tyche 2317 Color

    题目大意:有三个人alice,bob,yazid,三种颜色red,blue,green,每个人对应一种颜色. [name] is [color]. Yazid会做以下操作: 1 将三个句子连在一起 2 ...

  9. git 解决二进制文件冲突

    1.冲突的产生 当我们向远程git服务器提交某一个文件的修改时,恰巧这个文件相同的修改地方其他人也有修改,并且已经提交到服务器,这时冲突就产生了. 通常,当我们合并两个相同的地方都有修改的分支时,都会 ...

  10. P1308 统计单词数

    P1308 题目描述 一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数. 现在,请你编程实现这一功能,具体要求是:给定一个单词,请 ...