【记录】Python3|json文件处理相关的操作
json分割
主要使用json.loads、json.dump。
import json
# 把path文件分割成num个,并存入path2中
# path: 文件路径 path2 : 目标路径 num: 结果的数量
def jsonSplit(path, path2, num):
count = 0
for count, line in enumerate(open(path, 'rU', encoding='utf-8')):
pass
count += 1
nums = [(count * i // num) for i in range(1, num + 1)]
current_lines = 0
data_list = []
# 打开大文件,拆成小文件
with open(path, 'r', encoding='utf-8') as file:
i = 0
for line in file:
# line = line.replace('},','}')
data_list.append(json.loads(line))
current_lines += 1
if current_lines in nums:
# print(current_lines)
# 保存文件
file_name = path2 + str(current_lines) + '.json'
with open(file_name, 'w', encoding='utf-8') as f:
# print(len(data_list))
data = json.dumps(data_list)
f.write(data)
data_list = []
data = []
json.gz 转换成 jsonl.gz
主要使用gzip、jsonlines。
import os
import gzip
import jsonlines
import json
# 把path对应的json.gz文件,转化成jsonlines文件,再压缩成jsonl.gz文件
# path:数据集的路径 path2:结果路径
def jsonTojsonlGZ(path, path2):
with gzip.open(path, 'rt') as pf:
# 加载json
data = pf.read()
all_data = json.loads(data)
# 打开jsonl并写入
filename = path2 + '.jsonl'
with jsonlines.open(filename, mode='a') as writer:
for item in all_data:
writer.write(item)
# 打开jsonl.gz并写入jsonl文件的内容
f_gzip = gzip.GzipFile(filename + '.gz', "wb")
with open(filename, 'rb') as f_in:
f_gzip.write(f_in.read())
# 删除jsonl文件
os.remove(filename)
json格式化显示
import json
dic = {'a': 1, 'b': 2, 'c': 3}
js = json.dumps(dic)
print(js)
遍历目录及子目录,对某种类型的文件内容查找是否有指定字符串
# coding:utf-8
import re
import os
import gzip
import sys
file_behind=sys.argv[1]
dirname=sys.argv[2]
tofind=sys.argv[3]
def searchInDir(dirname):
for root,dirs,files in os.walk(dirname):
for dir in dirs:
searchInDir(dir)
for filename in files:
if(os.path.splitext(filename)[1]!=file_behind):
continue
file=os.path.join(root,filename)
if(file_behind==".gz"):
with gzip.open(file,"rt",encoding='utf-8') as f:
content = f.read()
print(file, re.findall(tofind,content))
else:
with open(file,"rt",encoding='utf-8') as f:
content = f.read()
print(file, re.findall(tofind,content))
searchInDir(dirname)
效果:

【记录】Python3|json文件处理相关的操作的更多相关文章
- 访问本地json文件因跨域导致的问题
我使用jquery的getJSON的方法获取本地的json文件,并进行操作,获取json 数据代码如下: $.getJSON("invite_panel.json",functio ...
- java如何读写json文件
在实际项目开发中,有时会遇到一些全局的配置缓存,最好的做法是配置redis数据库作为数据缓存,而当未有配置redis服务器时,读取静态资源文件(如xml.json等)也是一种实现方式,但是这有一个弊端 ...
- Python3之json文件操作
json函数 使用json函数之前,首先需要导入json模块,import json 1).json.dumps()函数 该函数是将 Python 对象编码成 JSON 字符串,例如: import ...
- 重新想象 Windows 8 Store Apps (70) - 其它: 文件压缩和解压缩, 与 Windows 商店相关的操作, app 与 web, 几个 Core 的应用, 页面的生命周期和程序的生命周期
[源码下载] 重新想象 Windows 8 Store Apps (70) - 其它: 文件压缩和解压缩, 与 Windows 商店相关的操作, app 与 web, 几个 Core 的应用, 页面的 ...
- linux 操作 json文件
Linux 下 操作 json 文件神器 jq. jq yum install jq -y 查看一个 file.json 文件 # jq . file.json JSON (JavaScript O ...
- Oracle 参数文件及相关操作介绍
Oracle 参数文件及相关操作介绍 by:授客 QQ:1033553122 1.服务器参数文件 服务器参数文件是一个二进制文件,作为初始化参数的存储仓库.实例运行时,可用ALTER SYSTEM来改 ...
- mysql 5.7 laravel json类型数据相关操作
2018年10月16日18:14:21 官方文档中文翻译版 原文:https://dev.mysql.com/doc/refman/5.7/en/json.html 最后有部分实例和一个小总结 11. ...
- Python3编写网络爬虫09-数据存储方式二-JSON文件存储
2.JSON文件存储 全称为JavaScript Object Notation 通过对象和数组的组合来表示数据,构造简洁且结构化程度非常高.是一种轻量级的数据交换格式 2.1 对象和数组 在Java ...
- 关于C#资源文件的相关操作
关于资源文件的相关操作. //1.比较常见的有获取资源文件对应的文件流,然后转换到相对应的文件 //比较典型的做法是通过代码程序集加载指定资源 //如下通过Assembly的静态方法GetExecut ...
- java文件夹相关操作 演示样例代码
java文件夹相关操作 演示样例代码 package org.rui.io; import java.io.File; import java.io.FilenameFilter; import ja ...
随机推荐
- C# 深度学习:对抗生成网络(GAN)训练头像生成模型
通过生成对抗网络(GAN)训练和生成头像 目录 通过生成对抗网络(GAN)训练和生成头像 说明 简介 什么是 GAN 什么是 DCGAN 参数说明 数据集处理 权重初始化 生成器 判别器 损失函数和优 ...
- C++ 使用MIDI库演奏《晴天》
那些在MIDI库里徘徊的十六分音符 终究没能拼成告白的主歌 我把周杰伦的<晴天>写成C++的类在每个midiEvent里埋藏故事的小黄花 调试器的断点比初恋更漫长而青春不过是一串未 ...
- DeepSeek企业级部署实战指南:从服务器选型到Dify私有化落地
对于个人开发者或尝鲜者而言,本地想要部署 DeepSeek 有很多种方案,但是一旦涉及到企业级部署,则步骤将会繁琐很多. 比如我们的第一步就需要先根据实际业务场景评估出我们到底需要部署什么规格的模型, ...
- FANUC机器人M-16iB伺服马达维修参考措施
随着工业自动化技术的不断发展,机器人已经广泛应用于各个领域.其中,发那科机器人以其卓越的性能和稳定性,成为了许多企业的首选.然而,伺服电机作为机器人核心部件之一,FANUC机械手维修保养至关重要. 一 ...
- QT5笔记: 16. 时间和定时器的常用功能
例子 #ifndef WIDGET_H #define WIDGET_H #include <QTime> #include <QTimer> #include <QWi ...
- 【BUUCTF】Easy Java
[BUUCTF]Easy Java 题目来源 收录于:BUUCTF RoarCTF 2019 题目描述 经典登录框 不过SQL注入.目录扫描都没有发现 题解 点击页面的 help 跳转到/Downlo ...
- Windows 提权-RunAs
本文通过 Google 翻译 RunAs – Windows Privilege Escalation 这篇文章所产生,本人仅是对机器翻译中部分表达别扭的字词进行了校正及个别注释补充. 导航 0 前言 ...
- [第四章]ABAQUS CM插件中文手册
ABAQUS Composite Modeler User Manual(zh-CN) Dassault Systèmes, 2018 注: 源文档的交叉引用链接,本文无效 有些语句英文表达更易理解, ...
- 【由技及道】镜像星门开启:Harbor镜像推送的量子跃迁艺术【人工智障AI2077的开发日志010】
![量子镜像跃迁示意图]( 摘要:当构建产物需要穿越多维宇宙时,当Docker镜像要同时存在于72个平行世界--这就是镜像推送的量子艺术.本文记录一个未来AI如何通过Harbor建立镜像星门,让每个构 ...
- 解决macOS无法验证“xxx”的开发者。你确定要打开它吗?
前言 当 macOS 无法验证开发者时,有两种方式解决,可以通过以下步骤来打开 xxx 系统偏好设置: 打开"系统偏好设置". 选择"安全性与隐私". 在&qu ...