【记录】Python3|json文件处理相关的操作
json分割
主要使用json.loads、json.dump。
import json
# 把path文件分割成num个,并存入path2中
# path: 文件路径 path2 : 目标路径 num: 结果的数量
def jsonSplit(path, path2, num):
count = 0
for count, line in enumerate(open(path, 'rU', encoding='utf-8')):
pass
count += 1
nums = [(count * i // num) for i in range(1, num + 1)]
current_lines = 0
data_list = []
# 打开大文件,拆成小文件
with open(path, 'r', encoding='utf-8') as file:
i = 0
for line in file:
# line = line.replace('},','}')
data_list.append(json.loads(line))
current_lines += 1
if current_lines in nums:
# print(current_lines)
# 保存文件
file_name = path2 + str(current_lines) + '.json'
with open(file_name, 'w', encoding='utf-8') as f:
# print(len(data_list))
data = json.dumps(data_list)
f.write(data)
data_list = []
data = []
json.gz 转换成 jsonl.gz
主要使用gzip、jsonlines。
import os
import gzip
import jsonlines
import json
# 把path对应的json.gz文件,转化成jsonlines文件,再压缩成jsonl.gz文件
# path:数据集的路径 path2:结果路径
def jsonTojsonlGZ(path, path2):
with gzip.open(path, 'rt') as pf:
# 加载json
data = pf.read()
all_data = json.loads(data)
# 打开jsonl并写入
filename = path2 + '.jsonl'
with jsonlines.open(filename, mode='a') as writer:
for item in all_data:
writer.write(item)
# 打开jsonl.gz并写入jsonl文件的内容
f_gzip = gzip.GzipFile(filename + '.gz', "wb")
with open(filename, 'rb') as f_in:
f_gzip.write(f_in.read())
# 删除jsonl文件
os.remove(filename)
json格式化显示
import json
dic = {'a': 1, 'b': 2, 'c': 3}
js = json.dumps(dic)
print(js)
遍历目录及子目录,对某种类型的文件内容查找是否有指定字符串
# coding:utf-8
import re
import os
import gzip
import sys
file_behind=sys.argv[1]
dirname=sys.argv[2]
tofind=sys.argv[3]
def searchInDir(dirname):
for root,dirs,files in os.walk(dirname):
for dir in dirs:
searchInDir(dir)
for filename in files:
if(os.path.splitext(filename)[1]!=file_behind):
continue
file=os.path.join(root,filename)
if(file_behind==".gz"):
with gzip.open(file,"rt",encoding='utf-8') as f:
content = f.read()
print(file, re.findall(tofind,content))
else:
with open(file,"rt",encoding='utf-8') as f:
content = f.read()
print(file, re.findall(tofind,content))
searchInDir(dirname)
效果:
【记录】Python3|json文件处理相关的操作的更多相关文章
- 访问本地json文件因跨域导致的问题
我使用jquery的getJSON的方法获取本地的json文件,并进行操作,获取json 数据代码如下: $.getJSON("invite_panel.json",functio ...
- java如何读写json文件
在实际项目开发中,有时会遇到一些全局的配置缓存,最好的做法是配置redis数据库作为数据缓存,而当未有配置redis服务器时,读取静态资源文件(如xml.json等)也是一种实现方式,但是这有一个弊端 ...
- Python3之json文件操作
json函数 使用json函数之前,首先需要导入json模块,import json 1).json.dumps()函数 该函数是将 Python 对象编码成 JSON 字符串,例如: import ...
- 重新想象 Windows 8 Store Apps (70) - 其它: 文件压缩和解压缩, 与 Windows 商店相关的操作, app 与 web, 几个 Core 的应用, 页面的生命周期和程序的生命周期
[源码下载] 重新想象 Windows 8 Store Apps (70) - 其它: 文件压缩和解压缩, 与 Windows 商店相关的操作, app 与 web, 几个 Core 的应用, 页面的 ...
- linux 操作 json文件
Linux 下 操作 json 文件神器 jq. jq yum install jq -y 查看一个 file.json 文件 # jq . file.json JSON (JavaScript O ...
- Oracle 参数文件及相关操作介绍
Oracle 参数文件及相关操作介绍 by:授客 QQ:1033553122 1.服务器参数文件 服务器参数文件是一个二进制文件,作为初始化参数的存储仓库.实例运行时,可用ALTER SYSTEM来改 ...
- mysql 5.7 laravel json类型数据相关操作
2018年10月16日18:14:21 官方文档中文翻译版 原文:https://dev.mysql.com/doc/refman/5.7/en/json.html 最后有部分实例和一个小总结 11. ...
- Python3编写网络爬虫09-数据存储方式二-JSON文件存储
2.JSON文件存储 全称为JavaScript Object Notation 通过对象和数组的组合来表示数据,构造简洁且结构化程度非常高.是一种轻量级的数据交换格式 2.1 对象和数组 在Java ...
- 关于C#资源文件的相关操作
关于资源文件的相关操作. //1.比较常见的有获取资源文件对应的文件流,然后转换到相对应的文件 //比较典型的做法是通过代码程序集加载指定资源 //如下通过Assembly的静态方法GetExecut ...
- java文件夹相关操作 演示样例代码
java文件夹相关操作 演示样例代码 package org.rui.io; import java.io.File; import java.io.FilenameFilter; import ja ...
随机推荐
- mysql之事务范例
package com.yeyue.lesson04; import com.yeyue.lesson02.JdbcUtils; import java.sql.Connection; import ...
- C# 手机号码隐藏中间四位
C# 隐藏手机号码中间四位数字 使用正则表达式隐藏手机号中间四位 if (!string.IsNullOrWhiteSpace(txtPhone.Text) && txtPhone.T ...
- ABB机器人IRB1600齿轮箱维修故障四大原因
一.ABB机器人IRB1600齿轮箱齿轮磨损 齿轮磨损是IRB1600齿轮箱常见的故障.长时间的高速运转和负载作用会导致齿轮表面磨损,进而产生噪音和振动.维修时,需要对磨损的齿轮进行更换,同时检查相邻 ...
- js提示Cannot read property ‘replace‘ of undefined
JS提示Cannot read property 'replace' of undefined 出现这个错误的原因一般是传的参数为null 在传参之前加个是否为null的判断可以解决异常.
- 动态代理到AOP
动态代理 代理(proxy)是一种设计模式,通过了目标对象的另外访问方法,即通过代理对象访问目标对象.动态代理是再程序运行时动态地生成一个代理类代替原本的类.该类会拦截对目标对象的方法调用 为什么使用 ...
- 给大模型添加联网功能的免费方案,以langchain为例
langchain介绍 LangChain 是一个用于开发由大型语言模型 (LLM) 驱动的应用程序的框架. 简单来说,它可以帮助你更轻松地构建利用 LLM(例如 OpenAI 的 GPT 模型.Go ...
- WPF调用FishSpeech的Demo
写了一个FishSpeech的教程:使用FishSpeech进行语音合成推理 - 天命小猪 - 博客园 研究了一下如何调用服务器API,朗读文本. 经过调研,决定使用NAudio库播放音频.遇到了一些 ...
- vue - [03] Hello World~
题记部分 (1)选择一个合适的目录,然后进入终端,执行:vue create account-manager (2)切换目录到account-manager,执行npm run serve启动开发服务 ...
- 【攻防世界】wife_wife
wife_wife 题目来源 攻防世界 NO.GFSJ1192 题解 本题没有源码,也没有提示,非常困难,在网上搜索此题可以看到源码.由于使用了assign(),因此存在Javascript原型链污染 ...
- SpringBoot整合Dubbox(无XML配置)
简介 Dubbox是当当网对阿里的Dubbo进行增强的一个分支.在使用springboot之后,我们发现很多配置并不一定要使用xml.这篇文章的目的是让你使用Dubbox时能像使用springboot ...