1 txt文件存储

  正常调用文件python文件操作

  https://www.cnblogs.com/x2x3/p/9979919.html

2 json文件存储

  

在JavaScript语言中,一切都是对象。因此,任何支持的类型都可以通过JSON来表示,例如字符串、数字、对象、数组等,但是对象和数组是比较特殊且常用的两种类型,下面简要介绍一下它们。

  • 对象:它在JavaScript中是使用花括号{}包裹起来的内容,数据结构为{key1:value1, key2:value2, ...}的键值对结构。在面向对象的语言中,key为对象的属性,value为对应的值。键名可以使用整数和字符串来表示。值的类型可以是任意类型。
  • 数组:数组在JavaScript中是方括号[]包裹起来的内容,数据结构为["java", "javascript", "vb", ...]的索引结构。在JavaScript中,数组是一种比较特殊的数据类型,它也可以像对象那样使用键值对,但还是索引用得多。同样,值的类型可以是任意类型。

所以,一个JSON对象可以写为如下形式:

  [{

"name": "Bob",

"gender": "male",

"birthday": "1992-10-18"

}, {

"name": "Selina",

"gender": "female",

"birthday": "1995-10-18"

}]

2
3
4
5
6
7
8
9
[{
    "name":"Bob",
    "gender":"male",
    "birthday":"1992-10-18"
},{
     "name":"Selina",
    "gender":"female",
    "birthday":"1995-10-18"
}]

Python为我们提供了简单易用的库来实现JSON文件的读写操作,我们可以调用库的loads()方法将JSON文本字符串转为JSON对象,可以通过dumps()方法将JSON对象转为文本字符串

值得注意的是,JSON的数据需要用双引号来包围,不能使用单引号。例如,若使用如下形式表示,则会出现错误

json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 (char 8)

另外,如果JSON中包含中文字符,会怎么样呢?例如,我们将之前的JSON的部分值改为中文,再用之前的方法写入到文本:

import json

data = [{
'name': '王伟',
'gender': '男',
'birthday': '1992-10-18'
}]
with open('data.json', 'w') as file:
file.write(json.dumps(data, indent=2))

json.dumps('中国你好')

'中国你好' 是ascii 字符码,而不是真正的中文。

这是因为json.dumps 序列化时对中文默认使用的ascii编码

想输出真正的中文需要指定ensure_ascii=False

json.dumps中可以放置json字符串,但是也必须指定ensure_ascii=False

---------------------
作者:蜡笔小心丶
来源:CSDN
原文:https://blog.csdn.net/u011615787/article/details/73089523/
版权声明:本文为博主原创文章,转载请附上博文链接!

# -*- coding:utf-8 -*-
import json str = '''
[{
"name": "木头",
"gender": "马尾",
"birthday": "1992-10-18"
}, {
"name": "Selina",
"gender": "female",
"birthday": "1995-10-18"
}]
'''
print(type(str))
data=json.loads(str)
print(type(data))
# 另外,如果想保存JSON的格式,可以再加一个参数indent,代表缩进字符个数
str=json.dumps(data,indent=2,ensure_ascii=False)
print(type(str))
with open('file.txt','w+',encoding='utf-8') as f:
f.write(str)
f.flush()
f.seek(0)
data=f.read()
print(json.loads(data))

请千万注意JSON字符串的表示需要用双引号,否则loads()方法会解析失败。

可以看到,中文字符都变成了Unicode字符,这并不是我们想要的结果。

被写入的文件 中文显示为Unicode字符

为了输出中文,还需要指定参数ensure_asciiFalse,另外还要规定文件输出的编码

可以发现,这样就可以输出JSON为中文了

3 csv文件存储

  CSV,全称为Comma-Separated Values,中文可以叫作逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔。每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。不过所有记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式。它比Excel文件更加简介,XLS文本是电子表格,它包含了文本、数值、公式和格式等内容,而CSV中不包含这些内容,就是特定字符分隔的纯文本,结构简单清晰。所以,有时候用CSV来保存数据是比较方便的

fieldnames表示,然后将其传给DictWriter来初始化一个字典写入对象,接着可以调用writeheader()方法先写入头信息,然后再调用writerow()方法传入相应字典即可

#csv_write_test
import csv
with open('data.csv','w') as csvfile:
writer=csv.writer(csvfile)
writer.writerow(['id', 'name', 'age']) #写入单行
writer.writerow(['','walker',''])
writer.writerows([['','walker',''],['','walker','']]) #写入多行,参数为列表中包含列表 with open('data.csv','w') as csvfile:
writer=csv.writer(csvfile,delimiter=' ') #delimiter 指定分隔符
writer.writerow(['id', 'name', 'age'])
writer.writerow(['','walker','']) #json 格式的csv存储
with open('json.csv','w') as csvfile:
#用fieldnames表示,然后将其传给DictWriter来初始化一个字典写入对象,
# 接着可以调用writeheader()方法先写入头信息,然后再调用writerow()方法传入相应字典即可。
# 最终写入的结果是完全相同的
filenames=['id', 'name', 'age']
writer=csv.DictWriter(csvfile,fieldnames=filenames,delimiter=',')
#json依然可以传入分隔符;也可以通过writerows写入多行
writer.writeheader()
writer.writerow({'id': '', 'name': 'Durant', 'age': 22}) #读取csv文件
with open('json.csv', 'r', encoding='utf-8') as csvfile:
#这里我们构造的是Reader对象,通过遍历输出了每行的内容,每一行都是一个列表形式。
# 注意,如果CSV文件中包含中文的话,还需要指定文件编码
reader = csv.reader(csvfile)
for row in reader:
print(row)
#另一种读取方法
import pandas as pd
df = pd.read_csv('data.csv')
print(df)

mysql存储

# -*- coding:utf-8 -*-
import pymysql
db = pymysql.connect(host='localhost',user='root', password='', port=3306)
cursor = db.cursor()
#在很多情况下,我们要达到的效果是插入方法无需改动,做成一个通用方法,只需要传入一个动态变化的字典就好了。比如,构造这样一个字典
#然后SQL语句会根据字典动态构造,元组也动态构造,这样才能实现通用的插入方法。所以,这里我们需要改写一下插入方法:
data = {
'id': '',
'name': 'Bob',
'age': 20
}
table = 'students'
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))
sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=table, keys=keys, values=values)
try:
if cursor.execute(sql, tuple(data.values())):
print('Successful')
db.commit()
except:
print('Failed')
db.rollback()
db.close()
#这里我们传入的数据是字典,并将其定义为data变量。表名也定义成变量table。接下来,就需要构造一个动态的SQL语句了。 # 首先,需要构造插入的字段id、name和age。这里只需要将data的键名拿过来,然后用逗号分隔即可。+所以
# ', '.join(data.keys())的结果就是id, name, age,然后需要构造多个%s当作占位符,有几个字段构造几个即可。比如,
# 这里有三个字段,就需要构造%s, %s, %s。这里首先定义了长度为1的数组['%s'],然后用乘法将其扩充为['%s', '%s', '%s'],
# 再调用join()方法,最终变
# INSERT INTO students(id, name, age) VALUES (%s, %s, %s)

三 非关系型数据库mongodb

NoSQL,全称Not Only SQL,意为不仅仅是SQL,泛指非关系型数据库。NoSQL是基于键值对的,而且不需要经过SQL层的解析,数据之间没有耦合性,性能非常高

对于爬虫的数据存储来说,一条数据可能存在某些字段提取失败而缺失的情况,而且数据可能随时调整。另外,数据之间还存在嵌套关系。如果使用关系型数据库存储,一是需要提前建表,二是如果存在数据嵌套关系的话,需要进行序列化操作才可以存储,这非常不方便。如果用了非关系型数据库,就可以避免一些麻烦,更简单高效。

  MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象

连接mongodb

连接MongoDB时,我们需要使用PyMongo库里面的MongoClient。一般来说,传入MongoDB的IP及端口即可,其中第一个参数为地址host,第二个参数为端口port(如果不给它传递参数,默认是27017):

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)

这样就可以创建MongoDB的连接对象了。

另外,MongoClient的第一个参数host还可以直接传入MongoDB的连接字符串,它以mongodb开头,例如:

client = MongoClient('mongodb://localhost:27017/')

指定数据库

MongoDB中可以建立多个数据库,接下来我们需要指定操作哪个数据库。这里我们以test数据库为例来说明,下一步需要在程序中指定要使用的数据库

db = client.test

4. 指定集合

MongoDB的每个数据库又包含许多集合(collection),它们类似于关系型数据库中的表。

下一步需要指定要操作的集合,这里指定一个集合名称为students。与指定数据库类似,指定集合也有两种方式

  collection = db.students

  collection = db['students']

5. 插入数据

在MongoDB中,每条数据其实都有一个_id属性来唯一标识。如果没有显式指明该属性,MongoDB会自动产生一个ObjectId类型的_id属性。insert()方法会在执行后返回_id

实际上,在PyMongo 3.x版本中,官方已经不推荐使用insert()方法了。当然,继续使用也没有什么问题。官方推荐使用insert_one()insert_many()方法来分别插入单条记录和多条记录

student = {

    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}
 
result = collection.insert_one(student)
print(result)
print(result.inserted_id)

insert()方法不同,这次返回的是InsertOneResult对象,我们可以调用其inserted_id属性获取_id

对于insert_many()方法,我们可以将数据以列表形式传递

insert()方法不同,这次返回的是InsertOneResult对象,我们可以调用其inserted_id属性获取_id

对于insert_many()方法,我们可以将数据以列表形式传递,示例如下

student1 = {
'id': '20170101',
'name': 'Jordan',
'age': 20,
'gender': 'male'
}

student2 = {
'id': '20170202',
'name': 'Mike',
'age': 21,
'gender': 'male'
}

result = collection.insert_many([student1, student2])
print(result)
print(result.inserted_ids)

该方法返回的类型是InsertManyResult,调用inserted_ids属性可以获取插入数据的_id列表

6. 查询

find_one()find()方法进行查询,其中find_one()查询得到的是单个结果,find()则返回一个生成器对象

result = collection.find_one({'name': 'Mike'})
print(type(result))
print(result)

对于多条数据的查询,我们可以使用find()方法

results = collection.find({'age': 20})

print(results)
for result in results:
    print(result)

表5-3 比较符号

符号

含义

示例

$lt

小于

{'age': {'$lt': 20}}

$gt

大于

{'age': {'$gt': 20}}

$lte

小于等于

{'age': {'$lte': 20}}

$gte

大于等于

{'age': {'$gte': 20}}

$ne

不等于

{'age': {'$ne': 20}}

$in

在范围内

{'age': {'$in': [20, 23]}}

$nin

不在范围内

{'age': {'$nin': [20, 23]}}

更高级查询

表5-4 功能符号

符号

含义

示例

示例含义

$regex

匹配正则表达式

{'name': {'$regex': '^M.*'}}

name以M开头

$exists

属性是否存在

{'name': {'$exists': True}}

name属性存在

$type

类型判断

{'age': {'$type': 'int'}}

age的类型为int

$mod

数字模操作

{'age': {'$mod': [5, 0]}}

年龄模5余0

$text

文本查询

{'$text': {'$search': 'Mike'}}

text类型的属性中包含Mike字符串

$where

高级条件查询

{'$where': 'obj.fans_count == obj.follows_count'}

自身

7. 计数

要统计查询结果有多少条数据,可以调用count()方法

count = collection.find().count()
print(count)

 或者统计符合某个条件的数据:

count = collection.find({'age': 20}).count()
print(count)

8. 排序

排序时,直接调用sort()方法,并在其中传入排序的字段及升降序标志即可。示例如下:

11

 
 
1
2
results = collection.find().sort('name', pymongo.ASCENDING)
print([result['name'] for result in results])

运行结果如下:

 
 
1
['Harden', 'Jordan', 'Kevin', 'Mark', 'Mike']

这里我们调用pymongo.ASCENDING指定升序。如果要降序排列,可以传入pymongo.DESCENDING

 
 

11. 删除

删除操作比较简单,直接调用remove()方法指定删除的条件即可,此时符合条件的所有数据均会被删

result = collection.remove({'name': 'Kevin'})
print(result)

另外,这里依然存在两个新的推荐方法——delete_one()delete_many()

result = collection.delete_one({'name': 'Kevin'})
print(result)
print(result.deleted_count)
result = collection.delete_many({'age': {'$lt': 25}})
print(result.deleted_count)

delete_one()即删除第一条符合条件的数据,delete_many()即删除所有符合条件的数据。它们的返回结果都是DeleteResult类型,可以调用deleted_count属性获取删除的数据条数

Redis存储

Redis是一个基于内存的高效的键值型非关系型数据库,存取效率极高,而且支持多种存储数据结构,使用也非常简单

在开始之前,请确保已经安装好了Redis及RedisPy库。如果要做数据导入/导出操作的话,还需要安装RedisDump。如果没有安装

https://cuiqingcai.com/5587.html

python5数据存储的更多相关文章

  1. Kooboo CMS技术文档之三:切换数据存储方式

    切换数据存储方式包括以下几种: 将文本内容存储在SqlServer.MySQL.MongoDB等数据库中 将站点配置信息存储在数据库中 将后台用户信息存储在数据库中 将会员信息存储在数据库中 将图片. ...

  2. Android之数据存储的五种方法

    1.Android数据存储的五种方法 (1)SharedPreferences数据存储 详情介绍:http://www.cnblogs.com/zhangmiao14/p/6201900.html 优 ...

  3. Android之网络数据存储

    一.网络保存数据介绍 可以使用网络来保存数据,在需要的时候从网络上获取数据,进而显示在App中. 用网络保存数据的方法有很多种,对于不同的网络数据采用不同的上传与获取方法. 本文利用LeanCloud ...

  4. Android之文件数据存储

    一.文件保存数据介绍 Activity提供了openFileOutput()方法可以用于把数据输出到文件中,具体的实现过程与在J2SE环境中保存数据到文件中是一样的.文件可用来存放大量数据,如文本.图 ...

  5. Android之SharedPreferences数据存储

    一.SharedPreferences保存数据介绍 如果有想要保存的相对较小键值集合,应使用SharedPreferences API.SharedPreferences对象指向包含键值对的文件并提供 ...

  6. Atitit 数据存储视图的最佳实际best practice attilax总结

    Atitit 数据存储视图的最佳实际best practice attilax总结 1.1. 视图优点:可读性的提升1 1.2. 结论  本着可读性优先于性能的原则,面向人类编程优先于面向机器编程,应 ...

  7. Android数据存储之SQLCipher数据库加密

    前言: 最近研究了Android Sqlite数据库(文章地址:Android数据存储之Sqlite的介绍及使用)以及ContentProvider程序间数据共享(Android探索之ContentP ...

  8. Android数据存储之GreenDao 3.0 详解

    前言: 今天一大早收到GreenDao 3.0 正式发布的消息,自从2014年接触GreenDao至今,项目中一直使用GreenDao框架处理数据库操作,本人使用数据库路线 Sqlite----> ...

  9. Vertica增加一个数据存储的目录

    Vertica增加一个数据存储的目录 操作语法为: ADD_LOCATION ( 'path' , [ 'node' , 'usage', 'location_label' ] ) 各节点添加目录,并 ...

随机推荐

  1. ltp-ddt nand_mtd_dd_rw_jffs2

    error: 由于在uboot下没有发现坏块,将核心代码剥离出来调试: flash_eraseall -q -j /dev/mtd1mkdir -p /mnt/partition_nand_1419m ...

  2. django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.3 or newer is required; you have 0.7.11

    搭建Django2.0+Python3+MySQL5时同步数据库时报错:django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.3 o ...

  3. java生成快递单并调用打印机打印

    生成快递单过程中需要生成条形码,生成条形码可参考:https://www.cnblogs.com/linbky/p/12091248.html 下面这段代码生成的快递单是完全符合京东快递的10 x 1 ...

  4. c++ 预处理指令#define, #endif...

    常见的预处理指令有: # 空指令,无任何效果 # include 包含一个源代码文件 #define 定义宏 #undef 取消已定义的宏 #if 如果给定条件为真,则编译下面代码 #ifdef 如果 ...

  5. Struts2基础-4-2 -struts拦截器实现权限控制案例+ 模型驱动处理请求参数 + Action方法动态调用

    1.新建项目,添加jar包到WEB-INF目录下的lib文件夹,并添加到builde path里面 整体目录结构如下 2.新建web.xml,添加struts2核心过滤器,和默认首页 <?xml ...

  6. npm和webpack安装以及相关信息

    一.npm初始化 在项目文件夹下执行npm init,根据提示回车或者填写信息.结果是生成packge.json文件. 根据json文件npm install会安装依赖,项目会看到有一个node_mo ...

  7. jquery设置、判断、获取input单选标签选中状态

    1.设置某项单选input为选中状态: $("input[type='radio']").eq(1).attr('checked',true); ②也可设其属性checked为'c ...

  8. LOJ 3090 「BJOI2019」勘破神机——斯特林数+递推式求通项+扩域

    题目:https://loj.ac/problem/3090 题解:https://www.luogu.org/blog/rqy/solution-p5320 1.用斯特林数把下降幂化为普通的幂次求和 ...

  9. pug学习

    pug学习 jade(pug)由于商标版权问题,jade已经改名为Pug.Pug 是一个高性能的模板引擎,它是用 JavaScript 实现的,并且可以供 Node 使用,当然还支持其他语言. 文件后 ...

  10. outlook使用inline style回复邮件

    Reply with inline comments within the original message text When you reply to email messages in Outl ...