字符编码

计算机基础

应用程序任何操作硬件的请求都需要向操作系统发起系统调用，然后由操作系统去操作硬件

文本编辑器存取文件的原理

打开编辑器就打开启动了一个进程，是在内存中的，所以，用编辑器编写的内容也都是存放在内存中的，断电后数据丢失
想要永久保存，需要点击保存按钮：编辑器吧内存的数据刷到了硬盘上
在我们编写一个py文件（没有执行），跟编写其他文件没什么区别，都只是在编写一堆字符而已

python解释器执行py文件的原理

第一阶段：Python解释器启动，此时就相当于启动了一个文本编辑器
第二阶段：Python解释器相当于文本编辑器，去打开test.py文件，从硬盘上将test.py的文件内容读入到内存中(小复习：pyhon的解释性，决定了解释器只关心文件内容，不关心文件后缀名)。
第三阶段：Python解释器解释执行刚刚加载到内存中test.py的代码( ps：在该阶段，即真正执行代码时，才会识别Python的语法，执行文件内代码，当执行到name="egon"时,会开辟内存空间存放字符串"egon")。

python解释器与文本编辑的异同

相同点：Python解释器是解释执行文件内容的，因而Python解释器具备读py文件的功能，这一点与文本编辑器一样。
不同点：文本编辑器将文件内容读入内存后，是为了显示或者编辑，根本不去理会Python的语法，而Python解释器将文件内容读入内存后，可不是为了给你瞅一眼Python代码写的啥，而是为了执行Python代码、会识别Python语法。

字符编码介绍

计算机想要读懂人类的字符就要通过字符编码，因为计算机只认识0和1。字符编码的的编码过程就是字符->翻译过程->数字

字符编码的分类

utf-8(未来趋势)

gbk(中国)

unicode(万能识别)

shift_jis(日本)

euc-kr(韩国)

ascii(美国)

乱码分析

首先明确概念

文件从内存刷到硬盘的操作简称存文件
文件从硬盘读到内存的操作简称读文件

乱码的两种情况：

乱码一：存文件时就已经乱码

存文件时，由于文件内有各个国家的文字，我们单以shiftjis去存，

本质上其他国家的文字由于在shiftjis中没有找到对应关系而导致存储失败。但当我们硬要存的时候，编辑并不会报错（难道你的编码错误，编辑器这个软件就跟着崩溃了吗？？？），但毫无疑问，不能存而硬存，肯定是乱存了，即存文件阶段就已经发生乱码，而当我们用shiftjis打开文件时，日文可以正常显示，而中文则乱码了。

乱码二：存文件时不乱码而读文件时乱码

存文件时用utf-8编码，保证兼容万国，不会乱码，而读文件时选择了错误的解码方式，比如gbk，则在读阶段发生乱码，读阶段发生乱码是可以解决的，选对正确的解码方式就ok了。

总结

保证不乱码的核心法则就是，字符按照什么标准而编码的，就要按照什么标准解码，此处的标准指的就是字符编码。
在内存中写的所有字符，一视同仁，都是Unicode编码，比如我们打开编辑器，输入一个“你”，我们并不能说“你”就是一个汉字，此时它仅仅只是一个符号，该符号可能很多国家都在使用，根据我们使用的输入法不同这个字的样式可能也不太一样。只有在我们往硬盘保存或者基于网络传输时，才能确定”你“到底是一个汉字，还是一个日本字，这就是Unicode转换成其他编码格式的过程了。简而言之，就是内存中固定使用的就是Uncidoe编码，我们唯一能改变的就是存储到硬盘时使用的编码。

文件操作

三种基本操作

文件打开之r模式，只能读不能写

# rt: read by text

# windows的操作系统默认编码为gbk，因此需要使用utf8编码

f = open('32.txt', mode='rt', encoding='utf8')

data = f.read()

print(data)

print(f"type(data): {type(data)}")

f.close()  #文件读完后指针会跑到文件末端，再次读取的将会是空格

aaa

bbb

ccc

nick最帅吗

type(data): <class 'str'>

readline()和readlines()

# f.readline()/f.readlines()

f = open('32.txt', mode='rt', encoding='utf8')

print(f"f.readable(): {f.readable()}")  # 判断文件是否可读

data1 = f.readline()

data2 = f.readlines()

print(f"data1: {data1}")

print(f"data2: {data2}")

f.close()

f.readable(): True

data1: aaa

data2: ['bbb\n', 'ccc\n', 'nick最帅吗']

文件打开之w模式，只能写不能读

# wt

f = open('34w.txt', mode='wt', encoding='utf8')

print(f"f.readable(): {f.readable()}")

f.write('nick 真帅呀\n')  # '\n'是换行符

f.write('nick,nick, you drop, I drop.')

f.write('nick 帅的我五体投地')

f.flush()  # 立刻将文件内容从内存刷到硬盘，该模式会先清空文件内的所有内容再写入

f.close()

f.readable(): False

文件打开之a模式，只能追加

# at

f = open('34a.txt', mode='at', encoding='utf8')

print(f"f.readable(): {f.readable()}")

f.write('nick 真帅呀\n')  # '\n'是换行符

f.write('nick,nick, you drop, I drop.')

f.write('nick 帅的我五体投地')

f.close()

f.readable(): False

文件打开二进制，b模式一般用于存取音频和图片

try:

    import requests

    response = requests.get(

        'http://www.chenyoude.com/Python从入门到放弃/文件的三种打开模式-mv.jpg?x-oss-process=style/watermark')

    data = response.content

    f = open('mv.jpg?x-oss-process=style/watermark', 'wb')

    f.write(data)

    print('done...')

    f.close()

except Exception as e:

    print(e, '报错了，那就算了吧，以后爬虫处会详细介绍')

done...

f = open('34w.txt', 'wb')

f.write('nick 好帅啊'.encode('utf8'))

f.close()

with管理文件操作上下文

之前我们使用open()方法操作文件，但是open打开文件后我们还需要手动释放文件对操作系统的占用。但是其实我们可以更方便的打开文件，即Python提供的上下文管理工具——with open()。

with open('32.txt', 'rt', encoding='utf8') as f:

    print(f.read())

sdf

with open()方法不仅提供自动释放操作系统占用的方法，并且with open可以使用逗号分隔，一次性打开多个文件，实现文件的快速拷贝。

with open('32.txt', 'rb') as fr, \

        open('35r.txt', 'wb') as fw:

    f.write(f.read())

python-day10(正式学习)的更多相关文章

Python 装饰器学习
Python装饰器学习(九步入门) 这是在Python学习小组上介绍的内容,现学现卖.多练习是好的学习方式. 第一步:最简单的函数,准备附加额外功能 1 2 3 4 5 6 7 8 # -*- c ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
从Theano到Lasagne：基于Python的深度学习的框架和库
从Theano到Lasagne:基于Python的深度学习的框架和库摘要:最近,深度神经网络以“Deep Dreams”形式在网站中如雨后春笋般出现,或是像谷歌研究原创论文中描述的那样:Incept ...
Comprehensive learning path – Data Science in Python深入学习路径-使用python数据中学习
http://blog.csdn.net/pipisorry/article/details/44245575 关于怎么学习python,并将python用于数据科学.数据分析.机器学习中的一篇非常好 ...
(转载)Python装饰器学习
转载出处:http://www.cnblogs.com/rhcad/archive/2011/12/21/2295507.html 这是在Python学习小组上介绍的内容,现学现卖.多练习是好的学习方 ...
正式学习React(五) react-redux源码分析
磨刀不误砍柴工,咱先把react-redux里的工具函数分析一下: 源码点这里 shallowEqual.js export default function shallowEqual(objA, ...
正式学习React(一) 开始学习之前必读
为什么要加这个必读!因为webpack本身是基于node环境的, 里面会涉及很多路径问题,我们可能对paths怎么写!webpack又是怎么找到这些paths的很迷惑. 本文是我已经写完正式学习Rea ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Python装饰器学习
Python装饰器学习(九步入门) 这是在Python学习小组上介绍的内容,现学现卖.多练习是好的学习方式. 第一步:最简单的函数,准备附加额外功能 ? 1 2 3 4 5 6 7 8 # -*- ...
Python的基础学习（第二周）
模块初始 sys模块 import sys sys.path #打印环境变量 sys.argv#打印该文件路径 #注意:该文件名字不能跟导入模块名字相同 os模块 import os cmd_res ...

随机推荐

finally应用
finally作为异常处理的一部分,它只能用在try/catch语句中,并且附带一个语句块,表示这段语句最终一定会被执行(不管有没有抛出异常),经常被用在需要释放资源的情况下. 之前在写爬虫的时候数据 ...
SSH中一些典型的问题
struts2 1-1:为什么每次请求都要创建一个Action对象? 是出于对线程安全的考虑,每个request都不会相互影响 1-2:ModelDriven拦截器的配置中refreshModelBe ...
Springdata-Jpa学习笔记
Respository接口 Respository是Springdata JPA中的顶层接口,提供了两种查询方法: 1)基于方法名称命名规则 2)基于@Qeury注解查询 1. 方法名称命名规则查询 ...
cha[] strrev(char[])
反转字符串保留在原函数中
【Java面试宝典】正则表达式
文章目录正则表达式-语法 Pattern.compile方法 ● 请你谈谈Java中是如何支持正则表达式操作的? 考察点:正则表达式参考回答: Java中的String类提供了支持正则表达式操作的 ...
C# how to properly make a http web GET request
C# how to properly make a http web GET request EDIT 23/11/17 Updated to throw out examples using asy ...
Error in render: "TypeError: Cannot read property 'url_img' of undefined"
如果我们 vue 组件中 template 里面添加了下标(靠数组索引得到的值),就会报索引为 undefined 解决方法: 在我们使用下标时,要在父组件上做条件判断,如果这个下标存在,然后就显示里 ...
Python 的with关键字
Python 的with关键字看别人的代码时,with关键字经常会出现,博主决定梳理一下with以及python中上下文(context)的概念 1. 上下文管理器概念 Context Manage ...
微信小程序之阻止冒泡事件
众所周知,在微信小程序给标签绑定点击方法大家都会想到 "bindtap" 但是在页面中会遇到点击会冒泡而触发其他元素的时间发生那么怎么办呢就把引发冒泡事件的始作俑者的 bi ...
百度AI---语音识别
题记:娱乐性的玩玩百度接口. 说实话,其接口个人觉得有点烂,重试了好几个音频文件才成功. 1.重新申请AppID.SecretKey .API Key. 链接:https://console.bce. ...

python-day10(正式学习)