day7 七、字符编码,字符字节与文件操作
一、字符编码
1、定义
人类能识别的是字符等高级标识符,电脑只能识别0,1组成的标识符,要完成人与机器之间的信息交流,一定需要一个媒介,进行两种标识符的转化(两种标识符的对应关系)
对应关系形成的结构称为编码表
->
'a' - >
'好' ->
2、了解知识点:编码表的发展史
①ascii(ASCII):字母数字英文符号和计算机01标识符的对应关系
②中国:研究汉字与计算机01标识符的对应关系
日本:Shift_JIS
棒子:Euc-kr
3、制造一个可以由万国符与计算机01标识符的对应关系的编码表
编码表:unicode
①python2按ascii来读,没有按照万国编码,原因是,python2的诞生早于万国编码。
②python3按UTF-8来读,采用万国编码来解释文本内容。
4、unicode与UTF-8之间的关系(重点内容******)
①unicode用2个字节来存储汉字,用2个字节存储字母。所以相比较,unicode占用内存空间较多,但是读取效率极高
UTF-8用3-6个字节存储汉字,用1个字节存储字母。占用空间较少,但是读取效率低 ②unicode与UTF-8采用的是一张unicode编码表,UTF-8是编码表的体现方式,通过变长存储数据。
(变长的优点:大量数据都是以英文存在,所以UTF-8空间更小,传输速度更快)
二,字符与字节
1、三种字符串
①unicode字符串s1=u‘’
s1 = u'abc你好\n不好'
print(s1) # 结果为
abc你好
不好
②字节字符串s2=b‘’
s2 = b'abc123\xb7\xb7'
print(s2) # 结果为 b'abc123\xb7\xb7'
③原义字符串:不对字符串内做任何操作s3=r‘’
s3 = r'abc你好\n不好'
print(s3) # 结果为 abc你好\n不好
2、编码操作:编码与解码(重点*****)
①编码:将u字符串编码成b字符串
print(u'你好'.encode('utf-8'))
# 结果为 b'\xe4\xbd\xa0\xe5\xa5\xbd'
②解码:将b字符串解码成u字符串
print(b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('utf-8'))
# 结果为 你好
3、字符与ASCII之间的转化:
res = ord('A')
print(res) # 结果为65
res = chr(65)
print(res) # 结果为A
ASCII:DBCS双字节存储可以存放中文等一些文字与字符,可以完成字符与整数(ASCII表中整数)的转化。
三、文件操作
1、文件:硬盘中一块存储空间
2、文件操作:根据文件名来操作硬盘的那块存储空间,操作方式:read,write
3、文件操作的三要素:文件源、操作模式、编码
4、文件操作的三步骤(重点*****)
①打开文件
变量名=文件空间
f = open('a.txt', 'r', encoding='utf-8') ②操作文件
date=f.read() 是将所有内容读取出来,如果设置读取长度,则按设置长度读取
一次读一行:line=f.readline()
按行一次性全部读出:lines=f.readlines()
逐步一行一行读取(for循环)
f = open('a.txt', 'r', encoding='utf-8')
l=[]
for line in f
l.append(line)
print(l) s=set()
for line in f
s.append(line)
print(s)
③关闭文件
f.close() 释放操作系统对文件的持有,变量f还被应用程序持有
print(f)
day7 七、字符编码,字符字节与文件操作的更多相关文章
- encode_utf8 把字符编码成字节 微信例子
##µ¼Èë encode_json decode_json use JSON qw/encode_json decode_json/; print "1111111111111111-\$ ...
- encode_utf8 把字符编码成字节 decode_utf8解码UTF-8到字符
encode_utf8 $octets = encode_utf8($string); Equivalent to "$octets = encode("utf8", $ ...
- java字节流和字符流,以及java文件操作
A.首先说字节流:1.字节流在操作的时候不会用到缓冲区(也就是内存)2.字节流可用于任何类型的对象,包括二进制对象3.字节流处理单元为1个字节,操作字节和字节数组.InputStream是所有字节输入 ...
- 19-3-8Python中编码的进阶、文件操作初识、深浅copy
编码的进阶 ASCII:英文字母,数字,特殊符号,——> 二进制的对应关系 Str: 1个字符——> 1个字节 Unicode:万国码:世界上所有的文字与二进制的对应关系 1个字符——& ...
- python第七天(字符编码,字符与字节,文件操作)
一.字符编码: 定义:将人识别的字符转换成计算机能识别的0和1,转换的规则就是字符编码表. 常见编码表:ascii.unicode.GBK 编码表: 1.采用的都是unicode编码表 2.unico ...
- Python编程Day7——字符编码、字符与字节、文件操作
一.字符编码 重点 ***** 1. 什么是字符编码:将人识别的字符转换计算机能识别的01,转换的规则就是字符编码表2. 常用的编码表:ascii.unicode.GBK.Shift_JIS.Euc- ...
- day08(字符编码,字符与字节,文件操作)
一,复习 ''' 类型转换 1.数字类型:int() | bool() | float() 2.str与int: int('10') | int('-10') | int('0') | float(' ...
- 字符编码及字节串bytes类型
1 字符编码简介 ASCII码:美国人发明并使用,用1个字节(8位二进制)代表一个字符,ASCII码是其他任意编码表的子集(utf-16除外). Unicode:包含和兼容全世界的语言,与全世界的语言 ...
- Java字符流和字节流对文件操作
记得当初自己刚开始学习Java的时候,对Java的IO流这一块特别不明白,所以写了这篇随笔希望能对刚开始学习Java的人有所帮助,也方便以后自己查询.Java的IO流分为字符流(Reader,Writ ...
随机推荐
- Java调用Elasticsearch API查询及matchPhraseQuery和matchQuery的区别
一.引入依赖 <!--Elasticsearch client--> <!-- https://mvnrepository.com/artifact/org.elasticsearc ...
- 源码版本管理工具 :TFS GIT
至于svn ..忽略不计了... 集中式代码管理 CVCS 模式:TFS 分布式代码管理 DVCS 模式:git 两者比较大的差别:tfs 只有一个中央仓储,其他副本都要与中央仓储进行更新.git ...
- Python验证码识别 安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决
1.安装Pillow pip install Pillow 2.安装tesseract-ocr OCR(Optical Character Recognition, 光学字符识别) 软件 安装包含两个 ...
- sql操作总结
SQL 语句的多表查询方式例如:按照 department_id 查询 employees(员工表)和 departments(部门表)的信息.方式一(通用型):SELECT ... FROM ... ...
- Android 实时录音和回放,边录音边播放 (KTV回音效果)
上一篇介绍了如何使用Mediarecorder来录音,以及播放录音.不过并没有达到我的目的,一边录音一边播放.今天就讲解一下如何一边录音一边播放.使用AndioRecord录音和使用AudioTrac ...
- nginx日志分割小脚本
nginx的日志一直是写在一个文件上面,运行久了之后文件会非常大,因此我们有必要对nginx的日志进行分割: 1 2 3 4 5 6 7 8 9 10 11 #! /bin/bash ACCESS ...
- Java 继承中构造方法的执行顺序问题
在Java中,如果一个类没有任何显式创建的构造器则该类默认会有一个无参构造器:如果显式创建了有参构造器则该类就不再有默认无参构造器. 在Java继承中,构造器并不能被继承,而是被显示或隐式调用. 1. ...
- yizhihongqiang
最新网址:https://www. hongxingwangzhi .com/
- .Net MVC Cache 缓存技术总结
一.细说 ASP.NET Cache 及其高级用法 二..Net环境下的缓存技术介绍 (转) 三.asp.net中缓存的使用介绍一 四.HttpContext.Current.Cache 过期时间
- Spark学习笔记——读写Hbase
1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作 一个cell的值,取决于Row,Column family,Column Qualifier和Ti ...