# 编码问题

-  为什么需要编码问题

  -  本质上计算机只能识别01代码

  -  如何用一长串01代码表示复杂的信息

  -  encode:编码  decode:解码

-  编码简史

  -  二进制

    - bit: 一个0或者1的二进制数字

    - byte:八个01代码,字节

  -  第一阶段: ASCII

  -  第二阶段: 百花齐放,GB2,  GBK,  BIG5,  Latin1,  JIS,

      - Latin1:兼容欧洲大多数语言

      - 中国:GBxxxx

      - 韩国台湾:BIG5

      - 日本:JIS

      - ANSI-MBCS(Multi-bytes character set, 多字节字符集)

  -  第三个阶段:Unicode(ISO)

# 编码表示方法

- ASCII-American standard code for information interchange

  - 所有控制字符(包括回车,删除等)编码再0-31范围以及127

  - 所有标点符号,英文大小写放在32-126之间

  - 预留128-255之间位置

  - 0xxx xxxx 是它的编码形式

- Latin1

  - 0-127的所有位置不动,那么可以兼容ASCII,二进制位0xxx xxxx

  - 128-255位置全部用完,二进制位1xxx xxxx

    - 128-159之间为控制字符,

    - 160-255位文字符号,

    - 其中包括了西欧语言、希腊语、泰语、阿拉伯语、希伯来语

  - 欧元符号

- GBxxxxxxxxxx

  - GB2312

    - 如果一个字节中第一位为0,那么这就是一个ASCII字符。

    - 如果一个字节中第一位为1,那么这个是汉字,认定需要2个字节才表示一个编码的

    - 这个码表中包含汉字6763个和非汉字图形字符682个。

    - 还有很多的空间没有用到,索性全部预留了吧。

    - 0xxxxxxx:表示ASCII字符

    - 1xxxxxxx 1xxxxxxx:表示为汉字

- GBK

    - GB2312基础上添加汉字

    - 兼任GB2312和ASCII

    - 1xxxxxxx xxxxxxxx:表示为汉字

- GB18030

    - 2/4位混编

# Unicode编码

    - 只是一个码表,具体实现没有规定

    - 0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符

    - 中文的编码范围为4E00-9FCF,其中9FC4-9FCF之间的区间没有使用

    - 上述区间全部是汉字,不包含全角字符,不包含特殊文字

    - UTF=UnicodeTransformationFormat

    - UTF-8

        0x0000~0x007F (0 ~ 127)  1字节  0xxxxxxx

        0x0080~0x07FF (128 ~ 2047)  110xxxxx  10xxxxxx

        0x0800~FFFF (2048 ~ 65535)  3字节  1110xxxx  10xxxxxx  10xxxxxx

        0x10000~1FFFFFF(65536 ~ 2097152)      4字节  

        0x2000000~0x3FFFFFF(65536 ~ 2097152)      5字节  111110xx  10xxxxxx

        0x4000000~0x7FFFFFF(65536 ~ 2097152)      6字节  1111110x  10xxxxxx

---------------------------------------------------------------------------------------------------------

Unicode/UCS-4          bit数        UTF-8                byte数       备注
0000 ~ 007F              0~7             0XXX XXXX       1 
                                                    
                                        
0080 ~ 07FF              8~11          110X XXXX           2 
                                       10XX XXXX      
                         
0800 ~ FFFF              12~16      1110XXXX        3             基本定义范围:0~FFFF
                                      10XX XXXX    
                                      10XX XXXX     
                                                    
                         
1 0000 ~  1F FFFF      17~21      1111 0XXX       4             Unicode6.1定义范围:0~10 FFFF
                                       10XX XXXX    
                                                         10XX XXXX    
                                                         10XX XXXX    
                         
                         
20 0000 ~ 3FF FFFF    22~26           1111 10XX       5             说明:此非unicode编码范围,属于UCS-4 编码
                                                          10XX XXXX                    早期的规范UTF-8可以到达6字节序列,可以覆盖到31位元(通用字符集原来的极限)。
                                                          10XX XXXX                    尽管如此,2003年11月UTF-8 被 RFC 3629 重新规范,只能使用原来Unicode定义的区域,
                                                          10XX XXXX                    U+0000到U+10FFFF。根据规范,这些字节值将无法出现在合法 UTF-8序列中                                                                  
                                                          10XX XXXX     
                         
                         
400 0000 ~ 7FFF FFFF   27~31      1111 110X       6 
                                                        10XX XXXX  
                                                        10XX XXXX  
                                                        10XX XXXX  
                                                        10XX XXXX  
                                                         10XX XXXX

-------------------------

- UTF-16,UTF-32

  - UTF-16 早期 Uncode历史遗留问题

  - UTF-32  浪费空间

- UCS-4

  - UCS=UniversalCharacterSet,通用字符集

  - UNS-2与Unicode相同

  - 采用2个字节,定长的表示每一个字符,所以总计可以表示2……16个字符

- UCS-4

  - 第一个字节:表示组(group),最高位为0,则有128个。

  - 第二个字节:表示平面(plane),256个。

  - 第三个字节:表示行(row),256个。

  - 第四个字节:表示码位(cell),256个

  - 如果UCS-4前两个字节为0,则就是CUS-2

#常用概念

  - 编码/解码:有人类可直接读取信息转换成bytes格式的,叫编码,

  - 大尾(BigEndian)和小尾(LittleEndian)

    - '汉'  -> 6C49

    - 6C49 -> BigEndian

    - 496C -> LittleEndian

-  BOM

   - UTF-8没有字节顺序问题

   - UTF-16会出现问题

      - "奎" -> 594E

      - "乙" -> 4E59

   - BOM-ByteOrderMark

      - "ZERO WIDTH NO-BREAK SPACE" -> FEFE,在UCS中不存在

      - FFFF->BigEndian

      - FFFE->LittleEndian

      - UTF-8 用来表示编码,FEFF的UTF-8编码是EF BB BF,

         用来表示此后编码是UTF-8编码

- Python编码问题

- str

- bytes

- bytearray

-------------------------------------------------

- python文件默认utf-8编码,如果特殊需要,需要声明

  - 放在第一行,或者第二行

  - ···# -*- coding: windows-1252 -*-···

  - 读写文件默认utf-8,可以指定

  - code point方式比较字符串,可能会带来问题

      - 重音符号地表示

      - 使用 unicodedata.normalize 函数

 

Python----webserver项目2的更多相关文章

  1. Pycharm+django新建Python Web项目

    这两天初学Python,首先是学习Python语法有PyCharm就可以运行Console程序了,因为是初学所以,尽量写的比较详细,包括参考的资料地址...   1.下载Python,并安装[本文版本 ...

  2. Python(Django)项目与Apache的管理

    (开开心心每一天~ ---虫瘾师) Python(Django)项目交给Apache的管理(一) 准备:Django的环境(Python).Apache.Wsgi(必须文件) 首先需要电脑有Pytho ...

  3. Python(Django)项目与Apache的管理交互

    (开开心心每一天~ ---虫瘾师) Python(Django)项目交给Apache的管理(一) 准备:Django的环境(Python).Apache.Wsgi(必须文件) 首先需要电脑有Pytho ...

  4. 再一波Python实战项目列表

    前言: 近几年Python可谓是大热啊,很多人都纷纷投入Python的学习中,以前我们实验楼总结过多篇Python实战项目列表,不但有用还有趣,最主要的是咱们实验楼不但有详细的开发教程,更有在线开发环 ...

  5. 使用Nginx+Uwsgi部署Python Flask项目

    第一次用Flask做Web(也是第一次用Python做Web),在部署的时候遇到了不少问题,现在将过程就下来,供在这方面也有疑惑的人参考.(PS:使用Apache+mod_wsgi部署模式的可以参考另 ...

  6. 机器学习 Top 20 Python 开源项目

    转自:http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=2652565022&idx=1&sn=9aa035097120 ...

  7. python实战===2017年30个惊艳的Python开源项目 (转)

    本文转自:http://www.sohu.com/a/216723120_115128 摘要:本文来自Mybridge,介绍了过去一年里30个惊艳的Python开源项目.点击每一个都可以在GitHub ...

  8. 10大Python开源项目推荐(Github平均star2135)

    翻译 | suisui 来源 | 人工智能头条(AI_Thinker) 继续假日充电系列~本文是 Mybridge 挑选的 10 个 Python 开源项目,Github 平均star 2135,希望 ...

  9. 32个Python爬虫项目让你一次吃到撑

    整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微信公众 ...

  10. Python Django项目部署 Linux 服务器

    项目依赖: Linux Centos7 (阿里云轻量级服务器) + Python 3.7.2 + Django 2.2.1 + restframework 3.9.4 + mysql 5.7 1 安装 ...

随机推荐

  1. Web测试方法_01

    一.输入框 1.字符型输入框: (1)字符型输入框:英文全角.英文半角.数字.空或者空格.特殊字符“~!@#¥%……&*?[]{}”特别要注意单引号和&符号.禁止直接输入特殊字符时,使 ...

  2. SSH整合项目----在线商城

    1.1 网上商城需求分析 1.1.1    前台:用户模块. 注册: * JS非空校验.(不是必须) * Struts2数据校验:在注册Action类同一包下新建UserAction-user_reg ...

  3. activiti随笔记录

    核心组件介绍 关键对象 1.      Deployment:流程部署对象,部署一个流程时创建. 2.      ProcessDefinitions:流程定义,部署成功后自动创建. 3.       ...

  4. 接口自动化-python unittest+requests+HTMLrunner

    从2015年毕业入行软件测试,快满4年了,之前技术分享都在百度贴吧上面,现在正式开始在博客中记录工作技术,努力成长,加油 接口测试的步骤1.组装好该接口需要的参数数据2.使用get或post附带参数数 ...

  5. P1141 01迷宫(连通块模板)

    题目描述 有一个仅由数字0与1组成的n×n格迷宫.若你位于一格0上,那么你可以移动到相邻4格中的某一格1上,同样若你位于一格1上,那么你可以移动到相邻4格中的某一格0上. 你的任务是:对于给定的迷宫, ...

  6. Tomcat轻量级web服务器

    1.三种web服务器 apache: 动态网站 nginx: 静态网站 tomcat:java开发的程序 2.tomcat安装 官网下载安装包(tomcat 9) 解压并放在/usr/local下 c ...

  7. 【Ruby on Rails 学习三】Ruby 基本数据类型(类、类的实例、对象)

    数字.文本.范围.符合.True.False.Nil 1为什么是一个类的对象,使用methods方法可以查看一个对象的所有函数(方法) $ irb irb(main)::> => irb( ...

  8. 解一元二次方程的C++实现

    一元二次方程的根的情况分为实根与虚根两种,代码如下 #include<iostream> #include<cmath> using namespace std; float ...

  9. elasticsearch 冷热数据的读写分离

    步骤 一.冷热分离集群配置 比如三个机器共六个node的es集群. 每个机器上各挂载一个ssd 和 一个sata.每个机器需要启动两个es进程.每个进程对应不同类型的磁盘. 关键配置: node.ma ...

  10. get、set快捷键那码事儿

    今天发现一个省时间的方法.get一下,哈哈 在快捷get/set.或其他那个页面上的方法时,只需Shift+Alt+s 然后,选择哪个方法,就按该方法字母下有横线的那个字母(只按单个字母就行) 在ge ...