python之小数据池

代码块

Python 程序是由代码块构造的。块是一个python程序的文本，它是作为一个执行单元的。

代码块：一个模块，一个函数，一个类，一个文件等都是一个代码块。

而作为交互方式输入的每个命令都是一个代码块。

什么叫交互方式呢？就是咱们在cmd中进入python解释器里同，每一行代码就是一个代码块。

对于一个文件中的两个函数，也分别是两个不同的代码块：

代码块的缓存机制

Python在执行同一个代码块的初始化对象的命令时，会检查是否其值是否已经存在，如果存在，会将其重用。换句话说：执行同一个代码块时，遇到初始化对象的命令时，他会将初始化的这个变量与值存储在一个字典中，在遇到新的变量时，会先在字典中查询记录，如果有同样的记录那么它会重复使用这个字典中的之前的这个值。所以在你给出的例子中，文件执行时（同一个代码块）会把i1、i2两个变量指向同一个对象，满足缓存机制则他们在内存中只存在一个，即：id相同。

代码块的缓存机制的适用范围： int（float），str，bool。

int(float):任何数字在同一代码块下都会复用。

bool:True和False在字典中会以1，0方式存在，并且复用。

优点：能够提高一些字符串，整数处理人物在时间和空间上的性能；

需要值相同的字符串，整数的时候，直接从‘字典’中取出复用，避免频繁的创建和销毁，提升效率，节约内存。

小数据池

小数据池，也称为小整数缓存机制，或者称为驻留机制等

大前提：小数据池也是只针对 int(float)，str，bool。

小数据池是针对不同代码块之间的缓存机制！！！

官方对于整数，字符串的小数据池是这么说的：

对于整数，Python官方文档中这么说：

The current implementation keeps an array of integer objects for all integers between -5 and 256,

when you create an int in that range you actually just get back a reference to the existing  object.

So it should be possible to change the value of 1. I suspect the behaviour of Python in this case is undefined.

对于字符串：

   Incompute science, string interning  is method of storing only onecopy of each distinct string value,which must be immutable.

Interning string makes some stringprocessing tasks more time- or space-efficient at the cost of requiring moretime when the string is 
created or interned.

The distinct values are stored in a string intern pool. --引自维基百科

上面的意思就是：

Python自动将-5~256的整数进行了缓存，当你将这些整数赋值给变量时，并不会重新创建对象，而是使用已经创建好的缓存对象。

python会将一定规则的字符串在字符串驻留池中，创建一份，当你将这些字符串赋值给变量时，并不会重新创建对象，而是使用在字符串驻留池中创建好的对象。

其实，无论是缓存还是字符串驻留池，都是python做的一个优化，就是将~5-256的整数，和一定规则的字符串，放在一个‘池’（容器，或者字典）中，无论程序中那些变量指向这些范围内的整数或者字符串，那么他直接在这个‘池’中引用，言外之意，就是内存中之创建一个。

优点：能够提高一些字符串，整数处理人物在时间和空间上的性能；需要值相同的字符串，整数的时候，直接从‘池’里拿来用，避免频繁的创建和销毁，提升效率，节约内存。

缺点：在‘池’中创建或插入字符串，整数时，会花费更多的时间

补充：小数据池，可以理解为ORACLE数据库中的SGA,即共享全局区，所以python进程共享的。

int: 对于整数来说，当整数范围在 -5 ~ 256 这个闭区间时，会放进小数据池，此时多个变量同时指向同一个（在这个范围内的）数字，他们在内存中指向的都是一个内存地址。

那么对于字符串的规定呢？

str:字符串要从下面这几个大方向讨论：

1. 字符串的长度为0或1时，默认都采用驻留机制（小数据池）

>>> s1 = '$'

>>> s2 = '$'

>>> print(id(s1),id(s2))

2647489083856

>>> print(s1 is s2 )

True

>>>

2. 字符串的长度>1,且只含有大小写字母，数字，下划线时，才会默认驻留。

>>> s1 ='chris_is_a_old_boy_driver'

>>> s2 = 'chris_is_a_old_boy_driver'

>>> print(s1 is s2)

True

>>>

3. 用乘法得到的字符串，分两种情况：

3.1 乘数为1时:

仅含大小写字母，数字，下划线，默认驻留。

>>>

>>> a = 'abcedfgjihiklsodopqrstuvwxyz_8989'

>>> b = a * 1

>>> print(a is b)

True

>>>

含其他字符，长度>1, 默认驻留。

>>> a = 'abcedfgjihiklsodopqrstuvwxyz_8989##'

>>> b = a * 1

>>> print(a is b)

True

>>>

3.2 乘数 >= 2 时：

仅含大小写字母、数字、下划线，总长度<=20，默认驻留。

>>> a = 'abcedfgjihiklsodopqrstuvwxyz_8989'

>>> b = a * 2

>>> c = a * 2

>>> print(b is c )

False

4. 指定驻留

>>> from sys import intern

>>> a = intern('hello!@' * 20 )

>>> b = intern('hello!@' * 20 )

>>> print(a is b)

True

>>>

满足以上字符串的规则时，就符合小数据的概念。

bool值就是True,False,无论你创建多少个变量指向True,False,那么他在内存中只存在一个。

看一下用了小数据池（驻留机制）的效率有多高：

显而易见，节省大量内存在字符串比较时，非驻留比较效率o(n)，驻留时比较效率o(1)。

参考网址：https://www.cnblogs.com/jin-xin/articles/9439483.html