Python内存管理机制
python的内存管理分为三个方面:
引用计数
垃圾回收
内存池机制
变量与对象
变量:通过变量指针引用对象,变量指针指向具体对象的内存空间,获取对象的值。
对象:类型已知,每个对象都包含一个头部信息(类型标识符和引用计数器)。
引用计数
Python内部使用引用计数,来追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数。当对象被创建时就创建了一个引用计数,当对象不再需要时,这个对象的引用计数为0时,它被垃圾回收。
查看对象的引用次数:sys.getrefvount()
普通引用
from sys import getrefcount
a = [1, 2, 3]
print(getrefcount(a))
Output: 2
容器对象
Python的一个容器对象(比如:列表、字典等),可以包含多个对象。
a = [1, 2, 3, 4]
b = a
print(a is b)
Output: True
a[0] = 6
print("a=", a)
Output: a= [6, 2, 3, 4]
print("a is b = ", a is b)
print("b=", b)
Output: b = [6, 2, 3, 4]
实际上,容器对象中包含的并不是元素对象本身,是指向各个元素对象的引用。
引用计数
引用计数增加的情况: - 对象被创建:x=4
- 另外的别人被创建:y=x
- 被作为参数传递给函数:foo(x)
- 作为容器对象的一个元素:a=[1,x,"33"]
引用计数减少的情况: - 一个本地引用离开了它的作用域。比如上面的foo(x)函数结束时,x指向的对象引用减1。
- 对象的别名被显式的销毁:del x ;或者del y
- 对象的一个别名被赋值给其他对象:x=789
- 对象从一个窗口对象中移除:myList.remove(x)
- 窗口对象本身被销毁:del myList,或者窗口对象本身离开了作用域。
垃圾回收
当Python中的对象越来越多,占据越来越大的内存,启动垃圾回收(garbage collection),将没用的对象清除。Python的垃圾回收机制以引用计数为主,标记-清除和分代回收为辅。
原理
当Python的某个对象的引用计数降为0时,说明没有任何引用指向该对象,该对象就成为要被回收的垃圾。比如某个新建对象,被分配给某个引用,对象的引用计数变为1。如果引用被删除,对象的引用计数为0,那么该对象就可以被垃圾回收。垃圾回收机制还有一个循环垃圾回收器,确保释放循环引用对象(a引用b, b引用a,导致其引用计数永远不为0)。
注意:
垃圾回收时,Python不能进行其它的任务,频繁的垃圾回收将大大降低Python的工作效率
Python只会在特定条件下,自动启动垃圾回收(垃圾对象少就没必要回收)
当Python运行时,会记录其中分配对象(object allocation)和取消分配对象(object deallocation)的次数。当两者的差值高于某个阈值时,垃圾回收才会启动。
import gc
gc.get_threshold() # gc模块中查看阈值的方法
Output: (700, 10, 10)
阈值分析:700即是垃圾回收启动的阈值;每10次0代垃圾回收,会配合1次1代的垃圾回收;而每10次1代的垃圾回收,才会有1次的2代垃圾回收;
引用计数
优点:“实时性”,任何内存,一旦没有指向它的引用,就会立即被回收。
缺点:效率底下:引用计数机制带来的计数操作,与引用赋值成正比。频繁的计数操作,会给CPU带来大量消耗;循环引用:也就是两个对象相互引用,这样的话,两个对象的引用计数永远不会为0,及它们永远不被清除。
标记-清除
标记清除是为了解决循环引用的问题。可以包含其他对象引用的容器对象(比如:list,set,dict,class,instance)都可能产生循环引用。
分代回收
Python同时采用了分代(generation)回收的策略。这一策略的基本假设是,存活时间越久的对象,越不可能在后面的程序中变成垃圾。我们的程序往往会产生大量的对象,许多对象很快产生和消失,但也有一些对象长期被使用。出于信任和效率,对于这样一些“长寿”对象,我们相信它们的用处,所以减少在垃圾回收中扫描它们的频率。Python将所有的对象分为0,1,2三代。所有的新建对象都是0代对象。当某一代对象经历过垃圾回收,依然存活,那么它就被归入下一代对象。垃圾回收启动时,一定会扫描所有的0代对象。如果0代经过一定次数垃圾回收,那么就启动对0代和1代的扫描清理。当1代也经历了一定次数的垃圾回收后,那么会启动对0,1,2,即对所有对象进行扫描。
孤立的引用环
引用环的存在会给上面的垃圾回收机制带来很大的困难。这些引用环可能构成无法使用,但引用计数不为0的一些对象。
a = []
b = [a]
a.append(b)
del a
del b
上面我们先创建了两个表对象,并引用对方,构成一个引用环。删除了a,b引用之后,这两个对象不可能再从程序中调用,就没有什么用处了。但是由于引用环的存在,这两个对象的引用计数都没有降到0,不会被垃圾回收,这就是孤立的引用环。为了回收这样的引用环,Python复制每个对象的引用计数,可以记为gc_ref。假设,每个对象i,该计数为gc_ref_i。Python会遍历所有的对象i。对于每个对象i引用的对象j,将相应的gc_ref_j减1。在结束遍历后,gc_ref不为0的对象,和这些对象引用的对象,以及继续更下游引用的对象,需要被保留。而其它的对象则被垃圾回收。
内存池机制
Python中分为大内存和小内存:(256K为界限分大小内存)
大内存使用malloc进行分配。
小内存使用内存池进行分配。
Python的内存池(金字塔)
第3层:最上层,用户对Python对象的直接操作。
第1层和第2层:内存池,有Python的接口函数PyMem_Malloc实现。若请求分配的内存在1~256字节之间就使用内存池管理系统进行分配,调用malloc函数分配内存,但是每次只会分配一块大小为256K的大块内存,不会调用free函数释放内存,将该内存块留在内存池中以便下次使用。
第0层:大内存,若请求分配的内存大于256K,malloc函数分配内存,free函数释放内存。
第-1,-2层:主要是操作系统进行操作。