python 驻留时机 python常驻内存

转载

西门吹雪 2023-09-17 09:41:00

文章标签 python 驻留时机 python字符串驻留机制字符串 ico 引用计数 文章分类 Python 后端开发

python的内存驻留机制，是一种节省内存的方案，它将int, str, bool类型的数据做成小数据池。当程序要创建字符串等对象前会先检查池中是否有满足的字符串。

字符串不超过20个字符且仅包含大小写字母、数字、下划线

数字在[-5, 256]之间

驻留机制节省大量的重复内存。在内部，小数据池是由一个全局的dict 维护，该字典中的对象成了单例模式，从而节省内存。

void PyUnicode_InternInPlace(PyObject **p)
{
PyObject *s = *p;
PyObject *t;
if (s == NULL || !PyUnicode_Check(s))
return;
// 对PyUnicodeObjec进行类型和状态检查
if (!PyUnicode_CheckExact(s))
return;
if (PyUnicode_CHECK_INTERNED(s))
return;
// 创建intern机制的dict
if (interned == NULL) {
interned = PyDict_New();
if (interned == NULL) {
PyErr_Clear(); /* Don't leave an exception */
return;
}
}
// 对象是否存在于inter中
t = PyDict_SetDefault(interned, s, s);
// 存在， 调整引用计数
if (t != s) {
Py_INCREF(t);
Py_SETREF(*p, t);
return;
}
/* The two references in interned are not counted by refcnt.
The deallocator will take care of this */
Py_REFCNT(s) -= 2;
_PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

变量 interned 就是全局存放字符串池的字典的变量名 interned = PyDict_New()，为了让 intern 机制中的字符串不被回收，设置字典时 PyDict_SetDefault(interned, s, s); 将字符串作为键同时也作为值进行设置，这样对于字符串对象的引用计数就会进行两次 +1 操作，这样存于字典中的对象在程序结束前永远不会为 0，这也是 y_REFCNT(s) -= 2; 将计数减 2 的原因。

从函数参数中可以看到其实字符串对象还是被创建了，内部其实始终会为字符串创建对象，但经过 inter 机制检查后，临时创建的字符串会因引用计数为 0 而被销毁，临时变量在内存中昙花一现然后迅速消失。

指定要驻留的字符串：

In [74]: a = "hello!@"
In [75]: b = "hello!@"
In [76]: id(a)
Out[76]: 1491977744144
In [77]: id(b)
Out[77]: 1491973470616
In [78]: from sys import intern # 使用上面所说的intern机制进行驻留
In [79]: a = intern("hello!@")
In [80]: b = intern("hello!@")
In [81]: id(a)
Out[81]: 1491978046072
In [82]: id(b)
Out[82]: 1491978046072

为什么要进行字符串驻留呢？

显而易见，节省大量内存

在字符串进行比较时，非驻留比较效率O(n)，驻留时比较效率O(1)。

image.png

总结：

系统维护一个interned全局字典，记录已被驻留的字符串对象，当新字符串a对象需要驻留时，先在interned中查找是否存在，若存在则指向已存在的字符串对象，a对象的引用计数减1，若不存在，则记录a对象到interned中。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。