python __slots__ 使你的

2023-01-31 02:01:26 python

      在默认情况下,python的新类和旧类的实例都有一个字典来存储属性值。这对于那些没有实例属性的对象来说太浪费空间了,当需要创建大量实例的时候,这个问题变得尤为突出。

       因此这种默认的做法可以通过在新式类中定义了一个__slots__属性从而得到了解决。__slots__声明中包含若干实例变量,并为每个实例预留恰好足够的空间来保存每个变量,因此没有为每个实例都创建一个字典,从而节省空间。

       

现在来说说Python中dict为什么比list浪费内存?

       和list相比,dict 查找和插入的速度极快,不会随着key的增加而增加;dict需要占用大量的内存,内存浪费多。

       而list查找和插入的时间随着元素的增加而增加;占用空间小,浪费的内存很少。

       python解释器是Cpython,这两个数据结构应该对应C的哈希表和数组。因为哈希表需要额外内存记录映射关系,而数组只需要通过索引就能计算出下一个节点的位置,所以哈希表占用的内存比数组大,也就是dict比list占用的内存更大。


如果想更加详细了解,可以查看C的源代码。python官方链接:https://www.python.org/downloads/source/

如下代码是我从python官方截取的代码片段:


List 源码

typedef struct {
    PyObject_VAR_HEAD
    
    PyObject **ob_item;
 
    
    Py_ssize_t allocated;
} PyListObject;


Dict源码:


#define PyDict_MINSIZE 8
 
typedef struct {
    
    Py_ssize_t me_hash;
    PyObject *me_key;
    PyObject *me_value;
} PyDictEntry;
 

typedef struct _dictobject PyDictObject;
struct _dictobject {
    PyObject_HEAD
    Py_ssize_t ma_fill;  
    Py_ssize_t ma_used;  
 
    
    Py_ssize_t ma_mask;
 
    
    PyDictEntry *ma_table;
    PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash);
    PyDictEntry ma_smalltable[PyDict_MINSIZE];
};


PyObject_HEAD 源码:

#ifdef Py_TRACE_REFS

#define _PyObject_HEAD_EXTRA            \
    struct _object *_ob_next;           \
    struct _object *_ob_prev;
 
#define _PyObject_EXTRA_INIT 0, 0,
 
#else
#define _PyObject_HEAD_EXTRA
#define _PyObject_EXTRA_INIT
#endif
 

#define PyObject_HEAD                   \
    _PyObject_HEAD_EXTRA                \
    Py_ssize_t ob_refcnt;               \
    struct _typeobject *ob_type;


PyObject_VAR_HEAD 源码:


#define PyObject_VAR_HEAD               \
    PyObject_HEAD                       \
    Py_ssize_t ob_size; 


现在知道了dict为什么比list 占用的内存空间更大。接下来如何让你的类更加的节省内存。


其实有两种解决方案:

       第一种是使用__slots__ ;另外一种是使用Collection.namedtuple 实现。


首先用标准的方式写一个类:

#!/usr/bin/env python

class Foobar(object):
    def __init__(self, x):
        self.x = x

@profile
def main():
    f = [Foobar(42) for i in range(1000000)]

if __name__ == "__main__":
    main()

      

然后,创建一个类Foobar(),然后实例化100W次。通过@profile查看内存使用情况。


运行结果:

wKiom1WwlWTylNptAAG3zQCA3yg271.jpg


该代码共使用了372M内存。


接下来通过__slots__代码实现该代码:

#!/usr/bin/env python

class Foobar(object):
    __slots__ = 'x'
    def __init__(self, x):
        self.x = x
@profile
def main():
    f = [Foobar(42) for i in range(1000000)]

if __name__ == "__main__":
    main()



 运行结果:

wKiom1WwlrPiBsF0AAGoM0KZreE433.jpg


使用__slots__使用了91M内存,比使用__dict__存储属性值节省了4倍。


        其实使用collection模块的namedtuple也可以实现__slots__相同的功能。namedtuple其实就是继承自tuple,同时也因为__slots__的值被设置成了一个空tuple以避免创建__dict__。


看看collection是如何实现的:

wKiom1WwmRiAi9O3AAFU03P0_VM849.jpg


collection 和普通创建类方式相比,也节省了不少的内存。所在在确定类的属性值固定的情况下,可以使用__slots__方式对内存进行优化。但是这项技术不应该被滥用于静态类或者其他类似场合,那不是python程序的精神所在。


相关文章