Python3--数据类和字典,哪一个访问数据更快?
问题描述
Python3.7引入了dataclasses来存储数据。我正在考虑采用这种比词典更有条理、结构更好的新方法。
但我有一个疑问。Python将键转换为DICT上的散列,这使得查找键和值的速度更快。数据类实现了类似的东西吗?
哪个更快?为什么?
解决方案
Python中的所有类实际上都在幕后使用字典来存储它们的属性,您可以在文档中阅读here。要更深入地了解Python类(以及更多内容)是如何工作的,您还可以查看python's datamodel上的文章,特别是关于定制类的部分。
因此,通常情况下,从字典转移到数据类不会降低性能。但最好确保使用timeit模块:
基线
# dictionary creation
$ python -m timeit "{'var': 1}"
5000000 loops, best of 5: 52.9 nsec per loop
# dictionary key access
$ python -m timeit -s "d = {'var': 1}" "d['var']"
10000000 loops, best of 5: 20.3 nsec per loop
基本数据类
# dataclass creation
$ python -m timeit -s "from dataclasses import dataclass" -s "@dataclass" -s "class A: var: int" "A(1)"
1000000 loops, best of 5: 288 nsec per loop
# dataclass attribute access
$ python -m timeit -s "from dataclasses import dataclass" -s "@dataclass" -s "class A: var: int" -s "a = A(1)" "a.var"
10000000 loops, best of 5: 25.3 nsec per loop
在这里我们可以看到,使用类确实有一些开销。对于类创建来说,这相当慢(大约慢5倍),但只要您不打算每秒多次创建和丢弃数据类,您就不必太在意它。
属性访问可能是更重要的指标,虽然数据类再次变慢(~1.25倍),但这次没有那么慢。
如果您认为这仍然有点太慢,您可以使用slots而不是字典来存储它们的属性,从而调优您的数据类(或者实际上是任何类):
时隙数据类
# dataclass creation
$ python -m timeit -s "from dataclasses import dataclass" -s "@dataclass" -s "class A: __slots__ = ('var',); var: int" "A(1)"
1000000 loops, best of 5: 242 nsec per loop
# dataclass attribute access
$ python -m timeit -s "from dataclasses import dataclass" -s "@dataclass" -s "class A: __slots__ = ('var',); var: int" -s "a = A(1)" "a.var"
10000000 loops, best of 5: 21.7 nsec per loop
通过使用这种模式,我们可以多刮几纳秒。在这一点上,至少在属性访问方面,应该不再与字典有明显的区别,并且您可以在不影响速度的情况下使用数据类的优点。
相关文章