目录

人生苦短 | 列表和元组的进阶-列表和元组的性能以及存储方式等

1. 列表和元组总结

列表和元组都是一个可以放置任意数据类型的有序集合,他们有以下共同点

  • 列表和元组中的元素可以任意,并且都可以嵌套。

  • 列表和元组都支持索引,且都支持负数索引,-1表示最后一个元素,-2表示倒数第二个元素

  • 列表和元组都支持切片操作

  • 都支持in关键词

  • 都可以使用.index().count()sorted()enumerate()等方法

  • 两者之间的相互转换,list()和tuple()

但是他们也是有区别

  • 列表是动态的,长度大小不固定,可以随意地增加、删减或者改变元素(mutable)
  • 元组是静态的,长度大小不固定,无法增删改,想要对已有的元组做任何“改变”,就只能开辟一块内存,创建新的元组

2. 列表和元组存储方式的差异

由于列表是动态的;元组是静态的,不可变的。这样的差异,势必会影响两者存储方式。我们可以来看下面的例子:

1
2
3
4
5
6
>>> l = [1, 2, 3]
>>> l.__sizeof__()
64
>>> tup = (1, 2, 3)
>>> tup.__sizeof__()
48

上面的例子中,元组和列表都放置了相同的元素,但是元素的存储空间却比列表要少16字节。这是因为列表是动态的,所以它需要存储指针,来指向对应的元素,对上例子中,因为存的是int型,所以这个值是8字节。另外,由于列表是可变的,所以需要额外存储已经分配的长度大小(8字节),这样子才可以实时追踪列表空间的使用情况,当空间不足时,及时分配额外空间。

下面我们模拟一下列表空间分配的过程

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
>>> l = []
>>> l.__sizeof__()	
40	# 空列表的存储空间为 40 字节
>>> l.append(1)
>>> l.__sizeof__()
72	# 加入元素1之后,列表为其分配了可以存储4个元素的空间 (72-40)/8
>>> l.append(2)
>>> l.__sizeof__()
72	# 由于之前分配了空间,所以记入元素2,列表空间不变
>>> l.append(3)
>>> l.__sizeof__()
72	
>>> l.append(4)
>>> l.__sizeof__()
72
>>> l.append(5)
>>> l.__sizeof__()
104	# 当加入元素5的时候,列表空间不足,所以又额外分配了可以存储4个元素的空间

我们可以看到,为了减少每次增加/删除操作时空间分销的开销,Python每次分配空间时都会额外多分配一些,这样子的机制(over-allocating)保证了其操作的高效性:增加/删除的时间复杂度均为O(1)。而元组长度大小固定,元素不可变,所以存储空间固定。

3. 列表和元组的性能

通过上述可以看到元组比列表要更加轻量级一些,所以总体上来说,元组的性能速度要略优于列表。另外,Python在后台,对静态数据会做一些资源缓存。通常来说,因为垃圾回收机制的存在,如果一些变量不被使用了,Python就会回收它们所占用的内存,返还给操作系统,以便其他变量或者应用使用。但是对于一些静态变量,比如元组,如果它不被使用并且占用空间不大时,Python会暂时缓存这部分内存。那么下次我们再创建同样大小的元组时,Python就可以不用再向操作系统发出请求,与寻找内存,而是可以直接分配之前缓存的内存空间,这样就能大大加快程序的运行速度。

下面演示,初始化一个空的列表和元组分别所需的时间,可以看到元组的初始化速度,要比列表快:

https://img.dawnguo.cn/Python/learning/list_tuple_init_test.png

这个测试会跟测试的环境所关,我在windows上测的话,时间几乎没差别,然后我换到装在虚拟机里面的ubuntu16.04 64位系统,并给它分配了2GB内存,测试效果如上。

当然我们可以通过增加初始化的次数来进行,如下所示:

1
2
3
4
5
>>> import timeit
>>> timeit.timeit('a=[]',number=100000)
0.0036053537262432656
>>> timeit.timeit('a=()',number=100000)
0.0023545833664684324

假如是索引操作的话,两者的速度差别不大,如下:

1
2
3
4
5
>>> import timeit
>>> timeit.timeit('l[2]','l=[1,2,3,4,5,6]',number=100000)
0.004119004664845605
>>> timeit.timeit('t[2]','t=(1,2,3,4,5,6)',number=100000)
0.004483832125249165

但是假如想要增加、删除或者修改元素的话,那么列表显然更优。因为对于元组来说,必须得创建一个新的元组才行。

timeit.timeit(stmt=‘pass’, setup=‘pass’, timer=, number=1000000):创建一个Timer实例,参数分别是stmt(需要测量的语句或函数),setup(初始化代码或构建环境的导入语句),timer(计时函数),number(每一次测量中语句被执行的次数)

列表和元组创建方法推荐

想创建一个空的列表,我们可以用下面两种方式

1
2
l = []		# 第一种方式创建
l = list()	# 第二种方式创建

这两种方式区别主要在于list()是一个function call,Python的function call会创建stack,并且进行一系列参数检查的操作,比较费时;而[]是一个内置的C函数,可以直接被调用,因此效率高。测试效果如下:

1
2
3
4
>>> timeit.timeit('l=[]',number=100000)
0.0035447046600438625
>>> timeit.timeit('l=list()',number=100000)
0.017651677483172534

4. 列表和元组的使用场景

  1. 如果存储的数据和数量不变,比如你有一个函数,需要返回的是一个地点的经纬度,然后直接传给前端渲染,那么肯定选用元组更合适
  2. 如果存储的数据或数量是可变的,比如社交平台上的一个日志功能,是统计一个用户在一周之内看了哪些用户的帖子,那么则用列表更合适。