得益於 Python
的自動垃圾回收機制,在 Python
中創建物件時無須手動釋放。這對開發者非常友好,讓開發者無須關注低層記憶體管理。但如果對其垃圾回收機制不了解,很多時候寫出的 Python
程式碼會非常低效。
垃圾回收演算法很多,主要有: 引用計數
、 標記-清除
、 分代收集
等。
在 python
中,垃圾回收演算法以 引用計數
為主, 標記-清除
和 分代收集
#兩種機制為輔。
引用計數原理比較簡單:
每個物件都有一個整數的引用計數屬性。用於記錄物件被引用的次數。例如物件 A
,如果有物件引用了 A
,則 A
的引用數 1
# 。當引用刪除時, A
的引用計數 -1
。當 A
的引用計數為0時,即表示物件 A
# 無法再使用,直接回收。
在 Python
中,可以透過 sys
模組的 getrefcount
函數取得指定物件的引用計數器的值,我們以實際範例來看。
import sys class A(): def __init__(self): pass a = A() print(sys.getrefcount(a))
執行上面程式碼,可以得到輸出結果為 2
。
上面我們看到,在建立一個 A
對象,並將物件賦值給 a
變數後,物件的引用計數器值為 2
。那麼什麼時候計數器會 1
,什麼時候計數器會 -1
呢?
A() a=A() func(a) arr=[a,a]
物件被明確銷毀,如 del a
。變數重新賦予新的對象,例如 a=0
。物件離開它的作用域,如 func
函數執行完畢時, func
函數中的局部變數(全域變數不會)。
物件所在的容器被銷毀,或從容器中刪除物件。
為了更好的理解計數器的增減,我們運行實際程式碼,一目了然。
import sys class A(): def __init__(self): pass print("创建对象 0 + 1 =", sys.getrefcount(A())) a = A() print("创建对象并赋值 0 + 2 =", sys.getrefcount(a)) b = a c = a print("赋给2个变量 2 + 2 =", sys.getrefcount(a)) b = None print("变量重新赋值 4 - 1 =", sys.getrefcount(a)) del c print("del对象 3 - 1 =", sys.getrefcount(a)) d = [a, a, a] print("3次加入列表 2 + 3 =", sys.getrefcount(a)) def func(c): print('传入函数 1 + 2 = ', sys.getrefcount(c)) func(A())
輸出結果如下:
创建对象 0 + 1 = 1 创建对象并赋值 0 + 2 = 2 赋给2个变量 2 + 2 = 4 变量重新赋值 4 - 1 = 3 del对象 3 - 1 = 2 3次加入列表 2 + 3 = 5 传入函数 1 + 2 = 3
高效、邏輯簡單,只要依照規則對計數器做加減法。
實時性。一旦物件的計數器為零,就表示物件永遠不可能再被用到,無須等待特定時機,直接釋放記憶體。
需要為物件分配引用計數空間,增大了記憶體消耗。
當需要釋放的物件比較大時,如字典對象,需要對引用的所有物件循環嵌套調用,可能耗時比較長。
循環引用。 這是引用計數的致命傷,引用計數對此是無解的,因此必須要使用其它的垃圾回收演算法對其進行補充。
上一小節提到,引用計數演算法無法解決循環引用問題,循環引用的物件會導致大家的計數器永遠都不會等於 0
,帶來無法回收的問題。
標記-清除
演算法主要用於潛在的循環引用問題,演算法分為2步驟:
標記階段。將所有的物件看成圖的節點,根據物件的引用關係建構圖結構。從圖的根節點遍歷所有的對象,所有訪問到的對像被打上標記,表示對像是「可達」的。
清除階段。遍歷所有對象,如果發現某個對象沒有標記為“可達”,則回收。
以具體程式碼範例說明:
class A(): def __init__(self): self.obj = None def func(): a = A() b = A() c = A() d = A() a.obj = b b.obj = a return [c, d] e = func()
上面程式碼中,a和b互相引用,e引用了c和d。整個引用關係如下圖所示
如果採用引用計數器演算法,那麼a和b兩個物件將無法被回收。而採用標記清除法,從根節點(即e物件)開始遍歷,c、d、e三個物件都會標示為 可達
,而a和b無法被標記。因此a和b會被回收。
这是读者可能会有疑问,为什么确定根节点是e,而不会是a、b、c、d呢?这里就有讲究了,什么样的对象会被看成是根节点呢?一般而言,根节点的选取包括(但不限于)如下几种:
当前栈帧中的本地变量表中引用的对象,如各个线程被调用的方法堆栈中使用到的参数、 局部变量、 临时变量等。
全局静态变量
...
在执行垃圾回收过程中,程序会被暂停,即 stop-the-world
。这里很好理解:你妈妈在打扫房间的时候,肯定不允许你在房间内到处丢垃圾,要不然永远也无法打扫干净。
为了减少程序的暂停时间,采用 分代回收
( Generational Collection
)降低垃圾收集耗时。
分代回收基于这样的法则:
接大部分的对象生命周期短,大部分对象都是朝生夕灭。
经历越多次数的垃圾收集且活下来的对象,说明该对象越不可能是垃圾,应该越少去收集。
Python
中,对象一共有3种世代: G0
, G1
, G2
。
对象刚创建时为 G0
。
如果在一轮 GC
扫描中存活下来,则移至 G1
,处于 G1
的对象被扫描次数会减少。
如果再次在扫描中活下来,则进入 G2
,处于 G1
的对象被扫描次数将会更少。
当某世代中分配的对象数量与被释放的对象之差达到某个阈值的时,将触发对该代的扫描。当某世代触发扫描时,比该世代年轻的世代也会触发扫描。
那么这个阈值是多少呢?我们可以通过代码查看或者修改,示例代码如下
import gc threshold = gc.get_threshold() print("各世代的阈值:", threshold) # 设置各世代阈值 # gc.set_threshold(threshold0[, threshold1[, threshold2]]) gc.set_threshold(800, 20, 20)
输出结果如下:
各世代的阈值: (700, 10, 10)
以上是如何掌握Python的垃圾回收機制。的詳細內容。更多資訊請關注PHP中文網其他相關文章!