最新開源:高效的 Python 通用對象池化庫
在程序設計中,創建物體模塊主要是通過生成對象來實現。當對象使用結束后,則會成為不再需要的模塊進行銷毀。
而在系統進行對象的生成與銷毀過程中會大量的增加內存的消耗,同時對象的銷毀往往會留下殘留的信息,這樣將會伴隨內存泄露的問題存在。
在實際的程序開發過程中,往往需要生成和銷毀大量重復的對象,這就使得內存泄漏產生的信息過多而無法被系統回收,從而占用系統更多的內存,而且生成物體過多時無法確定被什么模塊實例化實現,對系統造成負擔,不利于管理及后續操作,長此以往最終將導致程序變慢甚至崩潰。
對象池是存放了一批已經創建好的對象的池,它是一個用來維護對象的結構。當程序需要使用對象的時候,可以直接從池中獲取該對象,而不是實例化一個新的對象。
在程序設計過程中,大部分人關注的往往只是對象的使用和效果的實現,實際上創建和使用之間還有一個初始化的過程,不過系統會將初始化和創建這兩步結合在了一起,這樣使得設計者忽略了系統創建和銷毀對象這一過程對系統的影響。
通常來講,一個對象的創建和銷毀過程開銷很小,可以忽略不計,但是如果一個程序中涉及到一種對象多次創建,并且創建時間比較長,那就會能很明顯的感覺到這部分的消耗所造成的系統速度受限。
對象池可以看作是減少 GC 壓力的首選方法,同時也是最簡單的方法。
對象池模式主要適用于以下應用場景:
-
資源受限的場景。比如,不需要可伸縮性的環境(CPU、內存等物理資源有限),CPU性能不夠強勁,內存比較緊張,垃圾收集,內存抖動會造成比較大的影響,需要提高內存管理效率, 響應性比吞吐量更為重要。 -
在內存中數量受限的對象。 -
創建成本高的對象。 -
大量的存活期短且初始化成本低的對象池化,以降低內存分配和再分配成本,避免內存碎片。 -
Python 的這樣的動態語言,GC 是依靠引用技術來來保證對象不會過早的回收,某些場景下可能出現雖然創建了但是沒人使用的空閑期,導致對象被回收了。可以委托給對象池來保管。
Pond 介紹
Pond 是一個 Python 中高效的通用對象池,具有性能好、內存占用小、命中率高的特點?;诮平y計的根據頻率自動回收的能力,能夠自動調整每個對象池的空閑對象數量。
因為目前 Python 目前沒有比較好的、測試用例完備、代碼注釋完備、文檔完善的對象池化庫,同時目前的主流對象池庫也沒有比較智能的自動回收機制。
Pond 可能是 Python 中第一個社區公開的測試用例完整,覆蓋率 90% 以上、代碼注釋完備、文檔完善的對象池化庫。
Pond 靈感來自于 Apache Commons Pool、Netty Recycler、HikariCP、Caffeine,集合了多家的優點。
其次 Pond 通過使用近似計數的方式以極小的內存空間統計每個對象池的使用頻率,并且自動回收。
流量較為隨機平均的情況下,默認策略和權重可以降低 48.85% 內存占用,借取命中率 100%。
流量較為符合 2/8 定律的情況下,默認策略和權重可以降低 45.7% 內存占用, 借取命中率 100%。
設計概述
Pond 主要由 FactoryDict、Counter、PooledObjectTree 三部分以及一個單獨的回收線程構成。
FactoryDict
使用 Pond 需要實現對象工廠 PooledObjectFactory,PooledObjectFactory 提供對象的創建、初始化、銷毀、驗證等操作,由 Pond 調用。
所以為了讓對象池支持存放完全不同的對象,Pond 使用了一個字典來記錄每個工廠類的名稱和自己實現的工廠類的實例化對象。
每個 PooledObjectFactory 應該具備創建對象、銷毀對象、驗證對象是否還可用、重置對象四個功能。
比較特別的是 Pond 支持自動重置對象,因為某些場景下可能會存在對象中要先賦值進行傳遞,傳遞完又被回收的情況,為了避免污染建議這種場景下無比實現這個功能。
Counter
Counter 中保存了一個近似計數器。
PooledObjectTree
PooleedObjectTree 是個字典,每個 key 對應著一個先進先出的隊列,這些隊列都是線程安全的。
每個隊列中保存著多個 PooleedObject。PooledObejct 保存了創建時間、最后借出的時間以及實際需要的對象。
線程安全
Pond 的借用和回收都是線程安全的。Python 的 queue 模塊提供了一個適用于多線程編程的先進先出(FIFO)數據結構。它可以用來安全地在生產者和消費者線程之間傳遞消息或其他數據。
鎖是調用者來處理的,所有多個線程能夠安全且容易的使用同樣的 Queue 實例工作。而 Pond 的借用和回收都是在操作 queue,所以基本可以認為是線程安全的。
借出機制
在使用 Pond 借出一個對象時,會先檢查想要借出的對象的種類是否已經在 PooledObjectTree 存在,如果存在會檢查這個對象的對象池是否為空,如果為空會創建一個新的。
如果對象池中有多余的對象,會利用 queue 彈出一個對象并驗證這個對象是否可用。如果不可用會自動調用所屬的 Factory 清理銷毀該對象,同時清理它在 Python 中的 GC 計數,讓它更快被 GC 回收,不斷拿取下一個直至有可用的。
如果這個對象可用,則會直接返回。當然無論是從對象池中取出對象還是新創建了一個對象,都會利用 Counter 增加一個計數。
回收機制
回收一個對象時會判斷目標對象池存不存在,如果存在會檢查對象池是否已經滿了,滿了的話會自動銷毀要歸還的這個對象。
然后會檢查這個對象是否已經被借出太長時間,如果超過了配置的最長時間同樣會被清理掉。
自動回收
自動回收時每隔一段時間,默認是 300 s,就會執行一次。自動清理不經常使用的對象池中的對象。
使用說明
你可以先安裝 Pond 的庫并且在你的項目中引用。
首先你需要聲明一個你想要放入的類型的對象的工廠類,比如下面的例子我們希望池化的對象是 Dog,所以我們先聲明一個 PooledDogFactory 類,并且實現 PooledObjectFactory。
接著你需要創建 Pond 的對象:
Pond 可以傳遞一些參數進去,分別代表:
borrowed_timeout
?:單位為秒,借出對象的最長期限,超過期限的對象歸還時會自動銷毀不會放入對象池。
time_between_eviction_runs
?:單位為秒,自動回收的間隔時間。
thread_daemon
?:守護線程,如果為 True,自動回收的線程會隨著主線程關閉而關閉。
eviction_weight
?:自動回收時權重,會將這個權重與最大使用頻次想乘,使用頻次小于這個值的對象池中的對象都會進入清理步驟。
實例化工廠類:
所有繼承了 PooledObjectFactory 都會自帶構造函數,可以傳遞 pooled_maxsize 和 least_one 兩個參數。
pooled_maxsize
:這個工廠類生成出的對象的對象池的最大能放置的數量。
least_one
:如果為 True,在進入自動清理時,這個工廠類生成出的對象的對象池會至少保留一個對象。
向 Pond 注冊這個工廠對象,默認會使用 factory 的類名作為 PooledObjectTree 的 key :
當然你也可以自定義它的名字,名字會作為 PooledObjectTree 的 key:
注冊成功后,Pond 會自動根據 factory 中設置的 pooled_maxsize 自動開始創建對象直至填滿這個對象池。
借用和歸還對象:
當然你可以用名字來進行借用和歸還:
完全清理一個對象池:
通過名字清理一個對象池:
正常情況下,你只需要使用上面的這些方法,生成對象和回收對象都是全自動的。
技術原理
更多細節,可以參閱 Github 項目或原作者的博客:https://qin.news/pond
注:最近偶然看到一個國內開發者新開源在 Github 上的項目,意圖提供“高效的通用對象池”技術。除了 README 文檔,原作者還撰寫了一篇較為詳細的博客。經授權后,貓哥整合&轉載于此,分享給大家~~
來源:https://github.com/T-baby/pondpond