加速函數(shù),每個Python程序員都應(yīng)該了解標(biāo)準(zhǔn)庫的Lru_cache
加速新境界:通過使用簡單的緩存功能,僅需一行代碼即可加速你的函數(shù)。
不久前,我構(gòu)建了一個日常運(yùn)行的ETL管道,其通過從外部服務(wù)中抽取數(shù)據(jù)來豐富輸入數(shù)據(jù),然后將結(jié)果加載到數(shù)據(jù)庫中。
隨著輸入數(shù)據(jù)的增加,等待外部服務(wù)器的響應(yīng)變得非常費(fèi)時,這使得ETL進(jìn)程越來越慢。經(jīng)過一番調(diào)查,我發(fā)現(xiàn)與總記錄數(shù)(~500k)相比,并沒有太多不同的輸入值(~500)。
因此,換句話說,使用相同的參數(shù)調(diào)用外部服務(wù)時,每個參數(shù)大約要重復(fù)執(zhí)行1000次。
像這樣的情況是使用緩存的主要用例。緩存一個函數(shù)意味著無論何時首次計算函數(shù)的返回值,都會將其輸入和結(jié)果放在字典中。
對于每個后續(xù)函數(shù)調(diào)用,首先通過查看緩存來檢查結(jié)果是否已經(jīng)計算過。如果在緩存中找到了,那就很完美,不需要再次計算!如果沒有找到,就計算結(jié)果并將輸入和結(jié)果存儲在緩存中,以便下一個函數(shù)調(diào)用時查找到它。
Python標(biāo)準(zhǔn)庫附帶了許多鮮為人知但功能強(qiáng)大的軟件包。對于本示例,將使用functools中的lru_cache。(LRU代表“最近最少使用(Least Recently Used)”,正如字面意思,這明確意味著緩存將保留最近的輸入/結(jié)果對。)
從Fun(c)tools中導(dǎo)入lru_cache
把c放進(jìn)括號中有點像一個蹩腳的笑話,因為這樣functools就變成了fun tools(有趣的工具),使用緩存當(dāng)然很有趣!
這里無需過多解釋。導(dǎo)入lru_cache并用它來裝飾一個函數(shù),該函數(shù)將生成斐波那契數(shù)。
裝飾函數(shù)意味著將該函數(shù)與緩存函數(shù)包裝在一起,隨后每當(dāng)調(diào)用fib_cache函數(shù)時,都將調(diào)用緩存的函數(shù)。
比賽開始
我們進(jìn)行了一個實驗,計算函數(shù)的緩存和未緩存版本從0到40計算所有斐波那契數(shù)所花費(fèi)的時間,并將結(jié)果放入各自的列表中。
獲勝者
對于較小的斐波那契數(shù),二者并沒有什么大的區(qū)別,但是一旦達(dá)到約30個樣本,緩存函數(shù)的效率增益就開始累加。
我沒有耐心讓未緩存的版本運(yùn)行超過40個樣本,因為它的運(yùn)行時間是指數(shù)增長的。而對于緩存的版本,它的運(yùn)行時間只是線性增量。
這就完成了!距離Python緩存僅一行代碼之遙。畢竟它并沒那么可怕。
在初始示例中,我在Pandas數(shù)據(jù)框上使用了數(shù)據(jù)轉(zhuǎn)換。值得一提的是,緩存的函數(shù)可以傳遞給Pandas apply,而無需進(jìn)行其它的任何更改。
是不是很棒?你也來試試吧~