硬件強(qiáng)悍,算法是否已經(jīng)不再重要?
本文翻譯自程序員的問答社區(qū) stackexchange.com 上的一個問題。
提問:追求算法(特別是普遍高效的)已經(jīng)不再重要。
因為現(xiàn)在計算機(jī)硬件的成本,比起以前已經(jīng)很便宜,是否意味著算法和改進(jìn)算法的技能已經(jīng)不那么重要了?大部分時候,只要別寫出一個死循環(huán)就行了。但當(dāng)你擁有了強(qiáng)悍的硬件,是不是意味著爛代碼也不是什么大問題?
Pavel Zaichenkov 11 票
我特別喜歡《算法導(dǎo)論(Introduction to Algorithms)》一書中的一個例子,以摧枯拉朽地方法說明了算法性能的重要性:
我們來比較兩種排序算法:「插入排序」 和 「歸并排序」 。他們的算法復(fù)雜度分別是 O(n2)=c1n2 和 O(nlogn)=c2n lg n。一般情況下,歸并排序算法有一個更大的常數(shù)因子,所以我們假設(shè) c1 < c 2。
為了回答你的問題,我們在一臺時髦的高速電腦 A 上跑「插入排序」算法,和一臺跑「歸并排序」算法的老土電腦 B 做對比。
我們假設(shè):
- 輸入的問題數(shù)據(jù)量為 1,000萬個數(shù)字:n=107;
- 電腦 A 一秒鐘可以執(zhí)行 1010 次運算指令 ( ~ 10GHz );
- 電腦 B 一秒鐘只能執(zhí)行 107 次運算指令 ( ~ 10MHz );
- 常數(shù)系數(shù) C1 = 2 (有點夸張),C2 = 50 (比現(xiàn)實中稍微小了一點)
于是在以上假設(shè)下,我們得到如下結(jié)果:
電腦 A :
2⋅(107)2 次運算1010 次運算/秒=2⋅104 秒
電腦 B :
50⋅107lg107 次運算107 次運算/秒≈1163 秒
所以你看,那部慢了1000倍的電腦,干活速度是快的那臺的17倍。而且在現(xiàn)實中,歸并算法有更高的效率,特別是隨計算量增加的而更加明顯。我希望這個答案能回答你的問題。
然而,這還不光是算法復(fù)雜程度的問題。在今天,單單想通過提高CPU主頻來獲得很明顯的性能提升是不可能的。我們需要改良算法在多核CPU架構(gòu)下的 表現(xiàn)。而且這是個不太好對付的問題,因為隨著內(nèi)核數(shù)量的增加,其他方面的開銷正在成為性能的障礙(比如內(nèi)存訪問調(diào)度控制)。所以,堆硬件很難獲得線性的性 能增長。
總而言之,當(dāng)下對于算法的改進(jìn)和以前一樣重要,因為再多的CPU內(nèi)核和再高的主頻都無法給你帶來和算法改進(jìn)一樣的回報。
Yuval Filmus 11票
正相反,隨著硬件越來越便宜,新的運算需求正在增加。
首先,我們現(xiàn)在所需要面對和處理的數(shù)據(jù)正海量增加。這就要談到「準(zhǔn)線性算法(quasilinear time algorithms)」和大數(shù)據(jù)研究的話題。比如想想搜索引擎的算法設(shè)計 —— 它們必須要處理巨量的請求,在茫茫數(shù)據(jù)中,快速地找到,返回結(jié)果,算法的效率比以前更加重要。
其次,「機(jī)器學(xué)習(xí)(machine learning)」的勢頭正猛,這就是一個算法的世界(可能和你大學(xué)本科學(xué)的不太一樣)。這個領(lǐng)域充滿荊棘,但也正是新的算法誕生的地方。
再者,「分布式計算」已經(jīng)變得非常重要,現(xiàn)在我們在CPU主頻提升上已經(jīng)遇到了瓶頸。如今計算機(jī)性能只能通過并行計算來獲得提升,這也是算法發(fā)揮力量的地方。
最后,為了平衡 CPU/GPU 性能的突飛猛進(jìn),大量虛擬機(jī)技術(shù)被用來抵御安全漏洞的威脅,操作系統(tǒng)花費更多的時間和精力來處理安全威脅和警報,余下的CPU時間才能真正用來做正經(jīng)事, 這讓你的程序性能表現(xiàn)有所下降。特別是還有很耗費CPU資源的視頻壓縮/解壓縮計算,雖然計算機(jī)硬件性能與日俱增,但使用效率并沒有同樣提高。
總結(jié)一下,對于大數(shù)據(jù)處理、人工智能領(lǐng)域、分布式計算來說,算法的改進(jìn)是不可或缺的;CPU 的運算能力在脫韁野馬一般增長的需求面前,因為各種原因沒有得到有效的利用,算法的重要性離死還遠(yuǎn)著呢。
譯文鏈接:http://junius.lofianima.com/post/algorithms-is-important