執行資料平行處理的效能考量


iThome 網站首載:執行資料平行處理的效能考量

JDK8的Stream程式庫標榜著,只要簡單地將stream方法,改為parallelStream,就可以獲得平行處理的可能性,增加處理效能,實際上,事情似乎並沒有那麼簡單,在將程式重構為運用Stream程式庫並改用parallelStream,效能沒有增加或不昇反降的情況很多,究竟是怎麼一回事?

平行任務的重要性

平行(Parallelism)與並行(Concurrency)不同,如果兩個任務分配到一個CPU核心,在取得的時間片段中交互執行,稱之為並行。如果有兩個核心,兩個任務各分配到其中之一同時執行,稱之為平行。現今開發者對於並行設計應不陌生,利用並行運算處理多個流程,讓客戶端以為任務「同時」執行,或者是某任務被阻斷(Block)之時,切換另一任務執行,避免等待而浪費CPU執行時間,用以提昇整體任務執行效率。

過去十年多以來,處理器著重在多核心的發展,就連個人電腦、智慧型手機等,多核心處理器的搭載已經是基本配備,在提昇整體任務執行效率這方面,越來越多開發者注意到,設法將任務分配至多個核心上平行執行,成為另一個可行途徑。只不過,程式上要直接進行平行設計並不容易,直接面對低階的平行處理程式庫,容易使得開發者陷入混亂之中,所幸地,對於一些平行處理模式,近來越來越多高階程式庫可供使用,這使得開發者可以專心地在平行任務的表達上著墨,不用面對低階細節,JDK8的平行Stream處理,就是實際的例子。

然而,即使辛苦地將既有的程式重構為Stream API版本,而後改用了parallelStream,效率也不會理所當地獲得提昇。根據計算機科學界的〈Amdahl's law〉經驗法則,如果任務中沒有任何能平行處理的分量,那麼擁有再多的核心,應用程式本身也不會獲得任何的效率提昇;然而,如果能將序列處理中的一半改為平行處理,在不考慮投入的核心數下,效率就會增加為兩倍。Stream API這類高階程式庫的目的,就是讓開發者有機會更專心地思考,循序任務如何能進一步地平行化,而這通常意謂著開發者得重新設計,或者從另一個角度來看待任務。

思考分而治之的處理過程

在我先前專欄〈從Thread到MapReduce〉中曾談過,平行化是不斷解開「做什麼」與「何時做」之間相依性的策略。以Stream API來說,它可處理的平行類型是資料平行(Data parallelism),也就是將全部可處理的資料劃分為各個小塊,再各自進行平行處理。最簡單的例子就是發現循序時是對每個元素進行相同處理,像是將歌曲清單改為歌曲長度清單,就非常適合改為平行處理,而根據條件過濾元素也是其中一個例子。

利用Stream API,將資料處理過程重構,是個令資料處理過程得以「接近」分而治之(Divide and conquer)可行性的方式,然而,並非可重構為Sttream API的程式,就可以輕易改為parallelStream獲得效能,如果沒事先思考分而治之的過程,非但無法獲得效能提昇,反而還會造成結果錯誤。例如,將數字清單乘在一起,最後結果再乘以5,寫為numbers.stream().reduce(5, (acc, x) -> x * acc)結果是正確的,但stream方法改呼叫parallelStream就會產生錯誤的結果,因為在分而治之的各個過程,都會乘上一次5,如果改用parallelStream要得到正確結果,必須寫為5 * numbers.parallelStream().reduce(1, (acc, x) -> x * acc)

有些操作整體看來,沒辦法平行處理,然而換個角度思考,或許就能找出平行處理某些步驟的可能性,〈Java 8 Lambdas〉中舉了個計算簡單移動平均(Simple moving average)的例子,以n日的移動平均計算來看,似乎得循序地每n日計算出一個平均,然而,亦可事先對陣列使用Arrays.parallelPrefix做平行累計加總,之後再循序地減去各元素前置項並除以n,根據〈Amdahl's law〉,由於部份循序分量改為平行分量,這也有助於效能提升的可能性。

反過來說,使用了Stream API的處理過程中,如果有些操作涉及了循序處理,像是forEachOrderedsortedlimit之類的有序操作,其成本有可能蓋過先前平行處理時爭取來的效率,因而使得整體效率沒有提升。如果順序不重要時,可考量使用unordered方法去除順序,某些操作像是過濾重複元素(Distinct)或群組(Group),在無序的資料來源上會比較有效率。

思考額外的成本負擔

無論如何,程式實際上是運行於電腦之上,因而平行處理時必須有電腦資源上的考量。最基本的,平行處理必須分而治之,在將資料切為子資料的過程中,會有切割、建立新物件、結合為最終結果等成本考量。因而在資料量不大的情況下,分割結合成本高過於平行處理得到的效益時,改為平行處理反而使得效率低落。雖然常見的籠統建議都聲稱,一切以評測(Benchmark)結果為主,這並沒有錯,只不過在這之前,是否有個依據可供參考?

Doug Lea在〈Stream Parallel Guidance〉文件中給了一些建議,對於S.parallelStream().operation(F),如果NS的元素數量,而QF處理每個元素的成本,可以大略使用F中的操作或行數來計算,如果N*Q至少超過10000,才有平行化的價值。因此,如果操作簡單如x -> x + 1,那麼至少得有10000個以上的元素,才有平行化的價值,相對地,如果每個元素涉及大量運算,那麼就越有平行化的價值。

在Java上得考量一種處理成本:基本資料型態與對應的包裹器型態間的轉換。例如,intInteger之間的Boxing與Unboxing操作。如果實際上List中都是數值且進行數學運算,考慮使用mapToInt轉為專屬於intIntStream,而後再進行數學運算,可免去不必要的Boxing與Unboxing成本。目前就JDK8的Stream程式庫來說,也不建議對I/O做平行處理。在想要免於I/O、同步處理等待之類情況下,其他並行、非同步I/O程式庫或CompletableFuture會是比較好的選擇。

資料來源的結構也是一個考量,先前談過,可思考將有序打為無序後,是否對平行處理有益,另一方面,因為平行處理必須分而治之,在這之前採取易於劃分的資料結構作為來源,對平行處理會有幫助,例如支援隨機存取的陣列、ArrayList或具有一定範圍的IntStream.range,平行處理時會比較有效率;而HashSetTreeSet等,因為涉及雜湊空間與樹平衡等考量,會是其次之選;然而,像是LinkedList這類鏈結資料,走訪劃分資料的成本是O(N),就不適合作為平行處理的來源結構,長度無法確定的資料來源,像是Streams.iterateBufferedReader.lines等,也不建議採用。

程式庫僅提供專注思考平行的機會

一匹馬拉著一輛載滿貨物的車,與將貨物平分到數輛車分別由數匹馬拉相比,後者會快一點到達目的地,不過前題是得有馬來拉車。因而,在單核心處理器上,基本上不需要平行處理;多核心處理器如果各有其他任務要忙,實際上也可能無暇處理應用程式的平行任務;增加更多的核心也不一定有幫助,每個核心只處理一點點任務沒什麼太大效益,根據〈Amdahl's law〉,核心增加後能得到的效益,存在一個極限值,也就是再增加核心也沒有用,這個極值是受限於程式中循序處理的部份。

因此,最終開發者還是得思考,如何將循序設計改為平行設計,像JDK8的Stream API這類的程式庫,基本上只是讓開發者不用關心低階層次如何處理平行,而能有更多空間來思考或訓練自己進行平行設計,而有些效能考量其實是從循序處理時就得累積建立,像是前述資料結構、元素處理成本的考量,只是將stream改為parallelStream就想獲得效能提昇,大概跟博杯(擲筊)的意思沒兩樣!