高效能資料分析(HPDA)是一個新興技術,也是HPC的一個主要細分市場,在該領域目前活躍的主要玩家集中在雲服務、大資料、儲存、伺服器和網路領域(像IBM、Fujistu、SGI、甲骨文、惠普企業、谷歌等)。
根據WGR報告顯示,推動HPDA市場增長主要動力來自HPC資料密集型應用。在不久的將來,資料密集型業務的加速除了應用於傳統的HPC模擬和空間演演算法外,還將用於電子商務、金融和經濟領域。
目前,主要從技術和市場應用2個緯度對HPDA進行分類。
-
按技術細分市場主要分為Graph Analytics、Streaming Analytics、Compute Intensive Analytics和Novel Architectures等。
-
按市場應用細分為Financial Services、Manufacture、Scientific、Energy、Healthcare和Telecommunication等。
根據IDC預測,HPDA帶動伺服器收入的強勁增長(13.3%複合年增長率),從2012年的7.438億美元增加到2017年的14億美元。HPDA儲存收入將在今後一年達到8億美元。然而,HPDA儲存增長的技術挑戰是資料移動和管理。那麼,今天以富士通的HPDA解決方案為主線,詳細分析下HPDA參考架構和技術方案。
本文對大資料分析和HPC兩種技術融合所帶來的好處、具體應用場景和效能基準進行了深入的分析,其中包括HPC/HPDA概念、所涉及的元件,並解釋了通用的解決方案體系結構,充分體現了高效能資料分析的經濟價值。
同時,闡述一種成本效益參考模型,使企業能夠利用和利用現有的HPC基礎設施有效地執行HPDA工作負載。
高效能資料分析(HPDA)的出現
隨著資料爆炸式增長,企業內伺服器和儲存線性擴變得越來越困難。根據Hyperion預測,到2025年,全球資料空間將增長到163ZB,這是2011年HPC產生資料16.1ZB的10倍。
資料對計算能力的要求包括三個階段(資料捕獲和過濾、分析、結果視覺化展示),為了釋放大資料的全部潛力,資料規模必須將其與大計算(Big Compute)或HPC配配,讓更多的行業可以從大資料和HPC的結閤中受益。
任何工作負載需要加速計算和資料密集型工作負載時,都可以使用HPDA體系結構提高生產率,目前來看,HPDA幫助它們在競爭中保持領先的主要行業有:
-
1)電子商務和商業
-
2)天氣和氣候建模
-
3)傳統HPC環境(科學建模、教育研究環節)
高效能資料分析工作負載
根據檢索的速度、資料流、資料集、資訊輸入和輸出型別,高效能分析有著不同的型別的工作負載。這些因素的結合決定了獲得最佳分析結果所需的工作量和分析過程。
在資料密集和計算密集型應用中,工作負載是大規模、並行的,同時也高度依賴網路和儲存。來不同裝置的結構化和非結構化分析資料使得資料採集和過濾更加複雜,這些資料來源包括物聯網裝置、感測器等。
高效能資料分析的流程
在Hadoop等大資料應用上使用HPC資源建立了高效能的資料分析配置。在一個標準的大資料應用工作流中,需要對資料進行收集和分析以獲得近實時的洞察。分析等處理資訊所需的時間取決於收集資料的速率和處理的複雜性。類似地,在標準的HPC工作流中,資料的收集和合併,也需要基於複雜的數值模型透過並行處理以獲得所需的輸出。
當HPC和大資料技術合併時,HPDA平臺將具有HPC資源在大資料應用程式上執行複雜工作負載、處理和儲存大資料集的能力,整個處理流程如下圖所示:
何時實現HPDA體系結構
當談到市面上可用的資料分析解決方案時,Hadoop和Spark已經成為這些解決方案的代名詞。下麵,我們將試圖解釋什麼時候可以繼續使用標準的資料分析解決方案,什麼時候需要使用HPDA體系結構或解決方案。
如前所述,大資料分析Hadoop平臺是一個基於Java的開源程式設計框架,它是Apache軟體基金會發起的一個專案。它支援在分散式計算環境中處理和儲存大規模資料集。
Hadoop還利用了Map Reduce框架(由谷歌開發),該框架提供排程、分發和並行服務。Map Reduce框架從Hadoop分散式檔案系統(HDFS)獲取輸入資料。然而與HPC並行檔案系統(如Fujitsu Software FEFS)、其他並行檔案系統或GPFS或FEFS相比,HDFS的速度要慢得多。相比HDFS,這些HPC檔案系統更有效地支援小檔案的隨機讀取。HDFS適用於大型資料集。
另一個解決方案是Spark,它是Apache專案的第二代大資料處理架構,是一個在分散式計算叢集(如Hadoop)上執行通用資料分析的框架。它為Map Reduce資料處理提供記憶體計算能力,因此是一個效能更高的解決方案。但是,對於要求事實、高速分析的資料集和工作負載來說,該解決方案會佔用大量記憶體資源。
即使在訊息傳遞介面(MPI)中重寫Hadoop的通訊機制、在Hadoop中支援Lustre、或者在Hadoop中實現InfiniBand通訊層,都不能獲得預期的高效能運算效果。因此,結合高效能運算硬體、軟體資源和Hadoop或Spark,將大資料應用程式帶到高效能運算配置中,才能提供高效能、敏捷和可伸縮的解決方案。在這兩個領域結合方面,高效能資料分析最有可能解決這些工作負載所需的計算速度和資料規模。
富士通在為Hadoop解決方案提供資料分析解決方案方面有著豐富的經驗。因此,我們認識到Hadoop在提供成本有效的資料分析解決方案方面的價值。然而,本文關註的是具有現有HPC基礎設施的使用者,展示了他們如何利用該基礎設施構建可伸縮的、敏捷的、高效能的HPDA環境。
HPDA參考模型
HPDA參考模型結合大資料和資料分析技術,體現了HPC基礎設施的智慧整合和效能優勢。如果客戶資料中心已經執行HPC基礎設施或Fujitsu的整合系統Primeflex,則可以在現有基礎設施資源的基礎上構建HPDA參考模型,並根據需求進行擴充套件。
或者,也可以從零開始構建、部署HPDA基礎設施Primeflex。在這兩種解決方案部署中,傳統的HPC叢集都增加了大資料和資料分析處理所需的Hadoop工具,使傳統的HPC工作負載能夠與HPDA共存。此外,HPC並行檔案系統配置了HDFS聯結器,使得HPDA應用程式和HPC應用程式同時無縫地訪問資料。
Fujitsu的這種方法可以構建敏捷的HPDA系統,結構化和非結構化資料處理都是在HPDA體系結構中完成處理。有效地結合了HPC和資料分析工作負載,從而最佳化降低客戶投入成本。
計算節點是一組靈活的HPC叢集節點,其上執行複雜和簡單的計算任務。Fujitsu PrimeRay RX2530 1U雙處理器伺服器是一種最優的計算伺服器,它具有很大的靈活性和擴充套件性,它可以擴充套件以滿足最苛刻的記憶體需求。
SSD用於計算節點上的本地儲存,推薦的SSD大小與記憶體比為3:1。基於BeeGFS的單個並行檔案系統配置了HDFS聯結器功能,為HPC和HPDA工作負載提供盡可能好的效能。
基於InfiniBand/Omni-Path的HPC架構的高速互連用於確保節點間通訊最大化,對需要持久化儲存的資料移動達到了最高的吞吐量。
HPDA通用系統架構
一個共享的HPC和HPDA結合環境,HPDA元件的主要屬性是將頭節點上的作業提交與批處理系統整合,使HPDA使用者能夠直接向HPC基礎設施提交工作。本地PFS被配置為HDFS相容檔案系統,為HPDA行程提供高速資料訪問能力。永久儲存層還使用PFS構建,以便HPC和HPDA作業都能夠儲存長期資料。
下麵給出了基於中到超大資料大小的推薦配置。這些系統配置可以作為參考指導,以最低價格和最高效能實現最優配置。
Fujistu HPDA參考模型的優勢只要體現在以下幾個方面:
-
其中最重要的優勢是該HPDA解決方案是在現有HPC平臺上進行部署。
-
透過相同的叢集管理工具(SLURM)執行密集型計算和大資料資料分析業務。
-
提供高效能HPC平臺加速Hadoop,透過高速互連和並行檔案系統帶來前所未有的效能提升效率。
為了證明這個解決方案的效能優勢,Fujistu在相同的硬體上執行標準的TeraSort基準測試,測試涵蓋標準的Spark、HDFS環境到BeeGFS。測試遵循該HPDA參考模型的指導原則。驗證使用接連到Slurm批處理的資料分析排程聯結器來管理資料分析過程,比如管理HPC應用程式、帶有HDFS聯結器的BeeGFS,BeeGFS是負責資料儲存元件,用來取代了HDFS。
TeraSort基準的是盡可能快地對大量資料進行分類,該測試基準可以全面測試儲存、HDFS和MapReduce層的綜合能力。然而測試表明,Fujistu的HPDA參考架構比標準HDFS配置展現出更好的吞吐量,並極大地減少資料生成和分析時間。
這個基準測試執行在Fujistu的Primeflex硬體平臺上,該平臺由8個計算節點組成,每計算節點包括雙路Broadwell處理器和128GB主存。使用的儲存裝置是標準的400GB Intel SSD,採用8節點伺服器構建並行檔案系統作為資料儲存。
結論和總結
簡單地說,針對這些複雜的、時效性高的大資料工作負載,很多傳統HPC並行檔案系統廠商都提供了HDFD、HDF5等大資料支援選項,Fujistu的HPDA參考架構也是採用類似方案,該方案對現網影響小且投入成本低,是眼下應對HPDA不錯的選擇。
該HPDA參考模型利用現有的HPC基礎設施和資源,在不破壞原有工作負載的情況下,執行Hadoop或啟動大資料應用程式以獲得這兩個方面的最佳效果。
很多政府、商業組織和研究公司認為透過使用HPC資源進行資料分析,每年可以節省數百萬美元。Fujistu認為其HPC的整合系統Primeflex提供了一個理想的可伸縮解決方案,可以將HPC和資料分析工作負載結合到一個HPC基礎設施上。
關註公眾號,併在公眾號後臺用鍵盤迴復“HPDA”關鍵字,下載Fujistu HPDA參考架構技術白皮書。
關於高效能運算技術,前期詳細總結分享過<高效能運算(HPC)技術、方案和行業全面解析>電子書,請點選原文連結查閱詳情。
溫馨提示:
請搜尋“ICT_Architect”或“掃一掃”二維碼關註公眾號,點選原文連結獲閱讀原文瞭解更多。
求知若渴, 虛心若愚