歡迎光臨
每天分享高質量文章

HPC高性能計算知識: HPDA新興技術分析(附下載)

高性能資料分析(HPDA)是一個新興技術,也是HPC的一個主要細分市場,在該領域目前活躍的主要玩家集中在雲服務、大資料、儲存、服務器和網絡領域(像IBM、Fujistu、SGI、甲骨文、惠普企業、谷歌等)。

根據WGR報告顯示,推動HPDA市場增長主要動力來自HPC資料密集型應用。在不久的將來,資料密集型業務的加速除了應用於傳統的HPC模擬和空間演算法外,還將用於電子商務、金融和經濟領域。

目前,主要從技術和市場應用2個緯度對HPDA進行分類。


  • 技術細分市場主要分為Graph Analytics、Streaming Analytics、Compute Intensive Analytics和Novel Architectures等。

  • 市場應用細分為Financial Services、Manufacture、Scientific、Energy、Healthcare和Telecommunication等。

根據IDC預測,HPDA帶動服務器收入的強勁增長(13.3%複合年增長率),從2012年的7.438億美元增加到2017年的14億美元。HPDA儲存收入將在今後一年達到8億美元。然而,HPDA儲存增長的技術挑戰是資料移動和管理。那麼,今天以富士通的HPDA解決方案為主線,詳細分析下HPDA參考架構和技術方案。

本文對大資料分析和HPC兩種技術融合所帶來的好處、具體應用場景和性能基準進行了深入的分析,其中包括HPC/HPDA概念、所涉及的組件,並解釋了通用的解決方案體系結構,充分體現了高性能資料分析的經濟價值。

同時,闡述一種成本效益參考模型,使企業能夠利用和利用現有的HPC基礎設施有效地運行HPDA工作負載。


高性能資料分析(HPDA)的出現

隨著資料爆炸式增長,企業內服務器和儲存線性擴變得越來越困難。根據Hyperion預測,到2025年,全球資料空間將增長到163ZB,這是2011年HPC產生資料16.1ZB的10倍。

資料對計算能力的要求包括三個階段(資料捕獲和過濾、分析、結果可視化展示),為了釋放大資料的全部潛力,資料規模必須將其與大計算(Big Compute)或HPC配配,讓更多的行業可以從大資料和HPC的結合中受益。


任何工作負載需要加速計算和資料密集型工作負載時,都可以使用HPDA體系結構提高生產率,目前來看,HPDA幫助它們在競爭中保持領先的主要行業有:


  • 1)電子商務和商業

  • 2)天氣和氣候建模

  • 3)傳統HPC環境(科學建模、教育研究環節)

高性能資料分析工作負載


      根據檢索的速度、資料流、資料集、信息輸入和輸出型別,高性能分析有著不同的型別的工作負載。這些因素的結合決定了獲得最佳分析結果所需的工作量和分析過程。

在資料密集和計算密集型應用中,工作負載是大規模、並行的,同時也高度依賴網絡和儲存。來不同設備的結構化和非結構化分析資料使得資料採集和過濾更加複雜,這些資料來源包括物聯網設備、傳感器等。

高性能資料分析的流程

在Hadoop等大資料應用上使用HPC資源創建了高性能的資料分析配置。在一個標準的大資料應用工作流中,需要對資料進行收集和分析以獲得近實時的洞察。分析等處理信息所需的時間取決於收集資料的速率和處理的複雜性。類似地,在標準的HPC工作流中,資料的收集和合併,也需要基於複雜的數值模型通過並行處理以獲得所需的輸出。

當HPC和大資料技術合併時,HPDA平臺將具有HPC資源在大資料應用程式上運行複雜工作負載、處理和儲存大資料集的能力,整個處理流程如下圖所示:

何時實現HPDA體系結構

當談到市面上可用的資料分析解決方案時,Hadoop和Spark已經成為這些解決方案的代名詞。下麵,我們將試圖解釋什麼時候可以繼續使用標準的資料分析解決方案,什麼時候需要使用HPDA體系結構或解決方案。

如前所述,大資料分析Hadoop平臺是一個基於Java的開源編程框架,它是Apache軟體基金會發起的一個專案。它支持在分佈式計算環境中處理和儲存大規模資料集。

Hadoop還利用了Map Reduce框架(由谷歌開發),該框架提供調度、分發和並行服務。Map Reduce框架從Hadoop分佈式檔案系統(HDFS)獲取輸入資料。然而與HPC並行檔案系統(如Fujitsu Software FEFS)、其他並行檔案系統或GPFS或FEFS相比,HDFS的速度要慢得多。相比HDFS,這些HPC檔案系統更有效地支持小檔案的隨機讀取。HDFS適用於大型資料集。

另一個解決方案是Spark,它是Apache專案的第二代大資料處理架構,是一個在分佈式計算集群(如Hadoop)上執行通用資料分析的框架。它為Map Reduce資料處理提供記憶體計算能力,因此是一個性能更高的解決方案。但是,對於要求事實、高速分析的資料集和工作負載來說,該解決方案會占用大量記憶體資源。

即使在訊息傳遞接口(MPI)中重寫Hadoop的通信機制、在Hadoop中支持Lustre、或者在Hadoop中實現InfiniBand通信層,都不能獲得預期的高性能計算效果。因此,結合高性能計算硬體、軟體資源和Hadoop或Spark,將大資料應用程式帶到高性能計算配置中,才能提供高性能、敏捷和可伸縮的解決方案。在這兩個領域結合方面,高性能資料分析最有可能解決這些工作負載所需的計算速度和資料規模。

富士通在為Hadoop解決方案提供資料分析解決方案方面有著豐富的經驗。因此,我們認識到Hadoop在提供成本有效的資料分析解決方案方面的價值。然而,本文關註的是具有現有HPC基礎設施的用戶,展示了他們如何利用該基礎設施構建可伸縮的、敏捷的、高性能的HPDA環境。

HPDA參考模型

HPDA參考模型結合大資料和資料分析技術,體現了HPC基礎設施的智慧集成和性能優勢。如果客戶資料中心已經運行HPC基礎設施或Fujitsu的集成系統Primeflex,則可以在現有基礎設施資源的基礎上構建HPDA參考模型,並根據需求進行擴展。

或者,也可以從零開始構建、部署HPDA基礎設施Primeflex。在這兩種解決方案部署中,傳統的HPC集群都增加了大資料和資料分析處理所需的Hadoop工具,使傳統的HPC工作負載能夠與HPDA共存。此外,HPC並行檔案系統配置了HDFS連接器,使得HPDA應用程式和HPC應用程式同時無縫地訪問資料。

Fujitsu的這種方法可以構建敏捷的HPDA系統,結構化和非結構化資料處理都是在HPDA體系結構中完成處理。有效地結合了HPC和資料分析工作負載,從而優化降低客戶投入成本。

計算節點是一組靈活的HPC集群節點,其上運行複雜和簡單的計算任務。Fujitsu PrimeRay RX2530 1U雙處理器服務器是一種最優的計算服務器,它具有很大的靈活性和擴展性,它可以擴展以滿足最苛刻的記憶體需求。

SSD用於計算節點上的本地儲存,推薦的SSD大小與記憶體比為3:1。基於BeeGFS的單個並行檔案系統配置了HDFS連接器功能,為HPC和HPDA工作負載提供盡可能好的性能。

基於InfiniBand/Omni-Path的HPC架構的高速互連用於確保節點間通信最大化,對需要持久化儲存的資料移動達到了最高的吞吐量。

HPDA通用系統架構

一個共享的HPC和HPDA結合環境,HPDA組件的主要屬性是將頭節點上的作業提交與批處理系統集成,使HPDA用戶能夠直接向HPC基礎設施提交工作。本地PFS被配置為HDFS兼容檔案系統,為HPDA行程提供高速資料訪問能力。永久儲存層還使用PFS構建,以便HPC和HPDA作業都能夠儲存長期資料。

下麵給出了基於中到超大資料大小的推薦配置。這些系統配置可以作為參考指導,以最低價格和最高性能實現最優配置。

Fujistu HPDA參考模型的優勢只要體現在以下幾個方面:

  • 其中最重要的優勢是該HPDA解決方案是在現有HPC平臺上進行部署。

  • 通過相同的集群管理工具(SLURM)運行密集型計算和大資料資料分析業務。

  • 提供高性能HPC平臺加速Hadoop,通過高速互連和並行檔案系統帶來前所未有的性能提升效率。

為了證明這個解決方案的性能優勢,Fujistu在相同的硬體上運行標準的TeraSort基準測試,測試涵蓋標準的Spark、HDFS環境到BeeGFS。測試遵循該HPDA參考模型的指導原則。驗證使用接連到Slurm批處理的資料分析調度連接器來管理資料分析過程,比如管理HPC應用程式、帶有HDFS連接器的BeeGFS,BeeGFS是負責資料儲存組件,用來取代了HDFS。

 

TeraSort基準的是盡可能快地對大量資料進行分類,該測試基準可以全面測試儲存、HDFS和MapReduce層的綜合能力。然而測試表明,Fujistu的HPDA參考架構比標準HDFS配置展現出更好的吞吐量,並極大地減少資料生成和分析時間。

 

這個基準測試運行在Fujistu的Primeflex硬體平臺上,該平臺由8個計算節點組成,每計算節點包括雙路Broadwell處理器和128GB主存。使用的儲存設備是標準的400GB Intel SSD,採用8節點服務器構建並行檔案系統作為資料儲存。

結論和總結

簡單地說,針對這些複雜的、時效性高的大資料工作負載,很多傳統HPC並行檔案系統廠商都提供了HDFD、HDF5等大資料支持選項,Fujistu的HPDA參考架構也是採用類似方案,該方案對現網影響小且投入成本低,是眼下應對HPDA不錯的選擇。

該HPDA參考模型利用現有的HPC基礎設施和資源,在不破壞原有工作負載的情況下,運行Hadoop或啟動大資料應用程式以獲得這兩個方面的最佳效果。

很多政府、商業組織和研究公司認為通過使用HPC資源進行資料分析,每年可以節省數百萬美元。Fujistu認為其HPC的集成系統Primeflex提供了一個理想的可伸縮解決方案,可以將HPC和資料分析工作負載結合到一個HPC基礎設施上。

關註公眾號,併在公眾號後臺用鍵盤迴復“HPDA”關鍵字,下載Fujistu HPDA參考架構技術白皮書。

關於高性能計算技術,前期詳細總結分享過<高性能計算(HPC)技術、方案和行業全面解析>電子書請點擊原文鏈接查閱詳情。

溫馨提示:

請搜索“ICT_Architect”“掃一掃”二維碼關註公眾號,點擊原文鏈接獲閱讀原文瞭解更多

求知若渴, 虛心若愚

赞(0)

分享創造快樂