歡迎光臨
每天分享高質量文章

HPC高性能計算知識: 勘探典型業務處理分析

HPC應用的主要領域是科學與工程計算,諸如高能物理、核爆炸模擬、氣象預報、石油勘探、地震預報、地球模擬、藥品研製、CAD設計中的仿真與建模、流體力學的計算等。隨著雲計算和大資料技術的不斷成熟和廣泛應用,HPC已經滲透到HPDA和HPC Cloud領域,但古老的東西最容易被大眾理解,所以下麵我們將以物探為例,開啟HPC在物探在物探領域應用的旅程。

石油勘探是典型的HPC物探應用,在原理上通過反射地震波的形式完成對石油勘探,整個勘探過程大致分為反射波資料採集、地震資料處理資料解釋三個步驟。

石油地震資料處理系統是一個要求計算機系統運算性能、運行穩定性極高的計算環境。其原因在於石油行業中的資料處理非常困難和龐大。以找油和打井工作來說,一般採用三維地震勘探的辦法是先在地面放炮,通過儀器測量地面震動反射波的情況,把採集所獲得的地震波在地層中傳播的運動學和動力學信息進行去偽存真處理,轉化為地質信息,經過計算分析,反推出地下的生油、儲油、蓋層的地質構造特點,再確定在打井的具體位置

隨著石油勘探新技術的不斷更新、信息技術的滲透,迫使企業也需要不斷採用性能優異、技術先進、價格便宜的高性能計算機處理系統來占領市場。

 

第一步收集到的資料稱為“初始資料”,可能是幾十TB或幾百TB不等。

第二步是處理地震資料和資料,將這些資料加工、去偽存真,轉化為有效的地質信息。那麼,為什麼要進行地震資料處理呢?

地震資料資料中包含著有關地下構造和岩性的信息,但這些信息是疊加干擾信息且被一些外界因素所扭曲,信息之間往往是互相交織的,不宜直接用於地質解釋。因此,需要對野外採集的地震資料進行室內處理。

地震波石油勘探法高性能計算應用,主要可分為地震資料處理油藏模擬兩大類。

  • 地震資料處理是典型的浮點計算密集型應用,以求解資料密集的波動方程為主要計算樣式,因此對浮點計算能力要求較高,對大量密集資料的處理服務器需要良好的多核擴展性。

  • 而油藏模擬對計算平臺的要求是需要支持稀疏矩陣方程的迭代求解,對記憶體帶寬的要求非常高,並需要大快取支持,因此這類軟體可歸為對記憶體帶寬高度敏感的計算密集應用。

在作地震資料處理時,計算網絡主要擔負著並行計算時的資料通訊並行檔案系統的資料傳遞。

  • 並行計算時的資料通訊主要是求解方程組時各個計算節點間的資料交換;這種資料交換主要是發生在計算節點之間,每次交換的資料相對不是很大,但交換的次數較為頻繁。

  • 並行檔案系統的資料傳遞主要是讀寫資料檔案;這種網絡通訊主要發生在計算節點和儲存節點之間,計算節點通過儲存節點讀寫儲存設備;其特點是網絡通訊並不頻繁,一般發生在程式運行的開始、結束以及中間特定的時間(有波峰和波谷),但是每次通訊的資料量很大,所以對網絡的帶寬要求較高,這也是體現HPC儲存系統性能的幾個關鍵時期

當集群架構的高性能服務器的計算能力越來越強時,我們註意到集群系統需要儲存的資料也是越來越多,這些資料多為計算過程中的中間資料,這就意味著儲存系統必須提供穩定、高速的傳輸帶寬,以保證高速計算的需要。

除了中間資料以外,儲存系統還需要儲存大量的計算結果,這就要求儲存系統提供可靠的儲存環境。

地震資料資料處理資料按照流程分為三個階段: 初始資料、中間資料、成果資料

地震資料資料處理的第一個流程就是將野外採集的原始資料匯入到儲存系統。計算前,快速將原始資料讀入計算節點,在運算過程中會產生大量的中間結果,即中間資料,這些中間資料在一定時間內會被反覆使用,這部分資料要在線儲存在高性能儲存上,儲存的IO性能要求非常高。

在計算過程中產生比初始資料多幾十倍的中間資料,中間資料被多次讀出計算,計算完後寫入儲存,如此多次反覆,得到最終成果資料。

 

中間資料是不能刪除的,因為可能會從中間某個點開始計算,以提高效率。

因為HPC執行的計算任務可能需要幾個小時,也可能長達幾天甚至數周。由於高性能計算系統規模高達上萬個節點,故障難以避免,因此HPC系統中普遍使用“checkpoint”技術周期性地儲存計算的狀態和中間資料,當發生故障時,則可從上次儲存的“checkpoint”狀態恢復計算。在每個階段完成後儲存計算結果的方法則更簡單而高效。

中間資料有歸檔的要求(有的HPC軟體在不斷產生新的中間資料,同時刪除不再使用的中間資料)。但這些中間資料如果長時間占用在線高性能儲存系統,會降低儲存的使用效率,對於用戶來說是投資上的浪費,這就需要進行資料遷移或歸檔,將不常用的資料儲存性能相對較低的近線或離線儲存系統中。

對於成果資料來說,每個處理任務都會產生一個最終的計算結果,它是不能被改動的,而且是需要長期儲存的。地震資料處理資料的特點及對儲存的要求主要體現在:

  • 1、 統一命名空間:不同的計算節點都要到這個統一命名空間中讀取資料,存放、讀取中間資料,存放結果資料。

  • 2、 資料量大:初始資料幾十TB,中間資料是初始資料的10~20倍,但成果資料的大小卻僅有初始資料的0.5~1%左右。

  • 3、 帶寬要求高:計算節點和儲存節點的資料交互次數不頻繁,但是資料量大,即對網絡帶寬和儲存節點的帶寬要求高;

  • 4、 可靠性要求高:中間資料和結果資料都是珍貴資料,是通過大量的時間和資源的投入得出來的,所以對儲存的可靠性要求高;

  • 5、 擴展性高:不同任務的計算集群,共用一個儲存系統,避免資料遷移。

  • 6、 易用易管理:單一命名空間;儲存資源可以靈活的劃分給不同的計算任務(計算節點);維護簡單;配額管理;

  • 7、 資料歸檔要求:中間資料和結果資料經過生命周期後,很少被訪問,有歸檔需求。東方物探有這個要求,中石化國堪研究院沒有這個要求。

第三步就是解釋,地震資料經過數字處理以後,為什麼還要進行解釋工作呢?這是因為數字處理以後,提供大量的一條一條地震剖面或一塊三維資料體,這些資料里包含了許許多多的地下地質信息。而我們的主要目的是要知道與油氣有關的信息,如哪裡能生油?哪裡能儲存油?這些與油氣有關的地層的岩石性質、物理性質是什麼?這就需要從地震資料包含的大量信息中找出與油氣有關的信息,這是解釋工作肩負的重要使命。

解釋工作的好壞關係到能不能快速、優質、準確地找到油氣田!所以,解釋工作是地震勘探三大環節中必不可少的、最後的也是至關重要的環節。

關於高性能計算技術,前期詳細總結分享過<高性能計算(HPC)技術、方案和行業全面解析>電子書,請點擊原文鏈接查閱詳情。


溫馨提示:

請搜索“ICT_Architect”“掃一掃”二維碼關註公眾號,點擊原文鏈接獲閱讀原文瞭解更多

求知若渴, 虛心若愚

赞(0)

分享創造快樂