如何利用Alluxio實現資料湖方案-知識星球

Gartner認為資料湖是原始資料儲存實體的集合，資料分析師利用資料提煉、分析技術來洞察和探索資料價值，資料湖至少具備以下特性：

特性1：資料的集中存放管理。資料湖是存放所有所需資料的地方，包括來自傳統資料庫的結構化資料和非結構化的文字資料，企業內部生成的資料、外部資料，媒體資料感測器和遙測資料等。

特性2：強大的交叉分析能力。資料湖可以看做是一個大資料分析平臺也可以用於資料分析以及找到資料新的關聯性。

特性3：為商業個體提供所需資料的最優解。資料湖也提供了一個商業個體搜尋真正需要的資料組合的平臺。

資料湖資料可以在資料湖本地儲存、計算可以給資料倉庫提供資料源，也可以去直接對接大資料平臺直接讀取、分析、儲存，另外透過Edge節點實現流動或上雲。

隨著資料湖概念流行，資料湖的方案也層出不窮。今天，重點討論如何Alluxio實現資料湖解決方案(文章來源 https://zhuanlan.zhihu.com/p/34973460 )。

理解在分析儲存於資料倉庫的結構化大資料時Alluxio所帶來的益處。

使用配置來整合資料儲存，而不是ETL
在檔案系統和物件儲存之間統一大資料檔案
對重要和經常使用的資料提供按需快速本地訪問，不保留永久副本
透過刪除資料副本和將資料遷移到商用儲存來降低儲存成本

1.摘要

問題描述：對儲存在不同倉庫中的結構化大資料進行分析是大型企業面臨的挑戰

許多大型企業都有結構化大資料，這些資料透過多種儲存技術如HDFS、物件儲存和NFS等被儲存在不同的倉庫中。
商業使用者需要透過這些倉庫訪問資料來執行高效能的查詢並獲得有意義的洞察力。

傳統方法：資料湖

資料湖是解決這個問題的傳統方法，它提供一個單一系統，可以訪問相關資料。
傳統方式建立的資料湖是資源密集型，需要代價很高的永久資料複製並且在資料建立和分析之間造成了延遲。
隨著時間的推移，業務線可能會建立各自獨立的資料湖，從而建立了使用不相容的儲存技術實現的資料倉庫。
大型企業也可能會部署一種“資料湖的資料湖”，以便在多個業務線之間訪問資料，從而建立另一個資料副本。
團隊可能會不斷嘗試新的儲存和計算技術，從而增加了資料管理的難度。

新方案：Alluxio虛擬分散式檔案系統

Alluxio是第一個在檔案系統和物件儲存之間統一大資料檔案的虛擬化儲存技術。
作為一個“虛擬資料湖”，應用程式可以訪問在Alluxio全域性名稱空間中的檔案，就好像這些檔案在一個傳統的Hadoop檔案系統或物件儲存中一樣。
Alluxio提供了按需快速本地訪問重要和頻繁使用的資料，不需要維護一個永久的副本。快取的只是資料塊，而不是整個檔案。
企業可以透過將更多的資料遷移到商用儲存中來減少儲存開銷。
底層儲存透過使用配置而不是ETL來整合。資料存在它的源系統中，有效地消除了過時資料的問題。
開發者使用工業標準介面(包括HDFS和S3A)與Alluxio進行互動。Alluxio系統的外掛化架構能夠支援未來的出現的介面訪問技術。
可擴充套件性、靈活性、安全性和容錯性已經在系統中被原生地設計出來了。

程式碼示例：包括一個技術示例，用於在跨多個儲存叢集的表中使用Spark SQL執行和持久化SQL join。

2. 介紹

隨著資料量的增長，大型企業正在採用大資料技術來處理涉及PetaByte規模的結構化和非結構化資料。大資料通常儲存在許多系統和業務單元中。企業要求技術團隊以高效能和成本有效的方式在這些系統中提供統一的、聚合的資料檢視。

這篇文章介紹了Alluxio和它如何獨特地解決了結構化大資料統一管理和訪問的難題。

3. 統一大資料的傳統方法

當大型企業不能保證其大資料存在於一個單源系統或資料湖中時，企業就需要解決大資料統一訪問的難題。這通常是透過自定義應用層解決方案或建立資料湖來解決的。事實上，這些解決方案通常會很困難。

自定義解決方案

需要編寫和維護自定義的應用層程式碼，這項工作是勞動密集型的並且易於中斷。
沒有快取，這對於提升查詢效能是一個重要的障礙。

傳統的資料湖

傳統的資料湖是資源密集型的，並且需要維護永久的資料副本，這是非常昂貴的。
每次複製資料時，都會引入延遲，而且用於分析的資料的版本不一定是最新的。
隨著時間的推移，業務線可能會建立各自獨立的資料湖，從而建立了使用不相容的儲存技術實現的資料倉庫。

4. 大資料Alluxio之道

Alluxio是世界上第一個記憶體級速度的虛擬分散式檔案系統。它統一了資料訪問並且連線了計算框架和底層的儲存系統。應用程式只需要連線到Alluxio就可以訪問儲存在任何底層儲存系統中的資料。此外，Alluxio架構能夠以記憶體速度訪問資料，提供了最快的I/O。

在大資料生態系統中，Alluxio位於計算和儲存中間。它可以為生態系統帶來顯著的效能提升，尤其是跨資料中心和可用性區域。Alluxio是Hadoop和物件儲存相容的，並且支援對底層儲存進行讀寫。現有的資料分析應用程式，如Hive、HBASE和Spark SQL，可以在不更改任何程式碼的情況下執行在Alluxio上。

Alluxio的益處

統一訪問：充當一個“虛擬資料湖”。檔案可以在Alluxio全域性名稱空間中被訪問，就好像它們儲存在一個單系統中。
效能：對重要頻繁使用的資料提供快速本地訪問，而不需要維護所有資料的永久副本。Alluxio只智慧地快取所需的資料塊，而不是整個檔案。
靈活性：Alluxio中的資料可以在不同的工作負載之間被共享，不僅是查詢還可以用於批次分析，機器學習和深度學習。
儲存開銷最最佳化：透明地從源系統直接讀寫資料，因此不需要建立永久的資料副本。Alluxio的內建快取可以：
利用計算節點上未使用的RAM和磁碟儲存來減少硬體開銷。
使企業能夠將更多的資料遷移到更低成本的商用儲存中。
配置驅動：使用配置整合底層儲存，而不是ETL。
更現代靈活的架構：促進計算和儲存的分離。即插即用的系統架構能夠支援未來的技術。
沒有產商鎖定：支援工業標準介面，包括HDFS和S3A。
維護企業資料安全和管理：與現有的企業系統整合以支援統一的資料管理。

Alluxio提供的創新功能

全域性名稱空間：使用者以一個單機虛擬檔案系統中的掛載點的方式與底層儲存進行互動，從而簡化了訪問。

伺服器端API轉換：使用者透過HDFS或S3A來與Alluxio進行通訊。但是，底層儲存系統不需要本地支援HDFS或S3A。任何具有相容介面的儲存系統都可以作為底層儲存被掛載，並且Alluxio使得伺服器端API和應用程式選擇的介面的轉換變得容易。透過Alluxio的模組化架構也可以新增新的自定義介面。Alluxio的轉換能力提升了你的企業架構的互通性並且簡化了開發。

相容的底層儲存介面：HDFS，NFS，Amazon S3A，Azure Blob Storage或Google Cloud Storage。

帶內快取：快取對使用者是帶內或透明的，並使用集中管理策略進行控制。使用者不需要付出任何努力就可以從改進的效能中獲益，並且管理是有組織地進行維護。

樣本用例：在這個示例企業中，與客戶互動相關的所有資料位於兩個不同的系統中：銷售系統包含客戶所購買的所有產品的資訊，客戶支援系統包含客戶記錄的所有支援案例資訊。這兩個系統是相互孤立的，但是為了瞭解客戶的所有互動情況，必須聯合這兩個孤立系統進行查詢，並將結果以客戶檢視的方式提供給使用者。

統一查詢：一旦底層儲存系統透過Alluxio進行統一後，SQL引擎就可以和底層表進行互動，就好像它們是單個系統的一部分一樣

如何利用Alluxio實現資料湖方案

1.摘要

2. 介紹

3. 統一大資料的傳統方法

4. 大資料Alluxio之道

5. 效能和儲存成本

6. 企業級的考慮

7. 結論

相關推薦

熱門標籤

熱門文章

分享創造快樂