歡迎光臨
每天分享高質量文章

一文瞭解螞蟻金服今年 KubeCon 全部重磅分享

6 月 24 日,國內雲原生領域最重要的會議即將來襲!KubeCon + CloudNativeCon + Open Source Summit China 2019將在上海召開,螞蟻金服此次也會重度參與,由多名技術專家進行分享並組織 workshop,為參會者獻上技術的饕餮盛宴。

本次大會上,螞蟻金服將會重點分享 Kubernetes 集群的管理、深度學習任務在 Kubernetes 上的大規模部署和調優、互聯網金融、安全容器等前沿課題。從 2016 年起,螞蟻金服開始深度使用 Kubernetes,並作為最終用戶案例被 CNC F官方推薦:

目前,螞蟻金服不僅在圍繞 CNCF 的雲原生開源技術方面做出貢獻,也開源了自己的金融級雲原生分佈式解決方案 SOFAStack,本次大會上螞蟻金服將以 Workshop 的形式展示使用 SOFAStack 來快速實現 Service Mesh 和 Serverless,歡迎關註。

具體分享內容如下:

議題一覽

通過托管 CPU 和 GPU 工作負載,實現資源的高效利用

◈ 螞蟻金服平臺資料技術系統部技術專家 岑鵬浩(庫泊)
◈ 阿裡雲容器平臺高級技術專家 何劍

議題簡介

本次演講主要介紹如何將 AI training 任務和長服務在 Kubernetes 集群之上混部。主要目的是通過混部各種 workload 提高資源利用率,從而節省資源。我們會從各個不同的維度包括 Qos class, cgroup, scheduling 等等來描述我們如何實現混部,以及如何評估利用率。過去幾個月中,我們構建了一個幾百節點的 GPU 和 CPU 混部集群,我們會介紹在生產集群中混合部署長服務和AI批處理任務的最佳實踐。

不再混亂:大規模 Kubernetes 審計和檢查

◈ 阿裡雲容器平臺技術專家 陳傑
◈ 螞蟻金服高級開發工程師 馬金晶 

議題簡介

眾所周知,準確的異常發現和快速的問題分析是保證 Kubernetes 集群可用性和穩定性的關鍵所在。但在整個 Kubernetes 專案中,有著不計其數的監控指標資料。僅以我們的 Kubernetes 集群為例,我們觀察到像這樣的監控資料每秒鐘就會產生幾千條。如何合理地利用這些複雜而大量的資料和指標,對它們有效的進行記錄和分析,變成簡單易懂的可視化展示,變成準確的告警信息,是一個非常有挑戰性的工作。

在這個演講中,我們希望與大家分享在 Alibaba 在 Kubernetes 集群監控、審計和巡檢方面的實踐和經驗。首先,我們會聊一聊 Kubernetes 與穩定性相關的重要資料和指標,以及如何去理解它們。我們會以案例的形式,具體講一講我們如何對這些資料和指標進行整合與解析。最後,我們會分享阿裡巴巴高效、實時的對這些資料進行自動化巡檢與分析的最佳實踐。

有效可靠地管理大規模 Kubernetes 集群

◈ 螞蟻金服高級開發工程師 張勇(滄漠)
◈ 螞蟻金服技術專家 林志賢(瀟林)

議題簡介

隨著業務的增長,我們需要將 Kubernetets 部署到世界各地的多個資料中心。單個資料中心中就擁有超過數萬個節點。我們面臨的關鍵挑戰是如何高效、可靠地在資料中心內管理多個大規模 Kubernetes 集群。

在本次演講中,我們將分享實現大規模集群管理自動化的經驗和實踐。首先,我們將介紹全自動化節點生命周期管理,以及如何基於 NPD、Autoscaler 和自定義運算子自動發現和恢復節點故障。然後,我們將分享部署和升級 Kubernetes 集群的經驗和解決方案。最後,我們將分享基於 Prometheus 和運算子的風險防控系統,該系統可確保集群可靠性,具有自動故障檢測和隔離的能力。

為互聯網金融關鍵任務場景擴展部署

◈ 螞蟻金服高級開發工程師 周夢伊(楓晟)
◈ 螞蟻金服技術專家 吳珂(昊天) 

議題簡介

預設部署方法為執行常規版本升級提供了一種良好的解決方案。但是,將高可用性和可靠性的大規模服務部署為互聯網金融應用尚且另當別論,更不用說這種工作負載在現有操作系統和維護系統下所面臨的兼容性問題了。

螞蟻金服引入的新工作負載可讓這些問題迎刃而解。它能夠通過可靠而靈活的分發、風險控制的部署策略以及高性能的就地更新擴展部署能力。它尤其消除了金融服務行業所面臨的技術障礙,使開發商和運營商能夠專心發展核心業務。

Kubernetes 集群的大規模分佈式深度學習

◈ 螞蟻金服技術專家 唐源(禮之)
◈ Director of Engineering, MobileIron Yong Tang

議題簡介

本次演講的重點是在 Kubernetes 上部署大規模分佈式深度學習。此外,還將介紹如何通過使用運算子來管理和並實現機器學習訓練過程自動化。我們將分享我們的經驗,並比較兩個開源 Kubernetes 運算子:tf-operator 和 mpi-operator。這兩個運算子都為 TensorFlow 管理訓練任務,但有著不同的分配策略,這就造成了 CPU、GPU 和網絡利用率方面的不同性能結果。

深度學習任務既是網絡密集型又是 GPU 密集型,因此對編排進行適當優化非常重要。易發的不平衡會導致閑置計算容量,這對於 GPU 節點來說成本太高昂了(與 CPU 相比)。我們將分享我們的經驗,希望可提供有用的洞察,幫助從機器學習任務中獲得更好的經濟效益。

推介會:SIG Cluster 生命周期

◈ 螞蟻金服高級研發工程師 徐迪(潯鳴)
◈ Cloud Software Architect, Intel Alexander Kanevskiy

議題簡介

Sig-Cluster-Lifecycle Intro 群集生命周期 SIG 是一個專註於群集部署和升級的特別興趣小組。我們的 SIG 正在努力改善用戶體驗,以引導符合最佳實踐的最小可行 Kubernetes集群。使用我們的主要安裝工具 kubeadm,可以很好地管理簡化的安裝和升級過程。我們最近推出了一個名為 Cluster API 的新 Kubernetes 物件,它將宣告式 Kubernetes 風格的 API 引入群集創建,配置和管理。在本次介紹會上,我們將介紹 SIG 的使命陳述,審核最新更新,並討論我們的路線圖。還介紹了一些新的生命周期專案。非常歡迎您加入我們的 SIG 併為其做出貢獻。

安全沙箱是否已生產就緒?Kata 容器、gVisor 等

◈ 螞蟻金服資深技術專家 王旭(迴圈)
◈ 螞蟻金服技術專家 李福攀(葉慈)

議題簡介

在 KubeCon NA 2018 上,我們對 Kata 容器和 gVisor 進行了定量比較,當時我們展示了對 Kata 而言合理的 CPU/網絡性能、檔案系統儲存的性能損失、Kata 的記憶體消耗以及 gVisor 的系統呼叫開銷等。

活動結束後,Kata 容器發佈了版本 1.5,支持輕量級管理程式(Nemu 和 FireCracker)。當時我們還介紹了用於檔案系統共享的 virtio-fs,它可以提供更好的 POSIX 兼容性和性能。Virtio-fs 能夠與 shimv2 進行無縫的容器化集成,看似能夠在 2019 年為 Kubernetes 提供更出色的生產就緒型安全沙箱支持。

在本次演講中,我們將展示使用更新的測試套件對新推出的技術進行的基準測試,並幫助用戶瞭解它們是否已生產就緒。

SOFAStack Cloud Native Workshop

Service Mesh 將服務間通信能力下沉到基礎設施,讓應用解耦並輕量化。但 Service Mesh 本身的複雜度依然存在,如何輕鬆的實踐 Service Mesh 技術?在活動現場,我們將帶你感受 CloudMesh 通過將 Service Mesh 托管在雲上,助力輕鬆實踐 Service Mesh 技術。

作為雲原生技術前進方向之一,Serverless 架構讓您進一步提高資源利用率,更專註於業務研發。本次您可以體驗到快速創建 Serveless 應用、根據業務請求秒級 0-1-N 自動伸縮、通過日誌查看器快速排錯、按時間觸發應用等產品新功能。

微服務架構下,分佈式事務問題是一個業界難題。這次,您可以親身體驗如何使用開源分佈式事務框架 Seata 的 AT 樣式、TCC 樣式解決業務資料的最終一致性問題。

具體日程可點擊這裡查看。

全部日程

實際日程以大會官網為準。

< 如顯示不全,請左右滑動 >

時間

議題

6月24日 09:00 – 16:00

SOFAStack Cloud Native Workshop

6月25日 13:35 – 14:10

通過托管 CPU 和 GPU 工作負載,實現資源的高效利用

6月25日 17:30 – 18:05

不再混亂:大規模 Kubernetes 審計和檢查

6月25日 17:30 – 18:05

有效可靠地管理大規模 Kubernetes 集群

6月25日 16:00 – 16:35

為互聯網金融關鍵任務場景擴展部署

6月25日 16:00 – 16:35

Kubernetes 集群的大規模分佈式深度學習

6月25日 11:00 – 11:35

推介會:SIG Cluster 生命周期

6月25日 11:45 – 12:20

安全沙箱是否已生產就緒?Kata 容器、gVisor 等

赞(0)

分享創造快樂