說起“位元組跳動”可能大多數人都不知所云,但如果說“今日頭條”或者“抖音”你一定非常熟悉。今日頭條和抖音只是位元組跳動公司旗下兩款最為人所熟知的產品,其他產品還包括西瓜視頻、火山小視頻以及悟空問答等等。
抖音,這個突然在今年火爆起來的App已經成為諸多年輕人打發時間的首選。“刷抖音”這句時髦詞的後背是位元組跳動令人驚艷的成績:最新資料顯示,抖音在8月的日均視頻播放量超過10億次,日均活躍用戶數超過1.5億,月度活躍用戶數超過5億。
視頻上傳需要儲存,併進行合規性檢查;視頻播放需要編解碼,這需要消耗大量的計算資源;用戶體驗需要恰當的推薦系統與CDN……等等,這些都對抖音背後的IT系統帶來了前所未有的挑戰。據資料顯示,位元組跳動在2017年初的時候只有2~3萬台服務器,而今年服務器數量一下猛增到17萬台。
這也使得其原有的資料中心租賃樣式徹底不可行,必須自建資料中心,且速度要快。僅7個月時間,位元組跳動就在懷來擁有了第一個屬於自己的資料中心,一系列新技術的採用讓這個資料中心擁有多項頭銜:國內首個大規模分佈式全預製、國內首個大平層預製框架結構、國內首個整體電源模塊預製、國內首個間接蒸發自然冷卻模塊、國內首個計算模塊一體化預製。
“數字中國萬里行”的第三站,我們來到了這個目前國內用時最短而構建起來的資料中心,揭開位元組跳動迅猛發展背後的秘密。
先看一段視頻,數字中國萬里行團隊帶你走進頭條資料中心,體驗身臨其境的感覺:
技術驅動 七個月提前交付
位元組跳動首個已經交付使用的資料中心坐落在懷來官廳湖新媒體產業園。懷來是新能源輸出大縣,70%以上的電能都是水力發電、風能發電和太陽能發電產生的清潔能源,但這之中有50%的清潔能源無法上網,低廉的電價對於資料中心這種耗電大戶而言,具有莫大的吸引力。
而且,懷來年均氣溫只有6.5度,空氣質量也好,利用新風散熱有助於降低資料中心的PUE值,有效降低資料中心的運營成本。高效應用自然冷卻技術,也是官廳湖新媒體產業基地的一大特點,也是首個規模使用間接新風製冷技術的資料中心產業基地。
位元組跳動首個已經交付使用的資料中心一期工程,5萬台服務器已經入駐
位元組跳動最初規劃首個資料中心將在9個月內完成,而得益於新媒體產業基地採用的大平層預製建築結構整體規劃,再加上為了追求快速建設以滿足位元組跳動服務器規模高速增長需求,位元組跳動採用了一系列新銳技術,如大規模分佈式全預製、整體電源模塊預製、間接蒸發自然冷卻模塊、計算模塊一體化預製等等技術,讓一期資料中心在7個月內就完成交付使用。
位元組跳動資料中心採用大量預製和模塊化產品,體現了資料中心高度模塊化的未來發展趨勢。鋼平臺底座、變壓器、配電櫃、UPS設備均採用在原廠設計、安裝和除錯在20天內分批交付,二次系統連接、監控系統集成和電源模塊測試可以在7天內完成,由40尺集裝箱整體運輸到現場,施工現場只需連接電纜,拼裝除錯即可交付使用,這個過程需要十天左右。這一系列的細節時間控制,讓位元組跳動資料中心掃清了國內資料中心建設交付的最短時間記錄。
據位元組跳動技術總監王劍介紹,2017年12月位元組跳動開始在懷來資料中心放置服務器,目前一期園區約5萬台服務器已經投入使用,正在緊鄰一期園區建設二期,規模增加一半但預計工期相同,大概能容納9萬台服務器。
位元組跳動預製件與模塊化建設資料中心示意圖
資料驅動基礎設施創新
大多數人對“今日頭條”的印象似乎都是一家泛媒體平臺,但位元組跳動則認為自己是一家AI(即人工智慧)公司,因為不管是今日頭條也好,抖音也好,位元組跳動很少自己生產內容,而是鼓勵用戶進行創作,並把用戶創作的內容推薦給最適宜的用戶群體。
所以位元組跳動最核心的系統實際包括頭條推薦系統與廣告系統、評論系統,以及內容合規性審核系統,這背後實際上就是AI技術在不同領域或場景的應用。
比如在在推薦系統裡面最核心的就是內容推薦演算法。用AI去做推薦,是位元組跳動重要戰略,目前也是應用最廣的技術,不管是今日頭條還是抖音等產品,AI都在裡面發揮著重要作用。使用AI進行推薦,需要大量的資料進行訓練才能達到更好的效果,據介紹,僅今日頭條一款產品30天的訓練模型,其資料量就會超過4PB,而正常訓練一個完整的模型則需要至少一年的資料量。而在視頻的合規性審核方面,位元組跳動不但使用計算機視覺技術對視頻圖像進行分析,同時利用語音識別技術對音頻進行合規性分析。而這些技術的大規模應用會對系統的基礎設施帶來極大的挑戰,比如計算能力、網絡帶寬以及儲存性能等等。
隨著位元組跳動資料中心規模的擴大,服務器數量的高速增長,為了最大化資源利用率,位元組跳動與Intel公司成立了創新實驗室,全部採用Intel最新的可擴展處理器平臺,並根據不同應用場景對軟體堆棧進行深層次優化。據介紹,成果非常顯著,能夠實現大約30%的能力提升,更好的資源利用率意味著更好的購置成本和運營成本節省。
並且,不管是推薦系統,還是審核系統,其每天都會處理海量的資料,這對底層儲存系統的性能有著苛刻的需求,SSD已經成為位元組跳動的必然選擇。但並不是說使用SSD就能直接解決問題,尤其NVMe SSD使用,通常會給計算、網絡系統帶來直接的壓力,將原本儲存的性能瓶頸轉移到計算或者網絡。
為了提升整體系統的綜合性能表現,還需要站在更高層次對各個子系統進行系統性優化,比如在與Intel的合作中,雙方共同針對人工智慧、Cascade Lake,最新64層Nand儲存技術,高速網絡的產品以及FPGA在不同系統中應用進行了探索,並與DPDK、SPDK、BigData以及OS kernel等軟體層的優化相結合,取得了極大的進展,獲得了極為顯著的成功。
位元組跳動所取得的輝煌成績不僅意味著中國互聯網市場的巨大潛力,同時也意味著中國資料中心技術的飛速發展正逐步接近國際領先水平。
跟著新至強特快專列的先遣隊伍,走進中國最先進的資料中心,快戳“閱讀原文”!