歡迎光臨
每天分享高質量文章

資料中臺: 資料產品的自動化生產線

  • 直到資料產品的出現,才真正讓“資料是企業資產”這句口號賦予真正含義,讓資料資產變現。
  • 既然有資料產品,那就應該有資料供應鏈。資料中臺作為資料供應鏈的中間環節,也是最核心的環節,負責資料產品的“製造加工”。
  • 資料加工包含:“初加工”、“深加工”。
  • 資料產品研發,需要建設業務、資料、IT一體化的資料中臺團隊。這也是資料中臺有別於資料倉庫、大資料技術平臺最核心的一點。

 

“數字化是碎片化,智慧化才能做到系統性。 ”

 

1、資料中臺的起源 

 

2011年,阿裡馬老師在第八屆網商大會表示,阿裡巴巴要做21世紀資料分享的平臺,要向全社會共享資料。2015年,阿裡提出中臺戰略,建立“大中臺,小前臺”,其中包括資料中臺。

 

接下來,阿裡透過雲棲大會等宣傳途徑,以及成功的市場營銷策略,讓“資料中臺”一詞幾乎成了阿裡的發明專利,更是讓業界人士捧為企業數字化轉型的制勝法寶,IT屆幾乎趨之若鶩。

 

眼花繚亂的新技術、新概念層出不窮。因此,只有從基本原理出發,理清事物的本質才是王道。

 

2、資料產品 

 

不過,阿裡最終並沒有按原定的計劃向社會“共享”資料。我們也無法猜測,當初按照馬老師的規劃,如何向社會分享資料,分享什麼樣的資料。

 

根據瞭解,資料中臺事業部透過技術手段從阿裡各業務板塊抓取業務系統產生的原始資料,經過資料中臺處理加工,回過來向阿裡媽媽、淘寶等前臺業務事業部提供諸如商品推薦等資料增值服務。從實質來講,資料中臺就是向外提供一種資料形態的產品。即使是“出口轉內銷”,改變不了產品的特質。就好比,華為海思生產的手機晶片、網路晶片,並不對外銷售,但已經具備產品的實質了。

 

什麼是資料產品呢?舉個老百姓熟悉的例子,各地方城市的天氣預報,就是透過地面、高空探測站收集各地的氣象資料,再經過大型計算進行處理,輸出預測的結果,即未來的天氣預報資料,最終由網站、APP等向老百姓釋出。

 

其實,資料產品,也早已不是什麼新鮮事物了。米國的鄧白氏集團,2018年世界500強排名第303,成立於1841年,是世界著名的商業資訊服務機構。說白了,就是做資料的生意,從外面採購資料,經過加工之後再銷售給其他企業。感興趣的話,可以去網上深入瞭解細節。

 

資料已經作為一項相對獨立的產品,具有其獨特的使用者價值。  

 

3、資料中臺的本質 

 

記得IBM CEO最早提出“資料是新世紀石油”的概念。一種理解,說明資料非常有價值;另一種理解:

沒有經過加工的原始資料幾乎是“一灘渾水”。

 

“資料孤島”、“煙囪系統”等等,這幾乎是上個世紀(一點都不誇張)與資訊化相生相伴的老生常談。似乎資料整合不僅僅是世界難題,還是世紀難題。當然有些言過其實,不是解決不了,而是壓根沒往這方面真正發力。

 

資訊化時代,絕大部分IT系統都是以功能為中心的。什麼意思呢?例如招聘系統、開票系統、發貨系統等等,IT系統是輔助業務完成一項業務操作。某種意義來講,資料是功能的附庸,被功能的設計“撕扯”得四分五裂了。碎片化的資料又是如何支撐業務的呢?還靠IT系統的程式程式碼來完成,但這部分除了IT程式員來還原。一旦系統升級換代,碎片化的資料也就幾乎很難複原了。

 

一地雞毛,用這個詞來形容還覺得太過含蓄。

 

同時,讓看看我們面對什麼樣的資料碎片,並且還將在將來很長一段時間繼續產生著資料碎片(畢竟ERP、CRM等系統不會很快消亡)。根據不完全統計,某大型企業IT系統後臺資料庫有170+萬張資料表,5000萬+欄位。什麼概念?打個比喻,就是我們有170+萬個excel檔案,每個檔案平均有30列,資料量大的數億行記錄。在這“海量”的資料中,真正有價值的資訊,根據本人的工作經驗判斷,不會超過5萬個欄位(屬性),約佔總資料的1/1000。

 

因此,企業內部普遍的現象是,一方面企業資料中心的資料不斷“爆倉”,另一方面,業務使用者方怨聲載道,經營分析與決策中,無資料“下鍋”。

 

埃森哲在《2014年技術展望》中提出:

 

“資料供應鏈,讓資訊流動起來。”

 

“資料生態系統錯綜複雜,資料孤島遍佈其中,由於所需資料獲取難度較高,企業的能力也受到限制,難以從自身資料中充分挖掘價值潛力。要想真正釋放其價值,企業就必須將資料視為供應鏈,使其在整個組織內部便利而有效的流通起來”“打造資料供應鏈具有非凡的意義。”

 

“首先,企業有機會獲取新的資料源。其次,藉助新的資料探索方法操控資料,實現價值增值。這一階段的未來發展將是消除資料複雜性,利用認知計算實現商業價值。最後,企業能夠透過全新的方法發掘外部資料的價值。”

 

“利用資料服務平臺強化資料供應鏈:資料供應鏈必須促進資料流動。為了資料能夠真正流動起來,使用者必須能夠隨時獲取並訪問資料。為此,首先需要建立一個資料服務平臺或統一的資料訪問層,為使用者提供標準化的訪問方式,以便及時獲取企業的大量可靠資料。目前,只有五分之一的企業真正實現了資料整合,但其中能從中真正獲益的企業卻寥寥無幾。”

 

與傳統的“物”的供應鏈相類似,資料供應鏈包含以下幾個環節:

 

原始資料產生->資料獲取(採購)->資料儲存(倉儲)->資料增值加工->資料應用(消費)。

 

在這個資料供應鏈中,前面三個環節分別由資料源、資料湖負責,最後的資料應用環節就場景非常多,例如各類監控大屏、以及融入到業務作業的資料分析等等。資料中臺主要負責資料增值加工這一核心的環節,資料中臺也因此而得名。如果把資料比作成大自然的水,那資料湖負責匯聚各個江川河流的水,圍繞資料湖,那資料中臺就是我們建設自來水加工廠、直飲水廠,根據用途差異提供不同質量的資料服務。

 

從資料供應鏈的視角來看,資料中臺的本質是:資料產品的生產線。

 

隨著“生產技術”不斷的進步,也將越來越自動化、智慧化。 

 

4、資料產品生產過程 

 

幾乎和石油等傳統的自然資源一樣,資料產品加工過程一樣可以分為“初加工“、”深加工”。

 

一、資料初加工:還原世界本來的樣子

 

面對上面提到的“一地雞毛”似的碎片化資料,唯有首先完成資料整合,還原成世界本來的樣子,完成從資料到資訊的加工過程。同時,也千萬不要忽視資料整合本身帶來的價值。

 

記得2013年,“淘寶十週年時光機”釋出,可查詢10年支付寶消費狀況,當時很多人看完不禁感嘆,“我原本也是個有錢人;可惜,我偏偏選擇做了個‘剁手族’”。

你看到的逝去的時光、花掉的錢;

 

阿裡看到的是你的消費能力、消費習慣。

 

當然 ,這是基於時間的縱向整合,還有不同場景下的橫向整合。以員工為例,某種意義來講,目前公司內一切經營活動都需要員工的參與(工廠自動化等是特例)。我們是不是就按員工工號把所有的資訊都抓過來,包括他拜訪的客戶,他簽的合同,他經手開的發票,他每天考勤打卡的資訊,甚至上廁所的記錄(當然是開玩笑啦),依次排開,堆放在一張表裡呢?不是,也是。說不是,因為要講究效率。例如他的客戶拜訪記錄,一定包含客戶是誰,是不是在整合該客戶的資訊時,還得重新來一次。因此,我們按照5W2H的原則,整理清楚各個資料要素,其中也包括是哪個員工拜訪的,拜訪的客戶是誰。要用的時候,就各取所需了。

 

當然,現實情況不是如此簡單,但基本遵從上面的邏輯。在這個過程中,核心的作用是透過資料的聯接,相對客觀的“還原”現實世界。在阿裡資料中臺中,由於場景不同,還採用了ID Mapping的技術手段來實現這個過程。

 

另外,還有一個相對新興的領域,就是非結構化資料處理,例如文字、影影片等等,本質上是透過技術手段抓取我們所需要的特徵資訊。過程很複雜,但基本道理想想也就明白了,不必深究。

 

何況,《未來簡史》的作者尤瓦爾·赫拉利說過,人類最大的優點就是把別人懂得的知識當做自己的知識,因為只有隻有這樣,人們才能堅強、幸福快樂的活下去(否則會被自己的無知氣暈過去)。

 

資料整合,只是資料中臺加工的第一個階段,也是讓資料發揮更加的價值的必經之路。

 

二、資料深加工:挖掘被隱藏的真相和規律

 

如果資料中臺只是完成資料的“初加工”,就號稱可以對外提供資料產品的話,那和當今那些無良的姦商倒賣我們消費者的個人資訊幾乎沒有差別。

 

資料深加工的手段很多,根據消費方的使用場景,差異非常之大了。下麵舉一些常見的例子供大家參考:

 

(一)資料統計彙總

 

根據各種條件進行資料統計是企業最常見的需求,畢竟常規情況下,超市並不需要關心每一件商品究竟被誰買走了,只需要知道當天總的銷售收入,再細化一點,按照時間段、分商品大類小類等等進行統計。也許會說,太小兒科了。

 

在演演算法主宰的年代,請不要不把加減乘除當演演算法。

 

(二)使用者畫像

 

隨著網際網路經濟的井噴式的發展,使用者(消費者)畫像早已成了另一個熱門話題。用一個大家感興趣的例子,根據你過去一年的工作中的有效輸出,給出一個AB+BC的績效結果評價,HRer再根據你過去幾年的績效結果,悄悄的在HR系統給你貼個標簽,諸如:火車頭、扎實貢獻者等等。這個過程,以前是你的主管或者AT來完成的。

 

隨著資料湖的資料越來越豐富,未來這個過程可以透過分析演演算法來自動完成。那問題來了,利用演演算法來給你評價績效,給你打標簽,並決定了你的收入、升值,會更公平嗎?這據說是下一個人廣泛職場人士困惑的難題。

 

給使用者、員工、消費者從不同角度打的標簽越來越多,用一個形象的說法,就是數字化特徵的“畫像”。

除了上面兩種比較常見的深加工以外,還有機器學習、深度學習、資料挖掘等技術手段。總之還有很多,只是其他的我也說不出來。

 

“數字化是碎片化,智慧化才能做到系統性。 ”未經證實,出自任老闆某次市場大會上的講話。想用在這裡,形象的體現了資料中臺的價值。任老闆所指的人工智慧,非技術上的意義,而是商業上的意義,也就是一切透過技術取代人工的應用都是人工智慧。 

 

5、資料中臺的核心能力 

 

既然沒有打算把本文寫成資料中臺設計指南,那下麵的內容就顯得有點多餘。那就簡單陳述一些自己的見解。

 

一、資料產品研發

 

從技術上來講,資料中臺並不是什麼革命性的創新。為了支撐企業內部各種型別的資料報表、統計分析,需要從ERP、CRM等各個業務系統整合大量資料,於是一般中大型企業都在很多年前開始建設企業級資料倉庫(EDW)。不過,資料倉庫是IT後臺,是IT部門的事情,業務部門除了知道需要大量投資,並不關心它是乾啥用的。

 

在資料產品“投產”之前,需要大量研發和創新。在資料產品研發過程中,除了我們熟悉的資料工程師、IT工程師、資料科學家,我要特別強調一下業務領域專家的參與,主要包括兩方面:

 

1)提出業務規則。例如,前面提到的員工畫像案例中,業務專家要定義什麼是“火車頭”等等;

2)提供業務領域知識。目前的資料分析建模是業務領域知識與資料邏輯相結合的,並且是迭代式進行的。模型最佳化需要業務領域專家做出相應的判斷,而不是簡單提出需求後,由資料科學家或者IT工程師實現的序列過程。

 

因此,對於資料中臺來講,最核心的能力是建立業務、資料、IT一體化的資料產品研發團隊。這也無疑是資料中臺有別於傳統資料倉庫、大資料技術平臺最核心的思想。

 

遺憾的是,目前大部分跟風的企業,並沒有意識到這一點。

 

二、技術平臺與工具

 

我從來就不是一個狂熱的技術分子。但我要說,過去那套“技術不行,人來湊”的思路,很快就行不通了。

 

讓我們看看資料中臺面臨的挑戰:

 

1)隨著業務數字化的深入,資料種類越來越多,管理越來越複雜;

2)資料“生產工藝”(規則、演演算法等)是一個不斷迭代升級的過程,沒有好的設計開發工具,無法持續發展;

3)資料人才稀缺,人才流動頻繁。

 

無法明確指出,什麼是資料中臺最好的技術和工具。唯有現在開始,轉變思想觀念,不斷改變和提升生產技術。

 

後記:作為一個從業多年的“資料礦工”,看著資料中臺幾乎成了大資料時代風口浪尖上的豬,一方面,似乎有了重建天日的希望,另一方面,更希望即使風頭過後,豬已經插上翅膀。

 

為此,我們需要看到資料中臺的本質,不是跟風,而是踏踏實實的建設自己企業的資料產品生產線。不為名利,只因情懷。

已同步到看一看
贊(0)

分享創造快樂