歡迎光臨
每天分享高質量文章

大資料綜述


點選 《福利來了!PLC的資料(免費),你要嗎?

點選第二波福利來了!PLC的資料(免費),你要嗎?

大資料的發展已經得到了世界範圍內的廣泛關註,發展趨勢勢不可擋。如何將巨大的原始資料進行有效地利用和分析,使之轉變成可以被利用的知識和價值,解決日常生活和工作中的難題,成為國內外共同關註的重要課題,同時也是大資料最重要的研發意義所在。

1.1. 大資料的產生

現在的社會是一個資訊化數字化的社會,網際網路物聯網和雲端計算技術的迅猛發展,使得資料充斥著整個世界,與此同時,資料也成為一種新的自然資源,亟待人們對其加以合理高效充分的利用,使之能夠給人們的生活工作帶來更大的效益和價值。在這種背景下,資料的數量不僅以指數形式遞增,而且資料的結構越來越趨於複雜化,這就賦予了大資料不同於以往普通資料更加深層的內涵。

在科學研究(天文學生物學高能物理等)、計算機模擬、網際網路應用、電子商務等領域,資料量呈現快速增長的趨勢。美國網際網路大資料平臺(IDC)指出,網際網路上的資料每年將增長50%以上,每2年便將翻一番,而目前世界上90%以上的資料是最近幾年才產生的。資料並非單純指人們在網際網路上釋出的資訊,全世界的工業裝置汽車電錶上有著無數的數碼感測器,隨時測量和傳遞有關位置運動震動溫度濕度乃至空氣中化學物質的變化等也產生了海量的資料資訊。

科學研究產生大資料。現在的科研工作比以往任何時候都依賴大量的資料資訊交流處理,尤其是各大科研實驗室之間研究資訊的遠端傳輸。比如類似希格斯玻粒子的發現就需要每年36個國家的150多個計算中心之間進行約26PB的資料交流。在過去的10年間,連線超過40個國家實驗室超級計算中心和科學儀器的能源科學網(Esnet)上的流量每年以72%的速度增長,201211Esnet將升級為100Gbps

物聯網的應用產生大資料。物聯網(the
Internet ofthings)
是新一代資訊科技的重要組成部分,解決了物與物
人與物人與人之間的互聯。本質而言,人與機器機器與機器的互動,大都是為了實現人與人之間的資訊互動而產生的。在這種資訊互動的過程中,催生了從資訊傳送到資訊感知再到面向分析處理的應用。人們接受日常生活中的各種資訊,將這些資訊傳送到大資料平臺,利用大資料平臺的智慧分析決策得出資訊處理結果,再透過網際網路等資訊通訊網路將這些資料資訊傳遞到四面八方,而在網際網路終端的裝置利用感測網等設施接受資訊併進行有用的資訊提取,得到自己想要的資料結果。

目前,物聯網在智慧工業智慧農業智慧交通智慧電網節能建築安全監控等行業都有應用。巨大連線的網路使得網路上流通的資料大幅度增長,從而催生了大資料的出現。

海量網路資訊的產生催生大資料。移動互聯時代,數以百億計的機器企業個人隨時隨地都會獲取和產生新的資料。網際網路搜尋的巨頭Google現在能夠處理的網頁數量是在千億以上,每月處理的資料超過400PB,並且呈繼續高速增長的趨勢;Youtube每天上傳7萬小時的影片;淘寶網在2010年就擁有3.7億會員,線上商品8.8億件,每天交易超過數千萬筆,單日資料產生量超過50TB,儲存量40PB;2011Internet
World
統計網際網路使用者近20億,Facebook註冊使用者超過8.5億,每天上傳3億張照片,每天生成300TB日誌資料;新浪微博每天有數十億的外部網頁和API介面訪問需求,每分鐘都會發出數萬條微博;百度目前資料總量接近1000PB,儲存網頁數量接近1萬億,每天大約要處理60億次搜尋請求,幾十PB資料;IDC的研究結果,2011年創造的資訊數量達到1800EB,每年產生的數字資訊量還在以60%的速度增長,到2020年,全球每年產生的資料資訊將達到35ZB……所有的這些都是海量資料的呈現。

隨著社交網路的成熟傳統網際網路到移動網際網路的轉變移動寬頻的迅速提升,除了個人電腦智慧手機平板電腦等常見的客戶終端之外,更多更先進的感測裝置智慧裝置,比如智慧汽車智慧電視工業裝置和手持裝置等都將接入網路,由此產生的資料量及其增長速度比以往任何時期都要多,網際網路上的資料流量正在迅猛增長。

1.2. 大資料的提出

1989年,Gartner GroupHoward Dresner首次提出商業智慧”(Business Intelligence)這一術語。商業智慧通常被理解為企業中現有的資料轉化為知識幫助企業做出明智的業務經營決策的工具,主要標的是將企業所掌握的的資訊轉換成競爭優勢,提高企業決策能力決策效率決策準確性。為了將資料轉化為知識,需要利用資料倉庫聯機分析處理(OLAP)工具和資料挖掘(Data Mining)等技術。隨著網際網路絡的發展,企業收集到的資料越來越多資料結構越來越複雜,一般的資料挖掘技術已經不能滿足大型企業的需要,這就使得企業在收集資料之餘,也開始有意識的尋求新的方法來解決大量資料無法儲存和處理分析的問題。由此,IT界誕生了一個新的名詞——“大資料

對於大資料的概念目前來說並沒有一個明確的定義。經過多個企業機構和資料科學家對於大資料的理解闡述,雖然描述不一,但都存在一個普遍共識,即大資料的關鍵是在種類繁多數量龐大的資料中,快速獲取資訊。維基百科中將大資料定義為:所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取管理處理,並整理成為幫助企業經營決策更積極目的的資訊。IDC將大資料定義為:為更經濟地從高頻率的大容量的不同結構和型別的資料中獲取價值而設計的新一代架構和技術。資訊專家塗子沛在著作《大資料》中認為:大資料,並不僅僅指容量大,更大的意義在於透過對海量資料的交換整合和分析,發現新的知識,創造新的價值,帶來大知識大科技大利潤大發展

資料大資料,不僅僅是數量上的差別,更是資料質量的提升。傳統意義上的資料處理方式包括資料挖掘?資料倉庫?聯機分析處理(OLAP)等,而在大資料時代,資料已經不僅僅是需要分析處理的內容,更重要的是人們需要藉助專用的思想和手段從大量看似雜亂?繁複的資料中,收集?整理和分析資料足跡,以支撐社會生活的預測?規劃和商業領域的決策支援等。

著名資料庫專家?圖靈獎的獲得者Jim Gray博士總結出,在人類的科學研究史上,先後經歷了實驗(Empirical)?理論(Theoretical)和計算(Computational)3種正規化,而在資料量不斷增加和資料結構愈加複雜的今天,這3種正規化已經不足以在新的研究領域得到更好地運用,所以JimGray博士提出了科學的4種正規化”(TheFouth
Paradigm)
這一新型的資料研究方式,即資料探索”(Data
Exporation)
,用以指導和更新領域的科學研究。資料探索,透過裝置採集資料或是模擬器模擬產生資料;透過軟體實現過程模擬;將重要資訊儲存在電腦中;科學家透過資料庫分析相關資料。

1.3. 大資料的特徵

在日新月異的IT業界,各個企業對大資料都有著自己不同的解讀。但大家都普遍認為,大資料有著4“V”特徵,即Volume(容量大)Variety(種類多)Velocity(速度快)和最重要的Value(價值密度低)

Volume是指大資料巨大的資料量與資料完整性。十幾年前,由於儲存方式科技手段和分析成本等的限制,使得當時許多資料都無法得到記錄和儲存。即使是可以儲存的訊號,也大多採用模擬訊號儲存,當其轉變為數字訊號的時候,由於訊號的取樣和轉換,都不可避免存在資料的遺漏與丟失。那麼現在,大資料的出現,使得訊號得以以最原始的狀態儲存下來,資料量的大小已不是最重要的,資料的完整性才是最重要的。

Variety意味著要在海量種類繁多的資料間發現其內在關聯。在網際網路時代,各種裝置連成一個整體,個人在這個整體中既是資訊的收集者也是資訊的傳播者,加速了資料量的爆炸式增長和資訊多樣性。這就必然促使我們要在各種各樣的資料中發現資料資訊之間的相互關聯,把看似無用的資訊轉變為有效的資訊,從而做出正確的判斷。

Velocity可以理解為更快地滿足實時性需求。目前,對於資料智慧化和實時性的要求越來越高,比如開車時會檢視智慧導航儀查詢最短路線,吃飯時會瞭解其他使用者對這家餐廳的評價,見到可口的食物會拍照發微博等諸如此類的人與人人與機器之間的資訊交流互動,這些都不可避免帶來資料交換。而資料交換的關鍵是降低延遲,以近乎實時的方式呈獻給使用者。

大資料特徵裡最關鍵的一點,就是ValueValue的意思是指大資料的價值密度低。大資料時代資料的價值就像沙子淘金,資料量越大,裡面真正有價值的東西就越少。現在的任務就是將這些ZBPB級的資料,利用雲端計算智慧化開源實現平臺等技術,提取出有價值的資訊,將資訊轉化為知識,發現規律,最終用知識促成正確的決策和行動。

1.4. 大資料的應用

發展大資料產業將推動世界經濟的發展方式由粗放型到集約型的轉變,這對於提升企業綜合競爭力和政府的管制能力具有深遠意義的影響。將大量的原始資料彙集在一起,透過智慧分析資料挖掘等技術分析資料中潛在的規律,以預測以後事物的發展趨勢,有助於人們做出正確的決策,從而提高各個領域的執行效率,取得更大的收益。

商業

商業是大資料應用最廣泛的領域。沃爾瑪(Walmart)透過對消費者購物行為等這種非結構化資料進行分析,瞭解顧客購物習慣,從銷售資料分析適合搭配在一起買的商品,創造了啤酒與尿布的經典商業案例;淘寶服務於賣家的大資料平臺——“淘寶資料魔方有一個無量神針——傾聽使用者的痛螢幕,監聽著幾百萬淘寶買家的心跳,收集分析買家的購物行為,找出問題的先兆,避免惡拍”(買家拍下產品但拒收)發生,淘寶還針對買家設定大資料平臺,為買家量身打造完善網購體驗的產品。

金融

大資料在金融業也有著相當重要的作用。華爾街德溫特資本市場公司分析全球3.4億微博賬戶的留言,判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,依此決定公司股票的買入或賣出,該公司2012年第一季度獲得了7%的收益率。Equifax公司是美國三大徵信所之一,其儲存的財務資料改寫了所有美國成年人,包括全球5億個消費者和8100萬家企業。在它的資料庫中與財務有關的記錄包括貸款申請租賃房地產購買零售商品納稅申報費用繳付報紙與雜誌訂閱等,看似雜亂無章的共26PB資料,經過交叉分享和索引處理,能夠得出消費者的個人信用評分,從而推斷客戶支付意向與支付能力,發現潛在的欺詐。

醫療

隨著大資料在醫療與生命科學研究過程中廣泛應用和不斷擴充套件,產生的資料之大種類之多令人難以置信。比如醫院中做BPACS影像病理分析等業務產生了大量非結構化資料;2000年一幅CT儲存量才10MB,現在的CT則含有320MB,甚至600MB的資料量,而一個基因組序列檔案大小約為750MB,一個標準病理圖的資料量則有接近5GB。如果將這些資料量乘以人口數量和平均壽命,僅一個社群醫院就可以累積達數TB甚至PB級的結構化和非結構化資料。

另外,為了實現醫院之間對病患資訊的共享,2010年我國公佈的十二五規劃中指出要重點建設國家級省級和地市級三級衛生資訊平臺,建設電子檔案和電子病歷兩個基礎資料庫等。隨著國家逐漸加大對電子病歷的投入,各級醫院也將加大在大資料平臺醫療資訊倉庫等領域的投入,醫療資訊儲存將越來越受重視,醫療資訊中心的關註點也將由傳統計算領域轉移到儲存領域上來。

製造業

中國製造業的相關企業隨著ERPPLM等資訊化系統的部署完成,管理方式由粗放式管理逐步轉為精細化管理,新產品的研發速度和設計效率有了大幅提升,企業在實現對業務資料進行有效管理的同時,積累了大量的資料資訊,產生了利用現代資訊科技收集管理和展示分析結構化和非結構化的資料和資訊的訴求,企業需要資訊化技術幫助決策者在儲存的海量信

息中挖掘出需要的資訊,並且對這些資訊進行分析,透過分析工具加快報錶行程從而推動決策規避風險,並且獲取重要的資訊,

因此,越來越多的企業在原有的各種控制系統(DCSFCSCIPS)和各種生產經營管理系統(MISMRPCRMERP)的基礎上,管理重心從以前的以流程建設為主,轉換為以流程建設和全生命週期資料架構建設並行的樣式,在關註流程的質量和效率的同時,又關註全流程上資料的質量和效率,建立以產品為核心的改寫產品全生命週期的資料結構,用企業級PLM系統來支撐這些資料結構,有效地提高了企業滿足市場需求的響應速度,更加經濟地從多樣化的資料源中獲得更大價值。

1.5. 大資料的挑戰

隨著近年來大資料熱潮的不斷升溫,人們認識到大資料並非是指大規模的資料,更加代表了其本質含義:思維商業和管理領域前所未有的大變革。在這次變革中,大資料的出現,對產業界學術界和教育界都正在產生巨大影響。隨著科學家們對大資料研究的不斷深入,人們越來越意識到對資料的利用可以為其生產生活帶來巨大便利的同時,也帶來了不小的挑戰。

 ()大資料的安全與隱私問題

隨著大資料的發展,資料的來源和應用領域越來越廣泛:在網際網路上隨意瀏覽網頁,就會留下一連串的瀏覽痕跡;在網路中登入相關網站需要輸入個人的重要資訊,例如使用者名稱密碼身份證號手機號住址銀行卡密碼等;隨處可見的攝像頭和感測器會記錄下個人的行為和位置資訊,等等。透過相關的資料分析,資料專家就可以輕易挖掘出人們的行為習慣和個人重要資訊。如果這些資訊運用得當,可以幫助相關領域的企業隨時瞭解客戶的需求和習慣,便於企業調整相應的產品生產計劃,取得更大的經濟效益;但若是這些重要的資訊被不良分子竊取,隨之而來的就是個人資訊財產等的安全性問題。

為瞭解決大資料時代的資料隱私問題,學術界和工業界紛紛提出自己的解決辦法。Lindell等提出了保護隱私的資料挖掘(Privacy PreservingData
Mining)
概念;Sweeney針對位置服務的安全性問題,提出了一種k-匿名方法,即將自己與周圍的(k-1)個使用者組合成一個資料集合,從而模糊了自己的位置概念;差分隱私(Differential Privacy)保護技術可能是解決大資料隱私問題的有力武器,Dwork2006年提出了一種新的差分隱私方法,Roy等於2010年提出了一種隱私保護系統Airavat,將集中資訊流控制和差分隱私保護技術融入雲端計算的資料生成與計算階段,防止MapReduce計算過程中的資料隱私洩露。

此外,大資料時代資料的更新變化速度加快,而一般的資料隱私保護技術大都基於靜態資料保護,這就給隱私保護帶來了新的挑戰。在複雜變化的條件下如何實現資料隱私安全的保護,這將是未來大資料研究的重點方向之一。

 ()大資料的整合與管理問題

縱觀大資料的發展歷程,大資料的來源與應用越來越廣泛,為了把散佈於不同的資料管理系統的資料收集起來統一整理,就有必要進行資料的整合與管理。雖然對資料的整合和管理已經有了很多的方法,但是傳統的資料儲存方法已經不能滿足大資料時代資料的處理需求,這就面臨著新的挑戰。

1)資料儲存。在大資料時代,大資料的特徵之一就是資料型別的多樣性。資料型別由傳統的結構化資料逐漸轉變為半結構化非結構化資料。另外,資料的來源也逐漸多樣化,傳統的資料大都來自於少部分軍事企業或是研究所的電腦終端;現在,隨著網際網路和移動裝置在全球的普及,平板電腦手機GPS等產生的資料呈井噴狀態,因此,資料的儲存就顯得格外重要。由前文可看出,傳統的資料儲存方式已經不足以滿足現在的資料儲存需求,為了應對越來越多的海量資料和日漸複雜的資料結構,很多公司都著手研發適用於大資料時代的分散式檔案系統和分散式並行資料庫,如HDFSBigTable等。在資料儲存過程中,資料格式的轉換是必要的,而且是非常關鍵和複雜的,這就對資料儲存系統提出了更高的要求。

2)資料清洗。大資料時代資料的特徵“Value”,是大資料低價值密度的體現。也就是說,大資料量並不意味著大資訊量,很多時候它意味著冗餘資料的增多垃圾價值的泛濫,因此,對資料進行篩選清理是十分必要的,否則過多的幹擾資訊一方面會佔據大量的儲存空間,造成儲存資源的浪費,另一方面這些垃圾資料會對真正有用的資訊造成幹擾,影響資料分析結果。大資料時代的資料清洗過程必須更加細緻和專業,即在資料清洗過程中,既不能清洗地過細,因為這會增加資料清洗的複雜度,甚至有可能會把有用的資訊過濾掉;也不能清洗的不細緻,因為要保證資料篩選的效果。

 ()大資料的IT技術架構問題

大資料因其獨特的特徵對資料分析處理系統提出了極高的要求,無論是儲存傳輸還是計算,在大資料分析技術平臺上,將會是一個技術的激烈交鋒。因為現有的大資料平臺技術難以滿足大資料的處理需求,所以IT架構的革命性重構勢在必行。

美國的6個部門共同啟動的大資料研究計劃中,絕大部分的研究專案都是針對大資料帶來的技術挑戰,主要應對大資料分析演演算法和系統的效率問題。

大資料分析技術。目前來看,海量資料中超過85%的資料都是半結構化和非結構化的資料,傳統的關係型資料庫已經無法處理。根據CAP理論(ConsistencyAvailabilityPartitions tolerance),一致性可用性和容錯性不可兼得,因此,關係型資料庫沒有良好的可擴充套件性。以MapReduceHadoop為代表的非關係型資料庫的非關係型分析技術因其具有良好的橫向擴充套件(Scale-out)能力而在大資料分析領域得到了廣泛應用,現已成為大資料處理的主流技術。儘管這樣,MapReduceHadoop在效能方面依然不能盡如人意,還需根據實際應用情況不斷更新研發更高效更實用的大資料分析技術。

資料融合。大資料時代資料的數量和質量都達到了一個前所未有的狀態,但是若沒有一個很好的技術將這些一盤散沙的資料充分整合,就無法最大化地發揮大資料的價值,因此,大資料處理技術面臨的一個重要問題就是如何將個人企業和政府的各種資訊資料加以融合。因為這些資料的格式基本都不一致,這就給資料融合帶來了相當大的困難。為瞭解決這個問題,須研究推廣不與平臺系結的資料格式,用這樣一種統一的資料格式,將人類社會物理世界和網路空間聯絡起來,構建統一的資訊系統。

大資料能耗問題。大資料的處理儲存和通訊都是要消耗相當大的能源,在能源價格上漲迅速的今天,由於資料的儲存規模不斷擴大,高能耗已經逐漸成為制約大資料快速發展的瓶頸之一。但是由於大資料的發展也是剛剛起步,能耗問題也未能得到足夠的重視。《紐約時報》曾經做過一年的調查,發表了一篇名為“PowerPollution and the Internet”的文章,文章顯示,Google大資料平臺的耗電量每年3 000kW左右,可是隻有6%~12%的電能被用來支撐大資料的分析處理對客戶的需求進行響應等系統執行,絕大部分電能只是用來支撐很多閑置狀態的伺服器,因此,為了減少不必要的能源消耗,首先可以運用低功耗的硬體資源,比如快閃記憶體PCM等,這些新型儲存硬體的功耗相對傳統磁碟等硬體要低很多;另外,隨著世界能源的消耗量越來越大,第三次工業革命浪潮也迅速席捲全球,可以考慮引入新型可再生能源,比如傳統的電能可以用太陽能風能生化能等產生,避免使用傳統的不可再生能源如煤炭石油等,既節約了能源又減少了環境汙染。

 ()大資料的生態環境問題

大資料的生態環境問題首先涉及的是資料資源管理和共享的問題。這是一個資訊化開放的時代,網際網路的開放式結構使人們可以在地球的不同角落同時共享所有的網路資源,這給科研工作帶來了極大的便利。但是並不是所有的資料都是可以被無條件共享的,有些資料因為其特殊的價值屬性而被法律保護起來不能隨意被無條件利用。由於現在相關的法律措施還不夠健全,還缺乏足夠強的資料保護意識,所以總會出現資料資訊被盜用或是資料所有權歸屬的問題,這既有技術問題也有法律問題。如何在保護多方利益的前提下解決資料共享問題將是大資料時代的一大重要挑戰。

大資料時代,資料的產生和應用領域已經不侷限於某幾個特殊的場合,幾乎所有的領域如政治經濟社會科學法律等都能看到大資料的身影,因此,涉及這些領域的資料交叉問題就不可避免。隨著大資料影響力的深入,大資料的分析結果勢必將會對國家治理樣式,企業的決策組織和業務流程,個人生活方式等都將產生巨大的影響,而這種影響樣式是值得以後深入研究的。

 


尋找同路人

做自動化工業變革的踐行者


可透過選單查詢自己喜歡的文章彙總:

現場儀錶DCS部分PLC部分SIS部分通訊標準數字化問題解答】此處列出部分連結,更多文章透過選單獲取。



贊(0)

分享創造快樂