歡迎光臨
每天分享高質量文章

41款實用工具,資料獲取、清洗、建模、可視化都有了

導讀:在資料科學活動的不同階段,有很多可用的支持工具和技術。本文介紹各種活動階段使用的工具和技術,如資料獲取、資料清洗、資料管理、建模、模擬和資料可視化。

 

作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)、普里蒂·斯里尼瓦斯·薩加(Priti Srinivas Sajja)

如需轉載請聯繫大資料(ID:hzdashuju)

 

 

諸如結構式訪談、非結構式訪談、開放式問卷調查、封閉式問卷調查、記錄評論和觀察等技術統稱為事實調查方法。這種事實調查方法和其他資料獲取方法可以採取自動化,而不必使用人工方法。

使用具有專用軟體的物理設備(如終端、傳感器和掃描儀等)也可用於管理物理設備和系統之間的接口。隨後,這些資料可以通過典型的編程語言(如Java、Visual Basic、C++、MatLab和Lisp)來進行部分管理。也可使用開源和專用的資料採集軟體,如MIDAS(最大集成資料採集系統)。

通常,資料採集系統是作為一個專用的獨立系統而開發的,這種系統被稱為資料記錄器。在有特殊需求的情況下,系統的工作模型已準備好,並且也已呈現給了資料科學家。這樣的原型有助於用戶在系統實際構建之前測試資料獲取機制。這有助於收集額外要求並測試已提出系統的可行性。

這裡有發現更高層次內容的知識獲取和機器學習方法(例如從資源中自動地獲取信息和知識),這種知識獲取方法的例子如概念圖、審計、神經網絡和其他與自動知識發現相關的方法。

在其他工具中,資料清洗工具資料管理和建模工具以及資料可視化工具都非常重要。本文列出了不同類別中的一些主要工具。

 

 

 

01 資料清洗工具

 

一旦完成資料收集,便需要檢查其清潔度。資料清洗通常稱為資料凈化,即其資料從源中刪除或更正臟資料的過程。資料宣告程式的標的是識別和消除資料中的錯誤,為進一步分析、建模和可視化提供一致的資料。

在資料項層級上,一些不正確的資料通過適當的驗證被拒絕。在諸如檔案和資料庫的同構資料集合中,不一致程度和錯誤數量較少。在來自多個資料源的具有異構性質的大型資料庫(如資料倉庫、聯邦資料庫系統或全球基於Web的系統)中,資料清洗變得至關重要。

產生這些問題的原因有:

(1)不同的格式

(2)冗餘資料

(3)資料使用的術語和標準不同

(4)合併資料使用的方法

刪除不准確的、不完整或不合理的資料會提高資料的質量。缺失值、特殊值、範圍檢查、演繹修正、插值、最小值調整、錯字、審計和工作流規範檢查等是資料清洗的常用機制。

 

除了編程語言外,常用的資料清理工具如下所列。

 

1. Lavastorm分析

 

用於分析引擎等產品。

www.lavastorm.com

 

2. IBM InfoSphere信息服務器

 

分析、理解、清洗、監視、轉換和傳輸資料。

http://www-03.ibm.com/software/products/en/infosphere-information-server/

 

3. SAS資料質量服務器

 

清洗資料,併在資料流管理服務器上執行作業和服務。

www.sas.com

 

4. Oracle的主資料管理(MDM)

 

是處理大量資料,並且提供諸如合併、清洗、擴充和同步企業的關鍵業務資料物件等服務的解決方案。

http://www.oracle.com/partners/en/most-popular-resources/059010.html

 

5. 益百利 QAS清洗服務

 

為地址驗證提供CASS認證(編碼精度支持系統)。

http://www.qas.co.uk/

 

6. NetProspex

 

為資料清理、追加以及正在進行的市場資料管理提供支持。在印度,它現在是鄧白氏信息服務公司的一部分,其提供資料管理轉換和資料質量程式。

http://www.netprospex.com/

http://www.dnb.co.in/

 

7. Equifax

 

為資料庫管理、資料集成和資料分析提供解決方案。

http://www.equifax.co.in/

 

8. CCR Data

 

清理並審計資料。該公司研發了ADAM—資料清理平臺。

 

9. Oceanosinc公司提供的解決方案

 

用於資料清理、聯繫發現和商業智慧。

http://www.oceanosinc.com/

 

10. Nneolaki

 

提供的工具用於資料收集、清理、附加和管理。

http://neolaki.net/

 

11. 資料清洗產品

 

為資料清洗提供方案。

http://www.datacleanser.co.uk/

 

 

 

02 資料管理和建模工具

 

資料科學實踐中的其他重要活動是資料管理和資料準備,其也被稱作資料整理。資料整理是將資料轉換或映射為格式良好的資料流的過程,以便資料可以順利地用於後續處理。

實際上,該過程允許通過工具便利和自動地使用資料來進行進一步的活動。排序、解析、提取、分解和恢復資料是資料管理階段的主要活動。諸如Pearl、R、Python等編程工具以及來自編程語言和軟體包的一些現成庫可用於支持資料管理活動。

 

一旦資料準備好進行分析,諸如線性回歸、運籌學方法以及決策支持系統等技術便通常用於資料建模。在這裡,資料建模的基本標的是,為了提高商業洞察力進而確定乾凈且有效的資料物體之間的關係。

致力於這個階段的資料科學家或專家被稱為資料建模者。資料建模可以在概念層面、企業層面和物理層面完成。以下是支持資料建模的主要工具。

 

12. CA ERwin資料模擬

 

為管理複雜資料提供了簡單的可視化界面。

http://erwin.com/products/data-modeler

 

13. Database Workbench

 

為使用多個資料庫進行開發提供了一個單一的開發環境。

http://www.upscene.com/database_workbench/

 

14. DeZign for Databases

 

是一個支持資料庫設計和建模的工具。它還為資料庫應用程式開發提供了複雜的可視化資料建模環境。

http://www.datanamic.com/dezign/

 

15. Enterprise Architect

 

是用於資料建模和軟體工程的完全集成的圖形支持工具。

http://www.sparxsystems.com/products/ea/

 

16. ER/Studio

 

為資料管理專業人員提供協作機制以構建和維護企業級資料模型和元資料儲存庫。

http://www.embarcadero.com/products/er-studio

 

17. InfoSphere 資料架構師(理性資料架構師)

 

是一種協作式的資料設計方案。它簡化了倉庫設計、維度建模以及管理任務的變更。

http://www-03.ibm.com/software/products/en/ibminfodataarch/

 

18. ModelRight

 

為資料庫設計人員提供了諸如資料庫設計、圖形支持、報告和可視化界面等活動的支持。

http://www.modelright.com/products.asp 

 

19. MySQL Workbench

 

為資料庫架構師、開發人員和資料庫管理員提供了統一的可視化工具。MySQL Workbench還提供資料建模、SQL開發和綜合管理。

http://www.mysql.com/products/workbench/

 

20. Navicat資料模擬器

 

有助於創建高質量的邏輯資料模型和物理資料模型。

http://www.navicat.com/products/navicat-data-modeler

 

21. Open ModelSphere

 

是一款獨立於平臺且免費的建模工具,可用作開源軟體。它為資料建模和軟體開發的所有階段提供了普遍支持。

http://www.modelsphere.org/

 

22. Oracle SQL Developer Data Modeler

 

是一款用於創建、瀏覽和編輯資料模型的免費圖形工具。它支持邏輯的、關係的、物理的、多維的以及資料型別的模型。

http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html

 

23. PowerDesigner

 

管理設計時間更改和元資料。

http://www.powerdesigner.de/

 

24. Software Ideas Modeler

 

通過諸如UML、業務流程模型和符號(BPMN)、系統建模語言(SysML)等的標準圖以及多圖表,為建模提供支持。

https://www.softwareideas.net/

 

25. SQLyog

 

是一個強大的MySQL管理者和管理工具。

https://www.webyog.com/

 

26. Toad Data Modeler

 

是一個資料庫設計工具,其用於設計新的結構、物體關係圖和SQL腳本生成器。

http://www.toad-data-modeler.com/

 

03 資料可視化工具

 

資料可視化是指資料的圖形表示。資料的可視化使得理解資料和溝通變得更容易。

 

有很多可用於資料可視化的工具,下麵列出了一些常用可視化工具:

 

27. Dygraphs

 

是一個快速且靈活的開源JavaScript圖表庫,其允許用戶探索和解釋密集的資料集。Dygraphs是一個高度可定製的工具。

http://dygraphs.com/

 

28. ZingChart

 

是一個JavaScript圖表庫,其能為大量資料提供快速和交互式的圖表。

http://www.zingchart.com/

 

29. InstantAtlas

 

以有效的視覺方式提供交互式示意圖和報告軟體。

http://www.instantatlas.com/

 

30. Timeline

 

可以製作出美觀的互動時間表。

http://www.simile-widgets.org/timeline/

 

31. Exhibit

 

是由麻省理工學院開發的完全開源軟體,其有助於創建交互式的示意圖和其他基於資料的可視化。

http://www.simile-widgets.org/exhibit/

 

32. Modest Maps

 

對於想要使用交互式示意圖的設計者和開發者來說,是一個免費的圖書館。

http://modestmaps.com/

 

33. Leaflet

 

是適用於移動友好交互式示意圖的現代開源JavaScript庫。

http://leafletjs.com/

 

34. Visual.ly

 

有助於創建視覺表徵。

http://create.visual.ly/

 

35. Visualize Free

 

構建交互式可視化,用來說明簡單圖表不易表示的資料。

http://visualizefree.com/index.jsp

 

36. 多眼

 

IBM研發的“多眼”可以幫助用戶從資料集創建可視化並啟用資料分析。

http://www-969.ibm.com/software/analytics/manyeyes/

 

37. D3.js

 

是一個JavaScript庫,D3.js從多個資料源使用HTML、SVG和CSS來生成圖形和圖表。

http://d3js.org/

 

38. Google Charts

 

提供一種機制來以多種交互式圖表(如線形圖、複雜的分層樹形圖等)的形式對資料進行可視化。

https://developers.google.com/chart/interactive/docs/

 

39. Crossfilter

 

是一個JavaScript庫,其用於探索瀏覽器中的大規模多變數資料集。此外,Crossfilter還提供可協調的3D可視化。

http://square.github.io/crossfilter/

 

40. Polymaps

 

在地圖上提供了快速且多縮放的資料集演示。

http://polymaps.org/

 

41. Gephi

 

是一款適用於各種網絡、複雜系統、動態和分層圖形的交互式的可視化探索平臺。它支持探索性資料分析、鏈接分析、社交網絡分析以及生物網絡分析。該工具為已識別的類似資料集呈現彩色區域。

 

https://gephi.github.io/

 

 

除了上述工具和技術之外,資料科學領域還需要其他更多的專用新工具。由於資料科學領域是來自多個學科的技術聯盟,並且具有無處不在的應用,因此資料科學在研究和開發中必須被賦予最重要的地位。此外,資料科學領域還需要文件編製、新的技術和模型。

典型的模型和技術可能不適合已獲取的資料集,這些資料需要典型方法外的支持。在這裡,人工智慧技術可能會有很大的貢獻。

 

本文摘編自大資料分析與演算法,經出版方授權發佈。

延伸閱讀《大資料分析與演算法

點擊上圖瞭解及購買

轉載請聯繫微信:DoctorData

推薦語:本書系統介紹如何用主流智慧技術實現大資料分析。詳細介紹了資料科學領域的相關智慧技術,包括資料分析、基本學習演算法、模糊邏輯、人工神經網絡、基因演算法和進化計算、使用R語言進行大資料分析等。

赞(0)

分享創造快樂