歡迎光臨
每天分享高質量文章

8種Nosql資料庫系統對比

導讀:Kristóf Kovács 是一位軟體架構師和咨詢顧問,他最近發佈了一片對比各種型別NoSQL資料庫的文章。

雖然SQL資料庫是非常有用的工具,但經歷了15年的一支獨秀之後壟斷即將被打破。這隻是時間問題:被迫使用關係資料庫,但最終發現不能適應需求的情況不勝列舉。

但是NoSQL資料庫之間的不同,遠超過兩 SQL資料庫之間的差別。這意味著軟體架構師更應該在專案開始時就選擇好一個適合的 NoSQL資料庫。針對這種情況,這裡對 Cassandra、Mongodb、CouchDB、Redis、 Riak、Membase、Neo4j 和 HBase 進行了比較:

(編註1:NoSQL:是一項全新的資料庫革命性運動,NoSQL的擁護者們提倡運用非關係型的資料儲存。現今的計算機體系結構在資料儲存方面要求具 備龐大的水平擴 展性,而NoSQL致力於改變這一現狀。目前Google的 BigTable 和Amazon 的Dynamo使用的就是NoSQL型資料庫。 參見NoSQL詞條。)

1. CouchDB

  • 所用語言: Erlang
  • 特點:DB一致性,易於使用
  • 使用許可: Apache
  • 協議: HTTP/REST
  • 雙向資料複製,
  • 持續進行或臨時處理,
  • 處理時帶衝突檢查,
  • 因此,採用的是master-master複製(見編註2)
  • MVCC – 寫操作不阻塞讀操作
  • 可儲存檔案之前的版本
  • Crash-only(可靠的)設計
  • 需要不時地進行資料壓縮
  • 視圖:嵌入式 映射/減少
  • 格式化視圖:串列顯示
  • 支持進行服務器端文件驗證
  • 支持認證
  • 根據變化實時更新
  • 支持附件處理
  • 因此, CouchApps(獨立的 js應用程式)
  • 需要 jQuery程式庫

最佳應用場景:適用於資料變化較少,執行預定義查詢,進行資料統計的應用程式。適用於需要提供資料版本支持的應用程式。

例如: CRM、CMS系統。 master-master複製對於多站點部署是非常有用的。

(編註2:master-master複製:是一種資料庫同步方法,允許資料在一組計算機之間共享資料,並且可以通過小組中任意成員在組內進行資料更新。)

2. Redis

  • 所用語言:C/C++
  • 特點:運行異常快
  • 使用許可: BSD
  • 協議:類 Telnet
  • 有硬碟儲存支持的記憶體資料庫,
  • 但自2.0版本以後可以將資料交換到硬碟(註意, 2.4以後版本不支持該特性!)
  • Master-slave複製(見編註3)
  • 雖然採用簡單資料或以鍵值索引的哈希表,但也支持複雜操作,例如 ZREVRANGEBYSCORE。
  • INCR & co (適合計算極限值或統計資料)
  • 支持 sets(同時也支持 union/diff/inter)
  • 支持串列(同時也支持佇列;阻塞式 pop操作)
  • 支持哈希表(帶有多個域的物件)
  • 支持排序 sets(高得分表,適用於範圍查詢)
  • Redis支持事務
  • 支持將資料設置成過期資料(類似快速緩衝區設計)
  • Pub/Sub允許用戶實現訊息機制

最佳應用場景:適用於資料變化快且資料庫大小可遇見(適合記憶體容量)的應用程式。

例如:股票價格、資料分析、實時資料搜集、實時通訊。

(編註3:Master-slave複製:如果同一時刻只有一臺服務器處理所有的複製請求,這被稱為 Master-slave複製,通常應用在需要提供高可用性的服務器集群。)

3. MongoDB

  • 所用語言:C++
  • 特點:保留了SQL一些友好的特性(查詢,索引)。
  • 使用許可: AGPL(發起者: Apache)
  • 協議: Custom, binary( BSON)
  • Master/slave複製(支持自動錯誤恢復,使用 sets 複製)
  • 內建分片機制
  • 支持 javascript運算式查詢
  • 可在服務器端執行任意的 javascript函式
  • update-in-place支持比CouchDB更好
  • 在資料儲存時採用記憶體到檔案映射
  • 對性能的關註超過對功能的要求
  • 建議最好打開日誌功能(引數 –journal)
  • 在32位操作系統上,資料庫大小限制在約2.5Gb
  • 空資料庫大約占 192Mb
  • 採用 GridFS儲存大資料或元資料(不是真正的檔案系統)

最佳應用場景:適用於需要動態查詢支持;需要使用索引而不是 map/reduce功能;需要對大資料庫有性能要求;需要使用 CouchDB但因為資料改變太頻繁而占滿記憶體的應用程式。

例如:你本打算採用 MySQL或 PostgreSQL,但因為它們本身自帶的預定義欄讓你望而卻步。

4. Riak


  • 所用語言:Erlang和C,以及一些Javascript
  • 特點:具備容錯能力
  • 特點:具備容錯能力
  • 使用許可: Apache
  • 協議: HTTP/REST或者 custom binary
  • 可調節的分發及複製(N, R, W)
  • 用 JavaScript or Erlang在操作前或操作後進行驗證和安全支持。
  • 使用JavaScript或Erlang進行 Map/reduce
  • 連接及連接遍歷:可作為圖形資料庫使用
  • 索引:輸入元資料進行搜索(1.0版本即將支持)
  • 大資料物件支持( Luwak)
  • 提供“開源”和“企業”兩個版本
  • 全文本搜索,索引,通過 Riak搜索服務器查詢( beta版)
  • 支持Masterless多站點複製及商業許可的 SNMP監控

最佳應用場景:適用於想使用類似 Cassandra(類似Dynamo)資料庫但無法處理 bloat及複雜性的情況。適用於你打算做多站點複製,但又需要對單個站點的擴展性,可用性及出錯處理有要求的情況。

例如:銷售資料搜集,工廠控制系統;對宕機時間有嚴格要求;可以作為易於更新的 web服務器使用。

5. Membase

  • 所用語言: Erlang和C
  • 特點:兼容 Memcache,但同時兼具持久化和支持集群
  • 使用許可: Apache 2.0
  • 協議:分佈式快取及擴展
  • 非常快速(200k+/秒),通過鍵值索引資料
  • 可持久化儲存到硬碟
  • 所有節點都是唯一的( master-master複製)
  • 在記憶體中同樣支持類似分佈式快取的快取單元
  • 寫資料時通過去除重覆資料來減少 IO
  • 提供非常好的集群管理 web界面
  • 更新軟體時軟無需停止資料庫服務
  • 支持連接池和多路復用的連接代理

最佳應用場景:適用於需要低延遲資料訪問,高併發支持以及高可用性的應用程式

例如:低延遲資料訪問比如以廣告為標的的應用,高併發的 web 應用比如網絡游戲(例如 Zynga)

6. Neo4j

  • 所用語言: Java
  • 特點:基於關係的圖形資料庫
  • 使用許可: GPL,其中一些特性使用 AGPL/商業許可
  • 協議: HTTP/REST(或嵌入在 Java中)
  • 可獨立使用或嵌入到 Java應用程式
  • 圖形的節點和邊都可以帶有元資料
  • 很好的自帶web管理功能
  • 使用多種演算法支持路徑搜索
  • 使用鍵值和關係進行索引
  • 為讀操作進行優化
  • 支持事務(用 Java api)
  • 使用 Gremlin圖形遍歷語言
  • 支持 Groovy腳本
  • 支持在線備份,高級監控及高可靠性支持使用 AGPL/商業許可

最佳應用場景:適用於圖形一類資料。這是 Neo4j與其他nosql資料庫的最顯著區別

例如:社會關係,公共交通網絡,地圖及網絡拓譜

7. Cassandra

  • 所用語言: Java
  • 特點:對大型表格和 Dynamo支持得最好
  • 使用許可: Apache
  • 協議: Custom, binary (節約型)
  • 可調節的分發及複製(N, R, W)
  • 支持以某個範圍的鍵值通過列查詢
  • 類似大表格的功能:列,某個特性的列集合
  • 寫操作比讀操作更快
  • 基於 Apache分佈式平臺盡可能地 Map/reduce
  • 我承認對 Cassandra有偏見,一部分是因為它本身的臃腫和複雜性,也因為 Java的問題(配置,出現異常,等等)

最佳應用場景:當使用寫操作多過讀操作(記錄日誌)如果每個系統組建都必須用 Java編寫(沒有人因為選用 Apache的軟體被解雇)

例如:銀行業,金融業(雖然對於金融交易不是必須的,但這些產業對資料庫的要求會比它們更大)寫比讀更快,所以一個自然的特性就是實時資料分析

8. HBase

(配合 ghshephard使用)

  • 所用語言: Java
  • 特點:支持數十億行X上百萬列
  • 使用許可: Apache
  • 協議:HTTP/REST (支持 Thrift,見編註4)
  • 在 BigTable之後建模
  • 採用分佈式架構 Map/reduce
  • 對實時查詢進行優化
  • 高性能 Thrift網關
  • 通過在server端掃描及過濾實現對查詢操作預判
  • 支持 XML, Protobuf, 和binary的HTTP
  • Cascading, hive, and pig source and sink modules
  • 基於 Jruby( JIRB)的shell
  • 對配置改變和較小的升級都會重新回滾
  • 不會出現單點故障
  • 堪比MySQL的隨機訪問性能

最佳應用場景:適用於偏好BigTable:)並且需要對大資料進行隨機、實時訪問的場合。

例如: Facebook訊息資料庫(更多通用的用例即將出現)

編註4:Thrift 是一種接口定義語言,為多種其他語言提供定義和創建服務,由Facebook開發並開源。

當然,所有的系統都不只具有上面列出的這些特性。這裡我僅僅根據自己的觀點列出一些我認為的重要特性。與此同時,技術進步是飛速的,所以上述的內容肯定需要不斷更新。我會盡我所能地更新這個串列。

本文由 伯樂在線 – 唐尤華 翻譯

英文出處:Kristóf Kovács

譯文鏈接:http://blog.jobbole.com/1344/


赞(0)

分享創造快樂