建立最貼心的數據存取平台
匯智數據科學的技術團隊,是長期混合使用商用軟件及開源軟件作為提供予客戶的方案及專業服務時使用。
基於開源軟件的技術急速發展,可以有更多的選擇讓企業及機構用作建立數據倉庫及/或大數據平台。這裡有幾個由我們技術團隊建立的實際案例:
- 現代數據倉庫 (Modern Data Warehouse)
- 物聯網使用的NoSQL數據庫 (NoSQL Database for IoT)
- 大數據儲存 (Big Data Repository)
- 數據湖泊 (Data Lake)
現代數據倉庫
在今年,我們利用了PostgreSQL資料庫去為一家資產管理公司建立一個現代數據倉庫。這個PostgreSQL數據庫,在一個全SSD的伺服器群集之上存取商品價格及交易歷史。置於一個現代數據倉庫,它是應當可以接合Apache Cassandra或Hadoop的大數據平台用來儲存半結構性甚或是非結構性數據,以便未來進一步拓展。PostgreSQL是一個非常好的方案,還有另一個開源數據庫供應商MariaDB作為另一個可靠的選項,現時的開源軟件也有不少提供企業級的技術支援服務。 不過,最新版本的MariaDB,已經不再官方支援Apache Cassandra NoSQL的直接連線。
一個典型的數據倉庫架構
物聯網使用的NoSQL數據庫
我們協助一家速遞公司,利用了GPS傳感器去追蹤每一輛在路上貨車的去向。然而,每輛貨車的路線都會被記錄及上傳至一個Apache Cassandra NoSQL的數據庫作為分析個別司機表現及交通狀況。對於NoSQL數據庫,我們也會使用Redis來記錄不同數據中心及電腦實驗室的溫度和濕度,作為監控及自動調節冷氣溫度的基礎。
GPS感應器
大數據平台
為了應付大量非結構數據,其中一個最有效率方法去存儲數據就是Hadoop。我們協助不同客戶,包括多家零售商去取存社交媒體的日誌來分析情緒,以便提高客戶服務質素。接下來,他們會串流數據作實時的分析。這是非常重要的,可以對無論線上或線下客戶提供即時適切的反應,再達至更理想的物流及倉儲管理。
Big Data Repository Design – available for near real-time analytics
數據湖泊
以一家大型企業而言,內部可能由不同主人擁有上百套系統及數據孤島。這是難以去作一個企業的整體分析。以下就是建立數據湖泊的選項:
- Apache Hadoop – 一個大數據平台,可以用艱辛的手段來解決絕大部份問題
- 數據虛擬化Data Virtualization —很快的答案,不用在孤島上的後台系統有任何結構性的改動
- 數據庫/大數據接駁—部份數據庫如PostgreSQL可以直接連線到Apache Hadoop
若然閣下希望節省時間及功夫,利用數據虛擬化是一個較佳的出路。不過,如果沒有一定數量的數據來源(少於三個),去建立一個Apache Hadoop並不是太過困難。另一個選項是運行一個可以連接大數據如Hadoop or Cassandra的數據庫,當中可以揀選PostgreSQL。我們協助了一家從事奢侈品銷售的公司去建立一個在Apache Hadoop框架下的數據湖泊。這三種設計架構的選項,都已經過我們團隊在不同客戶的環境實踐 – 主要跟據獨特的需求及環境限制所決定。我們有世界企業500強保險公司利用Apache Hadoop,大型工業集團運用數據庫串連大數據,與及一個法定機構所使用的數據虛擬化技術。
Apache Hadoop (Ecosystem)
Data Virtualization
Database / Big Data direct linkage (PostgreSQL as an example)
總結
世界上對於數據處理及儲存,實在有太多錯誤觀念及誤解。舉一個例子,有很多人把無論來自任何地方的所有數據都放到Apache Hadoop架構上進行分析。基於文中上述多個案例,我們應用了不同的處埋手法及最佳範例去應對不同的場境。如果一個工具足以面對所有,那實是何等荒謬在市場居然有這麼多工具及科技正在廣泛應用。另一個考慮點是雲端還是公司內建立。對於數據儲存及數據分析,雲端通常是昂貴及非常難以搬遷到另一供應商。因此,在進行決策前必須慎重考慮及審視。我們比較建議私有雲或是公司內建,多於公有的雲端服務作為合乎比例的數據科學平台的生產環境。
如果閣下希望提出問題或跟我們商討,請按此來聯絡我們。