把數據孤島連起來
近年以來,中至大型企業正在面對同樣的難題,數據孤島(data silos)在不同的部門之中出現了。就算不少企業已經擁有自己的數據倉庫,但還是有缺少了的板塊像社交媒體資訊(social media information)、網站日誌(weblog)等。
圖示1: 不同部門的數據孤島的典型例子
再者,這裡有一個需要去建立數據湖泊(data lake)以存取所有可用數據。不幸地,世界上現時並未有一套數據湖泊的金科玉律。不過,個人覺得數據虛擬化(Data Virtualization)應當在數據湖泊扮演一個相當重要的角色,主要是因為有很多不同類型的數據。數據虛擬化工具能夠連接不同類型數據的關係,利用一個邏輯圖示,如連接NoSQL database、數據倉庫及其他數據庫來源。這個邏輯圖示是可以用來把它們連接。這個圖示能夠幫助數據科學家把已經連接的多數據化身為單一視點,使數據科學家很容易從單一介面儲存。若這裡有重要任何重要發現,有可能把新的發現擴展至數據倉庫內,用以作為日後的參考數據及進一步分析之用。
另一方面,我們需要強調DENODO 數據虛擬化是一個行內的領導者。DENODO 數據虛擬化可以非常易於整合,當中包括了其他ETL工具,像IBM DataStage, Talend, 等去建立自家的完整方案。
Figure 2: DENODO – Logical Data Lake
看到這裡,您可能會問那個才是最佳方案。有幾個重點必然要注:
1. 數據管治/元數據 – 單一檢視介面正是核心價值
2. 數據保安 – 行 / 例 及 角色 /群組
3. 表現 – 主要是針對快取記憶體的使用能力
加上,這裡可以揀選彈性較大及避免單一供應商,而避免單一供應商霸佔整個環境去避免他日供應商「打刧」(抬高軟件支援收費)。作為一支數據科學的專業隊伍,我們選擇了Denodo作為推薦的方案。請參閱下面的架構圖,便會明白 Denodo是如何解答數據孤島的難題。
圖示3 DENODO – 架構圖
不過,企業的數據虛擬化工具一點也不便宜。與此同時,市面上只有一個完全免費的選項,它是出自Apache基金的工具Apache Drill,但只可以用在Hadoop和NoSQL(沒有關係資料庫)。當然都可以一試的。而付費的數據虛擬化產品,閣下必須要查核她們的性能、多少款數據連口、技術支援服務質素、價格及本地多作夥伴及供應商執行能力——最好是擁有豐富的資料庫、數據倉庫及大數據架構設計經驗。
總結
簡而言之,要在決定投資前清楚明白數據湖泊是怎麼樣。數據湖泊維護也是所費不菲的,主要是因為不斷需要載入更多新的數據。
如果閣下真的需要數據湖泊及已經有相關數據,您應當著手以分階段方式執行。再者,數據虛擬化工具是相當有價值的,它可以接駁不同範疇的數據,並建立數據之間的關聯性以便用戶快速連接使用。長遠而言,您可能最終都會建立一些數據整合的工作——以豐富數據倉庫之內容 (把一些非結構性數據轉化為結構性數據)。