資料倉儲搬遷:事前籌備與探索篇

「資料 / 資料倉儲」在企業的決過程中扮演關鍵角色,這也是為甚麼許多企業正在從傳統資料倉儲的孤島式方法轉為使用現代資料倉儲;

因為現代資料倉儲可以提供先進的功能,滿足不斷變化的需求。Google Cloud 經常與客戶合作開展資料倉儲遷移專案,包括幫助匯豐銀行遷移到 BigQuery,減省了 600 多個報表以及多個相關應用程式和 data pipeline。Google 甚至組建了一個遷移用的框架,幫助各位用戶了解,該如何為遷移的每個階段做好準備以降低風險,並且在前期定義好一個清晰的商業案例,以獲得企業內部有關單位的支援。

雖然 Google 官方有提供了一份資料管理成熟度模型,但客戶往往在實際進行搬遷時,有更多實務問題需要解決。在這篇文章中,我們將探討搬遷前的「籌備」階段與「探索」階段出現的幾個重要問題,包括實作資料倉儲現代化所帶來的影響,以及如何更好地準備和規劃遷移至現代資料倉儲

一、籌備階段

一個企業級資料倉儲會有各個單位使用,也會涵蓋各種使用情境。因此,建議您在籌備前期就要確定好相關單位,並且讓關鍵的利害關係人也參與籌備工作,以確保資料倉儲的設計能與該單位的策略、目標保持一致,這一點非常重要。他們還可以幫助企業認知到差距的存在,並提供各種可能的使用情境與需求,在這方面能夠幫助確定「造成最大影響的使用情境」,並識別相關風險。如此一來,這些決策就能夠得到利害關係人的核准,並且與企業的業務指標保持一致。業務指標通常圍繞在下面三個主要部分:

「人

為了確保這個搬遷任務得到投入和支援,建議從協調領導層和企業主開始,然後深入了解專案團隊和使用者的技能執掌。你可以透過舉辦工作坊、黑客松、腦力激盪會議等等,來確保團隊成員的能力職掌。在討論問題的時候要記住,要先設立達標的 KPI、或達標標準,來確保相關單位對新的資料倉儲買單,比如:

  • 節省 ××× 時間
  • 花 ××× 的時間建立新報表
  • 報表使用量增加 ×××
  • 這項專案的人才培訓

「技術」

透過了解目前的技術狀況,並對現有的解決方案進行分類,確定每一個獨立工作負載,您便可以更容易地區分上游和下游應用程式,進一步深入了解它們對特定使用情境的相依關係。例如,您可以根據不同的範例或正在遷移的原系統,對不同的 ETL 應用程式或 data pipelines 進行叢集和隔離,以減少影響範圍以及潛在風險。同樣,你也可以將它們與上游的應用結合起來,制定遷移計劃,將相依的應用程式和相關的 data pipelines 綁在一起進行遷移。

除了了解目前的搬遷技術外,關鍵是你要清楚你要遷移的內容。這包括了解你的資料產生或處理的速度 (velocity)、資料的區域性 (regionality) 及許可的情況 (licensing) 後確定適當的資料來源,並確保具有目前報表所要求的商業智能 (BI) 系統和在遷移過程中所期望的現代化。例如,您可能希望將有關銷售的日常報表轉移到即時儀表板上,或許您可能還想著是否應該將任何上游或下游應用程式替換為雲端原生應用程式,並且訂定以下 KPI 做衡量:

  • 新解決方案的總成本 (TCO) 與功能收益
  • 效能改進和可擴展性
  • 降低可管理性
  • 綁定單一廠商的風險 v.s. 使用開放源始碼的風險

「流程」

透過討論您在流程的選項,您可以了解既有元件之間的相依關係、資料存取、政策需求等,並確定出搬遷的流程步驟與元件。例如,您可以先確定原本採購的服務之到期日,再訂立搬遷完成日。建議您建立一套完整的流程,以便在遷移過程中的每個階段,做出有效的決策,並且確保進度都在預期內。這當中可評估的 KPI 包括:

  • 資料外洩和被濫用的風險
  • 每個管道的收入增長
  • 推出新服務 v.s. 推出這些服務所花費的成本
  • ML (machine learning) 驅動的分析方法

一個像 BigQuery 這樣的現代化資料倉儲,能為您解鎖更多業務潛能。但首先,您需要對業務流程有更高的掌握。

舉例來說,一家知名的電子商務零售商希望推動個人化的產品和服務,但既有的資料倉儲環境並不提供預測分析的能力,所以他們需要投資新技術。BigQuery ML 讓他們能夠靈活地導入預測型分析,開始了解終身價值 (lifetime value, LTV)、優化行銷投資、提高客戶滿意度、增加市佔率。

二、探索階段

探索過程主要涉及到兩個方面:業務需求和技術資訊。

了解業務需求

遷移資料倉儲的探索過程從了解業務需求開始,通常有許多驅動業務的因素,而如果替換掉原本的系統在許多方面都有影響,例如團隊需要的技能要求、採購的服務 (license) 續期、營運成本。舉例來說,升級目前系統可能需要重新培訓公司所有的資料分析師,也需要購買新的服務 license。如果把這些要求量化,並將其與成本聯結在一起,您便能夠對遷移過程做出既務實又公平的評估。

另一方面,透過找出目前解決方案中的差距,提出改進方案並驗證成果能夠增加商業潛在價值。要做到這一點,可以透過定義新的解決方案來增強和擴大現有工具。舉例來說,對於一家零售商而言,如果可以獲得最新、即時的報表,那這將會為他們增加營收,因為這個解決方案或工具,能顯著改善存貨預測、減少缺貨的情況。

這家零售商發現,缺貨會讓他們損失數百萬的營業額,所以他們希望找到一個有效的解決方案來準確預測庫存需求。他們的傳統資料倉儲環境已經達到了其效能峰值,因此他們需要一個像 BigQuery 這樣的雲端產品來幫助他們快速分析大量資料。而遷移後的優點是,他們能夠即時處理 TB 級的資料,並快速改善貨架可用性以節省成本,而且還有其它好處,包含:

  • 靠著減少缺貨,增加營收
  • 預測模型的準確率為過去模型的 2 倍

儲存和處理更精細資料的功能,可以幫助企業建立目標更明確的解決方案。對零售商來說,他們將可以研究季節性購買,這樣就可以預估聖誕節等日子的消費行為。這項任務,只能夠在已儲存且分析了多個跨年度資料下,才有機會實作。

最後,您還需要教育這些使用者。除了上面提到的的學習途徑外,也建議員工可以花時間試用新系統、做中學。

收集技術資訊

為了正確執行策略,您可以確認:你的遷移過程是只集中在一個解決方案層?還是 end-to-end 的提升及轉移?以下幾點可以幫您釐清。

  • 確定上下游應用的資料來源
  • 確定與您的使用情境相關的資料集、表單及使用模式
  • 列出 ETL/ELT 工具和框架
  • 定義資料品質及資料治理的解決方案
  • 確定身份和存取管理 (IAM) 的解決方案
  • 列出商業智能(BI)及報表用的工具

此外,在圍繞著購買或建立解決方案而做出決定之前,確定一些功能需求相當重要。市場上是否有任何符合要求的現成解決方案?或者,你需要一個客製化的解決方案、來滿足你所確定要面臨的挑戰?在決定方案之前,你要確保知道這個項目是否是你業務的核心,是否會增加商業價值。

當完成整個準備和探索階段,相信你會得到一些實用的建議,了解哪些元件會在遷移至雲端資料倉儲時,將被替換或重構。

(本文翻譯改編自 Google Cloud。)

相關文章

新型資料倉儲搬遷服務:傳統資料倉儲為什麼要搬遷到 Google Cloud BigQuery

Martech 必看!手把手教學帶您正確的建立行銷資料倉儲 (二)

HSBC 匯豐銀行如何分批將資料庫搬遷到 Google Cloud BigQuery


連絡「GCP 專門家」