HSBC 匯豐銀行如何分批將資料庫搬遷到 Google Cloud BigQuery

編輯註:全球金融機構-匯豐銀行 (HSBC) 與 Google Cloud 密切合作,使用自動化工具將舊資料倉儲搬遷到 BigQuery,這讓它們在資料分析上有很大的進展,維持資料的高真實性。

匯豐銀行為 66 個國家/地區的 3,900 萬客戶 (涵蓋消費者和企業) 提供數位化服務,在 21 個地區維護資料中心,並擁有超過 94,000 台伺服器。在打造基礎設施的同時,匯豐銀行不斷遇到容量的挑戰,這限制了業務的發展。隨著資料增長,HSBC 希望可以多加利用這些資料打造更好的金融服務,但礙於過去的技術,這件事無法妥善實踐。若無法從大數據中獲得 insight 和商業價值,就失去了擁有資料的意義。

我們都知道搬遷到雲端可以存儲和處理更多資料,但是作為一家全球性銀行,搬遷系統的同時,也需要保障其穩定跟安全。Google Cloud 希望以最適合客戶的方式,靈活地為客戶提供服務。我們透過自動化流程達到測試 fail fast 和部份佈署以進行測試。這種搬遷可以消除技術債,並建立了一個資料平台,讓我們能夠更專注於創新而不是管理基礎架構。為此我們發明了新技術並建立可在搬遷時使用的流程。

雲端搬遷計畫

匯豐銀行選擇 Google Cloud (特別是 BigQuery) 是因為它在小型和大型資料集上都運行的非常快,可以同時使用 SQL 界面和 Connected Sheets 與之互動。將資料及 schema 搬遷到雲端後,就不必手動管理每個細節,也不會錯過搬遷的時程表。

匯豐銀行搬遷的第一個舊資料倉儲已建立了 15 年,裏頭包含 30 年的資料、數百萬筆交易和 180 TB 的資料。它運行了 6,500 個 ETL 作業和 2,500 多個報告,從大約 100 個資料源中獲取資料。雲端遷移通常涉及重新打造或直接移轉,但這次匯豐銀行與 GCP 決定採用不同的策略:遷移 (move) 和改進 (improve),以確保能充分利用 BigQuery 的功能,包括其容量和彈性,來幫助解決我們的容量限制這一基本問題。

邁出到雲端的第一步

這次搬遷從 mapping 開始,我們選擇 architecture decision records 作為搬遷方法,這些記錄是基於技術使用者體驗,並使用敏捷開發板進行規劃,使用者體驗包括「更改資料收集」、「產品事件處理」或「緩慢更改維度」。除了上述典型的資料倉儲項目外,還有其他針對金融業的項目,例如:確保資料倉儲在特定時間點有一致的資料來源;優先搬遷歷史資料以立即減輕舊系統的負擔;儘早建立像是管理查詢和配額的度量標準。

為了簡化工作,匯豐銀行與 GCP 檢查了當前存儲在資料倉儲中的內容,並查看已使用或未使用的內容,並棄用 600 多份確認不再使用的報告,同時研究如何簡化 ETL 作業,以消除過去搬遷所帶來的技術債,讓線上維運團隊在晚上有更多的休息時間。

以下是這次搬遷使用的三步驟策略:
(一) 將 schema 遷移到 BigQuery
(二) 將報告負載遷移到 BigQuery,添加元資料標記並執行核對過程
(三) 將所有 SQL 腳本轉換為兼容 BigQuery 的腳本並移動歷史資料。

為自動化搬遷所設計的新工具

為達到自動化搬遷,這次 Google 發明了多種加速工具,這些功能不僅吻合搬遷時程,同時消​​除人為錯誤。schema 解析器和資料調節工具幫助我們將資料層搬遷到 BigQuery 上。 SQL 解析器則將資料訪問層搬遷到 GCP,而無需單獨搬遷 3,500 個沒有資料沿襲或文檔的 SQL 實例。這有助於確定工作負載的優先順序。資料沿襲工具可以識別跨層的組件,找尋之間的依存關係。這對於在籌備階段發現並消除整合上的問題以及在搬遷期間確定應用程式擁有者至關重要。

打造雲的未來

這次搬遷過程是以英國資料中心的搬遷經驗作為參考,現在資料倉儲中只有一個正確的資料來源,並可以使用授權視圖 (authorized views) 安全地訪問資料。BigQuery 的靈活性和高擴展性讓匯豐銀行可以盡情瀏覽資料、更快地獲取所需的 insight。

(原文翻譯自 Google Cloud。)

 

相關文章

Martech 必看!手把手教學帶您正確的建立行銷資料倉儲 (一)

Martech 必看!手把手教學帶您正確的建立行銷資料倉儲 (二)


連絡「GCP 專門家」