告訴你怎麼使用 BigQuery與 Data Studio 分析銷售數據

bigquery_datastudio 數據分析示意圖。圖/CC0授權,Sstocksnap 作者:李振皓(現就讀於台大電機所) 雙11購物節就快要到囉,準備好迎接大量訂單了嗎?這個由阿里巴巴集團於2009年首創的網路購物盛會,每年都不斷地翻升銷售數字,不論是電商或實體賣場,也都搶著這股熱潮,推出系列優惠以及活動促銷。去年,2015雙 11節開跑不到 12小時,商品交易額就已超過 2014年交易總額,最後創下 912.17億元人民幣的輝煌成績。這樣的漂亮數字,不僅靠活動宣傳與行銷手法,還需要一套完整的生態鏈,把支付寶,線上平台,物流宅配,保險等環節完整的串接。 面對破億的海量訂單,暴衝的流量,如何架構雲端系統變成一項挑戰,同時也該思考如即時處理資料,讓用戶有流暢的購物體驗。因此這回,我們將為您介紹 Google BigQuery 這套專門處理 TB等級資料的數據分析應用服務,並用一個遊戲銷售數據,為您示範如何使用 Google BigQuery分析銷售數據,並串接 Data Studio 建立視覺化報表。

為什麼使用 Google BigQuery

為了處理 TB或 PB等級的大量資料,需要付出龐大硬體成本與人力,進行資料庫環境的設定以及維護,不僅耗費時間又浪費金錢,那有沒有兩全其美的方法呢?Google BigQuery 為此而誕生,您不用自己處理硬體設備,只需要將資料上傳至 BigQuery,就可以用最低每 GB儲存空間 0.01美元的花費,享有飛快存取速度,讓您在幾秒鐘內處理TB 等級的資料。 BigQuery 很容易上手,使用熟悉的 SQL語言,透過網頁介面或是命令列提示工具進行操作,也可以透過用戶端函式庫,利用 Java、.NET 與 Python 這些程式語言呼叫 BigQuery REST API。為了讓資料分析更簡單快速,BigQuery 在今年五月整合了Google Drive,也就是您可以直接在 BigQuery存取 Google 試算表,不需要額外的匯入與匯出動作,兩邊的資料就會自動同步更新。此外,BigQuery 還提供相當豐富的第三方應用,讓您直接使用現有的資源,完成 Hadoop運算等複雜的工作。 總結來說,使用 BigQuery有以下好處:
  • 免去硬體設備管理
  • 使用熟悉的 SQL語言
  • 低廉的儲存費用,與每月1TB免查詢額度
  • 多元存取方式,可以使用 BigQuery API
  • 豐富的第三方應用

資料分析案例:將遊戲銷售資料上傳至 BigQuery

為了展示使用流程,我們拿了數據分析競賽平台 Kaggle上的開放資料集 Video Game Sales作示範,資料中包含許多電玩的年份、發行商、銷售狀況等資訊。接著會將資料上傳至 BigQuery,並透過 Data Studio將這些資料轉化為圖表。 目前 BigQuery支援CSV、JSON、Avro三種格式的資料匯入,有方便的上傳介面,使用起來很直覺。選擇檔案的上傳路徑後,定義資料結構(Schema),就可以讓 BigQuery自動轉換資料型態完成儲存動作。
bigquery_schema
透過 BigQuery匯入資料。圖/截圖自BigQuery
匯入完成後,來試著查詢資料吧!在這個例子中,希望查詢日本區域銷售額最高的前十名,透過上方的 New Query欄位下達 SQL指令,就可以立即看見結果囉。
biquery_query_result
透過 BigQuery查詢資料。圖/截圖自BigQuery

透過 Data Studio把資料視覺化

Google在今年 3月發表了 Data Studio 360,是一款提供企業付費使用的資料視覺化工具,可以連結各種資料,舉凡 Google Adword、Google Analytics、Google 試算表、MySQL等,只要設定好權限,就能進一步完成資料視覺化的動作。在使用企業版前,可以先使用免費版本 Data Studio進行體驗,雖然一個帳號只能建立 5個報表,但應該是綽綽有餘啦。 使用 Data Studio,真的會讓人回不去!以往做資料視覺化,自己寫程式還要計算資料位置長度什麼的,現在聰明的 Data Studio都做好了。您只需要透過網頁介面,選擇一個想要呈現的圖表類型,用拖移的方式,就能輕鬆設計出美觀的視覺化報表。下面這張報表,就是利用剛剛的遊戲銷售資料繪製而成,不僅快速又美觀,是不是很棒呢!
datastudio
透過 Data Studio視覺化資料。圖/截圖自 Data Studio
面對海量的資料,分析方式也將不同以往,沒辦法只靠單一台電腦就能完成運算,多台電腦群集也沒辦法短時間計算完成。使用雲端分析資料已經變成趨勢,您不用處理硬體設備,系統調校等等瑣事。在今年的PyCon中,我們也看見警官利用 Google Cloud Platform 進行交通資料的分析,透過 ETC的數據資料,預估國道車流量。相信未來,這樣不同領域的應用會越來越多,透過雲端的解決方案,BigQuery 與Data Studio的完美組合,不僅省去硬體與人事成本,還可以根據使用量付費,精準掌握開銷,用聰明且快速的方式尋找答案,創造更多無限可能。