Google不再用 MapReduce了! Beam 帶你進入資料新世界

beam-architecture

AlphaGo完勝世界頂尖棋手的捷報下,機器學習(Machine Learning)儼然成為現今網路科技的顯學。機器學習涵蓋了跨領域的know-how、演算法以及數據。其中數據又是決定機器學習品質重要的一環。Google 深耕大數據分析及應用多年,無所不能的搜尋引擎就是最好的例子。在資料提取(data ingestion)、資料處理(data process)、資料分析(data analytics)以及資料視覺化(data virtualization)等,Google終將這些數據的工作流程轉化為一個一個簡單管理的元件,提供給Google Cloud Platform (GCP) 的使用者使用。

繼續閱讀 “Google不再用 MapReduce了! Beam 帶你進入資料新世界”

使用 Cloud Dataproc 架設 Hadoop Cluster

dataproc

最近收到任務,希望在 Hadoop Cluster上面跑 Apache log的分析案例,雖然之前已經架設過環境,但是純手工真的不是件容易事,遇到版本衝突、網路沒設好之類的問題會讓人一個頭兩個大。認真覺得裝(懂)過一次,了解 Hadoop的安裝方式就可以了,為了快速完成目標,就直接用現成的雲端服務,開一個 Hadoop Cluster。

原本想用 Kubernetes (k8s) 架設,但是最近的 v1.6版出問題 (Issue #43815),轉而使用 Google Container Engine (k8s v1.5),後來才發現 Google 其實有推出 Cloud Dataproc服務,能直接幫架設好 Hadoop、Spark環境,幾分鐘的時間就能建置完成!

繼續閱讀 “使用 Cloud Dataproc 架設 Hadoop Cluster”