Google不再用 MapReduce了! Beam 帶你進入資料新世界

beam-architecture

AlphaGo完勝世界頂尖棋手的捷報下,機器學習(Machine Learning)儼然成為現今網路科技的顯學。機器學習涵蓋了跨領域的know-how、演算法以及數據。其中數據又是決定機器學習品質重要的一環。Google 深耕大數據分析及應用多年,無所不能的搜尋引擎就是最好的例子。在資料提取(data ingestion)、資料處理(data process)、資料分析(data analytics)以及資料視覺化(data virtualization)等,Google終將這些數據的工作流程轉化為一個一個簡單管理的元件,提供給Google Cloud Platform (GCP) 的使用者使用。

繼續閱讀 “Google不再用 MapReduce了! Beam 帶你進入資料新世界”

使用 Cloud Dataproc 架設 Hadoop Cluster

dataproc

最近收到任務,希望在 Hadoop Cluster上面跑 Apache log的分析案例,雖然之前已經架設過環境,但是純手工真的不是件容易事,遇到版本衝突、網路沒設好之類的問題會讓人一個頭兩個大。認真覺得裝(懂)過一次,了解 Hadoop的安裝方式就可以了,為了快速完成目標,就直接用現成的雲端服務,開一個 Hadoop Cluster。

原本想用 Kubernetes (k8s) 架設,但是最近的 v1.6版出問題 (Issue #43815),轉而使用 Google Container Engine (k8s v1.5),後來才發現 Google 其實有推出 Cloud Dataproc服務,能直接幫架設好 Hadoop、Spark環境,幾分鐘的時間就能建置完成!

繼續閱讀 “使用 Cloud Dataproc 架設 Hadoop Cluster”

手把手教你開始用 GCP 機器學習服務

google-cloud-platform-empowers-tensorflow-and-machine-learning

Cloud Machine Learning 是 Google Cloud Platform 對於深度學習提供的管理服務。它可以讓您建立作用於任何大小、任何資料的學習模型,並藉由 TensorFlow 框架打造您的服務。您立即可以將訓練模型放置於全球的 prediction 平台,能支持成千上萬的使用者與 TB 等級的資料。除此之外,此項服務同時整合了 Cloud Dataflow, Cloud Storage 甚至 BigQuery。現在我們就來使用看看如何簡單的進行手把手 Cloud Machine Learning:

  • 起始設定
  • 設置 Cloud Storage Bucket
  • 宣告變數
  • 資料預先處理
  • 訓練模型
  • 部署並預測與檢驗成果

繼續閱讀 “手把手教你開始用 GCP 機器學習服務”

透過 GCP分析交通資料,打造機器學習應用

google-traffic-gps

機器學習是這幾年來熱門的技術,Google也不斷的將其應用於產品上,改善使用體驗,比如 Gmail中的智慧回覆功能,Youtube的影片推薦,或是地圖上的交通路況預估,都讓生活更為便利。但你知道這些服務背後都是怎麼運作的嗎?這回我們將透過交通資料的分析案例,來替各位解構背後的 GCP應用方式,告訴各位如何應用 GCP處理資料,並透過機器學習分析數據。

繼續閱讀 “透過 GCP分析交通資料,打造機器學習應用”

你不知道的 GCP 人工智慧之各種API!

machine-learning-api

機器學習相關應用越趨明顯

現在各大產業紛紛開始導入人工智慧、機器學習的趨勢越趨明顯,然而企業欲打造整套方案,人力資源、研發以及時間成本都是考量的重點。只是人工智慧相關人才難尋且昂貴、同時新的工具、研發都需要大量的時間。在這快速的網路時代,已經不敷所需。(更新日期:2017.2.18)

繼續閱讀 “你不知道的 GCP 人工智慧之各種API!”