全新方法大公開!自定義 Cloud Monitoring 儀表板

前段時間 Google Cloud 在 Cloud Monitoring 中新增了 Dashboard API,除了使用 Google Cloud Console 進行管理外,還提供您以程式設計方式管理自訂儀表板和圖表。從那時開始,Google Cloud 就陸續提供許多針對特定 Google Cloud 服務的儀表板範例。很多客戶也有提出需求希望 Google Cloud 提供 Terraform 模組,以便設置自動部署的流程。

繼續閱讀 “全新方法大公開!自定義 Cloud Monitoring 儀表板”

Google Kubernetes Engine 上應用程式的除錯工具

在這篇文章中,我們將重點介紹 DevOps 團隊如何使用 Cloud Monitoring 和 Cloud Logging 來快速釐清問題。

比起耗費心力維運一個安全、可擴展且高可用 (HA) 的 Kubernetes 叢集,使用 Google Kubernetes Engine(以下簡稱 GKE)運行容器化應用程式更能讓 DevOps 團隊專心在應用程式開發上。Cloud Logging 以及 Cloud Monitoring 為兩項整合進 GKE 的監控服務,DevOps 團隊透過這兩項服務,可以更好地觀察應用程式和系統,以便在出現問題時更容易進行故障排除。 繼續閱讀 “Google Kubernetes Engine 上應用程式的除錯工具”

【手把手教學】如何設定 Log-based metrics 告警

GCP Stackdriver Monitoring 有許多預設的 metrics 可供使用者監控並產生告警。但有時使用者希望能夠自訂特殊的 metrics 來監控,這時就可以透過 Log-based metrics 來設定。此教學將手把手帶您設定 Log-based metrics 告警。 繼續閱讀 “【手把手教學】如何設定 Log-based metrics 告警”

[GCP FAQ 集錦] 什麼是 Host Error?

使用者在使用 GCP 的 Compute Engine 時,多少會遇到幾次 VM 重開機的狀況。查看 Stackdriver 日誌後會發現 Host Error 的相關訊息,此篇文章將帶您了解什麼是 Host Error。

Q: 什麼是 Host Error ?
A: Host Error 表示 VM 的 host machine(實體機器)發生了硬體或軟體問題導致 VM 崩潰,為不可避免的事件。 當Compute Engine 檢測到此類事件時,GCP 會在 console 的操作日誌(Compute Engine -> Operation,如下圖)中寫入 compute.instances.hostError 這個 log。如果您的 VM 設定為自動重啟(default 設定),Google 將在其他 physical mahcine(實體機器)上重新啟動 VM。 繼續閱讀 “[GCP FAQ 集錦] 什麼是 Host Error?”

[手把手教學] 在 Windows/Linux 上安裝 Stackdriver agent,並新增 Alert Policy

本篇文章將以「monitoring」、「logging」為分類,逐步教學如何在 Windows 及 Linux 上安裝 Stackdriver agent,以及如何在 Stackdriver 上新增快訊政策 (Alert Policy)。

在 Windows 上安裝 Stackdriver agent

Stackdriver monitoring on Windows:

  1. RDP 連進 Windows server
  2. 若有使用 HTTP proxy,須先以 administrator 身份執行以下指令以設定 http_proxy 環境變數:(假設 HTTP proxy 位址為 YOUR-PROXY)
  3. setx http_proxy http://YOUR-PROXY /m
  4. https://repo.stackdriver.com/windows/StackdriverMonitoring-GCM-46.exe 下載並安裝 agent installer

註:參考文件 繼續閱讀 “[手把手教學] 在 Windows/Linux 上安裝 Stackdriver agent,並新增 Alert Policy”