使用 Cloud Logging 的 “tail -f” 新功能快速查找記錄檔,節省故障排查時間!

對應用程式或部署進行故障排查時,每一秒都至關重要!Cloud Logging 讓您能在不到一分鐘之內,通過彙整來自 Google Cloud / 地端 / 其他雲端的記錄,建立索引並將日誌 (log) 彙整成監控指標 (metrics),使用錯誤報告掃描特定錯誤訊息以及使日誌可供搜索,來幫助您進行故障排除。現在,Google 為串流日誌建構了 2 個新功能,可讓您從日誌資料中獲得更新的見解。 閱讀全文〈使用 Cloud Logging 的 “tail -f” 新功能快速查找記錄檔,節省故障排查時間!〉

全新方法大公開!自定義 Cloud Monitoring 儀表板

前段時間 Google Cloud 在 Cloud Monitoring 中新增了 Dashboard API,除了使用 Google Cloud Console 進行管理外,還提供您以程式設計方式管理自訂儀表板和圖表。從那時開始,Google Cloud 就陸續提供許多針對特定 Google Cloud 服務的儀表板範例。很多客戶也有提出需求希望 Google Cloud 提供 Terraform 模組,以便設置自動部署的流程。

閱讀全文〈全新方法大公開!自定義 Cloud Monitoring 儀表板〉

Google Kubernetes Engine 上應用程式的除錯工具

在這篇文章中,我們將重點介紹 DevOps 團隊如何使用 Cloud Monitoring 和 Cloud Logging 來快速釐清問題。

比起耗費心力維運一個安全、可擴展且高可用 (HA) 的 Kubernetes 叢集,使用 Google Kubernetes Engine(以下簡稱 GKE)運行容器化應用程式更能讓 DevOps 團隊專心在應用程式開發上。Cloud Logging 以及 Cloud Monitoring 為兩項整合進 GKE 的監控服務,DevOps 團隊透過這兩項服務,可以更好地觀察應用程式和系統,以便在出現問題時更容易進行故障排除。 閱讀全文〈Google Kubernetes Engine 上應用程式的除錯工具〉

【手把手教學】如何設定 Log-based metrics 告警

GCP Stackdriver Monitoring 有許多預設的 metrics 可供使用者監控並產生告警。但有時使用者希望能夠自訂特殊的 metrics 來監控,這時就可以透過 Log-based metrics 來設定。此教學將手把手帶您設定 Log-based metrics 告警。 閱讀全文〈【手把手教學】如何設定 Log-based metrics 告警〉

[GCP FAQ 集錦] 什麼是 Host Error?

使用者在使用 GCP 的 Compute Engine 時,多少會遇到幾次 VM 重開機的狀況。查看 Stackdriver 日誌後會發現 Host Error 的相關訊息,此篇文章將帶您了解什麼是 Host Error。

Q: 什麼是 Host Error ?
A: Host Error 表示 VM 的 host machine(實體機器)發生了硬體或軟體問題導致 VM 崩潰,為不可避免的事件。 當Compute Engine 檢測到此類事件時,GCP 會在 console 的操作日誌(Compute Engine -> Operation,如下圖)中寫入 compute.instances.hostError 這個 log。如果您的 VM 設定為自動重啟(default 設定),Google 將在其他 physical mahcine(實體機器)上重新啟動 VM。 閱讀全文〈[GCP FAQ 集錦] 什麼是 Host Error?〉