【全球案例】美國癌症協會:深度學習助乳癌影像辨識

為了辨別數位病理影像中的全新規律或特徵,美國癌症協會使用 Google Cloud Platform 的 ML Engine 來提高即時性和準確度。

自 1992 年以來,美國癌症協會進行了第二期癌症預防研究 (CPS-II) 營養研究,該研究針對 188,000 多名美國男女進行了前瞻性研究。CPS-II 為研究人員探索,像是身高、體重、人口統計、個人和家族史、藥物和維生素使用、職業接觸、飲食習慣、飲酒和吸煙以及生育史等因素如何影響癌症病因提供了寶貴的資訊和預測。

Mia M. Gaudet 博士是美國癌症協會流行病學研究所的科學研究總監,其研究重點為乳癌。對於大約 1,700 名被診斷患有乳癌的 CPS-II 參與者,她擁有大量診斷記錄和手術組織樣本,希望藉此提供有價值的資料來幫助回答迫切的問題:哪些生活方式、醫學和遺傳因素與乳癌的分子亞型有關?乳癌組織中的不同特徵對生存率有影響嗎?

Mia M. Gaudet, Ph.D 在訪談中說明 GCP 如何幫助乳癌研究。 (來源: Google)

 

發掘高解析度影像資料

起初,Gaudet 由於未壓縮的專有格式,在分析高解析度的乳癌組織影像時,面臨技術挑戰。即便能將影像轉換為可用格式,也會需要一組訓練有素的病理學家來挖掘資料中的新規律。而即使負擔的起這樣的一個團隊,他們也將花費數年的時間來分析所有影像,結果不可避免地會受到人類主觀偏見的影響。有些影像中的規律或特徵甚至可能無法被人類觀察到,從而有可能降低這項研究的價值。

為了解決這些問題,Gaudet 借助 Google Cloud Platform (GCP) 機器學習 (ML) 的經驗。他們將影像轉換為 TIF 格式,然後在 GCP 上執行 ML 模型,以非監督式的深度學習,讓演算法得以確認預測的準確度並進行調整,而不需要工程師介入。而 Google Cloud 強大的 AI 和 ML 功能為影像分析帶來了很多優勢,包括準確度、規模、專業知識、易用性和數據安全性。

建立一條龍的 ML pipeline

前處理標準化的品質至關重要。全 1,700 張影像都需要一致地進行轉化處理,且顏色需經正規化,透過減少顏色差異來標準化影像中顏色的解釋。每個影像也被分成大小均勻的圖塊,以分配工作量並優化訓練模型所需的數據架構。為此,他們建立了 end-to-end 的 ML pipeline,包括前處理、特徵工程和分群。團隊使用 Cloud ML Engine 進行模型訓練和批次預測,將影像儲存在 Cloud Storage 中,並使用 Compute Engine 安排影像轉換並使用 Cloud ML Engine 以正確的順序啟動訓練和預測作業。

經過初始轉換和預處理之後,團隊使用 Keras 和 TensorFlow 後端建立了自動編碼器模型,以進行原型製作。然後使用 Cloud ML Engine 上的分散式訓練將影像轉換為特徵向量,這些功能向量將影像中的模式表示為數字序列。然後,再次使用 ML Engine 將功能與 TensorFlow 聚集在一起。結果是一組分群結果,每個分群結果給影像中的每個圖塊,美國癌症協會計劃在後續分析中使用。

使用 Cloud ML Engine,團隊快速完成任務的上線,若以本地端基礎架構,是無法實作這樣的任務的;對於文件大小最大為 10 GB 的 1,700 張影像,光是影像轉換就極其困難且耗時,更不用說大規模的深度學習了。

美國癌症協會的合作夥伴也表示,Cloud ML Engine 讓他們達到超級運算規模,解決客戶的問題,而不會在基礎架構設定和神經網路調整等操作任務上浪費時間,將模型訓練時間減少到幾個小時。

更快、更一致的影像分析

團隊在短短三個月內完成 GCP 的整個專案,首先在小樣本集上應用深度學習,然後在整個影像集上進行擴展和分佈。除了更快的分析之外,美國癌症協會還受益於只有機器才能提供的更高水平的一致性和客觀性。

Gaudet 表示,「如果我們不採用機器學習方法,那麼即使有一支專門的病理學家團隊,也要花三年而不是三個月的時間來分析 1,700 個組織樣本。」「而且由於人們會感到厭倦並在分析中帶來自己的偏見,因此我們也實作了更好的一致性和品質。」

探索新的治療選擇

該分析發現了 Gaudet 所希望的:即使在較低的放大倍數下,癌症組織影像中可能具有潛在影響的圖案規律。透過分析這些規律,她希望將資料與乳癌的存活率以及與乳癌組織規律相關的危險因素相關聯。

她說:「透過利用 Cloud ML Engine 分析癌症影像,我們對乳癌腫瘤組織的複雜性以及已知的危險因素如何導致某些模式有了更多的了解。」「我們的研究結果可能會為臨床醫生提供更多資訊,以使更多的研究可以轉化為不同的治療選擇。」

未來研究領域

美國癌症協會現在配備了可在類似專案中重複使用的流程和雲端基礎架構,為將來的工作奠定基礎。現在處於 CPS-3 的資料收集階段,這項研究將基於 CPS-II 所獲得的知識,以幫助研究人員在對抗乳癌方面取得更大的進步。Google Cloud 將為未來的影像分析提供一個可靠且可擴展的平台,並具有保護雲端中有價值的組織樣本和資料的額外好處。

Gaudet 說明:「透過深度學習進行影像分析,來進行乳癌研究,這項專案開闢了研究的新領域。」 「將數位影像分析應用於人類病理學,可能揭示我們對乳癌生物學的新見解,而 Google Cloud 使其變得更加容易。我們對所發現的一切感到興奮。」

(原文翻譯改編自 Google Cloud。完整案例影片

相關文章

機器學習圖片影片辨識 API – Google vs Amazon vs Microsoft AI 比較大全 (四)

Google Cloud 如何協助 COVID-19 學術研究推展

省很大!Google Machine Learning Engine 幫你省了哪些工 ?


連絡「GCP 專門家」