該選擇什麼資料來訓練機器學習系統?- Machine Learning 教學系列 (二)

該怎麼選擇資料,來訓練機器學習系統?(二)

上一篇帶您了解人工智慧、機器學習、深度學習的差異後,這篇將進一步介紹該如何選擇正確且合適的資料來訓練機器學習系統。

特徵 / 屬性 (Features/Attributes)

我們透過特徵(又稱屬性) 來訓練機器學習系統。以水果為例,我們可以將水果的特徵分成重量和顏色,兩個特徵就意味著有兩個維度。如果我們用數字的方式來呈現,則可已被繪製在 2D 的象限上。

以下圖這個情況來說,ML 系統可以學會利用一條線將蘋果與橘子的資料分開。當我們輸入新的資料時,就可以運用它來做分類。(ex.) 在線上方的是橘子,下方的是蘋果。

選擇不同的特徵來訓練將對 ML 系統產生很大的影響,因為有些特徵並不足以用來劃分資料。沿用橘子跟蘋果的舉例,如果我們選擇”熟成時間”和”種子數量”作為特徵,結果將呈現為下圖,這無法讓 ML 系統分辨任何的水果。這需要透過大量的練習和思考才能選擇出最適合的特徵,因為 ML 系統要學習的事情並不像分辨橘子蘋果這樣單純。

現在聯繫 GCP專門家,瞭解更多 GCP 加值服務!

更複雜的資料與系統

以水果的例子來說,我們僅使用了 2 個維度,如果您需要用 3 個維度將資料區分成 3D 圖表,則如下圖所示,會需要用一個平面分開兩組數據。其實大多數的 ML 問題所需的維數更高,甚至到 20D 都非常常見,像是在辨別圖像時,每個像素是一個特徵,這樣的情況下甚至可以到達數百萬個維度。雖然我們可能很難想像大於 3D 的畫面,但這對電腦和 ML 系統而言並非難事。


image from Vision Dummy (https://goo.gl/u8w2Zi)

Data Hunting

一旦確定使用的特徵之後,最大的挑戰就是必須找到足夠的無偏差的訓練資料,ML 系統會根據這些特徵進行學習 (這取決於使用什麼類型的 ML 演算法(algorithm))。假如要正確的辨識出一隻貓,您可能需要提供 ML 系統 10,000 張貓的照片。提供給系統的訓練資料可以很多元並不侷限於照片,也可以是具備多種特徵的數據表格、文字、感測器的讀數、聲音等等。

ML 系統無法辨別它不知道的東西

假設你讓 ML 系統進行下列動物特徵的學習:

腿數 顏色 體重 動物
4 黑色 10KG
2 橘色 5KG

如果您現在用牛的特徵來偵測,系統只知道狗和雞,它將認為這是一隻”狗”,因為這是最接近的比對結果。

腿數 顏色 體重
4 黑色 200KG

延伸閱讀:

1. 人工智慧、機器學習、深度學習是什麼? – Machine Learning 教學系列 (一)
2. 如何訓練機器學習系統? – Machine Learning 教學系列(三)

The 7 Steps of Machine Learning

 


連絡「GCP 專門家」