【大數據小知識】文字雲(Word Cloud)與關鍵字分析 (Keyword Extraction)

什麼是文字雲(Word Cloud)?

顧名思義,這就是一個整體形狀很像雲朵的圖形,並且由文字所構成。相信你一點都不陌生這類的圖。

(圖片來源)

這種由各種字詞組合成、如雲一般的圖形,稱作文字雲(Word Cloud)。我們常在各種社交網站與新聞網站中看到這類圖形的蹤跡,文字雲的存在目的在於能讓閱讀者在不閱讀所有文章的前提下,快速聚焦在大批文章中的主要內容。

網站上有一個可以玩文字雲的網頁,我們可以把想製作雲朵的文章往上面貼,它就可以畫出漂亮的文字雲,供我們日常分析作使用。(文字雲網址)

什麼是關鍵字分析(Keyword Extraction)?

關鍵字是什麼意思?通常我們認為,出現愈多次的文字就代表它愈關鍵。事實上,這樣的思考角度還有那麼一點美中不足,但只差一點點了。PTT中有各式各樣的版,有八卦版、電影版、還有最近熱門的世足版等。

然而『覺得』這個詞,肯定會大量出現在每一個熱門板中,因為當鄉民發表感受與心得時,一定會用到『覺得』這兩個字,像是:『 我覺得瞞天過海-八面玲瓏這部電影好過癮啊!因為集結了各大好萊塢女演員,實在太正了!!!』。


(圖片來源)

如果我們今天想知道:『最近PTT電影版的關鍵字是什麼?』,那『覺得』肯定不屬於關鍵字,雖然它可能會頻繁的出現在每一篇電影版的PO文中,但這個詞不像是『電影版』的代表字,因為在世足版,可能也會有此類發文: 『 我覺得德國隊應該不會輸啊!!!』。

同樣以電影版的角度,我們可以看到:『 復仇者聯盟3:無限之戰 』這個詞近期也頻繁出現在許多電影版的文章中,例如:『 復仇者聯盟3:無限之戰,不但真的有一場接一場無止盡的對戰,還有一波又一波的驚奇呢 』。但『 復仇者聯盟3:無限之戰 』絕對不會頻繁的也出現在世足版、八卦版中。那『 復仇者聯盟3:無限之戰 』這個關鍵字,就會是代表電影版的關鍵字。

這種關鍵字計算的概念叫做 TF-IDF 演算法,如果想參考TF-IDF的細節,這篇文章寫的簡單容易了解,可以參照此網址

藉由這個文字雲與關鍵字分析的資料科學技術,我們拿來應用於PTT-Boy & Girl版,以鄉民求助、分享等角度,了解版上的疑難雜症。如果你是喜愛上PTT的人,或是對於兩性的議題很有興趣,歡迎繼續閱讀:

【PTT 大數據】從資料分析探討 BOY-GIRL 版鄉民最頭痛的兩性問題
【網紅大數據】台灣英語教學 YouTuber「阿滴英文」都在教什麼?(一)

(本文轉載自合作部落客:資料分析大小事。)

 

相關文章

【PTT 大數據】從資料分析探討 BOY-GIRL 版鄉民最頭痛的兩性問題

金曲 30 大勢分析!從 ptt Golden-Award 與 Gossip 版一窺入圍名單聲量

機器學習文字分析/翻譯 API – Google vs Amazon vs Microsoft AI 比較大全 (三)


連絡「GCP 專門家」