Google Books Ngram Viewer 勝過一張圖的千言萬語

大家都知道，一張圖勝過千言萬語。
但我們在哈佛時，卻在思考這道理是否真是如此？
-- Erez Lieberman Aiden 「從五百萬本書學到的事」

「眼見為憑」可說是歷來的迷思，也因此一張圖片常勝過千言萬語。但假如提出超越千言萬語千萬倍的話，又會怎麼樣呢？說來你可能不信，不過現在你我都能輕易做到。這得感謝Google的驚人服務——Ngram Viewer。

Google向來是分析大資料的專家，他們野心勃勃的計劃，企圖要將所有圖書數位化的努力，成就了現在的Google Ngram Viewer。N-gram是什麼東西？這東西也不是太難，指的就是N個連續的相鄰詞組成的詞組。比方說 "One has a pencil." 這句話，做成bi-gram (2-gram)的話，會出現下面三個詞組：

One has
has a
a pencil

而 tri-gram (3-gram) 的話，就會變成：

One has a
has a pencil

至於uni-gram (1-gram)基本上就是每個單字了。

One
has
a
pencil

這個東西可以用來猜測語言的可能性。當你講到某幾個字之後，後頭很有可能會接著什麼樣的字。如果你可以背下整個Ngram Viewer的資料，玩文字接龍的時候應該就無敵了。

但Google Ngram Viewer拿這些資料，加上時代背景，轉變成為一個具備XY軸的服務。於是，「從五百萬本書學到的事」影片中Erez Lieberman Aiden和Jean-Baptism Michel所提出的那幾個趣味圖形就產生了。

他們把這樣的研究稱為Culturomics（現在我只找到「文化組學」這個翻譯，怪怪的！但是暫且接受吧！），指的是運用大規模的資料來分析人類活動，或者是那個被稱作人文學（humanity）的概念。現在，每個人都可以進行Culturomics的研究。這五百萬本書籍，跨越五個世紀的資料，已經出現在Google Books Ngram Viewer中了。

可是在中文應用上仍然有滿多缺點的。對繁體中文的使用者來說，只有「簡體」的資料真是讓人飽受折磨，要想辦法輸入簡體字才行。還有另外一個分詞的問題，中文當中對於單詞（word）和字元（character）的概念是相當模糊的。只要猜錯分詞的規則，在Ngram Viewer裡面就找不到。

拿最近還滿熱門的一個詞「禽流感」來嘗試。上圖裡面可以看到，用「禽流感」來嘗試完全找不到資料，而「禽流感」卻能找到一些，在2000年後開始出現，我猜這和香港、廣東那邊爆發的禽流感有直接的關係。至於「流感」這個詞，如果你是流行病專家的話，可能可以看出一些軌跡吧！

雖然中文的應用不如人意，但Ngram Viewer也提供了Ngram的原始資料，讓我們能夠進行自己的實驗。過一陣子我應該會拿來試一下，看有什麼好玩的！

影。像。生。活

搜尋此網誌

Google Books Ngram Viewer 勝過一張圖的千言萬語

標籤

留言

張貼留言

熱門文章

差不多食譜實驗：小烤箱烤長茄子？ Oven-roasted Long Aubergine?

差不多食譜：香煎南瓜片 Pan-fried Pumpkin

上車睡覺、下車尿尿