2012年3月22日 星期四

Google Books Ngram Viewer 勝過一張圖的千言萬語

/param>
大家都知道,一張圖勝過千言萬語。
但我們在哈佛時,卻在思考這道理是否真是如此?
-- Erez Lieberman Aiden 「從五百萬本書學到的事

「眼見為憑」可說是歷來的迷思,也因此一張圖片常勝過千言萬語。但假如提出超越千言萬語千萬倍的話,又會怎麼樣呢?說來你可能不信,不過現在你我都能輕易做到。這得感謝Google的驚人服務——Ngram Viewer


Google向來是分析大資料的專家,他們野心勃勃的計劃,企圖要將所有圖書數位化的努力,成就了現在的Google Ngram Viewer。N-gram是什麼東西?這東西也不是太難,指的就是N個連續的相鄰詞組成的詞組。比方說 "One has a pencil." 這句話,做成bi-gram (2-gram)的話,會出現下面三個詞組:
One has
has a
a pencil
而 tri-gram (3-gram) 的話,就會變成:
One has a
has a pencil
至於uni-gram (1-gram)基本上就是每個單字了。
One
has
a
pencil

這個東西可以用來猜測語言的可能性。當你講到某幾個字之後,後頭很有可能會接著什麼樣的字。如果你可以背下整個Ngram Viewer的資料,玩文字接龍的時候應該就無敵了。

但Google Ngram Viewer拿這些資料,加上時代背景,轉變成為一個具備XY軸的服務。於是,「從五百萬本書學到的事」影片中Erez Lieberman Aiden和Jean-Baptism Michel所提出的那幾個趣味圖形就產生了。

他們把這樣的研究稱為Culturomics(現在我只找到「文化組學」這個翻譯,怪怪的!但是暫且接受吧!),指的是運用大規模的資料來分析人類活動,或者是那個被稱作人文學(humanity)的概念。現在,每個人都可以進行Culturomics的研究。這五百萬本書籍,跨越五個世紀的資料,已經出現在Google Books Ngram Viewer中了。

可是在中文應用上仍然有滿多缺點的。對繁體中文的使用者來說,只有「簡體」的資料真是讓人飽受折磨,要想辦法輸入簡體字才行。還有另外一個分詞的問題,中文當中對於單詞(word)和字元(character)的概念是相當模糊的。只要猜錯分詞的規則,在Ngram Viewer裡面就找不到。

Screen Shot 2012-03-21 at 11.27.31 PM

拿最近還滿熱門的一個詞「禽流感」來嘗試。上圖裡面可以看到,用「禽流感」來嘗試完全找不到資料,而「禽 流感」卻能找到一些,在2000年後開始出現,我猜這和香港、廣東那邊爆發的禽流感有直接的關係。至於「流感」這個詞,如果你是流行病專家的話,可能可以看出一些軌跡吧!

雖然中文的應用不如人意,但Ngram Viewer也提供了Ngram的原始資料,讓我們能夠進行自己的實驗。過一陣子我應該會拿來試一下,看有什麼好玩的!

沒有留言 :

張貼留言

Related Posts Plugin for WordPress, Blogger...