跳到主要內容

Google Books Ngram Viewer 勝過一張圖的千言萬語

/param>
大家都知道,一張圖勝過千言萬語。
但我們在哈佛時,卻在思考這道理是否真是如此?
-- Erez Lieberman Aiden 「從五百萬本書學到的事

「眼見為憑」可說是歷來的迷思,也因此一張圖片常勝過千言萬語。但假如提出超越千言萬語千萬倍的話,又會怎麼樣呢?說來你可能不信,不過現在你我都能輕易做到。這得感謝Google的驚人服務——Ngram Viewer


Google向來是分析大資料的專家,他們野心勃勃的計劃,企圖要將所有圖書數位化的努力,成就了現在的Google Ngram Viewer。N-gram是什麼東西?這東西也不是太難,指的就是N個連續的相鄰詞組成的詞組。比方說 "One has a pencil." 這句話,做成bi-gram (2-gram)的話,會出現下面三個詞組:
One has
has a
a pencil
而 tri-gram (3-gram) 的話,就會變成:
One has a
has a pencil
至於uni-gram (1-gram)基本上就是每個單字了。
One
has
a
pencil

這個東西可以用來猜測語言的可能性。當你講到某幾個字之後,後頭很有可能會接著什麼樣的字。如果你可以背下整個Ngram Viewer的資料,玩文字接龍的時候應該就無敵了。

但Google Ngram Viewer拿這些資料,加上時代背景,轉變成為一個具備XY軸的服務。於是,「從五百萬本書學到的事」影片中Erez Lieberman Aiden和Jean-Baptism Michel所提出的那幾個趣味圖形就產生了。

他們把這樣的研究稱為Culturomics(現在我只找到「文化組學」這個翻譯,怪怪的!但是暫且接受吧!),指的是運用大規模的資料來分析人類活動,或者是那個被稱作人文學(humanity)的概念。現在,每個人都可以進行Culturomics的研究。這五百萬本書籍,跨越五個世紀的資料,已經出現在Google Books Ngram Viewer中了。

可是在中文應用上仍然有滿多缺點的。對繁體中文的使用者來說,只有「簡體」的資料真是讓人飽受折磨,要想辦法輸入簡體字才行。還有另外一個分詞的問題,中文當中對於單詞(word)和字元(character)的概念是相當模糊的。只要猜錯分詞的規則,在Ngram Viewer裡面就找不到。

Screen Shot 2012-03-21 at 11.27.31 PM

拿最近還滿熱門的一個詞「禽流感」來嘗試。上圖裡面可以看到,用「禽流感」來嘗試完全找不到資料,而「禽 流感」卻能找到一些,在2000年後開始出現,我猜這和香港、廣東那邊爆發的禽流感有直接的關係。至於「流感」這個詞,如果你是流行病專家的話,可能可以看出一些軌跡吧!

雖然中文的應用不如人意,但Ngram Viewer也提供了Ngram的原始資料,讓我們能夠進行自己的實驗。過一陣子我應該會拿來試一下,看有什麼好玩的!

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:炙燒烏魚子 Grilled Mullet Roe

要吃出烏魚子原本的滋味,只需要用火稍微燒一下就夠囉!無論你是用酒燒,或是拿料理噴槍,利用高溫將表面烤香,就是好吃的烏魚子。當然,蒜苗與白蘿蔔的搭配也是不能少的,或者夾片蘋果,摻和些水果的甜味,也是味覺的一大享受。下面差不多食譜將介紹這兩種烏魚子的炙燒方法,我們是覺得用料理噴槍比較簡單啦!

「抓烏龜」的麻將遊戲

今天要和大家分享一個打發時間的簡單遊戲——抓烏龜。這可是我老爸老媽特別從美國學回來的,是個名符其實的「海歸」遊戲,據說是在下雪時無聊打發時間用的。