跳到主要內容

Google Books Ngram Viewer 勝過一張圖的千言萬語

/param>
大家都知道,一張圖勝過千言萬語。
但我們在哈佛時,卻在思考這道理是否真是如此?
-- Erez Lieberman Aiden 「從五百萬本書學到的事

「眼見為憑」可說是歷來的迷思,也因此一張圖片常勝過千言萬語。但假如提出超越千言萬語千萬倍的話,又會怎麼樣呢?說來你可能不信,不過現在你我都能輕易做到。這得感謝Google的驚人服務——Ngram Viewer


Google向來是分析大資料的專家,他們野心勃勃的計劃,企圖要將所有圖書數位化的努力,成就了現在的Google Ngram Viewer。N-gram是什麼東西?這東西也不是太難,指的就是N個連續的相鄰詞組成的詞組。比方說 "One has a pencil." 這句話,做成bi-gram (2-gram)的話,會出現下面三個詞組:
One has
has a
a pencil
而 tri-gram (3-gram) 的話,就會變成:
One has a
has a pencil
至於uni-gram (1-gram)基本上就是每個單字了。
One
has
a
pencil

這個東西可以用來猜測語言的可能性。當你講到某幾個字之後,後頭很有可能會接著什麼樣的字。如果你可以背下整個Ngram Viewer的資料,玩文字接龍的時候應該就無敵了。

但Google Ngram Viewer拿這些資料,加上時代背景,轉變成為一個具備XY軸的服務。於是,「從五百萬本書學到的事」影片中Erez Lieberman Aiden和Jean-Baptism Michel所提出的那幾個趣味圖形就產生了。

他們把這樣的研究稱為Culturomics(現在我只找到「文化組學」這個翻譯,怪怪的!但是暫且接受吧!),指的是運用大規模的資料來分析人類活動,或者是那個被稱作人文學(humanity)的概念。現在,每個人都可以進行Culturomics的研究。這五百萬本書籍,跨越五個世紀的資料,已經出現在Google Books Ngram Viewer中了。

可是在中文應用上仍然有滿多缺點的。對繁體中文的使用者來說,只有「簡體」的資料真是讓人飽受折磨,要想辦法輸入簡體字才行。還有另外一個分詞的問題,中文當中對於單詞(word)和字元(character)的概念是相當模糊的。只要猜錯分詞的規則,在Ngram Viewer裡面就找不到。

Screen Shot 2012-03-21 at 11.27.31 PM

拿最近還滿熱門的一個詞「禽流感」來嘗試。上圖裡面可以看到,用「禽流感」來嘗試完全找不到資料,而「禽 流感」卻能找到一些,在2000年後開始出現,我猜這和香港、廣東那邊爆發的禽流感有直接的關係。至於「流感」這個詞,如果你是流行病專家的話,可能可以看出一些軌跡吧!

雖然中文的應用不如人意,但Ngram Viewer也提供了Ngram的原始資料,讓我們能夠進行自己的實驗。過一陣子我應該會拿來試一下,看有什麼好玩的!

留言

熱門文章

差不多食譜:牡丹魚片 Fish Slices Moutan

往餐桌端上這一道「牡丹魚片」,需要解釋的大概只有「這真的是我做的!」它是道不折不扣的大菜,能把一塊平凡無奇的魚片,展開變成一朵朵牡丹花。做這道菜最需要的不是技巧,是耐心;當然還有一點美學的天份!

「抓烏龜」的麻將遊戲

今天要和大家分享一個打發時間的簡單遊戲——抓烏龜。這可是我老爸老媽特別從美國學回來的,是個名符其實的「海歸」遊戲,據說是在下雪時無聊打發時間用的。

【跟著我的閱讀腳步】山居歲月:普羅旺斯的一年 A Year in Provence

就記得我看過Peter Mayle(彼得.梅爾)的作品,而且對他在第一章大談用塑膠湯匙吃高級魚子醬的說法印象深刻,但怎麼樣就是想不起來到底是哪一本書。好在有些現代科技的幫忙,找出了那本令我印象深刻的《 關於品味 》。只不過,在《 關於品味 》之前,Peter Mayle還有另一部更加出名的作品——《 山居歲月:普羅旺斯的一年 》( A Year in Provence )。 穿襪子這件事已成遙遠的記憶,手錶躺在抽屜裡也已很久了。我發覺,憑著庭院中樹影的位置,我可以大致估算出時間;至於今日何日,我就不大記得了。反正也不重要。我快要化為安份守己,無欲無求的院中蔬菜了;與現實世界的偶然接觸,僅限於在電話中與遠方辦公室裡的人交談。他們總是欣羨渴慕地問起天氣如何,答案則讓他們鬱鬱不樂。他們寬慰自己的方法是警告我會得皮膚癌,又說太陽曬多了頭腦會遲鈍。我並不與他們爭執;他們也許說的沒錯。只不過,變笨也好,增添皺紋也好,可能得癌症也罷,我從來沒像現在這麼快活過。 ---《 山居歲月 》, pp. 173-174