Concise Tutorial: Collocation and Interactive Collocational Network 詞語搭配與互動的詞語搭配網絡

應用語料庫進行的研究中，提到搭配詞（collocate）與詞語搭配（collocation）的文章裡頭，十篇中有九篇引用John Sinclair那本Corpus, Concordance, Collocation（上海外語出教育出版社出了中文封面的英文版，售價比Amazon便宜多了）。可能說得誇張了點，但這也表示Sinclair在這個領域的重要地位。只可惜他已經在2007年因為癌症而去世了。英國《衛報》（The Guardian）刊載John Sinclair的訃文時，就以這樣的標題Brilliant language scholar and deviser of the 'idiom principle'（傑出的語言學者和「慣用語原則」的創造人）來描述他，也將那本Corpus, Concordance, Collocation奉為語料庫語言學者的聖經。詞語搭配（collocation）正是書中的重點，也是這篇Tutorial即將介紹的主題。

1. 詞語搭配（collocation）

詞語搭配指的是文本中兩個或兩個以上的詞在簡短的文脈中彼此共同的呈現（the occurrence of two or more words within a short space of each other in a text, Sinclair 1991: 170）。這些共同呈現的詞語並不是隨機的，也不是任意的，這些詞語搭配有一定的模式可循（某個程度慣用語原則的實現）。發掘這些潛在或既定的規則，就是許多語言學家所關心的。如果你所使用的語料橫跨兩個世紀，甚至能夠看出語言的變化與文化現象的轉變，也就是「勝過一張圖片的千言萬語」中那兩位老兄在做的事。

Concise提供Collocator這個工具來處理詞語搭配。由使用者輸入一個詞，然後Concise會從你所輸入的語料中尋找出現在這個詞週遭的相關詞語，稱為搭配詞（collocate），並計算這些詞語搭配的相互影響。一個簡單的例子可以呈現搭配詞是如何被納入的：

　對 農業 發展
給予 農業 施政
台灣 農業 發展
　新 農業 運動

上面這個例子中，我輸入「農業」這個詞作為尋找搭配詞的核心詞語，而出現在「農業」這個詞則有「對」、「給予」、「台灣」、「新」、「發展」、「施政」、「運動」七個詞。這七個詞就是「農業」的搭配詞（collocate）；而（農業, 對）、（農業, 台灣）、（農業, 發展）等詞語共同的呈現即詞語搭配（collocation）。

文脈的長短影響了所見資訊的多寡（請參考脈絡化的關鍵字），直接影響了詞語搭配的結果。文脈太長，會包含太多不必要的訊息，干擾你的判斷；太短，則犧牲了太多有趣的東西。上面那個例子，我把文脈設定為左右各一個詞（L1, R1），如果研究是要討論農業是怎麼樣被談論的，實在是太短了些；不過如果只要知道農業後面會接什麼詞，這樣的設定又太長了點。完全得看你的目的來決定文脈的長短。在一般的研究中，左右各三到五個詞的長度被認為是有用的，Sinclair他用的則是四個（L4, R4）。下面用Concise來處理一個實際的例子，看看農委會主委在立法院第六屆第四會期的業務報告中，說了什麼和「農業」相關的搭配詞。

載入語料檔案（請參考開始Concise的第一步）
設定文脈長短（L4, R4）
輸入「農業」按下放大鏡進行搜尋

最常出現在農業附近的詞是「及」、「之」、「的」等連接詞或介系詞，但是裡面有一個「新」讓我們比較感興趣。下面還有「推動」、「台灣」、「經營」、「發展」、「wto」等等。雖然頻率也代表一定程度的相關性，但在判斷詞語搭配的相互關係時，更成使用的是後面兩欄的數值，即MI score和t-score，後頭再介紹。表格已經可以展現一些相互關係的端倪，但Concise提供了視覺化的方式來處理詞語搭配的探索，即詞語搭配網絡（collocational network）。

2. 詞語搭配網絡 Collocational Network

詞語搭配網絡（collocational network）的概念是詞語搭配的延伸。詞語搭配看的是核心詞彙，與圍繞它的搭配詞。最單純的詞語搭配網絡便是將這個初階的詞語搭配以視覺方式呈現，成為一群圍繞著核心詞的搭配詞所構成的網絡。下面這個詞語搭配網絡，便是運用Concise的Collocational Networker將上頭的那個例子做視覺化的呈現，只不過是以MI排序後取前20個搭配詞。

詞語搭配網絡的優勢在於進一步展開這個網絡。將搭配詞作為新的核心詞彙，展開下一個層次的詞語搭配，也就是Paul Barker 在Using Corpora in Discourse Analysis (2006, pp. 116-119)所稱的「二階搭配詞」（second-order collocate）。只要將滑鼠移到你想繼續探索的詞語上，雙擊滑鼠左鍵，Concise的Collocational Networker就會幫你展開第二階的搭配詞（如果有的話）。

上面的這個例子是將原本以「農業」為核心詞的網絡，進一步用「留鳥」和「運動」展開，並且在「運動」的網絡中再去展開「新」的網絡。結果可以看到「農業」和「新」這兩個詞都和「定位」產生關聯。至於是什麼樣的定位，可以使用其他的工具，如Concordancer（見脈絡化的關鍵字），進一步從不同的文脈大小讓這些詞重新回到論述的脈絡中。

詞語搭配網絡不僅是種視覺化的呈現方式，也是種視覺化的摘要方式，更是種視覺化的文本探勘模式，能夠幫助你去找出潛在的主題。Camilla Magnusson（2010）的Text Visualization for Competitive Intelligence就是使用詞語搭配網絡的方法分析兩個年度的公司年度報告，從中去看出公司對於自身的評量與未來展望。她試著用一個大家都能看得懂的方法，讓一般的股東也能夠搞懂這家公司再來可能會賺錢或賠錢。她是以左右個四個詞的文脈大小（L4, R4），加上MI >= 2.00的限制去處理。現在，你自己就可以運用Concise來進行詞語搭配網絡得探索，試試不同的數值會跑出什麼樣的網絡。

3. 統計數字是怎麼算的？

詞語搭配網絡背後依據的數字其實和詞語搭配，也就是Collocator中所展示的表格基礎是一樣的。可以分成三組數字來看，分別是共同出現的次數，效力（effect-size）和顯著性（significance）。

Concise計算共同出現次數的方法，是依據Stefan Evert在Corpora and Collocations中提到的表面上的共現（surface cooccurrence），計算的是出現在核心詞附近一定區間內的搭配詞。

Freq.: 搭配詞與核心詞共同出現的次數，
Left Freq.: 搭配詞與核心詞共同出現，並且位在核心詞左方的次數，
Right Freq.: 搭配詞與核心詞共同出現，並且位在核心詞右方的次數。

效力的統計目前提供MI score和MI3 score，顯著性的統計則有z-score、t-score、和simple-ll（簡化版本的log-likelihood）。這幾個統計方式的詳細說明請參考Evert的Corpora and Collocations，唯一的差別是Concise調整了期望值的計算公式。以下是簡單的說明：

For simple association measures, Evert (2007) suggests an approximation formula for expected value, E = k*f₁*f₂/N. The factor k represents the total span size, e.g. k=10 for a symmetric span of 5 words (L5, R5), k=4 for a span (L3, R1), and k=1 for simple bigrams (L0, R1).

However, the span is not always fixed while running into the sentence boundary or paragraph boundary. To deal with such cases, the total number of words (tokens) in the sample N_s is considered to calculate the expected value. The formula thus turns into E = N_s*f₁/N.

除此之外，這些計算方式就如同Evert所提到的公式。

MI = log₂(O/E)
MI³ = log₂(O³/E)
z-score = (O-E)/sqrt(E)
t-score = (O-E)/sqrt(O)
simple-ll = 2(O*log(O/E)-(O-E))

然而，我覺得詞語搭配網絡這個方法目前還不是很穩定，但它提供了一個互動式探索的可能，讓使用者可以自行展開自己有興趣的節點，開拓專家之眼以外的可能性。

上車睡覺、下車尿尿

台灣人對於旅遊的形容，往往是「上車睡覺、下車尿尿」。這是因為行程被極度壓縮，試圖要在最短的時間裡面看最多的東西，於是每個景點都只是蜻蜓點水般匆匆帶過，停留的時間往往等同於排隊上廁所的時間。這個紫南宮的行程已在「人山人海的紫南宮」當中提到過，只是當初沒寫到為什麼要去參觀紫南宮。事實上，紫南宮最富盛名的是可以借錢的土地公。然而，這點對我們家人而言一點吸引力都沒有，反倒是那號稱七星級的廁所，才是吸引我們前往參拜的重點。或許你會說：「有沒有搞錯，開一個鐘頭的車去上廁所！」沒錯，行程就是這麼規劃的。在過年期間要到紫南宮上廁所還不是件容易的事。首先，你必須先開車到紫南宮，這大概是最容易的部份。接著，你就得面臨搶停車位窘境。過年期間，不論哪個景點都是人山人海，免費停車位更是難找。紫南宮雖然提供一大片停車場，在過年期間卻也不敷使用，每台進入停車場的車都虎視眈眈，只要哪邊出現一個車位，起碼就有四、五台車等著。好不容易停好車，接下來就得穿越那群要去借錢、還錢、拜拜的人群。在那個地方，怎麼前進的都不知道，反正總會有人把你向前推進。好不容易到達造價上億的廁所，人山人海的盛況依舊。還好這群並非全部都來上廁所，要不然廁所早就被塞爆了。聽老爸老媽說，上次他們來的時候廁所裡面都沒人，還可以在裡面拍照、欣賞噴水。但這次裡面卻塞了不少人，我也不好意思拿著那麼大的一台相機拍人家上廁所的模樣，只能拍拍外觀。由於是在盛產竹筍的竹山鎮，廁所的外觀也用竹筍作為造型，每個竹筍下方都是一間造價昂貴的廁所。一個令我覺得很貼心的設計在於，廁所不僅僅只是男廁／女廁，還有一個殘障廁所，方便行動不便的人。雖然招牌寫著「金筍迎客」，但是看起來那個筍子明明就是不鏽鋼的，除非把它理解成金屬。我還特地爬上廁所的樓頂，想說能不能看到些什麼特別的風景。可是過年期間，看到的除了人群還是人群。上完廁所後，簡單徒手祭拜了提供廁所的土地公，我們又再次穿越那重重的人群。不過，我還是偷偷跑去滾了一下那個象徵「財源滾滾」的金元寶。最後，又踏上那個停車戰場，從容地離去。我不奢望有賺大錢的機會，只要生活能過得去，偶爾還能買些奢侈品犒賞自己就夠了。不過這個願望似乎也不簡單！

閱讀完整內容

影。像。生。活

搜尋此網誌

Concise Tutorial: Collocation and Interactive Collocational Network 詞語搭配與互動的詞語搭配網絡

標籤

留言

張貼留言

熱門文章

差不多食譜實驗：小烤箱烤長茄子？ Oven-roasted Long Aubergine?

差不多食譜：香煎南瓜片 Pan-fried Pumpkin

上車睡覺、下車尿尿