跳到主要內容

Concise Tutorial: Collocation and Interactive Collocational Network 詞語搭配與互動的詞語搭配網絡

collocational network of 農業
應用語料庫進行的研究中,提到搭配詞(collocate)與詞語搭配(collocation)的文章裡頭,十篇中有九篇引用John Sinclair那本Corpus, Concordance, Collocation(上海外語出教育出版社出了中文封面的英文版,售價比Amazon便宜多了)。可能說得誇張了點,但這也表示Sinclair在這個領域的重要地位。只可惜他已經在2007年因為癌症而去世了。英國《衛報》(The Guardian)刊載John Sinclair的訃文時,就以這樣的標題Brilliant language scholar and deviser of the 'idiom principle'(傑出的語言學者和「慣用語原則」的創造人)來描述他,也將那本Corpus, Concordance, Collocation奉為語料庫語言學者的聖經。詞語搭配(collocation)正是書中的重點,也是這篇Tutorial即將介紹的主題。

1. 詞語搭配(collocation)

詞語搭配指的是文本中兩個或兩個以上的詞在簡短的文脈中彼此共同的呈現(the occurrence of two or more words within a short space of each other in a text, Sinclair 1991: 170)。這些共同呈現的詞語並不是隨機的,也不是任意的,這些詞語搭配有一定的模式可循(某個程度慣用語原則的實現)。發掘這些潛在或既定的規則,就是許多語言學家所關心的。如果你所使用的語料橫跨兩個世紀,甚至能夠看出語言的變化與文化現象的轉變,也就是「勝過一張圖片的千言萬語」中那兩位老兄在做的事。

Concise提供Collocator這個工具來處理詞語搭配。由使用者輸入一個詞,然後Concise會從你所輸入的語料中尋找出現在這個詞週遭的相關詞語,稱為搭配詞(collocate),並計算這些詞語搭配的相互影響。一個簡單的例子可以呈現搭配詞是如何被納入的:
 對 農業 發展
給予 農業 施政
台灣 農業 發展
 新 農業 運動

上面這個例子中,我輸入「農業」這個詞作為尋找搭配詞的核心詞語,而出現在「農業」這個詞則有「對」、「給予」、「台灣」、「新」、「發展」、「施政」、「運動」七個詞。這七個詞就是「農業」的搭配詞(collocate);而(農業, 對)、(農業, 台灣)、(農業, 發展)等詞語共同的呈現即詞語搭配(collocation)。

文脈的長短影響了所見資訊的多寡(請參考脈絡化的關鍵字,直接影響了詞語搭配的結果。文脈太長,會包含太多不必要的訊息,干擾你的判斷;太短,則犧牲了太多有趣的東西。上面那個例子,我把文脈設定為左右各一個詞(L1, R1),如果研究是要討論農業是怎麼樣被談論的,實在是太短了些;不過如果只要知道農業後面會接什麼詞,這樣的設定又太長了點。完全得看你的目的來決定文脈的長短。在一般的研究中,左右各三到五個詞的長度被認為是有用的,Sinclair他用的則是四個(L4, R4)。下面用Concise來處理一個實際的例子,看看農委會主委在立法院第六屆第四會期的業務報告中,說了什麼和「農業」相關的搭配詞。

  • 載入語料檔案(請參考開始Concise的第一步)
  • 設定文脈長短(L4, R4)
  • 輸入「農業」按下放大鏡進行搜尋
Collocator

最常出現在農業附近的詞是「及」、「之」、「的」等連接詞或介系詞,但是裡面有一個「新」讓我們比較感興趣。下面還有「推動」、「台灣」、「經營」、「發展」、「wto」等等。雖然頻率也代表一定程度的相關性,但在判斷詞語搭配的相互關係時,更成使用的是後面兩欄的數值,即MI score和t-score,後頭再介紹。表格已經可以展現一些相互關係的端倪,但Concise提供了視覺化的方式來處理詞語搭配的探索,即詞語搭配網絡(collocational network)。


2. 詞語搭配網絡 Collocational Network

詞語搭配網絡(collocational network)的概念是詞語搭配的延伸。詞語搭配看的是核心詞彙,與圍繞它的搭配詞。最單純的詞語搭配網絡便是將這個初階的詞語搭配以視覺方式呈現,成為一群圍繞著核心詞的搭配詞所構成的網絡。下面這個詞語搭配網絡,便是運用Concise的Collocational Networker將上頭的那個例子做視覺化的呈現,只不過是以MI排序後取前20個搭配詞。

Collocational Networker

詞語搭配網絡的優勢在於進一步展開這個網絡。將搭配詞作為新的核心詞彙,展開下一個層次的詞語搭配,也就是Paul Barker 在Using Corpora in Discourse Analysis (2006, pp. 116-119)所稱的「二階搭配詞」(second-order collocate)。只要將滑鼠移到你想繼續探索的詞語上,雙擊滑鼠左鍵,Concise的Collocational Networker就會幫你展開第二階的搭配詞(如果有的話)。

Collocational Network

上面的這個例子是將原本以「農業」為核心詞的網絡,進一步用「留鳥」和「運動」展開,並且在「運動」的網絡中再去展開「新」的網絡。結果可以看到「農業」和「新」這兩個詞都和「定位」產生關聯。至於是什麼樣的定位,可以使用其他的工具,如Concordancer(見脈絡化的關鍵字,進一步從不同的文脈大小讓這些詞重新回到論述的脈絡中。

詞語搭配網絡不僅是種視覺化的呈現方式,也是種視覺化的摘要方式,更是種視覺化的文本探勘模式,能夠幫助你去找出潛在的主題。Camilla Magnusson(2010)的Text Visualization for Competitive Intelligence就是使用詞語搭配網絡的方法分析兩個年度的公司年度報告,從中去看出公司對於自身的評量與未來展望。她試著用一個大家都能看得懂的方法,讓一般的股東也能夠搞懂這家公司再來可能會賺錢或賠錢。她是以左右個四個詞的文脈大小(L4, R4),加上MI >= 2.00的限制去處理。現在,你自己就可以運用Concise來進行詞語搭配網絡得探索,試試不同的數值會跑出什麼樣的網絡。


3. 統計數字是怎麼算的?

詞語搭配網絡背後依據的數字其實和詞語搭配,也就是Collocator中所展示的表格基礎是一樣的。可以分成三組數字來看,分別是共同出現的次數,效力(effect-size)和顯著性(significance)。

Concise計算共同出現次數的方法,是依據Stefan Evert在Corpora and Collocations中提到的表面上的共現(surface cooccurrence),計算的是出現在核心詞附近一定區間內的搭配詞。
  • Freq.: 搭配詞與核心詞共同出現的次數,
  • Left Freq.: 搭配詞與核心詞共同出現,並且位在核心詞左方的次數, 
  • Right Freq.: 搭配詞與核心詞共同出現,並且位在核心詞右方的次數。


效力的統計目前提供MI score和MI3 score,顯著性的統計則有z-score、t-score、和simple-ll(簡化版本的log-likelihood)。這幾個統計方式的詳細說明請參考Evert的Corpora and Collocations,唯一的差別是Concise調整了期望值的計算公式。以下是簡單的說明:
For simple association measures, Evert (2007) suggests an approximation formula for expected value, E = k*f1*f2/N. The factor k represents the total span size, e.g. k=10 for a symmetric span of 5 words (L5, R5), k=4 for a span (L3, R1), and k=1 for simple bigrams (L0, R1).  
However, the span is not always fixed while running into the sentence boundary or paragraph boundary. To deal with such cases, the total number of words (tokens) in the sample Ns is considered to calculate the expected value. The formula thus turns into E = Ns*f1/N.

除此之外,這些計算方式就如同Evert所提到的公式。
  • MI = log2(O/E)
  • MI3 = log2(O3/E)
  • z-score = (O-E)/sqrt(E)
  • t-score = (O-E)/sqrt(O)
  • simple-ll = 2(O*log(O/E)-(O-E))

然而,我覺得詞語搭配網絡這個方法目前還不是很穩定,但它提供了一個互動式探索的可能,讓使用者可以自行展開自己有興趣的節點,開拓專家之眼以外的可能性。

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:白糖粿 Beh Teung Guai 傳統小吃版的台式吉拿棒 Taiwanese Churros

只要有個油炸鍋,將糯米糰炸到表面金黃,裹上白糖,居家版「白糖粿」意外的簡單。 說到這「白糖粿」,就算在台灣土生土長,還是有很多人沒聽過這個點心。要不是它在網路上掀起熱門討論,恐怕到現在也只有老饕知道去哪裡解饞。但現在「差不多食譜」把它搬到回家,讓你在家裡也能自己做來吃。 至於怎麼跟外國朋友介紹,其實困擾了我一陣子。腦子裡根本沒有對應的東西,它很像年糕、麻糬、湯圓,實際上材料也一樣,但做法上的差異卻讓白糖粿又不同於上述那些食物。最後,看到西方的吉拿棒(churro),在做法和吃法上都很類似白糖粿,兩者都是弄成長條油炸,然後裹上糖粉食用。這樣,姑且就把它稱做台式的吉拿棒好了,英文除了音譯的Beh Teung Guai以外,就直翻成 Taiwanese Churros。不同於台北東區賣吉拿棒的 Street Curros,這可是道道地地 Taiwan Street Curros,而且好像只有南部限定喔!說太多了,直接看做法。

Excel運用VBA抓取Yahoo Finance APIs股票資料

Yahoo Finance APIs提供了多樣的應用程式接口,讓使用者能夠獲取Yahoo Finance的資料。這篇文章要介紹的,是多數人會用到的股票資料。實作的例子來自於 http://www.gummy-stuff.org/Yahoo-data.htm ,我只是將內容稍微解釋,並且換成台灣股票的例子。