應用語料庫進行的研究中,提到搭配詞(collocate)與詞語搭配(collocation)的文章裡頭,十篇中有九篇引用John Sinclair那本Corpus, Concordance, Collocation(上海外語出教育出版社出了中文封面的英文版,售價比Amazon便宜多了)。可能說得誇張了點,但這也表示Sinclair在這個領域的重要地位。只可惜他已經在2007年因為癌症而去世了。英國《衛報》(The Guardian)刊載John Sinclair的訃文時,就以這樣的標題Brilliant language scholar and deviser of the 'idiom principle'(傑出的語言學者和「慣用語原則」的創造人)來描述他,也將那本Corpus, Concordance, Collocation奉為語料庫語言學者的聖經。詞語搭配(collocation)正是書中的重點,也是這篇Tutorial即將介紹的主題。
1. 詞語搭配(collocation)
詞語搭配指的是文本中兩個或兩個以上的詞在簡短的文脈中彼此共同的呈現(the occurrence of two or more words within a short space of each other in a text, Sinclair 1991: 170)。這些共同呈現的詞語並不是隨機的,也不是任意的,這些詞語搭配有一定的模式可循(某個程度慣用語原則的實現)。發掘這些潛在或既定的規則,就是許多語言學家所關心的。如果你所使用的語料橫跨兩個世紀,甚至能夠看出語言的變化與文化現象的轉變,也就是「勝過一張圖片的千言萬語」中那兩位老兄在做的事。
Concise提供Collocator這個工具來處理詞語搭配。由使用者輸入一個詞,然後Concise會從你所輸入的語料中尋找出現在這個詞週遭的相關詞語,稱為搭配詞(collocate),並計算這些詞語搭配的相互影響。一個簡單的例子可以呈現搭配詞是如何被納入的:
上面這個例子中,我輸入「農業」這個詞作為尋找搭配詞的核心詞語,而出現在「農業」這個詞則有「對」、「給予」、「台灣」、「新」、「發展」、「施政」、「運動」七個詞。這七個詞就是「農業」的搭配詞(collocate);而(農業, 對)、(農業, 台灣)、(農業, 發展)等詞語共同的呈現即詞語搭配(collocation)。
文脈的長短影響了所見資訊的多寡(請參考脈絡化的關鍵字),直接影響了詞語搭配的結果。文脈太長,會包含太多不必要的訊息,干擾你的判斷;太短,則犧牲了太多有趣的東西。上面那個例子,我把文脈設定為左右各一個詞(L1, R1),如果研究是要討論農業是怎麼樣被談論的,實在是太短了些;不過如果只要知道農業後面會接什麼詞,這樣的設定又太長了點。完全得看你的目的來決定文脈的長短。在一般的研究中,左右各三到五個詞的長度被認為是有用的,Sinclair他用的則是四個(L4, R4)。下面用Concise來處理一個實際的例子,看看農委會主委在立法院第六屆第四會期的業務報告中,說了什麼和「農業」相關的搭配詞。
最常出現在農業附近的詞是「及」、「之」、「的」等連接詞或介系詞,但是裡面有一個「新」讓我們比較感興趣。下面還有「推動」、「台灣」、「經營」、「發展」、「wto」等等。雖然頻率也代表一定程度的相關性,但在判斷詞語搭配的相互關係時,更成使用的是後面兩欄的數值,即MI score和t-score,後頭再介紹。表格已經可以展現一些相互關係的端倪,但Concise提供了視覺化的方式來處理詞語搭配的探索,即詞語搭配網絡(collocational network)。
2. 詞語搭配網絡 Collocational Network
詞語搭配網絡(collocational network)的概念是詞語搭配的延伸。詞語搭配看的是核心詞彙,與圍繞它的搭配詞。最單純的詞語搭配網絡便是將這個初階的詞語搭配以視覺方式呈現,成為一群圍繞著核心詞的搭配詞所構成的網絡。下面這個詞語搭配網絡,便是運用Concise的Collocational Networker將上頭的那個例子做視覺化的呈現,只不過是以MI排序後取前20個搭配詞。
詞語搭配網絡的優勢在於進一步展開這個網絡。將搭配詞作為新的核心詞彙,展開下一個層次的詞語搭配,也就是Paul Barker 在Using Corpora in Discourse Analysis (2006, pp. 116-119)所稱的「二階搭配詞」(second-order collocate)。只要將滑鼠移到你想繼續探索的詞語上,雙擊滑鼠左鍵,Concise的Collocational Networker就會幫你展開第二階的搭配詞(如果有的話)。
上面的這個例子是將原本以「農業」為核心詞的網絡,進一步用「留鳥」和「運動」展開,並且在「運動」的網絡中再去展開「新」的網絡。結果可以看到「農業」和「新」這兩個詞都和「定位」產生關聯。至於是什麼樣的定位,可以使用其他的工具,如Concordancer(見脈絡化的關鍵字),進一步從不同的文脈大小讓這些詞重新回到論述的脈絡中。
詞語搭配網絡不僅是種視覺化的呈現方式,也是種視覺化的摘要方式,更是種視覺化的文本探勘模式,能夠幫助你去找出潛在的主題。Camilla Magnusson(2010)的Text Visualization for Competitive Intelligence就是使用詞語搭配網絡的方法分析兩個年度的公司年度報告,從中去看出公司對於自身的評量與未來展望。她試著用一個大家都能看得懂的方法,讓一般的股東也能夠搞懂這家公司再來可能會賺錢或賠錢。她是以左右個四個詞的文脈大小(L4, R4),加上MI >= 2.00的限制去處理。現在,你自己就可以運用Concise來進行詞語搭配網絡得探索,試試不同的數值會跑出什麼樣的網絡。
3. 統計數字是怎麼算的?
詞語搭配網絡背後依據的數字其實和詞語搭配,也就是Collocator中所展示的表格基礎是一樣的。可以分成三組數字來看,分別是共同出現的次數,效力(effect-size)和顯著性(significance)。
Concise計算共同出現次數的方法,是依據Stefan Evert在Corpora and Collocations中提到的表面上的共現(surface cooccurrence),計算的是出現在核心詞附近一定區間內的搭配詞。
效力的統計目前提供MI score和MI3 score,顯著性的統計則有z-score、t-score、和simple-ll(簡化版本的log-likelihood)。這幾個統計方式的詳細說明請參考Evert的Corpora and Collocations,唯一的差別是Concise調整了期望值的計算公式。以下是簡單的說明:
除此之外,這些計算方式就如同Evert所提到的公式。
然而,我覺得詞語搭配網絡這個方法目前還不是很穩定,但它提供了一個互動式探索的可能,讓使用者可以自行展開自己有興趣的節點,開拓專家之眼以外的可能性。
1. 詞語搭配(collocation)
詞語搭配指的是文本中兩個或兩個以上的詞在簡短的文脈中彼此共同的呈現(the occurrence of two or more words within a short space of each other in a text, Sinclair 1991: 170)。這些共同呈現的詞語並不是隨機的,也不是任意的,這些詞語搭配有一定的模式可循(某個程度慣用語原則的實現)。發掘這些潛在或既定的規則,就是許多語言學家所關心的。如果你所使用的語料橫跨兩個世紀,甚至能夠看出語言的變化與文化現象的轉變,也就是「勝過一張圖片的千言萬語」中那兩位老兄在做的事。
Concise提供Collocator這個工具來處理詞語搭配。由使用者輸入一個詞,然後Concise會從你所輸入的語料中尋找出現在這個詞週遭的相關詞語,稱為搭配詞(collocate),並計算這些詞語搭配的相互影響。一個簡單的例子可以呈現搭配詞是如何被納入的:
對 農業 發展 給予 農業 施政 台灣 農業 發展 新 農業 運動
上面這個例子中,我輸入「農業」這個詞作為尋找搭配詞的核心詞語,而出現在「農業」這個詞則有「對」、「給予」、「台灣」、「新」、「發展」、「施政」、「運動」七個詞。這七個詞就是「農業」的搭配詞(collocate);而(農業, 對)、(農業, 台灣)、(農業, 發展)等詞語共同的呈現即詞語搭配(collocation)。
文脈的長短影響了所見資訊的多寡(請參考脈絡化的關鍵字),直接影響了詞語搭配的結果。文脈太長,會包含太多不必要的訊息,干擾你的判斷;太短,則犧牲了太多有趣的東西。上面那個例子,我把文脈設定為左右各一個詞(L1, R1),如果研究是要討論農業是怎麼樣被談論的,實在是太短了些;不過如果只要知道農業後面會接什麼詞,這樣的設定又太長了點。完全得看你的目的來決定文脈的長短。在一般的研究中,左右各三到五個詞的長度被認為是有用的,Sinclair他用的則是四個(L4, R4)。下面用Concise來處理一個實際的例子,看看農委會主委在立法院第六屆第四會期的業務報告中,說了什麼和「農業」相關的搭配詞。
- 載入語料檔案(請參考開始Concise的第一步)
- 設定文脈長短(L4, R4)
- 輸入「農業」按下放大鏡進行搜尋
最常出現在農業附近的詞是「及」、「之」、「的」等連接詞或介系詞,但是裡面有一個「新」讓我們比較感興趣。下面還有「推動」、「台灣」、「經營」、「發展」、「wto」等等。雖然頻率也代表一定程度的相關性,但在判斷詞語搭配的相互關係時,更成使用的是後面兩欄的數值,即MI score和t-score,後頭再介紹。表格已經可以展現一些相互關係的端倪,但Concise提供了視覺化的方式來處理詞語搭配的探索,即詞語搭配網絡(collocational network)。
2. 詞語搭配網絡 Collocational Network
詞語搭配網絡(collocational network)的概念是詞語搭配的延伸。詞語搭配看的是核心詞彙,與圍繞它的搭配詞。最單純的詞語搭配網絡便是將這個初階的詞語搭配以視覺方式呈現,成為一群圍繞著核心詞的搭配詞所構成的網絡。下面這個詞語搭配網絡,便是運用Concise的Collocational Networker將上頭的那個例子做視覺化的呈現,只不過是以MI排序後取前20個搭配詞。
詞語搭配網絡的優勢在於進一步展開這個網絡。將搭配詞作為新的核心詞彙,展開下一個層次的詞語搭配,也就是Paul Barker 在Using Corpora in Discourse Analysis (2006, pp. 116-119)所稱的「二階搭配詞」(second-order collocate)。只要將滑鼠移到你想繼續探索的詞語上,雙擊滑鼠左鍵,Concise的Collocational Networker就會幫你展開第二階的搭配詞(如果有的話)。
上面的這個例子是將原本以「農業」為核心詞的網絡,進一步用「留鳥」和「運動」展開,並且在「運動」的網絡中再去展開「新」的網絡。結果可以看到「農業」和「新」這兩個詞都和「定位」產生關聯。至於是什麼樣的定位,可以使用其他的工具,如Concordancer(見脈絡化的關鍵字),進一步從不同的文脈大小讓這些詞重新回到論述的脈絡中。
詞語搭配網絡不僅是種視覺化的呈現方式,也是種視覺化的摘要方式,更是種視覺化的文本探勘模式,能夠幫助你去找出潛在的主題。Camilla Magnusson(2010)的Text Visualization for Competitive Intelligence就是使用詞語搭配網絡的方法分析兩個年度的公司年度報告,從中去看出公司對於自身的評量與未來展望。她試著用一個大家都能看得懂的方法,讓一般的股東也能夠搞懂這家公司再來可能會賺錢或賠錢。她是以左右個四個詞的文脈大小(L4, R4),加上MI >= 2.00的限制去處理。現在,你自己就可以運用Concise來進行詞語搭配網絡得探索,試試不同的數值會跑出什麼樣的網絡。
3. 統計數字是怎麼算的?
詞語搭配網絡背後依據的數字其實和詞語搭配,也就是Collocator中所展示的表格基礎是一樣的。可以分成三組數字來看,分別是共同出現的次數,效力(effect-size)和顯著性(significance)。
Concise計算共同出現次數的方法,是依據Stefan Evert在Corpora and Collocations中提到的表面上的共現(surface cooccurrence),計算的是出現在核心詞附近一定區間內的搭配詞。
- Freq.: 搭配詞與核心詞共同出現的次數,
- Left Freq.: 搭配詞與核心詞共同出現,並且位在核心詞左方的次數,
- Right Freq.: 搭配詞與核心詞共同出現,並且位在核心詞右方的次數。
效力的統計目前提供MI score和MI3 score,顯著性的統計則有z-score、t-score、和simple-ll(簡化版本的log-likelihood)。這幾個統計方式的詳細說明請參考Evert的Corpora and Collocations,唯一的差別是Concise調整了期望值的計算公式。以下是簡單的說明:
For simple association measures, Evert (2007) suggests an approximation formula for expected value, E = k*f1*f2/N. The factor k represents the total span size, e.g. k=10 for a symmetric span of 5 words (L5, R5), k=4 for a span (L3, R1), and k=1 for simple bigrams (L0, R1).
However, the span is not always fixed while running into the sentence boundary or paragraph boundary. To deal with such cases, the total number of words (tokens) in the sample Ns is considered to calculate the expected value. The formula thus turns into E = Ns*f1/N.
除此之外,這些計算方式就如同Evert所提到的公式。
- MI = log2(O/E)
- MI3 = log2(O3/E)
- z-score = (O-E)/sqrt(E)
- t-score = (O-E)/sqrt(O)
- simple-ll = 2(O*log(O/E)-(O-E))
然而,我覺得詞語搭配網絡這個方法目前還不是很穩定,但它提供了一個互動式探索的可能,讓使用者可以自行展開自己有興趣的節點,開拓專家之眼以外的可能性。
留言
張貼留言