跳到主要內容

Concise Tutorial: Collocation and Interactive Collocational Network 詞語搭配與互動的詞語搭配網絡

collocational network of 農業
應用語料庫進行的研究中,提到搭配詞(collocate)與詞語搭配(collocation)的文章裡頭,十篇中有九篇引用John Sinclair那本Corpus, Concordance, Collocation(上海外語出教育出版社出了中文封面的英文版,售價比Amazon便宜多了)。可能說得誇張了點,但這也表示Sinclair在這個領域的重要地位。只可惜他已經在2007年因為癌症而去世了。英國《衛報》(The Guardian)刊載John Sinclair的訃文時,就以這樣的標題Brilliant language scholar and deviser of the 'idiom principle'(傑出的語言學者和「慣用語原則」的創造人)來描述他,也將那本Corpus, Concordance, Collocation奉為語料庫語言學者的聖經。詞語搭配(collocation)正是書中的重點,也是這篇Tutorial即將介紹的主題。

1. 詞語搭配(collocation)

詞語搭配指的是文本中兩個或兩個以上的詞在簡短的文脈中彼此共同的呈現(the occurrence of two or more words within a short space of each other in a text, Sinclair 1991: 170)。這些共同呈現的詞語並不是隨機的,也不是任意的,這些詞語搭配有一定的模式可循(某個程度慣用語原則的實現)。發掘這些潛在或既定的規則,就是許多語言學家所關心的。如果你所使用的語料橫跨兩個世紀,甚至能夠看出語言的變化與文化現象的轉變,也就是「勝過一張圖片的千言萬語」中那兩位老兄在做的事。

Concise提供Collocator這個工具來處理詞語搭配。由使用者輸入一個詞,然後Concise會從你所輸入的語料中尋找出現在這個詞週遭的相關詞語,稱為搭配詞(collocate),並計算這些詞語搭配的相互影響。一個簡單的例子可以呈現搭配詞是如何被納入的:
 對 農業 發展
給予 農業 施政
台灣 農業 發展
 新 農業 運動

上面這個例子中,我輸入「農業」這個詞作為尋找搭配詞的核心詞語,而出現在「農業」這個詞則有「對」、「給予」、「台灣」、「新」、「發展」、「施政」、「運動」七個詞。這七個詞就是「農業」的搭配詞(collocate);而(農業, 對)、(農業, 台灣)、(農業, 發展)等詞語共同的呈現即詞語搭配(collocation)。

文脈的長短影響了所見資訊的多寡(請參考脈絡化的關鍵字,直接影響了詞語搭配的結果。文脈太長,會包含太多不必要的訊息,干擾你的判斷;太短,則犧牲了太多有趣的東西。上面那個例子,我把文脈設定為左右各一個詞(L1, R1),如果研究是要討論農業是怎麼樣被談論的,實在是太短了些;不過如果只要知道農業後面會接什麼詞,這樣的設定又太長了點。完全得看你的目的來決定文脈的長短。在一般的研究中,左右各三到五個詞的長度被認為是有用的,Sinclair他用的則是四個(L4, R4)。下面用Concise來處理一個實際的例子,看看農委會主委在立法院第六屆第四會期的業務報告中,說了什麼和「農業」相關的搭配詞。

  • 載入語料檔案(請參考開始Concise的第一步)
  • 設定文脈長短(L4, R4)
  • 輸入「農業」按下放大鏡進行搜尋
Collocator

最常出現在農業附近的詞是「及」、「之」、「的」等連接詞或介系詞,但是裡面有一個「新」讓我們比較感興趣。下面還有「推動」、「台灣」、「經營」、「發展」、「wto」等等。雖然頻率也代表一定程度的相關性,但在判斷詞語搭配的相互關係時,更成使用的是後面兩欄的數值,即MI score和t-score,後頭再介紹。表格已經可以展現一些相互關係的端倪,但Concise提供了視覺化的方式來處理詞語搭配的探索,即詞語搭配網絡(collocational network)。


2. 詞語搭配網絡 Collocational Network

詞語搭配網絡(collocational network)的概念是詞語搭配的延伸。詞語搭配看的是核心詞彙,與圍繞它的搭配詞。最單純的詞語搭配網絡便是將這個初階的詞語搭配以視覺方式呈現,成為一群圍繞著核心詞的搭配詞所構成的網絡。下面這個詞語搭配網絡,便是運用Concise的Collocational Networker將上頭的那個例子做視覺化的呈現,只不過是以MI排序後取前20個搭配詞。

Collocational Networker

詞語搭配網絡的優勢在於進一步展開這個網絡。將搭配詞作為新的核心詞彙,展開下一個層次的詞語搭配,也就是Paul Barker 在Using Corpora in Discourse Analysis (2006, pp. 116-119)所稱的「二階搭配詞」(second-order collocate)。只要將滑鼠移到你想繼續探索的詞語上,雙擊滑鼠左鍵,Concise的Collocational Networker就會幫你展開第二階的搭配詞(如果有的話)。

Collocational Network

上面的這個例子是將原本以「農業」為核心詞的網絡,進一步用「留鳥」和「運動」展開,並且在「運動」的網絡中再去展開「新」的網絡。結果可以看到「農業」和「新」這兩個詞都和「定位」產生關聯。至於是什麼樣的定位,可以使用其他的工具,如Concordancer(見脈絡化的關鍵字,進一步從不同的文脈大小讓這些詞重新回到論述的脈絡中。

詞語搭配網絡不僅是種視覺化的呈現方式,也是種視覺化的摘要方式,更是種視覺化的文本探勘模式,能夠幫助你去找出潛在的主題。Camilla Magnusson(2010)的Text Visualization for Competitive Intelligence就是使用詞語搭配網絡的方法分析兩個年度的公司年度報告,從中去看出公司對於自身的評量與未來展望。她試著用一個大家都能看得懂的方法,讓一般的股東也能夠搞懂這家公司再來可能會賺錢或賠錢。她是以左右個四個詞的文脈大小(L4, R4),加上MI >= 2.00的限制去處理。現在,你自己就可以運用Concise來進行詞語搭配網絡得探索,試試不同的數值會跑出什麼樣的網絡。


3. 統計數字是怎麼算的?

詞語搭配網絡背後依據的數字其實和詞語搭配,也就是Collocator中所展示的表格基礎是一樣的。可以分成三組數字來看,分別是共同出現的次數,效力(effect-size)和顯著性(significance)。

Concise計算共同出現次數的方法,是依據Stefan Evert在Corpora and Collocations中提到的表面上的共現(surface cooccurrence),計算的是出現在核心詞附近一定區間內的搭配詞。
  • Freq.: 搭配詞與核心詞共同出現的次數,
  • Left Freq.: 搭配詞與核心詞共同出現,並且位在核心詞左方的次數, 
  • Right Freq.: 搭配詞與核心詞共同出現,並且位在核心詞右方的次數。


效力的統計目前提供MI score和MI3 score,顯著性的統計則有z-score、t-score、和simple-ll(簡化版本的log-likelihood)。這幾個統計方式的詳細說明請參考Evert的Corpora and Collocations,唯一的差別是Concise調整了期望值的計算公式。以下是簡單的說明:
For simple association measures, Evert (2007) suggests an approximation formula for expected value, E = k*f1*f2/N. The factor k represents the total span size, e.g. k=10 for a symmetric span of 5 words (L5, R5), k=4 for a span (L3, R1), and k=1 for simple bigrams (L0, R1).  
However, the span is not always fixed while running into the sentence boundary or paragraph boundary. To deal with such cases, the total number of words (tokens) in the sample Ns is considered to calculate the expected value. The formula thus turns into E = Ns*f1/N.

除此之外,這些計算方式就如同Evert所提到的公式。
  • MI = log2(O/E)
  • MI3 = log2(O3/E)
  • z-score = (O-E)/sqrt(E)
  • t-score = (O-E)/sqrt(O)
  • simple-ll = 2(O*log(O/E)-(O-E))

然而,我覺得詞語搭配網絡這個方法目前還不是很穩定,但它提供了一個互動式探索的可能,讓使用者可以自行展開自己有興趣的節點,開拓專家之眼以外的可能性。

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

【豐原大蔥】免揉大蔥佛卡夏 No-knead Leek Focaccia - 差不多食譜

「豐原大蔥」的第二道食譜,就做 大蔥馬鈴薯濃湯 那篇提到的「大蔥佛卡夏」,而且用的還是懶人的免揉方法。不光是麵包,這份食譜還有一個衍生的副產品「大蔥油」,靈感來源就是蔥油拌麵。接著就來看看我是怎麼做的吧! 「大蔥佛卡夏」差不多需要這些材料:(20cm鑄鐵鍋) 豐原大蔥 ...... 1根 橄欖油 …… 適量(150ml左右) 高筋麵粉 …… 200g 鹽 …… 2g 酵母粉 …… 2-3g 水 …… 180-200g 「大蔥佛卡夏」差不多是這麼做的: Step 1. 製作「大蔥油」 說來你可能不相信,製作「大蔥佛卡夏」的「大蔥油」,靈感竟是來自於蔥油拌麵。但是大蔥油製作時需要人在旁邊顧著,而且炸過的大蔥也會拌進麵團裡面,正式製作佛卡夏前就先把這個大蔥油做好。 用小蔥製作蔥油的時候,只有切段丟進油裡去炸。可是我打算把炸過的大蔥一起揉到麵包裡,大蔥纖維比較不好咬斷,就先用刀子給它切碎。要注意的是,這裡我只用蔥白,以及稍微有點厚度的蔥綠,也就是蔥白和蔥綠交界那邊。 接下來,把切碎的大蔥放入鍋中,並倒入橄欖油,用中小火慢慢去炸大蔥。我不想要麵包裡黑黑的,所以炸到大蔥變軟,香味散出,顏色稍微黃一點的時候就可以關火,並將炸過的大蔥撈出放涼。 剩下的油就是大蔥油了,留下來炒菜、拌麵都很不錯。 Step 2. 製作佛卡夏麵團 拿個大碗,倒入高筋麵粉、鹽巴、酵母,再加上水攪拌成團。不用揉,只要成團就可以。 Step 3. 拌入大蔥發酵 往麵團中放入炸過而且放涼的大蔥,用湯匙或筷子拌進麵團。如果你的大蔥瀝的比較乾,再多補一兩匙大蔥油進去。當然,我這種差不多的作法,盛大蔥的碗底就差不多有一兩匙大蔥油了,整碗直接倒進去就好。 拌好後,找個蓋子蓋起來,室溫放一兩個鐘頭進行基礎發酵。也可以直接放進冰箱發酵,隔天再拿出來處理,就像其他的免揉麵包一樣。 Step 4. 移到烤盤 發酵完成,就可以把麵團轉移到烤盤上。我懶得洗鍋子,直接拿炸大蔥油的那個鑄鐵鍋當作烤盤來用。先在鑄鐵鍋(烤盤)底部抹些油,再灑些鹽巴,這樣麵包烤好之後表面就可以咬到一點鹹味。 接著就把麵團直接搬到烤盤,淋點大蔥油,開始用手指戳出佛卡夏特有的孔洞。操作之前記得洗手! 戳完孔後,切點蔥綠用大蔥油泡一下,均勻放在佛卡夏表面,並稍微壓進麵團裡。最後往表面再灑些鹽巴,同樣是在表面就可以嚐到些許的鹹味。這樣,就可以準備烘焙了! Step

差不多食譜:壽桃 Birthday Bunns

「壽桃」可不是老人家生日的專利,小巧玲瓏的壽桃超級受到小朋友歡迎,直說「好可愛喔!」其實壽桃就是一種造型饅頭/包子,只要掌握了這些方法,要做其他的造型都沒問題。