跳到主要內容

Concise Feature: 表面式共現詞與文本式共現詞 Surface Cooccurrence and Textual Cooccurrence


Stefan Evert 在Corpora and collocations裡頭指出了三種詞語搭配(collocation)的計算方式,包括有表面式共現(surface cooccurrence)、文本式共現(textual cooccurrence)、以及句法式共現(syntax cooccurrence)這三種。現有的語料庫套裝軟體多具備第一種詞語搭配的計算,以一個節點詞,向前後延伸幾個單位的跨距,構成片段的文本。至於第二種和第三種共現詞的計算,則多半要使用相當客制化的程序來實現。說白了,要自己寫程式才能做到。


在現行的版本中,Concise的詞語搭配仍是以表面式共現作為基礎。然而,這種計算方法無法準確計算contingency table(列聯表,又稱條件次數表),過於貼近的節點詞會被重複計算。用下面這個句子來做個說明:

這隻 |  | 和 | 那隻 |  | 不是 | 同 | 一隻 | 

當我們使用表面上的共現,以左右跨距四個詞的方式進行搜尋時,Concise或大部份的軟體,都會將結果計算成:

                這隻 |  | 和 | 那隻 |  | 不是
這隻 |  | 和 | 那隻 |  | 不是 | 同 | 一隻 | 
 | 不是 | 同 | 一隻 | 

結果,原本出現次數僅有三次的「狗」,它出現次數變成了七。原來的一個文本,也被視為三個不同的文本分別計算。就這樣,僅能算出Evert列出的簡單關聯測量(simple association measures),也就是MI、MI3、t-score、z-score、simple-ll這幾種統計數字。簡單關聯測量僅需要運用共現次數(cooccurrence)的期望值即可進行估計,可以參考Evert的Corpora and collocations文章,也可以看某德國大學列出的Collocation Analysis。若進行Evert所稱的統計關聯測量(statistical association measures),如Odds Ratio、Dice coefficient、Log-Likelihood等統計數值,極容易出現誤差。

改採文本式共現(textual cooccurrence)來計算,可以避免表面式共現的缺點。進行文本式共現計算的第一步,是要從整份文件中取出一個個文本。在文章裡頭,進行文本式共現計算的文本通常會是一個完整句子。之後,再去計算節點詞和搭配詞出現在多少個文本,也就是多少個句子當中。


拿Evert那篇Corpora and collocations的例子來看,hat和over這一組搭配,它們的共現次數(cooccurrence)是1,但hat本身的出現次數是3,over則存在於兩個文本中,總文本數(Sample Size)是5。這樣的計算方式,捨棄了搭配詞的位置資訊,因此搭配詞是位在節點詞的哪一個方向,便不得而知。

同一段文字,若用表面式共現的計算方式,把跨距設為4,那麼共現次數會是2(最後一句有兩個),hat出現次數為3,over的出現次數也是3,樣本大小則是79(總字數)。

文本式共現的結果,可以直接拿來計算contingency table,但表面式的就需要調整。詳細的內容請自行參考Evert那篇Corpora and collocations


現階段在測試中的Concise,已經可以處理文本式共現的計算方式,也能處理Dice coefficient、Odds Ratio、Chi-squared (corr)、Log-Likelihood這些Evert稱為統計相關測量的指標。下面附上同一個文本使用不同共現方式的計算結果。

表面式共現 Surface Cooccurrence

文本式共現 Textual Cooccurrence

你應當發現,不同的計算方式對於排序是有影響的,計算出的次數和統計量也不相同。另外,使用表面式共現計算時,Odds Ratio會出現NaN無法計算的狀況發生。至於兩種不同共現的使用時機,我也還在研究。如果你已經有了一點心得,麻煩分享給我知道。


留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:白糖粿 Beh Teung Guai 傳統小吃版的台式吉拿棒 Taiwanese Churros

只要有個油炸鍋,將糯米糰炸到表面金黃,裹上白糖,居家版「白糖粿」意外的簡單。 說到這「白糖粿」,就算在台灣土生土長,還是有很多人沒聽過這個點心。要不是它在網路上掀起熱門討論,恐怕到現在也只有老饕知道去哪裡解饞。但現在「差不多食譜」把它搬到回家,讓你在家裡也能自己做來吃。 至於怎麼跟外國朋友介紹,其實困擾了我一陣子。腦子裡根本沒有對應的東西,它很像年糕、麻糬、湯圓,實際上材料也一樣,但做法上的差異卻讓白糖粿又不同於上述那些食物。最後,看到西方的吉拿棒(churro),在做法和吃法上都很類似白糖粿,兩者都是弄成長條油炸,然後裹上糖粉食用。這樣,姑且就把它稱做台式的吉拿棒好了,英文除了音譯的Beh Teung Guai以外,就直翻成 Taiwanese Churros。不同於台北東區賣吉拿棒的 Street Curros,這可是道道地地 Taiwan Street Curros,而且好像只有南部限定喔!說太多了,直接看做法。

Excel運用VBA抓取Yahoo Finance APIs股票資料

Yahoo Finance APIs提供了多樣的應用程式接口,讓使用者能夠獲取Yahoo Finance的資料。這篇文章要介紹的,是多數人會用到的股票資料。實作的例子來自於 http://www.gummy-stuff.org/Yahoo-data.htm ,我只是將內容稍微解釋,並且換成台灣股票的例子。