跳到主要內容

Concise Basic: 建構自己的語料庫 Compile Your Own Corpus


Concise是一套用來建構並分析語料庫的應用程式,目的在於提供簡易的程式界面,讓一般不會程式設計的人文社會學科使用者,也能對特殊的文本進行語料庫語言學上的分析。語料庫(corpus)是Concise運作的核心概念,這份文件將會介紹語料庫的基本概念,並且簡介Concise在建構語料庫的背後運作過程。



什麼是語料庫?


語料庫(corpus,複數為corpora)與文件集(document set)在Concise裡頭是同樣的概念,指的是用來解決您資訊需求的素材,或是您感興趣的目標文本。必須先有素材存在,才有可能進行接下來的分析。


所有素材、文本的集合就是語料庫。您可以將語料庫想像為一本雜誌,這本雜誌是由許多個別的文章組成的。這時,個別的文章就是語料庫中的文件(document),而這本文件集合的雜誌就是個語料庫。如果將單位改變,把一本雜誌所有的內容作為一個文件,那麼雜誌的集合就成了一個更大的語料庫。


Corpus Manager 用是相同的概念,每一列都是一份文件。這些文件集合成了Concise的語料庫。您可以將Corpus Manager視為雜誌的目錄,雙擊其中的文件,或是按右鍵選擇「開啓 Open」,就能打開Document Viewer檢視文件的內容。


Concise 是如何建構語料庫的?


用Concise來建構語料庫並不複雜,只要點選「匯入 Import」,選取要匯入的檔案,稍微調整一下自訂詞庫,接下來都交給Concise去處理。


然而,在這個簡單的步驟後頭,語料庫的建構涉及幾個概念:分詞(tokenisation)、標註(tagging)與索引(indexing)

中文分詞


分詞(tokenisation)指的是將文件中原始的詞彙轉為控制的詞彙。簡單的說,就是處理怎麼樣才算是一個詞彙(word)的問題。對英文,或是用空白字元作為間隔的語系來說,這個問題會稍微簡單一些,但是仍得要處理多樣詞形是否要還原為基本詞形的問題。舉例來說,過去式、進行式與未來式是否要還原為簡單現在式,是否要保留所有格等問題。

中文對時態與所有格並沒有那麼敏感,但是詞彙的邊界卻是個大問題。中文字指的是「字元」(char)的概念,但語料庫中重視的卻是詞彙(token或word)。詞彙可能僅有一個中文字,或是由兩個以上的中文字構成。要怎麼樣將一連串的中文句子斷成一個個有意義的詞彙,一直是讓許多中文的使用者或開發者頭痛的部分。

目前找得到,並且原本就以繁體中文為基礎建構的分詞系統,大概就是中央研究院中的中文斷詞系統。可惜的是這個系統並不是開源的,當然背後的詞庫與分詞的依據,全都只能仰賴該小組發表的論文。對一般的分詞需求可能足夠了,但是特殊主題(如農業、旅遊、美食等)的應用,特別是專有名詞的處理上就顯得有些不足。

目前比較常見的Java開源分詞軟體大概有下列幾個:ik-analyzerICTCLASmmseg4j庖丁解牛fudannlpsmallseglingpipeStandford Word Segmenter。以上所有的分詞軟體用的都是用簡體中文的詞庫,或用簡體中文詞庫訓練出來的模型。儘管這些模型可以用在繁體,但是效果並不怎麼好。

然而其中的mmseg4j,應用了蔡志浩的MMSEG演算法,只要將裡頭的詞庫與中文字的機率檔案代換,即可應用於繁體中文。同時,也方便特殊主題的使用者新增自訂詞庫。這個便利的特性符合Concise的需求,因而在修改了mmseg4j原始碼讓它也能拋出標點符號後,成為Concise的中文分詞核心。


標註(tagging)


不同的研究目的會需要不同的標註方式,最常見的標註是詞性(part-of-speech)。根據不同的目的,有時還會對類碼(lemma,或稱還原詞形)、分類、命名實體(named entity)進行標註。有的研究將標註視為分詞的一部份。

Concise 從 0.3.6 之後,在匯入文件時增加詞性標註的功能。詞性最重要的功能,依舊是區別詞彙的不同意義。在中文裡頭,同樣的詞彙在不同的句子或是文脈中,經常有不同的作用。有時候可以當作名詞,有時候又作為副詞或是形容詞。詞性的標註有助於消彌這些詞彙在文脈中的歧義性。


然而就如同中文分詞的系統,詞性標註的開源程式依舊缺乏繁體中文的模型。好在繁體中文與簡體中文極為相似,句法在某種程度上是可以共通的。因而可以運用簡體中文訓練出的詞性標註模型,直接對分過詞的繁體中文進行詞性標註。

Concise選擇的是 Stanford NLP 中的 Part-Of-Speech Tagger,用的模型是賓州大學的中文句結構樹(CTB, Chinese Tree Bank)所訓練出來的。詞性的說明可以在這裡下載。


索引(indexing)


索引可以讓應用程式快速找到搜尋的目標,但索引的方式直接影響搜尋的結果。很多搜尋系統在建構索引的時候會略過標點符號與停用詞(stop words),認為這些資訊對搜尋結果是冗贅的。但是Concise對空白字元(空格、tab、斷行符號)外的所有詞彙(包括標點符號)進行索引,讓使用者在後續的操作中,根據其目的自行選擇要顯示的詞彙與停用詞。

Concise在0.3.0之後採用Apache Lucene Core作為索引與搜尋的核心,這個核心在許多專案中都能見到。語料庫匯入Concise之後,相關的索引也會一併完成。藉著索引中儲存的資訊,讓Concise能較為快速地找尋並顯示結果。



一旦建構了語料庫,就可以依據不同的搜尋、呈現、與過濾方式,提取文本中的訊息。從最基本的脈絡化關鍵詞(Keyword in context)、詞彙的計數,到具備簡單統計功能的詞語共現(collocation)和語料庫語言學的關鍵詞(Keyword),甚至是視覺化的文本探索,Concise試圖用簡便的方式讓使用者/研究者能夠從不同的角度看待他們的文本。




留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:壽桃 Birthday Bunns

「壽桃」可不是老人家生日的專利,小巧玲瓏的壽桃超級受到小朋友歡迎,直說「好可愛喔!」其實壽桃就是一種造型饅頭/包子,只要掌握了這些方法,要做其他的造型都沒問題。

【豐原大蔥】免揉大蔥佛卡夏 No-knead Leek Focaccia - 差不多食譜

「豐原大蔥」的第二道食譜,就做 大蔥馬鈴薯濃湯 那篇提到的「大蔥佛卡夏」,而且用的還是懶人的免揉方法。不光是麵包,這份食譜還有一個衍生的副產品「大蔥油」,靈感來源就是蔥油拌麵。接著就來看看我是怎麼做的吧! 「大蔥佛卡夏」差不多需要這些材料:(20cm鑄鐵鍋) 豐原大蔥 ...... 1根 橄欖油 …… 適量(150ml左右) 高筋麵粉 …… 200g 鹽 …… 2g 酵母粉 …… 2-3g 水 …… 180-200g 「大蔥佛卡夏」差不多是這麼做的: Step 1. 製作「大蔥油」 說來你可能不相信,製作「大蔥佛卡夏」的「大蔥油」,靈感竟是來自於蔥油拌麵。但是大蔥油製作時需要人在旁邊顧著,而且炸過的大蔥也會拌進麵團裡面,正式製作佛卡夏前就先把這個大蔥油做好。 用小蔥製作蔥油的時候,只有切段丟進油裡去炸。可是我打算把炸過的大蔥一起揉到麵包裡,大蔥纖維比較不好咬斷,就先用刀子給它切碎。要注意的是,這裡我只用蔥白,以及稍微有點厚度的蔥綠,也就是蔥白和蔥綠交界那邊。 接下來,把切碎的大蔥放入鍋中,並倒入橄欖油,用中小火慢慢去炸大蔥。我不想要麵包裡黑黑的,所以炸到大蔥變軟,香味散出,顏色稍微黃一點的時候就可以關火,並將炸過的大蔥撈出放涼。 剩下的油就是大蔥油了,留下來炒菜、拌麵都很不錯。 Step 2. 製作佛卡夏麵團 拿個大碗,倒入高筋麵粉、鹽巴、酵母,再加上水攪拌成團。不用揉,只要成團就可以。 Step 3. 拌入大蔥發酵 往麵團中放入炸過而且放涼的大蔥,用湯匙或筷子拌進麵團。如果你的大蔥瀝的比較乾,再多補一兩匙大蔥油進去。當然,我這種差不多的作法,盛大蔥的碗底就差不多有一兩匙大蔥油了,整碗直接倒進去就好。 拌好後,找個蓋子蓋起來,室溫放一兩個鐘頭進行基礎發酵。也可以直接放進冰箱發酵,隔天再拿出來處理,就像其他的免揉麵包一樣。 Step 4. 移到烤盤 發酵完成,就可以把麵團轉移到烤盤上。我懶得洗鍋子,直接拿炸大蔥油的那個鑄鐵鍋當作烤盤來用。先在鑄鐵鍋(烤盤)底部抹些油,再灑些鹽巴,這樣麵包烤好之後表面就可以咬到一點鹹味。 接著就把麵團直接搬到烤盤,淋點大蔥油,開始用手指戳出佛卡夏特有的孔洞。操作之前記得洗手! 戳完孔後,切點蔥綠用大蔥油泡一下,均勻放在佛卡夏表面,並稍微壓進麵團裡。最後往表面再灑些鹽巴,同樣是在表面就可以嚐到些許的鹹味。這樣,就可以準備烘焙了! Step