跳到主要內容

Concise Tutorial: 開始Concise的第一步


Concise是一套文字探索軟體,使用簡單的文字分析功能發掘文本間的關聯模式。Concise很容易上手,這邊不過是提供大家一點進入的要訣,以便快速地開始使用Concise。如果我有力氣的話,後續的Tutorial也會接著寫出來。

1.) 載入語料(資料)

在語言學、計算語言學、以及部份的數位人文學、部分的圖書資訊學當中,只要研究範疇涉及語言,通常都把資料稱作語料(corpus)。這些語料往往是一堆記錄的文字,像是演講稿、對話、訪談的逐字稿等等,或是本來就是文字記錄的資料,像是報紙、圖書等等,當然也可以是某些抽象物體的文字描述。在集結語料之後,也經常像資料庫那樣把這些語料的集合稱作語料庫,英文同樣是corpus,或是複數形式的corpora。也因為處理的都是文字,這種分析的方法也常被稱作文本分析(text analysis)。


LoadCorpus

Concise提供兩種方式來載入語料,Load Corpus Files和Load Raw Document(s)。兩者的區別在於,Corpus是已經分詞處理過的語料,而Raw Document則是未經分詞處理的檔案。下面將用一個簡單的例子來說明兩者的差別。

美牛即將進口,國人請自行注意。 
美 牛 即將 進口 , 國人 請 自行 注意 。

如果這兩個句子分別是準備載入的語料檔案,那麼上面的必須用未分詞的Raw Document方式來載入,目的是將完整的中文拆成一個個詞。下面的這句已經是分過詞的句子,並用空白字元隔開,因此兩種方式都可以。不過,使用Corpus File的方式比較快,畢竟少了一個分詞的動作。至於原本就是用空白字元當作單詞邊界的語言,像是英文、法文等等,好像沒這個問題。

一旦進行載入的動作,Concise將進行檔案的轉換,依照偏好設定(參見第三部分)過濾語料後,將其轉換成Concise corpus的格式。

2.) Corpus Manager 語料總管

載入語料之後,Concise會開啟語料總管。你可以在此檢視載入語料的初步狀態,如語料所含的字數和段落數,當然還有檔案名稱與路徑。

CorpusManager

請注意,標點符號仍舊被當作字,會被納入這邊的字數計算。

段落數也不是精確的。載入的檔案若是純文字檔,則會將換行符號當作段落符號;若是Microsoft Word檔案,則依據Word檔案定義的段落;如果是XML,則會依據Preferences偏好設定中的XML設定來決定段落的定義。

在Corpus Manager中可以進行語料檔的管理,新增、刪除或者是將其存成Concise Corpus檔案。強烈建議各位在確定語料需保留的資料後,將其存成Concise Corpus格式。開啟Concise Corpus不再需要檔案轉換,能夠加快載入的動作。

3.) Preferences 偏好設定

現行Concise 0.2.1a的偏好設定中,有三個部份決定了語料檔案如何被讀進來。

檔案偏好(File Preferences)

Default File Encoding 預設檔案編碼

在現行的Mac系統中,大部份的純文字檔案應該是採用UTF-8來進行的;在Windows上則不太一定。如果你也是繁體中文的使用者,若是UTF-8不行,通常用Big5或Big5-HKSCS就能解決。

FilePreferences

Chinese Segmentation Custom Dictionaries 分詞用的辭典

Concise中已經內建教育部所提供的詞彙(六萬多個詞目)。如果你覺得這些不夠,或是和你專門領域的特殊字彙差太多,你也可以新增自己的辭典。

注意:辭典檔案是個UTF-8編碼的純文字檔,副檔名是.dic。


標籤偏好(Tag Preferences)

標籤偏好決定了文本中需要保留的內容。注意:更動標籤設定將重新轉換語料檔案。

TagPreferences

Non-embedded Tag 非內嵌的標籤

常見的標籤標注方式,用<和>包圍的標籤。有特殊需求的,請參考SGML中的定義。


Embedded Tag 內嵌標籤

內嵌標籤的使用常見於各大語料庫的檔案中,例如

看_V 山_N ,_P 看_V 水_N 。_P

其中,「_」即是內嵌標籤,分隔前面的單詞和後面屬性(詞性)。

看\V 山\N ,\P 看\V 水\N 。\P

這句用的則是另一種常見的內嵌標籤「\」。


Skip Tags 忽略標籤

忽略整個標籤包覆範圍的文字,只需要輸入標籤內容即可。例如TEI的格式中,<teiHeader>和</teiHeader>涵蓋的通常是語料檔的屬性,在分析時可以忽略這一部份,此時就可以使用忽略標籤的定義來過濾這個部分。只要輸入標籤名稱,也就是teiHeader即可。同樣的,如果不需要標題<head>和</head>所夾住的部份,也可以用此來過濾。注意,忽略標籤的設定是有大小寫區分的。


XML偏好(XML Preferences)

設定特定的段落標籤以及特定的單詞標籤。如果沒有任何設定,將會把整個文件當作一團連續的文本來處理。

XMLPreferences


4.) 存成Concise Corpus格式

一旦載入檔案進入Concise後,會自動依據上述偏好設定轉換成Concise Corpus格式。這是經過gzip壓縮後的純文字檔,檔案大小會減少許多。所有的Concise功能都依靠這些預先轉換的語料來進行。也因為不用每次都進行過濾,進行重復的動作時,速度會比前一個版本快上不少。

SaveCorpusFilesTo

儲存時選擇的是「資料夾」,將採用和載入語料檔案相同的檔名,並將副檔名更改為.ccorpus。

一旦儲存成Concise Corpus格式後,標籤或檔案偏好的更動將不再有任何作用。不過其他的檔案仍然可以更動。


現行您可以前往Concise的官方網站,下載最新版的Concise

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:壽桃 Birthday Bunns

「壽桃」可不是老人家生日的專利,小巧玲瓏的壽桃超級受到小朋友歡迎,直說「好可愛喔!」其實壽桃就是一種造型饅頭/包子,只要掌握了這些方法,要做其他的造型都沒問題。

差不多食譜:白糖粿 Beh Teung Guai 傳統小吃版的台式吉拿棒 Taiwanese Churros

只要有個油炸鍋,將糯米糰炸到表面金黃,裹上白糖,居家版「白糖粿」意外的簡單。 說到這「白糖粿」,就算在台灣土生土長,還是有很多人沒聽過這個點心。要不是它在網路上掀起熱門討論,恐怕到現在也只有老饕知道去哪裡解饞。但現在「差不多食譜」把它搬到回家,讓你在家裡也能自己做來吃。 至於怎麼跟外國朋友介紹,其實困擾了我一陣子。腦子裡根本沒有對應的東西,它很像年糕、麻糬、湯圓,實際上材料也一樣,但做法上的差異卻讓白糖粿又不同於上述那些食物。最後,看到西方的吉拿棒(churro),在做法和吃法上都很類似白糖粿,兩者都是弄成長條油炸,然後裹上糖粉食用。這樣,姑且就把它稱做台式的吉拿棒好了,英文除了音譯的Beh Teung Guai以外,就直翻成 Taiwanese Churros。不同於台北東區賣吉拿棒的 Street Curros,這可是道道地地 Taiwan Street Curros,而且好像只有南部限定喔!說太多了,直接看做法。