Concise是一套文字探索軟體,使用簡單的文字分析功能發掘文本間的關聯模式。Concise很容易上手,這邊不過是提供大家一點進入的要訣,以便快速地開始使用Concise。如果我有力氣的話,後續的Tutorial也會接著寫出來。
1.) 載入語料(資料)
在語言學、計算語言學、以及部份的數位人文學、部分的圖書資訊學當中,只要研究範疇涉及語言,通常都把資料稱作語料(corpus)。這些語料往往是一堆記錄的文字,像是演講稿、對話、訪談的逐字稿等等,或是本來就是文字記錄的資料,像是報紙、圖書等等,當然也可以是某些抽象物體的文字描述。在集結語料之後,也經常像資料庫那樣把這些語料的集合稱作語料庫,英文同樣是corpus,或是複數形式的corpora。也因為處理的都是文字,這種分析的方法也常被稱作文本分析(text analysis)。
Concise提供兩種方式來載入語料,Load Corpus Files和Load Raw Document(s)。兩者的區別在於,Corpus是已經分詞處理過的語料,而Raw Document則是未經分詞處理的檔案。下面將用一個簡單的例子來說明兩者的差別。
美牛即將進口,國人請自行注意。
美 牛 即將 進口 , 國人 請 自行 注意 。
如果這兩個句子分別是準備載入的語料檔案,那麼上面的必須用未分詞的Raw Document方式來載入,目的是將完整的中文拆成一個個詞。下面的這句已經是分過詞的句子,並用空白字元隔開,因此兩種方式都可以。不過,使用Corpus File的方式比較快,畢竟少了一個分詞的動作。至於原本就是用空白字元當作單詞邊界的語言,像是英文、法文等等,好像沒這個問題。
一旦進行載入的動作,Concise將進行檔案的轉換,依照偏好設定(參見第三部分)過濾語料後,將其轉換成Concise corpus的格式。
2.) Corpus Manager 語料總管
載入語料之後,Concise會開啟語料總管。你可以在此檢視載入語料的初步狀態,如語料所含的字數和段落數,當然還有檔案名稱與路徑。
請注意,標點符號仍舊被當作字,會被納入這邊的字數計算。
段落數也不是精確的。載入的檔案若是純文字檔,則會將換行符號當作段落符號;若是Microsoft Word檔案,則依據Word檔案定義的段落;如果是XML,則會依據Preferences偏好設定中的XML設定來決定段落的定義。
在Corpus Manager中可以進行語料檔的管理,新增、刪除或者是將其存成Concise Corpus檔案。強烈建議各位在確定語料需保留的資料後,將其存成Concise Corpus格式。開啟Concise Corpus不再需要檔案轉換,能夠加快載入的動作。
3.) Preferences 偏好設定
現行Concise 0.2.1a的偏好設定中,有三個部份決定了語料檔案如何被讀進來。
檔案偏好(File Preferences)
Default File Encoding 預設檔案編碼:
在現行的Mac系統中,大部份的純文字檔案應該是採用UTF-8來進行的;在Windows上則不太一定。如果你也是繁體中文的使用者,若是UTF-8不行,通常用Big5或Big5-HKSCS就能解決。
Chinese Segmentation Custom Dictionaries 分詞用的辭典:
Concise中已經內建教育部所提供的詞彙(六萬多個詞目)。如果你覺得這些不夠,或是和你專門領域的特殊字彙差太多,你也可以新增自己的辭典。
注意:辭典檔案是個UTF-8編碼的純文字檔,副檔名是.dic。
標籤偏好(Tag Preferences)
標籤偏好決定了文本中需要保留的內容。注意:更動標籤設定將重新轉換語料檔案。
Non-embedded Tag 非內嵌的標籤:
常見的標籤標注方式,用<和>包圍的標籤。有特殊需求的,請參考SGML中的定義。
Embedded Tag 內嵌標籤:
內嵌標籤的使用常見於各大語料庫的檔案中,例如
看_V 山_N ,_P 看_V 水_N 。_P
其中,「_」即是內嵌標籤,分隔前面的單詞和後面屬性(詞性)。
看\V 山\N ,\P 看\V 水\N 。\P
這句用的則是另一種常見的內嵌標籤「\」。
Skip Tags 忽略標籤:
忽略整個標籤包覆範圍的文字,只需要輸入標籤內容即可。例如TEI的格式中,<teiHeader>
XML偏好(XML Preferences)
設定特定的段落標籤以及特定的單詞標籤。如果沒有任何設定,將會把整個文件當作一團連續的文本來處理。
4.) 存成Concise Corpus格式
一旦載入檔案進入Concise後,會自動依據上述偏好設定轉換成Concise Corpus格式。這是經過gzip壓縮後的純文字檔,檔案大小會減少許多。所有的Concise功能都依靠這些預先轉換的語料來進行。也因為不用每次都進行過濾,進行重復的動作時,速度會比前一個版本快上不少。
儲存時選擇的是「資料夾」,將採用和載入語料檔案相同的檔名,並將副檔名更改為.ccorpus。
一旦儲存成Concise Corpus格式後,標籤或檔案偏好的更動將不再有任何作用。不過其他的檔案仍然可以更動。
現行您可以前往Concise的官方網站,下載最新版的Concise。
留言
張貼留言