Concise Tutorial: 開始Concise的第一步

Concise是一套文字探索軟體，使用簡單的文字分析功能發掘文本間的關聯模式。Concise很容易上手，這邊不過是提供大家一點進入的要訣，以便快速地開始使用Concise。如果我有力氣的話，後續的Tutorial也會接著寫出來。

1.) 載入語料（資料）

在語言學、計算語言學、以及部份的數位人文學、部分的圖書資訊學當中，只要研究範疇涉及語言，通常都把資料稱作語料（corpus）。這些語料往往是一堆記錄的文字，像是演講稿、對話、訪談的逐字稿等等，或是本來就是文字記錄的資料，像是報紙、圖書等等，當然也可以是某些抽象物體的文字描述。在集結語料之後，也經常像資料庫那樣把這些語料的集合稱作語料庫，英文同樣是corpus，或是複數形式的corpora。也因為處理的都是文字，這種分析的方法也常被稱作文本分析（text analysis）。

Concise提供兩種方式來載入語料，Load Corpus Files和Load Raw Document(s)。兩者的區別在於，Corpus是已經分詞處理過的語料，而Raw Document則是未經分詞處理的檔案。下面將用一個簡單的例子來說明兩者的差別。

美牛即將進口，國人請自行注意。

如果這兩個句子分別是準備載入的語料檔案，那麼上面的必須用未分詞的Raw Document方式來載入，目的是將完整的中文拆成一個個詞。下面的這句已經是分過詞的句子，並用空白字元隔開，因此兩種方式都可以。不過，使用Corpus File的方式比較快，畢竟少了一個分詞的動作。至於原本就是用空白字元當作單詞邊界的語言，像是英文、法文等等，好像沒這個問題。

一旦進行載入的動作，Concise將進行檔案的轉換，依照偏好設定（參見第三部分）過濾語料後，將其轉換成Concise corpus的格式。

2.) Corpus Manager 語料總管

載入語料之後，Concise會開啟語料總管。你可以在此檢視載入語料的初步狀態，如語料所含的字數和段落數，當然還有檔案名稱與路徑。

請注意，標點符號仍舊被當作字，會被納入這邊的字數計算。

段落數也不是精確的。載入的檔案若是純文字檔，則會將換行符號當作段落符號；若是Microsoft Word檔案，則依據Word檔案定義的段落；如果是XML，則會依據Preferences偏好設定中的XML設定來決定段落的定義。

在Corpus Manager中可以進行語料檔的管理，新增、刪除或者是將其存成Concise Corpus檔案。強烈建議各位在確定語料需保留的資料後，將其存成Concise Corpus格式。開啟Concise Corpus不再需要檔案轉換，能夠加快載入的動作。

3.) Preferences 偏好設定

現行Concise 0.2.1a的偏好設定中，有三個部份決定了語料檔案如何被讀進來。

檔案偏好（File Preferences）

Default File Encoding 預設檔案編碼：

在現行的Mac系統中，大部份的純文字檔案應該是採用UTF-8來進行的；在Windows上則不太一定。如果你也是繁體中文的使用者，若是UTF-8不行，通常用Big5或Big5-HKSCS就能解決。

Chinese Segmentation Custom Dictionaries 分詞用的辭典：

Concise中已經內建教育部所提供的詞彙（六萬多個詞目）。如果你覺得這些不夠，或是和你專門領域的特殊字彙差太多，你也可以新增自己的辭典。

注意：辭典檔案是個UTF-8編碼的純文字檔，副檔名是.dic。

標籤偏好（Tag Preferences）

標籤偏好決定了文本中需要保留的內容。注意：更動標籤設定將重新轉換語料檔案。

Non-embedded Tag 非內嵌的標籤：

常見的標籤標注方式，用<和>包圍的標籤。有特殊需求的，請參考SGML中的定義。

Embedded Tag 內嵌標籤：

內嵌標籤的使用常見於各大語料庫的檔案中，例如

看_V 山_N ，_P 看_V 水_N 。_P

其中，「_」即是內嵌標籤，分隔前面的單詞和後面屬性（詞性）。

看\V 山\N ，\P 看\V 水\N 。\P

這句用的則是另一種常見的內嵌標籤「\」。

Skip Tags 忽略標籤：

忽略整個標籤包覆範圍的文字，只需要輸入標籤內容即可。例如TEI的格式中，<teiHeader>和</teiHeader>涵蓋的通常是語料檔的屬性，在分析時可以忽略這一部份，此時就可以使用忽略標籤的定義來過濾這個部分。只要輸入標籤名稱，也就是teiHeader即可。同樣的，如果不需要標題<head>和</head>所夾住的部份，也可以用此來過濾。注意，忽略標籤的設定是有大小寫區分的。

XML偏好（XML Preferences）

設定特定的段落標籤以及特定的單詞標籤。如果沒有任何設定，將會把整個文件當作一團連續的文本來處理。

4.) 存成Concise Corpus格式

一旦載入檔案進入Concise後，會自動依據上述偏好設定轉換成Concise Corpus格式。這是經過gzip壓縮後的純文字檔，檔案大小會減少許多。所有的Concise功能都依靠這些預先轉換的語料來進行。也因為不用每次都進行過濾，進行重復的動作時，速度會比前一個版本快上不少。

儲存時選擇的是「資料夾」，將採用和載入語料檔案相同的檔名，並將副檔名更改為.ccorpus。

一旦儲存成Concise Corpus格式後，標籤或檔案偏好的更動將不再有任何作用。不過其他的檔案仍然可以更動。

現行您可以前往Concise的官方網站，下載最新版的Concise。

影。像。生。活

搜尋此網誌

Concise Tutorial: 開始Concise的第一步

標籤

留言

張貼留言

熱門文章

差不多食譜實驗：小烤箱烤長茄子？ Oven-roasted Long Aubergine?

差不多食譜：香煎南瓜片 Pan-fried Pumpkin

上車睡覺、下車尿尿