2012年3月21日 星期三

Concise Tutorial: 開始Concise的第一步


Concise是一套文字探索軟體,使用簡單的文字分析功能發掘文本間的關聯模式。Concise很容易上手,這邊不過是提供大家一點進入的要訣,以便快速地開始使用Concise。如果我有力氣的話,後續的Tutorial也會接著寫出來。

1.) 載入語料(資料)

在語言學、計算語言學、以及部份的數位人文學、部分的圖書資訊學當中,只要研究範疇涉及語言,通常都把資料稱作語料(corpus)。這些語料往往是一堆記錄的文字,像是演講稿、對話、訪談的逐字稿等等,或是本來就是文字記錄的資料,像是報紙、圖書等等,當然也可以是某些抽象物體的文字描述。在集結語料之後,也經常像資料庫那樣把這些語料的集合稱作語料庫,英文同樣是corpus,或是複數形式的corpora。也因為處理的都是文字,這種分析的方法也常被稱作文本分析(text analysis)。


LoadCorpus

Concise提供兩種方式來載入語料,Load Corpus Files和Load Raw Document(s)。兩者的區別在於,Corpus是已經分詞處理過的語料,而Raw Document則是未經分詞處理的檔案。下面將用一個簡單的例子來說明兩者的差別。

美牛即將進口,國人請自行注意。 
美 牛 即將 進口 , 國人 請 自行 注意 。

如果這兩個句子分別是準備載入的語料檔案,那麼上面的必須用未分詞的Raw Document方式來載入,目的是將完整的中文拆成一個個詞。下面的這句已經是分過詞的句子,並用空白字元隔開,因此兩種方式都可以。不過,使用Corpus File的方式比較快,畢竟少了一個分詞的動作。至於原本就是用空白字元當作單詞邊界的語言,像是英文、法文等等,好像沒這個問題。

一旦進行載入的動作,Concise將進行檔案的轉換,依照偏好設定(參見第三部分)過濾語料後,將其轉換成Concise corpus的格式。

2.) Corpus Manager 語料總管

載入語料之後,Concise會開啟語料總管。你可以在此檢視載入語料的初步狀態,如語料所含的字數和段落數,當然還有檔案名稱與路徑。

CorpusManager

請注意,標點符號仍舊被當作字,會被納入這邊的字數計算。

段落數也不是精確的。載入的檔案若是純文字檔,則會將換行符號當作段落符號;若是Microsoft Word檔案,則依據Word檔案定義的段落;如果是XML,則會依據Preferences偏好設定中的XML設定來決定段落的定義。

在Corpus Manager中可以進行語料檔的管理,新增、刪除或者是將其存成Concise Corpus檔案。強烈建議各位在確定語料需保留的資料後,將其存成Concise Corpus格式。開啟Concise Corpus不再需要檔案轉換,能夠加快載入的動作。

3.) Preferences 偏好設定

現行Concise 0.2.1a的偏好設定中,有三個部份決定了語料檔案如何被讀進來。

檔案偏好(File Preferences)

Default File Encoding 預設檔案編碼

在現行的Mac系統中,大部份的純文字檔案應該是採用UTF-8來進行的;在Windows上則不太一定。如果你也是繁體中文的使用者,若是UTF-8不行,通常用Big5或Big5-HKSCS就能解決。

FilePreferences

Chinese Segmentation Custom Dictionaries 分詞用的辭典

Concise中已經內建教育部所提供的詞彙(六萬多個詞目)。如果你覺得這些不夠,或是和你專門領域的特殊字彙差太多,你也可以新增自己的辭典。

注意:辭典檔案是個UTF-8編碼的純文字檔,副檔名是.dic。


標籤偏好(Tag Preferences)

標籤偏好決定了文本中需要保留的內容。注意:更動標籤設定將重新轉換語料檔案。

TagPreferences

Non-embedded Tag 非內嵌的標籤

常見的標籤標注方式,用<和>包圍的標籤。有特殊需求的,請參考SGML中的定義。


Embedded Tag 內嵌標籤

內嵌標籤的使用常見於各大語料庫的檔案中,例如

看_V 山_N ,_P 看_V 水_N 。_P

其中,「_」即是內嵌標籤,分隔前面的單詞和後面屬性(詞性)。

看\V 山\N ,\P 看\V 水\N 。\P

這句用的則是另一種常見的內嵌標籤「\」。


Skip Tags 忽略標籤

忽略整個標籤包覆範圍的文字,只需要輸入標籤內容即可。例如TEI的格式中,<teiHeader>和</teiHeader>涵蓋的通常是語料檔的屬性,在分析時可以忽略這一部份,此時就可以使用忽略標籤的定義來過濾這個部分。只要輸入標籤名稱,也就是teiHeader即可。同樣的,如果不需要標題<head>和</head>所夾住的部份,也可以用此來過濾。注意,忽略標籤的設定是有大小寫區分的。


XML偏好(XML Preferences)

設定特定的段落標籤以及特定的單詞標籤。如果沒有任何設定,將會把整個文件當作一團連續的文本來處理。

XMLPreferences


4.) 存成Concise Corpus格式

一旦載入檔案進入Concise後,會自動依據上述偏好設定轉換成Concise Corpus格式。這是經過gzip壓縮後的純文字檔,檔案大小會減少許多。所有的Concise功能都依靠這些預先轉換的語料來進行。也因為不用每次都進行過濾,進行重復的動作時,速度會比前一個版本快上不少。

SaveCorpusFilesTo

儲存時選擇的是「資料夾」,將採用和載入語料檔案相同的檔名,並將副檔名更改為.ccorpus。

一旦儲存成Concise Corpus格式後,標籤或檔案偏好的更動將不再有任何作用。不過其他的檔案仍然可以更動。


現行您可以前往Concise的官方網站,下載最新版的Concise

2 則留言 :

  1. 您好,
    看完您詳細的教學後,在使用Concise上仍有問題想請教.
    在自建的詞典部分,將自建的字典檔讀入後,產生新的Word list卻無變化.
    情況如下:原本讀入的詞頻表產生 “凡” 25 "那" 25 "比"25 ,而我在自建詞典中將"凡那比“ 輸入,但在讀入字典檔後卻沒產生"凡那比",請問該如何解決?

    感謝您的分享與閱讀
    阿展

    回覆刪除
    回覆
    1. 阿展您好,

      必須要先載入字典檔案,然後再輸入你的文本檔案(語料庫檔案)。

      Concise的最新版本應該還是有這個問題,好像出在要幫每個詞去建索引那邊。一旦詞典變了,分詞的原則也變了,等於要把舊的紀錄全部刪掉重建。

      希望對您有幫助!

      刪除

Related Posts Plugin for WordPress, Blogger...