CocoaCKIPClient 中研院斷詞系統Mac客戶端程式

自然語言處理系統最基本需要讓電腦能夠分辨文本中字詞的意義，才能夠更進一步發展出自然語言處理系統的相關演算法。其中斷詞處理便是一個重要的前置技術，而中研院的斷詞系統便是一個處理中文斷詞的系統。現階段，中研院的斷詞系統客戶端能找到的有Java、PHP、Ruby、和C#的，但卻沒找到Objective-C的應用，只好自己包一個簡易的API來用。現在，我把結果放在CocoaCKIPClient的專案裡面。

中研院的斷詞系統用的是TCP socket將資料由客戶端傳一個特定的XML到伺服器，並由伺服器傳回XML結果。CocoaAsyncSocket是個處理socket連線的API，CocoaCKIPClient用了這個API來處理這些TCP socket的連線。CocoaAsyncSocket需要Security.framework，要記得在Xcode專案裡頭加進去。

另一個問題，就是要去產生要送出的XML，並且處理中研院斷詞系統伺服器傳回來的XML。中研院的斷詞系統可以接受Big5或UTF-16編碼的XML，但是傳回的XML卻是Big5編碼的。無論是哪一種編碼，和NSString預設用的UTF-8都不一樣，需要進行轉換。希望以後中研院那邊可以更新編碼，至少要傳回的XML要是unicode編碼的吧！

上述兩項工作就是各式CKIP客戶端程式所要做的工作，我的CocoaCKIPClient只不過是用Objective-C將上述兩個工作給包起來而已。

使用方法

[CKIP *ckip = [CKIP alloc] initWithDelegate:self username:@"username" password:@"password"];
[ckip setRawText:@"這行是要被斷詞的資料"];
[ckip performCKIP];

資料回傳後，可以用delegate方法 ckip:didReceiveProcessStatus:code: 先檢查回傳資料是否有問題。

code=0 表示成功，可以開始處理斷詞的結果；
code=1 表示伺服器內部發生錯誤，可能是由不預期的字元或是過於複雜的句子結構所造成；
code=2 表示接收到的XML格式有錯誤；
code=3 表示帳號或密碼錯誤。

資料的回傳用的是delegate方法 ckipDidFinish:
只輸出分詞：

NSMutableArray *terms = [NSMutableArray new];
for (NSDictionary *t in [ckip terms]) {
    [terms addObject:[NSString stringWithFormat:@"%@\t%@", [t objectForKey:@"term"], [t objectForKey:@"tag"]]];
}
[textView setString:[terms componentsJoinedByString:@"\n"]];

輸出分詞後的句子：

[textView setString:[[ckip sentences] componentsJoinedByString:@"\n"]];

其餘的應用細節，請看CocoaCKIPClient的範例程式。當然，你也可以直接下載這個專案來試用。

注意：中研院的伺服器每天早上六點進行維護，每次大概約半個鐘頭，這段時間可能無法連線。

影。像。生。活

搜尋此網誌

CocoaCKIPClient 中研院斷詞系統Mac客戶端程式

標籤

留言

張貼留言

熱門文章

差不多食譜：萬聖節的蛋白霜幽靈們 Halloween Meringue Ghosts

差不多食譜：蜂蜜烤南瓜 Roasted Pumpkin with Honey

金門。毋忘在莒勒石 “Wu Wang Zai Jyu” Inscription