跳到主要內容

CocoaCKIPClient 中研院斷詞系統Mac客戶端程式


自然語言處理系統最基本需要讓電腦能夠分辨文本中字詞的意義,才能夠更進一步發展出自然語言處理系統的相關演算法。其中斷詞處理便是一個重要的前置技術,而中研院的斷詞系統便是一個處理中文斷詞的系統。現階段,中研院的斷詞系統客戶端能找到的有JavaPHPRuby、和C#的,但卻沒找到Objective-C的應用,只好自己包一個簡易的API來用。現在,我把結果放在CocoaCKIPClient的專案裡面。

中研院的斷詞系統用的是TCP socket將資料由客戶端傳一個特定的XML到伺服器,並由伺服器傳回XML結果。CocoaAsyncSocket是個處理socket連線的API,CocoaCKIPClient用了這個API來處理這些TCP socket的連線。CocoaAsyncSocket需要Security.framework,要記得在Xcode專案裡頭加進去。

另一個問題,就是要去產生要送出的XML,並且處理中研院斷詞系統伺服器傳回來的XML。中研院的斷詞系統可以接受Big5或UTF-16編碼的XML,但是傳回的XML卻是Big5編碼的。無論是哪一種編碼,和NSString預設用的UTF-8都不一樣,需要進行轉換。希望以後中研院那邊可以更新編碼,至少要傳回的XML要是unicode編碼的吧!

上述兩項工作就是各式CKIP客戶端程式所要做的工作,我的CocoaCKIPClient只不過是用Objective-C將上述兩個工作給包起來而已。

使用方法
[CKIP *ckip = [CKIP alloc] initWithDelegate:self username:@"username" password:@"password"];
[ckip setRawText:@"這行是要被斷詞的資料"];
[ckip performCKIP];
資料回傳後,可以用delegate方法 ckip:didReceiveProcessStatus:code: 先檢查回傳資料是否有問題。
  • code=0 表示成功,可以開始處理斷詞的結果;
  • code=1 表示伺服器內部發生錯誤,可能是由不預期的字元或是過於複雜的句子結構所造成; 
  • code=2 表示接收到的XML格式有錯誤; 
  • code=3 表示帳號或密碼錯誤。

資料的回傳用的是delegate方法 ckipDidFinish:
只輸出分詞:
NSMutableArray *terms = [NSMutableArray new];
for (NSDictionary *t in [ckip terms]) {
    [terms addObject:[NSString stringWithFormat:@"%@\t%@", [t objectForKey:@"term"], [t objectForKey:@"tag"]]];
}
[textView setString:[terms componentsJoinedByString:@"\n"]];


輸出分詞後的句子:
[textView setString:[[ckip sentences] componentsJoinedByString:@"\n"]];


其餘的應用細節,請看CocoaCKIPClient的範例程式。當然,你也可以直接下載這個專案來試用。

注意:中研院的伺服器每天早上六點進行維護,每次大概約半個鐘頭,這段時間可能無法連線。

留言

熱門文章

差不多食譜:牡丹魚片 Fish Slices Moutan

往餐桌端上這一道「牡丹魚片」,需要解釋的大概只有「這真的是我做的!」它是道不折不扣的大菜,能把一塊平凡無奇的魚片,展開變成一朵朵牡丹花。做這道菜最需要的不是技巧,是耐心;當然還有一點美學的天份!

【跟著我的閱讀腳步】山居歲月:普羅旺斯的一年 A Year in Provence

就記得我看過Peter Mayle(彼得.梅爾)的作品,而且對他在第一章大談用塑膠湯匙吃高級魚子醬的說法印象深刻,但怎麼樣就是想不起來到底是哪一本書。好在有些現代科技的幫忙,找出了那本令我印象深刻的《 關於品味 》。只不過,在《 關於品味 》之前,Peter Mayle還有另一部更加出名的作品——《 山居歲月:普羅旺斯的一年 》( A Year in Provence )。 穿襪子這件事已成遙遠的記憶,手錶躺在抽屜裡也已很久了。我發覺,憑著庭院中樹影的位置,我可以大致估算出時間;至於今日何日,我就不大記得了。反正也不重要。我快要化為安份守己,無欲無求的院中蔬菜了;與現實世界的偶然接觸,僅限於在電話中與遠方辦公室裡的人交談。他們總是欣羨渴慕地問起天氣如何,答案則讓他們鬱鬱不樂。他們寬慰自己的方法是警告我會得皮膚癌,又說太陽曬多了頭腦會遲鈍。我並不與他們爭執;他們也許說的沒錯。只不過,變笨也好,增添皺紋也好,可能得癌症也罷,我從來沒像現在這麼快活過。 ---《 山居歲月 》, pp. 173-174

「抓烏龜」的麻將遊戲

今天要和大家分享一個打發時間的簡單遊戲——抓烏龜。這可是我老爸老媽特別從美國學回來的,是個名符其實的「海歸」遊戲,據說是在下雪時無聊打發時間用的。