這些天一直在弄Concise中一項相當重要,卻又相當麻煩的功能——中文分詞。 在西方主導的語言學當中,單詞是語言的基本單位。英文、法文、德文等西方語言中的單詞多能以空格作為邊界來區分;但是熟悉中文的使用者都知道,在中文的書寫系統中,並不存在這種邊界。每個中文字、每個漢字都可能是一個單詞,甚至同樣的排列,依據不同的語氣來閱讀,會有不同的意思。從前在國中時,最常被拿來開玩笑的就是徐志摩的那句「數大便是美」,究竟是「數 | 大 | 便是 | 美」?或是「數 | 大便 | 是 | 美」?兩者的意思差了十萬八千里。