跳到主要內容

Concise 0.3.6 preview!

新的 Concise 0.3.6 即將釋出,現在先放個預覽的版本出來。新版本有幾項特點,將會在底下敘述。在觀看的同時,也別猶豫去下載新的版本回來玩玩。
A Preview version of Concise 0.3.6 is out.  There are several highlights described below.  Don't hesitate to give it a try.

The Workspace 工作空間


「工作空間」(workspace)的概念從 Concise 0.3.0 開始推出,作為檔案管理的新模式。工作空間的推出讓檔案共享成為可能,因為所有需要的檔案都存在裡面(將來應該會把原始檔案一併納入)。除此之外,新的 Concise 也能讓您同時在多個工作空間中進行文字處理(見下圖)。
As introduced in Concise 0.3.0, "Workspace" creates a new way of (corpus) file management.  This make workspace-sharing possible.  Moreover, you may even work on multiple workspaces at the same time (see below).  



體驗散佈圖的魅力 Experience Dispersion Plots: Concordance Plotter & Document Viewer


Concise 0.3.6 改變了散佈圖的顯示方式。在 Concordance Plotter 當中,散佈圖顯示關鍵詞在每個文件中出現的位置,告訴您那些關鍵詞會在文件的哪個部分被提到,在哪些部分特別集中,而哪些部分幾乎不曾提及。如果你需要比較詳細的資訊,可以打開 Document Viewer(文件顯示器),右方同樣會顯示關鍵詞的散佈圖,在內文也會用色塊標出。
Concise 0.3.6 change the way to display dispersion plot.  Dispersion plot at Concordance Plotter shows where the search word occurs in the document which the current entry belongs to.  That way you can see where mention is made most of your search word in each document.  If you are interested in detailed context, Document Viewer also provides dispersion plot (right hand side).  


詞性標注 Part-of-speech tagging


Concise 0.3.6 可以進行自動的詞性標注,這得感謝 Stanford Log-linear Part-Of-Speech Tagger。目前預設的模型是 chinese-distsim.tagger,你可以從 Stanford 下載其他的模型。
Auto part-of-speech (詞性)  tagging is enabled in Concise 0.3.6.  Thanks to Stanford Log-linear Part-Of-Speech Tagger.  The default model is "chinese-distsim.tagger".  You can download other models directly from Stanford.


有了這個功能後,現在的 Concise 便擁有處理原始(未分詞)中文文件的能力。整個輸入的過程,可以用三個階段來說明:

  • 用MMSeg進行分詞(可以指定自己的詞典)
  • 詞性標注
  • 對文件進行索引
Concise now has the capacity to handle raw (un-tokenized) Chinese documents.  This is a three-stage procedure:
  • Word Segmentation (tokenize) with MMSeg (specify custom dictionaries)
  • Part-Of-Speech Tagging
  • Indexing

類碼化(實驗性) Lemmatisation: an experimental feature



類碼還處於試驗階段,沒有辦法保證結果。
Lemma is in experimental stage.  The result may be incorrect.

類碼指的是一套詞彙的名義形式。舉例來說,在英文裡頭 run, runs, ran, running 都是同樣語義的詞形,而 run 是這些詞形的類碼。但是在中文裡頭,我覺得還是把類碼當作詞彙類別的群組會比較適當。
A lemma (plural lemmas or lemmata) is the canonical form of a set of words.  In English, for example, run, runs, ran and running are forms of the same lexeme, with run as the lemma.  However, in Chinese, I think lemma is better to be understood as the category or group of a set words.


來試試吧!Give it a try!

留言

熱門文章

差不多食譜:牡丹魚片 Fish Slices Moutan

往餐桌端上這一道「牡丹魚片」,需要解釋的大概只有「這真的是我做的!」它是道不折不扣的大菜,能把一塊平凡無奇的魚片,展開變成一朵朵牡丹花。做這道菜最需要的不是技巧,是耐心;當然還有一點美學的天份!

【跟著我的閱讀腳步】山居歲月:普羅旺斯的一年 A Year in Provence

就記得我看過Peter Mayle(彼得.梅爾)的作品,而且對他在第一章大談用塑膠湯匙吃高級魚子醬的說法印象深刻,但怎麼樣就是想不起來到底是哪一本書。好在有些現代科技的幫忙,找出了那本令我印象深刻的《 關於品味 》。只不過,在《 關於品味 》之前,Peter Mayle還有另一部更加出名的作品——《 山居歲月:普羅旺斯的一年 》( A Year in Provence )。 穿襪子這件事已成遙遠的記憶,手錶躺在抽屜裡也已很久了。我發覺,憑著庭院中樹影的位置,我可以大致估算出時間;至於今日何日,我就不大記得了。反正也不重要。我快要化為安份守己,無欲無求的院中蔬菜了;與現實世界的偶然接觸,僅限於在電話中與遠方辦公室裡的人交談。他們總是欣羨渴慕地問起天氣如何,答案則讓他們鬱鬱不樂。他們寬慰自己的方法是警告我會得皮膚癌,又說太陽曬多了頭腦會遲鈍。我並不與他們爭執;他們也許說的沒錯。只不過,變笨也好,增添皺紋也好,可能得癌症也罷,我從來沒像現在這麼快活過。 ---《 山居歲月 》, pp. 173-174

「抓烏龜」的麻將遊戲

今天要和大家分享一個打發時間的簡單遊戲——抓烏龜。這可是我老爸老媽特別從美國學回來的,是個名符其實的「海歸」遊戲,據說是在下雪時無聊打發時間用的。