跳到主要內容

發表文章

目前顯示的是 3月, 2012的文章

Concise Tutorial: 脈絡化的關鍵字 Concordance(Keyword in Context)

今天早上釋出了 Concise 0.2.1b,修正了一些小小的問題,同時也為 Concise 的查詢增加了一個實用小功能——萬用字(wildcard)。在這篇Tutorial裡頭,我們就運用Concordancer來進行查詢的介紹,同時為關鍵詞進行脈絡化的工作。

Concise Tutorial: 玩文字 Word Lister, Word Clouder & StopWorder

Concise 0.2.1a 最重要的新特色就是文字資料的視覺化。這篇Tutorial將重點擺在詞頻(Word Frequency)與詞頻的視覺應用,重點在兩個元件上,Word Lister和Word Clouder。前者用來產生詞頻表,後面的比較好玩,可以把文字變成一朵朵的雲。搭配StopWorder的使用,這兩項功能可以顯示出文本的特性。

Google Books Ngram Viewer 勝過一張圖的千言萬語

/param> 大家都知道,一張圖勝過千言萬語。 但我們在哈佛時,卻在思考這道理是否真是如此? -- Erez Lieberman Aiden 「 從五百萬本書學到的事 」 「眼見為憑」可說是歷來的迷思,也因此一張圖片常勝過千言萬語。但假如提出超越千言萬語千萬倍的話,又會怎麼樣呢?說來你可能不信,不過現在你我都能輕易做到。這得感謝Google的驚人服務—— Ngram Viewer 。

Concise Tutorial: 開始Concise的第一步

Concise 是一套文字探索軟體,使用簡單的文字分析功能發掘文本間的關聯模式。 Concise 很容易上手,這邊不過是提供大家一點進入的要訣,以便快速地開始使用 Concise 。如果我有力氣的話,後續的Tutorial也會接著寫出來。 1.) 載入語料(資料) 在語言學、計算語言學、以及部份的數位人文學、部分的圖書資訊學當中,只要研究範疇涉及語言,通常都把資料稱作語料(corpus)。這些語料往往是一堆記錄的文字,像是演講稿、對話、訪談的逐字稿等等,或是本來就是文字記錄的資料,像是報紙、圖書等等,當然也可以是某些抽象物體的文字描述。在集結語料之後,也經常像資料庫那樣把這些語料的集合稱作語料庫,英文同樣是corpus,或是複數形式的corpora。也因為處理的都是文字,這種分析的方法也常被稱作文本分析(text analysis)。

Introducing Concise 0.2.1a

After months of hard word, SUStudio.org now introduces whole new Concise (version 0.2.1a) to the World.  New Concise inherits simplicity and intuition of previous Concise interface design, and provides two widgets of visualized text exploration -- Word Clouder and Collocational Networker (alpha).  These two widgets make text exploration much easier and, more importantly, much fun. 在幾個月的辛勞之後, SUStudio.org 終於得以向全世界介紹新的Concise(版本0.2.1a)。新的Concise延續前一個版本簡單、直覺式的介面,並加上兩項視覺化的文本探索功能——文字雲和詞語搭配網絡(alpha),除了讓文本的探索更佳簡單之外,也更加地有趣。 Current Concise (0.2.1a) have revised the core of text processing.  We fixed the large file issue (> 1GB) which failed in previous Concise, and enhanced the overall performance.  Concise now supports Mac OS X (10.5 or later).  It also supports full screen feature introduced in Mac OS X Lion (10.7).  However, there is no plan to publish Concise to Windows or Linux right now. 此外,Concise 0.2.1a大幅修改文本處理的核心,修正前一個版本無法處理大檔案(> 1GB)的問題,並讓...

【跟著我的閱讀腳步】NO LOGO:沒有空間.沒有選擇.沒有工作.沒有品牌

迴盪在公私領域中,徘徊於視覺與內心之間,遊蕩在形象與現實的邊緣,這就是LOGO。或者說,LOGO所創造的廣告效應。儘管Naomi Klein的《 NO LOGO 》不是新書,資本主義入侵你我的生活空間也不是新的概念,揭發LOGO的真相卻一直是個吸引人的題材。跨國企業竭盡全力打造品牌,卻想盡辦法擺脫產品,畢竟品牌才是價值的所在。「品牌化」與圖像化的過程強調什麼?忽略什麼?或急欲擺脫什麼?Naomi Klein的《 NO LOGO 》並非沒有LOGO,而是呈現意義不明的LOGO,不單是LOGO表面或廣告呈現的光鮮亮麗形象,並且是可以被反動、被顛覆的構成。

Concise 0.2a Preview: Word Cloud

我一直覺得優秀的資料視覺化讓凸顯重點,同時也更加有趣。讀了Jonathan Feinberg被收錄在 Beautiful Visualization: Looking at Data Through the Eyes of Experts   (簡體中文版本《 數據可視化之美:通過專家的眼光洞察數據 》) 裡的Wordle以後,這樣的感覺更加強烈。