Concise 0.2.1a最重要的新特色就是文字資料的視覺化。這篇Tutorial將重點擺在詞頻(Word Frequency)與詞頻的視覺應用,重點在兩個元件上,Word Lister和Word Clouder。前者用來產生詞頻表,後面的比較好玩,可以把文字變成一朵朵的雲。搭配StopWorder的使用,這兩項功能可以顯示出文本的特性。
1.) 產生詞頻表
產生詞頻表的方式非常的簡單,只要幾個動作就行:
- 載入語料檔(請看開始Concise的第一步);
- 切換到Word Lister;
- 按下上方寫著「Go」的放大鏡。
經過一段時間後(這得看你的語料有多大),詞頻表就完成了。Word Lister中提供簡單的排序功能,可以針對頻率或單詞進行排序。但你可以另存這個詞頻表,將它匯出成Excel檔案,再用Excel中提供的各項功能針對這個表格進行分析。只要在選單上使用「File -> Save Output As…」,或是在表格上按下「右鍵 -> Save Output As...」。
2.) Word Clouder
單純的詞頻表能夠表達的訊息並不明顯,也不好玩。Concise為了更清楚顯示文本的特性,也為了增加趣味性,在這個版本中增加了Word Clouder,將詞頻表轉換成為文字雲(Word Cloud)。
按下工具列右方的「齒輪 -> Word Clouder」,或使用選單上的「View -> Word Clouder」開啟Word Clouder。
如果你已經做過詞頻表的話,開啟Word Clouder時應該會自動產生。否則,畫面上將顯示大大的NO DATA,提醒你尚未產生任何的詞頻表。只要像操作Word Lister那樣,按下上方寫著「Go」的放大鏡就行了。
Word Clouder產生資料的方式和詞頻表相同,兩方的資料理論上也是同步的。不同的是,Word Clouder增加了右方的文字雲選項,讓你可以藉此產生特定的文字雲型態。
- Number of Words: 顯示在文字雲上的最大字數
- Max Font Size: 最大的字體大小
- Min Font Size: 最小的字體大小
- Boost: 推進*
- Boost Factor: 推進係數*
- Angles: 單詞的旋轉角度
- X Axis Variation: X軸的延展度**
- Y Axis Variation: Y軸的延展度**
* 推進和推進系數兩個數值的搭配用來凸顯字體大小的差異。
** X和Y的比例會影響文字雲的長寬比。
Re-position: 僅重新排列位置,而忽略上述選項的變更。
Re-Layout: 重新計算上述所有的選項,並且重新排列。
Colors: 顏色設定
這個應該不用介紹了吧!!!!!
在一篇Concise Preview當中,曾經說單詞的頻率和顏色沒有關聯,在這個版本已經修正囉!不同的頻率會依據序列摘取顏色設定中的色彩。頻率較高的會使用較上方的顏色,頻率低的就會用下方的。
Fonts: 字體設定
這個也不用介紹了吧!和顏色設定相同,字體也會依據頻率的排序來進行對照。
多玩個幾次,就可以掌握畫面到底會怎麼變化了。如果你覺得看起來還不錯,可以將文字雲存成圖片,只要在選單上使用「File -> Save Output As…」,或是在表格上按下「右鍵 -> Save Output As...」就行。
StopWorder的作用在於顯示停用詞(Stop Words)。在Concise的環境中,只要StopWorder中含有停用詞,過濾停用詞的功能就會自動開啟。
在中文裡面,「的」「是」「一」「在」「有」「個」「我」「不」「了」「他」「也」「就」「人」「都」「說」「而」等等,都是經常出現的詞(可參考中研院平衡語料庫的詞頻統計)。這些詞幾乎出現在所有的文本當中,而且出現的頻率非常地高,使得文本沒辦法有效地凸顯其特性。這個時候,可以使用StopWorder將這些詞設成停用的狀態。
StopWorder可以從兩個地方開啓,一個是工具列右上角的「齒輪 -> StopWorder」,另一個方法則是從選單「View -> Tools -> StopWorder」。之後,StopWorder應該會在畫面右方開啟。可以運用上方的Add Stop文字欄可以輸入停用詞,或是按下右方的小齒輪,從文字檔載入給定的停用詞(一行一個詞)。
但是要怎麼決定停用詞,這是個相當複雜的情況,常常依據你的需求而改變。有的時候,研究所要看的就是出現頻率極高的那幾個字,有時候又想看去掉這些字之後的狀況。因為這個原因,Concise沒有辦法提供固定的停用詞單,而讓使用者自行決定。不過,我們倒是有個好玩又有效的方法來決定停用詞。
日本三一一大地震剛滿一週年,可以拿去年三月份收集到的網路新聞資料來檢查。首先,就如同上面幾個步驟,載入去年三月份的語料,接著產生文字雲。
這個時候已經可以看到一些明顯該停用的詞,像是「的」、「是」、「在」等等。這時候可以加上停用詞,再按工具列上的放大鏡「Go」,再跑一次文字雲。來回個幾次之後,應該就能得到一個還不錯的停用詞單。
在這個例子裡,我總共用了59個停用詞,與日本三一一地震相關的高頻率詞彙就出現了(請比較這張圖和上面那張)。可以看到「日本」、「台灣」、「地震」、「海嘯」、「輻射」、「核電廠」等等都冒了出來。這個事件也正是去年三月最熱門的新聞。
我想,這個部分很有趣,你可以把任何你想得到的東西丟進去,看看跑出來會是什麼。有人用來顯示他的論文究竟寫了什麼,有人用來表現他的想法,有的人用來...。我不知道你打算用在哪裡,但是歡迎你和大家分享。
留言
張貼留言