跳到主要內容

發表文章

目前顯示的是 4月, 2012的文章

Processing + OpenCV 的特徵提取(blob detection)試驗

在「 【跟著我的閱讀腳步】數據可視化之美 」我曾經提到,Processing真的是視覺化的好幫手,語法簡單,範例與支援的函數庫多,再加上龐大的使用群,在google上隨便都能找到許多好玩的應用。現在,我要利用Processing來處理一些簡單的特徵提取(blob detection)工作。

Low-tech vs. high-tech

這天,老哥和貼米酥難得在談論科學。 貼米酥:老哥,這個要怎麼實現啊? 老哥:你到底要幹嘛? 貼米酥:我要做一個研究,要看看老人的動作和我的動作會差多少。 老哥:直接看不就得了! 貼米酥:不行啦!我們要有「科學」的根據。 老哥:什麼科學啊! 貼米酥:就是要有一些客觀指標的,所以我要錄影,然後看影片來比較。 老哥:喔!這樣啊! 貼米酥:但是我要怎麼看動作差多少啊? 老哥:你的意思是???

【跟著我的閱讀腳步】數據可視化之美

記得很久之前在課本上讀到過「專家不過是訓練有素的狗」,甚至國文課還要求要用這個概念來練習論說文。可讀完了《 數據可視化之美 》後,這才覺得那個「狗」不見得是消遣專家的用法,而是「狗」確實能看到不一樣的東西,這也是我對這本書的副標「通過專家的眼光洞察數據」的見解。那麼,專家的眼睛裡面到底看到了什麼?

毛毛蟲

《呂氏春秋》〈察今〉篇中有這麼一句,「審堂下之陰,而知日月之行,陰陽之變;見瓶水之冰,而知天下之寒,魚鱉之藏也」。見到了毛毛蟲,也該知道春天是真的到了。

松雪樓的暮暮朝朝

繼續著前面的「 合歡東峰小旅行 」,現在來看看晚上住宿的松雪樓。能夠住到松雪樓真是我們的運氣!這裡原本不在預定的行程中,也沒有預約房間,只因為突發狀況臨時決定入住,還好還有房間。

Concise Tutorial: Collocation and Interactive Collocational Network 詞語搭配與互動的詞語搭配網絡

應用語料庫進行的研究中,提到搭配詞(collocate)與詞語搭配(collocation)的文章裡頭,十篇中有九篇引用John Sinclair那本 Corpus, Concordance, Collocation (上海外語出教育出版社出了中文封面的英文版,售價比Amazon便宜多了) 。可能說得誇張了點,但這也表示Sinclair在這個領域的重要地位。只可惜他已經在2007年因為癌症而去世了。英國《衛報》(The Guardian)刊載John Sinclair的訃文時,就以這樣的標題 Brilliant language scholar and deviser of the 'idiom principle' (傑出的語言學者和「慣用語原則」的創造人) 來描述他,也將那本 Corpus, Concordance, Collocation 奉為語料庫語言學者的聖經。詞語搭配(collocation)正是書中的重點,也是這篇Tutorial即將介紹的主題。

合歡東峰小旅行

最近的影像生活有點不夠影像,前幾篇都是和Concise有關的技術性文章,當中甚至還夾雜一篇「勝過一張圖片的千言萬語」,真的是進入了一個完全對立的領域當中。現在,稍微回歸正題,來些真正的「影像」生活。這個故事得要稍微回顧到前一陣子到合歡山的小旅行了。 話說,不知道哪來的想法,參加完堂妹的訂婚宴之後,我們進行了一場橫貫台灣的支線公路旅行。從雲林出發,走過台14甲,踏上一小段的中橫,再從台7甲回到另一邊的平地。這趟路,行經異國情調的清境,走過公路最高點武嶺,在合歡群峰中起伏,穿越佈滿青菜水果的梨山,還下到武陵對櫻花結尾朝聖。整路的風景讓人無話可說,超出了我所掌握的言語。唯一的缺點是要忍受崎嶇顛簸的山路。連我這個負責開車的都覺得有點暈了,乘客應該更慘吧!

Convert MI score to MI(k): Setting the cut-off threshold of collocation

Mutual Information or MI score is widely used as the statistical measure of collocation in linguistic studies.  The number of bits of "shared information" between two words can be calculated by observed co-occurrence ( O ) and expected co-occurrence ( E ). MI = log 2 (O/E) The MI score , then, is implemented as cut-off threshold for collocate selection.  I n practical applications, however, MI was found to have a tendency to assign inflated scores to low-frequency word pair with E << 1 ,  especially for data from large corpora.  Thus, even a single concurrence of two word types might result in a fairly high association score (see Evert's Extended manuscript of orpora and collocations ).  Multiplication with O is used to increase the influence of observed concurrence frequency compared to the expected, result in the formula log 2 (O k /E) with k >= 1  (the well known MI k family).