跳到主要內容

Apache Tika 抽取文本內容的好工具


Apache Tika,對於想要進行內容分析的人來說,絕對是個必要的工具。它是個抽取文字內容的工具箱,集結了POI、Pdfbox等多種函式庫以提取多種檔案內容。Apache Tika最大的優點,在於提供單一的提取界面,只要幾行,就能自動偵測並傳回文字。

還沒發現Apache Tika之前,我得要自己去判斷檔案類型,然後分別撰寫不同的程式碼,才有辦法讀取這些不同的檔案內容。而光是讀取Microsoft的Office文件就讓人傷透腦筋,因為.doc和.docx幾乎是完全不同的格式規範。這幾天試了Apache Tika後,果真覺得方便多了,可以把之前的程式碼都丟了。

public static void main(String[] args) throws Exception {
File file = new File("your/file");
String content = new Tika().parseToString(file);
System.out.println(content);
}

抽取檔案內容就是這麼簡單。然而,使用字串(String)在處理大檔案上有很大的缺點,因為它占用了太多的記憶體。Apache Tika提供了Reader的方式,傳回檔案內容的一個個字元,可以用BufferedReader接過來,一次處理一小段緩存。


public static void main(String[] args) throws Exception {
File file = new File("your/file");
Reader reader = new Tika().parse(file);
BufferedReader br = new BufferedReader(reader);
try {
String line;
while ( (line = br.readLine()) != null) {
System.out.println(line);
}
} finally {
br.close();
}
}

以上是Apache Tika最簡便的使用方式,但它也提供進階的方式,讓你能夠進一步篩選資料。一個方法是應用不同的Parser來處理特定文件,另一個方式則是選擇特定的ContentHandler來處理特定內容。當然,兩種方法都可以應用和延伸。

public static void main(String[] args) throws Exception {
InputStream input = new FileInputStream("your/html/file");
ContentHandler handler = new BodyContentHandler();
Parser parser = new AutoDetectParser();
parser.parse(input, handler, new Metadata(), new ParseContext());
String bodyContent = handler.toString();
System.out.println(bodyContent);
input.close();
}

最後,再來看一個自動抽取網頁主要內文的例子,這大概是進行網路內容研究最重要的部分。在這個例子裡面,你還必須囊括HttpClient的函式庫(包含在Apache HttpComponents專案裡頭),用來擷取網頁的主要內容。

public static void main(String[] args) throws Exception {
HttpGet httpget = new HttpGet("http://kuanming-style.blogspot.tw/");
HttpEntity entity = null;
HttpClient client = new DefaultHttpClient();
HttpResponse response = client.execute(httpget);
entity = response.getEntity();
if (entity != null) {
InputStream instream = entity.getContent();
BodyContentHandler handler = new BodyContentHandler();
BoilerpipeContentHandler boilerpipHandler =
new BoilerpipeContentHandler(handler);
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse( instream, boilerpipHandler,
metadata, new ParseContext());
String content =
boilerpipHandler.toTextDocument().getContent();
System.out.println(content);
}
}

擷取網頁主要內容的函式庫來自boilerpipe,理論上在安裝Tika時也一併裝了。但是相關的API Javadocs,還是得回到boilerpipe的專案網頁。如果你覺得這個ContentHandler還不夠好,那麼你可能要寫一個自己的。

留言

熱門文章

差不多食譜:手工巧克力餅乾 Chocolate Cookies

又是手工餅乾,最近一連出了兩份餅乾食譜,這個「手工巧克力餅乾」已經是第三份了。會不會有更多呢?我可以告訴大家,這是肯定的。 要怪就怪這個陰鬱的冬季雨天,哪裡都不方便去,也懶得出去。餅乾櫃空在那邊已經很久了,雖然有時候會嘴饞,但也沒有迫切去補貨的必要。反正經常開伙,平常該有的材料都會有,自己弄個成分完全透明的零食,也是個不錯的選擇。再說,用烤箱進行烘焙時,房間會變得比較乾燥,也比較溫暖。在夏天是個折磨,但到了冬天,這種感覺還滿不錯的。 話不多說,開始進行這一道「手工巧克力餅乾」的準備工作。

差不多食譜:白糖粿 Beh Teung Guai 傳統小吃版的台式吉拿棒 Taiwanese Churros

只要有個油炸鍋,將糯米糰炸到表面金黃,裹上白糖,居家版「白糖粿」意外的簡單。 說到這「白糖粿」,就算在台灣土生土長,還是有很多人沒聽過這個點心。要不是它在網路上掀起熱門討論,恐怕到現在也只有老饕知道去哪裡解饞。但現在「差不多食譜」把它搬到回家,讓你在家裡也能自己做來吃。 至於怎麼跟外國朋友介紹,其實困擾了我一陣子。腦子裡根本沒有對應的東西,它很像年糕、麻糬、湯圓,實際上材料也一樣,但做法上的差異卻讓白糖粿又不同於上述那些食物。最後,看到西方的吉拿棒(churro),在做法和吃法上都很類似白糖粿,兩者都是弄成長條油炸,然後裹上糖粉食用。這樣,姑且就把它稱做台式的吉拿棒好了,英文除了音譯的Beh Teung Guai以外,就直翻成 Taiwanese Churros。不同於台北東區賣吉拿棒的 Street Curros,這可是道道地地 Taiwan Street Curros,而且好像只有南部限定喔!說太多了,直接看做法。

Excel運用VBA抓取Yahoo Finance APIs股票資料

Yahoo Finance APIs提供了多樣的應用程式接口,讓使用者能夠獲取Yahoo Finance的資料。這篇文章要介紹的,是多數人會用到的股票資料。實作的例子來自於 http://www.gummy-stuff.org/Yahoo-data.htm ,我只是將內容稍微解釋,並且換成台灣股票的例子。