最近需要做一個 Common File Reader 的 kettle 插件,希望這個插件可以讀取例如 PDF, WORD, PPT, WPS 等常見格式文件的內容,今天已經實現了第一步,讀取 PDF 的功能。
該插件是一個輸入步驟, 它可以將讀取到的 PDF 文件的每一頁作為一行輸入記錄。下面是一個比較典型的應用例子:
[@more@]
這是一個簡單的文件檢索流程,可以用于小批量的文件檢索,檢索的輸入,輸出和規則都可以自定義,在這個例子里,我們可以這樣定義:
輸入1 是一個目錄,通過一個表達式(如 .*.pdf$)來指定只讀取一個目錄下的所有擴展名是pdf 的文件。
輸入2 是一個 excel 文件,只有一列,每行可以指定一個關鍵字,如下面的格式指定了2個關鍵字。
keyword
面積
股權轉讓
在 javascripte步驟 里可以指定簡單的規則,返回的上下文的長度。
最后的 excel 輸出保存了檢索的結果,如下
可以看到檢索結果包括,關鍵字,上下文,文件名,結果所在文檔頁數等。
對于大規模的文件檢索,我們可以把 kettle 和 lucene 結合起來,先給文檔建立索引,再在 javascript 里直接使用lucene 的api來進行檢索,這樣效率會有大幅提高。
不管檢索如何實現,所用了 kettle 的流程后,再結合系統的作業調度,整個檢索流程就可以每天自動運行了。如果再結合上文檔的來源的自動獲取,如從ftp 獲取,或使用爬蟲從網站抓取,整個一套的文檔的獲取,建索引,檢索,重新發布的流程就可以建立起來了。
下載地址:http://www.xgndata.com/download.htm
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。