溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

發布時間:2020-08-17 15:57:26 來源:ITPUB博客 閱讀:279 作者:PDI 欄目:編程語言

最近需要做一個 Common File Reader 的 kettle 插件,希望這個插件可以讀取例如 PDF, WORD, PPT, WPS 等常見格式文件的內容,今天已經實現了第一步,讀取 PDF 的功能。

該插件是一個輸入步驟, 它可以將讀取到的 PDF 文件的每一頁作為一行輸入記錄。下面是一個比較典型的應用例子:

[@more@]

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

這是一個簡單的文件檢索流程,可以用于小批量的文件檢索,檢索的輸入,輸出和規則都可以自定義,在這個例子里,我們可以這樣定義:

輸入1 是一個目錄,通過一個表達式(如 .*.pdf$)來指定只讀取一個目錄下的所有擴展名是pdf 的文件。

輸入2 是一個 excel 文件,只有一列,每行可以指定一個關鍵字,如下面的格式指定了2個關鍵字。

keyword

面積

股權轉讓

在 javascripte步驟 里可以指定簡單的規則,返回的上下文的長度。

最后的 excel 輸出保存了檢索的結果,如下

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

可以看到檢索結果包括,關鍵字,上下文,文件名,結果所在文檔頁數等。

對于大規模的文件檢索,我們可以把 kettle 和 lucene 結合起來,先給文檔建立索引,再在 javascript 里直接使用lucene 的api來進行檢索,這樣效率會有大幅提高。

不管檢索如何實現,所用了 kettle 的流程后,再結合系統的作業調度,整個檢索流程就可以每天自動運行了。如果再結合上文檔的來源的自動獲取,如從ftp 獲取,或使用爬蟲從網站抓取,整個一套的文檔的獲取,建索引,檢索,重新發布的流程就可以建立起來了。

下載地址:http://www.xgndata.com/download.htm

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女