溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

發布時間：2020-08-17 15:57:26 來源：ITPUB博客閱讀：279 作者：PDI 欄目：編程語言

最近需要做一個 Common File Reader 的 kettle 插件，希望這個插件可以讀取例如 PDF, WORD, PPT, WPS 等常見格式文件的內容，今天已經實現了第一步，讀取 PDF 的功能。

該插件是一個輸入步驟，它可以將讀取到的 PDF 文件的每一頁作為一行輸入記錄。下面是一個比較典型的應用例子:

[@more@]

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

這是一個簡單的文件檢索流程，可以用于小批量的文件檢索，檢索的輸入，輸出和規則都可以自定義，在這個例子里，我們可以這樣定義：

輸入1 是一個目錄，通過一個表達式（如 .*.pdf$）來指定只讀取一個目錄下的所有擴展名是pdf 的文件。

輸入2 是一個 excel 文件，只有一列，每行可以指定一個關鍵字，如下面的格式指定了2個關鍵字。

keyword

面積

股權轉讓

在 javascripte步驟里可以指定簡單的規則，返回的上下文的長度。

最后的 excel 輸出保存了檢索的結果，如下

pdf/word/ppt/... 文件讀取插件 - 輸入步驟

可以看到檢索結果包括，關鍵字，上下文，文件名，結果所在文檔頁數等。

對于大規模的文件檢索，我們可以把 kettle 和 lucene 結合起來，先給文檔建立索引，再在 javascript 里直接使用lucene 的api來進行檢索，這樣效率會有大幅提高。

不管檢索如何實現，所用了 kettle 的流程后，再結合系統的作業調度，整個檢索流程就可以每天自動運行了。如果再結合上文檔的來源的自動獲取，如從ftp 獲取，或使用爬蟲從網站抓取，整個一套的文檔的獲取，建索引，檢索，重新發布的流程就可以建立起來了。

下載地址：http://www.xgndata.com/download.htm

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
禁止WordPress頭部加載s.w.org的方法
下一篇新聞：
dedecms系統列表頁調用tag標簽同時帶上鏈接的方法

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女