本篇文章為大家展示了ES如何對word和PDF文檔進行全文搜索。,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
ES 對 word和PDF文檔的全文搜索??梢杂貌寮盐臋n的內容提取出來,導入到es,再進行搜索。有好幾個插件。
https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/
官方網站。
最簡單易用的解決方案,它是ElasticSearch官方的插件??蓮膸缀跛形臋n類型中提取內容。收錄附件無法微調,這就是為什么它不能處理大文件。
官方網站
Apache Tika是從文件中提取內容的實際標準。粗略地說,Tika是提取文件內容的開源庫的組合,并合并為一個庫。它是開源的,并且具有REST API。您必須具有在服務器上進行設置和配置的經驗。您還應該注意,Tika在某些類型的PDF(帶有圖像的PDF)中不能很好地工作,并且REST API的運行速度比直接Java調用慢得多,即使在本地主機上也是如此。
那么,您安裝了Tika,下一步是什么?您需要創建某種包裝器:
下載文件
調用Tika提取文件內容
將已解析的內容提交到ElasticSearch
為了使ElasticSearch快速搜索大文件,您必須自己對其進行調整。 總結起來,Tika是一個很好的解決方案,但是它需要大量的代碼編寫和微調,尤其是對于邊緣情況:對于Tika來說,它是怪異的PDF和OCR。
官方網站
FsCrawler是一個“快速而骯臟的”開源解決方案,適用于那些希望通過本地文件系統并通過SSH為文檔編制索引的人。它會抓取你的文件系統并為新文件建立索引,更新現有文件并刪除舊文件。FsCrawler用Java編寫,并且需要一些額外的工作來安裝和配置它。它支持定時抓?。ɡ?,每15分鐘),還具有一些用于提交文件和定時計劃管理的基本API。FsCrawler在內部使用Tika,通常來說,您可以將FsCrawler用作Tika和ElasticSearch之間的粘合劑。
官方網站
它可以很好地處理大文件(> 100 MB)
它從PDF中提取內容(即使格式不佳并帶有嵌入式圖像),并對圖像進行OCR
它為用戶提供了簡單易用的REST API和WEB UI
部署非常容易(感謝Docker)
它是根據Fair Source 1 v0.9許可開源的
開箱即用地為用戶提供解析和即時搜索體驗。
上述內容就是ES如何對word和PDF文檔進行全文搜索。,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。