溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

ES如何對word和PDF文檔進行全文搜索。

發布時間:2021-10-29 09:14:14 來源:億速云 閱讀:2514 作者:柒染 欄目:大數據

本篇文章為大家展示了ES如何對word和PDF文檔進行全文搜索。,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。

ES 對 word和PDF文檔的全文搜索??梢杂貌寮盐臋n的內容提取出來,導入到es,再進行搜索。有好幾個插件。

幾個內容提取插件的比較:

https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/

一、ambar 官方對ES文件內容提取插件的總結。

1、Ingest Attachment Plugin。

官方網站。
最簡單易用的解決方案,它是ElasticSearch官方的插件??蓮膸缀跛形臋n類型中提取內容。收錄附件無法微調,這就是為什么它不能處理大文件。

2、Apache Tika。

官方網站
Apache Tika是從文件中提取內容的實際標準。粗略地說,Tika是提取文件內容的開源庫的組合,并合并為一個庫。它是開源的,并且具有REST API。您必須具有在服務器上進行設置和配置的經驗。您還應該注意,Tika在某些類型的PDF(帶有圖像的PDF)中不能很好地工作,并且REST API的運行速度比直接Java調用慢得多,即使在本地主機上也是如此。
那么,您安裝了Tika,下一步是什么?您需要創建某種包裝器:

  • 下載文件

  • 調用Tika提取文件內容

  • 將已解析的內容提交到ElasticSearch

  • 為了使ElasticSearch快速搜索大文件,您必須自己對其進行調整。 總結起來,Tika是一個很好的解決方案,但是它需要大量的代碼編寫和微調,尤其是對于邊緣情況:對于Tika來說,它是怪異的PDF和OCR。

3、FsCrawler

官方網站

FsCrawler是一個“快速而骯臟的”開源解決方案,適用于那些希望通過本地文件系統并通過SSH為文檔編制索引的人。它會抓取你的文件系統并為新文件建立索引,更新現有文件并刪除舊文件。FsCrawler用Java編寫,并且需要一些額外的工作來安裝和配置它。它支持定時抓?。ɡ?,每15分鐘),還具有一些用于提交文件和定時計劃管理的基本API。FsCrawler在內部使用Tika,通常來說,您可以將FsCrawler用作Tika和ElasticSearch之間的粘合劑。

4、Ambar

官方網站

  • 它可以很好地處理大文件(> 100 MB)

  • 它從PDF中提取內容(即使格式不佳并帶有嵌入式圖像),并對圖像進行OCR

  • 它為用戶提供了簡單易用的REST API和WEB UI

  • 部署非常容易(感謝Docker)

  • 它是根據Fair Source 1 v0.9許可開源的

  • 開箱即用地為用戶提供解析和即時搜索體驗。

上述內容就是ES如何對word和PDF文檔進行全文搜索。,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女