溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

ES如何對word和PDF文檔進行全文搜索。

發布時間：2021-10-29 09:14:14 來源：億速云閱讀：2514 作者：柒染欄目：大數據

本篇文章為大家展示了ES如何對word和PDF文檔進行全文搜索。，內容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

ES 對 word和PDF文檔的全文搜索?？梢杂貌寮盐臋n的內容提取出來，導入到es，再進行搜索。有好幾個插件。

幾個內容提取插件的比較：

https://ambar.cloud/blog/2017/10/24/ingesting-documents-into-es/

一、ambar 官方對ES文件內容提取插件的總結。

1、Ingest Attachment Plugin。

官方網站。
最簡單易用的解決方案，它是ElasticSearch官方的插件?？蓮膸缀跛形臋n類型中提取內容。收錄附件無法微調，這就是為什么它不能處理大文件。

2、Apache Tika。

官方網站
Apache Tika是從文件中提取內容的實際標準。粗略地說，Tika是提取文件內容的開源庫的組合，并合并為一個庫。它是開源的，并且具有REST API。您必須具有在服務器上進行設置和配置的經驗。您還應該注意，Tika在某些類型的PDF（帶有圖像的PDF）中不能很好地工作，并且REST API的運行速度比直接Java調用慢得多，即使在本地主機上也是如此。
那么，您安裝了Tika，下一步是什么？您需要創建某種包裝器：

下載文件
調用Tika提取文件內容
將已解析的內容提交到ElasticSearch
為了使ElasticSearch快速搜索大文件，您必須自己對其進行調整。總結起來，Tika是一個很好的解決方案，但是它需要大量的代碼編寫和微調，尤其是對于邊緣情況：對于Tika來說，它是怪異的PDF和OCR。

3、FsCrawler

官方網站

FsCrawler是一個“快速而骯臟的”開源解決方案，適用于那些希望通過本地文件系統并通過SSH為文檔編制索引的人。它會抓取你的文件系統并為新文件建立索引，更新現有文件并刪除舊文件。FsCrawler用Java編寫，并且需要一些額外的工作來安裝和配置它。它支持定時抓?。ɡ?，每15分鐘），還具有一些用于提交文件和定時計劃管理的基本API。FsCrawler在內部使用Tika，通常來說，您可以將FsCrawler用作Tika和ElasticSearch之間的粘合劑。

4、Ambar

官方網站

它可以很好地處理大文件（> 100 MB）
它從PDF中提取內容（即使格式不佳并帶有嵌入式圖像），并對圖像進行OCR
它為用戶提供了簡單易用的REST API和WEB UI
部署非常容易（感謝Docker）
它是根據Fair Source 1 v0.9許可開源的
開箱即用地為用戶提供解析和即時搜索體驗。

上述內容就是ES如何對word和PDF文檔進行全文搜索。，你們學到知識或技能了嗎？如果還想學到更多技能或者豐富自己的知識儲備，歡迎關注億速云行業資訊頻道。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
怎么配置SSH服務器安全
下一篇新聞：
Mysql數據分組排名實現的示例分析

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女