這篇文章主要介紹如何使用Django和Postgres進行全文搜索,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
項目及其要求
您可能已經注意到,我正在運行工作板。 Voorjob基本上是從lever.co聚合工作,并讓用戶搜索它。目前,我在數據庫中大約有25,000個工作,這個數字增長緩慢,每增加2或3個工作,就會關閉另一個工作。是的,如果我采用了彈性搜索路徑,那將是一本教科書過度設計的情況。
實施
從9.4版開始,postgres添加了一些允許全文本搜索的功能。不久之后,Django在postgres特定功能中鏡像了這些功能。
要開始使用此新功能,我基本上需要在模型中使用SearchVectorField,并需要使用矢量化的職位描述來更新此字段的方法:
from django.contrib.postgres.search import SearchVectorField, SearchVector class Job(models.Model): title = models.CharField(max_length=200, blank=True) location = models.CharField(max_length=50, blank=True) body = models.TextField(null=True) body_vector = SearchVectorField(null=True) def make_search_vector(): self.body_vector=SearchVector('body') def save(self, *args, **kwargs): self.make_search_vector() super(Model, self).save(*args, **kwargs)
這種方法適用于很少更新的工作,例如工作板,但是如果您的應用程序經常更新,則應避免使用此策略,并應定期執行一些任務來填充向量:
Job.objects.all().update(body_vector=SearchVector('body'))
甚至更好的是,您可以通過閱讀本文檔,使用postgres觸發器直接進行操作。
查詢工作
現在您已經準備好數據庫,現在可以查詢它了,讓我們看一下voorjob搜索視圖的教學版本:
from django.contrib.postgres.search import SearchQuery class Index(ListView): model = Job paginate_by = 30 def get_queryset(self): search = self.request.GET.get("search", None) queryset = Job.objects.all() if search: if '"' in search: query = SearchQuery(search.replace('"', ''), search_type='phrase') else: query = SearchQuery(search) queryset = queryset.filter(body_vector=query) else: queryset = queryset return queryset
我基本上在這里考慮兩種查詢:單詞存在和“精確表達式”。是的,該邏輯中存在一些缺陷,請繼續起訴我:D
還有很多可以改進的地方,django支持加權查詢:
vector = SearchVector('title',weight ='A')+ SearchVector('body',weight ='B') Job.objects.all()。update(body_vector = vector)
這最終將以更好的順序返回結果,其中標題中的匹配比正文中的匹配更重。
查詢系統也更加靈活,允許進行邏輯運算OR / AND和NOT。在不久的將來,我將改善對工作板的搜索,并更新此帖子以描述所做的更改。
性能
在開發過程中,我使用了具有16GB內存和不錯的NVMe的I5。對本地計算機中的25k作業運行查詢基本上是瞬時的。
當我將項目轉移到生產環境時(每滴5美元),事情變得越來越慢了。
運行密西西比基準測試,我得到以下結果:
在/ django rest framework上搜索((1個密西西比州以掃描5K條目))
在/ full /上搜索“ django rest framework”(-3個密西西比州,掃描25K條目)
不是最好的性能,但現在可以使用。本文將進行更新以反映任何性能改進。
考慮到我的搜索需求不高-超過25k的條目,且字數過多的文章并不比本文大很多-使用postgres作為我的全文搜索的后端,對于此早期MVP來說效果很好?,F在,我比每天給我20個用戶提供最快的體驗,對嘗試事物和擴大董事會成員更感興趣。
更新(2020年2月9日)
好消息! 我了解到可以將索引添加到SearchVectorField中:
from django.contrib.postgres.indexes import GinIndex class Job(models.Model): class Meta: indexes = (GinIndex(fields=["body_vector"]),) title = models.CharField(max_length=200, blank=True) location = models.CharField(max_length=50, blank=True) body = models.TextField(null=True) body_vector = SearchVectorField(null=True) def make_search_vector(): self.body_vector=SearchVector('body') def save(self, *args, **kwargs): self.make_search_vector() super(Model, self).save(*args, **kwargs)
現在,所有情況下的搜索時間均降至1個密西西比州。 由于我的數據很小,因此用于該索引的內存量可以忽略不計。
以上是“如何使用Django和Postgres進行全文搜索”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。