[Python] solr e hystack

Paolo Melchiorre paolo a melchiorre.org
Mar 15 Gen 2019 15:39:36 CET


On Tue, Jan 15, 2019 at 2:42 PM Enrico Bianchi <enrico.bianchi a live.com> wrote:
>> è possibile indicizzare files non di testo ad esempio PDF al fine di
>> eseguire ricerche full-text in seno al corpo di questi?
> Tieni in considerazione anche questo:
> https://www.pycon.it/conference/talks/ricerca-full-text-in-django-con-postgresql

Ciao Enrico,

Grazie della segnalazione del mio talk del Pycon Otto del 2017.

Se interessa a qualcuno a partire da quel talk ho scritto anche un
articolo sulla ricerca Full-text con Django e PostgreSQL
https://www.paulox.net/2017/12/22/full-text-search-in-django-with-postgresql

Ovviamente se trovate errori o segnalazioni sull'articolo scrivetemi pure.

> Qua trovi il video della presentazione:
> https://www.youtube.com/watch?v=AgmF7UvJIpw

Il video che hai linkato è pero del talk del Pycon Nove del 2018 in
cui parlavo nello specifico del motore di ricerca del sito
djangoproject.com che ho riscritto usando la ricerca Full-text di
PostgreSQL (rimuovendo era Elasticsearch)

Per il video del talk di cui parlavi ed anche per il altre info puoi
fare riferimento qui
https://www.paulox.net/talks/

Non ci sono soluzioni specifiche per file PDF nei link sopra ma alcuni
anni fa utilizzai pdftotext di Poppler per ricavare il testo di alcuni
PDF da indicizzare, ovviamente era una soluzione specifica per quel
caso in cui non era importante il 100% di attendibilità ma l'approccio
potrebbe essere utile a qualcuno.

A presto,
Paolo


Maggiori informazioni sulla lista Python