[Python] solr e hystack

Strap Lab lab a strap.it
Ven 11 Gen 2019 21:22:42 CET


Ciao

On Fri, Jan 11, 2019 at 8:39 PM Francesco Bonanno <fgthct a gmail.com> wrote:

> Buonasera a chi è in ascolto.
>
> Pongo una domanda sin merito gli argomenti in oggetto:
>
> è possibile indicizzare files non di testo ad esempio PDF al fine di
> eseguire ricerche full-text in seno al corpo di questi?
>

Sì


> Non voglio che facciate i compiti per me. se mi sto rivolgendo alla
> lista è perchè in rete non ho trovato niente al riguardo
>
>
Si trova, però è ben nascosta :-D
Guarda nel backend di Solr, c'è un metodo extract_contents:
https://github.com/django-haystack/django-haystack/blob/master/haystack/backends/solr_backend.py#L713
Usalo nel `def prepare_field(self)` nel tuo search_indexes.py.

Solr, se non vado errato, è uno dei pochi backend di haystack che supporta
'nativamente' l'estrazione dei pdf. D'altra parte haystack è nato per
supportare solr, gli altri motori full text sono "di contorno" (ora scatta
il flame :-D )
Ad esempio, io mi sono trovato qualche tempo fa a lavorare con
haystack+elasticsearch2.x e il metodo extract_contents me lo sono
implementato nel mio backend custom (ci ho pure fatto una presentazione a
PyCon Italia al riguardo :-) )

[...]
>
> Grazie a tutti
>
>
Buona implementazione!
Sani
Strap
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20190111/abc0954c/attachment.html>


Maggiori informazioni sulla lista Python