[Python] solr e hystack

salvatore monaco salvatore.monaco a gmail.com
Sab 12 Gen 2019 11:49:24 CET


Ciao Francesco,
io in condizioni analoghe uso tika
https://tika.apache.org/

c'è tutto un processo dietro il mio utilizzo,  ma di fatto è lui che estrae
metadati e testo dai documenti per una successiva analisi

Salvatore

Il giorno ven 11 gen 2019 alle ore 21:23 Strap Lab <lab a strap.it> ha
scritto:

> Ciao
>
> On Fri, Jan 11, 2019 at 8:39 PM Francesco Bonanno <fgthct a gmail.com>
> wrote:
>
>> Buonasera a chi è in ascolto.
>>
>> Pongo una domanda sin merito gli argomenti in oggetto:
>>
>> è possibile indicizzare files non di testo ad esempio PDF al fine di
>> eseguire ricerche full-text in seno al corpo di questi?
>>
>
>>
>
>> Non voglio che facciate i compiti per me. se mi sto rivolgendo alla
>> lista è perchè in rete non ho trovato niente al riguardo
>>
>>
> Si trova, però è ben nascosta :-D
> Guarda nel backend di Solr, c'è un metodo extract_contents:
>
> https://github.com/django-haystack/django-haystack/blob/master/haystack/backends/solr_backend.py#L713
> Usalo nel `def prepare_field(self)` nel tuo search_indexes.py.
>
> Solr, se non vado errato, è uno dei pochi backend di haystack che supporta
> 'nativamente' l'estrazione dei pdf. D'altra parte haystack è nato per
> supportare solr, gli altri motori full text sono "di contorno" (ora scatta
> il flame :-D )
> Ad esempio, io mi sono trovato qualche tempo fa a lavorare con
> haystack+elasticsearch2.x e il metodo extract_contents me lo sono
> implementato nel mio backend custom (ci ho pure fatto una presentazione a
> PyCon Italia al riguardo :-) )
>
> [...]
>>
>> Grazie a tutti
>>
>>
> Buona implementazione!
> Sani
> Strap
>
> _______________________________________________
> Python mailing list
> Python a lists.python.it
> https://lists.python.it/mailman/listinfo/python
>


-- 
@salvatoremonaco
http://blog.smitsolution.net
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20190112/4cd8997b/attachment.html>


Maggiori informazioni sulla lista Python