<div dir="ltr"><div dir="ltr"><div>Ciao Francesco,</div><div>io in condizioni analoghe uso tika</div><div><a href="https://tika.apache.org/">https://tika.apache.org/</a></div><div><br></div><div>c'è tutto un processo dietro il mio utilizzo,  ma di fatto è lui che estrae metadati e testo dai documenti per una successiva analisi</div><div><br></div><div>Salvatore<br></div></div></div><br><div class="gmail_quote"><div dir="ltr">Il giorno ven 11 gen 2019 alle ore 21:23 Strap Lab <<a href="mailto:lab@strap.it">lab@strap.it</a>> ha scritto:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Ciao<br></div><br><div class="gmail_quote"><div dir="ltr">On Fri, Jan 11, 2019 at 8:39 PM Francesco Bonanno <<a href="mailto:fgthct@gmail.com" target="_blank">fgthct@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Buonasera a chi è in ascolto.<br>
<br>
Pongo una domanda sin merito gli argomenti in oggetto:<br>
<br>
è possibile indicizzare files non di testo ad esempio PDF al fine di <br>
eseguire ricerche full-text in seno al corpo di questi?<br></blockquote><div><br></div><div>Sì</div><div> <br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
Non voglio che facciate i compiti per me. se mi sto rivolgendo alla <br>
lista è perchè in rete non ho trovato niente al riguardo<br>
<br></blockquote><div><br></div><div>Si trova, però è ben nascosta :-D</div><div>Guarda nel backend di Solr, c'è un metodo extract_contents:</div><div><a href="https://github.com/django-haystack/django-haystack/blob/master/haystack/backends/solr_backend.py#L713" target="_blank">https://github.com/django-haystack/django-haystack/blob/master/haystack/backends/solr_backend.py#L713</a></div><div>Usalo nel `def prepare_field(self)` nel tuo search_indexes.py.<br></div><div><br></div><div>Solr, se non vado errato, è uno dei pochi backend di haystack che supporta 'nativamente' l'estrazione dei pdf. D'altra parte haystack è nato per supportare solr, gli altri motori full text sono "di contorno" (ora scatta il flame :-D )<br></div><div>Ad esempio, io mi sono trovato qualche tempo fa a lavorare con haystack+elasticsearch2.x e il metodo extract_contents me lo sono implementato nel mio backend custom (ci ho pure fatto una presentazione a PyCon Italia al riguardo :-) )</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">[...]<br>
<br>
Grazie a tutti<br>
<br></blockquote><div> </div><div>Buona implementazione!<br></div><div>Sani</div><div>Strap</div><br></div></div></div></div>
_______________________________________________<br>
Python mailing list<br>
<a href="mailto:Python@lists.python.it" target="_blank">Python@lists.python.it</a><br>
<a href="https://lists.python.it/mailman/listinfo/python" rel="noreferrer" target="_blank">https://lists.python.it/mailman/listinfo/python</a><br>
</blockquote></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail_signature">@salvatoremonaco<br><a href="http://blog.smitsolution.net" target="_blank">http://blog.smitsolution.net</a></div>