<div dir="auto"><div>Ciao<br><br><div class="gmail_quote"><div dir="ltr">Il giorno sab 12 gen 2019, 11:49 salvatore monaco <<a href="mailto:salvatore.monaco@gmail.com">salvatore.monaco@gmail.com</a>> ha scritto:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div dir="ltr"><div>Ciao Francesco,</div><div>io in condizioni analoghe uso tika</div><div><a href="https://tika.apache.org/" target="_blank" rel="noreferrer">https://tika.apache.org/</a></div></div></div></blockquote></div></div><div dir="auto"><br></div><div dir="auto">Dovrebbe già essere integrato in solr, quindi il metodo suggerito con haystack dovrebbe funzionare senza particolari sforzi, almeno così mi sembra di capire dalla documentazione e dal codice Python. </div><div dir="auto">Non avendo mai utilizzato solr lascio comunque la parola ai più esperti. </div><div dir="auto"><br></div><div dir="auto">Ad ogni modo l'estrazione di testo da pdf si può fare anche con Python, ci sono un paio di packages interessanti: pdfminer e pdf2 toolkit. </div><div dir="auto"><br></div><div dir="auto">Sani</div><div dir="auto">Strap</div><div dir="auto"><br></div><div dir="auto">PS: evitiamo il top quoting, giusto? ;-) </div></div>