<div dir="ltr">Ciao Massimiliano.<div class="gmail_extra"><br><div class="gmail_quote">2017-07-31 10:53 GMT+02:00 Massimiliano Modena <span dir="ltr"><<a href="mailto:xam8re@gmail.com" target="_blank">xam8re@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">
  
    
  
  <div bgcolor="#FFFFFF">
    <p>Il mio programma prende circa 300.000 voci gia' classificate (300
      per ogni categoria) e crea un file di apprendimento (che persisto
      con pickle). <br></p>
    <p>Stando alla documentazione di NLTK su windows dice esplicitamente
      AVOID Python 64 bit. Il problema e' che (provando comunque col 64
      bit) raggiungo un utilizzo di ram di circa 7Gb (che col 32 bit
      sono ovviamente un problema).</p>
    <p> Esiste qualche workaround o qualche ottimizzazione possibile,
      che voi sappiate? <br></p></div></blockquote><div>il workaround è evitare pickle :)</div><div>Perché non utilizzare un altro formato ? Ad esempio, HDF5: <a href="http://www.h5py.org" target="_blank">http://www.h5py.org</a></div><div>Oppure: se capisco bene quello che persisti è l'oggetto "classificatore" - aka: oggetto Python con i parametri risultanti dal training.</div><div>Cosa più leggera potrebbe essere salvarti esclusivamente i valori dei parametri e ogni volta ricreare oggetto con i parametri giusti.. per questo basterebbe un formato qualsiasi a tua scelta.. da csv a JSON a whatever ;)</div><div><br></div><div>HTH</div><div>Valerio</div></div>
</div></div>