[Python] NLTK memory error.

Valerio Maggio valerio.maggio a gmail.com
Lun 31 Lug 2017 10:58:54 CEST


Ciao Massimiliano.

2017-07-31 10:53 GMT+02:00 Massimiliano Modena <xam8re a gmail.com>:

> Il mio programma prende circa 300.000 voci gia' classificate (300 per ogni
> categoria) e crea un file di apprendimento (che persisto con pickle).
>
> Stando alla documentazione di NLTK su windows dice esplicitamente AVOID
> Python 64 bit. Il problema e' che (provando comunque col 64 bit) raggiungo
> un utilizzo di ram di circa 7Gb (che col 32 bit sono ovviamente un
> problema).
>
> Esiste qualche workaround o qualche ottimizzazione possibile, che voi
> sappiate?
>
il workaround è evitare pickle :)
Perché non utilizzare un altro formato ? Ad esempio, HDF5:
http://www.h5py.org
Oppure: se capisco bene quello che persisti è l'oggetto "classificatore" -
aka: oggetto Python con i parametri risultanti dal training.
Cosa più leggera potrebbe essere salvarti esclusivamente i valori dei
parametri e ogni volta ricreare oggetto con i parametri giusti.. per questo
basterebbe un formato qualsiasi a tua scelta.. da csv a JSON a whatever ;)

HTH
Valerio
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20170731/d27f4e21/attachment.html>


Maggiori informazioni sulla lista Python