[Python] DataFrame multidimensionale in pandas
epi
massimodisasha a gmail.com
Sab 23 Mar 2013 19:55:35 CET
Ciao Margherita,
puoi dare un occhio a pytables [0]
con pytables puoi indicizzare i tuoi dati ed eseguire query usando un linguaggio sql-like [1] in aggiunta alla classica sintassi di numpy
il vantaggio di pytables e' che grazie agli indici, risulta estremamente veloce nell'eseguire query su enormi quantità' di dati
pandas e pytables (e hdf) sono amici [2]
se lavori anche con netcdf in python, qui [3] la guida su come compilare necdf con support a hdf5
[0] http://pytables.github.com/index.html
[1] http://pytables.github.com/cookbook/hints_for_sql_users.html
[2] https://github.com/wesm/pandas/blob/master/pandas/io/pytables.py
[3] https://code.google.com/p/netcdf4-python/wiki/UbuntuInstall
Il giorno 23/mar/2013, alle ore 09:07, Margherita Di Leo <diregola a gmail.com> ha scritto:
> Ciao Enrico,
>
> innanzi tutto grazie per la risposta.
>
> 2013/3/22 Enrico Franchi <enrico.franchi a gmail.com>
>
>
> Ti invito a riflettere su alcuni fattori:
> 1. di base le matrici di numpy (e quindi pandas) sono *dense*. Se sali con il numero di dimensioni, o il problema e' molto piccolo, oppure scoppia tutto.
> 2. il supporto di Pandas per strutture con dimensione >3 e' sperimentale. Non lo ho mai usato (anzi, a dire il vero, non ho mai usato manco il Panel, se non di rado).
>
> Grazie per i chiarimenti. In effetti un po' me lo aspettavo.
>
> Dopo di che, la mia impressione e' che *forse* non ti serve tutto questo.
>
> Probabilmente devo cambiare approccio, qualcosa tipo: grib -> postgis -> query -> numpy, pandas, whatever..
>
> In primo luogo, gli indici di Pandas possono essere relativamente complessi. Puoi avere n colonne che fanno da indice, non necessariamente vuoi usare righe e colonne per indicare latitudine e longitudine. Puoi benissimo avere una cosa come:
>
> lat long d1 d2 d3 … dn
> 0 10 ….
> 0 20 ….
> 10 10 ….
>
> Che e' decisamente piu' saggio.
>
> Il grib e` un file ultracompresso che contiene tantissime informazioni. E` comunque possibile ottenere un oggetto del genere automagicamente in formato csv a partire dal grib, per esempio usando wgrib2 -csv, ma non e` conveniente interagire direttamente con un animale del genere, diciamo che mi serve qualcosa con un supporto spaziale un po' piu` sofisticato.
>
> Oltretutto Pandas ha funzioni builtin per gestire timeseries, quindi *forse* vuoi avere anche un po' di quella roba come indice. Di piu' non so dirti, se non di guardare bene la documentazione. Non sono familiare con il tuo caso d'uso e probabilmente non posso diventarlo "mailing-list time".
>
> Grazie mille, le tue riflessioni mi sono state molto utili, almeno a capire che stavo prendendo una strada sbagliata.
>
> ciao e buon fine settimana
>
>
> --
> Best regards,
>
> Margherita DI LEO
> Postdoctoral Researcher
>
> European Commission - DG JRC
> Institute for Environment and Sustainability (IES)
> Via Fermi, 2749
> I-21027 Ispra (VA) - Italy - TP 261
>
> Tel. +39 0332 78 3600
> margherita.di-leo a jrc.ec.europa.eu
>
> Disclaimer: The views expressed are purely those of the writer and may not in any circumstance be regarded as stating an official position of the European Commission.
> _______________________________________________
> Python mailing list
> Python a lists.python.it
> http://lists.python.it/mailman/listinfo/python
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20130323/a4297f17/attachment.html>
Maggiori informazioni sulla lista
Python