[Python] split di file di grandi dimensioni

Ernesto e.picardi a unical.it
Ven 4 Dic 2009 16:37:29 CET


>> Gawk per Windows funziona discretamente bene.
>> Mi ha processato file di 900 mega in pochi secondi liberandomi di
>> molto lavoro manuale :)
>
> effettivamente ś, se il problema postato dall'op é per questioni di
> lavoro io utilizzerei gawk, senza perdere tempo a implementare
> qualcosa che esiste giá :-)
> Non sono sicuro ma mi sembra che almeno awk sia installato di default
> sui mac. In questo caso il comando diventa semplicemente:
> awk '{print $0 > "output_"$3".txt"}' input.txt
>
> Personalmente l'ho utilizzato per problemi simili e su quantitá di
> dati simili a quelli della domanda (10, 15 GB) e non ho mai dovuto
> aspettare piu' di una ora.
>
> Al massimo, se anche gawk dovesse essere lento, conviene semplificare
> il problema alla base, ovvero: splittare il file in pezzi piu' piccoli
> (comando split) e correrlo in parallelo, oppure ordinarlo (sort -k),
> sempre che non sia importante mantenere l'ordine delle righe
> originale.

Sto provando con gawk per velocizzare lo split. Sono passate 2 ore ed  
il processo non è ancora terminato.
Volevo evitare gawk per avere uno script portabile senza richiedere  
all'utente di installare altro software.

Grazie
Ernesto
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: http://lists.python.it/pipermail/python/attachments/20091204/4beef31a/attachment.htm 


Maggiori informazioni sulla lista Python