[Python] R: Consiglio per l' implementazione

fabiotoscano3 fabiotoscano3 a hotmail.com
Mer 17 Giu 2015 12:22:44 CEST


Ciao a tutti,

sono nuovo della mailing list e mi scuso in anticipo se violo qualche norma della netiquette l :)

Scrapy è un ottimo modulo per lo scaping, specie perchè implementa nativamente la ricerca mediante XPATH, anche ricorsiva e ramificata, all'interno del codice html prelevato.
La documentazione è buona ma dovrai smanettarci un poco perchè pecca in alcuni punti.

Fabio Toscano



-------- Messaggio originale --------
Da: Davide Muzzarelli <d.muzzarelli a dav-muz.net>
Data:17/06/2015  11:51  (GMT+01:00)
A: python a lists.python.it
Oggetto: Re: [Python] Consiglio per l' implementazione

Il 17/06/2015 11:35, Matteo Scarpa ha scritto:
> Il lato server che fa il parsing lo farei in python perché lavora meglio
> del Java con i file html ma oltre a Beautifullsoup non conosco moduli
> per questo genere di cose. Ci sono alternative migliori? Sto sbagliando
> tutto? Esiste un modulo python che fa il parsing e lo esporta
> direttamente in json?

Ciao Matteo,
puoi usare Scrapy ed esportare in JSON o in qualsiasi altro formato.

http://scrapy.org/

Fare lo scraping più richiedere diversi minuti, a seconda delle
condizioni della rete, dei tempi di risposta e del numero di pagine da
scaricare.
A meno che tu non debba scaricare i dati da poche semplici pagine,
conviene che questa operazione venga fatta in maniera asincrona. A fine
scraping devi quindi avvisare l'app che i dati sono pronti.

Davide Muzzarelli
_______________________________________________
Python mailing list
Python a lists.python.it
http://lists.python.it/mailman/listinfo/python
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20150617/33b063fb/attachment.html>


Maggiori informazioni sulla lista Python