[Python] Parsing della pagina HTML

Mar 16 Lug 2013 13:36:52 CEST

Il 16 luglio 2013 12:09, Nicola Larosa <nico a teknico.net> ha scritto:
> Qui c'è la doc di text_content:
>
> <http://lxml.de/lxmlhtml.html#html-element-methods>
>
> Nello stesso posto trovi le doc di:
>
> - find_class (se conosci la classe CSS degli elementi che ti
>   interessano);
> - get_element_by_id (se conosci l'id dell'elemento che ti interessa):
> - cssselect (per usare selettori CSS, molto potenti);
> - un accenno a xpath, documentata altrove
>   <http://lxml.de/xpathxslt.html#xpath>, anche molto potente.
>
> L'esempio usa find_class <http://lxml.de/lxmlhtml.html#examples>.

Grazie, avevo visto questa pagina, ma per qualche motivo non l'avevo
interpretata correttamente...
Dopo la tua segnalazione l'ho esaminata più a fondo, farò delle prove,
ma sicuramente è quello che serve a me...

Devo prima analizzare manualmente come è costruito il file html e poi
vedere che parametri usare per estrarre quello che mi serve...

In realtà nel programma originale era tutto fatto attraverso string
matching... qui una volta individuati i tag o le classi che mi
interessano, dovrebbe essere tutto più facile.

grazie.

--
Gollum1
Tesssssoro, dov'é il mio tessssoro...