[Python] Parsing della pagina HTML
Nicola Larosa
nico a tekNico.net
Mar 16 Lug 2013 12:09:56 CEST
Gollum1 wrote:
> ho provato lxml.html, ma non ne vengo fuori, non riesco ad estrarre
> nessun campo, l'unicao cosa che riesco a fare è separare l'head dal
> body, e visualizzarne i contenuti, ma senza nessun tag.
>
> import lxml.html
> PAGE = lxml.html.fromstring(HTMLSOURCE)
> print(PAGE[1].text_content()) #visualizza il contenuto dell'head
> print(PAGE[0].text_content()) #visualizza il contenuto del body
>
> ma in realtà non riesco a farne il parsing...
> nel tutorial sul loro sito trovo spezzoni di codice per creare
> elementi html, non per analizzare quelli già esistenti...
Qui c'è la doc di text_content:
<http://lxml.de/lxmlhtml.html#html-element-methods>
Nello stesso posto trovi le doc di:
- find_class (se conosci la classe CSS degli elementi che ti
interessano);
- get_element_by_id (se conosci l'id dell'elemento che ti interessa):
- cssselect (per usare selettori CSS, molto potenti);
- un accenno a xpath, documentata altrove
<http://lxml.de/xpathxslt.html#xpath>, anche molto potente.
L'esempio usa find_class <http://lxml.de/lxmlhtml.html#examples>.
--
Nicola Larosa - http://www.tekNico.net/
Voti quello simpatico figlio dell'apparato, o l'antipatico sedicente in-
novatore? Quello che smacchia i leopardi o quello che twitta? Il media-
tore o l'amministratore? Il vecchio linguaggio ammuffito della politica
o il nuovo linguaggio ridicolo di noi ggiovani? That's the question...
- Francesco Banconi, ballottaggio PD Bersani-Renzi, novembre 2012
Maggiori informazioni sulla lista
Python