[Python] Parsing della pagina HTML

Mar 16 Lug 2013 12:09:56 CEST

Gollum1 wrote:
> ho provato lxml.html, ma non ne vengo fuori, non riesco ad estrarre 
> nessun campo, l'unicao cosa che riesco a fare è separare l'head dal 
> body, e visualizzarne i contenuti, ma senza nessun tag.
> 
> import lxml.html
> PAGE = lxml.html.fromstring(HTMLSOURCE)
> print(PAGE[1].text_content()) #visualizza il contenuto dell'head
> print(PAGE[0].text_content()) #visualizza il contenuto del body
> 
> ma in realtà non riesco a farne il parsing...
> nel tutorial sul loro sito trovo spezzoni di codice per creare 
> elementi html, non per analizzare quelli già esistenti...

Qui c'è la doc di text_content:

<http://lxml.de/lxmlhtml.html#html-element-methods>

Nello stesso posto trovi le doc di:

- find_class (se conosci la classe CSS degli elementi che ti
  interessano);
- get_element_by_id (se conosci l'id dell'elemento che ti interessa):
- cssselect (per usare selettori CSS, molto potenti);
- un accenno a xpath, documentata altrove
  <http://lxml.de/xpathxslt.html#xpath>, anche molto potente.

L'esempio usa find_class <http://lxml.de/lxmlhtml.html#examples>.

-- 
Nicola Larosa - http://www.tekNico.net/

Voti quello simpatico figlio dell'apparato, o l'antipatico sedicente in-
novatore? Quello che smacchia i leopardi o quello che twitta? Il media-
tore o l'amministratore? Il vecchio linguaggio ammuffito della politica
o il nuovo linguaggio ridicolo di noi ggiovani? That's the question...
 - Francesco Banconi, ballottaggio PD Bersani-Renzi, novembre 2012