[Python] Parsing della pagina HTML
Gollum1
gollum1.smeagol1 a gmail.com
Mar 16 Lug 2013 11:59:48 CEST
ciao [].
Premessa: sto usando python 3.2.5
sto scrivendo il software che dovrebbe sostituire il programmino che
avevo fatto per excel (vedi il post "malsana idea")
sono riuscito a mettere in una variabile il codice html (come testo).
con il seguente codice:
import win32com.client
import time
url="..."
web=win32com.client.Dispatch("MSXML2.XMLHTTP")
web.Open("GET", url, False)
web.send()
HTMLSOURCE = web.responseText
e fin qui tutto bene... ora vorrei fare il parsing del codice HTML per
estrapolare i dati che mi servono, ma non riesco a trovare un
framework che mi permetta di farlo in modo semplice...
ho provato lxml.html, ma non ne vengo fuori, non riesco ad estrarre
nessun campo, l'unicao cosa che riesco a fare è separare l'head dal
body, e visualizzarne i contenuti, ma senza nessun tag.
import lxml.html
PAGE = lxml.html.fromstring(HTMLSOURCE)
print(PAGE[1].text_content()) #visualizza il contenuto dell'head
print(PAGE[0].text_content()) #visualizza il contenuto del body
ma in realtà non riesco a farne il parsing...
nel tutorial sul loro sito trovo spezzoni di codice per creare
elementi html, non per analizzare quelli già esistenti...
Byez
--
Gollum1
Tesssssoro, dov'é il mio tessssoro...
Maggiori informazioni sulla lista
Python