[Python] Parsing della pagina HTML

Mar 16 Lug 2013 11:59:48 CEST

ciao [].

Premessa: sto usando python 3.2.5
sto scrivendo il software che dovrebbe sostituire il programmino che
avevo fatto per excel (vedi il post "malsana idea")

sono riuscito a mettere in una variabile il codice html (come testo).

con il seguente codice:

import win32com.client
import time

url="..."
web=win32com.client.Dispatch("MSXML2.XMLHTTP")
web.Open("GET", url, False)
web.send()
HTMLSOURCE = web.responseText

e fin qui tutto bene... ora vorrei fare il parsing del codice HTML per
estrapolare i dati che mi servono, ma non riesco a trovare un
framework che mi permetta di farlo in modo semplice...

ho provato lxml.html, ma non ne vengo fuori, non riesco ad estrarre
nessun campo, l'unicao cosa che riesco a fare è separare l'head dal
body, e visualizzarne i contenuti, ma senza nessun tag.

import lxml.html
PAGE = lxml.html.fromstring(HTMLSOURCE)
print(PAGE[1].text_content()) #visualizza il contenuto dell'head
print(PAGE[0].text_content()) #visualizza il contenuto del body

ma in realtà non riesco a farne il parsing...
nel tutorial sul loro sito trovo spezzoni di codice per creare
elementi html, non per analizzare quelli già esistenti...

Byez
--
Gollum1
Tesssssoro, dov'é il mio tessssoro...