[Python] Una dritta sulle espressioni regolari

Lorenzo Sutton lsutton a libero.it
Mer 1 Giu 2011 09:47:03 CEST


Nicola Larosa wrote:
> Cesco wrote:
>> Ciao, scusate se vi rompo le scatole... qualcuno di voi ha
>> dimestichezza con le espressioni regolari?
>> Ho del codice HTML e dovrei cercare il contenuto dell'attributo
>> "name" all'interno di un tag <input> o di un tag <select>
> [...]

> P.S.: Purtroppo non posso convertire il codice HTML in XML, poichè
>> devo fare questo lavoro con la clipboard e selezionando il codice
>> HTML non sempre mi arriva ben formattato (es: può arrivarmi una cosa
>> del tipo "ciao a <strong>Tutti qua..." in cui non c'è il tag </strong>
>> di chiusura, per cui per l'XML viene giustamente considerato
>> invalido)
> Esistono appositi parser per l'HTML malformato. Quello più conosciuto è
> BeautifulSoup, ma non usarlo, è lento e poco manutenuto.
Peraltro se non ricordo male usa internamente le regexp...
> Ti conviene usare lxml.html: <http://lxml.de/lxmlhtml.html>,
> <http://pypi.python.org/pypi/lxml/2.3>.
Concordo con Nicola. Se ce la fai con lxml (che comunque prova a parsare
l'html anche non valido) è la cosa migliore.

Altrimenti mi chiedo se non potresti direttamente farlo con le
operazioni su stringhe che il linguaggio ti offre?

Lorenzo.


Maggiori informazioni sulla lista Python