Una soluzione con lxml:<br><br><div style="margin-left: 40px;">from lxml import html<br><br>pagina = html.parse('<a href="http://www.google.it">http://www.google.it</a>').getroot()<br>for item in pagina.cssselect('title'):<br>
print item.text<br></div><br>Come già detto è meglio non utilizzare le RegEx per fare il parsing html:<br><a href="http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not">http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not</a><br>
<br><div class="gmail_quote">Il giorno 29 settembre 2010 16:04, franco93it <span dir="ltr"><<a href="mailto:franco93it@gmail.com">franco93it@gmail.com</a>></span> ha scritto:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div class="gmail_quote">Il giorno 29 settembre 2010 15:56, Nicola Larosa <span dir="ltr"><<a href="mailto:nico@teknico.net" target="_blank">nico@teknico.net</a>></span> ha scritto:<div class="im"><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Ho avuto buoni risultati con lxml.html<br>
(<a href="http://codespeak.net/lxml/lxmlhtml.html" target="_blank">http://codespeak.net/lxml/lxmlhtml.html</a>). lxml è una delle migliori<br>
librerie XML per Python, ed lxml.html è un parser tollerante specifico<br>
per l'HTML.</blockquote><div><br></div></div><div>Mi puoi fare un esempio di estrazione come devo fare io con lxml?</div></div>
<br>_______________________________________________<br>
Python mailing list<br>
<a href="mailto:Python@lists.python.it">Python@lists.python.it</a><br>
<a href="http://lists.python.it/mailman/listinfo/python" target="_blank">http://lists.python.it/mailman/listinfo/python</a><br>
<br></blockquote></div><br>