<div class="gmail_quote">2010/9/29 franco93it <span dir="ltr">&lt;<a href="mailto:franco93it@gmail.com">franco93it@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

Salve.<div>Scarico il sorgente di una pagina web in questo modo:</div><div><br></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div>import urllib</div><div><div>sock = urllib.urlopen(&quot;<a href="http://www.sito.ext/pagina.ext" target="_blank">http://www.sito.ext/pagina.ext</a>&quot;)</div>


</div><div><div>sorgente = sock.read()</div></div><div><div>sock.close()</div></div></blockquote></blockquote><div><br></div><div>import re</div><div>r = re.compile(&#39;(&lt;!--.*?--&gt;)|(&lt;[^&gt;]*&gt;)|([^&lt;]+)&#39;, re.DOTALL)</div>

<div>for x, y, z in r.findall(sorgente):</div><div>     if z.strip():</div><div>       print z.replace(&quot;&amp;nbsp;&quot;, &quot; &quot;)</div><div><br></div><div>Ciao.</div><div>Marco.</div><div><br></div></div>-- <br>

<a href="http://thinkcode.tv/gratis">http://thinkcode.tv/gratis</a> - Capire in 15 minuti cosa può fare Python<br><a href="http://stacktrace.it">http://stacktrace.it</a> - Aperiodico di resistenza informatica<br><a href="http://python.thinkcode.tv">http://python.thinkcode.tv</a> - Videocorso di Python<br>

<a href="http://beri.it">http://beri.it</a> - Blog di una testina di vitello<br><br>