[Python] Parsing della pagina HTML
Valerio Maggio
valerio.maggio a gmail.com
Mar 16 Lug 2013 14:34:29 CEST
On Jul 16, 2013, at 12:09 PM, Nicola Larosa <nico a tekNico.net> wrote:
> Qui c'č la doc di text_content:
>
> <http://lxml.de/lxmlhtml.html#html-element-methods>
>
> Nello stesso posto trovi le doc di:
>
> - find_class (se conosci la classe CSS degli elementi che ti
> interessano);
> - get_element_by_id (se conosci l'id dell'elemento che ti interessa):
> - cssselect (per usare selettori CSS, molto potenti);
> - un accenno a xpath, documentata altrove
> <http://lxml.de/xpathxslt.html#xpath>, anche molto potente.
>
> L'esempio usa find_class <http://lxml.de/lxmlhtml.html#examples>.
In alternativa, per queste attivitā di web scraping io ho sempre utilizzato
BeautifulSoup (http://www.crummy.com/software/BeautifulSoup/)
Btw:
[…]
Beautiful Soup sits on top of popular Python parsers like lxml and html5lib, allowing you to try out different parsing strategies or trade speed for flexibility.
[…]
--
Valerio
-------------- parte successiva --------------
Un allegato HTML č stato rimosso...
URL: <http://lists.python.it/pipermail/python/attachments/20130716/27643e46/attachment.html>
Maggiori informazioni sulla lista
Python