[Python] Estrarre stringa da stringa

Marco Giusti marco.giusti a gmail.com
Gio 30 Set 2010 09:12:17 CEST


On Wed, Sep 29, 2010 at 04:54:44PM +0200, Marco Beri wrote:
> 2010/9/29 Marco Giusti <marco.giusti a gmail.com>
> 
> > On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
> > [...]
> > > Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal
> > > contesto come l'HTML: per esempio è difficile estrarre dati in presenza
> > > di tag annidati.
> >
> > Immagino che già conosci questa risposta su stackoverflow[1] ma gli
> > altri che hanno proposto di usare le espressioni regolari forse no.
> >
> > [1] http://tinyurl.com/ydb4j9j
> 
> 
> FANTASTICA :-))
> 
> Grazie.

:) si, decisamente.

> E dire che dovrei saperlo bene che non si devono usare le regex per parsare
> l'HTML :-)
> 
> http://stacktrace.it/2007/11/ce-sempre-leccezione-alla-regular/

si, conoscevo questo aspetto delle espressioni regolari: un paio di
volte ero incappato nel blocco totale di kodos (editor di espressioni
regolari) e indagando un po' ero anche arrivato all'articolo di Russ
Cox. Illuminante anche se non ho approfondito più di tanto.

E ora qui smentisco tutto (o in parte) quello che ho detto: avete mai
letto i sorgenti di HTMLParser?

Forse qui entro nell'OT, ma indagavo sulla possibilità, e sulle
performance, di parsare l'html con le coroutine. Avete qualche link che
approfondisca la questione (python o non python)? Iniziando un piccolo
esperimento in realtà avevo visto fin da subito che le performance erano
nettamente peggiori di quelle di HTMLParser e quindi ho abbandonato, ma
la curiosità si sa'...

ciao
m.

-- 
Lo punite del fatto che la sua infanzia ha strisciato sul suolo senza
stelo e senza tutore; gli imputate come un misfatto l'isolamento in cui
lo avete lasciato; della sua sventura fate il suo delitto! Nessuno gli
ha insegnato a sapere ciò che faceva: quest'uomo ignora. La sua colpa
appartiene al suo destino, non a lui. Voi colpite un innocente.
		-- Victor Hugo


Maggiori informazioni sulla lista Python