[Python] Recuperare ed elaborare i post in Wordpress per farne un libro
Manlio Perillo
manlio.perillo a gmail.com
Gio 18 Apr 2013 14:38:49 CEST
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1
Il 18/04/2013 14:01, Daniele Varrazzo ha scritto:
> [...]
>> Il problema è che lui non deve solo convertire, ma poi analizzare e
>> trasformare, in modo da ripulire il testo.
>>
>> LaTeX e ReStructuredText non sono dei formati che raccomanderei per
>> questo tipo di compito; sono relativamente facili da scrivere, ma
>> complessi da gestire in modo automatico.
>
> Invece io credo che reST sia proprio la scelta giusta, perché è un
> linguaggio non solo semplice da editare a mano, ma ha tutti gli
> strumenti di manipolazione di testo necessari per fare cose semplici
> (per cui sono i tool già scritti: rst2html, pdf, credo anche docbook...)
> e personalizzate (i tool sono semplici da estendere, l'ho fatto più volte).
>
> Editare docbook a mano è penoso quasi come editare xml a mano (un po'
> meno perché è <em>sgml</>).
Io infatti avevo ben scritto "gestire in modo automatico". Mi riferivo a
cose come rimuovere i tag per i video e spostarli in una footnote o in
una appendice, o cose simile. Io non mi metterei a fare una cosa del
genere a mano su quel numero di documenti, ed è fondamentale che il
formato del file sia facile da gestire.
Puoi dire quello che vuoi di XML (ed io lo condivido), ma fare delle
trasformazioni su di esso è relativamente facile.
> Inoltre la toolchain docbook è quanto di più
> favolosamente contorto esista (FO/PDF, DSSSL...): impermeabile ad ogni
> tentativo di comprensione e personalizzazione.
>
Si, questo è vero. Ma qualcosa si riesce a tirare su.
> Anche LaTeX per la generazione dell'HTML in particolare crea problemi e
> non è facile da personalizzare:
Dimentichiamo pure LaTeX.
L'unico software in grado di leggerlo correttamente è TeX...
Di certo poi non è pensato per la manipolazione automatica.
> puoi usarlo se vuoi che il tuo libro
> sembri un articolo matematico (con formule bellissime!) e il tuo sito
> web abbia quell'aspetto nonsoché 1995 (e con le formule matematiche che
> fanno cagare, renderizzate in bitmap: vengono meglio in reST+MathJax, ma
> questo è un altro discorso).
>
> Sphinx (che è basato su docbook: il linguaggio è reST con direttive e
> ruoli aggiuntivi) ha effettivamente il vantaggio di avere estensioni
> come :ref: che consentono riferimenti da un documento all'altro (reST ha
> solo primitive di riferimento all'interno dello stesso documento), ma
> andrebbe personalizzato altrimenti il tuo sito sembrerà l'help del
> Python :)
>
C'è anche asciidoc, che si basa più direttamente su docbook, e fornisce
anche un utility per facilitare la gestione del toolchain
asciidoc -> docbook -> pdf/html/etc
Il problema però resta sempre quello della gestione automatica.
Mi sembra che almeno reST offra un parser che l'utente può usare, ma non
ne sono sicuro (e non ho voglia di controllare).
Ciao Manlio
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.10 (GNU/Linux)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/
iEYEARECAAYFAlFv6VkACgkQscQJ24LbaUT77QCfRAwenl750r9cfz4fNw32Lde3
eu4An21EXzSmXrF75EaIDCDYbLXsI75h
=bMu/
-----END PGP SIGNATURE-----
Maggiori informazioni sulla lista
Python