[Python] Recuperare ed elaborare i post in Wordpress per farne un libro
Daniele Varrazzo
piro a develer.com
Gio 18 Apr 2013 14:01:02 CEST
On 2013-04-18 10:38, Manlio Perillo wrote:
> -----BEGIN PGP SIGNED MESSAGE-----
> Hash: SHA1
>
> Il 18/04/2013 11:22, Nicola Larosa ha scritto:
>> Karim wrote:
>>> Ora il problema è pulirli dal codice html e collezionarli in modo
>>> che
>>> siano pubblicabili in un PDF che andrà a finire in mano all'editore
>>> per una prima analisi.
>>> [...]
>>> Per creare il pdf potrei generare un documento latex. Pur
>>> conoscendo
>>> il latex, non ho mai "automatizzato" il processo, voi sapete
>>> qualcosa
>>> a proposito?
>>
>> Al tuo posto non userei LaTEX (né docbook), ma docutils e
>> ReStructuredText <http://docutils.sourceforge.net/>, magari con
>> l'aggiunta di Sphinx <http://sphinx-doc.org/>.
>>
>
> Il problema è che lui non deve solo convertire, ma poi analizzare e
> trasformare, in modo da ripulire il testo.
>
> LaTeX e ReStructuredText non sono dei formati che raccomanderei per
> questo tipo di compito; sono relativamente facili da scrivere, ma
> complessi da gestire in modo automatico.
Invece io credo che reST sia proprio la scelta giusta, perché è un
linguaggio non solo semplice da editare a mano, ma ha tutti gli
strumenti di manipolazione di testo necessari per fare cose semplici
(per cui sono i tool già scritti: rst2html, pdf, credo anche docbook...)
e personalizzate (i tool sono semplici da estendere, l'ho fatto più
volte).
Editare docbook a mano è penoso quasi come editare xml a mano (un po'
meno perché è <em>sgml</>). Inoltre la toolchain docbook è quanto di più
favolosamente contorto esista (FO/PDF, DSSSL...): impermeabile ad ogni
tentativo di comprensione e personalizzazione.
Anche LaTeX per la generazione dell'HTML in particolare crea problemi e
non è facile da personalizzare: puoi usarlo se vuoi che il tuo libro
sembri un articolo matematico (con formule bellissime!) e il tuo sito
web abbia quell'aspetto nonsoché 1995 (e con le formule matematiche che
fanno cagare, renderizzate in bitmap: vengono meglio in reST+MathJax, ma
questo è un altro discorso).
Sphinx (che è basato su docbook: il linguaggio è reST con direttive e
ruoli aggiuntivi) ha effettivamente il vantaggio di avere estensioni
come :ref: che consentono riferimenti da un documento all'altro (reST ha
solo primitive di riferimento all'interno dello stesso documento), ma
andrebbe personalizzato altrimenti il tuo sito sembrerà l'help del
Python :)
--
Daniele Varrazzo - Develer S.r.l.
http://www.develer.com
Maggiori informazioni sulla lista
Python