[Python] Recuperare ed elaborare i post in Wordpress per farne un libro

Daniele Varrazzo piro a develer.com
Gio 18 Apr 2013 14:01:02 CEST


On 2013-04-18 10:38, Manlio Perillo wrote:
> -----BEGIN PGP SIGNED MESSAGE-----
> Hash: SHA1
>
> Il 18/04/2013 11:22, Nicola Larosa ha scritto:
>> Karim wrote:
>>> Ora il problema è pulirli dal codice html e collezionarli in modo 
>>> che
>>> siano pubblicabili in un PDF che andrà a finire in mano all'editore
>>> per una prima analisi.
>>> [...]
>>> Per creare il pdf potrei generare un documento latex. Pur 
>>> conoscendo
>>> il latex, non ho mai "automatizzato" il processo, voi sapete 
>>> qualcosa
>>> a proposito?
>>
>> Al tuo posto non userei LaTEX (né docbook), ma docutils e
>> ReStructuredText <http://docutils.sourceforge.net/>, magari con
>> l'aggiunta di Sphinx <http://sphinx-doc.org/>.
>>
>
> Il problema è che lui non deve solo convertire, ma poi analizzare e
> trasformare, in modo da ripulire il testo.
>
> LaTeX e ReStructuredText non sono dei formati che raccomanderei per
> questo tipo di compito; sono relativamente facili da scrivere, ma
> complessi da gestire in modo automatico.

Invece io credo che reST sia proprio la scelta giusta, perché è un 
linguaggio non solo semplice da editare a mano, ma ha tutti gli 
strumenti di manipolazione di testo necessari per fare cose semplici 
(per cui sono i tool già scritti: rst2html, pdf, credo anche docbook...) 
e personalizzate (i tool sono semplici da estendere, l'ho fatto più 
volte).

Editare docbook a mano è penoso quasi come editare xml a mano (un po' 
meno perché è <em>sgml</>). Inoltre la toolchain docbook è quanto di più 
favolosamente contorto esista (FO/PDF, DSSSL...): impermeabile ad ogni 
tentativo di comprensione e personalizzazione.

Anche LaTeX per la generazione dell'HTML in particolare crea problemi e 
non è facile da personalizzare: puoi usarlo se vuoi che il tuo libro 
sembri un articolo matematico (con formule bellissime!) e il tuo sito 
web abbia quell'aspetto nonsoché 1995 (e con le formule matematiche che 
fanno cagare, renderizzate in bitmap: vengono meglio in reST+MathJax, ma 
questo è un altro discorso).

Sphinx (che è basato su docbook: il linguaggio è reST con direttive e 
ruoli aggiuntivi) ha effettivamente il vantaggio di avere estensioni 
come :ref: che consentono riferimenti da un documento all'altro (reST ha 
solo primitive di riferimento all'interno dello stesso documento), ma 
andrebbe personalizzato altrimenti il tuo sito sembrerà l'help del 
Python :)


-- 
Daniele Varrazzo - Develer S.r.l.
http://www.develer.com


Maggiori informazioni sulla lista Python