0x1b - ESCAPE
HTML PDF Postscript
 PDF und PS 
Computer Geschrieben von Beat Rubischon (Link) am Mittwoch, 22. Oktober 2008, 17:22
aus dem goodies dept.

Manchmal hat man eine Lösung - und sucht nach dem passenden Problem :-) Mir passiert mit HTMLDOC.

Vor vielleicht einem halben Jahr spuckte ein von mir gewarteter Webserver mit Fehlermeldungen um sich. Der Webdesigner sagte mir dann, dass mit dem Upgrade von Debian das Verhalten von HTMLDOC nicht mehr gleich sei. Ich löste das Problem nach kurzer Konsultation der Doku mit einem export HTMLDOC_NOCGI=1 in seinem Script.

Jetzt stand ich vor dem Problem, möglichst einfach ein PDF Dokument dynamisch zu bauen. Ich kann etwas lausigen HTML - warum nicht dieses nehmen und per htmldoc on the fly konvertieren? Aber erst brauche ich etwas Erfahrung mit dem Tool, sonst geht das in die Hosen.

So hatte ich die Lösung und brauchte ein Problem. Gefunden habe ich es in meinen eigenen Webseiten. Drei Icons, ein bisschen Perl und lynx bzw. htmldoc verwandeln meine (und nur meine :-) Webseiten in reinen Text, PDF bzw. Postscript.

Das Programm ist nicht sonderlich schlau, es kennt in etwa HTML 3 / HTML 4. Die Resultate sind daher nicht immer ideal, es sei denn, man konvertiert eine altmodische Webseite oder schreibt den Code explizit für den Einsatz mit HTMLDOC. Meiner Webapplikation steht auf alle Fälle nichts mehr im Wege!

Permalink

Das Kleingedruckte: Der Besitzer der folgenden Kommentare ist wer immer sie eingeschickt hat. Wir sind in keiner Weise für sie verantwortlich.

  • mail@renemoser.net Re: PDF und PS
    Geschrieben von resmo (Link) am Donnerstag, 23. Oktober 2008, 10:20

    zudem hatte ich Probleme mit UTF8 codierten Seiten.

    Mein Aufgabe:

    Ein internes Wiki in ein PDF (alle Seiten in einem Rutsch) zu migrieren, so dass man eine anständige Doku bekommt.

    Nun hatte ich 2 Ansätze, entweder den Wikitext aller Seiten dumpen, dafür gibt es ein CLI PHP script in Mediawiki welches XML liefert in welchem dann WikiText steht, oder aber man lädt die Seiten per HTTP runter mit Hilfe der Links in Spezial:Alle_Seiten.

    Ich fände den 1. Ansatz sauberer, jedoch ist die Umsetzung aufwändiger, der 2. Ansatz geht soweit recht gut, jedoch gibt es Probleme mit UTF8 und man ist abhängig von Netzwerk. Bei unserem Wiki, welcher nur über eine Authentifizierung Zugriff gewährt, musste ich zudem die Config hacken, so dass eine IP auch ohne Auth Zugang erhielt.

    Es gibt x Tools die behaupten, das zu können, aber keines macht es richtig, oder sind unbrauchbar.

    Alles etwas "unschön". Versuche nun den 1. Ansatz umzusetzen.


    • beat@0x1b.ch Re: PDF und PS
      Geschrieben von Beat Rubischon (Link) am Donnerstag, 23. Oktober 2008, 11:47

      jedoch gibt es Probleme mit UTF8

      Guck Dir recode an. Ein recode utf-8..iso-8859-1 sollte das tun, was Du brauchst.