- Anzeige -
|
|
|
|
|
|
|
19.10.2011, 19:35
|
#1
|
Energieeffizienzklasse A
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
|
Linux - PDF-Konverter gesucht
Liebe Leute,
ich hatte mich wohl etwas zu weit aus dem Fenster gelehnt, nachdem ich kurz bei CPAN nach verfügbaren Perl-Modulen für die PDF-Konvertierung geschaut hatte.
Nun zum zu lösenden Problem:
Es sollen sämtliche Dateiformate (inklusive doc, docx, ppt, rtf usw.) vollautomatisch in Stapelverarbeitung in PDF konvertiert werden.
Das ganze soll per cronjob auf Ubuntu 10.10 (Minimalsystem 64-Bit) laufen.
Anschließend werden die PDFs durch die ABBYY-OCR-CLI gesendet und falls das Ergebnis nicht ausreichend war, per Fallback durch das Perl-OCR2-Modul geschliffen. Der extrahierte Text wird dann in einen Referenzdatensatz in einer MySQL-Tabelle geschrieben. Dieser Teil klappt ganz gut.
Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.
Es gibt zwar ein Tool ( webPDF.portal), das 100 verschiedene Dateiarten in PDF konvertieren kann. Allerdings kostet das fast 4000 Euro und fällt von daher für dieses Projekt aus.
Für Eure Tipps wäre ich sehr dankbar!
|
|
|
19.10.2011, 21:30
|
#2
|
Genießer
Registriert seit: 08.08.2007
Ort: Berlin
Fahrzeug: E38-750iL (06.99) MK4(16:9) / BM54 / DSP / CP600 / R-Cam
|
Hallo,
Zitat:
Zitat von bommelmann
Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.
|
das müsste mit LibreOffice ganz gut gehen. Das ist sicher auch zu scripten, notfalls eben mit Makros. Im Zweifel ist die User-Mailingliste dort eine gute Quelle für Hilfe und Hinweise.
Ansonsten finde ich oft gute Info im Usenet und einer Linux User Group (in diesem Fall wohl die BeLUG). Aber ich vermute, das ist Dir ohnehin schon bestens bekannt.
Gruß
Boris
__________________
Wer einen Engel sucht und nur auf die Flügel schaut,
könnte eine Gans nach Hause bringen.
(Georg Christoph Lichtenberg)
|
|
|
22.10.2011, 12:20
|
#4
|
Energieeffizienzklasse A
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
|
Danke, an LaTex hatte ich noch gar nicht gedacht.
Kann denn LaTex gut mit DOC und DOCX umgehen?
Der Kunde meinte, dass es bereits suboptimale Erfahrungen mit OpenOffice gibt. Sonst hätte ich die DOCs per Script durch OpenOffice geschleust. OpenOffice sollte doch tendenziell leistungsfähiger sein als LaTex, oder?
|
|
|
22.10.2011, 13:51
|
#5
|
Moderator
Registriert seit: 22.07.2006
Ort: Ruhrgebiet
Fahrzeug: S50B32
|
Egal womit Du da dran gehst - wenn da nicht "Microsoft Word" dransteht wirst Du immer mit Einbussen rechnen müssen.
Kann man nicht den Detail Seite Word Viewer über Emu zum rennen bekommen?
Print2Pdf dann über Ghostscript.
|
|
|
24.10.2011, 09:30
|
#6
|
Gast
|
Zitat:
Zitat von bommelmann
Danke, an LaTex hatte ich noch gar nicht gedacht.
Kann denn LaTex gut mit DOC und DOCX umgehen?
Der Kunde meinte, dass es bereits suboptimale Erfahrungen mit OpenOffice gibt. Sonst hätte ich die DOCs per Script durch OpenOffice geschleust. OpenOffice sollte doch tendenziell leistungsfähiger sein als LaTex, oder?
|
Das kommt nach meiner Erfahrung darauf an, was man mit einem "Textsystem"
zu arbeiten hat. Also Briefe schreiben würde ich mit LaTex nicht, da könnte ich
ja gleich beim VI Editor bleiben , dafür und alle üblichen Büroarbeiten setzen
wir LibreOffice früher eben OpenOffice ein.
Ich hab da keine suboptimalen Erfahrungen ...
Für Aufgaben, wie automatische Format Konvertierung von Textstapeln, ist LibreOffice
sicher suboptimal, dafür ist es aber auch nicht vorgesehen meine ich. Nachdem Du ja
eh in einer Linux Umgebung arbeitest, gibt es einige Lösungen dafür.
Wenn Du in der Windows Welt bleiben möchtest gibt es hier eine Lösung:
Download Batch Text To PDF 1.1 Free - PDF conversion made easy. - Softpedia
Batch Text To PDF - Free software downloads and software reviews - CNET Download.com
hier gibts auch was ..
PDF Batch Stamp Tool - Shell (Befehlszeile) Tool um PDF zu stempeln
Free Text To PDF Converter convert txt to pdf pdf to text SDK-COM converts pdf to text
oder auch hier .. andere Richtung :-)
Ultra Shareware - Ultra Document To Text Converter, Batch PDF to text, convert doc, docx, ppt, pptx, html, mht and xls, xlsx to text
Viel Erfolg!
|
|
|
09.12.2011, 18:34
|
#7
|
Gesperrt
Premium Mitglied
Registriert seit: 03.06.2003
Ort:
Fahrzeug: e38
|
|
|
|
09.12.2011, 19:11
|
#8
|
Energieeffizienzklasse A
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
|
Vielen Dank für eure Tipps!
Der aktuelle Stand ist der, dass wir zunächst PDFs in verschlüsselter und unverschlüsselter Form behandeln und in mehrstufiger verarbeitung eventuelle Verschlüsselungen knacken.
Danach gehen die PDFs durch die ABBYY-OCR-CLI, eine recht leistungsstarke OCR-Software die auf Linux per Kommandozeile gesteuert werden kann.
Als Ergebnis erhält man eine PDF aus der man die Texte herauskopieren kann und einen Texteintrag in der Datenbank.
Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.
|
|
|
09.12.2011, 19:32
|
#9
|
Gesperrt
Premium Mitglied
Registriert seit: 03.06.2003
Ort:
Fahrzeug: e38
|
Zitat:
Zitat von bommelmann
...
Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.
|
Ganz in Linux bleibt man hiermit...
Der Rest findet sich auch noch im o.g. Link
Vll. lässt sich das Eine oder Andere noch Feinschleifen...
|
|
|
Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
|
|
Forumregeln
|
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.
HTML-Code ist aus.
|
|
|
|