Sie sind nicht angemeldet! Jetzt interner Link kostenlos im Forum registrieren, weniger Werbung sehen, aktiv teilnehmen und weitere Vorteile nutzen! Diese Website nutzt Cookies. Bitte beachten Sie unsere interner Link Datenschutzerklärung.
  Start » Forum Impressum/Datenschutz | Site-Map
7-forum.com   ModelleForummein.7erService


Forumsfunktionen

BMW Neuheiten
So sieht die Neue Klasse als SAV aus: der BMW Vision Neue Klasse X.
BMW Vision Neue Klasse X (2024)

 
Der neue MINI Cooper E im Classic Trim: Elektrisch, effizient, emotional.
MINI Cooper E (J01)

 
Der neue BMW 5er Touring. Modell G61, ab Mai 2024.
BMW 5er Touring (G61, ab 2024)

 
Der neue MINI Cooper mit Ottomotor: Der neue MINI Cooper C und der neue MINI Cooper S.
MINI Cooper C und der neue MINI Cooper S

 
Jetzt mit Handschalter: der BMW Z4 in der Edition Pure Impulse.
BMW Z4 Edition Pure Impulse mit Handschaltung

 
- Anzeige -

Zurück   BMW 7er-Forum > 7er-Community > Computer, Elektronik und Co



Antwort
 
Thema teilen Themen-Optionen Ansicht
Alt 19.10.2011, 19:35   #1
bommelmann
Energieeffizienzklasse A
 
Benutzerbild von bommelmann
 
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
Standard Linux - PDF-Konverter gesucht

Liebe Leute,

ich hatte mich wohl etwas zu weit aus dem Fenster gelehnt, nachdem ich kurz bei CPAN nach verfügbaren Perl-Modulen für die PDF-Konvertierung geschaut hatte.

Nun zum zu lösenden Problem:

Es sollen sämtliche Dateiformate (inklusive doc, docx, ppt, rtf usw.) vollautomatisch in Stapelverarbeitung in PDF konvertiert werden.

Das ganze soll per cronjob auf Ubuntu 10.10 (Minimalsystem 64-Bit) laufen.


Anschließend werden die PDFs durch die ABBYY-OCR-CLI gesendet und falls das Ergebnis nicht ausreichend war, per Fallback durch das Perl-OCR2-Modul geschliffen. Der extrahierte Text wird dann in einen Referenzdatensatz in einer MySQL-Tabelle geschrieben. Dieser Teil klappt ganz gut.

Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.

Es gibt zwar ein Tool (Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) webPDF.portal), das 100 verschiedene Dateiarten in PDF konvertieren kann. Allerdings kostet das fast 4000 Euro und fällt von daher für dieses Projekt aus.

Für Eure Tipps wäre ich sehr dankbar!
bommelmann ist offline   Antwort Mit Zitat antworten
Alt 19.10.2011, 21:30   #2
BKirk
Genießer
 
Benutzerbild von BKirk
 
Registriert seit: 08.08.2007
Ort: Berlin
Fahrzeug: E38-750iL (06.99) MK4(16:9) / BM54 / DSP / CP600 / R-Cam
Standard

Hallo,
Zitat:
Zitat von bommelmann Beitrag anzeigen
Als Lösung des Konvertier-Problems hatte ich a2ps (any_to_postscript) installiert und die Dateien dort "auszudrucken" versucht. Das klappte bisher nicht. DOC hat er gar nicht verarbeitet und bei Excel hat er eine leere PDF erzeugt.
das müsste mit LibreOffice ganz gut gehen. Das ist sicher auch zu scripten, notfalls eben mit Makros. Im Zweifel ist die User-Mailingliste dort eine gute Quelle für Hilfe und Hinweise.

Ansonsten finde ich oft gute Info im Usenet und einer Linux User Group (in diesem Fall wohl die BeLUG). Aber ich vermute, das ist Dir ohnehin schon bestens bekannt.

Gruß
Boris
__________________
Wer einen Engel sucht und nur auf die Flügel schaut,
könnte eine Gans nach Hause bringen.
(Georg Christoph Lichtenberg)
BKirk ist offline   Antwort Mit Zitat antworten
Alt 21.10.2011, 14:44   #3
roland
Gast
 
Ort:
Fahrzeug:
Standard

Schau doch mal hier rein:
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) https://help.ubuntu.com/community/LaTeX

Gerade für eine "Automatisierung" LaTex wg. der Scripfähigkeit
gut geeignet.
  Antwort Mit Zitat antworten
Alt 22.10.2011, 12:20   #4
bommelmann
Energieeffizienzklasse A
 
Benutzerbild von bommelmann
 
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
Standard

Danke, an LaTex hatte ich noch gar nicht gedacht.

Kann denn LaTex gut mit DOC und DOCX umgehen?

Der Kunde meinte, dass es bereits suboptimale Erfahrungen mit OpenOffice gibt. Sonst hätte ich die DOCs per Script durch OpenOffice geschleust. OpenOffice sollte doch tendenziell leistungsfähiger sein als LaTex, oder?
bommelmann ist offline   Antwort Mit Zitat antworten
Alt 22.10.2011, 13:51   #5
McTube
Moderator
 
Benutzerbild von McTube
 
Registriert seit: 22.07.2006
Ort: Ruhrgebiet
Fahrzeug: S50B32
Standard

Egal womit Du da dran gehst - wenn da nicht "Microsoft Word" dransteht wirst Du immer mit Einbussen rechnen müssen.

Kann man nicht den Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Detail Seite Word Viewer über Emu zum rennen bekommen?

Print2Pdf dann über Ghostscript.
__________________
Komm zur Ruhr! Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Das Ruhrgebiet - Kulturhauptstadt Europas 2010
McTube ist offline   Antwort Mit Zitat antworten
Alt 24.10.2011, 09:30   #6
roland
Gast
 
Ort:
Fahrzeug:
Standard

Zitat:
Zitat von bommelmann Beitrag anzeigen
Danke, an LaTex hatte ich noch gar nicht gedacht.

Kann denn LaTex gut mit DOC und DOCX umgehen?

Der Kunde meinte, dass es bereits suboptimale Erfahrungen mit OpenOffice gibt. Sonst hätte ich die DOCs per Script durch OpenOffice geschleust. OpenOffice sollte doch tendenziell leistungsfähiger sein als LaTex, oder?
Das kommt nach meiner Erfahrung darauf an, was man mit einem "Textsystem"
zu arbeiten hat. Also Briefe schreiben würde ich mit LaTex nicht, da könnte ich
ja gleich beim VI Editor bleiben , dafür und alle üblichen Büroarbeiten setzen
wir LibreOffice früher eben OpenOffice ein.
Ich hab da keine suboptimalen Erfahrungen ...

Für Aufgaben, wie automatische Format Konvertierung von Textstapeln, ist LibreOffice
sicher suboptimal, dafür ist es aber auch nicht vorgesehen meine ich. Nachdem Du ja
eh in einer Linux Umgebung arbeitest, gibt es einige Lösungen dafür.
Wenn Du in der Windows Welt bleiben möchtest gibt es hier eine Lösung:
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Download Batch Text To PDF 1.1 Free - PDF conversion made easy. - Softpedia
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Batch Text To PDF - Free software downloads and software reviews - CNET Download.com
hier gibts auch was ..
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) PDF Batch Stamp Tool - Shell (Befehlszeile) Tool um PDF zu stempeln
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Free Text To PDF Converter convert txt to pdf pdf to text SDK-COM converts pdf to text
oder auch hier .. andere Richtung :-)
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Ultra Shareware - Ultra Document To Text Converter, Batch PDF to text, convert doc, docx, ppt, pptx, html, mht and xls, xlsx to text

Viel Erfolg!
  Antwort Mit Zitat antworten
Alt 09.12.2011, 18:34   #7
skel@on
Gesperrt
Premium Mitglied
 
Registriert seit: 03.06.2003
Ort:
Fahrzeug: e38
Standard

Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Kurz und Knackig
skel@on ist offline   Antwort Mit Zitat antworten
Alt 09.12.2011, 19:11   #8
bommelmann
Energieeffizienzklasse A
 
Benutzerbild von bommelmann
 
Registriert seit: 25.01.2006
Ort: Berlin
Fahrzeug: BMW M850i, Volvo V70
Standard

Vielen Dank für eure Tipps!

Der aktuelle Stand ist der, dass wir zunächst PDFs in verschlüsselter und unverschlüsselter Form behandeln und in mehrstufiger verarbeitung eventuelle Verschlüsselungen knacken.

Danach gehen die PDFs durch die ABBYY-OCR-CLI, eine recht leistungsstarke OCR-Software die auf Linux per Kommandozeile gesteuert werden kann.

Als Ergebnis erhält man eine PDF aus der man die Texte herauskopieren kann und einen Texteintrag in der Datenbank.

Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.
bommelmann ist offline   Antwort Mit Zitat antworten
Alt 09.12.2011, 19:32   #9
skel@on
Gesperrt
Premium Mitglied
 
Registriert seit: 03.06.2003
Ort:
Fahrzeug: e38
Standard

Zitat:
Zitat von bommelmann Beitrag anzeigen
...

Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.
Externer Link (&Ooml;ffnet in neuem Fenster, der Forumsbetreiber distanziert sich vom Inhalt extern verlinkter Seiten.) Ganz in Linux bleibt man hiermit...

Der Rest findet sich auch noch im o.g. Link
Vll. lässt sich das Eine oder Andere noch Feinschleifen...
skel@on ist offline   Antwort Mit Zitat antworten
Antwort


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Betriebsanleitung E65 11/2004 VFL als .pdf gesucht jom BMW 7er, Modell E65/E66 2 27.08.2008 11:19
Elektrik: Webasto BBW 46 PDF Dokument gesucht JensB BMW 7er, Modell E32 2 12.01.2007 20:13
OT: LINUX-Spezis gesucht cesa1882 Computer, Elektronik und Co 63 12.01.2006 11:57
Elektrik: Hi/Low Konverter TomS E38: Tipps & Tricks 8 26.09.2005 23:17


SiebenPunktSieben - das siebte 7er-Jahrestreffen - jetzt den Foto-Bericht anschauen!
Alle Zeitangaben in WEZ +2. Es ist jetzt 18:01 Uhr.

7-forum.com Forum Version 6 powered by vBulletin
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Mit der Nutzung des Forums erklären Sie sich mit den Nutzungsbedingungen einverstanden.
 

 
www.7-forum.com · Alle Rechte vorbehalten · Dies ist kein Forum der BMW Group