Vielen Dank für eure Tipps!
Der aktuelle Stand ist der, dass wir zunächst PDFs in verschlüsselter und unverschlüsselter Form behandeln und in mehrstufiger verarbeitung eventuelle Verschlüsselungen knacken.
Danach gehen die PDFs durch die ABBYY-OCR-CLI, eine recht leistungsstarke OCR-Software die auf Linux per Kommandozeile gesteuert werden kann.
Als Ergebnis erhält man eine PDF aus der man die Texte herauskopieren kann und einen Texteintrag in der Datenbank.
Was die Konvertierung aus DOC, PPT usw. betrifft, hatte ich bisher auch nur Windows-Programme gefunden, aber noch nix wirklich Attraktives für Linux.