Bestandsdokumentation digitalisieren
Aus jahrzehntealtem Doku-Bestand wird in Wochen ein versioniertes, normkonformes System. OCR und KI-Pipeline migrieren PDF, DOCX und Papier-Scans zu medienneutralen Modulen.
Die fünf Phasen einer Bestandsdoku-Migration
Inventarisierung
Alle Quellen werden gesichtet — PDFs, DOCX-Dateien, eingescannte Papier-Originale, alte FrameMaker-Files. DocTwin hasht jede Quelle (SHA-256), erkennt Duplikate, gruppiert nach Produkt und Norm-Geltung.
OCR + Extraktion
Papier-Bestand läuft durch Tesseract-OCR. Layout-Metadaten (Seitenzahlen, Tabellenstrukturen, Bildunterschriften) werden mit-extrahiert. PDF-Volltext wird mit pdfplumber gelesen. Word-Files via python-docx.
KI-Strukturierung
Multi-LLM-Pipeline analysiert den extrahierten Text, schneidet Topics, schlägt Module vor. Sicherheitshinweise, Bedienschritte, technische Daten werden in passende Custom-Nodes überführt. Verdacht-Stellen bekommen ein [PRÜFEN]-Flag.
Review + Freigabe
Redakteur oder Reviewer geht durch [PRÜFEN]-Flags, ergänzt fehlende Inhalte, gibt Module frei. Regel-Engine prüft kontinuierlich gegen IEC 82079-1, MDR, EU MVO 2023/1230 und markiert Verstöße.
Export
Sechs Formate raus: DOCX mit Corporate-Vorlage, PDF, DITA-XML für Schema ST4 / Paligo / Tridion, iiRDS 1.3 für mobile Endgeräte, AAS V3 für Industrie-4.0, HTML. Single Source of Truth bleibt im System.
Häufige Fragen zur Migration
Wie lange dauert eine Bestandsdokumentations-Migration?
Hängt vom Volumen und Quellenqualität ab. Für ein typisches Maschinenbau-Produktportfolio mit 50–200 Bestandsdokumenten rechnen wir mit 6–12 Wochen. Papier-Scans mit schlechtem OCR-Output brauchen mehr manuelle Nachpflege. Die Pipeline läuft parallel, Redakteure prüfen begleitend.
Was passiert mit unseren bestehenden Word-Dateien?
Die bleiben als Quelle erhalten und werden referenziert. DocTwin importiert den Inhalt strukturiert in Module — die ursprüngliche Datei kann jederzeit zurückverfolgt werden (Source-Hash + Page-Range pro Modul). Sie bekommen sechs Export-Formate UND behalten die Originale.
Wie wird OCR-Qualität sichergestellt?
Tesseract ist erstaunlich gut bei sauberen Scans. Bei unsauberen Quellen markiert DocTwin Stellen mit niedriger OCR-Konfidenz mit [PRÜFEN]-Flag — kein automatisches Verschlucken. Vor-OCR-Bildverbesserung (Deskew, Denoise) ist im Pipeline-Setup vorbereitet.
Was ist mit Grafiken und technischen Zeichnungen?
Bilder werden extrahiert, dedupliziert (SHA-256 pro Tenant), via Vision-AI annotiert (Caption, erkannte Objekte) und als Image-Module referenziert. CAD-Zeichnungen können als Bild eingebunden werden — strukturierte CAD-Daten-Übernahme ist Sonderprojekt.
Können wir das selbst machen oder brauchen wir Sie als Dienstleister?
Beides möglich. DocTwin ist self-service nutzbar — Sie registrieren sich, laden hoch, prüfen, exportieren. Bei großen Bestandsmengen oder Norm-kritischen Inhalten ist ein Outsourcing-Paket mit Schübeler-Consulting-Redaktion oft schneller und sicherer. Siehe Outsourcing-Page.
Bestandsdoku-Audit kostenlos
Wir schauen uns 3 typische Bestands-Dokumente an, bewerten Migrations-Aufwand und liefern eine Roadmap. 60 Minuten, kostenfrei.