Einfach Dokumente digitalisieren

Um Ordnung in die Schuhkartons voller Rechnungen oder Aktenordner voller Dokumente zu bringen, führt der beste Weg über eine Digitalisierung. Dazu genügt ein Scanner oder ein Multifunktionsgerät und die entsprechende Software. [...]

(c) Shutterstock/Jat306

Wollen Sie einen mehrseitigen gedruckten Zeitungsartikel schnell nach einem bestimmten Wort durchsuchen? Oder eingescannte Rechnungen automatisch erfassen und katalogisieren? Oder eine bestimmte Passage aus einem Text kopieren und in ein anderes Dokument einfügen, ohne mühsam alles abzutippen? Bei all diesen Aufgaben helfen eine OCR-Software (Optical Character Recognition = Optische Zeichenerkennung) und ein Scanner. Manche Geräte schaffen das sogar ohne eine zusätzliche Software.

Wenn Sie Ihre Dokumente digitalisiert als PDF-Dateien organisieren, entsteht ein platzsparendes, durchsuchbares Wissensarchiv. Statt mühsam Aktenordner auf der Suche nach einem bestimmten Dokument oder einer Textstelle zu durchforsten, kommen Sie mit durchsuchbaren PDF-Dokumenten in Windeseile zum Ziel.

Zeichenerkennung

Jeder Scan ist im Grunde eine Bilddatei, auch wenn er Textanteile enthält. Bilddateien sind in der Regel im JPEG-Format gespeichert und bestehen aus einer Ansammlung vieler einzelner Bildpunkte, den Pixeln. Diese enthalten jedoch nur die Informationen zur grafischen Wiedergabe auf dem Bildschirm. Ein Computer kann in Bildern enthaltene Wörter und Zahlen nicht als solche erkennen. Sie lassen sich somit nicht kopieren, durchsuchen oder bearbeiten.

Um die eingescannten Texte bearbeiten zu können, benötigen Sie eine zusätzliche Software mit OCR-Funktion. Bei höherpreisigen Scannern oder Multifunktionsgeräten ist oft ein OCR-Programm wie Readiris im Lieferumfang enthalten, bei günstigen Modellen ist das jedoch nur selten der Fall. OCR ermöglicht es, Buchstaben, Wörter und Zahlen in Bilddateien zu erfassen und diese in Texte umzuwandeln, die sich bearbeiten und durchsuchen lassen.

Scanner-Hardware

Die Scanner lassen sich in drei Gruppen einteilen. Folgend eine kurze Übersicht über deren Vorteile.

Flachbettscanner sind ideal für hochwertige Scans, etwa von Büchern, Zeitschriften oder Fotos, Bild 1.

Bild 1: Bei einem Flachbettscanner fährt eine Beleuchtungs- und Abtasteinheit unter der Glasplatte durch. (c) PCtipp.ch

Dokumentenscanner sind für das schnelle Digitalisieren großer Dokumentenmengen konzipiert, Bild 2. Mit einem automatischen Einzug verwandeln sie Stapel von Papier in kürzester Zeit in digitale Formate.

Bild 2: Ein Dokumentenscanner ist darauf spezialisiert, möglichst schnell möglichst viele Dokumente zu digitalisieren. (c) PCtipp.ch

Multifunktionsgeräte sind die Alleskönner, Bild 3. Wer sich nicht nur auf das Einscannen von Dokumenten beschränken möchte, ist mit Multifunktionsdruckern gut beraten. Diese All-in-One-Geräte vereinigen einen Scanner, Drucker und Kopierer in einem Gehäuse. Die Preisspanne reicht von 50 bis 500 Euro, je nach Ausstattung und Funktionen.

Bild 3: Ein Multifunktionsgerät kann nicht nur scannen, sondern auch drucken, kopieren und Faxe verschicken. (c) PCtipp.ch

Scanner-Software

Die meisten Geräte bringen eine hersteller­eigene Software mit, etwa HP Scan (HP), ControlCenter (Brother), Document Capture Pro (Epson) oder IJ Scan Utility (Canon), Bild 4. Hochpreisige Geräte haben mitunter auch professionelle Software wie Kofax Power PDF mit im Paket.

Bild 4: Brother setzt bei seinen Geräten auf eine Scanner-Software mit dem Namen ControlCenter. (c) PCtipp.ch

Manche Scanner bieten eine besondere OCR-Software, die nach dem Scanvorgang im pixelweise abgetasteten Schriftstück die Buchstaben erkennt. Am Ende fällt etwa eine PDF-Datei an, die sich am Computer wie auch am Handy öffnen und nach Begriffen durch­suchen lässt. Dieser OCR-Vorgang ist ziemlich rechenintensiv und nur bei sehr teuren Geräten auch ohne einen Computer möglich. Bei preiswerten Multifunktionsgeräten fehlt eine solche Software oftmals, Bild 5.

Bild 5: Die herstellereigene Scanner-Software verfügt in vielen Fällen nur über Grundfunktionen. (c) PCtipp.ch

Sie können aber auch ein beliebiges anderes Programm verwenden, um die Texte zugänglich und durchsuchbar zu machen. Die Notiz-Software OneNote aus dem Office-Paket von Microsoft verfügt ebenfalls über eine OCR-Funktion. Wenn Sie ein PDF-Dokument oder ein Bild einfügen und danach mit der rechten Maustaste draufklicken, erscheint als Menüpunkt der Befehl Text aus Bild kopieren, Bild 6. Diesen Text können Sie zum Beispiel in Word einfügen und dort bearbeiten und durchsuchen. Bei größeren Textmengen kann es etwas dauern, bis der Befehl im Menü erscheint.

Bild 6: OneNote aus dem Office-Paket von Microsoft unterstützt eine optische Zeichenerkennung. (c) PCtipp.ch
Bild 7: FreeOCR ist kostenlos und wandelt Bilder und PDFs in Text um, der sich direkt in MS Word öffnen lässt. (c) PCtipp.ch

Manche Scan-Software wie FreeOCR ist kostenlos erhältlich, Bild 7. Solche Apps gibt es auch fürs Handy, etwa Adobe Scan, Bild 8, oder Microsoft Lens. Profi-OCR-Programme wie Readiris kosten meist über 100 Euro. Ältere Versionen sind oft günstiger zu haben. Weitere bekannte OCR-Programme sind Abbyy FineReader, Bild 9, und OmniPage.

Bild 8: Mit einer App wie Adobe Scan lassen sich Texte auch mittels Smartphone digitalisieren. (c) PCtipp.ch

Bild 9: Abbyy FineReader ist eine professionelle und kostenpflichtige OCR-Software, liegt jedoch manchen Scannern bei. (c) PCtipp.ch

Scanner-Features

Bei der Auswahl eines Scanners gibt es einiges zu beachten, was die Ausstattung und den Funktionsumfang angeht.

  • Bauart: Wer selten scannt, dem genügt ein günstiges Modell. In der Regel ist das ein Flachbettscanner. Digitalisieren Sie regel­mäßig Dokumente, dann lohnt es sich, etwas tiefer in die Tasche zu greifen. Die zusätzlichen Funktionen sparen viel Zeit und Aufwand. Flachbettscanner mit automatischem Einzug oder schnelle Dokumentenscanner wären hier die beste Wahl.
  • Sensor: Bei den Sensoren gibt es verschiedene Ansätze. CCD-Modelle (Charge Coupled Device) arbeiten mit Leuchtstofflampentechnologie und CIS (Compact Image Sensor) mit LEDs. LiDE (LED indirect Exposure) entspricht weitgehend den CIS-Sensoren und ist eine Bezeichnung von Canon. Der Vorteil von Scannern mit CCD-Sensoren liegt in der hohen Genauigkeit für originalgetreue Scans, auch bei der Digitalisierung von Dias und Fotos. CIS- und LiDE-Modelle sind leichter, schneller und verbrauchen weniger Strom. Bei der Auswahl kommt es darauf an, welche Kriterien Ihnen am wichtigsten erscheinen.
  • Auflösung: Je höher die Auflösung, desto mehr Details erkennt der Scanner. Die optische Auflösung gibt an, wie viele Pixel pro Zoll (dots per inch = dpi) der Scanner erfassen kann. Für die meisten Einsatzzwecke reichen 600 dpi. Höhere Auflösungen blähen die Dateigrößen auf und sind nur dann sinnvoll, wenn Sie stark vergrößern wollen. Für reine Textdokumente genügen 150 bis 300 dpi, Bild 10. Zumeist lassen sich die Werte manuell einstellen. Nur um Fotos oder Negative zu scannen, sind deutlich höhere Werte bis zu 10 000 dpi sinnvoll.

Bild 10: Die Auflösung lässt sich in der Software regeln. Für Texte reichen 150 dpi völlig aus. (c) PCtipp.ch

  • Dual Duplex: Der Scanner sollte beidseitig scannen können, um doppelseitige Dokumente schnell und komfortabel zu verarbeiten. Noch besser sind Scanner mit einer Dual-Duplex-Funktion. Damit muss der Scanner die Dokumente beim doppelseitigen Scannen nicht wenden. Über diese Funktion verfügen aber nur wenige Geräte.
  • Geschwindigkeit: je höher die Scan­geschwindigkeit, desto besser. Die Herstellerangaben beziehen sich jedoch auf ideale Bedingungen. Die Geschwindigkeit hängt von vielen Faktoren ab – etwa, ob es sich um ein Farb- oder Schwarz-Weiß-Dokument handelt. 20 Seiten pro Minute sind ein guter Wert.
  • Formate: DIN-A4-Dokumente sind am häufigsten anzutreffen. Praktisch alle Geräte können das. Es gibt aber auch DIN-A3-Scanner und -Multifunktionsgeräte. Bei noch größeren Formaten wird das Angebot dünn. Wer auch Fotos digitalisieren will, ist mit einem hochauflösenden Flachbettscanner mit Negativaufsatz gut bedient.
  • Dateiformate: Die meisten Scanner unterstützen Ausgabeformate wie TIFF, JPG und PDF. Das TIFF-Format bietet einen höheren Farbumfang als JPG und lässt sich verlustfrei komprimieren. Zudem unterstützt es Ebenen und Transparenz. PDF bietet den Vorteil, dass sich mehrere Seiten in einer PDF-Datei abspeichern lassen. Durchsuchbare PDFs stellen in der Regel die beste Wahl dar.
  • Grauskala: Die Grauskala gibt an, in wie vielen Graustufen sich die Scans speichern lassen. Eine 8-Bit-Skala bedeutet 256 Graustufen, was ausreicht. Eine 16-Bit-Skala umfasst 65.536 Grauwerte; noch höhere Werte sind selten anzutreffen.
  • Farbtiefe: Je höher die Farbtiefe des Scanners, desto mehr Farben kann er darstellen. Eine gängige Farbtiefe beträgt 24 Bit pro Pixel. Bei einem Farbbild mit einer Farbtiefe von 24 Bit lassen sich rund 16,7 Millionen Farbtöne unterscheiden. Das nennt man auch True Colors. Für jeden der drei Farbkanäle Rot, Grün und Blau stehen dabei 256 Tonwertabstufungen zur Verfügung. Noch größere Farbtiefen bis zu 48 Bit sind nur für Spezialanwendungen etwa in der Astronomie notwendig. Dazu kommt, dass nur wenige Bildformate 48-Bit-Bilder speichern können. Die bewährten Formate JPG oder GIF sind reine 24-Bit-Formate. Zudem sind viele Bildbearbeitungsprogramme wie Photoshop Elements nicht in der Lage, mit 48-Bit-Dateien umzugehen. Fazit: Eine Farbtiefe von 24 Bit ist ideal.
  • OCR: Per OCR-Software lassen sich Scans in bearbeitbare Dateien umwandeln (siehe auch „Dokumente digitalisieren“). Meist sind dies PDF, Word- oder Excel-Files, die sich bequem verändern und speichern lassen. Einige Scanner können die Aufnahmen direkt im Netzwerk, auf einem mobilen Gerät oder auch auf einer Speicherkarte ablegen.
  • Dokumentenvorrat: In den Dokumentenvorrat des Scanners sollten mindestens 20 Seiten passen. Ein grosser Vorrat vermeidet häufiges Nachlegen. Die Funktion ADF steht für „Automatic Document Feeder“ also einen automatischen Dokumenteneinzug, und bezeichnet die Fähigkeit eines Scanners, ganze Papierstapel automatisch einzuziehen und zu verarbeiten.
  • Schnittstellen: Zu den wichtigsten Aspekten eines Scanners zählen die Schnittstellen. Eine USB-Verbindung ist sinnvoll, um den Scanner in Verbindung mit einem PC oder Notebook zu nutzen. Auch eine Internet­anbindung kann praktisch sein. Dann lassen sich Scanergebnisse nicht nur an Mobilgeräte schicken, sondern auch als Anhang an eine E-Mail heften oder direkt in die Cloud laden. Die digitalen Schnittstellen TWAIN, ISIS oder WIA ermöglichen das direkte Scannen in Drittherstellerprogramme wie Photoshop. Ohne diese Schnittstellen ist meist nur die herstellereigene Software kompatibel, was die Nutzung stark einschränken kann. Der Quasi-Standard ist TWAIN.

Wenn Sie hier das Installieren der Treiber-Software Windows überlassen, erhalten Sie oft nur einen abgespeckten Scannertreiber, den Sie an der Bezeichnung WIA (Windows Image Acquisition) erkennen. Er stellt zwar eine Verbindung zum Scanner her, bietet allerdings weit weniger Funktionen als die herstellereigenen Programme.

Dokumente digitalisieren

Die mitgelieferte Software der Hersteller eignen sich für die meisten Zwecke schon recht gut. Die meisten Scanprogramme bieten für die Einstellungen einen einfachen und einen erweiterten Modus an. Im einfachen Scan­modus müssen Sie sich keine Gedanken um die Auflösung machen. Sie wählen einfach den jeweiligen Vorlagentyp wie Foto, Zeitschrift oder Dokument aus. Im erweiterten Scan­modus legen sie die Auflösung und andere Werte selbst fest.

Falls eine OCR-Funktion oder andere benötigte Features fehlen, können Sie auch andere Tools einsetzen. Bevor Sie sich eine Extra-Software kaufen: Es gibt gute Freeware-Alternativen. Bei der Wahl des Programms empfiehlt es sich, darauf zu achten, dass es zur OCR-Erkennung die quelloffene Tesseract-Engine einsetzt. Das Projekt stammt ursprünglich von HP, ist inzwischen aber unter dem Dach von Google gelandet.

Ein zuverlässiges Gratisprogramm auf OCR-Basis ist gImageReader (github.com/manisandro/gImageReader), Bild 11. Das Open-Source-Tool kann mit den Bildformaten JPG, PNG und GIF genauso umgehen wie mit PDF-Dateien. Über Quellen und Erfassen wählen Sie das Scanner- oder Multifunktionsgerät aus, um direkt in die Anwendung zu scannen. Den Texterkennungsvorgang starten Sie in der oberen Bedienleiste über Erkennen und Aktuelle Seite oder Mehrere Seiten. Dazu lassen sich Sprachpakete auswählen. Standardmäßig ist das englische Paket vorinstalliert. Über den Auswahlpfeil rechts daneben können Sie zusätzliche Sprachen nachinstallieren. Der Erkennungsprozess kann je nach Textmenge eine Weile dauern. Danach erscheint der Text im Ausgabe-Fenster und lässt sich als Textdatei abspeichern.

Bild 11: Mit der Gratis-OCR-Software gImageReader wird der Text in Bildern bearbeitbar. (c) PCtipp.ch

Eine Alternative ist FreeOCR (freeocr.net). Das Tool hat zwar schon einige Jahre auf dem Buckel, verrichtet aber seinen Dienst. Sie können PDFs oder Bilder mit der OCR-Software öffnen und daraus einen Fließtext erzeugen. Maschinell geschriebene Texte erkennt die Software recht zuverlässig. Ein Klick auf Scan liest das Dokument ein, ein Klick auf OCR startet die Texterkennung. Das Ergebnis lässt sich direkt in Word öffnen oder speichern.

Wollen Sie eingescannte PDF-Dokumente weiterbearbeiten? Ein Multitalent in Sachen PDF ist PDF24 (pdf24.org), Bild 12. Damit können Sie PDFs aufsplitten, zusammenfügen, umwandeln oder mit Kommentaren versehen. Auch eine OCR-Funktion ist dabei.

Bild 12: Das Multitalent PDF24 kann PDF-Dateien aufteilen, zusammenfügen und Vieles mehr. (c) PCtipp.ch

* Andreas Dumont schreibt für PCtipp.ch.


Mehr Artikel

News

Digitale Fähigkeiten der Österreicher:innen lassen zu wünschen übrig

39 Prozent der Beschäftigten in Österreich arbeiten nur selten mit digitalen Tools. Dabei ist klar: die Digitalisierung betrifft immer mehr Jobs. Vor diesem Hintergrund fühlt sich nur etwa jeder Achte hierzulande sehr gut auf die Herausforderungen der Arbeitswelt von morgen vorbereitet. Das sind die Ergebnisse der repräsentativen kununu Arbeitsmarktstudie, für die über 3.000 Beschäftigte in Österreich befragt wurden. […]

News

Mehrheit der Unternehmen könnte den Geschäftsbetrieb nach einer Cyberattacke nicht weiterführen

Den Backups gilt sowohl die Sorge der Securityverantworlichen als auch die Aufmerksamkeit der Hacker. So zeigt die global durchgeführte ESG-Commvault-Studie „Preparedness Gap: Why Cyber-Recovery Demands a Different Approach From Disaster Recovery“, dass nur jedes fünfte Unternehmen weltweit zuversichtlich ist, nach einer Cyberattacke seine Geschäftsprozesse weiterführen zu können. […]

News

KI und Cybersicherheit eröffnen dem Channel Wachstumschancen

Der Bericht „State of the Channel 2025“ zeigt, dass die Nachfrage nach künstlicher Intelligenz im gesamten Channel gestiegen ist, insbesondere bei umsatzgenerierenden Aktivitäten. 53 Prozent der in der DACH-Region befragten Unternehmen betrachten die komplexer werdende Technologie als wichtigsten Faktor für die Kundennachfrage nach Knowhow im Channel. […]

News

Check Point integriert CloudGuard in Nutanix Cloud Platform

Check Point will mit der Kollaboration den Herausforderungen begegnen, denen sich Unternehmen bei der Migration hin zu Cloud-Infrastrukturen gegenübersehen. Durch die Nutzung des Nutanix Service Insertion Frameworks und die Unterstützung des AHV-Hypervisors bietet CloudGuard eine konsistente Durchsetzung von Sicherheitsrichtlinien und Transparenz bezüglich Bedrohungen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*