original in en Iznogood
en to fr Iznogood
Schon seit einiger Zeit mit GNU/Linux befasst, benutze ich nun ein Debian-System. Trotz elektronischer Studien habe ich �berwiegend �bersetzungsarbeiten f�r die GNU/Linux-Gemeinschaft gemacht.
Ich habe gelesen, das einige US-Universit�ten es Google erlauben und dabei helfen, ihre Bibliothek in numerischer Form zu digitalisieren. Ich bin nicht Google und ich verf�ge nicht �ber eine Universit�tsbibliothek, aber ich besitze einige alte Papermagazine �ber Elektronik. Die Papierqualit�t war nicht die beste: Seiten l�sen sich, das Papier graut ...
Daher habe ich mich entschlossen, es zu digitalisieren, denn obwohl die Ausgaben vor 10 Jahren stoppten, sind einige Artikel immer noch aktuell!
Am Anfang musste ich die Daten in den Computer bringen. Ein Scanner erm�glicht mir dies: nach einigen Kompatabilit�tspr�fungen kaufte ich einen alten gebrauchten, aber billigen ScanJet 4300C, und nach einiger Internetnavigation fand ich die erforderlichen Einstellungen zur Konfiguration.
Unter Debian installierte ich sane, xsane, gocr und gtk-ocr ganz normal mit:
apt-get install sane xsane gocr gtk-ocrals root.
sane-find-scannerdann wechselte ich nach /etc/sane.d/, um einige Dateien zu editieren:
hp niashund alles andere wurde auskommentiert.
/dev/usb/scanner0 option connect-deviceund alles andere wurde auskommentiert.
chgrp scanner scanner0und f�gte iznogood als Anwender hinzu, um mir die Benutzung des Scanners zu erm�glichen, ohne root zu sein:
adduser iznogood scannerNach einem Reboot war alles erledigt!
append="hdb=ide-scsi ignore hdb"dann ein Aufruf von
liloum es zu aktualisieren.
/dev/sdc0 /dvdrom iso9660 user, noauto 0 0hinzu. Dann �nderte ich die Gruppe scd0 auf cdrom
chgrp cdrom scd0Recht einfach.
Zur Fortsetzung des Prozesses ben�tige ich einige Software:
sane, xsane, gimp, gocr, gtk-ocr, einen Text-Editor, einen HTML-Editor und etwas Plattenplatz.
Sane ist das Scan-Programm und xsane ist die grafische Oberfl�che.
Meine Vorstellung war, die maximale Aufl�sung beizubehalten und damit eine 50 MB-Datei f�r eine Seite zu erhalten, sie zur weiteren Verarbeitung auf Platte zu speichern und nach der Fertigstellung auf
eine DVD-ROM zu brennen.
Ich setzte die Aufl�sung auf 600 dpi, etwas mehr Helligkeit und startete die Umwandlung. Da dies auf einem sehr altem Rechner (PII 350 MHz) lief, dauerte es etwas, aber ich erhielt ein gutes und
pr�zises Bild. Ich speicherte es im png-Format.
Warum solch eine Aufl�sung und eine 50 MB-Datei? Ich wollte eine maximale Aufl�sung f�r das Archiv und f�r weitere digitale Verarbeitung.
Mittels Gimp schnitt ich die Seite in grafische Bilder und Bilder, die nur den eingescannten Text enthielten.
Die Grafiken wurden mit einer reduzierten Gr��e in png gespeichert, damit sie auf eine HTML-Seite passen und die Textabbilder wurden nicht reduziert, aber von Farbe auf Grauwerte ge�ndert (Werkzeuge, Farbwerkzeuge, Schwellwert und OK) und f�r die weitere Verarbeitung mit der OCR-Software unter der .pcx-Erweiterung gespeichert.
cat *.txt > test.txterhalte ich eine Datei test.txt und kann mit einem Texteditor einige Anpassungen vornehmen (nicht franz�sische Zeichen entfernt, Worte korrigiert ...).
Ich erinnere mich an einen Mathe-Lehrer, der mir, als ich jung wahr, folgende Maxime erz�hlte:
"Um faul zu sein, muss man intelligent sein".
Ok, ich wurde faul!!!! ;-)
Es gibt einige manuelle Aufgaben, die nicht leicht zu automatisieren sind (Verzeichnis-Erstellung, Scannen, Gimp-Ausschnitte und Dateierstellung). Der Rest kann automatisiert werden.
Es gibt ein fabelhaftes englisches Tutorial �ber Bash-Skripting, ABS (Advanced Bash Scripting Guide),
und ich fand eine franz�sische �bersetzung.
Sie finden die englische Version unter www.tldp.org.
Dieses Handbuch erm�glichte mir das Schreiben eines kleinen Programmes. Hier ist das Skript:
#!/bin/bash REPERTOIRE=$(pwd) cd $REPERTOIRE mkdir ../ima mv *.png ../ima/ for i in `ls *` do gocr -f UTF8 -i $i -o $i.txt done cd .. mv ima/ $REPERTOIRE cd $REPERTOIRE cat *.txt | sed -e 's/_//g' -e 's/(PICTURE)//g' -e 's/�/i/g' \ -e 's/�/i/g' -e 's/F/r/g' -e 's/�/i/g' > test.txt
ocr-rppwd �bergibt den Verzeichnispfad an das Skript, dann wird ima ausserhalb des Verzeichnisses angelegt und alle .png-Dateien dorthin verschoben. Alle Textdateien werden aufgelistet, mit gocr bearbeitet, in test.txt zusammengefasst und zur Anpassung franz�sischer Zeichen bearbeitet.