Werkzeuge f�r die Umwandlung von Papier nach HTML

ArticleCategory: [Choisissez une categorie pour votre article dans la liste ci-dessous dans les cat�gories disponibles]

Applications

AuthorImage:[Nous avons besoin ici d'une petite image de vous]

TranslationInfo:[Mettez votre page personnelle ou votre adresse e-mail ici]

original in en Iznogood

AboutTheAuthor:[Une br�ve biographie de l'auteur]

Schon seit einiger Zeit mit GNU/Linux befasst, benutze ich nun ein Debian-System. Trotz elektronischer Studien habe ich �berwiegend �bersetzungsarbeiten f�r die GNU/Linux-Gemeinschaft gemacht.

Abstract:[Ecrivez ici un r�sum�]

Hier geht es um eine Werkzeugkette zur Umwandlung eines herk�mmlichen Papiermagazins in HTML. Ich werde den Prozess vom Scannen bis zur HTMLifizierung erl�utern.

ArticleIllustration:[Ceci pr�cise l'illustration qui apparaît au d�but de votre article]

ArticleBody:[Le Corps de l'Article]

Einf�hrung

Ich habe gelesen, das einige US-Universit�ten es Google erlauben und dabei helfen, ihre Bibliothek in numerischer Form zu digitalisieren. Ich bin nicht Google und ich verf�ge nicht �ber eine Universit�tsbibliothek, aber ich besitze einige alte Papermagazine �ber Elektronik. Die Papierqualit�t war nicht die beste: Seiten l�sen sich, das Papier graut ...
Daher habe ich mich entschlossen, es zu digitalisieren, denn obwohl die Ausgaben vor 10 Jahren stoppten, sind einige Artikel immer noch aktuell!

Hardware

Am Anfang musste ich die Daten in den Computer bringen. Ein Scanner erm�glicht mir dies: nach einigen Kompatabilit�tspr�fungen kaufte ich einen alten gebrauchten, aber billigen ScanJet 4300C, und nach einiger Internetnavigation fand ich die erforderlichen Einstellungen zur Konfiguration.
Unter Debian installierte ich sane, xsane, gocr und gtk-ocr ganz normal mit:

apt-get install sane xsane gocr gtk-ocr

als root.

Sane und xsane sind die Scanner-Werkzeuge, die mein HP zum Arbeiten ben�tigt.
Gocr und gtk-ocr sind Werkzeuge, um ein Bild in einen Text zu wandeln.

Der Scanner ist ein USB-Scanner:

sane-find-scanner

dann wechselte ich nach /etc/sane.d/, um einige Dateien zu editieren:
in dll.conf aktivierte ich

hp
niash

und alles andere wurde auskommentiert.

In hp.conf und niash.conf trug ich folgendes ein:

/dev/usb/scanner0
option connect-device

und alles andere wurde auskommentiert.

Ich ver�nderte die Gruppenzugeh�rigkeit der Ger�tedatei /dev/usb/scanner mit

chgrp scanner scanner0

und f�gte iznogood als Anwender hinzu, um mir die Benutzung des Scanners zu erm�glichen, ohne root zu sein:

adduser iznogood scanner

Nach einem Reboot war alles erledigt!

Zum Speichern von Bildern sind DVD-Brenner billig genug, z. B. ein NEC 3520. Ich benutze einen alten Kernel (2.4.18), daher benutzte der IDE-Brenner die SCSI-Schnittstelle:
Mittels modconf lade ich ide-scsi

und erweiterte /etc/lilo.conf um:

append="hdb=ide-scsi ignore hdb"

dann ein Aufruf von

 lilo

um es zu aktualisieren.
In /etc/fstab f�gte ich

/dev/sdc0    /dvdrom     iso9660    user, noauto     0  0

hinzu. Dann �nderte ich die Gruppe scd0 auf cdrom

chgrp cdrom scd0

Recht einfach.

Software

Zur Fortsetzung des Prozesses ben�tige ich einige Software:
sane, xsane, gimp, gocr, gtk-ocr, einen Text-Editor, einen HTML-Editor und etwas Plattenplatz.

Sane ist das Scan-Programm und xsane ist die grafische Oberfl�che.
Meine Vorstellung war, die maximale Aufl�sung beizubehalten und damit eine 50 MB-Datei f�r eine Seite zu erhalten, sie zur weiteren Verarbeitung auf Platte zu speichern und nach der Fertigstellung auf eine DVD-ROM zu brennen.
Ich setzte die Aufl�sung auf 600 dpi, etwas mehr Helligkeit und startete die Umwandlung. Da dies auf einem sehr altem Rechner (PII 350 MHz) lief, dauerte es etwas, aber ich erhielt ein gutes und pr�zises Bild. Ich speicherte es im png-Format.
Warum solch eine Aufl�sung und eine 50 MB-Datei? Ich wollte eine maximale Aufl�sung f�r das Archiv und f�r weitere digitale Verarbeitung.
Mittels Gimp schnitt ich die Seite in grafische Bilder und Bilder, die nur den eingescannten Text enthielten.
Die Grafiken wurden mit einer reduzierten Gr��e in png gespeichert, damit sie auf eine HTML-Seite passen und die Textabbilder wurden nicht reduziert, aber von Farbe auf Grauwerte ge�ndert (Werkzeuge, Farbwerkzeuge, Schwellwert und OK) und f�r die weitere Verarbeitung mit der OCR-Software unter der .pcx-Erweiterung gespeichert.

Sie k�nnen das vollst�ndig gescannte Bild oben rechts und die ausgeschnittenen Teile auf der linken Seite sehen.
Wenn Sie die Bilder ausschneiden, k�nnen Sie Titel entfernen, da sie zuviel Platz wegnehmen und von gocr nicht erkannt werden.
Ich erstellte ein Unterverzeichnis ima f�r die Bilder und trennte es von den .pcx-Dateien.

Nun kommt gtk-ocr ins Spiel, die Oberfl�che zu gocr. gocr ist eine Software f�r optische Zeichenerkennung. Es ist recht einfach zu benutzen: Ich musste nur die Dateien ausw�hlen und gtk-ocr verwaltet alles. Ich erhielt eine .txt-Datei f�r jede bearbeitete .pcx-Datei.

Mit einem einfachen

 cat *.txt > test.txt

erhalte ich eine Datei test.txt und kann mit einem Texteditor einige Anpassungen vornehmen (nicht franz�sische Zeichen entfernt, Worte korrigiert ...).

Kopieren/Einf�gen in den HTML-Editor (f�r mich Mozilla Composer) und ich konnte mit der HTML-Erstellung beginnen (achten Sie darauf, nur relative Links zu benutzen, wenn Sie einige Bilder hinzuf�gen).

Bash-Skript

Ich erinnere mich an einen Mathe-Lehrer, der mir, als ich jung wahr, folgende Maxime erz�hlte:

"Um faul zu sein, muss man intelligent sein".

Ok, ich wurde faul!!!! ;-)
Es gibt einige manuelle Aufgaben, die nicht leicht zu automatisieren sind (Verzeichnis-Erstellung, Scannen, Gimp-Ausschnitte und Dateierstellung). Der Rest kann automatisiert werden.
Es gibt ein fabelhaftes englisches Tutorial �ber Bash-Skripting, ABS (Advanced Bash Scripting Guide), und ich fand eine franz�sische �bersetzung.
Sie finden die englische Version unter www.tldp.org.
Dieses Handbuch erm�glichte mir das Schreiben eines kleinen Programmes. Hier ist das Skript:

#!/bin/bash

REPERTOIRE=$(pwd)
cd $REPERTOIRE
mkdir ../ima
mv *.png ../ima/
for i in `ls *`
do
 gocr -f UTF8 -i $i -o $i.txt
done
cd ..
mv ima/ $REPERTOIRE
cd $REPERTOIRE
cat *.txt | sed -e 's/_//g'  -e 's/(PICTURE)//g' -e 's/�/i/g' \
-e 's/�/i/g' -e 's/F/r/g' -e 's/�/i/g' > test.txt

Die Datei wurde ausf�hrbar gemacht und unter root-Berechtigung als ocr-rp nach /usr/local/bin kopiert.

Damit es funktioniert, m�ssen wir uns in dem Verzeichnis befinden, das verarbeitet werden soll und folgendes eingeben:

ocr-rp

pwd �bergibt den Verzeichnispfad an das Skript, dann wird ima ausserhalb des Verzeichnisses angelegt und alle .png-Dateien dorthin verschoben. Alle Textdateien werden aufgelistet, mit gocr bearbeitet, in test.txt zusammengefasst und zur Anpassung franz�sischer Zeichen bearbeitet.

Und wir machen mit dem gleichen Prozess wie vorher weiter: Kopieren/Einf�gen in Mozilla Composer.
Die faulste L�sung w�rde es sein, dass das Skript der Textdatei einige Kopf- und Fusszeilen hinzuf�gt, es speichert und Mozilla Composer direkt �ffnet, aber ich bin zu faul. Das werde ich morgen machen!!!! ;-)

Schlussfolgerung

Dies war nur ein �berblick �ber Digitalisierungswerkzeuge und es gibt offensichtlich mehr als einen Weg und sicherlich auch bessere. Aber es gibt eine Konstante in der GNU/Linux-Welt: die Hardware-Werkzeuge werden von Jahr zu Jahr besser unterst�tzt und sind leichter zu benutzen.
Z. B. benutzte ich einen DVD-Brenner zum Speichern meiner 50 MB-Bilder. Die Installation dauerte 10 Minuten und er funktionierte ohne Probleme mit k3b (Ich musste nur "apt-get install dvdrtools dvd+rwtools" aufrufen).
Aber mit einem alten PII 350, 192MB RAM, einem billigen Scanner, DVD-Brenner und etwas Plattenplatz haben Sie ein Digitalisierungs-Werkzeug, das gut genug ist, um einem alten Elektronik-Papiermagazin "Unsterblichkeit" zu verleihen. Hier sind die Webseiten der Hilfmittel, die ich f�r die Digitalisierung benutzte:

Scanner ist ein HP ScanJet 4300C
sane, www.sane-project.org
xsane, www.xsane.org
gimp, www.gimp.org
gocr, gtk-ocr jocr.sourceforge.net
ABS findet sich unter www.tldp.org
DVD-Brenner: NEC 3520
k3b www.k3b.org