[TUT] Leitfaden zum selbst scannen und "eBooken"
Ob gut oder schlecht, das hier wird ein Leitfaden zur Digitalisierung von Büchern -
ohne der Verwendung eines Wordprozessors wie MS Word, oder Openoffice (bisheriger Szenestandard), auch wenn es umstritten ist - da es so schneller geht.
Ich verlinke in diesem Beitrag bereits erstellte andere Tutorials meinerseits um den Leitfaden hier übersichtlich zu halten. Es zahlt sich aus sich zuerst mit
diesen beiden anderen Tutorials zu befassen,
bevor man sich an den ganzen Ablauf hier macht. "Alles auf einmal" ist ziemlich sicher zu viel.

-
Buch scannen.
Kann hier bisher nur Erfahrungen mit Flachbrettscannern posten, da ich mit V-förmigen DIY-Scannern wie
diesen hier noch nicht gearbeitet habe.
-
Man kann mit
jedem Flachbrettscanner Bücher scannen. Sogar auf einer 70Euro 3in1 Drucker/Scanner Combo.
Folgende Eckdaten sind zu beachten.
- Bei Büchern und Taschenbüchern in 300dpi scannen, alles darunter ist qualitativ zu schlecht, alles darüber dauert unnötig lange.
- Immer in grayscale (Graustufen) scannen,
nicht in der "normalen" OCR Einstellung des Scanners die meist nur schwarz/weiss Bilder liefert - auf s/w reduzieren wir noch vor der Texterkennung (OCR) allerdings mit einem anderen Programm. Scannt man nicht in grayscale gehen (je nach Scannertreiber, aber probiert mal diesen Weg hier und vergleicht die OCR Genauigkeit) Details verloren die eine bessere Schrifterkennung ermöglichen.
- Bei "ordentlichen" Scannern lässt sich der Scan-Bereich exakt einstellen. Nehmt euch ein paar Minuten und ein paar Testscans raus um das manuell für das jeweilige Buch zu tun. Wenn die Scanleiste bei jedem Scan nur 2/3 der Auflagefläche "abfahren" muss, spart das viel Zeit.
- Kümmert euch beim Scannen noch nicht um die Ausrichtung, sondern scannt so, dass ihr möglichst viel Zeit spart, der Rest kommt später.
-
Bei "normalen Scannern", ohne Aussparungen für Einzelblattscan, ohne automatischen Seiteneinzug (Bindung des Buches zertrennen), wird man immer Doppelseiten scannen.
Bei gebundenen Büchern bedeutet das eine starke Beanspruchung der Buchbindung, dafür hat man kaum mit dem Bundstegschatten zu kämpfen. Taschenbücher "überstehen" die Prozedur meist ganz gut, aber ohne "mittelstarken Druck" auf den Buchrücken kann es sein, dass der Text beider Seiten nicht plan an der Glasplatte anliegt und es so zu "verwaschenen" Passagen in der Nähe des Bundstegschattens kommt. Also ist "mittelstarker Druck" durchaus zielführend...
Macht ein paar Testscans und seht euch die Ergebnisse an - sofern ihr ein halbwegs scharfes Schriftbild habt, habt ihr die besten Voraussetzungen.
-
An dieser Stelle auch noch mal ein Appell an die Genauigkeit beim Umblättern und die Nachkontrolle. Das eine ersetzt das andere nicht. Und wer bereits von Beginn an genau umblättert, erspart sich das nachträgliche nachscannen von vergessenen Seiten.
Eine Nachkontrolle ob man alle Seiten "erwischt" hat
muss immer sein. Wann genau ihr sie vornehmt hängt unter Umständen mit eurer Scansoftware zusammen - ich nenne hier im Tutorial aber den Zeitpunkt an dem dies idealerweise spätestens zu geschehen hat.
-
Die Scans sollten als Bilder (im Normalfall *.tiff's) in einen Ordner gespeichert werden.
-
Als nächstes besorgen wir uns
Scantailor, installieren und starten ihn. Das ist das "magische" Programm, dass aus unseren grayscale Scans das Optimum für OCR herausholt. Mit Scantailor erhöht sich die Erkennungsgenauigkeit der Texterkennung um knapp 50% in dem Bereich in dem sie bereits "schwieriger" war.
Als Erstes drehen wir in dem Programm in Punkt 1 die Seiten richtig. Auf den richtigen Pfeil drücken, dann auf "Anwenden auf" und "alle Seiten". Danach auf das Play Symbol drücken, und die Seiten drehen sich.
Die Restlichen Punkte können wir alle auf ihren Grundeinstellungen belassen (dpi im letzen Punkt noch auf 300 runterstellen, wenn man mit 300 gescannt hat), wichtig ist nur dass wir sie einzeln arbeiten in dem wir nacheinander auf das Play Symbol clicken.
Bevor ihr mit Punkt "6 Ausgabe" beginnt, habt ihr eure letzte Möglichkeit "optimal" nachzukontrollieren, ob ihr auch wirklich alle Seiten des Buches gescannt habt, falls ihr das noch nicht gemacht habt - macht es.
Auch bei Punkt 6 - einfach nur auf Play drücken. Jetzt beginnt das Programm die Bilder zu erstellen, die wir später durch die OCR Software laufen lassen. Das dauert leider. Auch schon mal eine halbe Stunde pro Buch. Aber es ist automatisiert, und man kann nebenbei 'n Kaffee trinken, ein Video schauen, ...

-
Ist das Programm fertig, öffnet man Finereader und läd alle soeben im "out" Ordner erstellten Bilder ins Programm (Öffnen, strg+A, bestätigen). Danach drückt man in Finereader auf den "Lesen" Knopf und kann sich wieder mal dem Kaffee zuwenden...

-
Hat Finereader die Seiten Eingelesen, geht man wie
hier beschrieben (Finereader Methode) vor und absolviert alle Schritte bis zum html Export, dem Öffnen in Sigil und dem Ausführen der Regex die falsche Satztrennungen beseitigt.
Sehr wichtig ist die manuelle Nachkontrolle der Erkennungsunsicherheiten in Finereader (im rechten Bereich des Programms nach dem ein"Lesen" farbig markiert), die wirklich gewissenhaft durchkorregieren. Wenn die Bilder zuvor durch Scantailor gelaufen sind, sollten sich die Unsicherheiten
sehr im Rahmen halten, und das Prozedere nicht über 20 Minuten dauern.
Findet man Eigennahmen (Charaktere, Orte, ...) mit Erkennungsunsicherheiten, die jedoch korrekt geschrieben sind, hilft ein strg+H ersetzen des Begriffs durch exaktdenselbenBegriff um die farbigen "Unsicherheitsmarkierungen" für dieses Wort im gesamten Dokument zu beseitigen. Je weniger Unsicherheiten pro Seite, desto schneller korrigiert man drüber.
Nach dem html Export, dem Öffnen in Sigil und dem Ausführen der Regex die die falschen Satztrennungen beseitigt, bricht man das Befolgen des Tutorial erstmal ab und macht mit
dem hier weiter.
-
Gratulation, jetzt steht das eBook im ePub Format - aber haben Sie auch -
- die jetzt unnötigen Silbentrennungen des Papierbuchs mit der Regex aus dem zweiten hier verlinkten Tutorial entfernt?
- mit dem Metaeditor in Sigil einen Namen, Autor und die Sprache des Buches festgelegt?
- mit dem TOC Editor in Sigil ein "Inhaltsverzeichnis" erstellt?
- die definierte Größe für die Fließtextfont und die
Fließtextfont kursiv im Stylesheet komplett entfernt (für eReader die - wenn man es nicht macht - keine Veränderung der Schriftgröße zulassen)?
- die Zeilenabstände verringert und ggf. indents (Texteinzüge am Paragraphenbegin) gesetzt? Hat man diese Texteinzüge
im ersten Absatz nach Überschriften mit einem eigenen <p
class="font99"> Eintrag (und einem Definieren des Eintrags als "kein indent, Fließtextformatierung, Blocksatz") entfernt, sodass sie nur ab der zweiten Position auftauchen?
(Hinweis: Noch muss man diese Detailkorrektur händisch im Quelltext vornehmen, Sigil hat aber bereits ein bestätigtes Ticket dafür irgendwann mal auch ein Dropdownmenü) zu integrieren.
- mit Enter zusätzliche Abstände zwischen einigen wenigen Absätzen gesetzt, wo und falls solche im Originalbuch auftauchen?
- "fett" Formatierungen rausgenommen wo Finereader sie versehentlich gesetzt hat (passiert manchmal (selten), zB bei Fussnotentext)?
- die ePub in Sigil mit dem kleinen grünen Häckchen auf Formatierungsfehler überprüft?
- weder im Dateinamen, noch in den Dateinamen der einzelnen (x)htmls, noch im Stylesheet, noch in den Namen der Bilder, einen Umlaut?
-
Falls ja,
Herzliche Gratulation zum perfekt formatierten ePub eBook!