Willkommen

Navigation


Statistik
8280
Benutzer online
Mitglieder: 1.852.427
Themen: 670.142
Beiträge: 4.119.937

 
Antwort Themen-Optionen
Alt 20.03.11, 16:23   #1 (Permalink)
Benutzerbild von notimp
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Ob gut oder schlecht, das hier wird ein Leitfaden zur Digitalisierung von Büchern - ohne der Verwendung eines Wordprozessors wie MS Word, oder Openoffice (bisheriger Szenestandard), auch wenn es umstritten ist - da es so schneller geht.

Ich verlinke in diesem Beitrag bereits erstellte andere Tutorials meinerseits um den Leitfaden hier übersichtlich zu halten. Es zahlt sich aus sich zuerst mit diesen beiden anderen Tutorials zu befassen, bevor man sich an den ganzen Ablauf hier macht. "Alles auf einmal" ist ziemlich sicher zu viel.
-

Buch scannen.

Kann hier bisher nur Erfahrungen mit Flachbrettscannern posten, da ich mit V-förmigen DIY-Scannern wie diesen hier noch nicht gearbeitet habe.
-

Man kann mit jedem Flachbrettscanner Bücher scannen. Sogar auf einer 70Euro 3in1 Drucker/Scanner Combo.

Folgende Eckdaten sind zu beachten.

- Bei Büchern und Taschenbüchern in 300dpi scannen, alles darunter ist qualitativ zu schlecht, alles darüber dauert unnötig lange.
- Immer in grayscale (Graustufen) scannen, nicht in der "normalen" OCR Einstellung des Scanners die meist nur schwarz/weiss Bilder liefert - auf s/w reduzieren wir noch vor der Texterkennung (OCR) allerdings mit einem anderen Programm. Scannt man nicht in grayscale gehen (je nach Scannertreiber, aber probiert mal diesen Weg hier und vergleicht die OCR Genauigkeit) Details verloren die eine bessere Schrifterkennung ermöglichen.
- Bei "ordentlichen" Scannern lässt sich der Scan-Bereich exakt einstellen. Nehmt euch ein paar Minuten und ein paar Testscans raus um das manuell für das jeweilige Buch zu tun. Wenn die Scanleiste bei jedem Scan nur 2/3 der Auflagefläche "abfahren" muss, spart das viel Zeit.
- Kümmert euch beim Scannen noch nicht um die Ausrichtung, sondern scannt so, dass ihr möglichst viel Zeit spart, der Rest kommt später.
-

Bei "normalen Scannern", ohne Aussparungen für Einzelblattscan, ohne automatischen Seiteneinzug (Bindung des Buches zertrennen), wird man immer Doppelseiten scannen.

Bei gebundenen Büchern bedeutet das eine starke Beanspruchung der Buchbindung, dafür hat man kaum mit dem Bundstegschatten zu kämpfen. Taschenbücher "überstehen" die Prozedur meist ganz gut, aber ohne "mittelstarken Druck" auf den Buchrücken kann es sein, dass der Text beider Seiten nicht plan an der Glasplatte anliegt und es so zu "verwaschenen" Passagen in der Nähe des Bundstegschattens kommt. Also ist "mittelstarker Druck" durchaus zielführend...

Macht ein paar Testscans und seht euch die Ergebnisse an - sofern ihr ein halbwegs scharfes Schriftbild habt, habt ihr die besten Voraussetzungen.
-

An dieser Stelle auch noch mal ein Appell an die Genauigkeit beim Umblättern und die Nachkontrolle. Das eine ersetzt das andere nicht. Und wer bereits von Beginn an genau umblättert, erspart sich das nachträgliche nachscannen von vergessenen Seiten.

Eine Nachkontrolle ob man alle Seiten "erwischt" hat muss immer sein. Wann genau ihr sie vornehmt hängt unter Umständen mit eurer Scansoftware zusammen - ich nenne hier im Tutorial aber den Zeitpunkt an dem dies idealerweise spätestens zu geschehen hat.
-

Die Scans sollten als Bilder (im Normalfall *.tiff's) in einen Ordner gespeichert werden.
-

Als nächstes besorgen wir uns Scantailor, installieren und starten ihn. Das ist das "magische" Programm, dass aus unseren grayscale Scans das Optimum für OCR herausholt. Mit Scantailor erhöht sich die Erkennungsgenauigkeit der Texterkennung um knapp 50% in dem Bereich in dem sie bereits "schwieriger" war.

Als Erstes drehen wir in dem Programm in Punkt 1 die Seiten richtig. Auf den richtigen Pfeil drücken, dann auf "Anwenden auf" und "alle Seiten". Danach auf das Play Symbol drücken, und die Seiten drehen sich.

Die Restlichen Punkte können wir alle auf ihren Grundeinstellungen belassen (dpi im letzen Punkt noch auf 300 runterstellen, wenn man mit 300 gescannt hat), wichtig ist nur dass wir sie einzeln arbeiten in dem wir nacheinander auf das Play Symbol clicken.

Bevor ihr mit Punkt "6 Ausgabe" beginnt, habt ihr eure letzte Möglichkeit "optimal" nachzukontrollieren, ob ihr auch wirklich alle Seiten des Buches gescannt habt, falls ihr das noch nicht gemacht habt - macht es.

Auch bei Punkt 6 - einfach nur auf Play drücken. Jetzt beginnt das Programm die Bilder zu erstellen, die wir später durch die OCR Software laufen lassen. Das dauert leider. Auch schon mal eine halbe Stunde pro Buch. Aber es ist automatisiert, und man kann nebenbei 'n Kaffee trinken, ein Video schauen, ...
-

Ist das Programm fertig, öffnet man Finereader und läd alle soeben im "out" Ordner erstellten Bilder ins Programm (Öffnen, strg+A, bestätigen). Danach drückt man in Finereader auf den "Lesen" Knopf und kann sich wieder mal dem Kaffee zuwenden...
-

Hat Finereader die Seiten Eingelesen, geht man wie hier beschrieben (Finereader Methode) vor und absolviert alle Schritte bis zum html Export, dem Öffnen in Sigil und dem Ausführen der Regex die falsche Satztrennungen beseitigt.

Sehr wichtig ist die manuelle Nachkontrolle der Erkennungsunsicherheiten in Finereader (im rechten Bereich des Programms nach dem ein"Lesen" farbig markiert), die wirklich gewissenhaft durchkorregieren. Wenn die Bilder zuvor durch Scantailor gelaufen sind, sollten sich die Unsicherheiten sehr im Rahmen halten, und das Prozedere nicht über 20 Minuten dauern.

Findet man Eigennahmen (Charaktere, Orte, ...) mit Erkennungsunsicherheiten, die jedoch korrekt geschrieben sind, hilft ein strg+H ersetzen des Begriffs durch exaktdenselbenBegriff um die farbigen "Unsicherheitsmarkierungen" für dieses Wort im gesamten Dokument zu beseitigen. Je weniger Unsicherheiten pro Seite, desto schneller korrigiert man drüber.

Nach dem html Export, dem Öffnen in Sigil und dem Ausführen der Regex die die falschen Satztrennungen beseitigt, bricht man das Befolgen des Tutorial erstmal ab und macht mit dem hier weiter.
-

Gratulation, jetzt steht das eBook im ePub Format - aber haben Sie auch -

- die jetzt unnötigen Silbentrennungen des Papierbuchs mit der Regex aus dem zweiten hier verlinkten Tutorial entfernt?
- mit dem Metaeditor in Sigil einen Namen, Autor und die Sprache des Buches festgelegt?
- mit dem TOC Editor in Sigil ein "Inhaltsverzeichnis" erstellt?
- die definierte Größe für die Fließtextfont und die Fließtextfont kursiv im Stylesheet komplett entfernt (für eReader die - wenn man es nicht macht - keine Veränderung der Schriftgröße zulassen)?
- die Zeilenabstände verringert und ggf. indents (Texteinzüge am Paragraphenbegin) gesetzt? Hat man diese Texteinzüge im ersten Absatz nach Überschriften mit einem eigenen <p class="font99"> Eintrag (und einem Definieren des Eintrags als "kein indent, Fließtextformatierung, Blocksatz") entfernt, sodass sie nur ab der zweiten Position auftauchen?
(Hinweis: Noch muss man diese Detailkorrektur händisch im Quelltext vornehmen, Sigil hat aber bereits ein bestätigtes Ticket dafür irgendwann mal auch ein Dropdownmenü) zu integrieren.
- mit Enter zusätzliche Abstände zwischen einigen wenigen Absätzen gesetzt, wo und falls solche im Originalbuch auftauchen?
- "fett" Formatierungen rausgenommen wo Finereader sie versehentlich gesetzt hat (passiert manchmal (selten), zB bei Fussnotentext)?

- die ePub in Sigil mit dem kleinen grünen Häckchen auf Formatierungsfehler überprüft?

- weder im Dateinamen, noch in den Dateinamen der einzelnen (x)htmls, noch im Stylesheet, noch in den Namen der Bilder, einen Umlaut?
-

Falls ja,

Herzliche Gratulation zum perfekt formatierten ePub eBook!

Geändert von notimp (22.03.11 um 23:40 Uhr).
Mit Zitat antworten Beitrag melden
Danke
44 Benutzer
   

Download 20.03.11, 16:23   Top
Mitglied seit: Sep 2008
Beiträge: 1.422
GulliBZ
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"




Alt 30.03.11, 18:01   #2 (Permalink) Top
Benutzerbild von freulein
Mitglied seit: Mar 2009
Beiträge: 46
freulein ist offline
freulein
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Noch eine Anmerkung von mir für iPad-Besitzer oder Besitzer von anderen größeren Readern ab ca. 9 oder 10 Zoll. Ab dieser Readergröße ist ja der üblichen Satzspiegel durchschnittlicher Bücher, 1:1 auf den Reader transferiert, von der Größe her durchaus sehr gut lesbar. Formate mit fließenden Umbrüchen wie z.B. epub sind dann eigentlich nicht nötig, pdf's tuns dann auch. In solch einem Fall, wenn eine 1:1 Umsetzung nach pdf ausreicht, wäre das Tutorial zur schnellen Erzeugung von Lesematerial für den Scan-Schritt sowie den ScanTailor-Schritt gleich, aber dann ginge es anders weiter:

- Einlesen der Bilder (tifs) in Adobe Acrobat.
- Anschl. Texterkennung in Adobe Acrobat mit (WICHTIGE Einstellung!) PDF-Ausgabestil: ClearScan
- Ggf. Einfügen des Titelbildes vor erster Seite.
- Anpassen der PDF-Eigenschaften: "Ansicht beim Öffnen" sowie "Beschreibung".

Korrekturlesen oder irgendwelche Nachkontrollen auf OCR-Unsicherheiten sind hier nicht nötig. Acrobat bietet zwar ein Durchlaufen der "Problemstellen" an, aber diese "Problemstellen" sind im Buch sowieso nicht sichtbar, da das Ergebnis der OCR nicht angezeigt wird. Das Ergebnis der OCR spielt nur fürs Suchen eine Rolle, d.h. wer es OK findet, auch in 99%ig erkanntem Text zu suchen, oder wer GAR NICHT suchen will (bei Romanen vermutlich die Regel), dem können die ganz gelegentlichen Fehler von Acrobat OCR ja ziemlich egal sein (wie gesagt, für den Leser sichtbar sind sie ja sowieso nicht).

Ebenfalls nicht nötig sind irgendwelche Manipulationen am Layout... das Layout findet sich vollautomatisch, inklusive der verwendeten Fonts, 1:1 im pdf wieder, also so, wie vom Verlag vorgesehen.

Vorteil dieser Verfahrensweise: Sie ist noch einen ganzen Zacken schneller, da es keine Korrekturschritte mehr gibt, weder am Layout noch am Text selber. 3 Bücher mal eben aus der Leih-Bibliothek nachhause nehmen und in pdf konvertieren ist an einem Nachmittag locker zu schaffen... und die meiste Zeit arbeitet der Rechner allein und man selber kann was anderes machen (jedenfalls bei den Schritten Scantailor/Acrobat-Import tif/Adobe ClearScan-OCR).

Des weiteren ist es beim obigen epub-Tutorial, d.h. wenn man nur die von der OCR-Soft angebotenen Erkennungsunsicherheiten durchsucht, nicht ausgeschlossen, daß einem Fehler durch die Lappen gehen, die man dann im Buch auch sieht... was bei Acrobat ClearScan vom Prinzip her wie schon gesagt unmöglich ist.

Das Resultat einer solchen Vorgehensweise sieht dann in der Regel so aus:

Beispiel

Mit Zitat antworten Beitrag melden
Danke
4 Benutzer
   
Alt 30.03.11, 19:35   #3 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Vorteil iPad - größere Bildschirmdiagonale (unter anderem).

Mit Zitat antworten Beitrag melden
   
Alt 30.08.11, 10:48   #4 (Permalink) Top
Benutzerbild von Qupfer
Mitglied seit: Sep 2008
Beiträge: 151
Qupfer ist offline
Qupfer
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

mal ne Frage, bin grad dabei ein Buch zu digitaliseren. Da es zu "dick" war und somit die Bereiche um den Bund herum trotz größtmöglichen Anpressdruck nicht mehr zu erkennen waren, habe ich die Seiten abfotografiert. Klappt erstaunlich gut.
Aber das ist garnicht mein Problem sondern wie/wo bekomme ich am besten/einfachsten die Seitenzahlen los?
Den Umweg über PDF-Creator und Briss möchte ich eigentlich ungern gehen aber in Scantailor oder Finereader für jede Seite das Inhaltsfenster manuell anzupassen finde ich auch nicht gerade toll. Da jemand eine Idee?

Mit Zitat antworten Beitrag melden
   
Alt 30.08.11, 11:27   #5 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Irfanview, batch processing

Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 17.10.11, 14:24   #6 (Permalink) Top
Benutzerbild von Kabakiffer
Mitglied seit: Feb 2010
Beiträge: 12
Kabakiffer ist offline
Kabakiffer
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hat jemand eine Idee, wie ich auf diese Art ein Mathebuch gescannt bekomme? Finereader versagt bei mathematischen Symbolen.

Mit Zitat antworten Beitrag melden
   
Alt 17.10.11, 14:42   #7 (Permalink) Top
Benutzerbild von SP()()KY
Mitglied seit: Jul 2009
Beiträge: 351
SP()()KY ist offline
SP()()KY
Connaisseur
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

ich würde ja sagen lass es als pdf und beschneide die ränder mit Briss damit du es an den bildschirm deines readers anpassen kannst alles andere wird sehr aufwändig.

 

Das Lemsche Gesetz:

Niemand liest etwas; wenn er etwas liest, versteht er es nicht; wenn er es versteht, vergißt er es sofort.
aus gegebenen Anlass.... bei Downs meiner Files bitte PN
Mit Zitat antworten Beitrag melden
   
Alt 29.12.11, 11:37   #8 (Permalink) Top
Benutzerbild von wurzelkitt
Mitglied seit: Nov 2010
Beiträge: 242
wurzelkitt ist offline
wurzelkitt
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Zitat:
Zitat von Kabakiffer Beitrag anzeigen
Hat jemand eine Idee, wie ich auf diese Art ein Mathebuch gescannt bekomme?
Gar nicht. Mathematische Formeln lassen sich nicht über normale Fonts abbilden und svg kann derzeit kein Reader. Ergo jede Formel als Bild oder gleich als PDF lassen.

Mit Zitat antworten Beitrag melden
   
Alt 10.01.12, 10:29   #9 (Permalink) Top
Benutzerbild von Humbi123
Mitglied seit: Dec 2010
Beiträge: 53
Humbi123 ist offline
Humbi123
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Kann wer bitte noch die Option beim Öffnen der File bezüglich DPI Einstellungen erklären?

Danke

Humbi

Mit Zitat antworten Beitrag melden
   
Alt 30.01.12, 13:18   #10 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Wenn ich das noch richtig in Erinnerung habe, resized Scantaler nach dpi, ob up- oder downscaling ist ihm dabei egal. dpi Einstellung sollte also nahe am Original bleiben, oder maximal auf 300dpi (vor OCR, niedrigster akzeptabler Wert) heruntergeschraubt werden um die Dateigröße der Ausgabedateien zu reduzieren.

Mit Zitat antworten Beitrag melden
   
Alt 30.01.12, 14:45   #11 (Permalink) Top
Benutzerbild von Humbi123
Mitglied seit: Dec 2010
Beiträge: 53
Humbi123 ist offline
Humbi123
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Also soweit ich das nun rausgefunden und Verstanden habe ist die Einstellung der DPI Zahl in Scan Tailor für etwas anderes gut. Es findet hier kein resize der Bilder statt. Es wird nur die DPI Zahl verändert.

Bei Fotos aus einem Digicam gibt es das Problem das die Kamera ja nicht weiß wie groß ein Objekt ist. Das Bild hat also z.B. 4096x 4096 bei 72 dpi... was dann 56 inch oder etwa 1,5 Meter sind. Scan Tailor ändert das in 4096 x 4096 bei z.B. 300 dpi was dann nur noch 34 cm sind...
Mehr macht ScanTailor nicht. Es geht nur darum das das OCR Tool später weiß wie groß das ganze ist. Sonst kommt es vor das man beim Export ein Blatt mit 1,5 Metern und Schriftgröße 500 hat. Hatte ich beim Export in Word oder RTF...

Hoffe das ist einigermaßen Verständlich erklärt.

Habe auch ein Tipp gefunden wie man die richtige dpi zahl findet. Öffne Bild in z.B. Photoshop markiere 6 zeilen Text und schaue wie groß das ist. Bei mir sind es 350 dpi. Das gibt man dann bei ScanTailor an.

Grüße
Humbi

Mit Zitat antworten Beitrag melden
   
Alt 20.02.12, 14:39   #12 (Permalink) Top
Benutzerbild von hexenhex
Mitglied seit: Sep 2008
Beiträge: 677
hexenhex ist offline
hexenhex
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hallo,

kann man auch Vokabeln mit dieser Methode abscannen und dann irgendwie als text doc speichern, damit ich sie zu Fuß z.B. in den Langenscheidt Vokabeltrainer per copy and past einfügen kann? Sind zu viele mittlerweile, um sie nochmal alle einzeln einzutippen.

Und wie scanne ich am besten farbige Kochbücher ein?

 

Lieben Gruß

hexenhex
Mit Zitat antworten Beitrag melden
   
Alt 21.02.12, 10:06   #13 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Ja und probiers aus (keine Erfahrung ).

Mit Zitat antworten Beitrag melden
   
Alt 27.03.12, 10:59   #14 (Permalink) Top
Benutzerbild von hotspotnow
Mitglied seit: Apr 2011
Beiträge: 3
hotspotnow ist offline
hotspotnow
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hallo Gemeinde, hallo notimp

hab ein paar fragen zu der Anleitung hier und hoffe Ihr könnt mir weiterhelfen.

1. Sehe ich das richtig, dass bei dieser Anleitung eine Umwandlung in PDF nicht stattfindet und somit briss auch nicht zum Einsatz kommt? (Finde die Möglichkeit bei Briss alle Seitenzahlen, sonstigen Formatierungen außerhalb des Textes loszuwerden einfach super und zeitsparend).

2. Nach dem Scannen hab ich eine TIF-Datei mit vielen Bildern drin - nach Scantailor dann für jede Seite eine eigene TIF-Datei. Normal? Oder was mach ich falsch?

3. Hatte in einem Buch (auf 2-3 seiten) zum scannen Flecken. In Greyscale konnte man durchschauen, nach der Umwandlung von scanntailor in s/w nicht mehr.... Was kann ich hier machen?

Vielen Vielen Dank für eure Zeit!

Gruß hotspotnow

Geändert von hotspotnow (27.03.12 um 11:00 Uhr). Grund: ergänzung (2-3 seiten)
Mit Zitat antworten Beitrag melden
   
Alt 27.03.12, 11:16   #15 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Zu 3, die Seiten nach der Scantailor Umwandlung durch ihre ursptünglichen TIFFs austauschen (findest sicher ein Programm um die einzelnen TIFFs zu extrahieren).
edit - Das hier zum Beispiel: https://tiffsplitter.codeplex.c...eplex.com/

Zu 2, mein Scanprogramm gibt einzelne TIFF Dateien aus, dürfte unterschiedlich gehandhabt werden.

Zu 1, Finereader kann die beispielsweise durchaus auch aus den Tiff Dateien ein PDF erstellen, oder du bemühst vorher Acrobat, oder PDFCreator - The free PDF Creator and Converter | pdfforge.org

Zum Seitenränder wegschneiden, wenns wirklich nur Seitenzahlen sind, macht Finereader sowohl in 10 als auch in 11 bereits einen recht guten Job die bereits automatisch nicht in den Fließtext zu holen.

Es wäre vorteilhafter das pdf erst aus epub>htmlz(via Calibre, dann entzippen, dann html öffnen)>html(in Word öffnen)>nachbearbeiten>pdf erzeugen zu erstellen. Die PDF beinhaltet dann keine Bilder mehr, ist kleiner...

Mit Zitat antworten Beitrag melden
   
Alt 27.03.12, 11:23   #16 (Permalink) Top
Benutzerbild von hotspotnow
Mitglied seit: Apr 2011
Beiträge: 3
hotspotnow ist offline
hotspotnow
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hallo notimp,

vielen Dank für deinen rasche Antwort.

Evtl. hattest du mich falsch verstanden. PDF ist nicht das Ziel sondern ePub - ich bezog mich auf briss nur, weil ich es in deinem anderen tut gelesen hatte und da getestet hatte.

4. Ist es daher überhaupt notwendig bei scan -> epub zwischendurch ein pdf zu nutzen? (Das dazwischen noch andere Schritte kommen ist mir bewusst) Oder kann ich findereader die TIFFs direkt zur Texterkennung geben?

5. Und ist es da besser ein TIFF mit vielen Bildern oder viele TIFFs mit einem Bild? Erfahrungen damit?

Mit Zitat antworten Beitrag melden
   
Alt 27.03.12, 11:26   #17 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Tiff direkt zur Texterkennung, Finereader und Omnipage öffnen auch mehrere Tiffs in einem Projekt.
Tiffs könntest du notfalls mit Irfanview (Batch Processing) selbst um die Seitenzahlen beschneiden, pass dann aber auf in welcher Qualität du sie wieder abspeicherst.

Mit Zitat antworten Beitrag melden
   
Alt 03.04.12, 20:28   #18 (Permalink) Top
Benutzerbild von hotspotnow
Mitglied seit: Apr 2011
Beiträge: 3
hotspotnow ist offline
hotspotnow
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hallo Forum, hallo notimp,

bin gerade ein wenig am verzweifeln. Irgendwie klappt das hier alles nicht so wie ich mir das vorgestellt habe... bzw ufert der Zeitaufwand pro Buch extrem aus, da ich extrem viel nacharbeiten muss und so fast 1. Tag für ein Buch brauch

Im Folgenden beschreib ich einfach mal wie ich vorgehe und was soviel Zeit frisst. Ich hoffe Ihr könnt mir sagen was ich wo Falsch mache

1. Bücher scannen (geht schnell mit ADF nutze hierzu IrfanView Batch Scanning auf 600 dpi in greyscale 4bit

2. Kommt Scantailor zum Einsatz.
Umdrehen sowie Trennen ist nicht mehr notwendig da es schon Einzelseiten sind. Ausrichten mach ich automatisch aber habe nicht das Gefühl, dass das automatisch gut klappt. (Seiten sind aber vom Scannen recht gerade).
- Punkt 4 hier - die blaue Box (Kontextbox glaub ich) braucht viel händisches nacharbeiten - wenn ich hier nur automatisch mache schneidet der bei 3-4 Seiten etwas Text ab - wenn ich also nicht ALLE Seiten händisch nachkontrolliere hab ich ein Problem - passe in diesem Schritt meist auch die box so an, dass die Seitenzahl weg ist - den 5 schritt (rahmen) lass ich einfach automatisch durchlaufen - verändern tut sich bei mir aber da nichts wirklich -

letzter Schritt wieder automatisch auf s/w (despeckling ist automatisch auf kleiner stufe an - dewarping nicht - so okay?) - dauert ne kleine weile aber da muss ich ja nicht dabei sein.

3. So jetzt kommt der Zeitfresser
- Jage wie in der Anleitung beschrieben den Text durch Abby Finereader 11 (Datei an LibreOffice) - dauert bei mir trotz Stufe "Gründlich" nur 2-3 Minuten!! Ist das normal? Okay mein PC ist sehr gut bestückt aber sooo schnell? da sind die prozesse in Scantailor erheblich langsamer.
Warnungen bekomm ich keine angezeigt (Warndreieck) und Fehlerquote pro Seite ist bei 1-3% - aber das ist immer noch sehr viel zum nacharbeiten. Was z.b. immer falsch erkannt wird ist "ch" so wird Mich zu midi - sich zu sidi - natürlich zu natürlidi ..... und so fort .... also nicht leicht das alles über suchen&ersetzen zu erfassen. außerdem werden flecken in den büchern (sind etwas älter) oft zu irgenwelchen sonderzeichen gemacht ... finde also viele ' # ; ^ * / und so im text. Aber nicht nur freistehende sondern manchmal auch in wörtern - also nicht so einfach alles durch keine leerzeile zu ersetzen. Oder Anführungstriche werden zu *. Um den Text dann fehlerfrei zu bekommen brauch ich dann meist 5-6 stunden in finereader

Was mach ich falsch? Würde mich über Tipps freuen.

Geändert von hotspotnow (03.04.12 um 20:30 Uhr). Grund: typo
Mit Zitat antworten Beitrag melden
   
Alt 03.04.12, 22:29   #19 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Setz bei Scantailor im letzten oder vorletzten Schritt mal Grayscale mit der ersten Checkbox aktiviert (damit die weißen Masken bleiben).

Habs mir unlängst wieder angesehen, und je nach Scan habe ich damit sogar bessere Resultate als bei s/w gesehen. (Genauer - wenn ch's zu di's und ! zu 1ern werden, liegts daran. ) Wenn das nichts bringt, spiel dich mit dem Slider bei schwarz weiss.

Finereader 11 ist bereits das Optimum an Erkennungsgenauigkeit - und die Flecken bleiben ein Problem.

1-3% Fehler (nicht nur Ungenauigkeiten) pro Seite sind zu viel. Und bleib den ganzen Prozess in Scantailor über bei 600dpi - wenn dus in einem der letzten Schritte reduzierst, gibt dir Scantailor tatsächlich Bilder mit nur der Hälfte der Auflösung aus.

Mit Zitat antworten Beitrag melden
   
Alt 08.04.12, 09:33   #20 (Permalink) Top
Benutzerbild von Godxisxaxplaya
Mitglied seit: Aug 2009
Beiträge: 7
Godxisxaxplaya ist offline
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hallo liebe Boerse Gemeinde. Kann mir bitte jmd ein gutes Programm zum schnellen Scannen nennen, ich besitze einen Brother MFC-7360N und wenn ich dort über das Gerät scannen will, muss ich immer diverse Abfragen bestätigen und kann leider nicht einfach bei jeder Seite auf Start drücken. Es wäre schön, wenn mir jmd ein Programm nennen könnte, mit welchem ich schnell und zügig die Seiten im Tif Format einscannen kann. Lieben Gruß,

Martin

Mit Zitat antworten Beitrag melden
   
Alt 08.04.12, 12:46   #21 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Vuescan 9

VueScan Scanner Software for Windows 7, Mac OS X Lion, Linux, iPhone, iPad, iPod

Mit Zitat antworten Beitrag melden
   
Alt 15.05.12, 17:48   #22 (Permalink) Top
Benutzerbild von GML
Mitglied seit: Aug 2010
Beiträge: 3
GML ist offline
GML
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Hallo Zusammen,
wie scanne ich am besten ein Buch, welches pro Seite 2 Spalten und einige Grafiken drin hat?

Mit Zitat antworten Beitrag melden
   
Alt 15.05.12, 18:45   #23 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Leitfaden zum selbst scannen und "eBooken"

Mit einem Scanner. Scannen ist gleich Bildchen machen. Bildchen es vollkommen egal sein wie Seite aussehen.

Mit Zitat antworten Beitrag melden
   
Antwort


 

Ähnliche Themen
Thema Forum
Ina Müller im TV: Inas Nacht + Stadt, Land, INA + Inas Norden + Queen Bee + Bonus Sonstiges/Musikvideos
[Suche][Diskographie] Proxy - "Who are you?" / "Destroy EP" / "Tigershaped" / "Napster Live Session" Suche Musik
Wie "richtig" (=kleine Datei) scannen/ pdf erstellen? Einsteiger


Themen-Optionen



Jetzt registrieren


Registrieren | Forum-Mitarbeiter | Kontakt | Nutzungsbedingungen

Alle Zeitangaben in WEZ +1. Es ist jetzt 14:40 Uhr.

All trademarks are the property of their respective owners.
Copyright ©2008 - 2012 BoerseBZ