Willkommen

Navigation


Statistik
8273
Benutzer online
Mitglieder: 1.852.423
Themen: 670.141
Beiträge: 4.119.929

 
Antwort Themen-Optionen
Alt 24.08.10, 14:12   #1 (Permalink)
Benutzerbild von notimp
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Nachdem mich immer noch Anfragen bezüglich einer hochwertigen Umwandlung von pdfs in Fließtextformate (epub/mobi) erreichen, habe ich mich dazu durchgerungen hier einen Beitrag zu erstellen in dem ich noch einmal auf Besonderheiten bei der Umwandlung eingehe, und meine bereits geposteten Beiträge zum Thema verlinke und spiegle (um sie in einem Beitrag gesammelt zu haben).
--

Benötigte Programme:

Briss (zum cropen der pdfs (Seitenränder und Seitenzahlen beseitigen))
briss | Download briss software for free at SourceForge.net

Mobipocket Creator
Mobipocket eBook Creator
oder
ABBYY Finereader 10 (kostenpflichtig)
ABBYY FineReader - Professionelle OCR-Software für Dokumenten- und PDF-Konvertierung
- Achtung nicht auf Version 11 updaten! Warum, siehe weiter unten
oder
Omnipage Professional 18 (kostenpflichtig)
Nuance - OmniPage

Sigil zum Nacheditieren
sigil - Project Hosting on Google Code

edit: Achtung! Bitte Sigil 0.4.2 nutzen. Höhere Sigil Versionen (derzeit nur Betas) haben ein neues Ersetzen "Widget" das deutlich langsamer als das alte arbeitet, hoffentlich wird es zum nächsten vollen Release noch gefixt.

Calibre (ebook Managment und (verlustfreies) Konvertieren von textbasierten Formaten)
calibre - E-book management
-

Ja, es geht auch schneller, ja es geht auch einfacher - Calibre selbst kann zB direkt von pdf nach epub, oder mobi konvertieren, aber das Ergebnis ist in den wenigsten Fällen ansprechend. Nimmt man sich die Zeit mit Finereader, oder Omnipage zu konvertieren (15-30 Minuten), darf man am Ende davon ausgehen ein zu 98% perfektes epub, oder mobi in der Hand zu haben.
-

Die weniger zeitintensive Methode (mit Mobipocket Creator / 2 Minuten)

pdf>Briss>pdf cropped>Mobipocket Creator>html>Sigil>epub>(Calibre>Endformat)

findet ihr hier beschrieben:
http://www.boerse.bz/boerse/dok...ost2983659

(Zeilenumbrüche werden nicht immer korrekt erkannt, hat manchmal Probleme mit Sonderzeichen und Schriftarten die nicht Standard sind, liefert aber für 2 Minuten Aufwand die besten Ergebnisse. In der aktuellen Version hat Calibre kein Problem mehr html zu verarbeiten, sodass man nach dem Workflow pdf>Briss>pdf cropped>Mobipocket Creator>html>Sigil>epub>(Calibre>Endformat) vorgehen kann und sollte. Den Zwischenschritt über rtf kann man sich mittlerweile sparen.)
--

Die Methode die die besseren Ergebnisse liefert (Finereader)

pdf>Briss>pdf cropped>Finereader>html>Sigil>epub>(Calibre>Endfor mat)

Achtung: Bitte bleibt bei Finereader 10, nicht auf Version 11 updaten! Den (einstweiligen?) Grund findet ihr hier ( http://www.boerse.bz/boerse/dok...ssion.html ) beschrieben.

findet ihr hier beschrieben:

edit: whoknowsit hat sich die Mühe gemacht eine bebilderte Anleitung für die Finereader Methode zu schreiben, die ich dann zusammen mit ihm bearbeitet und abschließend nachkorrigiert habe. Ihr findet sie ab sofort unter:



Die alte Anleitung von mir findet ihr weiterhin unter:
**Internal Linking (Threads)

--

Die Methode die auch sehr gute Ergebnisse liefert, aber viel schneller als das die mit Finereader ist (Omnipage)

pdf>Briss>pdf cropped>Omnipage>Kindle doc>Atlantis Word Processor>epub>Sigil>epub>(Calibre>Endformat)

findet ihr hier beschrieben:
**Internal Linking (Threads)


(Die Omnipage Methode hat mit der Finereader Methode viel gemeinsam. Unter anderem, dass sich beide nicht auf den Text der bereits in der pdf zu finden ist verlassen, sonder sie neu einem OCR unterwerfen.

Die Omnipage Methode ist einfacher als die Finereader Methode und braucht weniger Zeit (10 Minuten pro Buch vom Anfang bis zum 98% perfekten ePub). Auch behält sie "Buchformatierungen" vom Anfang bis zum Ende in den Dateien. Bei der Finereader Methode gehen spezielle Absatzabstände, Einrückungen, usw. erstmal verloren - das verwirrt Anfänger gerne mal.
Tatsächlich ist es aber so, dass man diese Formatierungen in Sigil innerhalb von einigen Sekunden wieder hergestellt hat - und dass das Beibehalten der Formatierungen, wie es bei der Omnipage Methode der Fall ist, große Nachteile mit sich bringt, wenn man versucht das Buch später über den Stylesheet individueller zu gestalten/anzupassen.

Sie hat auch drei wesentliche Nachteile, neben dem genannten. Die Erkennungsgenauigkeit ist etwas schlechter als bei Finereader (geschätzte 5%), der Quelltext den die Omnipage Methode am Ende liefert ist alles andere als sauber, und es ist in Omnipage praktisch unmögliche "viele" Änderungen an den Erkennungsbereichen vorzunehmen die die Automatische Erkennung definiert. Der Grund hierfür ist ein unglaublich schlecht designtes Userinterface. In vielen Fällen verlässt man sich hier, mehr noch als bei Finereader auf die automatische Erkennung und ändert danach vielleicht noch mal ein Bild, oder löscht einen Erkennungsbereich.

Auch die Erkennung von Kopf und Fusszeilen in Omnipage ist deutlich schlechter. Aber um uns damit nicht plagen zu müssen, haben wir ja Briss.)
---

Ich habe eine zeitlang überlegt auch Neueinsteigern gleich zur Omnipage Methode zu raten. Sie ist nun mal die Methode die am wenigsten Fragezeichen aufwerfen wird, und die am schnellsten, brauchbare Ergebnisse liefert. mobipocket creator ist noch schneller, aber brauchbar (im Sinne eines 98% perfekten eBooks als Endergebnis) - nunja...

Es ist aber so, dass ihr viel an Wissen das ihr für die ePub Erstellung generell brauchen könnt besser lernt, wenn ihr euch die Finereader Methode anseht. Ihr arbeitet nicht mit "Füllformaten" wie *.doc, sondern geht den direkten Weg einer guten ePub Erstellung - OCR>html>epub, ihr lernt die Eigenheiten von html, und wie ihr Formatierungen im Stylesheet setzt. Ihr lernt sogar besser, wie ihr mit Sigil arbeitet.

Ihr habt jetzt also die Wahl. Wenn es euch reicht einfach ein Tutorial abzuarbeiten und am Ende schnell ein Ordentliches Ergebnis zu haben, wählt die Omnipage Methode. Wenn ihr am Ergebnis dann noch etwas verändern wollt, oder wissen wollt was ihr mit der ePub die ihr am Ende da rausbekommt in der Hand habt. Schaut euch die Finereader Methode an. Inklusive des ePub Formatierungs-Tutorials im nächsten Beitrag.

Es lohnt sich beide Methoden, ihre Vor- und Nachteile kennenzulernen. Ich sage aber auch dazu, dass ich mittlerweile häufiger mit der Omnipage Methode arbeite. Gerade aber da man bei ihr so sehr auf die Automatische Erkennung angewiesen ist, gibt es von Zeit zu Zeit aber immer Fälle - wo ich mit Omnipage nicht weiter komme. Das sind dann die Momente wo ich wieder Finereader starte.

Falls ihr vor habt ein Buch nach der Konvertierung in ePub zu veröffentlichen - geht eher über die Finereader Methode. Das Ergebnis ist professioneller - auch wenn es auf den ersten Blick vielleicht nicht für alles sofort erkennbar ist.

Hier erst weiterlesen,
wenn man bereits eine der drei Methoden "erlernt" und ausprobiert/angewendet hat


Ansonsten gibts noch kleinere Kniffe, auf die man mit der Zeit kommt.

[Alle Methoden]

1. Beginnt immer zuerst mit Briss briss | Download briss software for free at SourceForge.net und entfernt die Seitenränder, Kopfzeilen und Seitenzahlen aus dem pdf. Die will man im Normalfall im Fließtext nicht haben, und jedes andere Programm braucht länger und entfernt sie nach Umständen ungenauer, bzw. hat Probleme zu raten was eine Kopf und was eine Fußzeile ist.

[Finereader Methode]

2. Wenn man in Finereader über den Text geht, immer zuerst die gesamte linke Seite (Bilder) korrigieren, dann erneut einlesen lassen, dann erst die rechte Seite (Text) korrigieren. Der Erfahrung nach reicht es in vielen Fällen aus das Bildauswahltool ausgewählt zu haben um Bildabschnitte neu zu definieren.

Zur Navigation in Finereader: Wer nicht die BildAuf BildAb (PageUp PageDown) Tasten auf seiner Tastatur (neben der Pos1 und Ende Taste) benutzt, ist selbst schuld.

Finereader hat selten Probleme Text als Text zu identifizieren, versucht nur manchmal auch Text aus Bildern herauszulesen, die eigentlich Bilder bleiben sollten.

Wenn man mit dem Bildauswahltool über mehrere Erkennungskästchen drüberzieht, werden alle über die man das neue Kästchen ziehst automatisch gelöscht, was Zeit spart.

Wenn das Kästchen richtig gesetzt, aber der falsche Erkennungstyp zugeordnet worden ist (zb Text statt Bild), dann bekommt man das mit einem rechtsclick und umdefinieren schnell geregelt.

3. Beim korrigieren der rechten Seite (Text), versucht Fehler zu finden die gehäuft auftreten. Manchmal werden bestimmte Buchstabenkombinationen von Finereader als andere Buchstaben erkannt (zb. jk als ß, oder 0er anstatt Os) passiert selten, aber doch hin und wieder. Wenn man die entdeckt hat, geht man mit der Suchfunktion (strg+F) über den Text und sucht gezielt nach diesen besonderen Kombinationen. In vielen Fällen sind es Buchstabenkombinationen die im deutschen eher selten vorkommen, sodass man hier nicht zu viel Zeit mit dem Nachkorrigieren verbringt. Sollte sich ein kryptischer Erkennungsfehler bei bestimmten Worten eingeschlichen haben, kann man mit strg+H (Ersetzen) gleich alle Instanzen dieses Worts auf einmal korrigieren (alle ersetzen).

4. Achtet auf Seiten mit besonders vielen Unsicherheiten. Dort ist die Texterkennung nicht optimal verlaufen und die Fehlerwahrscheinlichkeit ist besonders groß. Ziel ist es nicht jede Unsicherheit des Programms nachzukorrigieren (die Trefferwahrscheinlichkeit von Finereader ist hoch, sondern mögliche Schwachpunkte in der Erkennung zu finden und zu korrigieren. Um wirklich jeden Fehler auszumerzen muss man seit jeher und muss man immer noch - korrekturlesen, das macht man aber besser am eReader und nicht im Programm).

Man kann Finereader auch auf ein bestimmtes Schriftbild "anlernen", aber das dauert erfahrungsgemäß länger als bei der Standarderkennung nachzukorrigieren. Ich möchte hier nur darauf hinweisen, dass die Möglichkeit besteht, falls jemand einmal an eine Schriftart gerät, mit der Finereader überhaupt nicht zurecht kommt.

5. Wenn man nach dem Einlesen, und während des Korrigierens im rechten Abschnitt (Text) einen Formatierungsfehler (links) findet, korrigiert man ihn nach, liest aber nicht das komplette Dokument neu ein (Korrekturen im Textteil (rechts) gehen verloren!), sondern nur die entsprechende Seite (rechtsklick Kontextmenü).

6. Vergesst im Finereader nicht die Bildqualität für Bilder im Fließtext in den Optionen von html Output zu ändern. jpegs mit 95% sind qualitativ ok, jpegs mit 60% nicht.

[Alle Methoden]

7. Aus dem Finereader oder aus mobipocket Creator speichert man ins html Format (das erzeugt eine html und einen Ordner mit Bildern und dem css sheet ("Design Datei")). Die html kann man direkt in Sigil öffnen und dort die Ebook spezifischen Format Eigenheiten hinzufügen. (Kapitel, Seitenumbrüche, ..) Aus Omnipage speichert ihr eine doc aus der ihr über Atlantis direkt eine ePub generiert. Im Omnipage Tutorial gehe ich gleich direkt darauf ein wie ihr Kapitel generiert. Für die Methode mit Finereader schaut eich das ePub Formatierungs-Tutorial im nächsten Beitrag an.

In Sigil kann man auch unnötige Absätze die durch Seitenumbrüche im Original PDF entstanden sind (erkennbar daran, dass ein neuer Paragraph plötzlich mitten in einem Satz beginnt), schnell entfernen (meist gehts mit regular expressions, aber selbst mit der Hand dauert das "nur" vielleicht 10-15 Minuten pro Buch, und dann ist man schon sehr pedantisch). Wie es mit Regular expressions (RegEx) geht, steht hier:

http://www.boerse.bz/boerse/dok...ost3117619 (html aus Mobipocket Creator)
und hier
http://www.boerse.bz/boerse/dok...ost3117617 (html aus Finereader)

Falls ihr der Finereader Methode folgt, schaut euch das bebilderte Tutorial von "whoknowsit" an, dort bekommt ihr ebenfalls eine schöne Beschreibung wie ihr mit den Regex hier arbeitet.


Im Tutorial zur Omnipage Methode ist dieser Schritt ebenfalls bereits inkludiert.

8. Alle Textformatierungen die noch korrigiert werden sollten korrigiert man am Besten in der html in Sigil (html in Sigil ist besser als epub in Sigil, bei letzterem Format ist der Fließtext bereits in mehrere Unterabschnitte aufgeteilt, sodass man jeden Abschnitt einzeln korrigieren muss). Nicht in Finereader. Nicht in Omnipage. Das Interface in Sigil ist einfach besser dazu geeignet. Danach speichert man die Datei als epub ab, und ist entweder bereits fertig, oder importiert sie in Calibre. Ein Cover kann man sowohl in Sigil, als auch in Calibre einfügen, mit Calibre gehts einfacher - aber auch unter Sigil ist das kein Ding (Images Folder, add Image, dann Rechtsclick und add Syntax>Cover.

9. Es gibt Dokumente die eignen sich weniger, oder nicht dafür in Fließtext (+ Bilder) gebracht zu werden. Problematisch sind zB. "... for Dummies" Bücher, die auf beinahe jeder Seite Symbole (wie Geheimtipp!, oder Technische Besonderheit!) neben Textparagraphen stehen haben - und bei denen Finereader Probleme hat diese einwandfrei als Bilder zu erkennen. Das Nachkorrigieren in diesen Fällen nimmt einfach zu viel Zeit in Anspruch (alles was über eine Stunde pro Buch, oder Dokument hinausgeht ist imho zu viel, alles was über eine halbe Stunde hinausgeht ist viel .).

Nicht geeignet sind Texte mit mathematischen Formeln. Jedes epub und jedes mobi ist im Grunde eine html Datei, dh. Zeichen für die ein üblicher html Zeichensatz (mit Sonderzeichen) nicht ausreicht, lassen sich schwer, bis gar nicht in Fließtext umwandeln.

Geändert von notimp (25.12.11 um 23:12 Uhr).
Mit Zitat antworten Beitrag melden
Danke
141 Benutzer
   
Alt 24.08.10, 14:16   #2 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

ePub Formatierungs-Tutorial

zum Feinformatieren der aus der Finereader Methode stammenden html Datei in eine Standard konforme, ordentlich formatierte ePub inklusive Cover, Kapitelmarkierungen, Inhaltsverzeichnis, Seitenumbrüchen und Metadaten.


Das hier sind die letzten Feinheiten fürs Erstellen von ordentlichen ePubs. Falls ihr die Methoden einen Beitrag weiter oben erst lernt, lasst euch Zeit und stürzt euch nicht sofort auch auf dieses Tutorial. Oben lernt ihr wie ihr ordentlich formatierte ePubs erstellt.

Hier lernt ihr nur die "Schnörkel" und wie ihr daraus noch den letzten Schliff herausholt.


edit: Bitte den Rest dieses Beitrags nach dem Durcharbeiten des Feineformatierungstutorials weiterlesen. Ich habe hier noch zwei Schritte ergänzt die zumindest hilfreich sind.

edit: Achtung! Sigil 0.4 RC1 (die aktuellste Version) hat einige sehr ungute Bugs intus, und der Entwickler zur Zeit einige wichtigere Dinge zu erledigen. Tut euch einen Gefallen und greift auf die letzte wirklich stabile Version (0.3.4) zurück, oder falls ihr auf die neuen Features nicht verzichten wollt, nehmt die 0.4 beta 3 (diese Version hat nur ein Problem mit komplexen Dateinamen der zu importierenden html, wenn ihr diese (bereits beim speichern in Finereader (!)) ganz simpel als einwort.html benennt solltet ihr keine weiteren Probleme haben).
--

Ergänzung zum verlinkten Tutorial:

Falls sich in das ePub noch Silbentrennungen des Papierbuchs reingeschlichen haben sollten, könnt ihr die wie folgt entfernen.

Code:
([a-z])-(\s){0,1}([a-z]) replace with \1\3
ist eine kleine Regex mit der man sich in Sigil auf die Suche nach noch enthaltenen Sil-bentrennungen machen kann.

Regular expressions muss aktiviert sein, match case muss aktiviert sein, Look in: All html Files muss aktiviert sein und ja nicht Replace all verwenden, sondern immer nur mit Replace arbeiten.

Der erste Treffer auf einer Seite befindet sich unter Umständen bereits in <style> Bereich der Datei, wo man gleich ein Beispiel dafür bekommt, was man NICHT ersetzen darf.

Wann immer Replace ein Wort markiert in dem der Bindestrich richtig gesetzt ist, drückt man nicht noch einmal auf replace, sondern clickt mit der Maus erst einmal nach diesem Wort wieder in den Text, sodass Replace dieses Wort nicht ersetzt, sondern gleich nach dem nächsten sucht.

Mit strg+Z kann man die jeweils letzte Ersetzung rückgängig machen.

Zeitaufwand: Unter fünf Minuten pro Buch.

Damit gibt es keinen Grund mehr in einem eBook jemals noch übernommene Trennzeichen der "Papierbuch-Variante" zu finden.
--

edit:

Und noch eine weitere Ergänzung.

Da viele von euch Haupttextformatierungen nach dem Schema "kein Zeilenabstand" (bottom-margin:0; ) und Einzüge am Anfang eines Paragraphen (text-indent:0.3em; ) bevorzugen (wie man das einstellt steht bereits im Feinformatierungstutorial), hier noch ein kleiner Zusatz.

Formatiert man den Haupttext nach diesem Schema, wird auch die erste Zeile nach einer Überschrift, oder die erste Zeile nach einem harten Absatz (Leerzeile) eingerückt. Wenn ihr diese ersten Zeilen wieder ganz links am Rand der Seite haben wollt (ganz nach etablierten Formatierungsrichtlinien) geht das am einfachsten wie folgt.

Alternativ einfach margin-bottom rund um die 10pt belassen und keinen text-indent setzen. Spart Arbeit. Jetzt aber zur Lösung...
-

Sucht im Stylesheet den .font Eintrag des Haupttextteils (der der zu 90% im Quelltext vorkommt, in den Tutorials font3, bei euch wahrscheinlich ein anderer).
Kopiert die ganze Zeile direkt unter die erste, und dann macht aus der .font3 in der zweite Zeile eine .font33

Danach fügt ihr vor der geschlossenen geschwungenen Klammer des Eintrags von .font33 noch text-indent:0; hinzu.

Abspeichern.

Alle Paragraphen die ihr jetzt als "nicht einrücken" definieren wollt, bekommen von euch anschliessend im <p> tag noch ein class="font33" verpasst: <p class="font33">
Wichtig ist, dass ihr den class="font33" Eintrag im <p> tag und nicht wie sonst üblich im <span> tag setzt.
-

PPS: Eigentlich müsstet ihr euch nicht mal an der Formatierung des Haupttextteils (.font3) orientieren, sondern könntet einen .font33 Eintrag einfach mit text-indent:0; in den Stylesheet schreiben, aber so wirkts fürs erste vielleicht ein wenig strukturierter und logischer...

Geändert von notimp (02.09.11 um 12:04 Uhr).
Mit Zitat antworten Beitrag melden
Danke
18 Benutzer
   
Alt 24.08.10, 14:17   #3 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Filler

Geändert von notimp (27.08.11 um 14:35 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 24.08.10, 14:18   #4 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Ab hier gibt es Diskussion, Tips, css Beispiele, Regex für zwei der Methoden, und vieles mehr.

Geändert von notimp (27.08.11 um 15:36 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 24.08.10, 20:53   #5 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Bitte den ersten Beitrag lesen, das hier ist nur eine Kopie eines im ersten Beitrag verlinkten Tutorials.

Zitat:
Kleines How To (pdf umwandeln in html(>rtf)) mit Bildern.

Mobipocket Creator starten

pdf mit drag and drop ins Programm ziehen

auf Import drücken

http://img824.imageshack.us/img...tc1.th.png

Dann auf den erscheinenden Titel doppelklicken, und oben links auf Preview with Webbrowser gehen.

http://img821.imageshack.us/img...tc2.th.png

Warten bis der Webbrowser aufgeht. In der Adressleiste des Webbrowsers seht ihr den Ort auf eurer Festplatte in dem die html Datei liegt. Geht (im Windows Explorer (Win+E)) in diesen Ordner und kopiert aus ihm die .html Datei, die .xml Datei, und den Unterordner (NAME_opfcache) auf den Desktop.

(Alte Alternative: Das was im Spoiler Tag steht erst mal nicht machen; )


html in Sigil öffnen, nacheditieren.

--
Um die Text- sowie die Formatierungsqualität der html nocheinmal deutlich zu verbessern, sollte man in Sigil einige automatisierte Ersetzungen mit Hilfe von Regular expressions durchführen.

Eine Schritt für Schritt Anleitung dazu findet ihr hier:

http://www.boerse.bz/boerse/dok...ost3117619
--

html in Sigil als epub abspeichern.

epub/rtf in den Titeleintrag in Calibre einbinden (E), epub/rtf mit Calibre in mobi umwandeln (C).

Fertig.

-

Wer es noch eine Spur einfacher haben möchte, kann nach dem kopieren der drei Dateien auf den Destop die .html auch gleich in Calibre einfügen (dauert ein wenig, lasst dem Programm Zeit zu rechnen) und sie dann in Calibre in eine epub, oder mobi umwandeln.

Sigil ist in erster Linie nur da um das Ergebnis der automatischen Konvertierung noch ein bischen manuell nachzubearbeiten. Man kann darauf allerdings auch verzichten, die Textqualität ist in den meisten Fällen trotzdem "ok". Durch das Bearbeiten in Sigil erhöht man die Formatierungsqualität aber nocheinmal deutlich.
--

Zitat:
Zitat von notimp Beitrag anzeigen
Ich muss noch eine Berichtigung nachreichen. Ich habe mich heute (nachdem ich früher bereits mit Finereader 9 gearbeitet habe) in ABBY Finereader 10 eingearbeitet und war sehr überrascht, welche Fortschritte die Jungs aus Russland auf dem Sektor von OCR gemacht haben. Ich habe nach einer kurzen Einarbeitungszeit damit begonnen erste UNI-Skripten von Bild-PDFs in epubs umzuwandeln.

Das Endergebnis war eine einwandfreie epub Datei aus einem UNI-Skript, fehlerfrei - der Zeitaufwand war in etwa eine Stunde (für ein Skript).

Zum Verständnis. Text wird Fließtext, Absatzformatierungen und Textformatierungen bleiben erhalten (Blocksatz wird am Ende im epub gesetzt), Bilder bleiben als Bilder erhalten, Tabellen bleiben als Tabellen erhalten (sollten jedoch fast immer in Bilder umgewandelt werden).

Vorgehensweise (grob umrissen):

(Alle Programme bis auf den Finereader sind Freeware)

pdf mit Briss (Programm) cropen um die Kopfzeilen und Fußzeilen (nicht die Fußnoten!), vor allem aber die Seitenzahlen (!) aus dem Dokument zu entfernen.

gecropptes pdf in Finereader (Programm) laden (Umwandeln in Word Format (auch wenn wir später html als Ausgangsformat wählen)).

Finereader läuft einmal automatisiert über das Dokument und öffnet am Ende Word mit einer bearbeitbaren Fassung, die wir aber nicht brauchen, dh. Word kann ohne zu speichern erstmal geschlossen werden.

Das erste was wir in Finereader machen, ist die automatisch erkannten und markierten Bereiche (links) nachzukontrollieren. Problembereiche sind Fließtext um Bilder, Tabellen vor Text, Bilder, usw. Dabei kontrolliert man ob alle Elemente in der richtigen Reihenfolge pro Seite stehen (bei genannten Problemseiten), die Reihenfolge der Elemente lässt sich in den Eigenschaften des Elements ändern (Reihenfolgennummerierung taucht erst dann auf).

Tabellen sollte man eigentlich immer in Bilder umwandeln (rechtsklick Element umwandeln), da die meisten eReader (inkl der Kindle) mit Bildern besser umgehen können als mit Tabellen (Tabellen werden im Kindle einfach abgeschnitten, Bilder werden resized und lassen sich Zoomen), es sei den sie sind sehr schmal.

Für Elemente die man nicht im epub haben möchte macht sich das Entfernen Tool sehr gut. Gezieltes Arbeiten ist damit sehr schnell möglich.

Hat man die manuelle Bereichsüberprüfung fertig, oben auf Lesen drücken und das Dokument wird erneut eingelesen.

Dann geht es daran im Rechten Bereich die Textqualität zu überprüfen. In den meisten Fällen, und wenn das Ausgangsmaterial halbwegs brauchbar ist (kann schief sein, kann undeutlich gescant sein, kann verwaschen sein (wenns verwaschen ist, muss man das pdf vor dem "Lesen" Scan noch in der Bildform nachbearbeiten, geht in Finereader 10 ebenfalls)), sollten nicht allzuviele OCR Unsicherheiten und Fehler auftauchen (werden durch Finereader farbig markiert).

Beim Prüfen der Textqualität wieder vor allem die Problemseiten ins Augenmerk nehmen. Sicherstellen, dass die Bestandteile in der richtigen Reihenfolge in die Textform übernommen wurden. Finereader macht hier automatisiert vieles bereits perfekt, in Einzelfällen muss man aber manuell nachkorrigieren.

Gespeichert wird das ganze dann als html (html file und Ordner mit Bildern. Die Bilder werden sogar bereits automatisch runterresized. (Vorsicht, hier in den Qualitätseinstellungen für html die Qualität der Bilder etwas rauf setzen, jpgs mit 60% sind nicht gut genug. )). Das html File wird von Finereader dann erstmal in einem Browser geöffnet, wo man einen Ersten Eindruck vom Fließtext bekommt.

Beim Speichern in html werden fast alle Zeilenumbrüche richtig gesetzt (die Textqualität (Umbrüche, Formatierungsqualität) ist hier meist top, es ist unglaublich, was hier automatisiert abläuft). Selbst die die auf der Rechten Seite im Korrekturfenster nicht, oder falsch aufscheinen. Also schaut euch zuerst die html an, bevor ihr beginnt in Finereader Absätze einzupflegen.

Seht ihr in der html noch Fehler, bearbeitet in Finereader nach, und drückt dann erneut auf speichern. Die html Datei wird dann neu erstellt.

Alt/Alternative, das hier erst mal ignorieren:
Zitat:
Mit der html gehts dann in Calibre (Programm) (es empfielt sich fast den Eintrag bereits mit dem pdf zu erstellen, und das html dann zu diesem Eintrag hinzuzufügen (markieren und E Taste), damit man am Ende html und pdf, sowie epub beisammen hat). Fügt man die html hizu, wird sie mit dem Bilder Ordner von Calibre als zip Datei gespeichert. Im nächsten Schritt wandelt man mit Convert (markieren und C) die zip Datei in eine epub Datei um.

Fast fertig.

Markieren und O in Calibre öffnet den Ordner in dem die epub Datei dann liegt. Diese kopiert man erstmal auf den Desktop.
Danach öffnen wir die html (Alt: epub) mit Sigil (Programm). In Sigil gehts daran die Formatierung des Hauptteils (inkl. Bilder und evtl. Tabellen) mit dem Blocksatz zu versehen, bzw. kleinere Formatierungsfehler nachzu korregieren, sowie Seitenumbrüche und Kapitel zu setzen.

Alt/Alternative, das hier erst mal ignorieren:
Zitat:
Je nach dem wie lange die Datei ist, wird sie bereits zuvor von Calibre in mehrere Unterdateien zerteilt. Die aktuellen Versionen von Sigil lassen einen nicht mehr alle Unterdateien gleichzeitig bearbeiten, sodass man den Prozess pro Unterdatei (sieht man links) wiederholen muss. Ist aber ganz einfach und geht extrem schnell. Text markeiren der zum Blocksatz werden soll - dann oben auf Blocksatz drücken. Das macht man vielleicht 2-3 Mal (für die Unterdateien), dann drückt man auf Speichern, und das wars.
Am Ende wandelt man die epub, die man durch das Speichern in Sigil erhält ggf. noch mit Calibre in eine mobi Datei, oder in eine anderes textbasiertes Format um.
-

Wichtig!

Um die Text- sowie die Formatierungsqualität der html oder der epub zu optimieren (98% der optimalen Textqualität zu erreichen), sollte man in Sigil einige automatisierte Ersetzungen mit Hilfe von Regular expressions durchführen.

Eine Schritt für Schritt Anleitung dazu findet ihr hier:

http://www.boerse.bz/boerse/dok...ost3117617
--

--

Details:

Möchte man, dass die epub ein Cover hat, sollte man das in Calibre einpflegen (markieren, E). Es geht zwar auch in Sigil, ist dann aber komplizierter.
-

Bei schiefem pdf Bildausgangsmaterial setzt Finereader gerne mal unterschiedliche Schriftgrößen im Haupt-Text-Teil. Man kann das zwar bereits im Finereader korregieren, mit der GUI ist man dort aber nicht wirklich schnell. Am einfachsten korrigiert man das in der html die Finereader ausspuckt, bevor man sie in Calibre importiert. Die html einfach mit einem editor (wie Sigil in der Quellcodeansicht) öffnen, und anschauen welche "Zahl" neben "font" im Anfangs tag bei den jeweiligen Paragrafen mit einer Bezeichnung steht. Die Bezeichnung mit der Zahl triggert die Formatierung in einem CSS Sheet. Es gibt im Hauptteil eine Zahl die zu 90% vorkommt. Das ist die normale Formatierung des Fließtexts. Findet man im Hauptteil bei anderen Paragraphen eine andere Zahl, ohne dass dieser Paragraph größer oder kleiner sein soll (Überschrift, Zitat, Sonderformat), hat man die Ausreißer gefunden. Um das Problem zu beheben ändert man die Zahl einfach in die Zahl um ansonsten (in der Mehrzahl) im Hauptteil vor den Paragraphen steht und speichert. Dauert eine Minute, vielleicht etwas länger wenn mans wirklich exakt macht.
-

Optische Korrekturen am epub (sollten sie noch notwendig sein) kann man in Sigil vornehmen, dabei sollte man aber nie vergessen, dass eine gute Ausgangsbasis durch das tweaken in Finereader durch kein Nachbearbeiten in Sigil ersetzt werden kann. In dem meisten Fällen lohnt es sich daher auch ein wenig Zeit im Finereader zu verbringen.
-

Kindle Nutzer wandeln die epub mit Calibre in eine mobi um, die dann auf dem Kindle gelesen werden kann. Die Umwandlung von epub nach mobi geschieht "verlustfrei".

--
Habe das Beispiels ePub an dem ich gearbeitet habe zusammen mit dem Ursprungs pdf hochgeladen. Falls jemand sehen möchte "was möglich ist":


Bitte den ersten Beitrag lesen, das hier ist nur eine Kopie eines bereits verlinkten Tutorials.

--


Es handelt es sich hier um Zusatzinformation zur Formatierung und Sigil, das hier also erst lesen, wenn man im Umgang mit den Methoden bereits etwas Übung hat.

Zitat:
Zitat von notimp Beitrag anzeigen
Kann zu meinem "pdf nach epub mit perfekter Formatierung" (setzt Finereader vorraus, weniger perfekt aber mit trotzdem sehr guter Fließtextqualität gehts auch mit Mobipocket Creator (kostenlos)) Beitrag noch etwas hinzufügen.

1. Öffnet man bereits das html File das man aus dem Finereader bekommt in Sigil, lässt sich das gesamte Dokument "in einem" bearbeiten (öffnet man das epub, ist es bereits segmentiert).

2. Seitenumbrüche fügt man in der Quelltextansicht durch das Setzen von
Code:
<br style="page-break-after:always">
ein. Der Autor hat eine entsprechende Funktion nicht in die GUI eingefügt, da das style Attribut eigentlich in den <p> oder <div>, oder <h> Tag zuvor gehört und es für das Programm schwer ist "zu raten" wo das Attribut genau platziert werden soll. Das Setzen eines <br> (Zeilenumbruchs) ist nur eine Hilfskonstruktion mit ders schneller geht. In extremen Einzelfällen kann es dadurch zu einer unbeabsichtigten Leerzeile zu Beginn einer neuen Seite kommen. in 90% alle Fälle funktioniert die Methode mit dem <br> jedoch wie gewollt.

Die beiden Attribute für die Tags lauten:
style="page-break-before: always"
bzw.
style="page-break-after: always"

Die Seitenumbrüche werden auch bei einer Konvertierung von Calibre nach .mobi übernommen.

3. Um im Kindle später Kapitel angezeigt zu bekommen müsst ihr in sigil einen TOC (Table of content) erstellen. Dazu müsst ihr die Überschriften mit <h?> Tags markieren. <h1> = Titel, <h2> = Überschrift, <h3> = Unterüberschrift, ...

Wenn ihr nur die <h?> tags im Quellcodee setzt, verändert ihr nichts am Layout (was gut ist ).

4. Chapterbreaks
Code:
<hr class="sigilChapterBreak" />
Horizontale Linie mit integriertem Sigil Chapterbreak (per F6 in Sigil triggern). Sollte vor <h?>'s positioniert werden.

Geändert von notimp (27.08.11 um 15:33 Uhr).
Mit Zitat antworten Beitrag melden
   
Alt 24.08.10, 21:16   #6 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Problemlösung

Calibre zeigt beim Umwandeln eines in Sigil erstellten epubs in eine anderes Format eine Fehlermeldung. edit: Passiert eventuell auch in Stanza, oder anderen ePub Readern.

Lösung:
epub in Sigil öffnen, und sowohl die html Datei(en) (die links angezeigt wird(/werden)), als auch die css datei (die links, im Ordner Styles angezeigt wird), von ihren Umlauten befreien (zB. ö umbenennen in oe). epub erneut speichern.

Problem behoben.

Geändert von notimp (06.09.10 um 00:15 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 25.08.10, 12:35   #7 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Problemlösung

Pedantisch - Teil 2

Problem:
Code:
Finereader setzt als einfache Anführungszeichen in Büchern > < anstatt › ‹ .
Lösung:
Entweder bereits im Finereader, oder später in Sigil (diesmal allerdings in der graphischen Ansicht, nicht im Quellcode) einfach in zwei Schritten mit strg+H ersetzen. Wer dem Regular expressions Tutorial hier folgt, ersetzt sie als letzen Schritt in Sigil.

Danke an NASCARaddicted für den Hinweis.

Geändert von notimp (05.09.10 um 18:21 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 25.08.10, 17:46   #8 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

ePub Absatz-Formatierung

Optional, (vor-)letzter Schritt vor dem Erstellen des finalen epubs

Text am Paragraphenbeginn einrücken und Abstand zwischen zwei Paragraphen auf 0 reduzieren.

Manche bevorzugen dieses Layout beim Lesen, anstatt einfachen Paragraphen mit einem Abstand dazwischen.

Gerade bei Büchern mit vielen kurzen direkten Reden, macht sich diese Formatierung ganz gut - auch wenn ich persönlich sie nicht bevorzuge.
-

Und so gehts. epub oder html in Sigil öffnen, in die Quelltextansicht wechseln.

Unter dem <style type ="text/css"> tag recht am Anfang des Dokuments folgende Zeile einfügen:

Code:
p {margin: 0; padding: 0;}
Bild anzeigen
-

Danach zum Stylesheet (links im Ordner Syles) wechseln und im font Tag der Standardschriftart des Fließtexts (im Beispiel im oberen Beitrag wars font5, hier ist es font1) folgende Zeilen hinzufügen:
(Hat das Dokument keinen Stylesheet, kommen sie epenfalls in die geschwungene Klammer ( p{} ) von oben.)

Code:
display: block; margin-bottom: 0; margin-left: 0; margin-right: 0; margin-top: 2pt; text-align: justify; text-indent: 0.4em;
Sodass dieser Tag dann in etwa wie folgt aussieht:
Bild anzeigen
-

epub abspeichern.

Formatierung bleibt beim Konvertieren nach mobi erhalten.

Quelle: FAQ - sigil - Frequently Asked Questions for Sigil - Project Hosting on Google Code
--

edit:
Gute Layout Einstellungen für ein "normales" epub (keine Einschübe (indents):

Abstand zwischen zwei Paragraphen erstellen, bzw. beibehalten aber "etwas" reduzieren.
(je nach dem wie ihr margin-bottom verändert wird der Abstand größer oder kleiner. Beginnt aber mal bei margin-bottom: 10pt; )

Code:
body{margin-left:5%;margin-right:5%;margin-top:5%;margin-bottom:5%} p{text-indent:0;margin-left:0;margin-right:0;margin-top:0;margin-bottom:10pt}
Die Tags gehören in der html in den <style type="text/css"> Tag, ziemlich am Beginn der html, oder in den Stylesheet.

Geändert von notimp (04.11.10 um 23:10 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 29.08.10, 09:56   #9 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Habe das Tutorial über die letzten Tage noch ein wenig verfeinert, und soeben ein letztes Mal korrekturgelesen. Aus meiner Sicht kann es so erst mal stehenbleiben.

Wenn es doch unklare Formulierungen geben sollte, PN an mich.

Geändert von notimp (31.08.10 um 04:22 Uhr).
Mit Zitat antworten Beitrag melden
Danke
2 Benutzer
   
Alt 29.08.10, 16:06   #10 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Zitat:
Zitat von bendida Beitrag anzeigen
Eine Frage bezüglich Sigil: dauert es bei euch auch ewig lang bis das Program etwas ausführt? z.b. wenn ich etwas kopiere und es dort hinzufüge, oder wenn ich etwas markiere und es als Titel formatieren will?. Bei mir dauert es sehr lange und zweitweise kommt "Keine Rückmeldung", bis den Befehl ausgeführt worden ist. Ich muss dazu sagen, dass ich momentan die Bearbeitung in "Book View" Modus machen, ist das vielleicht das Problem? Muss man immer alles in html schreiben, damit es schneller geht?
Ich entdecke hier einen "blinden" Fleck in meinem pdf zu epub/mobi Tutorial. Die Antwort fällt desshalb länger und ausführlicher aus, als sie für dein Problem notwendig wäre. Ich werte diesen Beitrag als Ergänzung und werde ihn auch in meinen Tutorial Thread stellen.

Das "Problem" aber auch der Vorteil sind die langen html Dateien. Formatierungen innerhalb "existierender Tags" gehen sehr schnell von der Hand. Sobald jedoch neue Paragraphen angelegt, bzw zusammengelegt werden dauerts erheblich länger, da das Programm die Integrität des html Codes gegenprüft.

Wenn du wirklich nur, oder hauptsächlich "visuell" (im Book View Modus) arbeitest, kannst du die html mit Calibre zuvor in eine epub umwandeln. Falls du bereits eine epub bearbeitest, sollte das Problem mit aktuellen Sigil Versionen nicht, oder nur eingeschränkt auftreten. Tritt es trotzdem auf, kannst du versuchsweise die epub ebenfalls mit Calibre nochmal in eine epub umwandeln. (Jep, ich habe mich hier nicht verschrieben).

Calibre sollte dir beim Erstellen der epub die Haupt-html Datei in kleinere Einzeldateien splitten. Das Bearbeiten in Sigil geht dann erheblich schneller.

Problematisch sind eventuell die Tags die Calibre bei der Umwandlung erstellt. Der Quellcode den dir Calibre liefert sieht weniger schön aus, als ein "sauberer" html code. Calibre arbeitet viel mit eigenen style tags (calibre 1-100), was dir einige Arbeiten erleichtert, andere aber vielleicht erschwert.

Du musst Calibre zum splitten der html Datei übrigens nicht einmal einsetzen, du kannst das auch händisch in Sigil machen (= Capterbreaks zB vor jeder Überschrift einfügen), aber das dauert wahrscheinlich länger. Dafür hast du den schöneren html Quellcode zum bearbeiten.

Die gesplitteten html Dateien bleiben trotzdem immer "eine epub". Nur zur Klarstellung.

Probiers aus.
--

Ich persönlich abeite jedoch ungerne nach der Methode und das hat einen Grund. Sigil erlaubt es dir zwar über alle gesplitteten htmls hinweg Regular expressions anzuwenden, bzw "normal zu ersetzen". Wenn ich allerdings mit der Suchfunktion (und Regular expressions) Vorgänge nachprüfen will, muss ich das in jedem einzelnen gesplitteten html separat tun. Und das ist extrem umständlich. Ich arbeite daher (trotz Verzögerungen) mit einer langen html Datei.
--

Zusammenfassung: Alle Vorgänge die sich "kaum unterscheiden" und bei denen du auf "immer wieder gleiche Elemente" zurückgreifst. Mach - am besten "auf einmal" im Quelltext. Vorgehensweisen bei denen du das visuelle Moment brauchst oder die in der Book view einfacher zu erledigen sind (kopieren von Paragraphen), mach in der Book view.

Wenn du mehrere "ähnliche Operationen" auf einmal, oder nacheinander im Quelltext ausführen kannst, wartest anschließend nur "einmal", anstatt bei jeder Änderung individuell zu warten, bis sie in der Book View visuell aufscheint.
--

Ich beschreibe hier einmal meine Vorgehensweise in Sigil vom Öffnen der html Datei, bis zum Abspeichern als epub. Die html Datei stammt bei mir in den meisten Fällen aus dem Finereader, und ist "sauber". Ich sage das nur noch einmal extra hinzu, falls jemand zb eine in Word erstellte html verwendet, und vor lauter "speziellem Quelltext" die Buchformatierung nicht mehr sieht.
---

edit:

Disclaimer!

Ich musste die Beschreibung an dieser Stelle minimieren, da ich das Bearbeitungsmuster mit den Regular Expressions vereinfachen konnte. Die in der Beschreibung erwähnten Regular expressions entsprechen noch der alten Methode. Der Ablauf selbst ist der selbe geblieben, nur die konkreten Regular Expressions finden keine Verwendung mehr, da sie durch andere ersetzt werden konnten.



Dauer: In etwa 10-12 Minuten

Geändert von notimp (31.08.10 um 16:51 Uhr).
Mit Zitat antworten Beitrag melden
Danke
3 Benutzer
   
Alt 31.08.10, 02:56   #11 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Problemlösung



Seitenumbrüche aus dem pdf die für einen neuen, unnötigen Absatz im Fließtext sorgen automatisiert entfernen.

Regular expressions (RegEx) für htmls aus


Finereader


(Regex für Mobipocket Creator, siehe weiter unten)

Problem:
Konvertiert man ein pdf mit Finereader in ein html file, wird mit jeder neuen Seite automatisch ein neuer Paragraph (und damit Absatz) geöffnet. Manchmal entsteht dadurch ein neuer Paragraph, im Fließtext, der an dieser Stelle nicht hin passt, da er mitten im Satz beginnt. Manchmal gehört an dieser Stelle jedoch ein Paragraph gesetzt.
Zitat:
In Sigil kann man auch Absätze die durch Seitenumbrüche im Original PDF entstanden sind, schnell entfernen (meist gehts mit regular expressions, aber selbst mit der Hand dauert das "nur" vielleicht 10-15 Minuten pro Buch, und dann ist man schon sehr pedantisch).
-


So gehts mit "Regular expressions".

Zeitaufwand: Zwei Minuten.


--

VORSICHT! Alle Schritte GENAU befolgen, sonst hat man am Ende ein ungültiges html File und muss von vorne beginnen
-

Bevor ihr in Sigil die html öffnet, stellt sicher, dass sich im Dateinamen kein Umlaut befindet (umbenennen). Das kann später zu Problemen führen.

1. In Sigil das html File öffnen und in die Quellcode Ansicht wechseln (F11). Strg+H (Replace) drücken.

Danach die folgenden Operationen ausführen (replacewith NICHT ausschreiben, sondern ignorieren, das steht nur hier, damit man die beiden Code Zeilen auseinanderhalten kann. ).



2. "Paragraphen nach Überschriften markieren"

Achtung! In der ersten Operation hier sind drei 1er fett markiert. Diese 1er (und nur diese 1er!) müsst ihr durch die Zahl ersetzen die eure Fließtext font repräsentiert. Die Fließtextfont ist die font? die zu 90% im Text vorkommt. Ihr solltet sie leicht auf einen Blick im html-Quellcode finden.

Achtung! WICHTIG!: Sicherstellen, dass der Search Mode (im strg+H Fenster) auf Regular Expression steht.

Code:
(<p><span class="font[^1](\d*){0,3}( |sgc-\d*){0,3}">(<a id="bookmark\d*"></a>){0,1}(\s*|\S*){1,15}</span></p>\s*<p><span class="font1)"> replacewith \1 font1">
replace all.

Damit verändert ihr den <span> Tag in Paragraphen nach Überschriften (ihr verdoppelt den font Eintrag). Die Veränderung ist optisch nicht sichtbar, verhindert aber dass ihr mit der nächsten Regex Operation den ersten Fließtextparagraphen nach einer Überschrift mit der Überschrift zusammenlegt.

Der Code der Überschriften erkennen soll ist recht komplex und hat eine hohe Trefferwahrscheinlichkeit bei den verschiedensten Ursprungspdfs. Trotzdem kann es in etwa 5% der Fälle sein, dass er eine Überschrift nicht korrekt findet.

Darum kontrolliert ihr manuell nach.



3. "Manuelle Nachkontrolle"

Im nächsten Schritt sucht ihr (strg+F) im Quelltext nach font1 font1 - den 1er hier wieder durch die Nummer eures Fließtext-fonts ersetzen.

Ihr solltet alle font1 font1 Einträge direkt im <span> Tag des Paragraphen NACH einer Überschrift finden. Befindet sich ein solcher Eintrag im zweiten oder dritten Paragraphen nach einer Überschrift, löscht ihr ein font1 und fügt es manuell beim ersten Paragraphen nach der Überschrift im <span> tag hinzu, sodass dieser wie folgt aussieht:
<span style="font1 font1">
Der 1er gehört auch hier durch eure Fontnummer des Fließtexts ersetzt.



4. "Zusammenführen der Unnötigen Paragraphen die keine Überschriften sind."

Wieder im Ersetzen Dialog (strg+H) machen wir uns an die zweite RegEx Operation.

Achtung! Auch in der zweiten Operation hier ist diesmal ein 1er fett markiert. Diesen 1er (und nur diesen 1er!) müsst ihr durch die Zahl ersetzen die eure Fließtext font repräsentiert. Die Fließtextfont ist die fontZAHL die zu 90% im Text vorkommt. Ihr solltet sie leicht auf einen Blick im html-Quellcode finden.

Achtung! WICHTIG!: Sicherstellen, dass der Search Mode (im strg+H Fenster) auf Regular Expression steht.

Code:
([^(.|?|!|<|>|«|"|:|“)])</span></p>\s*<p><span class="font1"> replacewith \1LEERZEICHEN
Achtung! LEERZEICHEN schreiben wir hier nicht aus, sondern setzen anstatt dessen einfach ein Leerzeichen.

replace all.

Damit habt ihr soeben alle unnötig getrennten Paragraphen wieder zusammengefügt.



5. Finale Endkontrolle.

Wir wechseln in Sigil in die Buchansicht und kontrollieren noch einmal schnell ob alle Überschriften und Paragraphen nach Überschriften die richtige Formatierung haben.

Und freuen uns, dass das der Fall ist.

edit: Nur in sehr, sehr seltenen Fällen (bei Überschriften mit mehr als 6 Leerzeichen) kann es sein, dass der erste Paragraph nach einer Überschrift die Formatierung der Überschrift übernommen hat. Nur in diesen Fällen müsst ihr eventuell noch nacheditieren.

edit2:
Problem bei einem Sonderfall

Weiters stoßen die Regex der Finereader Methode auf Probleme, wenn die Haupttextfont font1 oder font11 ist UND sich die Fonts der Überschriften in den zweistelligen Bereich ziehen. Das lässt sich leider nicht in den RegEx beheben, in diesen Fällen muss die Haupttextfont im Stylesheet, und per replace im html Teil ausgetauscht werden. Ich empfehle font0.
-

Danach speichern wir die html als epub und können sie entweder auf den eReader spielen, oder in Calibre importieren.

--

Optional:

Am Ende setzen wir ggf. noch Seitenumbrüche:
Code:
<br style="page-break-after:always">
--

Wenn im Dokument > bzw < als einfache Anführungszeichen im Text auftauchen,
können wir noch > durch › und < durch ‹ (strg+H in zwei Schritten, in der Buchansicht) ersetzen.

Geändert von notimp (20.03.11 um 01:18 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 31.08.10, 03:01   #12 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Problemlösung



Seiten- oder Zeilenumbrüche aus dem pdf die für einen neuen, unnötigen Absatz im Fließtext sorgen automatisiert entfernen.

Regular expressions (RegEx) für htmls aus


Mobipocket Creator


Problem:
Konvertiert man ein pdf mit Mobipocket Creator in ein html file, wird an vielen Stellen ein neuer Paragraph (und damit Absatz) geöffnet, bzw ein Zeilenumbruch gesetzt. In vielen Fällen entsteht dadurch ein neuer Paragraph, im Fließtext, der an dieser Stelle nicht hin passt, da er mitten in einem Satz beginnt. Manchmal gehört an dieser Stelle jedoch ein Paragraph gesetzt.
Zitat:
In Sigil kann man auch Absätze die durch Seitenumbrüche im Original PDF entstanden sind, schnell entfernen.
-


So gehts mit "Regular expressions".

Zeitaufwand: Zwei Minuten.
--

ACHTUNG!
Wie mir soeben mitgeteilt wurde ist seit einigen Versionen in Sigil automatisch die Option "Checking for well-formed errors" aktiviert (das "Einbahnstrassen"-Icon in der Symbolleiste). Diese Option geht den Quelltext eines Dokuments automatisch nach Strukturfehlern durch und fragt, ob es diese beheben soll.

Ich verwende hier im Tutorial jedoch einen solchen Strukturfehler (ein willkürlich gesetzter geschlossener Tag (</a>) der keine Auswirkung auf die Darstellung hat, jedoch als Markierung und zwar für Teile die von anderen Schritten ignoriert werden sollen (und werden).

Das heißt, solltet ihr gleich nach den ersten Ersetzungen von Fehlermeldungen aufgeschreckt werden, dreht bitte einfach diese "Struktur prüfen" Option ab (ein click auf das "Einbahnzeichen"), bis ihr alle Ersetzungen vorgenommen habt. Danach könnt ihr es wieder aktivieren - Fehlermeldung wird angezeigt, und die gefundenen "Fehler" automatisch bereinigen lassen. Dadurch werden die nach den Ersetzungen sinnlos gewordenen, aber generell nicht störenden </a> Tags gelöscht.

Danke an captain66 für den Hinweis.
--

VORSICHT!
Alle Schritte GENAU befolgen, sonst hat man am Ende ein ungültiges html File und muss von vorne beginnen
-
Bevor ihr in Sigil die html öffnet, stellt sicher, dass sich im Dateinamen kein Umlaut befindet (umbenennen). Das kann später zu Problemen führen.

1. In Sigil das html File öffnen und in die Quellcode Ansicht wechseln. (F11)

Strg+H (Replace) drücken.

Danach die folgenden Operationen ausführen (replacewith NICHT ausschreiben, sondern ignorieren, das steht nur hier, damit man die beiden Code Zeilen auseinanderhalten kann. ).

edit: Da einige damit hier offenbar Probleme haben, hier ein Bild vom Ersetzen-Fenster in Sigil - wie es mit Codesegment 3 (aus Punkt 4) aussehen muss.
Wenn das Ersetzen bei euch auch nach dieser dritten Operation nichts findet, macht ihr etwas falsch. Schaut euch dann dieses Bild genau an:
Bild anzeigen


2. "Wahrscheinliche Überschriften markieren um sie später nicht in den Ersetzprozess miteinzubinden."

Achtung! WICHTIG!: Sicherstellen, dass der Search Mode (im strg+H Fenster) auf Regular Expression steht.

Code:
(<p class="( |sgc-\d){0,3}">(\s*|\S*){1,15}</p>) replacewith \1</a>
replace all.

Damit markiert ihr alle Paragraphen, die eine Sonderformatierung haben - in 80% der Fälle erwischt ihr damit wie gewollt nur Überschriften. Später wird von den verbleibenden 20% auch nur ein Bruchteil mit anderen Paragraphen zusammengefügt, sodass die Trefferquote insgesamt gut ausfällt.

Falls die Regular Expression an dieser Stelle keine Überschriften findet, ist das ein gutes Zeichen!
Einfach mit dem nächsten Schritt weitermachen.



3. "Wahrscheinliche Überschriften markieren um sie später nicht in den Ersetzprozess miteinzubinden."

Achtung! WICHTIG!: Sicherstellen, dass der Search Mode (im strg+H Fenster) auf Regular Expression steht.

Code:
(<b>(\s*|\S*){1,10}</b></p>) replacewith \1</a>
replace all.

Damit markiert ihr alle Paragraphen, die eine fettig Formatierung haben und nicht besonders lang sind - in 80% der Fälle erwischt ihr damit wie gewollt nur Überschriften. Später wird von den verbleibenden 20% auch nur ein Bruchteil mit anderen Paragraphen zusammengefügt, sodass die Trefferquote insgesamt gut ausfällt.

Falls die Regular Expression an dieser Stelle keine Überschriften findet, ist das ein gutes Zeichen!
Einfach mit dem nächsten Schritt weitermachen.



4. "Zusammenführen der unnötigen Paragraphen die keine Überschriften sind."

Wieder im Ersetzen Dialog (strg+H) machen wir uns an die nächste RegEx Operation.

Achtung! WICHTIG!: Sicherstellen, dass der Search Mode (im strg+H Fenster) auf Regular Expression steht.

Code:
([^(.|?|!|<|>|«|"|:|“)])</p>\s*<p> replacewith \1LEERZEICHEN
Achtung! LEERZEICHEN schreiben wir hier nicht aus, sondern setzen anstatt dessen einfach ein Leerzeichen.

replace all.

Damit habt ihr soeben alle unnötig getrennten Paragraphen wieder zusammengefügt.



5. "Zusammenführen der unnötigen Zeilenumbrüche."

Wieder im Ersetzen Dialog (strg+H) machen wir uns an die nächste RegEx Operation.

Achtung! WICHTIG!: Sicherstellen, dass der Search Mode (im strg+H Fenster) auf Regular Expression steht.

Code:
([^(.|?|!|<|>|«|"|:|“)])<br />\s replacewith \1LEERZEICHEN
Achtung! LEERZEICHEN schreiben wir hier nicht aus, sondern setzen anstatt dessen einfach ein Leerzeichen.

replace all.

Damit habt ihr soeben viele unnötige Zeilenumbrüche aus dem Dokument entfernt. da wir davon ausgehen, dass die verbleibenden Zeilenumbrüche in der Mehrzahl echte Paragraphen repräsentieren, wandeln wir sie im letzten Schritt auch in Paragraphen um.



6. "Umwandeln der verbleibenden Zeilenumbrüche in Paragraphen"

Wieder im Ersetzen Dialog (strg+H) machen wir uns ans Ersetzen der verbleibenden Zeilenumbrüche.

Code:
<br /> replacewith </p><p>
replace all.

Damit haben wir wieder einige der originalen Paragrphen mehr mit im Dokument.



7. Wir wechseln zum ersten mal in die Buchansicht (F9). Es ist WICHTIG! nach dem Beginn des Ersetzungsvorganges durch die Regular Expressions die ganze Zeit über in der Quelltextansicht zu bleiben, da mit einem Wechsel der Ansicht die in den ersten beiden Schritten gesetzten Marker verschwinden. Das passiert an dieser Stelle (die Marker waren immer "unsichtbar" und sich in diesem Moment vollkommen aus dem Dokument verschwunden).

Ab jetzt können wir das Dokument in der Buchansicht nachbearbeiten, wie wir wollen.



Danach speichern wir die html als epub und können sie entweder auf den eReader spielen, oder in Calibre importieren.
--

Wenn im Dokument > bzw < als einfache Anführungszeichen im Text auftauchen,
können wir noch > durch › und < durch ‹ (strg+H in zwei Schritten, in der Buchansicht) ersetzen.

Geändert von notimp (31.10.11 um 19:22 Uhr).
Mit Zitat antworten Beitrag melden
Danke
10 Benutzer
   
Alt 31.08.10, 03:09   #13 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

ENDE DES TUTORIALS!



-----



Danksagung



Nochmals ein herzliches Danke an NASCARaddicted.

Dank seinem Hinweis konnte ich deutlich genauere RegEx Operationen schreiben, die es erlauben unnötige Seitenumbrüche aus aus pdfs erstellten htmls zu entfernen.

Damit war es mir erstmals auch möglich Regular expressions für aus Mobipocket Creator stammende htmls zu schreiben und deren Formatierungsqualität deutlich zu verbessern.

Geändert von notimp (09.09.10 um 07:26 Uhr).
Mit Zitat antworten Beitrag melden
Danke
3 Benutzer
   
Alt 04.09.10, 14:43   #14 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Dein Problem ist also dass alles zerstreut ist.

Ich beschreibe hier zwei Unterschiedliche Wege mit jeweils 4+ Unteroperationen die du alle entweder machen kannst, oder machen solltest, oder nicht machen musst. Ich schicke dich also nachdem du dich für eine Methode der Texterkennung entschieden hast in einen anderen Beitrag - damit du die Methode lernst. Wenn du die Methode intus hast, führe ich dich am Ende jeder Methode wieder in diesen Beitrag um mit den für die Methoden entsprechenden RegEx Befehlen die Formatierungsqualiät noch zu verbessern.

Wenn du dass intus hast, gibts nur noch Tips und kleine Kniffe, auf die du entweder bereits gekommen bist, oder die du machen kannst, aber nicht zu machen brauchst - alle diese Tipps befinden sich wieder hier im Hauptbeitrag.

Ich habe vor die Tips im ersten Beitrag jetzt noch eine "Warnung" gesetzt sich diese erst anzuschauen, wenn man bereits nach zumindest einer Texterkennungsmethode gearbeitet hat.

Vielleicht hilft das ein wenig....
-

Wenn ich aus allen Hilfestellungen hier im Beitrag eine einzige "Liste" mache, steigst du mir noch viel eher aus, als bei dieser Form...

Hier im Tutorial steht wie man:

PDFs zuschneidet, damit die Texterkennung besser klappt, detailiert, wie man die Texterkennung nach zwei unterschiedlichen Methoden vornimmt, wie man die Formatierungsqualität des erhaltenen Textes verbessert (zugeschnitten auf die beiden unterschiedlichen Methoden), wie man Seitenumbrüche kurz vorm Erstellen des eBooks hinzufügt, wie man Design Formatierungen des eBooks verändert, um Absatzabstände einzustellen. Wie man das eBook am Ende ins finale Format bringt.

Viele dieser Schritte sind modular, einige optional (RegEx), einige unnötig (eBook vom epub Format in ein anderes bringen, wenn der eReder bereits epub beherrscht).

Leider handelt es sich hierbei um viel Information - wenn du an einer Stelle nicht weiterkommst, schreib mich per PN an - ich helfe derzeit gerne weiter. Ich bezweifle aber dass du an dem Tutorial scheitern wirst "weil es zu zerstückelt" ist.
--

Danke an legamant, durch ihn habe ich ein neues legitimes Satzendzeichen entdeckt (“) - und bereits in die RegEx eingepflegt.

Mit Zitat antworten Beitrag melden
Danke
5 Benutzer
   
Alt 05.09.10, 11:27   #15 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Wichtig!

Zum Verständnis:
Mit "Paragraph" ist hier im Tutorial immer ein ganz normaler Absatz gemeint.

Paragraph ist der englische Begriff für Absatz. Es ist auch im Deutschen ein Synonym - ist aber weniger gebräuchlich.

Geändert von notimp (06.09.10 um 00:08 Uhr).
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 05.09.10, 22:40   #16 (Permalink) Top
Benutzerbild von Qupfer
Mitglied seit: Sep 2008
Beiträge: 151
Qupfer ist offline
Qupfer
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

EDIT:wenn ich mit Sigil das dokument als epub abspeichere und z.B. in Stanza öffnen möchte bekomme ich folgende Fehlermeldung
stanzafehler.PNG - Bilder und Fotos kostenlos auf ImageBanana hochladen
Woran liegt das? Spekulation, die html verweist noch auf eine Datei die nicht exisitert.....



Danke für die super Anleitung...jedoch versuche ich eigentlich immer wenigstens in ganz, ganz groben zügen zu verstehen, was ich eigentlich mache.
Soweit ist das eigentlich auch klar, ich suche nach stellen, wo vor dem Zeilenumbruch (bzw. am Abschnitsende), also vor <br /> was passendes bzw. unpassendes steht und ersetze das mit einem alternativen zeichen bzw. entferne diese etc.pp

Aber aus reiner neugier, was bewirkt/bedeutet \1 und /a
Ok, /a gehört zum Marker, aber warum braucht man da kein "eröffnendes" <a> und was bewirkt dieser Marker explizit? Oder ist das sowas wie ein unsichtbares zeichen? Da noch </a> zwischen Zeilenende und /br steht, wirds später nicht gefunden und somit ignoriert, also quasi unsichtbarer Müll^^ oder wirkt/funktioniert das anders und bin gerade auf dem Holzweg.
Wie gesagt, habe eigentlich 0,nix Ahnung von html jedoch habe ich halt mal irgendwo aufgeschnappt das (eigentlich) jeder Tag (oder wie sich das nennt) mit <> geöffnet und mit </> wieder geschlossen wird und das öffenen fehlt mir hier einfach. Und ja, das a "kenne" ich von Links, daher ist mir soviel klar, dass das mit dem von dir erwähnten Marker zusammenhängt....aber trotzdem haperts noch am Verständnis der Funktionsweise.

Und irgendwie doof, ein nichtverständnis zu erklären^^ Hoffe trotzdem du verstehst was ich meine.
Funktionieren zu natürlich alles einwandfrei, auch wenn ich etwas erstaunt war, als er bei einen der letzten Ersetzungen mehrere Tausend treffer hatte (glaube 6k)

Daher auch nochmal ein Danke von mir

Geändert von Qupfer (05.09.10 um 23:04 Uhr).
Mit Zitat antworten Beitrag melden
   
Alt 05.09.10, 23:37   #17 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Du liegst eigentlich in allem richtig.

Das </a> das ich in der Mobipocket Creator Methode hinzufüge ist nur Junk (Müll) und dient einzig und alleine dazu, dass eine spätere Regex die Zeilen mit dem hinzugefügten </a> später ignoriert, weil das unnötige </a> (ist nur ein Anker und nicht mal einer der fertig geschrieben wurde (<a> fehlt, und der Inhalt fehlt), dh er ist nie sichtbar) die Zeilen verändert. Das unnötige </a> wird allerdings in Zeilen eingefügt wo es verhindern soll, dass spätere Regex greifen.

Dh. das </a> selbst ist Junk, aber die Stelle an der </a> eingefügt wird ist wesentlich.
-

Wenn du in Sigil zwischen der Quellcode Ansicht und der Bücheransicht hin und her wechselst, überprüft Sigil den Quellcode auf seine Integrität. Es sieht dann einen Haufen </a>'s die nicht mal definiert sind, erkennt sie als "Junk" und entfernt sie automatisch aus dem Quelltext. Dass passiert (wenn mans richtig macht) aber erst, wenn man bereits alle RegEx Ersetzungen vorgenommen hat. Dh. wenn das </a> seine Schuldigkeit getan hat.
--

In der Finereader Methode mache ich etwas Ähnliches. Hier verdopple ich einen font? Eintrag nach bestimmten Paragraphen (was ebenfalls keine Auswirkungen auf die Darstellung hat). Der doppelte font Eintrag verbleibt im Gegensatz zur <a> Methode im Quelltext - aber er stört nicht weiter, und er ermöglicht es öfters zwischen den Ansichten hin und her zu wechseln, ohne dass der Marker verlorengeht.
--

\1 ist ein spezieller RegEx Befehl, der es erlaubt auf ein definiertes "Modul" zurückzugreifen. \1 bezieht sich auf das Ergebnis das die erste () Klammer im suchen Feld in jeder Suche individuell findet.

Suche ich zb nach

(a|b|c)
und ersetze mit
\1undtext

Findet er im Text jedes a ersetzt es mit a und fügt ein undtext daran. Aus a wird also aundtext. Er findet im Text aber auch jedes b, ersetzt es mit b und fügt undtext an. aus jedem b wird bundtext. Das selbe passiert mit jedem c. Das wichtige dabei ist, dass es jedes a, b, oder c jeweils wieder durch sich selbst ersetzt - sodass ich nicht separate Opertionen für ersetze a durch aundtext, für ersetze b durch bundtext usw. schreiben muss.

In den RegEx oben suche ich damit zb nach allen Zeichen die am Ende eines Paragraphen stehen und die NICHT Satzendzeichen sind. Dann ersetze ich diese Zeichen mit sich selbst (diese Zeichen sind alle Zeichen des Alphabets, alle Zahlen und mehr) und entferne nach ihnen den Paragraphen, weil ich mir recht sicher bin, dass der da nicht hingehört, da der Paragraph eben kein Satzendzeichen hat und noch weiter gehen müsste.

Die Marker davor setze ich um Überschriften davon auszunehmen, da diese meist kein Satzendzeichen haben, und oft eine Sonderformatierung mit sich bringen, die nach Möglichkeit nicht auf den ersten Paragraphen nach ihnen übergehen soll. Außerdem sollen Überschriften ihren eigenen Absatz beibehalten.

[ \2 würde sich auf den Inhalt der zweiten Klammer in der Suchleiste beziehen, \3 auf den Inhalt der dritten, usw. Die erste Klammer wird durch das erste ( Zeichen definiert und ist erst zu Ende, wenn dieses auch wieder mit ) geschlossen wurde. Klammern in dieser ersten Klammer (auch wenn sie mit ) geschlossen wurden) sind Teil der ersten Klammer. \1 erfasst also den gesamten Ausdruck, bis die erste Klammer korrekt wieder geschlossen wurde. ]
-

Die {} Klammern definieren wie oft sich ein Modul () wiederholen darf {0,1} besagt dass der Ausdruck in der () davor 0-1 mal vorkommen darf. Hier arbeite ich in den RegEx mit Erfahrungswerten und ich würde dir nicht raten dahinterkommen zu wollen, welchen Sinn {1-15} in einem Beispiel macht. An dieser Stelle werden die RegEx leider "ein wenig ungenau", dh sie setzen die Marker nur in 90% der Fälle richtig. Die Genauigkeit ist aber hoch genug, dass man nur seehr, seehr vereinzelt nachkorrigieren muss (wie man das macht steht ebenfalls in den RegEx Anleitungen).
-

Wenn du wissen willst, was eine spezielle RegEx genau erfasst, drücke nicht auf "replace all", sondern nur auf replace. Dann wird dir die erste Instanz die Sigil findet farbig markiert, wenn du dann nochmal auf replace drückst, wird sie ersetzt. Jetzt kannst du dir anhand eines "Fundes" anschaun, was genau im Quelltext passiert ist.
--

Gute RegEx Anleitung:
Regular Expressions - a Simple User Guide

Geändert von notimp (06.09.10 um 17:22 Uhr).
Mit Zitat antworten Beitrag melden
   
Alt 05.09.10, 23:46   #18 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Zitat:
Zitat von Qupfer Beitrag anzeigen
Funktionieren zu natürlich alles einwandfrei, auch wenn ich etwas erstaunt war, als er bei einen der letzten Ersetzungen mehrere Tausend treffer hatte (glaube 6k)
Hier noch einige Richtwerte.

Wenn dir das bei den Regex der Finereader Methode passiert ist die Wahrscheinlichkeit hoch, dass dein Text ein gültiges Satzendzeichen hat, welches mir noch nicht untergekommen ist.

Falls du im Fließtext also entdeckst, dass nach den RegEx plötzlich keine direkte Rede (Satzendzeichen sowas wie ") mehr in einem eigenen Absatz steht - kannst du davon ausgehen, dass mir dieses legitime Satzendzeichen nicht bekannt war und ich es noch nicht in der RegEx stehen habe. Schreib mir dann eine PN.

Bei der Finereader Methode kann man nach dem Richtwert nicht (viel) mehr finale Regex Ersetzungen als Seiten im pdf gehen.
--

Mobipocket Creator jedoch wirft mit <br>'s (Zeilenumbrüchen) nur so um sich. Zeilenumbrüche in einem epub sind jedoch meist unnötig... Oft sind sie zu viel im Text, manchmal sollten es eigene Paragraphen sein...

Je nach Länge des Texts kann es also gut sein, dass ich mehrere Tausend <br>'s entweder lösche, oder in Paragraphen konvertiere.

Hier gibt es leider keinen Anhaltspunkt - auf wie viele man sich gefasst machen kann..

Mit Zitat antworten Beitrag melden
   
Alt 06.09.10, 00:07   #19 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

@Stanza-Fehler:

Liegt sehr wahrscheinlich am Umlaut im Dateinamen. Hab hier im Beitrag bereits beschrieben wie du das beheben kannst (suche hier im Beitrag nach Umlaut). Das nächste mal achte einfach darauf, dass die html mit der du zu Beginn in Sigil gehtst, keinen Umlaut im Titel hat (Habe bereits eine Warnung imm Tutorial hinzugefügt). Ist einfacher als später nachkorrigieren zu müssen.

Geändert von notimp (06.09.10 um 02:50 Uhr).
Mit Zitat antworten Beitrag melden
   
Alt 06.09.10, 10:38   #20 (Permalink) Top
Benutzerbild von Qupfer
Mitglied seit: Sep 2008
Beiträge: 151
Qupfer ist offline
Qupfer
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Danke für deine Ausführlichen antowrten, callibre hats dann auch geschluckt und umgewandelt (nach mobi). Wenn ich die Mobi dann in Stanza geöffnet habe, ging das auch, jeodch wurden Umlaute etc. nicht korrekt angezeigt. Damit sehe ich deine Aussage, dass es an dem Umlauten lag als bestätigt an.
Aber nochmal vielen, vielen Dank (auch für deine mehr als ausführliche Erläuterung bezüglich der RegEx-Befehle)

Mit Zitat antworten Beitrag melden
   
Alt 09.09.10, 19:06   #21 (Permalink) Top
Benutzerbild von badboy9
Mitglied seit: Aug 2010
Beiträge: 5
badboy9 ist offline
badboy9
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Was ist mit Mac?

briss (Java), sigil und calibre sollten ja alle auf dem Mac laufen. Mobipocket gibt's aber nur für Windows. Kann ich alternativ irgend einen pdf->html converter nehmen?

Mit Zitat antworten Beitrag melden
   
Alt 09.09.10, 19:48   #22 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Nicht wenn du die Regular Expressions in der Form wie sie hier im Beitrag stehen verwenden willst. Und nicht, wenn du auf gutes Textlayout wert legst - zumindest nicht, falls du nicht zufälligerweise ein Programm findest, das die Konvertierung wirklich gut bewerkstelligt, und das mir bis jetzt noch nicht untergekommen ist.

Leider.

Mit Zitat antworten Beitrag melden
   
Alt 09.09.10, 21:20   #23 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Von Finereader gibt es auch eine Mac Version.

Mit Zitat antworten Beitrag melden
   
Alt 13.09.10, 21:20   #24 (Permalink) Top
Benutzerbild von notimp
Threadstarter
Mitglied seit: Sep 2008
Beiträge: 1.422
notimp ist offline
notimp
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Die letzte Meile -


Tutorial um in Sigil aus dem zuvor erstellten epub ein korrekt formatiertes E-Book mit Inhaltsverzeichnis und Kapitelumbrüchen zu erstellen.

Das hier ist ein zusätzliches Tutorial für die die im Umgang mit den vorhergehenden Tutorials in allen Schritten bereits vertraut sind.

Gleich vorne Weg - macht es nicht. Erspart euch den Zeitaufwand, aber vor allem erspart euch den Ärger der mit dem Zerteilen der html anfängt.

Das Zerteilen lässt sich nicht wieder rückgängig machen. Wollt ihr nachträglich etwas im <style> Tag der html ändern müsst ihr dies automatisiert über Ersetzen machen, da nun jede einzelne Unter html einen eigenen <style> Tag hat, usw.

Finereader Methode

Ich schreibe hier kein Tutorial für die Mobipocket Creator Methode - da es sich hierbei wirklich um die allerletzte Feinheit beim Formatieren handelt. Die Mobipocket Creator Methode liefert nicht die Ausgangs-"Genauigkeit" die ein Anwenden dieser letzten "Meile" sinnvoll erscheinen lässt.
-

Nocheinmal. Erspart euch diesen Schritt.
Nein?

Ok, dann geht es jetzt los.
--

Vorbereitung:

Ich lege euch stark ans Herz die epub nach den übrigen Tutorials bereits fertiggestellt zu haben. Lest sie ruhig bereits Korrektur, speichert von ihr ein Backup (.rar, .zip, was auch immer).

-eine Ergänzug zum Workflow in Finereader-
Löscht in Finereader die Seite mit dem Cover aus dem Dokument. Öffnet das pdf, kopiert das Cover in die Zwischenablage und speichert es mit einem Grafikprogramm (zB. IrfanView) als .png oder .jpg Bild (auf dem Desktop) ab.
--

Öffnet die epub wieder in Sigil.

Klickt mit rechtsclick auf Images, Add Existing Items und fügt euer Cover-Bild (vom Desktop) hinzu. Rechtsclick auf das neu hinzugefügte Bild, Add Semantics/Cover Image.
-

Zurück ins Dokument.

Setzt den ersten Chapterbreak (Ch Symbol) am Ende der letzten Zeile vor der ersten Kapitelüberschrift. Das Dokument wird dadurch das erste Mal geteilt.

Wendet euch zuerst dem Teil vor der ersten Kapitelüberschrift zu. Falls hier Seitenumbrüche gesetzt werden sollen, setzt sie mit:
Code:
<br style="page-break-after:always">
im Quelltext
-

Wendet euch nun dem abgetrennten Haupttextteil zu. Als erstes wechselt ihr in die Quellenansicht. Fügt den <style> code für body und p im <style> tag hinzu, der festlegt, wie viel Platz zwischen zwei Paragraphen freibleiben soll. Die Anleitung dafür findet ihr hier.
-
Im nächsten Schritt setzt ihr <h2> Tags zum definieren welche Überschriften ins Inhaltsverzeichnis sollen:

Geht dazu in den ersetzen Dialog (strg+H) und gebt folgendes ein (der Suchmodus muss auf Regular expressions stehen):

Code:
(<a id="bookmark\d*"></a>(\s*|\S*){1,15})</span> replacewith <h2>\1</h2></span>
WICHTIG! Im Gegensatz zu den früheren Schritten, drückt hier NICHT auf Replace all, sondern nur auf Replace.

Die erste Instantz sollte markiert werden.

Stellt sicher, dass sich die Markierung nicht über mehr als die Überschrift, den bookmark Anker tag davor und den </span> tag danach erstreckt. Erstreckt sich die Markierung über mehr als diese eine Zeile, müsst ihr in den Quelltext, die Markierung durch anklicken aufheben, den <h2> und </h2> tag manuell setzen, und erst wieder NACH dieser Überschrift weiter "replacen" lassen.

Entspricht die Markierung der Vorgabe, drückt ein zweites Mal auf Replace. Der <h2> tag sollte in der ersten Überschrift erfolgreich gesetzt sein, und die nächste Überschrift wird markiert.

Wiederholen.
-

Am Ende der Prozedur wechseln wir wieder in die Dokumentenansicht und drücken F7. Wir kontrollieren im sich öffnenden TOC Editor, ob wir alle Überschriften korrekt identifiziert haben (passiert durch die <h2> tags), ob wir alle Überschriften haben, und ob wir wirklich nur die Überschriften im TOC haben.

Falls nicht, manuell nachkorrigieren.

Einschub: Falls wir Unterüberschriften im Text haben, können diese mit h3 statt h2 als Unterüberschriften definiert werden. Das Ergebnis seht ihr Ebenfalls im TOC Editor.
-

Wir wechseln wieder in die Quellcodeansicht und in das Ersetzen Fenster (strg+H) und ersetzen diesmal

Code:
<h2> replacewith <hr class="sigilChapterBreak" /><h2>
Relace all.

Wieder in die Dokumentenansicht wechseln.
-

Jetzt kommt der finale Schritt. Wir gehen auf Tools/Split at SGF Chapter Markers - und jedes Kapitel wird in eine eigene xhtml "zertrennt".
--

Die Kapitel werden auch bei einer Konvertierung nach mobi beibehalten und im Kindle als eigene Kapitel mit Seitenumbruch angezeigt.

Das epub ist jetzt wie ein kommerzielles E-Book formatiert.

Geändert von notimp (19.09.10 um 22:23 Uhr).
Mit Zitat antworten Beitrag melden
Danke
3 Benutzer
   
Alt 14.09.10, 22:53   #25 (Permalink)
Benutzerbild von paran0ia82
Mitglied seit: Jul 2010
Beiträge: 2
paran0ia82 ist offline
paran0ia82
Member
 
[TUT] Pdfs in Epub/Mobi umwandeln

Ich hätte eine Frage bezüglich Fußnoten beim umwandeln. Gibt es eine Möglichkeit, dies bei der Kovnertierung automatisch an der jeweiligen Stelle einzusetzen, sprich dass nach einem "*" quasi der Fußnotentext z.B. direkt in Klammern angezeigt wird?
Danke für die Hilfe!

Mit Zitat antworten Beitrag melden
   
Antwort


 

Ähnliche Themen
Thema Forum
Cody Mcfadyen - Die Blutline bis Ausgelöscht (PDF,PRC/MOBI,EPUB) Unterhaltung


Themen-Optionen



Jetzt registrieren


Registrieren | Forum-Mitarbeiter | Kontakt | Nutzungsbedingungen

Alle Zeitangaben in WEZ +1. Es ist jetzt 14:38 Uhr.

All trademarks are the property of their respective owners.
Copyright ©2008 - 2012 BoerseBZ