Willkommen

Navigation


Statistik
9725
Benutzer online
Mitglieder: 1.852.077
Themen: 673.329
Beiträge: 4.131.508

 
Antwort Themen-Optionen
Alt 13.03.11, 19:25   #1 (Permalink)
Benutzerbild von SomeDeepBlue
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Hallo zusammen,

ich bin fündig geworden auf der Suche nach einer kostenlosen Alterntaive zum ABBYY Finereader XIX - ABBYY's eigener Aussage nach, die einzige OCR Software für die altdeutsche Frakturschriftart (basiert auf einem alten Finereader 7) Da es zu diesem Produkt hier noch keinen Thread zu geben scheint, bin ich mal frei, eure Zeit in Anspruch zu nehmen und mich mitzuteilen ;-)

tesseract-ocr hab ich ausprobiert und darf berichten: klappt prima ... nicht einwandfrei, aber mit den Ergebnissen kann man arbeiten ...und das ist bei Fraktur schon ne ganze Menge, find ich ;-)

Die Dateien die ich hier gesammelt anbiete, findet man auch so kostenlos im Netz...hier habt ihr nur das komplette Set im einfachen Zugriff.

Das ZIP besteht aus dem setup-Programm (exe) und zwei deutschen Schriftdateien (Deutsch normal, und Deutsch Fraktur) Diese beiden nach Installation einfach ins "tessdata" Verzeichnis kopieren und fertig.

Die Software funktioniert über commandline unter Angabe der zu verwendenden Schriftart (-l deu-frak | deu | eng )

Das ist nicht schön, klappt aber.

Es gibt noch eine GUI Version die auf tesseract aufbaut (freeOCR -> Google) da funktioniert aber die Fraktur-Schriftart leider nicht.

Edit: Heute habe ich ein GUI-Frontend für tesseract gefunden, dass problemlos funktioniert:
gimagereader

Kostenlos und Open-Source - hält was es verspricht und tut, was es soll. Im Gegensatz zu dem o.g. freeOCR unterstützt gimagereader auch tesseract 3.x

Hier ein Screenshot nach erfolgter Texterkennung mit gimagereader basierend auf tesseract 3.01:
Bild anzeigen

gImageReader - Portable Version
Ich hab ein wenig an gImageReader herumgebastelt, so dass auch das GUI zu Tesseract nun portabel (z.B. auf USB-Stick) betrieben werden kann.
Welche Änderungen genau vergenommen wurden, könnt ihr hier nachlesen:



Have Fun. Bei Fragen, Fragen! :-)



DOWNLOAD LINKS

Originale Installationsversion Tesseract OCR 3.0.0 (3,49 MB):


Portable Version Tesseract OCR 3.0.1 (7,27 MB):



Portable Bundle: gImagereader 0.91 & Tesseract OCR 3.0.1 (23,4 MB):


Edit 21.07.11: Re-upload to uploaded.to
Edit 11.02.12: funktionierende GUI Version gefunden, Text entsprechend ergänzt
Edit 22.02.12: alle Download-Links in diesen Post verschoben, Text zu gimagereader ergänzt

Geändert von SomeDeepBlue (22.02.12 um 12:12 Uhr). Grund: s. Text
Mit Zitat antworten Beitrag melden
Danke
23 Benutzer
   

Download 13.03.11, 19:25   Top
Mitglied seit: Feb 2011
Beiträge: 20
GulliBZ
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)




Alt 23.05.11, 12:49   #2 (Permalink) Top
Benutzerbild von Dreamwatcher
Mitglied seit: Jan 2010
Beiträge: 87
Dreamwatcher ist offline
Dreamwatcher
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Ich finde es grade gut, dass es über die CommandLine funktioniert, denn dann kann man das auch gut in andere Projekte einbauen (oder sich ne GUI schreiben).

Für nicht Programmierer zwar nen bisschen aufwendig, aber wer übersetzt schon den ganzen Tag alte Schriften^^ :P

Auch wenn ich noch keine Verwendung dafür habe, danke

Mit Zitat antworten Beitrag melden
   
Alt 21.07.11, 00:21   #3 (Permalink) Top
Benutzerbild von livius27
Mitglied seit: Nov 2009
Beiträge: 27
livius27 ist offline
livius27
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Hi,

der Link kann keine Seite mehr aufbauen...

Grüße livius27

Mit Zitat antworten Beitrag melden
   
Alt 21.07.11, 07:42   #4 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Danke für den Hinweis. Hab soeben gelernt das share.cx das Zeitliche gesegnet hat. Ich stell die Datei heute abend wieder ein.

Mit Zitat antworten Beitrag melden
   
Alt 21.07.11, 12:05   #5 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Soderle, der Download ist wieder verfügbar.

Enjoy!

Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 04.09.11, 17:04   #6 (Permalink) Top
Benutzerbild von FishingG
Mitglied seit: Apr 2010
Beiträge: 24
FishingG ist offline
FishingG
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Hey grüss dich..über einen Monat ist dein letzter Beitrag hier im Thread bereits her
Bist du noch in das Thema involviert?
..ich beschäftige mich derzeit sehr extrem und zeitaufwändig mit Tesseract OCR und dem gleichzeitigem Auslesen von Captchas (gesammelte Werke..^^)
Ich habe vorhin angefangen, mit den eng.traineddata ein Boxfile zu erstellen..ich meine, allein schon die Captchas der meisten Filehoster beinhalten ja zumeist englische Wörter.
Wenn ich mir dann die erstellte Box-File anschaue..ohjeee. (Es gibt ja keine 'eng-frak', oder?)
Das erste Captcha, Welches ich zum Testen genommen habe, besteht aus zwei Wörtern(Leerzeichen muss als Komma in das Boxfile geschrieben werden???), keine Zahlen..Und die ersten drei bis vier Buchstaben des ersten "Wortes" stimmen schonmal überein.
Auch bin ich mir beim Befehl nicht so ganz sicher. Es wird schon eine Boxfile erstellt, aber mit einem anderen Befehl, den ich nicht aus dem offiziellen Tutorial habe..denn der funktioniert erst gar nicht...?! (cmd.exe als admin ausgeführt!)
Wäre nett, wenn du vielleicht mal Zeit findest.

Danke im Voraus..!

Mit Zitat antworten Beitrag melden
   
Alt 11.09.11, 16:38   #7 (Permalink) Top
Benutzerbild von Mikkao
Mitglied seit: Dec 2008
Beiträge: 17
Mikkao ist offline
Mikkao
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Hallo SomeDeepBlue,

vielen Dank für deine Mühe. Zwar brauche ich die Frakturschrift nicht, hingegen ein Free-OCR-Programm. Tesseract hatte ich schon einmal ausprobiert, aber wieder beiseite gelegt, da ich nicht damit zurechtkam. Durch dein Kommandozeilen-Beispiel habe ich es nochmal probiert, mit bestem Erfolg. Dafür Danke!

Ein Problem habe ich: Tesseract erkennt kein großes "Ö" in meiner Schrift. Ich habe mal durchgelesen, wie ein Trainingsprozess aussieht - abschreckend! Gibt es eine einfache Möglichkeit, die Trainingsdatei zu ändern? Schriftfont und -größe sind bei mir immer gleich, was die Sache doch sehr erleichtern sollte.

Mit Zitat antworten Beitrag melden
   
Alt 11.02.12, 11:40   #8 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

@FishingG & Mikkao

Sorry, dass ich jetzt erst anworte, ich hab den Thread völlig vergessen

Helfen kann ich Euch aber leider auch nicht wirklich. Es war nie notwendig tesseract eine neue Sprache beizubringen, da ich es nur für deutsch-fraktur nutze und das problemlos funktioniert.
Allerdings bin ich über ein Online-Projekt gestolpert, dass sich zum Ziel gesetzt hat die verfügbaren Frakturschriftarten für tesseract weiter zu trainieren. Dies beschränkt sich jedoch auf Deutsch, Dänisch und Schwedisch. Englische Fraktur gibt es (noch?) nicht. Schaut mal hier:
https://github.com/paalberti/te...an-fraktur

Nochmals sorry, für die späte Rückmeldung. Nix für ungut :-)

SDB

Mit Zitat antworten Beitrag melden
   
Alt 11.02.12, 12:23   #9 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Da es eine neue Version von tesseract gibt, möchte ich auch diese zur Verfügung stellen. Nun handelt es sich hierbei "nur" um eine Subversion 3.0.1 und sicher werde ich hier jetzt nicht jeden Versionsschluckauf einstellen, allerdings gibt es bei Version 3.0.1 eine Neuerung, die ich persönlich sehr nützlich und wichtig finde: es gibt nun auch eine lauffähige portable Version von tesseract. D.h. ich kann meine Schrifterkennung überall ausführen ohne gleich installieren und die Registry vollmüllen zu müssen.

Wie auch im Einganspost habe ich das Paket ergänzt um die Schriften/Sprachen "Deutsch" und "Deutsch-Fraktur", die sich hierbei gleich im richtigen Verzeichnis wiederfinden: downloaden, entpacken, loslegen

Viel Spaß!

Link im ersten Posting!


Edit
22.02.2012: Link der Übersichtlichkeit halber in den ersten Post verschoben.

Geändert von SomeDeepBlue (22.02.12 um 11:50 Uhr). Grund: s. Text
Mit Zitat antworten Beitrag melden
Danke
1 Benutzer
   
Alt 16.02.12, 15:12   #10 (Permalink) Top
Benutzerbild von golum
Mitglied seit: Dec 2008
Beiträge: 22
golum ist offline
golum
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Das mit den Sprachen ist ja schön und gut aber wie sagst du ihm, dass er zur erkennung nicht das englische, sondern das deutsche sprachfile benutzen soll?

Mit Zitat antworten Beitrag melden
   
Alt 16.02.12, 20:50   #11 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Hi golum,

für die Kommandozeile stehts ca. in der Mitte des ersten Posts versteckt:
-l deu-frak
(wenn Du die Sprachdateien umbenannt hast, nimm diesen Namen, z.B. "-l deu-f" oder so)

im Imagereader gibts ein Dropdown-Feld zur Auswahl der Sprache.

Meld Dich nochmal, wenns nicht klappt.

Viel Erfolg!

SDB

Mit Zitat antworten Beitrag melden
   
Alt 16.02.12, 22:15   #12 (Permalink) Top
Benutzerbild von golum
Mitglied seit: Dec 2008
Beiträge: 22
golum ist offline
golum
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Ähhm. Ich glaube du verstehst nicht ganz was ich meine. Ich habe einen Bot programmiert, der Screenshots erstellt. Diese werden dann an tesseract.exe übergeben und ausgewertet. Ich nutze die portable Version. Deswegen auch meine Frage: wie lauten die Befehle zur Sprachauswahl, bevor ausgewertet wird. Denn standardmäßig wird immer englisch geladen. Der Bot ist in AutoIt geschrieben

Mit Zitat antworten Beitrag melden
   
Alt 17.02.12, 07:13   #13 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

@golum:
das mag wohl sein :-) ...und noch schlimmer: ich bin immer noch nicht sicher, ob ich es jetzt richtig verstehe, weil ich nicht recht weiß was du mit "bevor ausgewertet" meinst, was besagter Befehl nicht abdeckt. Ich schreibsel einfach mal alles was mir dazu einfällt, das helfen könnte...

1. deu.traineddata (entpackt) liegt im tesseract/tessdata Verzeichnis
2. Ein Screenshot File mit Namen sshot.tif mit deutschem Text liegt auch im tesseract Verzeichnis

Mit folgendem Aufruf wird nun sshot.tif in ein txt-File c:\data.txt umgewandelt:
tesseract sshot.tif C:\data -l deu
(das "-l" ist ein kleingeschriebenes "-L" kein I oder 1)

gerade nochmal gestestet...klappt prima

Was mir aber aufgefallen ist: wenn die Qualität des Screenshots zu gering ist, kommt nur Müll dabei rum. Liegt hier vielleicht dein Problem?

Wenn ich wieder an Dir vorbei rede, cshreib doch bitte etwas detailierter welche Aktionen / Befehle Du ausführst, und wo es hängt. Woran erkennst Du, dass das englische language File angezogen wird?

Mit Zitat antworten Beitrag melden
   
Alt 22.02.12, 12:22   #14 (Permalink) Top
Benutzerbild von SomeDeepBlue
Threadstarter
Mitglied seit: Feb 2011
Beiträge: 20
SomeDeepBlue ist offline
SomeDeepBlue
Member
 
tesseract - free OCR Software für Fraktur Schrift und andere (Alternative zu ABBYY Finereader XIX)

Im ersten Post wurde ein neu erstelltes "Portable Bundle" als Download zur Verfügung gestellt.

Mit ein bisserl Trickserei hat sich gImageReader überreden lassen portable zu arbeiten.

Hierfür hab ich ein Batchscript geschrieben, welches die notwendigen Dateien an die entsprechenden Stellen kopiert und hinterher auch wieder löscht. Das ist nicht schön, aber es geht ;-)

Zudem habe ich die deutschen Wörterbücher vorinstalliert mitgeliefert und auch eine weitere Fraktur-Datenbasis eingebunden, mit der ich je nach Vorlage bessere Ergebnisse erzielen konnte, als mit der originalen deu-fra.traineddata

Viel Spaß!

Anmerkungen und Hinweise sind wie immer willkommen!

Mit Zitat antworten Beitrag melden
Danke
5 Benutzer
   
Antwort


 


« cccam share | - »
Themen-Optionen



Jetzt registrieren


Registrieren | Forum-Mitarbeiter | Kontakt | Nutzungsbedingungen

Alle Zeitangaben in WEZ +1. Es ist jetzt 11:31 Uhr.

All trademarks are the property of their respective owners.
Copyright ©2008 - 2012 BoerseBZ