DE60225317T2

DE60225317T2 - Zeichenkettenidentifikation

Info

Publication number: DE60225317T2
Application number: DE60225317T
Authority: DE
Inventors: J. L. Balmain NAPPER
Original assignee: Silverbrook Research Pty Ltd
Current assignee: Silverbrook Research Pty Ltd
Priority date: 2001-10-15
Filing date: 2002-10-15
Publication date: 2009-02-26
Anticipated expiration: 2022-10-16
Also published as: WO2003034326A1; US7881536B2; US7444021B2; JP4568774B2; EP1446763B1; US8285048B2; US20080193021A1; US20050226512A1; US7532758B2; AUPR824601A0; CN1571980A; DE60225317D1; EP1446763A1; IL161379A; EP1446763A4; US20100278430A1; CA2463127A1; IL161379A0; US20110293186A1; JP2008243227A

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf ein Verfahren und auf eine Einrichtung zur Identifikation einer Kette, die aus einer Anzahl handschriftlicher Zeichen gebildet ist, und insbesondere auf die Identifikation von handschriftlichem Text.
Stand der Technik
Die Bezugnahme auf den bekannten Stand der Technik in dieser Beschreibung ist keine Bestätigung oder irgendeine Form einer Vermutung, dass der bekannte Stand der Technik einen Teil des üblichen Allgemeinwissens bildet, und sollte nicht in dieser Form verstanden werden.
Eines der Hauptprobleme, dem die Entwicklung hochgenauer Handschrifterkennungssysteme gegenübersteht, ist die inhärente Ambiguität der Handschrift. Menschen hängen von kontextuellem Wissen ab, um handschriftlichen Text richtig zu decodieren. Folglich ist viel Forschungstätigkeit auf die Anwendung syntaktischer und linguistischer Constraints zur Erkennung von handschriftlichem Text gerichtet. Ähnliche Arbeit wird auf dem Gebiet der Spracherkennung, der Verarbeitung natürlicher Sprache und der maschinellen Übersetzung ausgeführt.
Das fundamentale Sprachgrundelement in einem Handschrifterkennungssystem ist ein Zeichen. Obgleich einige Erkennungssysteme die Zeichenerkennung insgesamt umgehen (als holistische Worterkennung bekannt), unternehmen die meisten Erkennungssysteme den Versuch, einzelne Zeichen in dem Eingangssignal zu identifizieren. Systeme, die dies nicht tun, hängen während der Erkennung übermäßig von Wörterbüchern ab, wobei eine Unterstützung für die Erkennung von Wörtern außerhalb des Wörterverzeichnisses (d. h. von Wörtern, die nicht in den Wörterbüchern sind) üblicherweise nicht verfügbar ist.
In Systemen, welche die Zeichenerkennung nutzen, enthält die Rohausgabe eines Zeichenklassifikators unvermeidlich Erkennungsfehler wegen der inhärenten Ambiguität der Handschrift. Folglich ist im Allgemeinen eine Art sprachbasierte Nacherkennung erforderlich, um die wahre Bedeutung der Eingabe aufzulösen.
Viele Systeme enthalten einfache Heuristiken, die eine Menge von Sprachregeln für handschriftlichen Text definieren. So sind z. B. Großbuchstaben am häufigsten am Anfang von Wörtern zu finden (als Gegenbeispiel: "MacDonald"), wobei die meisten Ketten üblicherweise nur aus Buchstaben oder nur aus Zahlen (als Gegenbeispiel: "2nd") und aus Regeln, welche die wahrscheinliche Position von Interpunktionszeichen in einem Wort definieren, bestehen. Allerdings sind diese Heuristiken zeitaufwändig und schwierig zu definieren, änderungsanfällig und üblicherweise unvollständig.
Zusätzlich zu den obigen Heuristiken enthalten einige Erkennungssysteme ein Zeichen-N-Gramm-Modell. Ein Beispiel hierfür ist in H. Beigi und T. Fujisaki, "A Character Level Predictive Language Model and Its Application to Handwriting Recognition", Proceedings of the Canadian Conference an Electrical and Computer Engineering, Toronto, Canada, 13.–16. Sept. 1992, Bd. I, S. WA1.27.1–4, beschrieben.
Insbesondere nutzen diese Systeme Sprachmodelle, welche die Wahrscheinlichkeit, dass ein bestimmtes Zeichen bei einer gegebenen Folge vorhergehender Zeichen zu beobachten ist, definieren. Zum Beispiel folgt der Buchstabe 'e' viel wahrscheinlicher auf 'th' als der Buchstabe 'q'. Das heißt, P(e|th) ist viel größer als P(q|th). Zeichen-N-Gramme sind leicht aus einem Textkorpus abzuleiten und sind eine leistungsfähige Technik bei der Verbesserung der Zeichenerkennung, ohne dass sie den Schreiber auf eine spezifische Liste von Wörtern beschränken.
Dennoch ist die Verwendung solcher Systeme bei der großen Anzahl von Buchstabenkombinationen, die in einer gegebenen Sprache bereitgestellt werden, beschränkt und erfordert eine sehr datenintensive Verarbeitung, wodurch der Anwendungsbereich der Technik beschränkt ist.
Darüber hinaus erwartet das Erkennungssystem in einigen Situationen ein bestimmtes Format für die Eingabe (z. B. US-Postleitzahlen, Telefonnummern, Straßen und Hausnummern usw.). In diesen Fällen kann die Verwendung regelmäßiger Ausdrücke, einfacher Sprachvorlagen und beschränkter Zeichensätze verwendet werden, um die Erkennungsgenauigkeit zu erhöhen. Allerdings ist die Verwendung dieser Techniken auf Umstände beschränkt, in denen die strenge Einhaltung beschränkter Formate sichergestellt ist. Somit ist die Technik z. B. nur auf die Postleitzahlen oder dergleichen anwendbar, für die das System trainiert worden ist, während es auf allgemeinen handschriftlichen Text nicht anwendbar ist.
Außerdem weist handschriftlicher Text nicht nur auf Zeichenebene, sondern auch auf Wortebene eine Ambiguität auf, insbesondere bei kursiver Schrift. Erkennungssysteme behandeln dieses Problem durch die Aufnahme wortbasierter Sprachmodelle, von denen die Verwendung eines vordefinierten Wörterbuchs das häufigste ist.
Für die Nachverarbeitung von schriftlichem Text können Wort-N-Gramme verwendet werden, die Zeichen-N-Grammen ähnlich sind, aber eher Übergangswahrscheinlichkeiten zwischen Folgen von Wörtern als zwischen Folgen von Zeichen definieren. Um die kombinatorischen Speicher- und Verarbeitungsanforderungen für Wort-N-Gramme großer Wortlisten zu vermeiden, verwenden einige Systeme Wortklassen-N-Gramme, wobei die Übergangswahrscheinlichkeiten eher für die Angabe der Wortart eines Worts (z. B. Substantiv oder Verb) als für einzelne Wörter definiert sind.
Andere Systeme verwenden für die Wortdisambiguierung Markov-Modelle der Syntax. Ein Beispiel hierfür ist in D. Tugwell, "A Markov Model of Syntax", Paper, dargestellt auf dem 1. CLUK-Kolloquium, University of Sunderland, UK, 1998, beschrieben.
Ein anderer Ansatz zur Wortmodellierung ist die Identifizierung von Wortkollokationen, Folgen von zwei oder mehr Wörtern, welche die Eigenschaften einer syntaktischen oder semantischen Einheit haben, wie z. B. in C. Manning und H. Schutze, "Foundations of Statistical Natural Language Processing", The MIT Press, Cambridge, Massachusetts, US 1999, beschrieben ist.
Allerdings ist die Verwendung der Sprachnachbearbeitung wieder datenintensiv und beschränkt dadurch die Anwendungen, in denen die Techniken angewendet werden können.
Es werden nun Beispiele einiger der oben umrissenen Techniken ausführlicher beschrieben.
H. Beigi und T. Fujisaki beschreiben in "A Flexible Template Language Model and its Application to Handwriting Recognition", Proceedings of the Canadian Conference an Electrical and Computer Engineering", Toronto, Canada, 13.–16. Sept. 1992, Bd. I, S. WA1.28.1–4, ein allgemeines Vorlagensprachmodell zur Verwendung in Situationen, die "in Bezug auf das Format oder ihre Wortliste sehr beschränkt sind". In diesem Fall werden Vorlagen durch Integrieren eines sich elastisch anpassenden Zeichenklassifizierungs-Punktwerts mit einer Modellwahrscheinlichkeit unter Verwendung einer Suchheuristik angewendet. Außerdem ist die Verwendung eines zur Schätzung der Wahrscheinlichkeit eines Zeichens auf der Grundlage vorhergehender N – 1 Zeichen verwendeten N-Gramm-Zeichenmodells beschrieben.
Wie in H. Beigi und T. Fujisaki, "A Character Level Predictive Language Model and Its Application to Handwriting Recognition", Proceedings of the Canadian Conference an Electrical and Computer Engineering, Toronto, Canada, 13.–16. Sept. 1992, Bd. I, S. WA1.27.1–4, ausführlicher beschrieben ist, ist in diesem System "die Menge der Zeichen, die in dem N-Gramm-Zeichenprädiktor unterstützt werden, der a-z-plus-Raum".
Darüber hinaus ist in H. Beigi, "Character Prediction for On-Line Handwriting Recognition", Canadian Conference an Electrical and Computer Engineering, IEEE, Toronto, Canada, September 1992, beschrieben, dass "N = 4 sich für die praktische Online-Handschrifterkennung als optimal erwiesen hat".
Ähnlich beschreiben J. Pitrelli und E. Ratzlaff in "Quantifying the Contribution of Language Modeling to Writer-Independent On-line Handwriting Recognition", Proceedings of the Seventh International Workshop an Frontiers in Handwriting Recognition, 11.–13. September 2000, Amsterdam, die Verwendung von Zeichen-N-Grammen und Wort-N-Grammen in einem Hidden-Markov-Modell (HMM)-System für die Erkennung kursiver Handschrift.
Ein Wortmonogramm- und Wortbigramm-Sprachmodell, das aus einem Korpus abgeleitet wurde, um eine holistische Worterkennung von handschriftlichem Text auszuführen, ist in U. Marti und H. Bunke, "Handwritten Sentence Recognition", Proceedings of the 15th International Conference an Pattern Recognition, Barcelona, Spanien, 2000, Bd. 3, S. 467–470, beschrieben. In diesem Fall verwendet der Viterbi-Algorithmus Klassifikatorpunktwerte und Wortwahrscheinlichkeiten zum Decodieren von Eingangstextsätzen.
Bouchaffra et al. beschreiben in "Post processing of Recognized Strings Using None-stationary Markovian Models", IEEE Transactions Pattern Analysis and Machine Intelligence, 21 (10), Oktober 1999, S. 990–999, die Verwendung nicht stationärer Markov-Modelle als einen Nachverarbeitungsschritt in der Erkennung von US-Postleitzahlen. In diesem Fall wird zur Unterstützung bei der Erkennung das domänenspezifische Wissen verwendet, dass Postleitzahlen eine feste Länge haben und dass jede Ziffer in dem Code eine spezifische physische Bedeutung besitzt. Insbesondere wurden unter Verwendung einer Trainingsmenge von Postleitzahlen, die vom Postdienst der Vereinigten Staaten bereitgestellt wurden, Übergangswahrscheinlichkeiten für jede Ziffer an jedem Punkt in der Ziffernkette berechnet, wobei dieses Wissen zur Verbesserung der Erkennungsleistung angewendet wurde.
L. Yaeger, B. Webb und R. Lyon, "Combining Neural Networks and Context-Driven Search for On-Line, Printed Handwriting Recognition in the Newton", Al Magazine, Bd. 19, Nr. 1, S. 73–89, AAAI 1998, beschreibt die Realisierung verschiedener schwach angewendeter Sprachmodellierungstechniken zum Definieren eines lexikalischen Kontexts für ein kommerzielles Handschrift-Zeichenerkennungssystem. Dieses Schema ermöglicht die Definition und Kombination von "Wortlisten, Präfix- und Suffixlisten und Interpunktionsmodellen", einschließlich einiger, die "aus einer Grammatik regelmäßiger Ausdrücke abgeleitet sind. Die Wörterbücher und lexikalischen Vorlagen können parallel durchsucht werden und enthalten für jeden Ausdruck eine vorhergehende Wahrscheinlichkeit. Die syntaktischen Vorlagen werden handcodiert, und aus einer empirischen Analyse werden Wahrscheinlichkeiten abgeleitet.
R. Srihari, "Use of Lexical and Syntactic Techniques in Recognizing Handwritten Text", ARPA Workshop an Human Language Technology, Princeton, NJ, 1994, beschreibt die Verwendung einer Kombination lexikalischer und syntaktischer Techniken zum Disambiguieren der Ergebnisse eines Handschrifterkennungssystems. Genauer wendet die Technik Wortkollokationswahrscheinlichkeiten an, um auf der Grundlage von Kontext Wörter zu fördern oder vorzuschlagen, wobei sie ein Markov-Modell der Wortsyntax verwendet, das auf der Angabe der Wortart beruht.
US-Patent 6.137.908 beschreibt die Verwendung eines Trigramm-Sprachmodells zusammen mit anderen Heuristiken zum Verbessern der Genauigkeit der Zeichensegmentierung und -erkennung.
Im US-Patent 6.111.985 werden eine Zeichengrammatik während der Erkennung und ein herkömmlicher Algorithmus für die Schätzung von Folgen maximaler Wahrscheinlichkeit (d. h. Viterbi-Decodierung) verwendet, um Wörter aus numerischen Ketten unter Verwendung eines N-Gramm-Zeichenmodells zu disambiguieren.
Ähnlich verwendet das im US-Patent 5.392.363 beschriebene Handschriftwort-Erkennungssystem Zeichen- und Wortgrammatikmodelle für die Disambiguierung in einem Frame-basierten probabilistischen Klassifikator.
Das US-Patent 5.787.197 verwendet eine wörterbuchbasierte Nachbearbeitungstechnik für die Online-Handschrifterkennung. Die Wörterbuchsuche entfernt die gesamte Interpunktion aus dem Eingabewort, das daraufhin mit einem Wörterbuch abgeglichen wird. Falls die Suche fehlschlägt, werden "eine Schlaganpassungsfunktion und ein orthographiegestütztes Wörterbuch verwendet, um eine Liste möglicher Wörter zu konstruieren".
Ähnlich beschreibt das US-Patent 5.151.950 die Verwendung eines baumstrukturierten Wörterbuchs als einen deterministischen endlichen Automaten zum Mischen von Klassifikatorergebnissen mit kontextuellen Informationen. Dieses System wählt "aus den Beispielketten durch Hidden-Markov-Verarbeitung die am besten passende Erkennungskette" aus.
US-Patent 5.680.511 verwendet ein wortbasiertes Sprachmodell "zum Erkennen eines unerkannten oder mehrdeutigen Worts, das innerhalb einer Passage von Wörtern auftritt". Das Verfahren ist im Kontext der Erkennung von gesprochenem oder handschriftlichem Text beschrieben.
US-Patent 5.377.281 nutzt einen wissensbasierten Ansatz zur Nachverarbeitung von Zeichenerkennungsketten. Die verwendete Wissensquelle enthält Wortwahrscheinlichkeiten, Wort-Eigramm-Wahrscheinlichkeiten, Statistiken, welche die Wahrscheinlichkeit von Wörtern mit bestimmten Zeichenpräfixen in Beziehung setzen und Vorschläge und ihre Kosten neu schreiben und aus einem Textkorpus abgeleitet werden.
US-Patent 5.987.170 verwendet eine Kombination von Wort- und Grammatikwörterbüchern für die Erkennung orientalischer Schrift. US-Patent 6.005.973 leitet sowohl Wörterbuchketten als auch die wahrscheinlichste Ziffernkette während der Erkennung ab, die dem Schreiber zur Auswahl dargestellt werden.
US-6.084.985 beschreibt ein Verfahren für die Online-Handschrifterkennung auf der Grundlage eines Hidden-Markov-Modells und verwendet die Echtzeitabtastung mindestens einer momentanen Schreibposition der Handschrift, wobei sie aus der Handschrift eine zeitkonforme Kette von Segmenten ableitet, die jeweils einem Handschriftmerkmalsvektor zugeordnet sind. Daraufhin gleicht das Verfahren die zeitkonforme Kette mit verschiedenen Beispielketten aus einer Datenbank ab, die sich auf die Handschrift bezieht und aus den Beispielketten durch Hidden-Markov-Verarbeitung eine am besten passende Erkennungskette auswählt.
Powalka et al. (Word Shape Analysis for Hybrid Recognition System Pattern Recognition Bd. 30, Nr. 3, S. 421–455, 1997) beschreibt zwei für die Verwendung in einem Hybriderkennungssystem entwickelte holistische Erkenner. Die Erkenner verwenden Informationen über die Wortform. Diese Informationen hängen stark mit der Wortzoneneinteilung zusammen. Einer der Erkenner ist explizit durch die Genauigkeit der Zoneneinteilungsinformations-Extraktion begrenzt. Der andere Erkenner ist so konstruiert, dass diese Begrenzung vermieden wird. Die Erkenner verwenden sehr einfache Mengen von Merkmalen und Fuzzy-Mengen-basierte Musteranpassungstechniken. Dies soll nicht nur ihre Robustheit erhöhen, sondern verursacht auch Probleme mit der Disambiguierung der Ergebnisse. Es wird ein Überprüfungsmechanismus eingeführt, der Buchstabenalternativen als Kompositumsmerkmale verwendet. Buchstabenalternativen werden aus einem segmentierungsbasierten Erkenner erhalten, der in dem Hybridsystem koexistiert. Trotz einiger verbleibender Disambiguierungsprobleme wird festgestellt, dass holistische Erkenner segmentierungsbasierte Erkenner übertreffen können. Wenn sie in einem Hybridsystem zusammenarbeiten, sind die Ergebnisse wesentlich höher als die der einzelnen Erkenner. Es werden Erkennungsergebnisse berichtet und verglichen. 1997 Pattern Recognition Society. Veröffentlicht von Elsevier Science Ltd.
US-Patent 5.778.361 offenbart ein Verfahren und System zum Schnellindizieren und Suchen von Text in Kompositumsprachen wie etwa Japanisch, Chinesisch, Hebräisch und Arabisch. Computercodierungen solcher Kompositumsprachen enthalten häufig verschiedene Zeichentypen, wobei z. B. die Shift-JIS-Codierung des Japanischen Kanji-, Katakana-, Hiragana- und Antiqua-Zeichen mit verschiedenen Codierungen in demselben Zeichensatz darstellt, um Indexbegriffe und Suchbegriffe zu bilden. In einer bevorzugten Ausführungsform wird in Reaktion auf eine Abfrage über eine Sammlung von Objekten ein Kontext-Index-Suchsystem aufgerufen. Die Sammlung von Objekten wird durch den Kontextindex indiziert und kann z. B. ein Korpus von Dokumenten sein, die durch die in den Dokumenten enthaltenen Begriffe indiziert sind. Ein Kontextindex-Suchsystem verwendet den Kontextindex, um in Reaktion auf die Abfrage ein erstes Suchergebnis zu erzeugen und zu speichern; in bestimmten Situationen wird ein Direktsuchsystem verwendet. Der Kontextindex enthält für jeden von mehreren Begriffen eine Bezugnahme auf jedes Objekt. Der Kontextindex wird dadurch erzeugt, dass für jeweils mehrere Begriffe, die durch ein Wortbegrenzungszeichen oder durch einen Zeichentypübergang in einer Kette zu indizierender Zeichen begrenzt sind, zunächst ein vorläufiger Indexbegriff erzeugt wird. Für jeden vorläufigen Indexbegriff eines ersten Typs, z. B. Katakana oder Antiqua, wird der vorläufige Indexbegriff als Indexbegriff genutzt. Für jeden vorläufigen Indexbegriff eines zweiten Typs, z. B. Kanji, wird der vorläufige Indexbegriff schrittweise indiziert, um mehrere Indexbegriffe zu erzeugen, deren Länge geringer ist als eine vorbestimmte Schrittweite. Daraufhin werden die Indexbegriffe in Verbindung mit dem Objekt, das indiziert wird, zu dem Kontextindex hinzugefügt. Auf ähnliche Weise wird eine Kette von Text, der als Suchbegriff in eine Suchmaschine eingegeben wird, zu vorläufigen Suchbegriffen und zu Suchbegriffen verarbeitet.
US 5.526.443 beschreibt die Hervorhebung und Kategorisierung von Dokumenten, die unter Verwendung von Wort-Token ausgeführt wird, die Wörter darstellen, die in einem Dokument erscheinen. Zunächst wird die Beseitigung bestimmter unwichtiger Wort-Token abgeschlossen, wonach die verbleibenden Wörter des Dokuments gemäß ihren Wort-Token-Erscheinungsraten bewertet werden. Diese Raten werden daraufhin verwendet, um in einem Dokument häufig erscheinende Wörter hervorzuheben, die das Thema des Dokuments angeben. Unter Verwendung von Dokumentprofilen, die aus den Wort-Token entwickelt werden, kann das Dokument auch kategorisiert werden.
Dementsprechend ist zu sehen, dass jedes der obigen Verfahren an verschiedenen Nachteilen leidet. Insbesondere neigt die Mehrzahl der Techniken dazu, große Mengen an Datenverarbeitung zu erfordern. Da insbesondere leistungsfähige Prozessoren erforderlich sind, um die Erkennung auszuführen, kann dies die Umstände begrenzen, unter denen die Techniken realisiert werden können.
Offenbarung der Erfindung
In einer ersten umfassenden Form schafft die vorliegende Erfindung ein Verfahren zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei das Verfahren umfasst:

a) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist;
b) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: i) Ermitteln der Anzahl von Zeichen in der Kette; ii) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und iii) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage;
c) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und
d) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.

Üblicherweise hat jedes vorbestimmte Zeichen einen jeweiligen Zeichentyp.
Im Allgemeinen umfassen die Zeichentypen mindestens eines von

a) Ziffern;
b) Buchstaben; und
c) Interpunktionszeichen.

Im Allgemeinen umfasst das Verfahren zur Ermittlung der Zeichenwahrscheinlichkeiten die Verwendung eines Zeichenklassifikators.
Im Allgemeinen umfasst das Verfahren das Ermitteln einer jeder Vorlage entsprechenden möglichen Zeichenkette durch:

a) Ermitteln des Zeichentyps jedes Zeichens in der Kette aus der Vorlage; und
b) Auswählen eines der vorbestimmten Zeichen für jedes Zeichen in der Vorlage, wobei das vorbestimmte Zeichen gemäß dem ermittelten Zeichentyp und der Zeichenwahrscheinlichkeit ausgewählt wird.

Vorzugsweise ist das ausgewählte vorbestimmte Zeichen das vorbestimmte Zeichen mit der höchsten Zeichenwahrscheinlichkeit.
Üblicherweise umfasst das Verfahren zur Identifikation der Zeichenkette:

a) Ermitteln einer Kettenwahrscheinlichkeit für jede mögliche Kette, wobei die Kettenwahrscheinlichkeit durch Verknüpfen der Zeichenwahrscheinlichkeiten für jedes ausgewählte Zeichen und der jeweiligen Vorlagenwahrscheinlichkeit ermittelt wird; und
b) Ermitteln der Zeichenkette als die mögliche Kette mit der höchsten Kettenwahrscheinlichkeit.

Das Verfahren kann unter Verwendung eines Verarbeitungssystems durchgeführt werden, das Folgendes aufweist

a) einen Speicher zum Speichern von mindestens einem von i) den vorbestimmten Zeichen; ii) Vorlagendaten, welche mindestens eines darstellen von (1) den Vorlagen; und (2) den Vorlagenwahrscheinlichkeiten und
b) einen Prozessor, wobei der Prozessor eingerichtet ist zum: i) Aufnehmen der Zeichenkette; ii) Ermitteln der Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette; iii) Ermitteln der Vorlagenwahrscheinlichkeiten iv) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und v) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.

In einer zweiten umfassenden Form schafft die vorliegende Erfindung eine Einrichtung zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei die Einrichtung umfasst:

a) einen Speicher zum Speichern von mindestens einem von: i) einer Anzahl vorbestimmter Zeichen; und ii) Vorlagendaten, welche eine Anzahl von Vorlagen darstellen; und
b) einen Prozessor, wobei der Prozessor eingerichtet ist zum: i) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist;
c) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: A) Ermitteln der Anzahl von Zeichen in der Kette; B) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und C) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage;
d) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und
e) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.

Üblicherweise ist der Prozessor an eine Eingabevorrichtung gekoppelt, wobei der Prozessor weiter zur Aufnahme der Kette handschriftlicher Zeichen mittels der Eingabevorrichtung eingerichtet ist.
Somit können die Einrichtung und insbesondere der Prozessor zur Durchführung des Verfahrens der ersten umfassenden Form der Erfindung eingerichtet sein.
In diesem Fall können die Vorlagendaten ferner für jede Vorlage eine Vorlagenwahrscheinlichkeit enthalten, wobei der Prozessor so eingerichtet ist, dass er aus den Vorlagendaten die Vorlagenwahrscheinlichkeit erhält.
Kurzbeschreibung der Figuren
Die vorliegende Erscheinung sollte aus der folgenden Beschreibung einer bevorzugten, aber nicht einschränkenden Ausführungsform hervorgehen, die lediglich beispielhaft in Verbindung mit der beigefügten Figur beschrieben wird, wobei:
1 ein Beispiel eines Verarbeitungssystems ist, das für die Ausführung der vorliegenden Erfindung geeignet ist.
Ausführungsarten der Erfindung
Die folgenden Ausführungsarten werden in Anwendung auf die schriftliche Beschreibung und auf die beigefügten Ansprüche beschrieben, um ein genaueres Verständnis des Gegenstands der vorliegenden Erfindung zu schaffen.
Anhand von 1, die ein für die Ausführung einer Handschrifterkennung eingerichtetes Verarbeitungssystem 10 zeigt, wird nun ein Beispiel einer für die Realisierung der vorliegenden Erfindung geeigneten Einrichtung beschrieben.
Insbesondere enthält das Verarbeitungssystem 10 allgemein mindestens einen Prozessor 20, einen Speicher 21 und eine Eingabevorrichtung 22 wie etwa ein Graphiktablett und/oder eine Tastatur, eine Ausgabevorrichtung 23 wie etwa eine Anzeige, die wie gezeigt über einen Bus 24 miteinander verbunden sind. Wie bei 25 gezeigt ist, ist außerdem eine externe Schnittstelle vorgesehen, um das Verarbeitungssystem mit einem Speicher 11 wie etwa mit einer Datenbank zu verbinden.
Das Verarbeitungssystem kann so eingerichtet sein, dass es bei der Verwendung zwei Hauptfunktionen ausführt. Insbesondere kann das Verarbeitungssystem so eingerichtet sein, dass es aus einem Textkorpus statistische Vorlagen erzeugt und/oder statistische Vorlagen bei der Decodierung von handschriftlichem Text verwendet. Daher sollte gewürdigt werden, dass das Verarbeitungssystem 10 irgendeine Form eines Verarbeitungssystems wie etwa ein Computer, ein Laptop, ein Server, Spezial-Hardware oder dergleichen, die üblicherweise dafür eingerichtet ist, diese Techniken durch die Ausführung in dem Speicher 21 gespeicherter geeigneter Anwendungs-Software auszuführen, sein kann.
Das Verarbeitungssystem ist so eingerichtet, dass es im Fall der Vorlagenerzeugung Text analysiert, der üblicherweise in der Datenbank 11 gespeichert ist. Diesbezüglich arbeitet der Prozessor 20 so, dass er jedes Wort oder jede Kette in dem Text identifiziert und daraufhin als eine Folge von Zeichen beurteilt. Der Prozessor ermittelt die Typen der Zeichen in jedem Wort oder in jeder Kette wie etwa, ob die Zeichen Buchstaben, Zahlen oder Interpunktion sind.
Daraufhin ermittelt der Prozessor eine Vorlage, welche die Kette darstellt. Diesbezüglich wird die Vorlage aus Token gebildet, welche die jeweiligen Zeichentypen darstellen. Somit kann eine Vorlage für das Wort "the" z. B. die Form "aaa" haben, wobei "a" einen Buchstaben darstellt.
Es sollte gewürdigt werden, dass für verschiedene Ketten identische Vorlagen erzeugt werden. Dementsprechend führt z. B. das Wort "cat" zu einer identischen Vorlage wie das Wort "the".
Der Prozessor 20 zeichnet die Anzahl, in der jede Vorlage ermittelt wird, in der Datenbank 11 auf.
Wenn alle Wörter in dem Text analysiert worden sind, ermöglicht dies, die Wahrscheinlichkeit zu ermitteln, dass irgendeine gegebene Vorlage in einer Textprobe auftritt. Dies kann daraufhin bei der Erkennung von handschriftlichem Text verwendet werden.
Insbesondere dann, wenn der Prozessor 20 handschriftlichen Text erhält, z. B. von der Eingabevorrichtung 22 oder von der Datenbank 11, führt der Prozessor eine erste Beurteilung aus, um Zeichenketten zu identifizieren und daraufhin zu versuchen, die Identität jedes Zeichens in der Kette zu identifizieren.
Im Allgemeinen realisiert der Prozessor 20 einen Zeichenklassifikator, der eine Anzahl möglicher Zeichenidentitäten zusammen mit einer zugeordneten Wahrscheinlichkeit für jede Identität ermittelt.
Dies wird für die gesamte Folge wiederholt, sodass es eine Anzahl möglicher Zeichenidentitätskombinationen gibt, die verschiedenen möglichen Ketten entsprechen.
Die oben beschriebenen Vorlagen werden daraufhin durch den Prozessor 20 beurteilt, der Vorlagen auswählt, welche dieselbe Anzahl von Zeichen wie die jeweilige Kette haben. Daraufhin ermittelt der Prozessor 20 für eine bestimmte Kombination von Zeichenidentitäten und Vorlagen eine Gesamtwahrscheinlichkeit, um die Ermittlung der wahrscheinlichsten Kette zu ermöglichen.
Diese Techniken werden nun ausführlicher beschrieben.
Erzeugung statistischer Vorlagen
Dieser Abschnitt beschreibt die Erzeugung statistischer Vorlagen aus einem Textkorpus und gibt Beispiele von Vorlagen, die statistisch abgeleitet worden sind.
Übersicht
Buchstaben stellen das fundamentale Grundelement der Klassifizierung eines Handschrift-Texterkennungssystems dar. Im Englischen können Buchstaben als alphabetisch ('a'–'z', 'A'–'Z'), numerisch ('0'–'9') oder Interpunktion (alles andere) klassifiziert werden. Als Hilfe bei der allgemeinen Erkennung alphabetischer Zeichen werden zur Disambiguierung häufig Wörterbücher und Zeichengrammatiken verwendet. Im Allgemeinen enthalten Wörterbücher und Zeichengrammatiken nur alphabetische Zeichen (obgleich Apostrophe gelegentlich enthalten sind, um Komposita wie etwa "they're" und "he'll" zu modellieren).
Da die meisten Sprachmodelle keine vorhergehenden Informationen über numerische Zeichen und Interpunktionszeichen enthalten, verwenden Erkennungssysteme heuristische Verfahren, um aus einer Erkennungskette Ketten alphabetischer oder numerischer Zeichen zu extrahieren, die daraufhin unter Verwendung eines Sprachmodells verarbeitet werden. Allerdings sind diese heuristischen Ansätze im Allgemeinen nicht sehr robust und führen zu häufigen Fehlerkennungsproblemen wie etwa:

• alphabetische Ketten, die als Zahlen erkannt werden,
• numerische Ketten, die als alphabetisch erkannt werden,
• Wörter, die Text und Zahlen enthalten (z. B. 2nd, V8, B2), die falsch als alphabetische oder numerische Ketten erkannt werden,
• Fehlerkennung von Interpunktion als alphabetische oder numerische Buchstaben und
• Fehlerkennung alphabetischer oder numerischer Buchstaben als Interpunktion.

Allerdings kann das Vorhandensein bestimmter Interpunktionszeichen in einer Textfolge tatsächlich bei der Decodierung anderer Zeichen in der Folge helfen. Zum Beispiel können Apostrophe eine Textkette anzeigen, während Kommata, Währungssymbole und Dezimalpunkte numerische Ketten anzeigen können. Wörter, die Bindestriche enthalten, enthalten häufig eine Mischung numerischer und alphabetischer Ketten (z. B. "30-year-old" oder "20-pound"). Zusätzlich dazu sind einige Interpunktionszeichen üblicherweise an spezifischen Orion in einer Kette zu finden (z. B. Suffixinterpunktion wie etwa "?", "!" oder ":").
Die statistische Sprachvorlagenverarbeitung ist ein Verfahren des Codierens vorhergehender Informationen hinsichtlich der Struktur von schriftlichem Text, das die Wechselwirkung zwischen alphabetischen, numerischen und Interpunktionszeichen unter Verwendung eines probabilistischen Modells modelliert. Das Modell betrachtet Positionsinformationen und kann Buchstabenabhängigkeiten global unter Beachtung des gesamten Eingangsworts (eher als eine feste Anzahl lokaler vorhergehender Zustände wie in Zeichen-N-Grammen) modellieren.
Buchstaben-Tokenisierung
Die statistische Vorlagenerzeugung wird unter Verwendung eines schriftlichen Textkorpus (einer großen Menge von Textdateien, die aus einer Anzahl von Quellen gesammelt worden sind) ausgeführt. Zum Erzeugen von Vorlagenstatistiken wird jede Datei in dem Korpus als eine sequentielle Menge von Buchstaben, die durch einen Leerraum (d. h. Wort-, Satz- und Absatzmarkierungen) begrenzt sind, verarbeitet. Diese Folge von Buchstaben bildet eine Kette.
Während der Erzeugung von Vorlagen werden einzelne Buchstaben in Token umgesetzt, welche die Klasse (oder den Zeichentyp) darstellen, zu der (dem) der Buchstabe gehört.
Die Definition der Buchstabenklassen ist domänenspezifisch und wird auf der Grundlage der Ambiguität ausgewählt, die aufgelöst werden muss. Die folgende Diskussion beruht auf dem folgenden Klassifizierungsschema: alphabetische Groß- und Kleinbuchstaben werden in das Token 'a' umgesetzt, alle Ziffern werden in das Token 'd' umgesetzt und alle verbleibenden Zeichen (d. h. Interpunktion) werden nicht umgesetzt und behalten ihre ursprünglichen Werte.
Die Folge von Token, die ein Wort oder eine Zeichenkette darstellen, definiert eine Vorlage.
Als ein Beispiel wird die Kette "15-years?" in die Vorlage "dd-aaaaa?" umgesetzt. Es wird angemerkt, dass zum Modellieren anderer Sprachformatierungen wie etwa der Unterscheidung von Groß- und Kleinbuchstaben alternative Tokenisierungs-Schemata (z. B. "MacDonald" als "ullulllll" mit 'u' für Großbuchstaben und 'l' für Kleinbuchstaben alphabetischer Zeichen) verwendet werden könnten.
Verarbeitung
Der Zweck des Erzeugens statistischer Sprachvorlagen ist das Identifizieren häufiger Wendungen in Schrifttext und das Berechnen der Wahrscheinlichkeit, dass die Wendung in schriftlichem Text festgestellt wird. Das Modelltraining schreitet durch Tokenisierung der Buchstaben in jedem durch Leerzeichen abgetrennten Wort und durch Speichern der resultierenden Vorlage in einer Tabelle, üblicherweise in der Datenbank 11, fort. Jeder Vorlage wird ein Zählwert zugeordnet, der die Anzahl angibt, in der die jeweilige Vorlage in dem Eingangsstrom gesehen worden ist.
Nachdem der gesamte Text in dem Korpus verarbeitet worden ist, enthält die Tabelle eine Liste aller in dem Text festgestellter Vorlagen und einen Zählwert der Anzahl, in der jede Vorlage gesehen wurde. Offensichtlich enthalten häufig auftretende Vorlagen (z. B. die Vorlage "aaa", die "the", "but" oder "cat" darstellt) viel höhere Zählwerte als unwahrscheinliche Vorlagen (z. B. die Vorlage "ada", die "x1y" oder "b2b" darstellt).
Zum Berechnen der vorhergehenden Wahrscheinlichkeiten für eine Vorlage wird der Vorlagenzählwert einfach durch die Summe aller Vorlagenzählwerte dividiert. Um einen numerischen Unterlauf zu vermeiden und um die Verarbeitung während der Erkennung zu erleichtern, werden diese Werte als Logarithmen gespeichert. Die logarithmische Wahrscheinlichkeit der Vorlage der t_i ist
wobei: c_i die Anzahl ist, in der die Vorlage i in dem Trainingstext festgestellt wurde.
n die Gesamtzahl der verschiedenen Vorlagen ist.
Das Berechnen vorhergehender Wahrscheinlichkeiten über alle festgestellten Vorlagen ermöglicht, dass Vorlagen mit unterschiedlicher Anzahl von Buchstaben verglichen werden. Das heißt, dass das Sprachmodell dort, wo die Buchstaben- oder Wortsegmentierung nicht bekannt ist oder eine Anzahl alternativer Segmentierungswege möglich sind, bei der Decodierung der Eingabe helfen kann.
Allerdings kann das Vorlagenmodell so unterteilt werden, dass Vorlagen durch den Buchstabenzählwert gruppiert werden, wenn die Anzahl der Buchstaben in einer Eingangskette zur Erkennungszeit bekannt ist. Daraufhin können die vorhergehenden Wahrscheinlichkeiten eher auf der Grundlage der Vorlagenzählwerte der Vorlagengruppe als auf der Grundlage der Summe aller Zählwerte über alle Gruppen berechnet werden.
Glättung
Die obige Prozedur erzeugt auf der Grundlage des Textkorpus einen Schätzwert maximaler Wahrscheinlichkeit (Maximum-Likelihood Estimate, MLE) der Vorlagenwahrscheinlichkeiten. Das heißt, die berechneten Wahrscheinlichkeiten sind jene, die bei Anwendung auf den Trainingskorpus die höchste Wahrscheinlichkeit ergeben. Vorlagen, die in dem Trainingstext nicht festgestellt wurden, wird keine Wahrscheinlichkeitsverteilung zugewiesen, wobei diesen Vorlagen somit eine Wahrscheinlichkeit null zugewiesen wird.
Da der Textkorpus immer nur eine Teilmenge der möglichen Eingabe in das Sprachmodell darstellen kann, muss ein Glättungsmodell angewendet werden, um die Wahrscheinlichkeit der beobachteten Ereignisse um einen kleinen Betrag zu verringern und um nicht gesehenen Ereignissen die Restwahrscheinlichkeitsmasse zuzuweisen. Wie z. B. in C. Manning und H. Schutze, "Foundations of Statistical Natural Language Processing", The MIT Press, Cambridge, Massachusetts, USA 1999, beschrieben ist, wird diese Prozedur üblicherweise in Zeichen- und Wort-N-Grammen verwendet. Somit können in dieser Situation leicht dieselben Techniken angewendet werden.
In diesem Beispiel wurde das Lidstone-Gesetz, wie es z. B. im oben erwähnten "Foundations of Statistical Natural Language Processing" beschrieben ist, verwendet, um die erzeugten Wahrscheinlichkeiten zu glätten, wie etwa:
wobei: B die Anzahl eindeutiger Vorlagen ist, die aus dem Korpus abgeleitet wurden;
λ ein Glättungsfaktor ist (der empirisch auf 0,5 gesetzt wird).
Das Ergebnis ist, dass Wortstrukturen, die in dem Trainingskorpus nicht gesehen worden sind, eine von null verschiedene Wahrscheinlichkeit zugewiesen werden kann, was es ermöglicht, seltene und ungewöhnliche Wortstrukturen zu erkennen.
Außerdem sollte erkannt werden, dass umso genauere Wahrscheinlichkeiten erhalten werden, je größer der bei der Ermittlung der Wahrscheinlichkeiten verwendete Textkorpus ist.
Beispielergebnisse
Die Trainingsprozedur wurde über einem großen Textkorpus ausgeführt, der in diesem Beispiel der J. D. Harman und M. Liberman, Complete TIPSTER Korpus, 1993, ist, um eine Menge statistischer Sprachvorlagen zu erzeugen. Im Folgenden sind Beispiele der ermittelten Vorlagen dargelegt.
Insbesondere enthält Tabelle 1 die zwanzig Vorlagen mit der höchsten Häufigkeit des Auftretens in dem schriftlichen Textkorpus (die somit die höchste vorhergehende Wahrscheinlichkeit besitzen).
Die Tabelle offenbart eine Anzahl offensichtlicher Eigenschaften von schriftlichem Text wie etwa, dass kurze Wörter im Allgemeinen häufiger als lange Wörter sind und dass Kommata und Punkte die wahrscheinlichsten Interpunktionszeichen sind und als Wortsuffixe erscheinen. Diese Regeln sind implizit durch die Vorlagen und ihre entsprechende vorhergehende logarithmische Wahrscheinlichkeit definiert und ermöglichen eine robuste und statistisch gut begründete Decodierung der Eingabe.

Die Vorlagen in der oben dargestellten Tabelle schildern ausführlich eine Anzahl eher offensichtlicher Sprachregeln, die durch eine Anzahl einfacher Heuristiken beschrieben werden könnten (obgleich unwahrscheinlich ist, dass die vorhergehenden Wahrscheinlichkeiten für diese Regeln leicht und genau geschätzt werden könnten). Tabelle 1

Rang	Vorlage	P(t_i)
1	aaa	–0,779
2	aa	–0,842
3	aaaa	–0,918
4	aaaaa	–1,080
5	aaaaaaa	–1,145
6	aaaaaa	–1,171
7	aaaaaaaa	–1,259
8	aaaaaaaaa	–1,394
9	a	–1,523
10	aaaaaaaaaa	–1,575
11	aaaaaaaaaaa	–1,826
12	aaaaaaa,	–2,118
13	aaaa.	–2,158
14	aaaaaa,	–2,165
15	aaaaa,	–2,184
16	aaaa,	–2,209
17	aaaaaaaa,	–2,257
18	aaaaaaa.	–2,260
19	aaaaaa.	–2,293
20	aaaaa.	–2,296

Wie ausführlich in Tabelle 2 geschildert ist, offenbart eine weitere Untersuchung der Ergebnisse allerdings eine große Anzahl von sprachlichen Wendungen, die unter Verwendung eines heuristischen Ansatzes sehr schwierig genau zu modellieren wären. Diese Vorlagen modellieren die Wechselwirkung zwischen alphabetischen Buchstaben, Ziffern und Interpunktion und definieren implizit eine Menge von Regeln über die Struktur von schriftlichem Text. Tabelle 2

Rang	Vorlage	P(t_i)	Beispiel
34	a.a.	–2,765	U.S., A.M., P.M., N.Y.
35	aaaa'a	–2,786	that's, didn't, hasn't, Rome's, bank's
56	$ddd	–3,211	$400
64	d,ddd	–3,307	3,200
68	dd%	–3,326	51%
82	(aaa)	–3,424	Korea Broadcasting (KBS), agreement (but) it
89	(ddd)	–3,456	(202) 940–5432
118	aa'aa	–3,639	we're, we've, he'll, we'll
122	d:dd	–3,653	9:08, 5:45
134	ddaa	–3,704	25^th, 70^th,
140	ddd-dddd.	–3,724	940–1234.
142	dd-aaaa	–3,728	92-page, 12-mile, 10-hour, 14-foot, 30-year
151	aaa:	–3,767	"they are:", "thus far:"
153	dd-aaa	–3,782	30-day, 21-gun, 35-man, 10-ton
157	...	–3,784	one more time ...
159	daa	–3,809	1^st, 2^nd, 3^rd
164	d.d%	–3,825	1.2%
170	dd-aaaaaaa	–3,833	63-year-old
215	d-d	–4,036	4-0 vote, ruled 7-0, beaten 2-1
216	dd-dd	–4,038	March 14–18, 60–70 planes, 42–58 votes
224	ddda	–4,072	747s, 304a members, 256k RAM
225	dda	–4,073	20s, 30s, 40s, 50s
226	a'aa	–4,082	I've, I'll
227	dddaa	–4,094	100^th, 833^rd
230	dddda	–4,106	1940s, 1950s, 1960s
231	dd/dd/dd	–4,107	12/11/98
239	ad	–4,141	T4, K9, M2, U2
244	a-aaaa	–4,166	X-rays, C-SPAN, O-ring, A-bomb, K-mart
279	d,ddd,ddd	–4,251	1,000,000
283	dd-aaaaa	–4,269	12-month, 10-ounce, 15-piece, 12-gauge, 18-point
317	a-d	–4,361	B-I, M-2, V-8

Es wird angemerkt, dass die Stärke dieser Technik in der Erzeugung einer großen Anzahl von Vorlagen und der entsprechenden relativen Wahrscheinlichkeiten der Vorlagen liegt. Üblicherweise werden viele Tausende Vorlagen erzeugt, die zusammen eine statistisch gut begründete Menge von Regeln hinsichtlich der Struktur von schriftlichem Text definieren.
Statistische Vorlagenverarbeitung
Dieser Abschnitt beschreibt die Verwendung statistischer Vorlagen bei der Decodierung von handschriftlichem Text. Die allgemeine Prozedur wird zusammen mit einer Beispielverarbeitung dargestellt. Außerdem wird eine Beschreibung gegeben, wie diese Technik mit anderen Sprachmodellen zu kombinieren ist.
Übersicht
Das Ziel der Handschriftzeichenerkennung ist das genaue Umsetzen von durch einen Schreiber erzeugten Federstrichen in den entsprechenden Text. Allerdings ist handschriftlicher Text inhärent mehrdeutig, sodass zum Decodieren der Eingaben die Verwendung von Kontextinformationen erforderlich ist. Die wie oben beschrieben erzeugten statistischen Vorlagen helfen bei der Erkennung der allgemeinen Struktur der Eingabe und können während der Erkennung mit anderen Sprachmodellen wie etwa Wörterbüchern und Zeichengrammatiken kombiniert werden.
Die meisten Zeichenklassifizierungssysteme erzeugen für einen Eingabebuchstaben eine Menge möglicher Buchstabenanpassungen und zugeordneter Vertrauenspunktwerte. Zum Beispiel könnte bei der Klassifizierung eines Buchstabens 'a' eine Klassifikatorbuchstabenhypothese wie in der folgenden Tabelle 3 dargelegt sein. Tabelle 3

Buchstabe P(x_i)

'a' 0,6

'd' 0,3

'o' 0,1
Dies gibt (informell) an, dass der Klassifikator zu 60% sicher ist, dass der Buchstabe ein 'a' ist, zu 30% sicher ist, dass der Buchstabe ein 'd' ist usw. Es wird angemerkt, dass die Punktwerte für die statistische Verarbeitung sich nach den Wahrscheinlichkeitsregeln richten sollten, d. h.:
–0 ≤ P(x_i) ≤ 1 für alle i
und
Für Klassifikatoren, die keine Wahrscheinlichkeiten erzeugen (z. B. Klassifikatoren, die Entfernungswerte angeben), sollte der Ausgangspunktwertvektor normiert werden, um sicherzustellen, dass die obigen Regeln gültig sind. Für Neuronennetzklassifikatoren kann eine normierte Transformationsfunktion (wie etwa die in J. Briddle, "Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships for Statistical Pattern Recognition", Neuro-computing: Algorithms, Architectures, and Applications, S. 227–236, New York, Springer-Verlag, 1990, beschriebene Softmax-Aktivierungsfunktion) zum Normieren der Ausgangswerte verwendet werden.
Decodierung
Die Decodierung wird an einer Menge von Buchstabenhypothesen ausgeführt, die durch einen Zeichenklassifikator erzeugt werden, der ein Eingangswort oder eine Reihe von Wörtern darstellt. Die den Vorlagen zugeordneten Wahrscheinlichkeiten bedeuten, dass Merkmale wie etwa Wortlängen und der Ort der Interpunktionszeichen für die statistische Wortsegmentierung verwendet werden können. Da die statistischen Vorlagen die Wahrscheinlichkeit einer spezifischen Wortstruktur schätzen können, können sie bei Bedarf als Hilfe bei der Wortsegmentierung verwendet werden.
Dagegen nimmt die folgende Beschreibung an, dass die Wortsegmentierung ausgeführt worden ist und dass die Decodierungsprozedur nur die wahrscheinlichste Buchstabenfolge feststellen muss, wenn die Ausgabe des Zeichenklassifikators gegeben ist. Dies erfolgt dadurch, dass diejenige Vorlage ermittelt wird, die den maximalen Punktwert gibt, wenn die durch den Klassifikator erzeugten Zeichenwahrscheinlichkeiten zusammen mit der vorhergehenden Wahrscheinlichkeit der Vorlagenwahrscheinlichkeit gegeben sind:
wobei:
n = Anzahl der Buchstaben in der Eingangskette
P(w) = Buchstabenfolgenwahrscheinlichkeit
P(x_ij)= der Klassifikatorpunktwert für das Token an der Position j in der Vorlage t_i (siehe unten)
P(t_i) = die vorhergehende Wahrscheinlichkeit der Vorlage t_i
Bei der Berechnung des Werts von P(x_ij) wird das Element mit dem höchsten Punktwert (unter Verwendung der Klassifikatorhypothese bei der Buchstabenposition j) der Token-Klasse verwendet. Falls die Vorlage z. B. ein 'a' enthält, wird der Punktwert des alphabetischen Zeichens mit dem höchstens Rang verwendet. Ähnlich wird der Punktwert der Ziffer mit dem höchsten Rang verwendet, wenn die Vorlage ein 'd' enthält. Für die Interpunktion wird der Punktwert des spezifizierten Interpunktionszeichens verwendet.
Falls für die Vorlagen logarithmische Wahrscheinlichkeiten verwendet werden, muss die Klassifikatorausgabe ebenfalls in logarithmische Wahrscheinlichkeiten umgesetzt werden, wobei die Decodierungsprozedur das Maximum von:
ermittelt. Als ein Beispiel wird angenommen, dass ein Klassifikator aus der Eingabekette "30-day" für die angegebenen Zeichen die in Tabelle 4 gezeigten Punktwerte erzeugt hat. Tabelle 4

P(x₁) P(x₂) P(x₃) P(x₄) P(x₅) P(x₆)

3 0,87 0 0,50 - 0,97 d 0,53 a 0,58 y 0,53

z 0,08 0 0,48 r 0,02 a 0,40 e 0,40 g 0,45

r 0,05 c 0,02 1 0,01 8 0,07 0 0,02 9 0,02
In diesem Beispiel ist der richtige Decodierungsweg in Fettdruck gezeigt.
Falls diese Punktwerte in logarithmische Wahrscheinlichkeiten umgesetzt und auf alle Vorlagen mit der passenden Länge angewendet werden, sind die Vorlagen mit den höchsten Punktwerten wie in Tabelle 5 dargelegt. Tabelle 5

Vorlage Text P(t_i) P(w_i)

dd-aaa 30-day –3,782 –4,963

aaaaaa zorday –1,171 –5,056

dddddd 301809 –4,549 –6,932
Wobei P(t_i) die vorhergehende Wahrscheinlichkeit der Vorlage ist, wie sie statistisch aus dem Textkorpus abgeleitet wurde.
Zum Berechnen von P(w_i) für die Vorlage "dd-aaa" ist die durch den Prozessor 20 ausgeführte Berechnung wie folgt: P(wi) = –3,782 – 0,060 – 0,319 – 0,013 – 0,0276 – 0,237 – 0,276 = –4,963.
Zum Berechnen von P(w_i) für die Vorlage "aaaaaa" ist die Berechnung: P(wi) = –1,171 – 1,097 – 0,301 – 1,699 – 0,276 – 0,237 – 0,276 = –5,056.
Zum Berechnen von P(w_i) für die Vorlage "dddddd" ist die Berechnung: P(wi) = –4,549 – 0,060 – 0,319 – 2,000 – 1,155 – 1,699 – 1,699 = –6,932.
Es wird die Vorlage mit dem höchsten Punktwert ("dd-aaa") ermittelt und der entsprechende Text als die richtige Kette ("30-day") ausgewählt.
Es wird angemerkt, dass die Decodierung maximaler Wahrscheinlichkeit (das heißt, an jeder Position das wahrscheinlichste Zeichen zu nehmen) nicht den richtigen Text ermittelt (da "30-day" die Folge maximaler Wahrscheinlichkeit ist).
Kombination von Sprachmodellen
In dem oben gegebenen Beispiel wurde die Kette der am besten angepassten Vorlage als Decodierungskette ausgewählt. Allerdings wird die angepasste Vorlage üblicherweise zur zusätzlichen Verarbeitung mit anderen Sprachmodellen kombiniert.
Zum Beispiel können, eher als die Buchstaben maximaler Wahrscheinlichkeit aus dem alphabetischen Abschnitt einer Kette (d. h. "day") zu nehmen, die Klassifikatorpunktwerte aus diesem Segment an ein Wörterbuch oder eine Zeichengrammatik zur weiteren Decodierung übergeben werden.
Alternativ können die Textsegmente aus einer Anzahl von Vorlagen mit den höchsten Punktwerten unter Verwendung eines zusätzlichen Sprachmodells verarbeitet werden, wobei die resultierenden Punktwerte kombiniert werden, um eine abschließende Wortwahrscheinlichkeit zu erzeugen.
Dementsprechend sollte gewürdigt werden, dass der oben beschriebene Prozess ein Verfahren zur Kontextverarbeitung unter Verwendung statistischer Sprachvorlagen für die Handschriftzeichenerkennung schafft. Dieses umfasst Prozeduren, die zum Erzeugen der Vorlagen aus einem Textkorpus erforderlich sind, zusammen mit den Techniken, die zum Decodieren der Zeichenklassifikatorausgabe unter Verwendung der Vorlagen erforderlich sind.
Insbesondere ermöglichen diese Techniken im Allgemeinen, dass unter Verwendung von geringerer Verarbeitungsleistung als in den Verfahren nach dem bekannten Stand der Technik eine schnellere, genauere Handschrifterkennung ausgeführt wird.
Außerdem kann gesagt werden, dass die Erfindung umfassend aus den Teilen, Elementen und Merkmalen besteht, auf die in der Beschreibung der Anwendung einzeln oder als Gesamtheit in irgendwelchen oder allen Kombinationen von zwei oder mehr Teilen, Elementen oder Merkmalen Bezug genommen wird oder die in dieser Weise in ihr angegeben sind, wobei dort, wo hier spezifische ganze Zahlen erwähnt sind, die im Gebiet, auf das sich die Erfindung bezieht, bekannte Äquivalente haben, diese bekannten Äquivalente so, als ob sie einzeln dargelegt worden wären, als hier enthalten betrachtet werden.
Obgleich die bevorzugte Ausführungsform ausführlich beschrieben worden ist, können daran durch den Durchschnittsfachmann auf dem Gebiet selbstverständlich verschiedene Änderungen, Ersetzungen und Abwandlungen vorgenommen werden, ohne von dem wie zuvor beschriebenen und wie im Folgenden beanspruchten Umfang der vorliegenden Erfindung abzuweichen.

Claims

Verfahren zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei das Verfahren umfasst: a) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist; b) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: i) Ermitteln der Anzahl von Zeichen in der Kette; ii) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und iii) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage; c) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlich-keiten; und d) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
Verfahren nach Anspruch 1, wobei jedes vorbestimmte Zeichen einen jeweiligen Zeichentyp hat.
Verfahren nach Anspruch 1 oder Anspruch 2, wobei die Zeichentypen mindestens eines umfassen von: a) Ziffern; b) Buchstaben; und c) Interpunktionszeichen.
Verfahren nach gleich welchem der Ansprüche 1 bis 3, wobei das Verfahren zur Ermittlung der Zeichenwahrscheinlichkeiten die Verwendung eines Zeichenklassifikators umfasst.
Verfahren nach Anspruch 1, wobei das Verfahren das Ermitteln einer jeder Vorlage entsprechenden möglichen Zeichenkette umfasst, durch: a) Ermitteln des Zeichentyps jedes Zeichens in der Kette aus der Vorlage; und b) Auswählen eines der vorbestimmten Zeichen für jedes Zeichen in der Vorlage, wobei das vorbestimmte Zeichen gemäß dem ermittelten Zeichentyp und der Zeichenwahrscheinlichkeit ausgewählt wird.
Verfahren nach Anspruch 5, wobei das ausgewählte vorbestimmte Zeichen das vorbestimmte Zeichen mit der höchsten Zeichenwahrscheinlichkeit ist.
Verfahren nach Anspruch 5 oder Anspruch 6, wobei das Verfahren zur Identifikation der Zeichenkette umfasst: a) Ermitteln einer Kettenwahrscheinlichkeit für jede mögliche Kette, wobei die Kettenwahrscheinlichkeit durch Verknüpfen der Zeichenwahrscheinlichkeiten für jedes ausgewählte Zeichen und der jeweiligen Vorlagenwahrscheinlichkeit ermittelt wird; und b) Ermitteln der Zeichenkette als die mögliche Kette mit der höchsten Kettenwahrscheinlichkeit.
Verfahren nach gleich welchem der Ansprüche 1 bis 7, wobei das Verfahren unter Verwendung eines Verarbeitungssystems (10) durchgeführt wird, das aufweist: a) einen Speicher (21) zum Speichern von mindestens einem von: i) den vorbestimmten Zeichen; ii) Vorlagendaten, welche mindestens eines darstellen von: (1) den Vorlagen; und (2) den Vorlagenwahrscheinlichkeiten; und b) einen Prozessor (20), wobei der Prozessor (20) eingerichtet ist zum: i) Aufnehmen der Zeichenkette; ii) Ermitteln der Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette; iii) Ermitteln der Vorlagenwahrscheinlichkeiten; iv) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und v) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
Einrichtung (10) zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei die Einrichtung (10) umfasst: a) einen Speicher (21) zum Speichern von mindestens einem von: i) einer Anzahl vorbestimmter Zeichen; und ii) Vorlagendaten, welche eine Anzahl von Vorlagen darstellen; und b) einen Prozessor (20), wobei der Prozessor (20) eingerichtet ist zum: i) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist; c) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: A) Ermitteln der Anzahl von Zeichen in der Kette; B) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und C) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage; d) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlich-keiten; und e) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
Einrichtung (10) nach Anspruch 9, wobei der Prozessor (20) an eine Eingabevorrichtung (22) gekoppelt ist, wobei der Prozessor (20) weiter zur Aufnahme der Kette handschriftlicher Zeichen mittels der Eingabevorrichtung (22) eingerichtet ist.
Einrichtung (10) nach Anspruch 9 oder Anspruch 10, wobei der Prozessor (10) zur Durchführung des Verfahrens nach gleich welchem der Ansprüche 1 bis 8 eingerichtet ist.