DE60225317T2 - Zeichenkettenidentifikation - Google Patents

Zeichenkettenidentifikation Download PDF

Info

Publication number
DE60225317T2
DE60225317T2 DE60225317T DE60225317T DE60225317T2 DE 60225317 T2 DE60225317 T2 DE 60225317T2 DE 60225317 T DE60225317 T DE 60225317T DE 60225317 T DE60225317 T DE 60225317T DE 60225317 T2 DE60225317 T2 DE 60225317T2
Authority
DE
Germany
Prior art keywords
character
template
probabilities
probability
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60225317T
Other languages
English (en)
Other versions
DE60225317D1 (de
Inventor
J. L. Balmain NAPPER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Silverbrook Research Pty Ltd
Original Assignee
Silverbrook Research Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Silverbrook Research Pty Ltd filed Critical Silverbrook Research Pty Ltd
Publication of DE60225317D1 publication Critical patent/DE60225317D1/de
Application granted granted Critical
Publication of DE60225317T2 publication Critical patent/DE60225317T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und auf eine Einrichtung zur Identifikation einer Kette, die aus einer Anzahl handschriftlicher Zeichen gebildet ist, und insbesondere auf die Identifikation von handschriftlichem Text.
  • Stand der Technik
  • Die Bezugnahme auf den bekannten Stand der Technik in dieser Beschreibung ist keine Bestätigung oder irgendeine Form einer Vermutung, dass der bekannte Stand der Technik einen Teil des üblichen Allgemeinwissens bildet, und sollte nicht in dieser Form verstanden werden.
  • Eines der Hauptprobleme, dem die Entwicklung hochgenauer Handschrifterkennungssysteme gegenübersteht, ist die inhärente Ambiguität der Handschrift. Menschen hängen von kontextuellem Wissen ab, um handschriftlichen Text richtig zu decodieren. Folglich ist viel Forschungstätigkeit auf die Anwendung syntaktischer und linguistischer Constraints zur Erkennung von handschriftlichem Text gerichtet. Ähnliche Arbeit wird auf dem Gebiet der Spracherkennung, der Verarbeitung natürlicher Sprache und der maschinellen Übersetzung ausgeführt.
  • Das fundamentale Sprachgrundelement in einem Handschrifterkennungssystem ist ein Zeichen. Obgleich einige Erkennungssysteme die Zeichenerkennung insgesamt umgehen (als holistische Worterkennung bekannt), unternehmen die meisten Erkennungssysteme den Versuch, einzelne Zeichen in dem Eingangssignal zu identifizieren. Systeme, die dies nicht tun, hängen während der Erkennung übermäßig von Wörterbüchern ab, wobei eine Unterstützung für die Erkennung von Wörtern außerhalb des Wörterverzeichnisses (d. h. von Wörtern, die nicht in den Wörterbüchern sind) üblicherweise nicht verfügbar ist.
  • In Systemen, welche die Zeichenerkennung nutzen, enthält die Rohausgabe eines Zeichenklassifikators unvermeidlich Erkennungsfehler wegen der inhärenten Ambiguität der Handschrift. Folglich ist im Allgemeinen eine Art sprachbasierte Nacherkennung erforderlich, um die wahre Bedeutung der Eingabe aufzulösen.
  • Viele Systeme enthalten einfache Heuristiken, die eine Menge von Sprachregeln für handschriftlichen Text definieren. So sind z. B. Großbuchstaben am häufigsten am Anfang von Wörtern zu finden (als Gegenbeispiel: "MacDonald"), wobei die meisten Ketten üblicherweise nur aus Buchstaben oder nur aus Zahlen (als Gegenbeispiel: "2nd") und aus Regeln, welche die wahrscheinliche Position von Interpunktionszeichen in einem Wort definieren, bestehen. Allerdings sind diese Heuristiken zeitaufwändig und schwierig zu definieren, änderungsanfällig und üblicherweise unvollständig.
  • Zusätzlich zu den obigen Heuristiken enthalten einige Erkennungssysteme ein Zeichen-N-Gramm-Modell. Ein Beispiel hierfür ist in H. Beigi und T. Fujisaki, "A Character Level Predictive Language Model and Its Application to Handwriting Recognition", Proceedings of the Canadian Conference an Electrical and Computer Engineering, Toronto, Canada, 13.–16. Sept. 1992, Bd. I, S. WA1.27.1–4, beschrieben.
  • Insbesondere nutzen diese Systeme Sprachmodelle, welche die Wahrscheinlichkeit, dass ein bestimmtes Zeichen bei einer gegebenen Folge vorhergehender Zeichen zu beobachten ist, definieren. Zum Beispiel folgt der Buchstabe 'e' viel wahrscheinlicher auf 'th' als der Buchstabe 'q'. Das heißt, P(e|th) ist viel größer als P(q|th). Zeichen-N-Gramme sind leicht aus einem Textkorpus abzuleiten und sind eine leistungsfähige Technik bei der Verbesserung der Zeichenerkennung, ohne dass sie den Schreiber auf eine spezifische Liste von Wörtern beschränken.
  • Dennoch ist die Verwendung solcher Systeme bei der großen Anzahl von Buchstabenkombinationen, die in einer gegebenen Sprache bereitgestellt werden, beschränkt und erfordert eine sehr datenintensive Verarbeitung, wodurch der Anwendungsbereich der Technik beschränkt ist.
  • Darüber hinaus erwartet das Erkennungssystem in einigen Situationen ein bestimmtes Format für die Eingabe (z. B. US-Postleitzahlen, Telefonnummern, Straßen und Hausnummern usw.). In diesen Fällen kann die Verwendung regelmäßiger Ausdrücke, einfacher Sprachvorlagen und beschränkter Zeichensätze verwendet werden, um die Erkennungsgenauigkeit zu erhöhen. Allerdings ist die Verwendung dieser Techniken auf Umstände beschränkt, in denen die strenge Einhaltung beschränkter Formate sichergestellt ist. Somit ist die Technik z. B. nur auf die Postleitzahlen oder dergleichen anwendbar, für die das System trainiert worden ist, während es auf allgemeinen handschriftlichen Text nicht anwendbar ist.
  • Außerdem weist handschriftlicher Text nicht nur auf Zeichenebene, sondern auch auf Wortebene eine Ambiguität auf, insbesondere bei kursiver Schrift. Erkennungssysteme behandeln dieses Problem durch die Aufnahme wortbasierter Sprachmodelle, von denen die Verwendung eines vordefinierten Wörterbuchs das häufigste ist.
  • Für die Nachverarbeitung von schriftlichem Text können Wort-N-Gramme verwendet werden, die Zeichen-N-Grammen ähnlich sind, aber eher Übergangswahrscheinlichkeiten zwischen Folgen von Wörtern als zwischen Folgen von Zeichen definieren. Um die kombinatorischen Speicher- und Verarbeitungsanforderungen für Wort-N-Gramme großer Wortlisten zu vermeiden, verwenden einige Systeme Wortklassen-N-Gramme, wobei die Übergangswahrscheinlichkeiten eher für die Angabe der Wortart eines Worts (z. B. Substantiv oder Verb) als für einzelne Wörter definiert sind.
  • Andere Systeme verwenden für die Wortdisambiguierung Markov-Modelle der Syntax. Ein Beispiel hierfür ist in D. Tugwell, "A Markov Model of Syntax", Paper, dargestellt auf dem 1. CLUK-Kolloquium, University of Sunderland, UK, 1998, beschrieben.
  • Ein anderer Ansatz zur Wortmodellierung ist die Identifizierung von Wortkollokationen, Folgen von zwei oder mehr Wörtern, welche die Eigenschaften einer syntaktischen oder semantischen Einheit haben, wie z. B. in C. Manning und H. Schutze, "Foundations of Statistical Natural Language Processing", The MIT Press, Cambridge, Massachusetts, US 1999, beschrieben ist.
  • Allerdings ist die Verwendung der Sprachnachbearbeitung wieder datenintensiv und beschränkt dadurch die Anwendungen, in denen die Techniken angewendet werden können.
  • Es werden nun Beispiele einiger der oben umrissenen Techniken ausführlicher beschrieben.
  • H. Beigi und T. Fujisaki beschreiben in "A Flexible Template Language Model and its Application to Handwriting Recognition", Proceedings of the Canadian Conference an Electrical and Computer Engineering", Toronto, Canada, 13.–16. Sept. 1992, Bd. I, S. WA1.28.1–4, ein allgemeines Vorlagensprachmodell zur Verwendung in Situationen, die "in Bezug auf das Format oder ihre Wortliste sehr beschränkt sind". In diesem Fall werden Vorlagen durch Integrieren eines sich elastisch anpassenden Zeichenklassifizierungs-Punktwerts mit einer Modellwahrscheinlichkeit unter Verwendung einer Suchheuristik angewendet. Außerdem ist die Verwendung eines zur Schätzung der Wahrscheinlichkeit eines Zeichens auf der Grundlage vorhergehender N – 1 Zeichen verwendeten N-Gramm-Zeichenmodells beschrieben.
  • Wie in H. Beigi und T. Fujisaki, "A Character Level Predictive Language Model and Its Application to Handwriting Recognition", Proceedings of the Canadian Conference an Electrical and Computer Engineering, Toronto, Canada, 13.–16. Sept. 1992, Bd. I, S. WA1.27.1–4, ausführlicher beschrieben ist, ist in diesem System "die Menge der Zeichen, die in dem N-Gramm-Zeichenprädiktor unterstützt werden, der a-z-plus-Raum".
  • Darüber hinaus ist in H. Beigi, "Character Prediction for On-Line Handwriting Recognition", Canadian Conference an Electrical and Computer Engineering, IEEE, Toronto, Canada, September 1992, beschrieben, dass "N = 4 sich für die praktische Online-Handschrifterkennung als optimal erwiesen hat".
  • Ähnlich beschreiben J. Pitrelli und E. Ratzlaff in "Quantifying the Contribution of Language Modeling to Writer-Independent On-line Handwriting Recognition", Proceedings of the Seventh International Workshop an Frontiers in Handwriting Recognition, 11.–13. September 2000, Amsterdam, die Verwendung von Zeichen-N-Grammen und Wort-N-Grammen in einem Hidden-Markov-Modell (HMM)-System für die Erkennung kursiver Handschrift.
  • Ein Wortmonogramm- und Wortbigramm-Sprachmodell, das aus einem Korpus abgeleitet wurde, um eine holistische Worterkennung von handschriftlichem Text auszuführen, ist in U. Marti und H. Bunke, "Handwritten Sentence Recognition", Proceedings of the 15th International Conference an Pattern Recognition, Barcelona, Spanien, 2000, Bd. 3, S. 467–470, beschrieben. In diesem Fall verwendet der Viterbi-Algorithmus Klassifikatorpunktwerte und Wortwahrscheinlichkeiten zum Decodieren von Eingangstextsätzen.
  • Bouchaffra et al. beschreiben in "Post processing of Recognized Strings Using None-stationary Markovian Models", IEEE Transactions Pattern Analysis and Machine Intelligence, 21 (10), Oktober 1999, S. 990–999, die Verwendung nicht stationärer Markov-Modelle als einen Nachverarbeitungsschritt in der Erkennung von US-Postleitzahlen. In diesem Fall wird zur Unterstützung bei der Erkennung das domänenspezifische Wissen verwendet, dass Postleitzahlen eine feste Länge haben und dass jede Ziffer in dem Code eine spezifische physische Bedeutung besitzt. Insbesondere wurden unter Verwendung einer Trainingsmenge von Postleitzahlen, die vom Postdienst der Vereinigten Staaten bereitgestellt wurden, Übergangswahrscheinlichkeiten für jede Ziffer an jedem Punkt in der Ziffernkette berechnet, wobei dieses Wissen zur Verbesserung der Erkennungsleistung angewendet wurde.
  • L. Yaeger, B. Webb und R. Lyon, "Combining Neural Networks and Context-Driven Search for On-Line, Printed Handwriting Recognition in the Newton", Al Magazine, Bd. 19, Nr. 1, S. 73–89, AAAI 1998, beschreibt die Realisierung verschiedener schwach angewendeter Sprachmodellierungstechniken zum Definieren eines lexikalischen Kontexts für ein kommerzielles Handschrift-Zeichenerkennungssystem. Dieses Schema ermöglicht die Definition und Kombination von "Wortlisten, Präfix- und Suffixlisten und Interpunktionsmodellen", einschließlich einiger, die "aus einer Grammatik regelmäßiger Ausdrücke abgeleitet sind. Die Wörterbücher und lexikalischen Vorlagen können parallel durchsucht werden und enthalten für jeden Ausdruck eine vorhergehende Wahrscheinlichkeit. Die syntaktischen Vorlagen werden handcodiert, und aus einer empirischen Analyse werden Wahrscheinlichkeiten abgeleitet.
  • R. Srihari, "Use of Lexical and Syntactic Techniques in Recognizing Handwritten Text", ARPA Workshop an Human Language Technology, Princeton, NJ, 1994, beschreibt die Verwendung einer Kombination lexikalischer und syntaktischer Techniken zum Disambiguieren der Ergebnisse eines Handschrifterkennungssystems. Genauer wendet die Technik Wortkollokationswahrscheinlichkeiten an, um auf der Grundlage von Kontext Wörter zu fördern oder vorzuschlagen, wobei sie ein Markov-Modell der Wortsyntax verwendet, das auf der Angabe der Wortart beruht.
  • US-Patent 6.137.908 beschreibt die Verwendung eines Trigramm-Sprachmodells zusammen mit anderen Heuristiken zum Verbessern der Genauigkeit der Zeichensegmentierung und -erkennung.
  • Im US-Patent 6.111.985 werden eine Zeichengrammatik während der Erkennung und ein herkömmlicher Algorithmus für die Schätzung von Folgen maximaler Wahrscheinlichkeit (d. h. Viterbi-Decodierung) verwendet, um Wörter aus numerischen Ketten unter Verwendung eines N-Gramm-Zeichenmodells zu disambiguieren.
  • Ähnlich verwendet das im US-Patent 5.392.363 beschriebene Handschriftwort-Erkennungssystem Zeichen- und Wortgrammatikmodelle für die Disambiguierung in einem Frame-basierten probabilistischen Klassifikator.
  • Das US-Patent 5.787.197 verwendet eine wörterbuchbasierte Nachbearbeitungstechnik für die Online-Handschrifterkennung. Die Wörterbuchsuche entfernt die gesamte Interpunktion aus dem Eingabewort, das daraufhin mit einem Wörterbuch abgeglichen wird. Falls die Suche fehlschlägt, werden "eine Schlaganpassungsfunktion und ein orthographiegestütztes Wörterbuch verwendet, um eine Liste möglicher Wörter zu konstruieren".
  • Ähnlich beschreibt das US-Patent 5.151.950 die Verwendung eines baumstrukturierten Wörterbuchs als einen deterministischen endlichen Automaten zum Mischen von Klassifikatorergebnissen mit kontextuellen Informationen. Dieses System wählt "aus den Beispielketten durch Hidden-Markov-Verarbeitung die am besten passende Erkennungskette" aus.
  • US-Patent 5.680.511 verwendet ein wortbasiertes Sprachmodell "zum Erkennen eines unerkannten oder mehrdeutigen Worts, das innerhalb einer Passage von Wörtern auftritt". Das Verfahren ist im Kontext der Erkennung von gesprochenem oder handschriftlichem Text beschrieben.
  • US-Patent 5.377.281 nutzt einen wissensbasierten Ansatz zur Nachverarbeitung von Zeichenerkennungsketten. Die verwendete Wissensquelle enthält Wortwahrscheinlichkeiten, Wort-Eigramm-Wahrscheinlichkeiten, Statistiken, welche die Wahrscheinlichkeit von Wörtern mit bestimmten Zeichenpräfixen in Beziehung setzen und Vorschläge und ihre Kosten neu schreiben und aus einem Textkorpus abgeleitet werden.
  • US-Patent 5.987.170 verwendet eine Kombination von Wort- und Grammatikwörterbüchern für die Erkennung orientalischer Schrift. US-Patent 6.005.973 leitet sowohl Wörterbuchketten als auch die wahrscheinlichste Ziffernkette während der Erkennung ab, die dem Schreiber zur Auswahl dargestellt werden.
  • US-6.084.985 beschreibt ein Verfahren für die Online-Handschrifterkennung auf der Grundlage eines Hidden-Markov-Modells und verwendet die Echtzeitabtastung mindestens einer momentanen Schreibposition der Handschrift, wobei sie aus der Handschrift eine zeitkonforme Kette von Segmenten ableitet, die jeweils einem Handschriftmerkmalsvektor zugeordnet sind. Daraufhin gleicht das Verfahren die zeitkonforme Kette mit verschiedenen Beispielketten aus einer Datenbank ab, die sich auf die Handschrift bezieht und aus den Beispielketten durch Hidden-Markov-Verarbeitung eine am besten passende Erkennungskette auswählt.
  • Powalka et al. (Word Shape Analysis for Hybrid Recognition System Pattern Recognition Bd. 30, Nr. 3, S. 421–455, 1997) beschreibt zwei für die Verwendung in einem Hybriderkennungssystem entwickelte holistische Erkenner. Die Erkenner verwenden Informationen über die Wortform. Diese Informationen hängen stark mit der Wortzoneneinteilung zusammen. Einer der Erkenner ist explizit durch die Genauigkeit der Zoneneinteilungsinformations-Extraktion begrenzt. Der andere Erkenner ist so konstruiert, dass diese Begrenzung vermieden wird. Die Erkenner verwenden sehr einfache Mengen von Merkmalen und Fuzzy-Mengen-basierte Musteranpassungstechniken. Dies soll nicht nur ihre Robustheit erhöhen, sondern verursacht auch Probleme mit der Disambiguierung der Ergebnisse. Es wird ein Überprüfungsmechanismus eingeführt, der Buchstabenalternativen als Kompositumsmerkmale verwendet. Buchstabenalternativen werden aus einem segmentierungsbasierten Erkenner erhalten, der in dem Hybridsystem koexistiert. Trotz einiger verbleibender Disambiguierungsprobleme wird festgestellt, dass holistische Erkenner segmentierungsbasierte Erkenner übertreffen können. Wenn sie in einem Hybridsystem zusammenarbeiten, sind die Ergebnisse wesentlich höher als die der einzelnen Erkenner. Es werden Erkennungsergebnisse berichtet und verglichen. 1997 Pattern Recognition Society. Veröffentlicht von Elsevier Science Ltd.
  • US-Patent 5.778.361 offenbart ein Verfahren und System zum Schnellindizieren und Suchen von Text in Kompositumsprachen wie etwa Japanisch, Chinesisch, Hebräisch und Arabisch. Computercodierungen solcher Kompositumsprachen enthalten häufig verschiedene Zeichentypen, wobei z. B. die Shift-JIS-Codierung des Japanischen Kanji-, Katakana-, Hiragana- und Antiqua-Zeichen mit verschiedenen Codierungen in demselben Zeichensatz darstellt, um Indexbegriffe und Suchbegriffe zu bilden. In einer bevorzugten Ausführungsform wird in Reaktion auf eine Abfrage über eine Sammlung von Objekten ein Kontext-Index-Suchsystem aufgerufen. Die Sammlung von Objekten wird durch den Kontextindex indiziert und kann z. B. ein Korpus von Dokumenten sein, die durch die in den Dokumenten enthaltenen Begriffe indiziert sind. Ein Kontextindex-Suchsystem verwendet den Kontextindex, um in Reaktion auf die Abfrage ein erstes Suchergebnis zu erzeugen und zu speichern; in bestimmten Situationen wird ein Direktsuchsystem verwendet. Der Kontextindex enthält für jeden von mehreren Begriffen eine Bezugnahme auf jedes Objekt. Der Kontextindex wird dadurch erzeugt, dass für jeweils mehrere Begriffe, die durch ein Wortbegrenzungszeichen oder durch einen Zeichentypübergang in einer Kette zu indizierender Zeichen begrenzt sind, zunächst ein vorläufiger Indexbegriff erzeugt wird. Für jeden vorläufigen Indexbegriff eines ersten Typs, z. B. Katakana oder Antiqua, wird der vorläufige Indexbegriff als Indexbegriff genutzt. Für jeden vorläufigen Indexbegriff eines zweiten Typs, z. B. Kanji, wird der vorläufige Indexbegriff schrittweise indiziert, um mehrere Indexbegriffe zu erzeugen, deren Länge geringer ist als eine vorbestimmte Schrittweite. Daraufhin werden die Indexbegriffe in Verbindung mit dem Objekt, das indiziert wird, zu dem Kontextindex hinzugefügt. Auf ähnliche Weise wird eine Kette von Text, der als Suchbegriff in eine Suchmaschine eingegeben wird, zu vorläufigen Suchbegriffen und zu Suchbegriffen verarbeitet.
  • US 5.526.443 beschreibt die Hervorhebung und Kategorisierung von Dokumenten, die unter Verwendung von Wort-Token ausgeführt wird, die Wörter darstellen, die in einem Dokument erscheinen. Zunächst wird die Beseitigung bestimmter unwichtiger Wort-Token abgeschlossen, wonach die verbleibenden Wörter des Dokuments gemäß ihren Wort-Token-Erscheinungsraten bewertet werden. Diese Raten werden daraufhin verwendet, um in einem Dokument häufig erscheinende Wörter hervorzuheben, die das Thema des Dokuments angeben. Unter Verwendung von Dokumentprofilen, die aus den Wort-Token entwickelt werden, kann das Dokument auch kategorisiert werden.
  • Dementsprechend ist zu sehen, dass jedes der obigen Verfahren an verschiedenen Nachteilen leidet. Insbesondere neigt die Mehrzahl der Techniken dazu, große Mengen an Datenverarbeitung zu erfordern. Da insbesondere leistungsfähige Prozessoren erforderlich sind, um die Erkennung auszuführen, kann dies die Umstände begrenzen, unter denen die Techniken realisiert werden können.
  • Offenbarung der Erfindung
  • In einer ersten umfassenden Form schafft die vorliegende Erfindung ein Verfahren zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei das Verfahren umfasst:
    • a) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist;
    • b) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: i) Ermitteln der Anzahl von Zeichen in der Kette; ii) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und iii) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage;
    • c) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und
    • d) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
  • Üblicherweise hat jedes vorbestimmte Zeichen einen jeweiligen Zeichentyp.
  • Im Allgemeinen umfassen die Zeichentypen mindestens eines von
    • a) Ziffern;
    • b) Buchstaben; und
    • c) Interpunktionszeichen.
  • Im Allgemeinen umfasst das Verfahren zur Ermittlung der Zeichenwahrscheinlichkeiten die Verwendung eines Zeichenklassifikators.
  • Im Allgemeinen umfasst das Verfahren das Ermitteln einer jeder Vorlage entsprechenden möglichen Zeichenkette durch:
    • a) Ermitteln des Zeichentyps jedes Zeichens in der Kette aus der Vorlage; und
    • b) Auswählen eines der vorbestimmten Zeichen für jedes Zeichen in der Vorlage, wobei das vorbestimmte Zeichen gemäß dem ermittelten Zeichentyp und der Zeichenwahrscheinlichkeit ausgewählt wird.
  • Vorzugsweise ist das ausgewählte vorbestimmte Zeichen das vorbestimmte Zeichen mit der höchsten Zeichenwahrscheinlichkeit.
  • Üblicherweise umfasst das Verfahren zur Identifikation der Zeichenkette:
    • a) Ermitteln einer Kettenwahrscheinlichkeit für jede mögliche Kette, wobei die Kettenwahrscheinlichkeit durch Verknüpfen der Zeichenwahrscheinlichkeiten für jedes ausgewählte Zeichen und der jeweiligen Vorlagenwahrscheinlichkeit ermittelt wird; und
    • b) Ermitteln der Zeichenkette als die mögliche Kette mit der höchsten Kettenwahrscheinlichkeit.
  • Das Verfahren kann unter Verwendung eines Verarbeitungssystems durchgeführt werden, das Folgendes aufweist
    • a) einen Speicher zum Speichern von mindestens einem von i) den vorbestimmten Zeichen; ii) Vorlagendaten, welche mindestens eines darstellen von (1) den Vorlagen; und (2) den Vorlagenwahrscheinlichkeiten und
    • b) einen Prozessor, wobei der Prozessor eingerichtet ist zum: i) Aufnehmen der Zeichenkette; ii) Ermitteln der Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette; iii) Ermitteln der Vorlagenwahrscheinlichkeiten iv) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und v) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
  • In einer zweiten umfassenden Form schafft die vorliegende Erfindung eine Einrichtung zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei die Einrichtung umfasst:
    • a) einen Speicher zum Speichern von mindestens einem von: i) einer Anzahl vorbestimmter Zeichen; und ii) Vorlagendaten, welche eine Anzahl von Vorlagen darstellen; und
    • b) einen Prozessor, wobei der Prozessor eingerichtet ist zum: i) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist;
    • c) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: A) Ermitteln der Anzahl von Zeichen in der Kette; B) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und C) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage;
    • d) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und
    • e) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
  • Üblicherweise ist der Prozessor an eine Eingabevorrichtung gekoppelt, wobei der Prozessor weiter zur Aufnahme der Kette handschriftlicher Zeichen mittels der Eingabevorrichtung eingerichtet ist.
  • Somit können die Einrichtung und insbesondere der Prozessor zur Durchführung des Verfahrens der ersten umfassenden Form der Erfindung eingerichtet sein.
  • In diesem Fall können die Vorlagendaten ferner für jede Vorlage eine Vorlagenwahrscheinlichkeit enthalten, wobei der Prozessor so eingerichtet ist, dass er aus den Vorlagendaten die Vorlagenwahrscheinlichkeit erhält.
  • Kurzbeschreibung der Figuren
  • Die vorliegende Erscheinung sollte aus der folgenden Beschreibung einer bevorzugten, aber nicht einschränkenden Ausführungsform hervorgehen, die lediglich beispielhaft in Verbindung mit der beigefügten Figur beschrieben wird, wobei:
  • 1 ein Beispiel eines Verarbeitungssystems ist, das für die Ausführung der vorliegenden Erfindung geeignet ist.
  • Ausführungsarten der Erfindung
  • Die folgenden Ausführungsarten werden in Anwendung auf die schriftliche Beschreibung und auf die beigefügten Ansprüche beschrieben, um ein genaueres Verständnis des Gegenstands der vorliegenden Erfindung zu schaffen.
  • Anhand von 1, die ein für die Ausführung einer Handschrifterkennung eingerichtetes Verarbeitungssystem 10 zeigt, wird nun ein Beispiel einer für die Realisierung der vorliegenden Erfindung geeigneten Einrichtung beschrieben.
  • Insbesondere enthält das Verarbeitungssystem 10 allgemein mindestens einen Prozessor 20, einen Speicher 21 und eine Eingabevorrichtung 22 wie etwa ein Graphiktablett und/oder eine Tastatur, eine Ausgabevorrichtung 23 wie etwa eine Anzeige, die wie gezeigt über einen Bus 24 miteinander verbunden sind. Wie bei 25 gezeigt ist, ist außerdem eine externe Schnittstelle vorgesehen, um das Verarbeitungssystem mit einem Speicher 11 wie etwa mit einer Datenbank zu verbinden.
  • Das Verarbeitungssystem kann so eingerichtet sein, dass es bei der Verwendung zwei Hauptfunktionen ausführt. Insbesondere kann das Verarbeitungssystem so eingerichtet sein, dass es aus einem Textkorpus statistische Vorlagen erzeugt und/oder statistische Vorlagen bei der Decodierung von handschriftlichem Text verwendet. Daher sollte gewürdigt werden, dass das Verarbeitungssystem 10 irgendeine Form eines Verarbeitungssystems wie etwa ein Computer, ein Laptop, ein Server, Spezial-Hardware oder dergleichen, die üblicherweise dafür eingerichtet ist, diese Techniken durch die Ausführung in dem Speicher 21 gespeicherter geeigneter Anwendungs-Software auszuführen, sein kann.
  • Das Verarbeitungssystem ist so eingerichtet, dass es im Fall der Vorlagenerzeugung Text analysiert, der üblicherweise in der Datenbank 11 gespeichert ist. Diesbezüglich arbeitet der Prozessor 20 so, dass er jedes Wort oder jede Kette in dem Text identifiziert und daraufhin als eine Folge von Zeichen beurteilt. Der Prozessor ermittelt die Typen der Zeichen in jedem Wort oder in jeder Kette wie etwa, ob die Zeichen Buchstaben, Zahlen oder Interpunktion sind.
  • Daraufhin ermittelt der Prozessor eine Vorlage, welche die Kette darstellt. Diesbezüglich wird die Vorlage aus Token gebildet, welche die jeweiligen Zeichentypen darstellen. Somit kann eine Vorlage für das Wort "the" z. B. die Form "aaa" haben, wobei "a" einen Buchstaben darstellt.
  • Es sollte gewürdigt werden, dass für verschiedene Ketten identische Vorlagen erzeugt werden. Dementsprechend führt z. B. das Wort "cat" zu einer identischen Vorlage wie das Wort "the".
  • Der Prozessor 20 zeichnet die Anzahl, in der jede Vorlage ermittelt wird, in der Datenbank 11 auf.
  • Wenn alle Wörter in dem Text analysiert worden sind, ermöglicht dies, die Wahrscheinlichkeit zu ermitteln, dass irgendeine gegebene Vorlage in einer Textprobe auftritt. Dies kann daraufhin bei der Erkennung von handschriftlichem Text verwendet werden.
  • Insbesondere dann, wenn der Prozessor 20 handschriftlichen Text erhält, z. B. von der Eingabevorrichtung 22 oder von der Datenbank 11, führt der Prozessor eine erste Beurteilung aus, um Zeichenketten zu identifizieren und daraufhin zu versuchen, die Identität jedes Zeichens in der Kette zu identifizieren.
  • Im Allgemeinen realisiert der Prozessor 20 einen Zeichenklassifikator, der eine Anzahl möglicher Zeichenidentitäten zusammen mit einer zugeordneten Wahrscheinlichkeit für jede Identität ermittelt.
  • Dies wird für die gesamte Folge wiederholt, sodass es eine Anzahl möglicher Zeichenidentitätskombinationen gibt, die verschiedenen möglichen Ketten entsprechen.
  • Die oben beschriebenen Vorlagen werden daraufhin durch den Prozessor 20 beurteilt, der Vorlagen auswählt, welche dieselbe Anzahl von Zeichen wie die jeweilige Kette haben. Daraufhin ermittelt der Prozessor 20 für eine bestimmte Kombination von Zeichenidentitäten und Vorlagen eine Gesamtwahrscheinlichkeit, um die Ermittlung der wahrscheinlichsten Kette zu ermöglichen.
  • Diese Techniken werden nun ausführlicher beschrieben.
  • Erzeugung statistischer Vorlagen
  • Dieser Abschnitt beschreibt die Erzeugung statistischer Vorlagen aus einem Textkorpus und gibt Beispiele von Vorlagen, die statistisch abgeleitet worden sind.
  • Übersicht
  • Buchstaben stellen das fundamentale Grundelement der Klassifizierung eines Handschrift-Texterkennungssystems dar. Im Englischen können Buchstaben als alphabetisch ('a'–'z', 'A'–'Z'), numerisch ('0'–'9') oder Interpunktion (alles andere) klassifiziert werden. Als Hilfe bei der allgemeinen Erkennung alphabetischer Zeichen werden zur Disambiguierung häufig Wörterbücher und Zeichengrammatiken verwendet. Im Allgemeinen enthalten Wörterbücher und Zeichengrammatiken nur alphabetische Zeichen (obgleich Apostrophe gelegentlich enthalten sind, um Komposita wie etwa "they're" und "he'll" zu modellieren).
  • Da die meisten Sprachmodelle keine vorhergehenden Informationen über numerische Zeichen und Interpunktionszeichen enthalten, verwenden Erkennungssysteme heuristische Verfahren, um aus einer Erkennungskette Ketten alphabetischer oder numerischer Zeichen zu extrahieren, die daraufhin unter Verwendung eines Sprachmodells verarbeitet werden. Allerdings sind diese heuristischen Ansätze im Allgemeinen nicht sehr robust und führen zu häufigen Fehlerkennungsproblemen wie etwa:
    • • alphabetische Ketten, die als Zahlen erkannt werden,
    • • numerische Ketten, die als alphabetisch erkannt werden,
    • • Wörter, die Text und Zahlen enthalten (z. B. 2nd, V8, B2), die falsch als alphabetische oder numerische Ketten erkannt werden,
    • • Fehlerkennung von Interpunktion als alphabetische oder numerische Buchstaben und
    • • Fehlerkennung alphabetischer oder numerischer Buchstaben als Interpunktion.
  • Allerdings kann das Vorhandensein bestimmter Interpunktionszeichen in einer Textfolge tatsächlich bei der Decodierung anderer Zeichen in der Folge helfen. Zum Beispiel können Apostrophe eine Textkette anzeigen, während Kommata, Währungssymbole und Dezimalpunkte numerische Ketten anzeigen können. Wörter, die Bindestriche enthalten, enthalten häufig eine Mischung numerischer und alphabetischer Ketten (z. B. "30-year-old" oder "20-pound"). Zusätzlich dazu sind einige Interpunktionszeichen üblicherweise an spezifischen Orion in einer Kette zu finden (z. B. Suffixinterpunktion wie etwa "?", "!" oder ":").
  • Die statistische Sprachvorlagenverarbeitung ist ein Verfahren des Codierens vorhergehender Informationen hinsichtlich der Struktur von schriftlichem Text, das die Wechselwirkung zwischen alphabetischen, numerischen und Interpunktionszeichen unter Verwendung eines probabilistischen Modells modelliert. Das Modell betrachtet Positionsinformationen und kann Buchstabenabhängigkeiten global unter Beachtung des gesamten Eingangsworts (eher als eine feste Anzahl lokaler vorhergehender Zustände wie in Zeichen-N-Grammen) modellieren.
  • Buchstaben-Tokenisierung
  • Die statistische Vorlagenerzeugung wird unter Verwendung eines schriftlichen Textkorpus (einer großen Menge von Textdateien, die aus einer Anzahl von Quellen gesammelt worden sind) ausgeführt. Zum Erzeugen von Vorlagenstatistiken wird jede Datei in dem Korpus als eine sequentielle Menge von Buchstaben, die durch einen Leerraum (d. h. Wort-, Satz- und Absatzmarkierungen) begrenzt sind, verarbeitet. Diese Folge von Buchstaben bildet eine Kette.
  • Während der Erzeugung von Vorlagen werden einzelne Buchstaben in Token umgesetzt, welche die Klasse (oder den Zeichentyp) darstellen, zu der (dem) der Buchstabe gehört.
  • Die Definition der Buchstabenklassen ist domänenspezifisch und wird auf der Grundlage der Ambiguität ausgewählt, die aufgelöst werden muss. Die folgende Diskussion beruht auf dem folgenden Klassifizierungsschema: alphabetische Groß- und Kleinbuchstaben werden in das Token 'a' umgesetzt, alle Ziffern werden in das Token 'd' umgesetzt und alle verbleibenden Zeichen (d. h. Interpunktion) werden nicht umgesetzt und behalten ihre ursprünglichen Werte.
  • Die Folge von Token, die ein Wort oder eine Zeichenkette darstellen, definiert eine Vorlage.
  • Als ein Beispiel wird die Kette "15-years?" in die Vorlage "dd-aaaaa?" umgesetzt. Es wird angemerkt, dass zum Modellieren anderer Sprachformatierungen wie etwa der Unterscheidung von Groß- und Kleinbuchstaben alternative Tokenisierungs-Schemata (z. B. "MacDonald" als "ullulllll" mit 'u' für Großbuchstaben und 'l' für Kleinbuchstaben alphabetischer Zeichen) verwendet werden könnten.
  • Verarbeitung
  • Der Zweck des Erzeugens statistischer Sprachvorlagen ist das Identifizieren häufiger Wendungen in Schrifttext und das Berechnen der Wahrscheinlichkeit, dass die Wendung in schriftlichem Text festgestellt wird. Das Modelltraining schreitet durch Tokenisierung der Buchstaben in jedem durch Leerzeichen abgetrennten Wort und durch Speichern der resultierenden Vorlage in einer Tabelle, üblicherweise in der Datenbank 11, fort. Jeder Vorlage wird ein Zählwert zugeordnet, der die Anzahl angibt, in der die jeweilige Vorlage in dem Eingangsstrom gesehen worden ist.
  • Nachdem der gesamte Text in dem Korpus verarbeitet worden ist, enthält die Tabelle eine Liste aller in dem Text festgestellter Vorlagen und einen Zählwert der Anzahl, in der jede Vorlage gesehen wurde. Offensichtlich enthalten häufig auftretende Vorlagen (z. B. die Vorlage "aaa", die "the", "but" oder "cat" darstellt) viel höhere Zählwerte als unwahrscheinliche Vorlagen (z. B. die Vorlage "ada", die "x1y" oder "b2b" darstellt).
  • Zum Berechnen der vorhergehenden Wahrscheinlichkeiten für eine Vorlage wird der Vorlagenzählwert einfach durch die Summe aller Vorlagenzählwerte dividiert. Um einen numerischen Unterlauf zu vermeiden und um die Verarbeitung während der Erkennung zu erleichtern, werden diese Werte als Logarithmen gespeichert. Die logarithmische Wahrscheinlichkeit der Vorlage der ti ist
    Figure 00180001
    wobei: ci die Anzahl ist, in der die Vorlage i in dem Trainingstext festgestellt wurde.
    n die Gesamtzahl der verschiedenen Vorlagen ist.
  • Das Berechnen vorhergehender Wahrscheinlichkeiten über alle festgestellten Vorlagen ermöglicht, dass Vorlagen mit unterschiedlicher Anzahl von Buchstaben verglichen werden. Das heißt, dass das Sprachmodell dort, wo die Buchstaben- oder Wortsegmentierung nicht bekannt ist oder eine Anzahl alternativer Segmentierungswege möglich sind, bei der Decodierung der Eingabe helfen kann.
  • Allerdings kann das Vorlagenmodell so unterteilt werden, dass Vorlagen durch den Buchstabenzählwert gruppiert werden, wenn die Anzahl der Buchstaben in einer Eingangskette zur Erkennungszeit bekannt ist. Daraufhin können die vorhergehenden Wahrscheinlichkeiten eher auf der Grundlage der Vorlagenzählwerte der Vorlagengruppe als auf der Grundlage der Summe aller Zählwerte über alle Gruppen berechnet werden.
  • Glättung
  • Die obige Prozedur erzeugt auf der Grundlage des Textkorpus einen Schätzwert maximaler Wahrscheinlichkeit (Maximum-Likelihood Estimate, MLE) der Vorlagenwahrscheinlichkeiten. Das heißt, die berechneten Wahrscheinlichkeiten sind jene, die bei Anwendung auf den Trainingskorpus die höchste Wahrscheinlichkeit ergeben. Vorlagen, die in dem Trainingstext nicht festgestellt wurden, wird keine Wahrscheinlichkeitsverteilung zugewiesen, wobei diesen Vorlagen somit eine Wahrscheinlichkeit null zugewiesen wird.
  • Da der Textkorpus immer nur eine Teilmenge der möglichen Eingabe in das Sprachmodell darstellen kann, muss ein Glättungsmodell angewendet werden, um die Wahrscheinlichkeit der beobachteten Ereignisse um einen kleinen Betrag zu verringern und um nicht gesehenen Ereignissen die Restwahrscheinlichkeitsmasse zuzuweisen. Wie z. B. in C. Manning und H. Schutze, "Foundations of Statistical Natural Language Processing", The MIT Press, Cambridge, Massachusetts, USA 1999, beschrieben ist, wird diese Prozedur üblicherweise in Zeichen- und Wort-N-Grammen verwendet. Somit können in dieser Situation leicht dieselben Techniken angewendet werden.
  • In diesem Beispiel wurde das Lidstone-Gesetz, wie es z. B. im oben erwähnten "Foundations of Statistical Natural Language Processing" beschrieben ist, verwendet, um die erzeugten Wahrscheinlichkeiten zu glätten, wie etwa:
    Figure 00190001
    wobei: B die Anzahl eindeutiger Vorlagen ist, die aus dem Korpus abgeleitet wurden;
    λ ein Glättungsfaktor ist (der empirisch auf 0,5 gesetzt wird).
  • Das Ergebnis ist, dass Wortstrukturen, die in dem Trainingskorpus nicht gesehen worden sind, eine von null verschiedene Wahrscheinlichkeit zugewiesen werden kann, was es ermöglicht, seltene und ungewöhnliche Wortstrukturen zu erkennen.
  • Außerdem sollte erkannt werden, dass umso genauere Wahrscheinlichkeiten erhalten werden, je größer der bei der Ermittlung der Wahrscheinlichkeiten verwendete Textkorpus ist.
  • Beispielergebnisse
  • Die Trainingsprozedur wurde über einem großen Textkorpus ausgeführt, der in diesem Beispiel der J. D. Harman und M. Liberman, Complete TIPSTER Korpus, 1993, ist, um eine Menge statistischer Sprachvorlagen zu erzeugen. Im Folgenden sind Beispiele der ermittelten Vorlagen dargelegt.
  • Insbesondere enthält Tabelle 1 die zwanzig Vorlagen mit der höchsten Häufigkeit des Auftretens in dem schriftlichen Textkorpus (die somit die höchste vorhergehende Wahrscheinlichkeit besitzen).
  • Die Tabelle offenbart eine Anzahl offensichtlicher Eigenschaften von schriftlichem Text wie etwa, dass kurze Wörter im Allgemeinen häufiger als lange Wörter sind und dass Kommata und Punkte die wahrscheinlichsten Interpunktionszeichen sind und als Wortsuffixe erscheinen. Diese Regeln sind implizit durch die Vorlagen und ihre entsprechende vorhergehende logarithmische Wahrscheinlichkeit definiert und ermöglichen eine robuste und statistisch gut begründete Decodierung der Eingabe.
  • Die Vorlagen in der oben dargestellten Tabelle schildern ausführlich eine Anzahl eher offensichtlicher Sprachregeln, die durch eine Anzahl einfacher Heuristiken beschrieben werden könnten (obgleich unwahrscheinlich ist, dass die vorhergehenden Wahrscheinlichkeiten für diese Regeln leicht und genau geschätzt werden könnten). Tabelle 1
    Rang Vorlage P(ti)
    1 aaa –0,779
    2 aa –0,842
    3 aaaa –0,918
    4 aaaaa –1,080
    5 aaaaaaa –1,145
    6 aaaaaa –1,171
    7 aaaaaaaa –1,259
    8 aaaaaaaaa –1,394
    9 a –1,523
    10 aaaaaaaaaa –1,575
    11 aaaaaaaaaaa –1,826
    12 aaaaaaa, –2,118
    13 aaaa. –2,158
    14 aaaaaa, –2,165
    15 aaaaa, –2,184
    16 aaaa, –2,209
    17 aaaaaaaa, –2,257
    18 aaaaaaa. –2,260
    19 aaaaaa. –2,293
    20 aaaaa. –2,296
  • Wie ausführlich in Tabelle 2 geschildert ist, offenbart eine weitere Untersuchung der Ergebnisse allerdings eine große Anzahl von sprachlichen Wendungen, die unter Verwendung eines heuristischen Ansatzes sehr schwierig genau zu modellieren wären. Diese Vorlagen modellieren die Wechselwirkung zwischen alphabetischen Buchstaben, Ziffern und Interpunktion und definieren implizit eine Menge von Regeln über die Struktur von schriftlichem Text. Tabelle 2
    Rang Vorlage P(ti) Beispiel
    34 a.a. –2,765 U.S., A.M., P.M., N.Y.
    35 aaaa'a –2,786 that's, didn't, hasn't, Rome's, bank's
    56 $ddd –3,211 $400
    64 d,ddd –3,307 3,200
    68 dd% –3,326 51%
    82 (aaa) –3,424 Korea Broadcasting (KBS), agreement (but) it
    89 (ddd) –3,456 (202) 940–5432
    118 aa'aa –3,639 we're, we've, he'll, we'll
    122 d:dd –3,653 9:08, 5:45
    134 ddaa –3,704 25th, 70th,
    140 ddd-dddd. –3,724 940–1234.
    142 dd-aaaa –3,728 92-page, 12-mile, 10-hour, 14-foot, 30-year
    151 aaa: –3,767 "they are:", "thus far:"
    153 dd-aaa –3,782 30-day, 21-gun, 35-man, 10-ton
    157 ... –3,784 one more time ...
    159 daa –3,809 1st, 2nd, 3rd
    164 d.d% –3,825 1.2%
    170 dd-aaaaaaa –3,833 63-year-old
    215 d-d –4,036 4-0 vote, ruled 7-0, beaten 2-1
    216 dd-dd –4,038 March 14–18, 60–70 planes, 42–58 votes
    224 ddda –4,072 747s, 304a members, 256k RAM
    225 dda –4,073 20s, 30s, 40s, 50s
    226 a'aa –4,082 I've, I'll
    227 dddaa –4,094 100th, 833rd
    230 dddda –4,106 1940s, 1950s, 1960s
    231 dd/dd/dd –4,107 12/11/98
    239 ad –4,141 T4, K9, M2, U2
    244 a-aaaa –4,166 X-rays, C-SPAN, O-ring, A-bomb, K-mart
    279 d,ddd,ddd –4,251 1,000,000
    283 dd-aaaaa –4,269 12-month, 10-ounce, 15-piece, 12-gauge, 18-point
    317 a-d –4,361 B-I, M-2, V-8
  • Es wird angemerkt, dass die Stärke dieser Technik in der Erzeugung einer großen Anzahl von Vorlagen und der entsprechenden relativen Wahrscheinlichkeiten der Vorlagen liegt. Üblicherweise werden viele Tausende Vorlagen erzeugt, die zusammen eine statistisch gut begründete Menge von Regeln hinsichtlich der Struktur von schriftlichem Text definieren.
  • Statistische Vorlagenverarbeitung
  • Dieser Abschnitt beschreibt die Verwendung statistischer Vorlagen bei der Decodierung von handschriftlichem Text. Die allgemeine Prozedur wird zusammen mit einer Beispielverarbeitung dargestellt. Außerdem wird eine Beschreibung gegeben, wie diese Technik mit anderen Sprachmodellen zu kombinieren ist.
  • Übersicht
  • Das Ziel der Handschriftzeichenerkennung ist das genaue Umsetzen von durch einen Schreiber erzeugten Federstrichen in den entsprechenden Text. Allerdings ist handschriftlicher Text inhärent mehrdeutig, sodass zum Decodieren der Eingaben die Verwendung von Kontextinformationen erforderlich ist. Die wie oben beschrieben erzeugten statistischen Vorlagen helfen bei der Erkennung der allgemeinen Struktur der Eingabe und können während der Erkennung mit anderen Sprachmodellen wie etwa Wörterbüchern und Zeichengrammatiken kombiniert werden.
  • Die meisten Zeichenklassifizierungssysteme erzeugen für einen Eingabebuchstaben eine Menge möglicher Buchstabenanpassungen und zugeordneter Vertrauenspunktwerte. Zum Beispiel könnte bei der Klassifizierung eines Buchstabens 'a' eine Klassifikatorbuchstabenhypothese wie in der folgenden Tabelle 3 dargelegt sein. Tabelle 3
    Buchstabe P(xi)
    'a' 0,6
    'd' 0,3
    'o' 0,1
  • Dies gibt (informell) an, dass der Klassifikator zu 60% sicher ist, dass der Buchstabe ein 'a' ist, zu 30% sicher ist, dass der Buchstabe ein 'd' ist usw. Es wird angemerkt, dass die Punktwerte für die statistische Verarbeitung sich nach den Wahrscheinlichkeitsregeln richten sollten, d. h.:
    –0 ≤ P(xi) ≤ 1 für alle i
    und
    Figure 00240001
  • Für Klassifikatoren, die keine Wahrscheinlichkeiten erzeugen (z. B. Klassifikatoren, die Entfernungswerte angeben), sollte der Ausgangspunktwertvektor normiert werden, um sicherzustellen, dass die obigen Regeln gültig sind. Für Neuronennetzklassifikatoren kann eine normierte Transformationsfunktion (wie etwa die in J. Briddle, "Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships for Statistical Pattern Recognition", Neuro-computing: Algorithms, Architectures, and Applications, S. 227–236, New York, Springer-Verlag, 1990, beschriebene Softmax-Aktivierungsfunktion) zum Normieren der Ausgangswerte verwendet werden.
  • Decodierung
  • Die Decodierung wird an einer Menge von Buchstabenhypothesen ausgeführt, die durch einen Zeichenklassifikator erzeugt werden, der ein Eingangswort oder eine Reihe von Wörtern darstellt. Die den Vorlagen zugeordneten Wahrscheinlichkeiten bedeuten, dass Merkmale wie etwa Wortlängen und der Ort der Interpunktionszeichen für die statistische Wortsegmentierung verwendet werden können. Da die statistischen Vorlagen die Wahrscheinlichkeit einer spezifischen Wortstruktur schätzen können, können sie bei Bedarf als Hilfe bei der Wortsegmentierung verwendet werden.
  • Dagegen nimmt die folgende Beschreibung an, dass die Wortsegmentierung ausgeführt worden ist und dass die Decodierungsprozedur nur die wahrscheinlichste Buchstabenfolge feststellen muss, wenn die Ausgabe des Zeichenklassifikators gegeben ist. Dies erfolgt dadurch, dass diejenige Vorlage ermittelt wird, die den maximalen Punktwert gibt, wenn die durch den Klassifikator erzeugten Zeichenwahrscheinlichkeiten zusammen mit der vorhergehenden Wahrscheinlichkeit der Vorlagenwahrscheinlichkeit gegeben sind:
    Figure 00250001
    wobei:
    n = Anzahl der Buchstaben in der Eingangskette
    P(w) = Buchstabenfolgenwahrscheinlichkeit
    P(xij)= der Klassifikatorpunktwert für das Token an der Position j in der Vorlage ti (siehe unten)
    P(ti) = die vorhergehende Wahrscheinlichkeit der Vorlage ti
  • Bei der Berechnung des Werts von P(xij) wird das Element mit dem höchsten Punktwert (unter Verwendung der Klassifikatorhypothese bei der Buchstabenposition j) der Token-Klasse verwendet. Falls die Vorlage z. B. ein 'a' enthält, wird der Punktwert des alphabetischen Zeichens mit dem höchstens Rang verwendet. Ähnlich wird der Punktwert der Ziffer mit dem höchsten Rang verwendet, wenn die Vorlage ein 'd' enthält. Für die Interpunktion wird der Punktwert des spezifizierten Interpunktionszeichens verwendet.
  • Falls für die Vorlagen logarithmische Wahrscheinlichkeiten verwendet werden, muss die Klassifikatorausgabe ebenfalls in logarithmische Wahrscheinlichkeiten umgesetzt werden, wobei die Decodierungsprozedur das Maximum von:
    Figure 00260001
    ermittelt. Als ein Beispiel wird angenommen, dass ein Klassifikator aus der Eingabekette "30-day" für die angegebenen Zeichen die in Tabelle 4 gezeigten Punktwerte erzeugt hat. Tabelle 4
    P(x1) P(x2) P(x3) P(x4) P(x5) P(x6)
    3 0,87 0 0,50 - 0,97 d 0,53 a 0,58 y 0,53
    z 0,08 0 0,48 r 0,02 a 0,40 e 0,40 g 0,45
    r 0,05 c 0,02 1 0,01 8 0,07 0 0,02 9 0,02
  • In diesem Beispiel ist der richtige Decodierungsweg in Fettdruck gezeigt.
  • Falls diese Punktwerte in logarithmische Wahrscheinlichkeiten umgesetzt und auf alle Vorlagen mit der passenden Länge angewendet werden, sind die Vorlagen mit den höchsten Punktwerten wie in Tabelle 5 dargelegt. Tabelle 5
    Vorlage Text P(ti) P(wi)
    dd-aaa 30-day –3,782 –4,963
    aaaaaa zorday –1,171 –5,056
    dddddd 301809 –4,549 –6,932
  • Wobei P(ti) die vorhergehende Wahrscheinlichkeit der Vorlage ist, wie sie statistisch aus dem Textkorpus abgeleitet wurde.
  • Zum Berechnen von P(wi) für die Vorlage "dd-aaa" ist die durch den Prozessor 20 ausgeführte Berechnung wie folgt: P(wi) = –3,782 – 0,060 – 0,319 – 0,013 – 0,0276 – 0,237 – 0,276 = –4,963.
  • Zum Berechnen von P(wi) für die Vorlage "aaaaaa" ist die Berechnung: P(wi) = –1,171 – 1,097 – 0,301 – 1,699 – 0,276 – 0,237 – 0,276 = –5,056.
  • Zum Berechnen von P(wi) für die Vorlage "dddddd" ist die Berechnung: P(wi) = –4,549 – 0,060 – 0,319 – 2,000 – 1,155 – 1,699 – 1,699 = –6,932.
  • Es wird die Vorlage mit dem höchsten Punktwert ("dd-aaa") ermittelt und der entsprechende Text als die richtige Kette ("30-day") ausgewählt.
  • Es wird angemerkt, dass die Decodierung maximaler Wahrscheinlichkeit (das heißt, an jeder Position das wahrscheinlichste Zeichen zu nehmen) nicht den richtigen Text ermittelt (da "30-day" die Folge maximaler Wahrscheinlichkeit ist).
  • Kombination von Sprachmodellen
  • In dem oben gegebenen Beispiel wurde die Kette der am besten angepassten Vorlage als Decodierungskette ausgewählt. Allerdings wird die angepasste Vorlage üblicherweise zur zusätzlichen Verarbeitung mit anderen Sprachmodellen kombiniert.
  • Zum Beispiel können, eher als die Buchstaben maximaler Wahrscheinlichkeit aus dem alphabetischen Abschnitt einer Kette (d. h. "day") zu nehmen, die Klassifikatorpunktwerte aus diesem Segment an ein Wörterbuch oder eine Zeichengrammatik zur weiteren Decodierung übergeben werden.
  • Alternativ können die Textsegmente aus einer Anzahl von Vorlagen mit den höchsten Punktwerten unter Verwendung eines zusätzlichen Sprachmodells verarbeitet werden, wobei die resultierenden Punktwerte kombiniert werden, um eine abschließende Wortwahrscheinlichkeit zu erzeugen.
  • Dementsprechend sollte gewürdigt werden, dass der oben beschriebene Prozess ein Verfahren zur Kontextverarbeitung unter Verwendung statistischer Sprachvorlagen für die Handschriftzeichenerkennung schafft. Dieses umfasst Prozeduren, die zum Erzeugen der Vorlagen aus einem Textkorpus erforderlich sind, zusammen mit den Techniken, die zum Decodieren der Zeichenklassifikatorausgabe unter Verwendung der Vorlagen erforderlich sind.
  • Insbesondere ermöglichen diese Techniken im Allgemeinen, dass unter Verwendung von geringerer Verarbeitungsleistung als in den Verfahren nach dem bekannten Stand der Technik eine schnellere, genauere Handschrifterkennung ausgeführt wird.
  • Außerdem kann gesagt werden, dass die Erfindung umfassend aus den Teilen, Elementen und Merkmalen besteht, auf die in der Beschreibung der Anwendung einzeln oder als Gesamtheit in irgendwelchen oder allen Kombinationen von zwei oder mehr Teilen, Elementen oder Merkmalen Bezug genommen wird oder die in dieser Weise in ihr angegeben sind, wobei dort, wo hier spezifische ganze Zahlen erwähnt sind, die im Gebiet, auf das sich die Erfindung bezieht, bekannte Äquivalente haben, diese bekannten Äquivalente so, als ob sie einzeln dargelegt worden wären, als hier enthalten betrachtet werden.
  • Obgleich die bevorzugte Ausführungsform ausführlich beschrieben worden ist, können daran durch den Durchschnittsfachmann auf dem Gebiet selbstverständlich verschiedene Änderungen, Ersetzungen und Abwandlungen vorgenommen werden, ohne von dem wie zuvor beschriebenen und wie im Folgenden beanspruchten Umfang der vorliegenden Erfindung abzuweichen.

Claims (11)

  1. Verfahren zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei das Verfahren umfasst: a) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist; b) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: i) Ermitteln der Anzahl von Zeichen in der Kette; ii) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und iii) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage; c) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlich-keiten; und d) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
  2. Verfahren nach Anspruch 1, wobei jedes vorbestimmte Zeichen einen jeweiligen Zeichentyp hat.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei die Zeichentypen mindestens eines umfassen von: a) Ziffern; b) Buchstaben; und c) Interpunktionszeichen.
  4. Verfahren nach gleich welchem der Ansprüche 1 bis 3, wobei das Verfahren zur Ermittlung der Zeichenwahrscheinlichkeiten die Verwendung eines Zeichenklassifikators umfasst.
  5. Verfahren nach Anspruch 1, wobei das Verfahren das Ermitteln einer jeder Vorlage entsprechenden möglichen Zeichenkette umfasst, durch: a) Ermitteln des Zeichentyps jedes Zeichens in der Kette aus der Vorlage; und b) Auswählen eines der vorbestimmten Zeichen für jedes Zeichen in der Vorlage, wobei das vorbestimmte Zeichen gemäß dem ermittelten Zeichentyp und der Zeichenwahrscheinlichkeit ausgewählt wird.
  6. Verfahren nach Anspruch 5, wobei das ausgewählte vorbestimmte Zeichen das vorbestimmte Zeichen mit der höchsten Zeichenwahrscheinlichkeit ist.
  7. Verfahren nach Anspruch 5 oder Anspruch 6, wobei das Verfahren zur Identifikation der Zeichenkette umfasst: a) Ermitteln einer Kettenwahrscheinlichkeit für jede mögliche Kette, wobei die Kettenwahrscheinlichkeit durch Verknüpfen der Zeichenwahrscheinlichkeiten für jedes ausgewählte Zeichen und der jeweiligen Vorlagenwahrscheinlichkeit ermittelt wird; und b) Ermitteln der Zeichenkette als die mögliche Kette mit der höchsten Kettenwahrscheinlichkeit.
  8. Verfahren nach gleich welchem der Ansprüche 1 bis 7, wobei das Verfahren unter Verwendung eines Verarbeitungssystems (10) durchgeführt wird, das aufweist: a) einen Speicher (21) zum Speichern von mindestens einem von: i) den vorbestimmten Zeichen; ii) Vorlagendaten, welche mindestens eines darstellen von: (1) den Vorlagen; und (2) den Vorlagenwahrscheinlichkeiten; und b) einen Prozessor (20), wobei der Prozessor (20) eingerichtet ist zum: i) Aufnehmen der Zeichenkette; ii) Ermitteln der Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette; iii) Ermitteln der Vorlagenwahrscheinlichkeiten; iv) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlichkeiten; und v) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
  9. Einrichtung (10) zur Identifikation einer Kette, die von einer Anzahl handschriftlicher Zeichen gebildet wird, wobei die Einrichtung (10) umfasst: a) einen Speicher (21) zum Speichern von mindestens einem von: i) einer Anzahl vorbestimmter Zeichen; und ii) Vorlagendaten, welche eine Anzahl von Vorlagen darstellen; und b) einen Prozessor (20), wobei der Prozessor (20) eingerichtet ist zum: i) Ermitteln von Zeichenwahrscheinlichkeiten für jedes Zeichen in der Kette, wobei jede Zeichenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass das betreffende Zeichen ein jeweiliges von einer Anzahl vorbestimmter Zeichen ist; c) Ermitteln von Vorlagenwahrscheinlichkeiten für die Kette, wobei jede Vorlagenwahrscheinlichkeit die Wahrscheinlichkeit darstellt, dass die Kette einer jeweiligen von einer Anzahl von Vorlagen entspricht, wobei jede Vorlage eine jeweilige Kombination von Zeichentypen darstellt, dadurch gekennzeichnet, dass die Vorlagenwahrscheinlichkeit durch statistische Analyse eines Textkorpus vorbestimmt wird, und wobei das Ermitteln der Vorlagenwahrscheinlichkeiten umfasst: A) Ermitteln der Anzahl von Zeichen in der Kette; B) Auswählen von Vorlagen mit einer identischen Anzahl von Zeichen; und C) Erhalten einer Vorlagenwahrscheinlichkeit für jede ausgewählte Vorlage; d) Ermitteln von Kettenwahrscheinlichkeiten gemäß den ermittelten Zeichen- und Vorlagenwahrscheinlich-keiten; und e) Identifizieren der Zeichenkette gemäß den ermittelten Kettenwahrscheinlichkeiten.
  10. Einrichtung (10) nach Anspruch 9, wobei der Prozessor (20) an eine Eingabevorrichtung (22) gekoppelt ist, wobei der Prozessor (20) weiter zur Aufnahme der Kette handschriftlicher Zeichen mittels der Eingabevorrichtung (22) eingerichtet ist.
  11. Einrichtung (10) nach Anspruch 9 oder Anspruch 10, wobei der Prozessor (10) zur Durchführung des Verfahrens nach gleich welchem der Ansprüche 1 bis 8 eingerichtet ist.
DE60225317T 2001-10-15 2002-10-15 Zeichenkettenidentifikation Expired - Lifetime DE60225317T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AUPR824601 2001-10-15
AUPR8246A AUPR824601A0 (en) 2001-10-15 2001-10-15 Methods and system (npw004)
PCT/AU2002/001392 WO2003034326A1 (en) 2001-10-15 2002-10-15 Character string identification

Publications (2)

Publication Number Publication Date
DE60225317D1 DE60225317D1 (de) 2008-04-10
DE60225317T2 true DE60225317T2 (de) 2009-02-26

Family

ID=3832071

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60225317T Expired - Lifetime DE60225317T2 (de) 2001-10-15 2002-10-15 Zeichenkettenidentifikation

Country Status (11)

Country Link
US (6) US7444021B2 (de)
EP (1) EP1446763B1 (de)
JP (2) JP2005505869A (de)
KR (1) KR100630886B1 (de)
CN (1) CN1571980A (de)
AT (1) ATE387677T1 (de)
AU (2) AUPR824601A0 (de)
CA (1) CA2463127C (de)
DE (1) DE60225317T2 (de)
IL (2) IL161379A0 (de)
WO (1) WO2003034326A1 (de)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3997790B2 (ja) * 2002-02-15 2007-10-24 コニカミノルタビジネステクノロジーズ株式会社 プログラム及びスタイルシート選択装置
US7139688B2 (en) * 2003-06-20 2006-11-21 International Business Machines Corporation Method and apparatus for classifying unmarked string substructures using Markov Models
US7508324B2 (en) * 2004-08-06 2009-03-24 Daniel Suraqui Finger activated reduced keyboard and a method for performing text input
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system
US7933395B1 (en) * 2005-06-27 2011-04-26 Google Inc. Virtual tour of user-defined paths in a geographic information system
US20070271087A1 (en) * 2006-05-18 2007-11-22 Microsoft Corporation Language-independent language model using character classes
CN100421066C (zh) * 2006-05-24 2008-09-24 上海印钞厂 一种提高数字喷码标签字符识别率的方法
JP2010277440A (ja) * 2009-05-29 2010-12-09 Internatl Business Mach Corp <Ibm> プログラム実行時における文字列の処理を最適化する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
KR101086550B1 (ko) * 2009-06-24 2011-11-23 엔에이치엔(주) 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
CN102402692B (zh) * 2010-09-13 2014-06-04 中国科学院遥感应用研究所 一种特征字符串识别方法及系统
US20120323967A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Spelling Using a Fuzzy Pattern Search
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
CN103077389B (zh) * 2013-01-07 2016-08-03 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
US9171207B1 (en) * 2013-03-15 2015-10-27 Peter L Olcott Method and system for recognizing machine generated character glyphs in graphic images
US9922311B2 (en) * 2013-03-15 2018-03-20 Mastercard International Incorporated Account mask identifier apparatus, method, and computer program product
US9305245B2 (en) * 2013-05-07 2016-04-05 Xerox Corporation Methods and systems for evaluating handwritten documents
US9704097B2 (en) 2015-05-29 2017-07-11 Sas Institute Inc. Automatically constructing training sets for electronic sentiment analysis
US9595002B2 (en) 2015-05-29 2017-03-14 Sas Institute Inc. Normalizing electronic communications using a vector having a repeating substring as input for a neural network
US9552547B2 (en) * 2015-05-29 2017-01-24 Sas Institute Inc. Normalizing electronic communications using a neural-network normalizer and a neural-network flagger
US20170337225A1 (en) * 2016-05-23 2017-11-23 Informatica Llc Method, apparatus, and computer-readable medium for determining a data domain of a data object
US10685279B2 (en) * 2016-09-26 2020-06-16 Splunk Inc. Automatically generating field extraction recommendations
US10909140B2 (en) 2016-09-26 2021-02-02 Splunk Inc. Clustering events based on extraction rules
CN106951832B (zh) * 2017-02-28 2022-02-18 广东数相智能科技有限公司 一种基于手写字符识别的验证方法及装置
CN107358148B (zh) * 2017-05-24 2022-04-29 广东数相智能科技有限公司 一种基于手写识别的防作弊网络调研的方法及装置
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品
CN109871161B (zh) * 2017-12-01 2021-08-17 腾讯科技(深圳)有限公司 聊天应用中的字体处理方法及装置、电子设备
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
US11227176B2 (en) * 2019-05-16 2022-01-18 Bank Of Montreal Deep-learning-based system and process for image recognition
US11347733B2 (en) * 2019-08-08 2022-05-31 Salesforce.Com, Inc. System and method for transforming unstructured numerical information into a structured format
CN110443251A (zh) * 2019-08-13 2019-11-12 树根互联技术有限公司 仪表图像识别方法及装置
KR20210034869A (ko) 2019-09-23 2021-03-31 한국전력공사 수기 표 이미지의 디지털 이미지 변환 방법
CN111339771B (zh) * 2020-03-09 2023-08-18 广州深声科技有限公司 一种基于多任务多层级模型的文本韵律预测方法
CN111833660B (zh) * 2020-06-17 2023-01-31 胡屹 一种汉字学习实现系统
CN111783695B (zh) * 2020-07-06 2022-06-07 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备及存储介质
CN111985208B (zh) * 2020-08-18 2024-03-26 沈阳东软智能医疗科技研究院有限公司 一种实现标点符号填充的方法、装置及设备
CN115758990A (zh) * 2022-10-14 2023-03-07 美的集团(上海)有限公司 文本的规范化方法、装置、存储介质和电子设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3755780A (en) * 1971-06-28 1973-08-28 Pattern Analysis & Recognition Method for recognizing characters
US4731857A (en) * 1984-06-29 1988-03-15 International Business Machines Corporation Recognition system for run-on handwritten characters
US4837842A (en) * 1986-09-19 1989-06-06 Holt Arthur W Character and pattern recognition machine and method
US4864618A (en) * 1986-11-26 1989-09-05 Wright Technologies, L.P. Automated transaction system with modular printhead having print authentication feature
JPH0290384A (ja) * 1988-09-28 1990-03-29 Ricoh Co Ltd 文字認識装置の後処理方式
US5051736A (en) * 1989-06-28 1991-09-24 International Business Machines Corporation Optical stylus and passive digitizing tablet data input system
US5151950A (en) * 1990-10-31 1992-09-29 Go Corporation Method for recognizing handwritten characters using shape and context analysis
CA2077970C (en) * 1991-11-19 1999-02-23 Daniel P. Huttenlocher Optical word recognition by examination of word shape
US5852434A (en) * 1992-04-03 1998-12-22 Sekendur; Oral F. Absolute optical position determination
US5477012A (en) * 1992-04-03 1995-12-19 Sekendur; Oral F. Optical position determination
JPH07182462A (ja) * 1993-12-22 1995-07-21 Toshiba Corp 文字認識装置及び方法
DE4407998C2 (de) * 1994-03-10 1996-03-14 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
US20050192727A1 (en) * 1994-05-09 2005-09-01 Automotive Technologies International Inc. Sensor Assemblies
US7103460B1 (en) * 1994-05-09 2006-09-05 Automotive Technologies International, Inc. System and method for vehicle diagnostics
US5652412A (en) * 1994-07-11 1997-07-29 Sia Technology Corp. Pen and paper information recording system
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置
US5661506A (en) * 1994-11-10 1997-08-26 Sia Technology Corporation Pen and paper information recording system using an imaging pen
JPH08180137A (ja) * 1994-12-26 1996-07-12 Hitachi Ltd 文字入力装置
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
US5706364A (en) * 1995-04-28 1998-01-06 Xerox Corporation Method of producing character templates using unsegmented samples
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
US6081261A (en) 1995-11-01 2000-06-27 Ricoh Corporation Manual entry interactive paper and electronic document handling and processing system
EP0896704A1 (de) * 1996-03-08 1999-02-17 Motorola, Inc. Verfahren und vorrichtung zur erkennung handgeschriebener zeichen
US5692073A (en) * 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique
TW421764B (en) 1996-05-21 2001-02-11 Hitachi Ltd Input character string estimation and identification apparatus
US5796867A (en) * 1996-06-12 1998-08-18 Industrial Technology Research Institute Stroke-number-free and stroke-order-free on-line Chinese character recognition method
JPH10302025A (ja) 1997-04-25 1998-11-13 Casio Comput Co Ltd 手書き文字認識装置およびそのプログラム記録媒体
US6518950B1 (en) 1997-10-07 2003-02-11 Interval Research Corporation Methods and systems for providing human/computer interfaces
US6092065A (en) * 1998-02-13 2000-07-18 International Business Machines Corporation Method and apparatus for discovery, clustering and classification of patterns in 1-dimensional event streams
JPH11259088A (ja) * 1998-03-13 1999-09-24 Science Univ Of Tokyo 音声認識方法及び音声認識装置並びに記録媒体
JPH11282842A (ja) * 1998-03-30 1999-10-15 Brother Ind Ltd 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体
WO1999050751A1 (en) 1998-04-01 1999-10-07 Xerox Corporation Routing document identifiers
JP2000036008A (ja) 1998-07-17 2000-02-02 Casio Comput Co Ltd 文字認識装置及び記憶媒体
JP2000090201A (ja) * 1998-09-11 2000-03-31 Masaki Nakagawa バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置
US6249605B1 (en) * 1998-09-14 2001-06-19 International Business Machines Corporation Key character extraction and lexicon reduction for cursive text recognition
US6964374B1 (en) * 1998-10-02 2005-11-15 Lucent Technologies Inc. Retrieval and manipulation of electronically stored information via pointers embedded in the associated printed material
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6678415B1 (en) * 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
WO2002037933A2 (en) * 2000-11-08 2002-05-16 New York University System, process and software arrangement for recognizing handwritten characters
JP4136316B2 (ja) * 2001-01-24 2008-08-20 富士通株式会社 文字列認識装置
US7089099B2 (en) * 2004-07-30 2006-08-08 Automotive Technologies International, Inc. Sensor assemblies

Also Published As

Publication number Publication date
WO2003034326A1 (en) 2003-04-24
US7881536B2 (en) 2011-02-01
US7444021B2 (en) 2008-10-28
JP4568774B2 (ja) 2010-10-27
EP1446763B1 (de) 2008-02-27
US8285048B2 (en) 2012-10-09
US20080193021A1 (en) 2008-08-14
US20050226512A1 (en) 2005-10-13
US7532758B2 (en) 2009-05-12
AUPR824601A0 (en) 2001-11-08
CN1571980A (zh) 2005-01-26
DE60225317D1 (de) 2008-04-10
EP1446763A1 (de) 2004-08-18
IL161379A (en) 2011-06-30
EP1446763A4 (de) 2006-05-31
US20100278430A1 (en) 2010-11-04
CA2463127A1 (en) 2003-04-24
IL161379A0 (en) 2004-09-27
US20110293186A1 (en) 2011-12-01
JP2008243227A (ja) 2008-10-09
US8000531B2 (en) 2011-08-16
KR100630886B1 (ko) 2006-10-02
JP2005505869A (ja) 2005-02-24
CA2463127C (en) 2009-09-22
ATE387677T1 (de) 2008-03-15
KR20050036857A (ko) 2005-04-20
US20090022399A1 (en) 2009-01-22
US7756336B2 (en) 2010-07-13
AU2002333063B2 (en) 2007-09-06
US20110091110A1 (en) 2011-04-21

Similar Documents

Publication Publication Date Title
DE60225317T2 (de) Zeichenkettenidentifikation
Amin Off-line Arabic character recognition: the state of the art
AU2002333063A1 (en) Character string identification
Sinha et al. Hybrid contextural text recognition with string matching
DE112010005297T5 (de) Suchvorrichtung und Suchprogramm
Ishitani Model-based information extraction method tolerant of OCR errors for document images
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
Pratap et al. A review of Devnagari character recognition from past to future
CN112380346A (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
Meddeb et al. Hybrid modelling of an off line Arabic handwriting recognition system: results and evaluation
Doughman et al. Time-aware word embeddings for three Lebanese news archives
US20140093173A1 (en) Classifying a string formed from hand-written characters
CN109635046B (zh) 一种基于CRFs的蛋白质分子名称分析与识别方法
Bataineh A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition.
Oprean et al. Handwritten word recognition using Web resources and recurrent neural networks
Wei et al. Word image representation based on sequence to sequence model with attention mechanism for out-of-vocabulary keyword spotting
Radaideh et al. Existing Techniques in Arabic Characters Recognition (ACR).
Deepa et al. A Novel Approach to Recognize Handwritten Telugu Words Using Character Level CNN
Abdul-Rahaim Design Proposed Features Extraction Recognition System of Latin Handwritten Text Based on 3D-Discrete Multiwavelet Transform
CN114840664A (zh) 语料冗余去除方法、装置、计算机设备和存储介质
Parvez et al. Linguistic Descriptors for Arabic Sub-Words Conjugation and Recognition
Ma et al. Segmenting and Tagging Structured Content
Lucas et al. Robust Word Recognition for Museum Index Cards with the SNT-Grid
Lucas Spatially aware rapid retrieval system (SPARRS)
WO2008080560A2 (de) Verfahren zur rechnergestützten ermittlung einer zeichenfolgen-ähnlichkeit

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: NAPPER, J. L., BALMAIN, NEW SOUTH WALES 2041, AU

8364 No opposition during term of opposition