-
Die Erfindung betrifft ein Verfahren
zum Steuern des Betriebs eines Telephons, insbesondere eines Mobiltelephons,
das in einem Zellennetz verwendet wird. Die Erfindung betrifft insbesondere
ein Verfahren zum Ausführen
einer automatischen Prüfung
und der Korrektur in der Aufbauphase einer Telephonverbindung. Der
beispielhafte Telephonapparat, bei dem die Erfindung angewendet
wird, wird nachfolgend als Mobiltelephon bezeichnet, mit dem Telephonapparate
(z. B. Handtelephone) in einem Zellennetz gemeint sind. Die Erfindung
als solche ist in keiner Weise auf Mobiltelephone beschränkt, sondern
kann auch auf Telephone des Kabelnetzes angewendet werden.
-
Das endungsgemäße Verfahren betrifft die Implementierung
einer Anwenderschnittstelle eines Telephonapparats, wobei nachfolgend
eine Anwenderschnittstelle, die das erfindungsgemäße Verfahren
ausführt, als
erfindungsgemäße Anwenderschnittstelle
bezeichnet wird. Es kann vorteilhaft auf die Sprachsteuerung von Telephonen
angewendet werden, die anschließend
als ein Beispiel der Implementierung der Erfindung verwendet wird.
Die Erfindung ist jedoch nicht auf sprachgesteuerte Anwenderschnittstellen
beschränkt,
sie kann auch bei Anwenderschnittstellen verwendet werden, die auf
Drucktastenbefehlen basieren.
-
Die Sprachsteuerung von Telephonen
ist an sich keine neue Erfindung. Wenn ein Mobiltelephon in einem
Fahrzeug verwendet wird, muß es
häufig
im Freisprechmodus betrieben werden können, wofür im Fahrzeug eine Freisprecheinrichtung
mit einem separaten Mikrophon und einem Lautsprecher vorhanden sein muß. Ein Fahrer,
der am Telephon spricht, kann während
des Anrufs beide Hände
zum Steuern des Fahrzeugs benutzen. Die Vorteile des Freisprechmodus
sind Komfort und erhöhte
Sicherheit. Wegen des Komforts bei der Verwendung werden Freisprecheinrichtungen
außerdem
im Bürobereich
als Freisprechinstallation am Schreibtisch verwendet.
-
Die Verwendbarkeit der Freisprecheinrichtung
wird durch die Tatsache beeinträchtigt,
daß dann,
wenn ein Anruf getätigt
werden soll, die Nummer gewöhnlich
unter Verwendung der Tastenfeld-Anwenderschnittstelle des Telephons
gewählt
werden muß.
Dasselbe gilt für
die Annahme eines Anrufs. Ein sprachgesteuertes Telephon eliminiert
dieses Problem, da die Tastenfeld-Anwenderschnittstelle des Telephons
nicht benötigt wird,
um einen Anruf herzustellen oder anzunehmen.
-
Im Stand der Technik sind verschiedene
unterschiedliche Arten der Implementierung einer sprachgesteuerten
Telephon-Anwenderschnittstelle bekannt. Diese Verfahren sind z.
B. in den US-Patenten Nr. 5.222.121 und 4.928.302 offenbart. Nachfolgend
werden sprachgesteuerte Anwenderschnittstellen hauptsächlich allgemein
sowie einige Einzelheiten von bestimmten Anordnungen erläutert.
-
Zwei gewöhnlich verwendete Konzepte,
die die sprachgesteuerte Telephon-Anwenderschnittstelle betreffen, sind
die Ziffernwahl und die Namenwahl. Bei der Namenwahl wählt der
Anwender eine Telephonnummer anhand einer im voraus aufgezeichneten
Sprachaufzeichnung aus. Die Sprachaufzeichnung entspricht einem
Namen, der der Telephonnummer zugeordnet ist, wodurch es möglich ist,
eine Nummer anhand es Namens des Besitzers der Nummer auszuwählen. Der
Sprachbefehl kann ein Wort oder mehrere Worte umfassen, z. B. "John" oder "John Smith".
-
Vor einem Namenwahlbefehl muß das Telephon
in eine Betriebsart eingestellt werden, in der es einen Namen erwartet.
Das kann entweder durch einen Sprachbefehl oder unter Verwendung
des Tastenfelds des Telephons erreicht werden. Bei einer Fahrzeuginstallation
ist es außerdem
möglich,
daß eine
zusätzliche
externe Steuereinrichtung vorhanden ist, z. B. in der Nähe des Lenkrads,
wodurch es einfach gemacht wird, den Namenwahl-Zustand zu aktivieren.
-
Ein wesentliches Merkmal der Namenwahl-Anwenderschnittstelle
ist die Trainingsphase, in der der Anwender die Namen, die den Nummern
zugeordnet sind, als Sprachnachrichten oder frequenz- und zeitcodierte
Signale im Telephonspeicher speichert. In Abhängigkeit von der Implementierung
der Anwenderschnittstelle ist es möglich, daß der Anwender einen Namen
mehrmals wiederholen muß,
um eine zuverlässige
Aufzeichnung für
die Spracherkennung herzustellen. In der Erkennungsphase vergleicht
das Telephon den gesprochenen Namenbefehl mit allen Aufzeichnungen
und wählt
anhand eines statistischen Vergleichs die Sprachaufzeichnung, die
mit dem Befehl am besten übereinstimmt.
-
Da bei der Erkennung immer ein Fehler
auftreten kann, verifiziert das Telephon den erkannten Namen gewöhnlich auf
irgendeine Art. Das erfolgt gewöhnlich
durch Wiedergabe der erkannten Sprachaufzeichnung und die Anforderung
einer Anwenderverifizierung. Wenn das Telephon die Sprachaufzeichnung
wiedergegeben hat, die es anhand der Erkennung gefunden hat, wird
erwartet, daß der
Anwender eine Bestätigung
oder eine negative Antwort gibt. Wenn die Erkennung korrekt war,
sagt der Anwender z. B. "ja", wodurch das Telephon
beginnt, die Verbindung herzustellen. Wenn die Erkennung andernfalls
falsch war, sagt der Anwender z. B. "nein",
wodurch ein Telephon des Standes der Technik gewöhnlich zum Anfangszustand der
Namenwahl zurückkehrt.
Zu diesem Betriebsverfahren ist eine Verbesserung bekannt, die im
US-Patent Nr. 4.928.302 offenbart wurde, bei der der Anwender eine
korrekte Erkennung nicht mit einer bestätigenden Antwort wie "ja" verifizieren muß, da das
Telephon, nachdem es die Aufzeichnung wiedergegeben hat, die es
als Ergebnis der Erkennung gefunden hat, entweder sofort oder nach
einer kurzen Verzögerung
beginnt, die Verbindung aufzubauen. Wenn die Erkennung falsch war,
kann der Anwender während
der Verzögerung
oder sogar während des
Anrufaufbaus den Anruf annullieren. Außerdem ist vom US-Patent Nr.
5.222.121 eine Verbesserung an dem erläuterten Verfahren bekannt,
bei der das Telephon bei der Erkennung mehrere Erkennungsergebnisse auswählt und
das erste Ergebnis, das mit der Erkennung am besten übereinstimmt,
wiedergibt. Wenn der Anwender auf diese Wiedergabe eine negative
Antwort gibt, wählt
das Telephon das Ergebnis aus, das die zweibeste Übereinstimmung
mit der Erkennung darstellt. Im Hauptanspruch des US-Patents Nr.
5.222.121 ist diese Funktion verallgemeinert, so daß das Telephon
als Reaktion auf jede Wiederholung eines bestimmten Sprachbefehls
den nächstbesten
Kandidaten als Sprachwiedergabe und/oder auf der Anzeige angibt,
wenn die Kandidaten in einer Reihenfolge angeordnet wurden.
-
Bei der Ziffernwahl wählt der
Anwender eine Telephonnummer aus, indem ein Sprachbefehl verwendet wird,
der eine Reihe von Ziffern enthält.
Mit anderen Worten ausgedrückt,
die Nummer wird in das Telephon gesprochen, das die Ziffernreihe
erkennt und eine Verbindung mit der Telephonnummer herstellt, die
es erkannt hat. Bevor die Telephonnummer ausgesprochen wird, muß das Telephon
in eine Betriebsart versetzt werden, in der es eine Nummer erwartet.
Das kann entweder durch einen Sprachbefehl oder unter Verwendung
der Drucktasten auf dem Tastenfeld des Telephons erreicht werden.
Bei einer Fahrzeuginstallation ist es außerdem möglich, daß eine zusätzliche externe Steuereinrichtung,
z. B. in der Nähe
des Lenkrads vorhanden ist, durch die es möglich ist, den Ziffernwahl-Zustand
einfach zu aktivieren.
-
Da nicht alle Telephonnummern gleich
lang sind, muß der
Anwender die Ziffernreihe mit einem Befehlswort (z. B. "wählen") beenden, um das Telephon zu informieren,
daß die
Telephonnummer keine weiteren Ziffern enthält. Das Telephon könnte diese
Schlußfolgerung
im Prinzip aus der Stille ziehen, die der Aussprache von Ziffern
folgt, ein derartiges Verfahren hat jedoch insbesondere in einer
geräuschvollen
Umgebung Verzögerungen
und Unsicherheit zur Folge. Im Stand der Technik werden tatsächlich ausschließlich Verfahren verwendet,
bei denen ein Befehlswort die Nummer beendet. Deswegen könnte ein
Befehl zur Ziffernwahl z. B. lauten "neun drei eins zwei zwei drei zwei drei
vier drei wählen".
-
Sprachgesteuerte Telephone, die Ziffernwahl
verwenden, unterscheiden sich bedeutend von anderen Telephonen.
Bei dem am häufigsten
verwendeten Verfahren müssen
die Ziffern getrennt mit einer kurzen Pause zwischen den einzelnen
Ziffern ausgesprochen werden. Ein derartiges Erkennungsverfahren
wird als Erkennung isolierter Worte bezeichnet. Ein weiteres Verfahren
besteht darin, die gesamte Ziffernfolge ohne Pausen auszusprechen;
ein derartiges Verfahren wird als Erkennung verbundener Worte bezeichnet.
Für die
Spracherkennungseinheit eines Telephons ist die Erkennung einzelner
Ziffern viel einfacher als die Erkennung ganzer Ziffernfolgen, bei
denen die Übergangspunkte
zwischen einzelnen Ziffern unbekannt sind. Für den Anwender ist jedoch das
Aussprechen verbundener Ziffern die natürlichere An der Auswahl von
Telephonnummern.
-
Bei Anwenderschnittstellen des Standes
der Technik, die auf der Ziffernwahl basieren, ist der wichtigste
Faktor, der die korrekte Erkennung einer Telephonnummer beeinflusst,
die Wahrscheinlichkeit einer korrekten Erkennung einer einzelnen
Ziffer durch das Telephon. Die Wirkung dieser Wahrscheinlichkeit
kann am folgenden Beispiel erläutert
werden: Es wird angenommen, daß ein
Anwender eine vollständige
willkürliche neunstellige
Telephonnummer diktiert, und es wird ferner angenommen, daß die Spracherkennungseinheit
im Telephon lediglich auf der Grundlage von Schätzungen arbeitet, wobei die
Wahrscheinlichkeit der korrekten Erkennung einer einzelnen Ziffer
0,1 beträgt.
Die Wahrscheinlichkeit dafür,
daß das
Telephon die gesamte neunstellige Folge korrekt erkennt beträgt (0,9)9 = 10–9, oder eins zu einer
Milliarde. Selbst wenn die Spracherkennungseinheit so verbessert
wird, daß die
Wahrscheinlichkeit der Erkennung einer einzelnen Ziffer 0,8 oder 80%
beträgt,
liegt die Wahrscheinlichkeit einer korrekten Erkennung der gesamten
neunstelligen Folge trotzdem bei mäßigen 13% (0,89 ≈ 0,134).
-
Vom Standpunkt des Anwenders ist
es frustrierend, wenn ein sprachgesteuertes Telephon durchschnittlich
nur jede siebte Telephonnummer korrekt erkennt. Ein ähnliches
Problem entsteht in Verbindung mit einer Anwenderschnittstelle,
die auf Drucktastenbefehlen basiert, insbesondere bei vergeßlichen
oder ungeschickten Anwendern: Obwohl das Telephon die Drucktastenbefehle
mit einer Wahrscheinlichkeit von 100% erkennt, kann der Anwender
die Telephonnummer oder die entsprechende alphanumerische Zeichenfolge falsch
erinnern oder eine falsche Taste drücken.
-
Es ist eine Aufgabe dieser Erfindung,
den Komfort bei der Verwendung des Telephons zu verbessern. Es ist
außerdem
eine Aufgabe der Erfindung, die Zuverlässigkeit und die Geschwindigkeit
des Wählens
zu verbessern. Es ist eine weitere Aufgabe der Erfindung, die Wahrscheinlichkeit
der korrekten Erkennung einer Telephonnummer in einer sprachgesteuerten
Anwenderschnittstelle zu verbessern. Eine weitere Aufgabe der Erfindung
besteht darin, vom Anwender gemachte Fehler beim Aufbau einer Telephonverbindung
zu korrigieren.
-
Diese Aufgaben der Erfindung werden
erreicht durch eine Funktion, bei der der Anwender eine bestimmte
Anzahl von allen möglichen
Teilnehmern, die angerufen werden können, als Basismenge für die Erkennung
durch das Telephon definieren kann.
-
Für
das erfindungsgemäße Verfahren
zum Steuern eines Telephonapparats, der eine Steuereinheit und Speichermittel
enthält,
ist es kennzeichnend, daß der
Anwender einen Prüfbefehl
an den Telephonapparat liefert und die Steuereinheit als Reaktion
auf den Prüfbefehl
die Zeichenfolge, die vom Anwender geliefert wird, mit den in den
Speichermitteln gespeicherten Zeichenfolgen vergleicht und für den Aufbau
der Telephonverbindung jene Zeichenfolge unter den in den Speichermitteln
gespeicherten, verglichenen Zeichenfolgen auswählt, die mit der von dem Anwender
gelieferten Zeichenfolge am besten übereinstimmt.
-
Für
den erfindungsgemäßen Telephonapparat,
der eine Steuereinheit und Speichermittel enthält, ist kennzeichnend, daß er außerdem enthält:
- – Mittel
die einen Prüfbefehl
von dem Anwender an die Steuereinheit liefern,
- – Mittel,
die in Reaktion auf den Prüfbefehl
eine vom Anwender bereitgestellte Zeichenfolge mit entsprechenden,
in den Speichermitteln gespeicherten Zeichenfolgen vergleichen,
und
- – Mittel,
die für
den Aufbau einer Telephonverbindung jene Zeichenfolge unter den
in den Speichermitteln gespeicherten, verglichenen Zeichenfolgen
auswählen,
die mit der von dem Anwender an den Telephonapparat gelieferten
Zeichenfolge am besten übereinstimmt.
-
Die Erkennung einer Telephonnummer
ist wesentlich einfacher, wenn die an das Telephon gelieferte Telephonnummer
zu einer vorgegebenen verhältnismäßig kleinen
Menge gehört.
Das wird durch das folgende Beispiel erläutert: Es wird angenommen,
daß der
Anwender einer sprachgesteuerten Anwenderschnittstelle weiß, daß die von
ihm diktierte neunstellige Telephonnummer eine von hundert im Speicher
des Telephons gespeicherten Telephonnummern ist. Mit den im Speicher
befindlichen oder dort gespeicherten Telephonnummern sind alle jene
Telephonnummern gemeint, die auf irgendeine Weise dem Telephon bekannt
sind und die durch die elektrische Einheit, die das Telephon steuert,
verarbeitet werden können.
Nachdem der Anwender die Nummer diktiert hat, zeigt er dem Telephon
an, daß die
in dem Speicher gespeicherten Telephonnummern als Basismenge für die Erkennung
verwendet werden sollen. Selbst wenn die Erkennung auf reiner Schätzung basiert,
hat sich die Wahrscheinlichkeit einer korrekten Erkennung bereits
auf 1/100 = 10–2 verbessert, oder sie ist
10 Millionen Mal besser als bei der Erkennung einer allgemeinen
Zeichenfolge. Mit einem weiterentwickelten Erkennungsalgorithmus
und unter Verwendung der Telephonnummern im Speicher als Basismenge
kann die Wahrscheinlichkeit der korrekten Erkennung beträchtlich
verbessert werden.
-
In ähnlicher Weise kann in einer
Telephon-Anwenderschnittstelle, bei der der Anwender den angerufenen
Teilnehmer auswählt,
indem er eine Telephonnummer oder eine entsprechende alphanumerische
Zeichenfolge an das Telephon liefert, ein kleiner Fehler, wie etwa
ein Zeichen, korrigiert werden. Bei dem erfindungsgemäßen Betrieb
weist der Anwender das Telephon an, daß es die Erkennung für die vom
Anwender eingegeben Zeichenfolge unter Verwendung der im Speicher
gespeicherten Basismenge von Zeichenfolgen ausführen soll, und das Telephon
sucht die Zeichenfolge aus dem Speicher, die mit der von dem Anwender gelieferten
Zeichenfolge am besten übereinstimmt.
-
Wenn das Telephon die Nummer des
Teilnehmers, der angerufen werden soll, erkannt hat und diese entweder
durch Sprache oder auf der Anzeige zur Prüfung wiedergegeben hat, kann
der Anwender dann, wenn er einen Fehler bemerkt, einen separaten
Befehl (z. B. "Prüfen") geben, woraufhin
das Telephon die erkannte falsche Nummer mit allen Nummern in seinem
Speicher vergleicht und die Nummer im Speicher auswählt, die
mit der erkannten falschen Nummer am besten übereinstimmt.
-
In einer weiteren Version des gleichen
Verfahrens kann der Anwender bereits beim Diktieren einer zu wählenden
Nummer die Zeichenfolge mit einem separaten Befehl (z. B. "Prüfen") beenden, auf Grundlage
dessen das Telephon weiß,
daß eine
bestimmte Nummer bereits im Speicher des Telephons ist. Wenn die
Erkennung ausgeführt
wird, wird das Telephon keine Nummern berücksichtigen, die nicht in seinem
Speicher gespeichert sind, wodurch sich die Möglichkeit von Erkennungsfehlern
verringert.
-
Der Betrieb eines Telephonapparats
unter Verwendung einer erfindungsgemäßen Anwenderschnittstelle wird
nachfolgend anhand eines Beispiels und unter Bezugnahme auf die
beigefügte
Zeichnung genau beschrieben, in der:
-
1 ein
Zustandsdiagramm ist, das die höchste
Hierarchieebene im Betrieb einer Anwenderschnittstelle des sprachgesteuerten
Telephons gemäß dem Stand
der Technik darstellt;
-
2 ein
Zustandsdiagramm ist, das den Betrieb einer Anwenderschnittstelle
des sprachgesteuerten Telephons gemäß dem Stand der Technik bei
der Ziffernwahl darstellt;
-
3 ein
Zustandsdiagramm ist, das den Übergang
eines sprachgesteuerten Telephonapparats über den Unterbrechungszustand
in den Grundzustand gemäß einem
bekannten Prinzip darstellt;
-
4 ein
Zustandsdiagramm ist, das den Betrieb einer Anwenderschnittstelle
des sprachgesteuerten Telephons in bezug auf die Verbesserung gemäß der Erfindung,
d. h. die Verbesserung der Wahrscheinlichkeit der Telephonnummernerkennung
darstellt;
-
5 ein
Zustandsdiagramm ist, das den Übergang
eines sprachgesteuerten Telephonapparats über eine Verzögerung in
den Grundzustand gemäß einem
bekannten Prinzip darstellt; und
-
6 ein
Blockschaltplan eines Telephonapparats ist, bei dem es möglich ist,
das erfindungsgemäße Telephon
zu verwenden.
-
Um den Hintergrund der Erfindung
zu erläutern,
wird nachfolgend zuerst der Betrieb einer Anwenderschnittstelle
des sprachgesteuerten Telephons gemäß dem Stand der Technik unter
Bezugnahme auf die 1 bis 3 und 5 beschrieben. Die Anwenderschnittstelle
ist unter Verwendung einer Darstellung des hierarchischen Zustandsdiagramms
dargestellt. Jeder einzelne Zustand ist durch ein Rechteck dargestellt,
das in seinem schattierten oberen Teil eine Bezeichnung enthält, die
den Zustand identifiziert. Wenn eine bestimmte Zustandsbezeichnung
in verschiedenen Figuren oder an unterschiedlichen Stellen in einer
Figur erscheint, bezieht sie sich auf ein und denselben Zustand.
Der weiße
untere Teil des Rechtecks enthält
häufig
einen Code, der dem Telephondialog entspricht. Beim Eintritt in
einen solchen Zustand spricht das Telephon den Dialog, der dem Code
entspricht. Wenn kein Code angegeben ist, bleibt das Telephon beim
Eintritt in den fraglichen Zustand still. Die Codierung des Dialogs
des Telephons ist in Tabelle 1 gezeigt.
-
Zustandsübergänge sind durch Pfeile und zugehörige Kreise
dargestellt. Wenn der Kreis weiß ist,
erfolgt der Übergang
direkt infolge des Anwenderdialogs. Der Code in einem Kreis gibt
den Anwenderdialog an, der den Übergang
betrifft. Es soll jedoch hervorgehoben werden, daß ein Übergang
nur dann erfolgt, wenn das Telephon den Anwenderdialog korrekt erkennt.
In diesem Fall macht das Telephon eine Zustandübergangsentscheidung anhand
der Schlußfolgerung
aus dem Anwenderdialog. Die Codierung der Anwenderdialoge ist in
Tabelle 2 gezeigt. Wenn ein Kreis schattiert ist, erfolgt der Übergang
nicht anhand eines Anwenderdialogs. Der Code im Kreis gibt die Bedingung
an, bei der der Übergang
erfolgt. Die anderen Übergangsbedingungen sind
in Tabelle 3 gezeigt.
-
Die Figuren zeigen außerdem Zustände und Übergänge, die
für die
Erfindung nicht relevant sind und die in der nachfolgenden Beschreibung
nicht bezeichnet werden, die jedoch als eine Angabe dafür gezeigt
werden, wie die erfindungsgemäßen Funktionen
die weiteren Funktionen des Telephons betreffen.
-
1 zeigt
die höchste
Hierarchieebene der Anwenderschnittstelle. Anfangs ist das Telephon
im Zustand 1 "Normales
Telephon". In diesem
Zustand funktioniert das Telephon als ein normales Mobiltelephon
und kann nicht mit Sprachbefehlen gesteuert werden. Um die Verwendung
der Sprachbefehle zu ermöglichen,
muß das
Telephon in die geeignete Betriebsart versetzt werden. Das wird
durch die Drucktastenfolge Nr. 1 erreicht, wodurch bewirkt wird,
daß das
Telephon in den Zustand 2 "Sprachsteuerung" eintritt. Im Zustand 2 "Sprachsteuerung" antwortet das Telephon
mit "Sprachsteuerung
aktiv", woraufhin
es sofort in den Zustand 3 "Kernzustand" eintritt. Der Zustand 3 "Kernzustand" ist der Grundzustand
der sprachgesteuerten Anwenderschnittstelle, d. h. der Zustand,
in den das Telephon immer zurückkehrt,
nachdem z. B. ein Anruf beendet wurde oder nach bestimmten anderen
Aktionen.
-
Im Zustand 3 "Kernzustand" kann der Anwender
verschiedene Aktionen mittels Sprachbefehlen beginnen. Mit dem Befehl "Wählen durch Nummer" kann der Anwender
unter Verwendung eines Sprachbefehls, der eine Ziffernfolge enthält, einen
Anruf einleiten. Eine derartige Operation ist in 2 dargestellt.
-
Zuerst bewirkt der Befehl "Wählen durch Nummer" einen Übergang
zum Zustand 4 "Ziffernwahl". Wenn dieser Zustand
begonnen wird, antwortet das Telephon "Nummer bitte". Der Anwender kann nun die vollständige Nummer
sagen, wobei sie mit dem Befehl "Wählen" beendet wird, z.
B. "neun drei eins
drei eins sechs fünf
acht sieben sechs wählen". Dann folgen in
Abhängigkeit
davon, wie erfolgreich die Erkennung war, drei mögliche Zustandsübergänge.
-
Wenn die Erkennung als sicher betrachtet
wird, geht das Telephon in den Zustand 5 "Wählen <NS>". Beim Eintreten
in diesen Zustand antwortet das Telephon mit "Ich wähle" und gibt anschließend die Folge der erkannten
Ziffern wieder. Wenn der Anwender nicht mit dem Befehl "Annullieren" antwortet, wird
der Anruf hergestellt. Bei herkömmlichen
Verfahren wird der Anwender zur Verifikation der erkannten Nummer
aufgefordert, bei der fortschrittlicheren Anwenderschnittstelle
gemäß US-Patent
Nr. 5.222.121, das oben erläutert
wurde, ist das jedoch nicht erforderlich, wenn die Erkennung erfolgreich
war. Wenn der angerufene Teilnehmer den Hörer abnimmt, tritt das Telephon
in den Zustand 6 "Anruf
aktiv" ein, in dem
keine Sprachbefehle aktiv sind. Wenn der Anwender jedoch "Annullieren" sagt, wird der Anruf
nicht aufgebaut und das Telephon geht, wie in 3 gezeigt ist, in den Zustand 7 "Unterbrechung", woraufhin das Telephon
antwortet "Operation
unterbrochen". Daraufhin
folgt ein unmittelbarer Übergang
in den Zustand 2 "Sprachsteuerung", woraufhin das Telephon
antwortet "Sprachsteuerung
aktiv". Daraufhin
folgt ein sofortiger Übergang
zum Grundzustand der sprachgesteuerten Anwenderschnittstelle, d.
h. zum Zustand 2 "Kernzustand". Die Verwendung
des Befehls "Annullieren" ist in 3 gezeigt, die auf der linken
Seite alle Zustände
auflistet, in denen der Befehl "Annullieren" verwendet werden
kann. Die Folge von Aktionen, die durch den Befehl aufgerufen werden
kann, ist immer gleich. Es soll hervorgehoben werden, daß der Befehl "Annullieren" in fast allen Situationen
verwendet werden kann.
-
Die 3 und 5 zeigen außerdem den
Zustand 35 "Speicher
prüfen", der zu der Anordnung
der erfindungsgemäßen Anwenderschnittstelle
gehört,
seine Verwendung wird später
beschrieben.
-
Wenn die Erkennung als unsicher betrachtet
wird, folgt auf den Zustand 4 "Ziffernwahl", wie in 2 gezeigt
ist, der Zustand 8 "Verifizieren". Beim Eintritt in
diesen Zustand antwortet das Telephon "Lautete die Nummer" und listet das die erkannte Ziffernfolge
auf. Auf diese Weise kann der Anwender erkennen, daß bei der
Erkennung der Telephonnummer ein Fehler aufgetreten sein kann. Deswegen
muß der
Anwender beim Hören
der erkannten Ziffernfolge besonders aufmerksam sein. Nachdem der
Anwender die Reaktion des Telephons gehört hat, kann er entweder " ja" oder "nein" antworten. Wenn
der Anwender mit "ja" antwortet, folgt ein Übergang
zum Zustand 9 "Wählen". Beim Eintritt in
diesen Zustand antwortet das Telephon mit "Ich wähle" und der Anruf wird aufgebaut. Der Anwender
kann die Aktion wiederum unterbrechen, indem er "annullieren" sagt, bevor der angerufene Teilnehmer
den Hörer
abnimmt. Wenn der Anwender im Zustand 8 "Verifizieren" mit "nein" antwortet, geht
das Telephon in den Zustand 2 "Sprachsteuerung", von dem die Fortsetzung in der obenbeschriebenen
Weise erfolgt.
-
Wenn die Erkennung fehlgeschlagen
ist, geht das Telephon in den Zustand 10 "Ziffernwahl II". Dann antwortet
das Telephon "Nummer
noch einmal, bitte".
Die Zustände 10 "Ziffernwahl II" und 4 "Ziffernwahl" sind vollkommen
gleich außer
bei einer fehlgeschlagenen Erkennung. Bei einer fehlgeschlagenen
Erkennung folgt auf den Zustand 10 "Ziffernwahl II" der Zustand 11 "Ziffernwahl III". Beim Eintritt in
den Zustand 11 "Ziffernwahl III" antwortet das Telephon "Nummer noch einmal,
bitte". Die Zustände 11 "Ziffernwahl III" und 10 "Ziffernwahl II" sind vollkommen
gleich außer
bei einer fehlgeschlagenen Erkennung. Bei einer fehlgeschlagenen
Erkennung folgt auf den Zustand 11 "Ziffernwahl III" der Zustand 12 "Ziffernfehler". Beim Eintritt in
den Zustand 12 "Ziffernfehler" antwortet das Telephon
mit "Kann Nummer
nicht erkennen",
woraufhin ein sofortiger Übergang zum
Zustand 2 "Sprachsteuerung" folgt.
-
Viele der Zustände besitzen zeitliche Begrenzungen
und wenn diese Grenzen überschritten
werden, geht das Telephon automatisch in den Grundzustand der sprachgesteuerten
Anwenderschnittstelle, d. h. in den Zustand 3 "Kernzustand". Die Operation wird
in 5 erläutert. Der Übergang
erfolgt über
den Zustand 36 "Zeitüberschreitung". Beim Eintritt in
den Zustand 36 "Zeitüberschreitung" antwortet das Telephon
mit "Zeitüberschreitung", woraufhin ein sofortiger Übergang
zum Zustand 2 "Sprachsteuerung" folgt.
-
In 5 sind
auf der linken Seite die Zustände
aufgeführt,
die eine maximale Zeitüberschreitungsgrenze
von 5 Sekunden besitzen. Die Zeitüberschreitungsgrenze wird als überschritten
betrachtet, wenn der Anwender innerhalb von 5 Sekunden keinen Befehl
(oder eine zu speichernde Kennung) ausspricht. Im oberen Teil von 5 sind die Zustände aufgeführt, die
eine maximale Zeitüberschreitungsgrenze
von 10 Sekunden besitzen. Wenn der Anwender innerhalb von zehn Sekunden
kein Gespräch
beginnt, wird die Zeitüberschreitungsgrenze
als überschritten
betrachtet.
-
Die Rückkehr vom Grundzustand der
sprachgesteuerten Anwenderschnittstelle, d. h. vom Zustand 3 "Kernzustand" zum Telephonbetrieb
ohne Sprachsteuerung (Zustand 1 "Normales Telephon") kann entweder durch die Drucktastenfolge
Nr. 2 erfolgen oder dann, wenn eine einstellbare maximale Zeitüberschreitungsgrenze überschritten
wird. Der Übergang
ist in 1 gezeigt.
-
Es ist bekannt, daß eine nachträgliche Korrektur
der Telephonnummer unter Verwendung einer Reihe von Sprachbefehlen
sehr aufwendig ist. Sie hat sich tatsächlich als so aufwendig erwiesen,
daß eine
derartige Prozedur nicht in die Anwenderschnittstelle aufgenommen
wurde. Es wäre
jedoch andererseits recht einfach, eine Telephonnummer unter Verwendung
von lediglich einem Sprachbefehl zu korrigieren. Die Erfindung macht
eine derartige Operation möglich.
Anschließend
wird die erfindungsgemäße Korrektur
einer Telephonnummer unter Bezugnahme auf 4 erläutert.
-
4 ist
ein Zustandsdiagramm, das die Korrektur der Telephonnummer darstellt.
Die Korrektur kann auf zwei verschiedene Arten erfolgen. Bei der
ersten Art gibt der Anwender bereits beim Herstellen des Anrufs an,
daß das
Telephon den Speicher nach einer Ziffernfolge durchsuchen soll,
die mit der von dem Anwender gelieferten Telephonnummer am besten übereinstimmt.
Mit anderen Worten ausgedrückt,
die erkannte Ziffernfolge wird durch eine am besten übereinstimmende
Ziffernfolge, die im Speicher gefunden wird, ersetzt. Das erfolgt,
wenn der Anwender in den Zuständen 4 "Ziffernwahl", 10 "Ziffernwahl II" und 11 "Ziffernwahl III" die Ziffernfolge mit
dem Befehl "Prüfen" an Stelle des Befehls "Wählen" beendet. Nach einem Befehl "Prüfen" folgt ein Übergang
zum Zustand 35 "Speicher
prüfen", woraufhin das Telephon
mit "Ich wähle" antwortet und die Ziffernfolge
auflistet, die im Speicher gefunden wurde. Wenn daraufhin der Anwender
nicht mit dem Befehl "Annullieren" antwortet, wird
der Anruf aufgebaut. Der Zweck dieser Funktion besteht darin, die
Erkennungsaufgabe des Telephons einfacher zu gestalten, wodurch
die Wahrscheinlichkeit, die korrekte Telephonnummer zu finden, verbessert
wird.
-
Man kann außerdem einen Fall betrachten,
bei dem der Anwender sich erinnert, daß die Telephonnummer 931-1234
567 lautet, er sich jedoch nicht ganz sicher ist, ob er sich richtig
erinnert. Der Anwender erteilt dann einen Sprachbefehl "neun drei eins ein
zwei drei vier fünf
sechs sieben prüfen". Nach dem Befehl "Prüfen" erfolgt ein Übergang
zum Zustand 35 "Speicher
prüfen", woraufhin das Telephon
antwortet "Ich wähle" und die Ziffernfolge
auflistet, die im Speicher gefunden wurde. Wenn das Telephon die
vom Anwender gelieferte Nummer nicht findet, jedoch z. B. 931-1233
567 findet, antwortet es mit dem Dialog "Ich wähle neun drei eins eins zwei
drei drei fünf
sechs sieben". Wenn
der Anwender daraufhin nicht mit "Annullieren" antwortet, wird der Anruf aufgebaut.
-
Bei der zweiten Art kann der Anwender
den Befehl "Prüfen" außerdem in
den Zuständen 5 "Wählen <NS>" und "Verifizieren" verwenden, wodurch
die erkannte und wiedergegebene Ziffernfolge durch eine am besten übereinstimmende
Ziffernfolge ersetzt wird, die im Speicher gefunden wird. Der Befehl "Prüfen" bewirkt den Übergang
zum Zustand 35 "Speicher
prüfen" und die Prozedur
setzt sich in der obenbeschriebenen Weise fort.
-
Die obenbeschriebene sprachgesteuerte
Anwenderschnittstelle ist bidirektional, d. h. Sprachbefehle können an
das Telephon erteilt werden und das Telephon reagiert auf die Befehle
mit Antworten. Diese Antworten können
Sprachantworten sein, die in diesem Fall durch einen Sprachsynthesizer
erzeugt werden, oder sie können
im voraus im Speicher des Telephons aufgezeichnet worden sein. Ein
Sprachcodierverfahren kann vorteilhaft beim Speichern der Sprachantworten
verwendet werden, um den Umfang des für die Aufzeichnung benötigten Speichers
zu reduzieren. Das Telephon kann außerdem die Antworten geben,
indem ein anderes in der Technik bekanntes Angabeverfahren verwendet
wird, wie etwa eine Anzeigevorrichtung oder ein Signalton.
-
Das erfindungsgemäße Verfahren kann außerdem bei
einer einseitig gerichteten Anwenderschnittstelle angewendet werden,
bei der der Anwender vom Telephon keine Information bezüglich der
Wählprozedur empfängt. Wenn
ein derartiges Telephon an Stelle der vom Anwender gelieferten Nummer
die Nummer im Speicher auswählt,
die am besten übereinstimmt,
kann der Anwender lediglich nach dem Aufbau des Anrufs sicher wissen,
welche Nummer von ihm angerufen wurde.
-
Bei der erfindungsgemäßen Anwenderschnittstelle
kann entweder die Erkennung verbundener Worte oder die Erkennung
getrennter Worte oder beide Erkennungsarten verwendet werden.
-
Es ist für die Erfindung wesentlich,
daß ein
Telephon, das die erfindungsgemäße Anwenderschnittstelle
verwendet, einen Speicher enthält,
in dem Telephonnummern gespeichert werden. Mit Telephonnummern sind
alle Zeichen oder Zeichenfolgen gemeint, die in der Anrufaufbauphase
zum Identifizieren des angerufenen Teilnehmers verwendet werden.
Dieser Speicher kann auf viele Arten implementiert sein: Der Speicher kann
so beschaffen sein, daß er
einem Telephonbuch ähnlich
ist, wobei der Anwender dann in ihm die Nummern einzeln speichert.
Der Speicher kann außerdem
automatisch betrieben werden, so daß das Telephon Nummern in dem
Speicher speichert, zu denen ein erfolgreicher Anruf aufgebaut wurde.
Beide Speichertypen können
außerdem
parallel verwendet werden. Der Speicher kann vollständig unabhängig von
dem Sprachaufzeichnungsspeicher bestehen, der in Verbindung mit
dem sprachgesteuerten Wählen
verwendet wird.
-
In den obenbeschriebenen Beispielen
wurde ein Prüfbefehl "Prüfen" verwendet, anhand
dessen das Telephon die von dem Anwender gelieferte Telephonnummer
mit allen Telephonnummern im Speicher vergleicht. Eine zweite Ausführungsform
der Erfindung verwendet mehrere vom Anwender ausgegebene Befehle für den gleichen
Zweck. Es ist bekannt, daß ein
Telephonapparat in seinem Speicher eine Liste der bekanntesten oder
am häufigsten
verwendeten Telephonnummern führt,
d. h. eine Liste, in der die erste Telephonnummer die Nummer ist,
die am häufigsten
verwendet wurde, gefolgt von weiteren Nummern, die in einer Reihenfolge
auf Grundlage der Häufigkeit
ihrer Verwendung angeordnet sind. Gemäß der Erfindung kann der Anwender
an Stelle des Befehls "Prüfen" z. B. den Befehl "Meine Nummern" ausgeben, wodurch
das Telephon als Basismenge für
die Erkennung lediglich die zehn bekanntesten Telephonnummern verwendet.
In ähnlicher Weise
kann der Befehl "Letzte
Nummern" an Stelle
von "Prüfen" bewirken, daß das Telephon
als Basismenge für
die Erkennung lediglich eine bestimmte Anzahl der zuletzt verwendeten
Telephonnummern verwendet. Entsprechende Einschränkungen der Basismenge können auf
viele Arten ausgeführt
werden.
-
Im Voranstehenden wurden das erfindungsgemäße Verfahren
und eine Anwenderschnittstelle, die das erfindungsgemäße Verfahren
verwendet, für
einen Telephonapparat erläutert.
Gemäß den Ansprüchen, die später dargelegt
werden, betrifft die Erfindung außerdem einen Telephonapparat,
der das erfindungsgemäße Verfahren
verwendet. Ein vereinfachter Blockschaltplan des Telephonapparats
ist in 6 gezeigt. Er
enthält einen
Steuerblock CTRL 101, der den Betrieb des Telephonapparats
steuert, und einen Speicherblock MEM 102 in dem Telephonnummern,
Sprachaufzeichnungen und alphanumerische Zeichenfolgen gespeichert
werden können.
Der Anwender liefert Befehle und Zeichenfolgen als Sprache durch
ein Mikrophon 104 oder als Drucktastenbefehle über das
Tastenfeld 103 an den Telephonapparat. Um die Befehle zu
erkennen, enthält der
Telephonapparat einen Befehlszuordnerblock COMM.INT 105.
Zum Vergleichen der Zeichenfolgen und zum Auswählen der korrekten Zeichenfolge
auf erfindungsgemäße Weise
enthält
der Telephonapparat einen Vergleichsblock COMP 106 und
einen Auswahlblock PICK 107. Die Befehlszuordner-, Vergleichs-
und Auswahlblöcke 105 bis 107 und
ein Speicherverwaltungsblock MEM.MAN 112, der Telephonnummern
im Speicher speichert und sie vom Speicher liest, sind vorteilhaft
als Teil des Steuerblocks 101 implementiert. Für die Erzeugung
von Sprachsignalen enthält
der Telephonapparat einen Sprachsynthesizer SYNT 109 und
einen Lautsprecher 108. Für die Erzeugung von optischen
Signale enthält
der Telephonapparat einen Anzeigertreiberblock DISP 111 und
eine Anzeige 110.
-
Mit Hilfe der Erfindung wird die
Zuverlässigkeit
des Wählens
auf Grundlage der Spracherkennung verbessert und die Anwenderschnittstelle
wird anwenderfreundlicher gestaltet. Durch die Erfindung können neue anwenderfreundliche
Merkmale auch bei der Verwendung einer Anwenderschnittstelle auf
Grundlage von Drucktastenbefehlen eingeführt werden.
-
Tabelle
1 Codierung der Telephondialoge
-
Tabelle
2 Codierung der Anwenderdialoge
-
Tabelle
3 Codierung weiterer Übergangsbedingungen