WO1997010583A1

WO1997010583A1 - Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens

Info

Publication number: WO1997010583A1
Application number: PCT/EP1996/003939
Authority: WO
Inventors: Walter Stammler; Fritz Class; Carsten-Uwe Möller; Gerhard NÜSSLE; Frank Reh; Burkard BUSCHKÜHL; Christian Heinrich
Original assignee: Daimler-Benz Aerospace Aktiengesellschaft; Daimler-Benz Aktiengesellschaft
Priority date: 1995-09-11
Filing date: 1996-09-09
Publication date: 1997-03-20
Also published as: JPH11506845A; ES2170870T3; CA2231504A1; EP0852051B1; DE19533541C1; US6839670B1; EP0852051A1; ATE211572T1; DE59608614D1; CA2231504C; JP3479691B2

Abstract

Die Erfindung betrifft ein Sprachdialogsystem, bei dem ein Verfahren zur automatischen Steuerung von Geräten per Sprachdialog angewendet wird, das Verfahren zur Sprachausgabe, Sprachsignalvorverarbeitung und Spracherkennung, syntaktisch-grammatikalischer Nachverarbeitung sowie Dialog-, Ablauf- und Schnittstellensteuerung verwendet und dadurch gekennzeichnet ist, daß Syntax- und Kommandostruktur während des Echtzeit-Dialogbetriebs fixiert sind; Vorverarbeitung, Erkennung und Dialogsteuerung für Betrieb in geräuschbehafteter Umgebung ausgelegt sind; für die Erkennung allgemeiner Kommandos kein Training durch den Benutzer erforderlich ist; für die Erkennung spezifischer Kommandos einzelner Benutzer ein Training notwendig ist; die Eingabe von Kommandos verbunden erfolgt, wobei die Anzahl der Worte, aus denen ein Kommando für die Spracheingabe gebildet wird, variabel ist; eine echtzeitige Verarbeitung und Abwicklung des Sprachdialoges gegeben ist; die Sprachein- und -ausgabe im Freisprechbetrieb erfolgt.

Description

Beschreibung

Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echt¬ zeitbetrieb und Vorrichtung zum Ausführen des Verfahrens

Die Erfindung betrifft ein Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb gemäß Oberbegriff des Patentanspruchs 1 sowie eine Vorrichtung zum Ausführen des Verfahrens gemäß Oberbegriff des Patentanspruchs 46.

Verfahren bzw. Vorrichtungen dieser Art werden allgemein in sogenannten Sprachdialog- bzw. Sprachbediensystemen z.B. für Fahrzeuge, Computer Roboter, Maschinen, Anlagen usw. eingesetzt. Ein Sprachdialogsystem (SDS) läßt sich i.a. auf folgende Komponenten reduzieren:

• Spracherkennungssystem, das ein eingesprochenes Kommando ("Sprachkommando") mit anderen erlaubten Sprachkommandos vergleicht und eine Entscheidung trifft, welches Kommando aller Wahrscheinlichkeit nach eingesprochen wurde,

• Sprachausgabe, die die zur Benutzerführung erforderlichen Sprachbefehle und Signalisierungstöne ausgibt und ggf. das Erkennergebnis rückmeldet, • Dialog- und Ablaufsteuerung, um dem Benutzer zu verdeut¬ lichen, welche Art von Eingabe erwartet wird, bzw. um zu prüfen, ob die erfolgte Eingabe konsistent ist mit der Aufforderung und mit dem momentanen Status der Applika¬ tion, und um die resultierende Aktion bei der Applikation (z.B. dem zu steuernden Gerät) anzustoßen,

• Kontrollinterface als Schnittstelle zur Applikation: Dahinter verbergen sich Hard- und Softwaremodule, um ver¬ schiedene Aktuatoren bzw. Rechner anzusteuern, die die Applikation beinhalten, • Applikation, die per Sprache angesteuert wird:

Das kann z.B. ein Bestell- oder Auskunftsystem, ein CAE- Arbeitsplatz oder ein behindertengerechter Rollstuhl sein.

Die vorliegende Beschreibung konzentriert sich - ohne Ein¬ schränkung auf die allgemeine Anwendbarkeit der geschilder¬ ten Verfahren, Vorrichtungen und Abläufe - auf die Sprach¬ erkennung, die Dialogstruktur sowie auf eine spezielle Ap¬ plikation in Kraftfahrzeugen.

Die Schwierigkeiten bei bisher bekannten Lösungen liegen a) in der Notwendigkeit, ein aufwendiges Training durchzu¬ führen, um das System auf die Charakteristik des jewei¬ ligen Sprechers oder auf einen wechselnden Wortschatz anzupassen. Die Systeme sind entweder vollständig spre- cherunabhängig oder vollständig sprecherabhängig bzw. sprecheradaptiv, wobei letztere für jeden neuen Benut¬ zer einen Trainingslauf erfordern. Dies kostet Zeit und reduziert den Bedienkomfort bei häufig wechselnden Sprechern sehr stark. Aus diesem Grund ist bei herkömm- liehen Systemen auch der Vokabularumfang gering bei

Applikationen, wo mit wechselnden Sprechern und Zeitnot der einzelnen Sprecher zu rechnen ist,

b) in dem unzureichenden Bedienkomfort, der darin zum Aus- druck kommt, daß das Vokabular auf ein Minimum begrenzt ist, um hohe Erkennsicherheit zu garantieren, die Einzelworte eines Kommandos isoliert (d.h. mit Zwischenpausen) eingegeben werden, - Einzelworte quittiert werden müssen, um Fehler zu erkennen, - mehrstufige Dialoghierarchien abzuarbeiten sind, um vielfältige Funktionen zu steuern, ein Mikrofon in die Hand zu nehmen ist bzw. ein Headset (Kombination aus Kopfhörer und Lippenmikro¬ fon) getragen werden muß,

c) in der fehlenden Robustheit gegenüber Bedienfehlern - gegenüber störenden Umgebungsgeräuschen,

d) in der aufwendigen und teueren Hardware-Realisierung, vor allem bei mittleren und kleinen Stückzahlen. Die Aufgabe der Erfindung besteht darin, zum einen ein Ver¬ fahren anzugeben, mit dem mit möglichst geringem Aufwand ein oder mehrere Geräte durch Sprachkommandos oder per Sprachdialog zuverlässig im Echtzeitbetrieb gesteuert bzw. bedient werden können. Ferner soll eine geeignete Vorrich¬ tung angegeben werden, mit der das zu schaffende Verfahren ausgeführt werden kann.

Die erfindungsgemäße Lösung der Aufgabe ist in bezug auf das zu schaffende Verfahren durch die Merkmale des Patent¬ anspruchs 1 und in bezug auf die zu schaffende Vorrichtung durch die Merkmale des Patentanspruchs 46 wiedergegeben. Die übrigen Ansprüche enthalten vorteilhafte Aus- und Wei¬ terbildungen des erfindungsgemaßen Verfahrens (Ansprüche 2 bis 45) sowie der erfindungsgemäßen Vorrichtung (Ansprüche 47 bis 58) .

Der wesentliche Vorteil der Erfindung ist darin zu sehen, daß mit relativ geringem Aufwand eine zuverlässige Steue- rung bzw. Bedienung von Geräten per Sprachkommando bzw. per Sprachdialog im Echtzeitbetrieb möglich ist.

Ein weiterer wesentlicher Vorteil ist darin zu sehen, daß eine der natürlichen Sprechweise weitgehend angepaßte Ein- gäbe der Sprachkommandos bzw. Führung des Sprachdialogs mit dem System möglich ist und daß dem Sprecher hierfür ein umfangreiches Vokabular von zulässigen Kommandos zur Ver¬ fügung steht.

Ein dritter Vorteil ist darin zu sehen, daß das System feh¬ lertolerant arbeitet und in einer vorteilhaften Weiterbil¬ dung der Erfindung z.B. auch nichtzulässige Wörter, Namen, Laute oder Wortumstellungen in den vom Sprecher eingegebe¬ nen Sprachkommandos i.a. als solche erkennt und aus diesen eingegebenen Sprachkommandos von dem Sprecher an sich ge¬ wollte zulässige Sprachkommandos extrahiert. Im folgenden wird die Erfindung anhand der Figuren näher erläutert. Es zeigen

FIG. 1 das Blockschaltbild einer bevorzugten Ausfüh¬ rungsform der erfindungsgemäßen Vorrichtung zum Ausführen des erfindungsgemäßen Verfah¬ rens ("Sprachdialogsystem") ,

FIG. 2 eine detaillierte Darstellung des eigentli¬ chen Sprachdialogsystems gemäß FIG. 1,

FIG. 3 das Flußdiagramm zu einer bevorzugten Ausfüh- rungsform der Segmentierung der eingegebenen

Sprachkommandos für ein Sprachdialogsystem gemäß FIG. 2,

FIG. 4 und 5 Ausfuhrungsbeispiele von Hidden-Markov- Modellen,

FIG. 6 den hardwaremäßigen Aufbau eines bevorzugten Ausfuhrungsbeispiels des Sprachdialogsystems gemäß FIG. 2,

FIG. 7 das Zustandsdiagramm für die Anwendung des

Sprachdialogsystems gemäß FIG. 2 zur sprach¬ gesteuerten Bedienung eines Telefons,

FIG. 8 das Flußdiagramm zur Bedienung eines Telefons gemäß FIG. 7, FIG. 9 und 10 das Flußdiagramm zur Funktion "Namenswahl" (FIG. 9) bzw. "Nummernwahl" (FIG. 10) bei der Bedienung eines Telefons gemäß Flußdia¬ gramm nach FIG. 8.

Das im folgenden beschriebene Sprachdialogsystem (SDS) 1 in FIG. 1 umfaßt die Komponenten Spracheingabe (symbolisch dargestellt durch ein Mikrofon 2) , Spracherkennung, Dialog- und Ablaufsteuerung, Kommunikations- und Kontrollinterface, Sprachausgabe (mit angeschlossenem Lautsprecher 3) sowie (beispielhaft) eine Applikation, d.h. ein durch das SDS zu steuerndes bzw. zu bedienendes Gerät. SDS und Applikation bilden zusammen ein Sprachbediensystem (SBS) , das in Echt¬ zeit ("on-line") betrieben wird.

Die Syntax- und Dialogstruktur und die für alle Benutzer/ Sprecher verbindlichen Basissprachkommandos werden "off¬ line" außerhalb des SDS bzw. SBS (beispielhaft) mit Hilfe einer PC-Workstation im "off-line Dialog Editormodus" 4 er- stellt und fixiert und zusammen mit vorzugebenden Parame¬ tern und AblaufStrukturen dem SDS bzw. SBS vor Inbetrieb- name in Form von Datenfiles übergeben.

Das SDS 1 der FIG. 1 ist in FIG. 2 im Detail dargestellt. Ein (nicht gezeigtes) Mikrofon ist mit einem Analog/Digi¬ tal-Wandler verbunden, der über Vorrichtungen zur Echokom¬ pensation, Geräuschreduktion und Segmentierung mit einem sprecherunabhängigen Verbundwort-Spracherkenner und mit einem sprecherabhängigen Spracherkenner verbunden ist. Die beiden Spracherkenner sind ausgangsseitig mit einer Nach¬ verarbeitungseinheit zur syntaktisch-grammatikalischen und semantischen Verarbeitung der Erkenner-Ausgangssignale ver¬ bunden. Diese Einheit wiederum ist mit der Dialog- und Ablaufsteuerung verbunden, die ihrerseits die Steuerung des SDS und der durch das SDS zu steuernden Geräte bildet. Fer¬ ner ist eine Spracheingabe- und Sprachausgabeeinheit vorge¬ sehen, die aus einem Sprachencoder, einem Sprachdecoder und einem Sprachspeicher besteht.

Der Sprachencoder ist eingangsseitig an die Vorrichtung zur Geräuschreduktion und ausgangsseitig an den Sprachspeicher angeschlossen. Der Sprachspeicher ist ausgangsseitig an den Sprachdecoder angeschlossen, der ausgangsseitig über einen Digital/Analog-Wandler mit einem (nicht gezeigten) Laut¬ sprecher verbunden ist.

Die Vorrichtung zur Echokompensation ist über Schnittstel¬ len mit (nicht gezeigten) Geräten/Sensoren verbunden, die ggf. zu kompensierende Audiosignale liefern (in der Figur mit "Audio" bezeichnet.

Der sprecherunabhängige Verbundwort-Spracherkenner weist zum einen eine Einheit zur Merkmalsextraktion auf, in der die Cepstrumsbildung und die Adaption des Erkenners u.a. an die analoge Übertragungscharakteristik der eingehenden Si¬ gnale durchgeführt werden, und zum anderen eine nachge- schaltete Einheit zur Klassifikation.

Der sprecherabhängige Spracherkenner weist ebenfalls zum einen eine Einheit zur Merkmalsextraktion und zum anderen ein Einheit zur Klassifikation auf. Zusätzlich ist jedoch über einen Umschalter anstelle der Klassifikationseinheit eine Einheit zur Eingabe der sprecherspezifischen Zusatz- Sprachkommandos zuschaltbar, die in den Trainingsphasen vor, während oder nach dem Echtzeitbetrieb des SDS vom Er- kenner trainiert werden sollen. Der sprecherabhängige Er- kenner arbeitet z.B. nach dem Dynamic-Time-Warping(DTW) - Verfahren, nach dem dessen Klassifikationseinheit die Ab- stände zwischen dem zu erkennenden Kommando und vortrai¬ nierten Referenzmustern feststellt und das Referenzmuster mit dem geringsten Abstand als das zu erkennende Kommando identifiziert. Der sprecherabhängige Erkenner kann mit Me- thoden der Merkmalsextraktion arbeiten, wie sie in spre¬ cherunabhängigen Spracherkennern zur Anwendung kommen (Cepstrumsbildung, Adaption usw.) .

Ausgangsseitig sind die beiden Erkenner an die Nachverar- beitungseinheit zur syntaktisch-grammatikalischen und se¬ mantischen Verarbeitung der Erkenner-Ausgangssignale ange¬ schlossen (die Aufgabe und Funktion dieser Einheit wird weiter unten erläutert) . Ausgangsseitig ist der Nachverar¬ beitungseinheit die Dialogsteuerung nachgeschaltet, die mit der Ablaufsteuerung verbunden ist. Dialog- und Ablaufsteue¬ rung bilden zusammen die SDS-Steuerungseinheit, die sowohl die Vorverarbeitung, die Sprachein- und -ausgabeeinheit, die beiden Erkenner, die Nachverarbeitung, das Kommunika- tions- und Kontrollinterface wie auch die zu steuernden bzw. bedienenden Geräte ansteuert (letztere über geeignete Schnittstellen - wie in der Figur 2 gezeigt) .

Im folgenden wird die Funktionsweise des SDS näher erläu¬ tert.

Das SDS beinhaltet - wie zuvor ausgeführt - zweierlei Spracherkennertypen zur Erkennung vorgegebener Sprachkom¬ mandos. Die beiden Erkenner können wie folgt charakteri¬ siert werden:

• Sprecherunabhängiger Erkenner: sprecherunabhängige Erken¬ nung von verbunden gesprochenen Worten. Damit lassen sich allgemeine Steuerkommandos, Ziffern, Namen, Buchstaben etc. erkennen, ohne daß der Sprecher bzw. Benutzer eines oder mehrere der benutzten Worte vorher trainiert haben muß.

Weiterhin kann die Eingabe im Verbundwortmodus erfolgen, d.h. eine Kombination mehrerer Worte, Ziffern, Namen er- gibt ein Kommando, welches in einem Zug, d.h. ohne Pause eingesprochen wird (z.B. das Kommando: "Kreis mit Radius Eins") . Beim Algorithmus zur Klassifikation handelt es sich um einen HMM(Hidden-Markov-Modell) -Erkenner, der im wesentlichen auf Phonemen (Lautuntereinheiten) und/oder Ganzwortmodellen aufbaut und daraus Worte bzw. Kommandos zusammensetzt. Das Vokabular und die daraus aufgebauten Kommandos ("Syntaxstruktur") werden vorab im Labor fi¬ xiert und dem Erkenner in Form von Datenfiles übergeben ("off-line Dialog Editiermodus") . Im Echtzeit-Betrieb kann das Vokabular und die Syntaxstruktur des unabhängi¬ gen Erkenners vom Benutzer nicht modifiziert werden.

Sprecherabhängiger Erkenner: sprecherabhängige Erkennung von benutzer-/sprecherspezifischen Namen oder Funktionen, die der Benutzer/Sprecher definiert und trainiert.

Der Benutzer/Sprecher hat die Möglichkeit, ein persönli¬ ches Vokabular in Form von Namenslisten, Funktionslisten etc. anzulegen bzw. zu editieren. Dadurch kann der Benut¬ zer/Sprecher seinen persönlichen Wortschatz wählen und diesen jederzeit "on line", d.h. im Echtzeitbetrieb, an seine Bedürfnisse anpassen.

Als Beispiel für eine Anwendung im Telefonumfeld sei die "Namensliste" genannt, d.h. das individuell vom Benutzer/ Sprecher zusammengestellte Verzeichnis der Namen von Fernsprechteilnehmern, wobei der jeweilige Name in einer Trainingsphase ein- oder mehrmals vom Benutzer eingesprochen wird ( z.B. "Onkel Willi") und dem Namen per Tastatureingabe, vorzugswei- - lö ¬

se aber per unabhängigem Spracherkenner eine Telefon¬ nummer zugeordnet wird, nach Abschluß des obigen Trainings und der Nummernzu¬ weisung der Benutzer nur noch dem sprecherabhängigen Erkenner einen Namen ("Onkel Willi") nennt, nicht aber die zugehörige Telefonnummer, die dem System bereits bekannt ist. Der sprecherabhängige Erkenner wird in der einfachsten Form als Einzelworterkenner ausgelegt - in der leistungsfähigeren Form als Verbundworterken- ner, der nahtlos mit dem sprecherunabhängigen Erkenner gekoppelt ist. (Z.B. "Onkel Willi anrufen" als voll¬ ständiges Kommando, wobei das Wort "anrufen" Teil des sprecherunabhangigen Vokabulars ist und "Onkel Willi" Teil des sprecherabhangigen Vokabulars ist) .

Im Anschluß an die Spracherkennung wird in der Nachverar- beitungsemheit eine Nachverarbeitung der mit einer be¬ stimmten Erkennwahrscheinlichkeit behafteten Ergebnisse der beiden Spracherkenner durchgeführt.

Der sprecherunabhangige Verbundwort-Spracherkenner z.B. liefert mehrere Satzhypothesen m einer Reihenfolge, welche die Erkennwahrschemlichkeiten repräsentiert. Diese Satz- hypothesen berücksichtigen in der Regel bereits die erlaub¬ te Syntaxstruktur. Wo dies nicht der Fall ist, werden in¬ nerhalb der syntaktischen Nachverarbeitung (FIG. 2) unzu¬ lässige Wortfolgen ausgesondert bzw. nach verschiedenen Kriterien bewertet, wie wahrscheinlich die hierin auftre- tende Wortkombination ist. Ferner werden die von den

Spracherkennern erzeugten Satzhypothesen auf ihre semanti¬ sche Plausibilität überprüft und danach die Hypothese mit der höchsten Wahrscheinlichkeit ausgewählt. Ein korrekt erkanntes Sprachkommando wird an die Dialog- steuerung weitergereicht und führt anschließend zu einem diesem Sprachkommando zugeordneten Eingriff auf die Appli¬ kation, wobei die Meldung über das Kontrollinterface wei- tergereicht wird. Ggf. wird das erkannte Sprachkommando von der Dialogsteuerung auch (oder nur) an die Sprachausgabe weitergereicht und dort ausgegeben.

Das hier skizzierte System ist im "on-line"-Betrieb durch eine fixierte Syntax- und Kommandostruktur sowie durch eine Kombination von fixiertem Vokabular (sprecherunabhängiger Erkenner) und frei definierbarem Vokabular, wie z.B. Namen (sprecherabhängiger Erkenner) , gekennzeichnet.

Dieser zunächst starr erscheinende Rahmen ist eine Voraus¬ setzung für hohe Erkennungsleistung bei großem Vokabularum¬ fang (zum gegenwärtigen Zeitpunkt bis zu mehreren hundert Worten) z.B. bei geräuschbehafteter Umgebung, bei wechseln¬ den akustischen Verhältnissen in der Fahrgastzelle sowie bei variierenden Sprechern. Der hohe Vokabularumfang wird genutzt, um die Benutzerfreundlichkeit durch Verwendung synonymer Worte bzw. unterschiedlicher Aussprachevarianten zu erhöhen. Auch erlaubt die Syntax die Umstellung von Worten in den Sprachkommandos, so z.B.:

"Größerer Radius bei linkem Kreis" oder - alternativ hierzu -

"Bei linkem Kreis größerer Radius", wobei diese Alternativen jedoch von vorneherein bei der Festlegung mit dem "off-line Dialog Editor" definiert sein müssen.

Der hier skizzierte Lösungsansatz erweist sich vor allem deshalb als vorteilhaft, weil • die Verbundworteingabe von Kommandos natürlicher und schneller ist als die Isoliertworteingabe. Die Praxis hat gezeigt, daß der unbefangene Benutzer schwer daran zu ge¬ wöhnen ist, abgehackt (mit deutlichen Zwischenpausen) zu sprechen, um ein Mehrwortkommando einzugeben (die Akzep¬ tanz derartiger Systeme ist deshalb deutlich geringer) ,

• die Eingabe z.B. von Ziffern- oder Buchstabenkolonnen im Verbund leichter ist und weniger Konzentration erfordert als die Einzeleingabe, • die Dialogführung natürlicher ist, weil z.B. bei Ziffern¬ kolonnen nicht jede Einzelziffer quittiert werden muß, sondern nur der eingegebene Ziffernblock,

• wegen des Wortschatzes von z.B. bis zu einigen hundert Worten eine Vielzahl von Funktionen per Sprache bedienbar sind, die vorher manuelle Bedienung erforderten,

• die Menge manueller Schaltelemente reduziert werden kann bzw. bei Spracheingabe die Hände anderweitig benutzbar sind, z.B. bei der Qualitätskontrolle von Motoren.

Der Bedienkomfort wird bei dem vorliegenden System weiter¬ hin erhöht durch die vorteilhafte Nutzung von Freisprech¬ mikrofon(en) anstelle (oder in Ergänzung) von Headset (Kopfhörer und Lippenmikrofon) bzw. Handmikrofon. Die Nut¬ zung eines Freisprechmikrofons erfordert allerdings i.a. eine leistungsfähige Geräuschreduktion (FIG. 2) sowie ggf. eine Echokompensation von Signalen, die z.B. aus dem Dia¬ log- oder anderen Lautsprechern stammen. Je nach Applika¬ tion bzw. Geräuschpegel können diese Maßnahmen jedoch auch bei der Nutzung von Headset oder Handmikrofon erforderlich sein. Die Echokompensation erlaubt es dem Benutzer/Sprecher ins¬ besondere, der Sprachausgabe ins Wort zu fallen, d.h. den Erkenner anzusprechen, während die Sprachausgabe aktiv ist.

Ferner können im Labor per "off-line Dialog Editor" jeder¬ zeit das Vokabular und die Kommandos verändert werden, ohne daß dies ein neues Training mit einer Vielzahl von Spre¬ chern für die neuen Worte des sprecherunabhängigen Erken¬ ners bedarf. Der Grund liegt darin, daß im Labor die Da- tenbank für sprecherunabhängige Phoneme und/oder sprecher¬ unabhängige Ganzwortmodelle vorliegt und aus diesen Phone¬ men bzw. Ganzwortmodellen mit der vorhandenen Entwicklungs¬ umgebung ohne weiteres neue Worte und Kommandos generiert werden können. Letztlich läuft eine Kommando- oder Vokabu- laränderung darauf hinaus, die im Labor mit dem Entwick¬ lungssystem berechneten neuen Parameter und Daten als Da¬ tenfile in den sprecherunabhängigen "Echtzeit-Erkenner" zu überspielen und dort im Speicher abzulegen.

Mittels des SDS können sowohl Funktionen innerhalb des Com¬ puters, in dem das SDS eingebaut ist, als auch externe Ge¬ räte bedient werden. Das SDS weist z.B. neben einer PCMCIA- Schnittstelle noch Schnittstellen auf, welche für externe Geräte zugänglich sind. Dies sind zum Beispiel: V.24-Schnittstelle, optischer Daten-Steuerbus, CAN-Inter- face usw. Optional kann das SDS mit weiteren Schnittstellen ausgestattet werden.

Das SDS wird vorzugsweise durch Betätigen einer push-to- talk-Taste (PTT-Taste) oder durch ein definiertes Schlüs¬ selwort aktiviert. Die Abschaltung erfolgt durch Eingabe eines entsprechenden Sprachkommandos ("Abbruchkommando") an definierten Stellen des Dialogs oder jederzeit durch Betä¬ tigen der PTT-Taste oder einer Abbruchtaste oder automa- tisch durch die interne Ablaufsteuerung, wenn nach einer vom SDS vorgegebenen oder adaptiv auf den jeweiligen Be¬ nutzer eingestellten Zeit und/oder nach einer Rückfrage des SDS keine Spracheingabe erfolgt ist oder wenn der vom Be- nutzer ausgewählte Dialog planmäßig abgeschlossen worden ist (z.B. die gewünschte Telefonnummer an das Telefon zwecks Aufbau der Verbindung abgegeben worden ist) . In ge¬ räuscharmer Umgebung kann das SDS auch kontinuierlich ak¬ tiviert sein.

Ablaufbeschreibunq

An dieser Stelle sei betont, daß das SDS in FIG. 2 nur ein Beispiel ist für ein nach der Erfindung mögliches Sprach- dialogsystem. Die Konfiguration der Schnittstellen zur Da¬ teneingabe bzw. Datenausgabe bzw. zur Steuerung der ange¬ schlossenen Komponenten ist hier ebenfalls nur beispielhaft dargestellt.

Die in der FIG. 2 dargestellten Funktionsblocke werden im folgenden näher erläutert.

1. Echokompensation:

Über die Echokompensation werden die digitalisierten Lautsprechersignale z.B. der Sprachausgabe bzw. eines eingeschalteten Radios über adaptive Filteralgorithmen vom Mikrofonsignal subtrahiert. Die Filteralgorithmen bilden den Echopfad vom Lautsprecher zum Mikrofon nach.

2. Geräuschreduktion:

Diese ermöglicht es, stationäre oder quasi-stationäre Umgebungsgeräusche vom digitalisierten Sprachsignal zu unterscheiden und diese vom Sprachsignal abzuziehen. Geräusche dieser Art sind z.B.: Fahrgeräusche in einem Kraftfahrzeug (Kfz) , Umgebungsgeräusche in Labors und Büros wie Lüfter oder Maschinengeräusche in Fabrika¬ tionshallen.

3. Segmentierung:

Die Segmentierung setzt - wie in FIG. 3 gezeigt - auf spektraltransformierten Daten auf. Hierzu werden die Signale blockweise zu sogenannten "frames" zusammenge¬ faßt und mit einer schnellen Fouriertransformation (FFT) in den Frequenzbereich umgesetzt. Durch Betrags¬ bildung und Gewichtung mit einem gehörbezogenen MEL- Filter, d.h. einem dem melodischen Empfinden der Ton¬ höhe nachgebildeten Filter, bei dem eine gehörbezogene

Einteilung des Sprachbereiches (~ 200 Hz bis - 6 kHz) in einzelne Frequenzbereiche ("Kanäle") durchgeführt wird, werden die Spektralwerte zu Kanalvektoren zusam¬ mengefaßt, die die Leistung in den verschiedenen Fre¬ quenzbändern angeben. Im Anschluß erfolgen eine Grob¬ segmentierung, die permanent aktiv ist und Kommandoan- fang sowie Kommandoende grob erfaßt, sowie eine Fein- segmentierung, die im Anschluß daran die genauen Gren¬ zen festlegt.

4. Merkmalsextraktion Der Merkmalsextraktor berechnet aus den digitalisierten und segmentierten Sprachsignalen über mehrere Stufen hinweg Merkmalsvektoren und bestimmt den dazugehörigen normierten Energiewert. Dazu werden beim sprecherunabhängigen Erkenner die Ka- nalvektoren mit einer diskreten Cosinustransformation (DCT) in Cepstralvektoren transformiert. Zusätzlich wird die Energie des Signals berechnet und normiert. Parallel dazu wird eine laufende Mittelwertberechnung der Cepstralwerte durchgeführt mit dem Ziel, den Erken- ner sowohl an den momentanen Sprecher als auch auf Übertragungscharakteristiken, z.B. des Mikrofons und des Kanals (Sprecher → Mikrofon) zu adaptieren. Die Cepstralvektoren werden von diesem adaptierten Mit- telwert befreit und mit der zuvor berechneten normier¬ ten Energie zu sogenannten CMF-Vektoren (Cepstralkoef- fizienten mittelwertfrei) zusammengefaßt.

5. Klassifikation des sprecherunabhängigen Verbundwort- Spracherkenners

5.1 Hidden-Markov-Modell (HMM)

Ein Hidden-Markov-Modell ist eine Ansammlung von Zu¬ ständen, die untereinander durch Übergänge verbunden sind (FIG. 4) .

Jeder Übergang, von einem Zustand qi zum anderen qj , wird durch eine sogenannte Ubergangswahrscheinlichkeit beschrieben. Jedem Knoten (Zustand) ist ein Vektor von sogenannten Emissionswahrscheinlichkeiten der Länge M zugeordnet. Über diese Emissionswahrscheinlichkeiten wird die Verbindung zur physikalischen Welt herge¬ stellt. Die Modellvorstellung geht soweit, daß in einem bestimmten Zustand q-j_ eines von M verschiedenen Symbo¬ len "emittiert" wird, entsprechend der zustandsbezoge- nen Emissionswahrscheinlichkeit. Die Symbole stehen stellvertretend für die Merkmalsvektoren. Die Folge von "emittierten" Symbolen, die das Modell erzeugt, sind sichtbar. Die konkrete Abfolge der Zu¬ stände, die innerhalb des Modells durchlaufen werden, ist dagegen nicht sichtbar (engl. "hidden") .

Ein Hidden-Markov-Modell ist durch folgende Größen de¬ finiert :

• T Anzahl der Symbole

• t Zeitpunkt für ein beobachtetes Symbol, t = 1...T • N Anzahl der Zustande (Knoten) des Modells

• M Anzahl der möglichen Symbole (= Codebuchgröße)

• Q Zustände des Modells {ql, q2 , ... qn}

• V Menge der möglichen Symbole • A Ubergangswahrscheinlichkeit vom einem Zustand in einen anderen

• B Wahrscheinlichkeit für ein Ausgabesymbol in einem

Zustand des Modells (Emissionswahrscheinlichkeit)

• π Wahrscheinlichkeit für den Anfangszustand des Modells (beim Training des HMM's) .

Unter Benutzung der Wahrscheinlichkeitsverteilungen A und B können mit Hilfe dieses Modells Ausgabesymbole erzeugt werden.

Aufbau des phonembasierten HMM-Erkenners

Bei einem Spracherkennungsystem mit größerem Wortschatz basiert die Worterkennung zweckmäßigerweise nicht auf Ganzwörtern, sondern auf phonetischen Wortuntereinhei¬ ten. Eine solche Wortuntereinheit ist zum Beispiel ein Laut, ein Diphon (Doppellaut) oder ein Lautübergang.

Ein zu erkennendes Wort wird dann durch die Verkettung der entsprechenden Wortuntereinheiten-Modelle darge¬ stellt. In FIG. 5 ist als Beispiel einer solchen Dar¬ stellung mit verketteten Hidden-Markov-Modellen (HMM) zum einen die standardphonetische Beschreibung des Wor¬ tes "braten" (FIG. 5a) sowie zum anderen die phoneti¬ sche Beschreibung von Aussprachevarianten (FIG. 5b) dargestellt. Diese Wortuntereinheiten-Modelle werden bei der Erstellung des Systems an Stichproben vieler Sprecher trainiert und bilden die Datenbasis, auf der der "off-line Dialog Editor" aufsetzt. Dieses Konzept mit Wortuntereinheiten hat den Vorteil, daß neue Wörter relativ einfach in das vorhandene Lexikon aufgenommen werden können, da die Parameter für die Wortunterein¬ heiten schon bekannt sind.

Theoretisch kann mit diesem Erkenner ein beliebig gro¬ ßes Vokabular erkannt werde. In der Praxis wird man je- doch durch beschränkte Rechenleistung und für die je¬ weilige Anwendung notwendige Erkennungsleistung an Grenzen stoßen.

Die Klassifikation basiert auf dem sogenannten Viterbi- algorithmus, in welchem die Wahrscheinlichkeit jedes Wortes für die einlaufende Symbolfolge berechnet wird, wobei ein Wort hier als Verkettung verschiedener Pho¬ neme zu verstehen ist. Der Viterbialgorithmus wird er¬ gänzt durch eine Wortfolgestatistik ("Language Mo¬ dell") , d.h. die im "off-line Dialog Editor" spezifi- zierten Mehrwortkommandos liefern die erlaubten Wort¬ kombinationen. Im Extremfall beinhaltet die Klassifika¬ tion auch die Erkennung und Aussonderung von Füllauten (Äh, Hmm, Räusperer, Pausen) oder "Garbagewörtern" ("NichtWörtern") . "Garbagewörter" sind sprachliche Er- gänzungen, die den eigentlichen Sprachkommandos - unnö¬ tigerweise - vom Sprecher hinzugefügt werden, die aber in den Vokabularien des Spracherkenners nicht enthalten sind. Beispielsweise kann der Sprecher das Kommando "Kreis mit Radius eins" noch erweitern um Begriffe wie "Ich möchte jetzt einen ..." oder "Bitte einen ...".

Je nach Applikation bzw. Umfang des benötigten Vokabu¬ lars können diese phonembasierten Hidden-Markov-Modelle bei Bedarf auch um ganzwortbasierte Hidden-Markov-Mo¬ delle ergänzt bzw. erweitert werden.

Sprecherabhängiger Erkenner

Für die sprecherabhängige Erkennung wird auf derselben Vorverarbeitung aufgesetzt wie für den sprecherunabhän- gigen Erkenner. Aus der Literatur sind unterschiedliche Lösungsansätze bekannt (z.B. dynamische Zeitnormierung ("Dynamic Time Warping (DTW)") , Neuronale Netz-Klassi- faktoren) , die ein Training im Echtzeitbetrieb erlau¬ ben. Es handelt sich hierbei in erster Linie um Einzel- worterkenner, wobei hier vorzugsweise das Verfahren der dynamischen Zeitnormierung zum Einsatz kommt.

Um die Benutzerfreundlichkeit zu erhöhen, wird im hier beschriebenen SDS eine Kombination von sprecherunabhän- gigem (vgl. Punkt 5.) und sprecherabhängigem Erkenner im Verbundwortmodus verwendet ("Gloria anrufen", "Neues Ziel Onkel Willi", "Funktion Schrägellipse darstel¬ len") , wobei die Worte "Gloria", "Onkel Willi", "Schrägellipse" vom Benutzer beim Training frei gewählt wurden und samt den zugehörigen Telefonnummern/Ziel¬ adressen/Funktionsbeschreibungen in entsprechenden Li¬ sten abgelegt wurden. Der Vorteil dieses Lösungsansat- zes liegt darin, daß ein bis zwei (oder ggf. noch mehr) Dialogschritte eingespart werden.

7. Nachverarbeitung: Syntax und Semantikprüfung:

Das SDS beinhaltet eine leistungsfähige Nachverarbei¬ tung der von den Spracherkennern gelieferten Ergebnis¬ se. Dazu gehören die syntaktischen Prüfungen dahinge- hend, ob die ermittelten Satzhypothesen dem a priori festgelegten Aufbau der Sprachkommandos ("Syntax") ent¬ sprechen. Falls nicht, werden die entsprechenden Hypo¬ thesen verworfen. Diese syntaktische Analyse kann im Einzelfall auch teilweise oder vollständig in den Er- kenner selbst integriert werden, z.B. indem in den Ent¬ scheidungsbäumen des Klassifikators die Syntax bereits berücksichtigt wird. Weiterhin werden die vom Spracherkenner gelieferten Satzhypothesen auf ihren Sinn und auf ihre Plausibili¬ tät überprüft.

Nach dieser Plausibilitätsprüfung wird die aktive Satz- hypothese entweder an die Dialogsteuerung weiterge¬ reicht oder zurückgewiesen.

Im Falle einer Rückweisung wird die nächstwahrscheinli- che Hypothese des Spracherkenners genommen und auf gleiche Art und Weise behandelt. Im Falle eines syntaktisch korrekten und plausiblen

Kommandos wird dieses zusammen mit der Beschreibung der Bedeutung an die Dialogsteuerung weitergegeben.

8. Dialog- und Ablaufsteuerung Die Dialogsteuerung reagiert auf den erkannten Satz und bestimmt die auszuführenden Funktionen. So z.B. legt sie fest

• welche Rückfragen, Informationen oder Aufforderungen an den Benutzer ausgegeben werden, • welche Aktuatoren wie angesprochen werden,

• welche Systemmodule aktiv sind (sprecherunabhängiger Erkenner, Training) ,

• welche Teilwortschatze (Teilvokabularien) für die als nächstes erwartete Antwort aktiv sind (z.B. nur Zif- fern) .

Des weiteren behält die Dialogsteuerung den Überblick über den Status der Applikation, soweit dieser dem SDS mitgeteilt wird. Der Dialogsteuerung unterlagert ist die Ablaufsteuerung, die die einzelnen Prozesse zeit- lieh und logisch kontrolliert. 9. Kommunikations- und Kontrollinterface

Hier wird die Kommunikation mit den angeschlossenen Peripheriegeräten einschließlich der zu bedienenden Ge¬ räte abgewickelt. Dazu stehen verschiedene Schnittstellen zur Verfügung. Das SDS setzt i.a. allerdings nicht alle diese Schnitt¬ stellen voraus. Die in der FIG. 2 genannten sind nur beispielhafte Möglichkeiten einer Implementierung. Das Kommunikations- und Kontrollinterface wickelt u.a. auch die Sprachein- und -ausgaben z.B. über A/D- bzw. D/A-Wandler ab.

10. Spracheingabe/-ausgäbe

Die Sprachein/ausgäbe setzt sich zusammen aus einem "Sprachsignal-Kompressionsmodul" (= "Sprachencoder") , der die Redundanz bzw. Irrelevanz aus dem digitalisier¬ ten Sprachsignal entzieht und somit ein Sprachsignal definierter Dauer in einem erheblich kleineren Speicher als direkt nach der A/D-Wandlung ablegen kann. Die kom- primierte Information wird in einem Sprachspeicher ab¬ gelegt und für die Ausgabe im "Sprachdecoder" regene¬ riert, so daß das ursprüngliche eingegebene Wort wieder hörbar ist. Der hierbei ggf. auftretende Qualitätsver¬ lust bei der Wiedergabe hält sich bei den heute verfüg- baren Codier- bzw. Decodierverfahren in einem vertret¬ baren Rahmen.

Für die Dialogführung sind im Sprachspeicher bereits von vorneherein ("off-line Dialog Editor") eine Reihe von Kommandos, Hilfstexten oder Anweisungen abgelegt, die den Benutzer bei der Bedienung unterstützen sollen, bzw. ihm Informationen von der Applikationsseite her zukommen lassen.

Weiterhin wird die Sprachcodierung während des Trai¬ nings für den sprecherabhängigen Erkenner aktiviert, da der vom Benutzer eingesprochene Namen gleichfalls im Sprachspeicher abgespeichert wird. Der Benutzer kann durch Abhören seiner Namensliste bzw. Funktionsliste jederzeit akustisch über den Inhalt, d.h. die einzelnen Namen bzw. Funktionen, informiert werden.

Bezüglich Sprachcodier- und -decodieralgorithmus können z.B. Verfahren angewandt werden, die aus der Sprach¬ übertragung unter dem Schlagwort "Quellkodierung" be¬ kannt sind und per Software auf einem programmierbaren Prozessor implementiert werden.

In FIG. 6 ist ein Beispiel für einen möglichen Hardwareauf¬ bau der SDS gemäß FIG. 2 dargestellt. Die Konfiguration der einzelnen Funktionsblöcke sowie die Schnittstellen zur Da- tenein- und Datenausgabe bzw. zur Steuerung der angeschlos¬ senen Komponenten ist hier nur beispielhaft dargestellt. Der hier angenommene aktive Wortschatz (Vokabular) für sprecherunabhängig gesprochene Worte kann z.B. einige hun¬ dert Worte umfassen.

Der digitale Signalprozessor (DSP) ist ein handelsüblicher programmierbarer Prozessor, der sich von einem Mikroprozes¬ sor durch andere Busarchitektur (z.B. Harvard-Architektur statt Von-Neumann-Architektur) , spezielle "on-chip"-Hard- ware-Rechenwerke (Multiplizierer/Akkumulatoren/Shifter etc.) und I/O-Funktionalitäten auszeichnet, die bei echt¬ zeitiger digitaler Signalverarbeitung benötigt werden. In zunehmendem Maße bieten leistungsfähige RISC-Prozessoren ähnliche Funktionalitäten wie DSPs und können diese ggf. ersetzen.

Der hier gezeigte DSP (bzw. ein anderer Mikroprozessor ver¬ gleichbarer Leistungsfähigkeit) kann mit Ausnahme speziel¬ ler Interface-Kontrollfunktionen sämtliche in FIG. 2 darge- stellte Funktionen per Software bzw. integrierter Hardware abwickeln. Mit derzeit handelsüblichen DSPs lassen sich mit dem hier vorgestellten Konzept derzeit (beispielhaft) Wort¬ schätze von mehreren hundert Worten realisieren, wobei da- von ausgegangen wird, daß dieser Wortschatz vollständig zur Auswahl steht als "aktives Vokabular" und nicht durch Bil¬ dung von Teilvokabularien erheblich kleiner ist. Für den Fall, daß Teilvokabularien gebildet werden, kann jedes da¬ von die genannte Größe umfassen.

Durch die Hardwarestruktur gemäß FIG. 6 und insbesondere durch den Verzicht auf zusätzliche Spezialbausteine für die Erkennung und/oder für Dialogabwicklung, Ablaufsteuerung, Sprachkodierung und Interface-Protokollabwicklung bietet sich die Chance einer Realisierung mit einer kompakten, ko¬ stengünstigen Hardware mit niedrigem Stromverbrauch. Durch die technologische Weiterentwicklung werden zukünftig höhe¬ re Rechenleistungen und höhere Speicherumfänge auf den DSPs verfügbar sein und größere externe Speicherbereiche adres- sierbar sein, so daß umfangreichere Vokabularien bzw. lei¬ stungsfähigere Algorithmen realisierbar sein werden.

Das SDS wird durch die an den DSP angeschlossene "push-to- talk"-Taste (PTT) aktiviert. Ein Betätigen dieser Taste veranlaßt die Steuersoftware, den Erkennvorgang zu starten. Im einzelnen sind neben dem DSP folgende weitere Hardware- Module vorhanden:

• A/D- und D/A-Wandler: Über einen angeschlossenen A/D- und D/A-Wandler werden das Mikrofonsignal und ggf. die Lautsprechersignale digitalisiert und zur weiteren Verarbeitung an den DSP übertragen, die digitalisierten Sprachdaten zur Sprachausgabe/ Dialogsteuerung in ein Analogsignal zurückgewandelt, verstärkt und an ein geeignetes Wiedergabemedium (z.B. Lautsprecher) weitergereicht.

• D2B optical:

Dies ist ein optisches Bussystem, über welches diverse Audio- und Informationsgeräte gesteuert werden können (z.B.: Autoradio und CD-Wechsler, Autotelefon und Naviga¬ tionsgeräte usw.) . Dieser Bus überträgt nicht nur Steuer-, sondern auch Audiodaten; im Extremfall (d.h. wenn Mikrofon- und Lautsprechersignal hierüber geschickt werden) erübrigt sich A/D- und D/A-Wandlung im SDS.

CAN Bus:

Dies ist ein Bussystem, über welches Informationsgeräte und Aktuatoren im Kfz gesteuert werden können; Audioüber¬ tragung ist in der Regel nicht möglich.

• V.24-Schnittstelle:

Diese Schnittstelle kann zur Steuerung diverser Periphe¬ riegeräte dienen. Weiterhin kann über diese Schnittstelle die Software des SDS aktualisiert werden. So kann ein entsprechender Wortschatz oder eine entsprechende Sprache (z.B.: Deutsch, Englisch, Französisch...) geladen werden.

• PCMCIA-Interface:

Diese Schnittstelle dient neben der Kommunikation mit einem Desktop- oder Portable Computer auch der Spannungs¬ versorgung des SDS. Mehrere der oben angeführten Funktio¬ nen können hier zusammengefaßt werden. Weiterhin kann diese Schnittstelle neben den elektrischen Eigenschaften auch die mechanischen Abmessungen des SDS bestimmen. Die- se können z.B. so ausgewählt werden, daß das SDS in einen PCMCIA-Schacht eines Desktop- oder Portable Computers ge¬ steckt werden kann.

• Speicher

Der an den DSP angeschlossene Speicher (Daten/Programm- RAM und ROM) dient dem DSP als Programm- und Datenspei¬ cher. Ferner beinhaltet dieser die spezifischen Klassifi¬ kations-Modelle und ggf. die Referenzmuster für die bei- den Spracherkenner und die Festtexte zur Dialogsteuerung und zur Benutzerführung. In einem FLASH-Speicher oder batteriegepufferten Speicher werden die benutzerspezifi¬ schen Informationen abgelegt (Adress-, Datenlisten) .

Die hier skizzierte Hardware-Konfiguration insbesondere be¬ züglich der Schnittstellen hängt stark von der jeweiligen Applikation oder von speziellen Kundenanforderungen ab und ist hier exemplarisch für einige Anwendungsfälle beschrie¬ ben. In anderen Applikationen (z.B. bei Anbindung an einen PC oder eine Workstation oder beim Einsatz in portablen Te¬ lefonen) kann die Wahl der Schnittstellen völlig anders sein. Auch können A/D- und D/A-Wandler bereits auf dem DSP integriert sein.

Funktionsbeschreibung am Beispiel eines sprachbedienten Autotelefons

Im folgenden sind nun die Dialogabläufe exemplarisch am Beispiel einer sprachgesteuerten Telefonsteuerung (z.B. in einem Kfz) beschrieben.

Dieses Beispiel läßt sich erweitern auf die Ansteuerung von Telefon und Radio und/oder CD und/oder Navigation im Kfz bzw. auf die Bedienung eines CAE-Arbeitsplatzes o.a. Charakteristisch ist für jedes dieser Beispiele:

- Die sprecherunabhängige Erkennung von Mehrwortkommandos, sowie Buchstaben- oder Ziffernkolonnen, - Die sprecherabhängige Eingabe eines vom Benutzer vorher trainierten, freigewählten Namens oder Funktionswortes, dem zugeordnet ist eine Funktion, ein Zahlencode (z.B. Telefonnummer eines Telefonbuches oder Senderfrequenz einer Radiosenderliste) oder eine Buchstabenkombination (z.B. Zielort bei Navigationssystemen).

Bei der Definition der Zuordnung gibt der Benutzer die Funktion, Buchstaben- oder Ziffernkombination im spre¬ cherunabhängigen Verbundwortmode ein (wobei die Funktion, die Buchstaben, Ziffern Teil des zulässigen Vokabulars sein müssen, d.h. mit "off-line Dialog Editor" vorab festgelegt sein müssen) .

- Mit dieser Namenswahl verbunden ist stets die Verwaltung einer entsprechenden Liste unterschiedlicher Namen bzw. Funktionsworte desselben Benutzers (Telefonbuch, Sender- liste, Zielortliste) . Diese Liste kann erweitert, ge¬ löscht, abgefragt oder korrigiert werden.

Zustandsdiagramm SDS (FIG. 7) :

Während der Bedienung des Telefons über die Spracheingabe nimmt das SDS unterschiedliche Zustände ein, von denen einige beispielhaft in FIG. 7 gezeigt sind (deaktivierter Zustand; Kommandomodus "Telefon"; Nummerneingabe bzw. -wähl sowie Namenseingabe bzw. -wähl im Zusammenhang mit der Wahlfunktion; Nummerneingabe bzw. Namenstraining im Zusam¬ menhang mit der Speicherfunktion; Namen löschen bzw. Tele¬ fonbuch komplett oder selektiv löschen in Zusammenhang mit der Löschfunktion) . Die Übergänge werden durch Äußerung von Sprachkommandos ("Nummernwahl", "Namenswahl", "Namen spei¬ chern", "Nummern speichern", "Beenden", "Löschen") gesteu¬ ert, wobei die Aktivierung des SDS durch Betätigen der PTT- Taste erfolgt. Ein Gesprächsabbruch erfolgt z.B. durch Ein- gäbe eines speziellen Abbruchkommandos ("Beenden") oder durch Betätigen einer Abbruchtaste.

Betriebszustand "Deaktiviert":

Das Sprachdialogsystem ist in diesem Zustand nicht erkenn¬ bereit. Teile der Signalverarbeitungssoftware sind zweckmä¬ ßigerweise dennoch immer aktiv (Geräuschreduktion, Echo¬ kompensation) , um den Geräusch- und Echozustand permanent zu aktualisieren

Betriebszustand "Aktiv" (FIG. 8) :

Das Sprachdialogsystem ist durch die PTT-Taste aktiviert worden und wartet nun auf die zur weiteren Steuerung der Peripheriegeräte (Telefon) erlaubten Kommandos. Die Funk¬ tionsabläufe des Betriebszustandes "Aktiv" sind in FIG. 8 in Form eines Flußdiagramms (beispielhaft) dargestellt, und zwar für die Funktionen "Telefonbuch wählen", "Telefonbuch löschen", "Namen löschen", "Namenswahl", "Nummernwahl", "Namen speichern" , "Nummern speichern" , "Telefonbuch anhö¬ ren" und die zugehörigen Aktionen und Reaktionen (Ausgabe der Namenslisten, komplette oder selektive Löschung, Na¬ mens- oder Nummernwahl, Nummerneingabe bzw. Namenstrai¬ ning) . Selbstverständlich können diese Funktionen bei Be- darf durch zusätzliche weitere Funktionen ergänzt bzw. er¬ weitert bzw. durch andere Funktionen ganz oder teilweise ersetzt werden.

Generell ist in diesem Zusammenhang anzumerken, daß das ak¬ tivierte SDS jederzeit, d.h. auch während eines der nach- folgend näher erläuterten Funktionsabläufe, wieder deakti¬ viert werden kann mit der Folge, daß der ggf. noch nicht vollendete Funktionsablauf ab- oder unterbrochen wird. Die Deaktivierung des SDS geschieht z.B. jederzeit durch Betätigen der ggf. vorhandenen Abbruchtaste oder durch Eingabe eines speziellen Abbruchkommandos (z.B. "Beenden", "Abbrechen" o.a.) an definierten Stellen des Dialogs.

Betriebszustand "Namenswahl" (FIG. 9) :

Dieser Zustand setzt voraus, daß das entsprechende Sprach¬ kommando "Namenswahl" bzw. "Telefon Namenswahl" o.a. rich¬ tig erkannt wurde. In diesem Zustand ist die Wahl einer Te¬ lefonnummer durch eine Eingabe eines Namens möglich. Dazu wird auf einen sprecherabhängigen Spracherkenner umgeschal¬ tet.

Das Sprachdialogsystem fordert zur Eingabe eines Namens auf. Dieser wird dem Benutzer bestätigt. Das Sprachdialog¬ system schaltet nun wieder auf den sprecherunabhängigen Er- kenner um. Sollte der Namen richtig erkannt worden sein, wird die dem Namen zugeordnete Telefonnummer an das Telefon weitergegeben und dort die Verbindung zu dem entsprechenden Fernsprechteilnehmer hergestellt. Sollte der Namen falsch verstanden worden sein, so kann durch eine Abbruchfunktion (z.B. durch Betätigen der Ab¬ bruchtaste) ein Wählen der Telefonnummer verhindert werden. Alternativ hierzu ist auch eine Rückfrage des SDS denkbar, ob die dem Sprachkommando zugeordnete Aktion/Funktion aus¬ geführt werden soll oder nicht. Der Umfang des Telefonbuches kann je nach Aufwand bzw.

Speicherplatz z.B. 50 oder mehr gespeicherte Namen umfas¬ sen. Die Funktionsabläufe des Betriebszustandes "Namens¬ wahl" sind in FIG. 9 in Form eines Flußdiagramms darge¬ stellt. Betriebszustand "Nummernwahl" (FIG. 10) :

Dieser Zustand setzt voraus, daß das entsprechende Sprach¬ kommando (z.B. "Nummernwahl" o.a.) richtig erkannt wurde. In diesem Zustand erfolgt die Wahl einer Telefonnummer durch eine Eingabe einer Zahlenfolge. Die Eingabe erfolgt verbunden (ggf. blockweise) und sprecherunabhängig. Das SDS fordert in diesem Betriebszustand zur Eingabe einer Nummer auf. Der Benutzer gibt daraufhin die Nummer komplett oder in einzelnen Blöcken als Sprachkommandos ein. Die ein¬ gegebenen Nummern bzw. der jeweils eingegebene Nummernblock wird dem Benutzer nach Eingabe des jeweiligen Sprachkomman- dos bestätigt. Nach der Aufforderung "wählen" wird die Num¬ mer an das Telefon weitergegeben und dort die Verbindung zu dem entsprechenden Fernsprechteilnehmer hergestellt.

Sollte die Nummer falsch verstanden worden sein, so kann durch eine Fehlerfunktion die Nummer korrigiert oder ge¬ löscht werden oder über eine Abbruchfunktion, z.B. durch das Kommando "Beenden" die Sprachbedienung abgebrochen wer- den, d.h. das SDS deaktiviert werden.

Die Funktionsabläufe des Betriebszustandes "Nummernwahl" sind in FIG. 10 in Form eines Flußdiagramms dargestellt.

Betriebszustand "Verbindung":

Die Telefonverbindung zu dem gewünschten Fernsprechteilneh¬ mer ist aufgebaut. In diesem Zustand ist die Spracherken- nungseinheit deaktiviert. Das Telefongespräch wird z.B. durch die Abbruchtaste beendet.

Betriebszustand "Nummer speichern / Namen speichern"

Nachdem auf das Sprachkommando "Nummer speichern" bzw. "Na¬ men speichern" hin das SDS den Benutzer/Sprecher aufgefor- dert hat, die Ziffern einzugeben und der Benutzer diese eingesprochen hat (vgl. Betriebszustand "Nummernwahl") wird anstelle des Kommandos "wählen" das Kommando "speichern" bzw. ein vergleichbares Kommando eingegeben. Die Telefon- nummer wird nunmehr gespeichert. Das SDS fordert anschlie¬ ßend den Benutzer auf, den zugehörigen Namen einzusprechen und läßt die Namenseingabe zur Verbesserung des Trainings¬ ergebnisses ein- oder mehrfach wiederholen. Nach dieser Wiederholung ist der Dialog beendet. Zu ergänzen ist, daß die anfängliche Zifferneingabe durch Dialog-Kommandos wie "abbrechen" bzw. "Abbruch", "wiederholen", "korrigieren" bzw. "Korrektur", "Fehler" usw. kontrolliert werden kann.

Betriebszustand "Telefonbuch löschen / Namen löschen"

In Zusammenhang mit dem "Telefonbuch" (Liste aller trai¬ nierten Namen und zugehörigen Telefonnummern) sind eine Reihe von Editierfunktionen definiert, die den Komfort des Systems für den Benutzer erhöhen, wie z.B.:

Telefonbuch löschen:

Komplettes oder selektives Löschen, wobei durch Rückfrage ("Sind sie sicher?") des SDS vor dem endgültigen Löschen und durch ggf. Ausgabe des spezifischen Namens ein verse¬ hentlichen Löschen durch Erkennungsfehler vermieden wird.

Namen löschen:

Das SDS fordert den Benutzer auf, den zu löschenden Namen zu sprechen. Der Name wird vom SDS wiederholt. Danach wird der Benutzer mit der Frage "Sind sie sicher?" aufgefordert, den Löschvorgang zu bestätigen: Die Eingabe des Sprachkommandos "Ja" veranlaßt das Löschen des Namens aus dem Telefonbuch.

Jedes andere als Sprachkommando eingegebene Wort beendet den Dialog.

Betriebszustand "Telefonbuch anhören":

Das SDS sagt den Inhalt des gesamten Telefonbuchs an. Ein Bestätigen der PTT-Taste oder die Eingabe eines Abbruchkom- mandos bricht die Ansage bzw. den Dialog ab.

Betriebszustand "Telefonbuch wählen":

Das SDS sagt den Inhalt des gesamten Telefonbuchs an. Wird nach Ansage des gewünschten Namens ein Abbruch- oder Wähl¬ kommando gegeben bzw. die PTT-Taste betätigt, so wird der ausgewählte Namen noch einmal angesagt und nachgefragt "Soll die Nummer gewählt werden?" Die Eingabe des Sprachkommandos "Ja" veranlaßt den Wahlvor- gang, d.h. die Verbindung wird hergestellt.

"Nein" veranlaßt das SDS, das Ansagen des Telefonbuches fortzugesetzen. Das Sprachkommando "Abbruch", "Abbrechen" o.a. oder Betätigen der Abbruchtaste beendet die Ansage bzw. den Dialog. Die beiden zuletzt genannten Funktionen "Telefonbuch anhö¬ ren" und "Telefonbuch wählen" lassen sich auch zu einer einzigen Funktion zusammenfassen. Dies erfolgt z.B. da¬ durch, daß bei "Telefonbuch anhören" nach dem relevanten Namen die PTT-Taste betätigt wird und das SDS z.B. nach der Mitteilung "Der Name 'Onke Willi' wird gewählt" den Wahl¬ vorgang einleitet. Die Eigenschaften des zuvor beschriebenen SDS können - un¬ ter Einbeziehung weiterer Applikationen - wie folgt zusam¬ mengefaßt werden:

Benutzt wird ein Verfahren zur automatischen Steuerung und/ oder Bedienung von einem oder mehreren Geräten per Sprach¬ kommandos bzw. per Sprachdialog im Echtzeitbetrieb, bei dem Verfahren zur Sprachausgabe, Sprachsignalvorverarbeitung und Spracherkennung, syntaktisch-grammatikalischen Nachver- arbeitung sowie Dialog-, Ablauf- und Schnittstellensteue¬ rung zur Anwendung kommen. Das Verfahren in seiner Grund- version ist im "on-line"-Betrieb durch eine fixierte Syn¬ tax- und Kommandostruktur, sowie durch eine Kombination von fixiertem Vokabular (sprecherunabhängiger Erkenner) und frei definierbarem Vokabular, wie z.B. Namen oder Funk¬ tionsworte (sprecherabhängiger Erkenner) , gekennzeichnet. In vorteilhaften Aus- und Weiterbildungen kann es durch eine Reihe von Merkmalen charakterisiert werden, wonach vorgesehen ist, daß: - Syntax- und Kommandostruktur während des Echtzeit-Dialog¬ betriebs fixiert sind,

- Vorverarbeitung, Erkennung und Dialogsteuerung für Be¬ trieb in geräuschbehafteter Umgebung ausgelegt sind,

- für die Erkennung allgemeiner Kommandos, Namen oder Daten kein Training durch den Benutzer erforderlich ist ("Spre¬ cherunabhängigkeit") ,

- für die Erkennung spezifischer Namen, Daten oder Komman¬ dos einzelner Benutzer ein Training notwendig ist ("Spre¬ cherabhängigkeit" bei benutzerspezifischen Namen bzw. Funktionsworten) ,

- die Eingabe von Kommandos, Namen oder Daten vorzugsweise verbunden erfolgt, wobei die Anzahl der Worte, aus denen ein Kommando für die Spracheingabe gebildet wird, varia- bei ist, d.h. daß nicht nur Ein- oder Zweiwortkommandos, sondern auch Drei-, Vier- oder Mehrwortkommados definiert werden können,

- eine echtzeitige Verarbeitung und Abwicklung des Sprach- dialoges gegeben ist,

- die Sprachein- und -ausgäbe nicht oder nicht nur über Handapparat, Kopfhörer, Headset o.a., sondern vorzugswei¬ se im Freisprechbetrieb erfolgt,

- die bei Freisprechen im Mikrofon registrierten Lautspre- cherechos elektrisch kompensiert werden, um gleichzeiti¬ gen Betrieb von Spracheingabe und Lautsprecher (z.B. für Sprachausgabe, Ready-Signale etc.) zu ermöglichen ("Echo- kompensation") ,

- eine laufende automatische Anpassung an die analoge Über- tragungscharakteristik (Raumakustik, Mikrofon- und Ver- stärkercharakteristik, Sprechercharakteristik) im Betrieb erfolgt,

- im "off-line Dialog Editor" die Syntaxstruktur, die Dia¬ logstruktur, das Vokabular und Aussprachevarianten für den Erkenner neu konfiguriert und festgelegt werden kön¬ nen, ohne daß dies zusätzlicher oder neuer Sprachaufnah¬ men für den unabhängigen Erkenner bedarf,

- im "off-line Dialog Editor" der Sprachumfang für die Sprachausgabe festgelegt wird, wobei a) die registrierten Sprachsignale einer digitalen

Sprachdatenkompression unterworfen werden ("Sprachcodie¬ rung") , anschließend abgespeichert werden und im echt¬ zeitigen Sprachausgabebetrieb nach Auslesen aus dem Spei¬ cher eine entsprechende Sprachdecodierung erfolgt, oder b) der Sprachumfang zuvor in Form von Text abgespeichert wurde und im echtzeitigen Sprachausgabebetrieb einer "Text-zu-Sprache"-Synthese ("Text-to-speech"-synthesis) unterworfen wird, - die Wortstellung durch Vertauschen einzelner Worte eines Kommandos veränderbar ist,

- vorgegebene synonyme Worte nutzbar sind,

- die gleiche Funktion durch Kommandos unterschiedlicher Wortanzahl (z.B. durch Zweiwort- oder Dreiwertkommandos) realisiert werden kann,

- zur Erkennung und anschließender Aussonderung von Einfü¬ gungen wie "Äh", "Hm", "Bitte", oder anderer nicht zum Vokabular gehöriger Kommandos dem Nutzvokabular weitere Wörter bzw. Lauteinheiten hinzugefügt werden ("Nichtwör- ter", "Garbagewörter") bzw. Wordspottingansätze genutzt werden,

- die Dialogstruktur durch folgende Eigenschaften sich auszeichnet: - flache Hierarchie, d.h. einige wenige Hierarchieebenen, vorzugsweise eine oder zwei Auswahlebenen,

- Einbindung von "Ellipsen", d.h. Verzicht auf Wiederho¬ lung ganzer Kommandosätze mit mehreren Kommandoworten; statt dessen Beschränkung auf kurze Kommandos, z.B. "weiter", "höher", "stärker", wobei dem System aus dem jeweils vorigen Kommando bekannt ist, worauf sich diese Aussage bezieht,

- Einbeziehung von "Hilfe-" oder "Info-Menüs",

- Einbeziehung von Rückfragen von seiten des SDS bei un- sicheren Entscheidungen des Erkenners ("Wie bitte",

"bitte wiederholen", "und weiter") ,

- Einbeziehung von Sprachausgaben, um durch Anregung be¬ stimmter Sprechweisen die Erkennungssicherheit zu stei¬ gern (z.B. durch die Aufforderung: "bitte lauter") , - die Spracherkennung durch einmalige Betätigung einer "Push-to-talk"-Taste ("PTT-Taste") aktiviert und dies akustisch quittiert wird (z.B. durch einen "Pieps"-Ton) , um anzuzeigen, daß die Eingabe nunmehr erfolgen kann,

- auf die Betätigung der PTT-Taste verzichtet werden kann, wenn nach Rückfragen von Seiten der Sprachausgabe im An- schluß daran Spracheingaben erforderlich sind, wobei die PTT-Taste

- entweder Mehrfachfunktionen wahrnimmt oder beinhaltet, z.B. während des Telefonierens ("Auflegen des Hörers", "Abheben des Hörers") bzw. beim Neustart des Sprachdia- logsystems bzw. beim Abbruch eines Telefonwahlvorgangs,

- oder ergänzt wird durch zusätzliche Schalter, welche z.B. einen Neustart oder den Abbruch einer Funktion/Ak¬ tion erlauben ("Abbruchtaste") ; die PTT- und die Ab¬ bruchfunktion lassen sich ggf. auch in einen gemeinsa- men Hebel integrieren (z.B.: Auslösen der PTT-Funktion durch Heranziehen des Hebels, Auslösen der Abbruchfun¬ ktion durch Wegdrücken des Hebels) ,

- das Dialogsystem eines oder mehrere der folgenden Leistungsmerkmale aufweist: - die spezifischen (z.B. trainierten) Kommandos, Daten, Namen oder Parameter unterschiedlicher Benutzer werden bei Bedarf für spätere Wiederbenutzung festgehalten,

- vom Sprecher trainierte Kommandos bzw. Namen werden während der Trainingsphase nicht nur der Erkennung zu- geführt, sondern auch in ihrem zeitlichen Verlauf auf¬ genommen, einer Datenkompression ("Sprachkodierung") zugeführt und nichtflüchtig gespeichert, um dem Benut¬ zer durch Vorlesen den aktuellen Stand wiedergeben zu können, - die vom Sprecher trainierten Kommandos bzw. Namen wer¬ den während der Trainingsphase derart verarbeitet, daß Umgebungsgeräusche während der Aufnahme weitgehend kom¬ pensiert werden, - der Abschluß eines Erkennungsvorganges bei Bedarf optisch bzw. akustisch quittiert wird ("Pieps"-Ton o.a.) oder al¬ ternativ hierzu (und ggf. nur) bei sicherheits- bzw. zeit- oder kostenrelevanten Entscheidungen das Erken- nungsergebnis akustisch wiederholt wird (Sprachausgabe) und der Benutzer die Möglichkeit hat, durch ein Sprach¬ kommando oder durch Betätigen eines Schalters (z.B. der Abbruchtaste) die Ausführung der entsprechenden Aktion zu unterbinden, - das Sprachdialogsystem mit einem optischen Anzeigemedium (LCD Display, Monitor o.a.) gekoppelt ist, wobei das op¬ tische Anzeigenmedium einzelne oder mehrere oder alle der folgenden Funktionen übernehmen kann:

- Ausgabe der erkannten Befehle zu Kontrollzwecken, - Darstellung der vom Zielgerät als Reaktion auf das Sprachkommando eingestellten Funktionen,

- Darstellung verschiedener Funktionen/Alternativen, die per Sprachkommando anschließend eingestellt bzw. ausge¬ wählt oder modifiziert werden, - jeder Benutzer eigene Namens- oder Abkürzungslisten ein¬ richten kann (vergleichbar einem Telefon- oder Adreß¬ buch) , wobei

- dem vom Benutzer beim sprecherabhängigen Erkenner trai¬ nierte Namen eine Ziffernkette, Buchstabenkette oder ein Kommando bzw. eine Kommandosequenz zugeordnet ist, die im sprecherunabhängigen Betriebsmodus eingegeben wurde,

- anstelle der erneuten Eingabe der Ziffernkette, Buch¬ stabenkette oder Kommandosequenz der Benutzer die Li- stenbezeichnung und den von ihm gewählten Namen ein¬ gibt, oder neben dem Namen ein geeignetes Kommando ein¬ gegeben wird, welches auf die richtige Liste schließen läßt, - die Liste sprachgesteuert jederzeit um weitere Einträge erweitert werden kann,

- die Liste sprachgesteuert komplett oder selektiv ge¬ löscht werden kann, - die Liste auf einen Sprachbefehl hin abgehört werden kann, wobei die vom Benutzer eingegebenen Namen und bei Bedarf die zugehörigen Ziffernkette, Buchstabenkette bzw. Kommandos akustisch ausgegeben werden können,

- die akustische Ausgabe der Liste zu jedem beliebigen Zeitpunkt abgebrochen werden kann, eine Folge von Ziffern (Ziffernkolonne) entweder an einem Stück (zusammenhängend) oder blockweise eingesprochen werden kann, wobei das SDS vorzugsweise eines oder mehre¬ re oder alle der folgenden Merkmale aufweist: - nach jeder Eingabepause erfolgt eine Quittierung, indem der letzte Eingabeblock von der Sprachausgabe wieder¬ holt wird,

- nach der Quittierung durch ein Kommando "Fehler", "falsch" o.a. wird der letzte Eingabeblock gelöscht und die verbleibenden, gespeicherten Blöcke akustisch aus¬ gegeben,

- nach der Quittierung durch ein Kommando "Löschen" oder eine ähnliche Kommandoeingabe werden alle eingegebenen Ziffernblöcke gelöscht, - nach der Quittierung durch ein Kommando "wiederholen" o.a. werden die bisher gespeicherten Blöcke akustisch ausgegeben,

- nach der Quittierung durch ein Kommando "Abbruch" oder eine ähnliche Kommandoeingabe wird die Eingabe der Zif- fernkolonne vollständig abgebrochen,

- nach der Quittierung können weitere Ziffern bzw. Zif¬ fernblöcke eingegeben werden, - nach der Quittierung wird die Zifferneingabe durch ein geeignetes Kommando abgeschlossen,

- bei der auf das Kommando "Fehler" o.a. bzw. auf das Kommando "wiederholen" folgenden Ausgabe der bisher eingesprochenen Ziffern wird dieselbe Blockung benutzt wie bei der Eingabe, eine Folge von Buchstaben (Buchstabenkolonne) eingespro¬ chen wird, welche zur Auswahl komplexer Funktionen bzw. zur Eingabe einer Vielzahl von Informationen vorgesehen ist, wobei die Buchstabenkolonne zusammenhängend oder blockweise eingegeben wird und das SDS vorzugsweise eines oder mehrere oder alle der folgenden Merkmale aufweist:

- nach jeder Eingabepause erfolgt eine Quittierung, indem der letzte Eingabeblock von der Sprachausgabe wieder- holt wird,

- nach der Quittierung durch ein Kommando "Fehler", "falsch" o.a. wird der letzte Eingabeblock gelöscht und die verbleibenden, gespeicherten Blöcke akustisch aus¬ gegeben, - nach der Quittierung durch ein Kommando "Löschen" o.a. werden alle eingegebenen Buchstaben gelöscht und im An¬ schluß daran erfolgt eine erneute Eingabe,

- nach der Quittierung durch ein Kommando "wiederholen" o.a. werden die bisher gespeicherten Blöcke akustisch ausgegeben,

- nach der Quittierung werden weitere Buchstaben bzw. Buchstabenblöcke eingegeben,

- gegebenenfalls erfolgt ein Abgleich der Buchstabenko¬ lonne mit einer gespeicherten Wortliste und es wird (werden) daraus das (die) bestpassende(n) Wort (Wörter) extrahiert; alternativ hierzu kann dieser Abgleich be¬ reits nach Eingabe der einzelnen Buchstabenblocks er¬ folgen, - nach der Quittierung durch ein Kommando "Abbruch" oder eine ähnliche Kommandoeingabe wird die Eingabe der Buchstabenkolonne vollständig abgebrochen,

- nach der Quittierung wird die Buchstabeneingabe durch ein geeignetes Kommando abgeschlossen,

- die Ausgabelautstärke der Sprachausgabe und des "Pieps"- Tons den Umgebungsgeräuschen angepaßt sind, wobei die Umgebungsgeräusche während der Sprachpausen bezüglich ihrer Stärke und Charakteristik erfaßt werden, - der Zugang zum Sprachdialogsystem bzw. der Zugriff auf benutzerspezifische Daten/Kommandos nur nach Eingabe spe¬ zieller Schlüssel- oder Paßworte möglich ist bzw. nach Eingabe spezieller Schlüssel- oder Paßworte durch einen autorisierten Sprecher erfolgt, dessen Sprachcharakteri- stika dem Dialogsystem bekannt sind und von diesem ge¬ prüft werden,

- länger andauernde Sprachausgaben (z.B. Info-Menüs) durch gesprochene Abbruchkommandos oder durch die PTT- oder die Abbruchtaste vorzeitig beendet werden können, - das Sprachdialogsystem in einer der folgenden Formen die manuelle Bedienung obiger Funktionen (z.B. per Schalter, Taste, Drehknopf) ergänzt oder ersetzt:

- die Sprachkommandierung ersetzt keinerlei manuelle Be¬ dienung, sondern existiert neben der manuellen Bedie- nung (d.h. die Bedienung kann jederzeit manuell erfol¬ gen bzw. weitergeführt werden) ,

- einige spezielle Leistungsmerkmale sind nur per Sprach¬ eingabe aktivierbar, die wesentlichen Geräte- und Be¬ dienfunktionen bleiben sowohl manuell wie per Sprache kommandierbar,

- die Anzahl der manuellen Bedienelemente wird deutlich reduziert, einzelne Tasten bzw. Drehknöpfe übernehmen Mehrfachfunktionen; per Sprache wird manuellen Bedien- elementen eine spezielle Funktion zugewiesen; nur we¬ sentliche Bedienfunktionen sind noch manuell ansteuer¬ bar; die Basis der Bedienfunktionen ist jedoch die Sprachkommandierung, - mit einem einzigen Mehrwortkommando eine Vielzahl unter¬ schiedliche Geräte sowie Gerätefunktionen ansprech- und modifizierbar sind und somit eine umständliche mehrstu¬ fige Vorgehensweise (z.B. Auswahl des Gerätes im 1. Schritt, danach Auswahl der Funktion im 2. Schritt, da- nach Auswahl der Art der Änderung im 3. Schritt) nicht er¬ forderlich ist,

- das Sprachdialogsystem im Kfz für einzelne oder mehrere der im folgenden genannten Funktionen zur Anwendung kommt: - Bedienung einzelner oder mehrerer Geräte, wie z.B.

Autotelefon, Autoradio (ggf. mit Kassette, CD-Wechsler, Soundsystem) , Navigationssystem, Notruf, Telematikdien- ste, Bordmonitor, Klimaanlage, Heizung, Reiserechner, Beleuchtung, Schiebedach, Fensterheber, Sitzversteller, Sitzheizung, Heckscheibenheizung, Spiegelverstellung und -memory, Sitzverstellung und -memory, Lenkradver- stellung und -memory etc. ,

- Informationsabfrage von Parametern, wie z.B. Öldruck, -temperatur, Kühlwassertemperatur, Verbrauch, Reifen- druck etc. ,

- Information über notwendige Maßnahmen in besonderen Si¬ tuationen, wie z.B. bei zu hoher Kühlwassertemperatur, zu geringem Reifendruck etc.,

- Warnung des Fahrers bei Defekten des Fahrzeugs, wobei

- die sprachgesteuerte Auswahl eines neuen Senders im Autoradio vorzugsweise nach einem der folgenden Abläufe erfolgt: - Kommandierung des Suchlaufs auf- bzw. abwärts,

- Spracheingabe der Senderfrequenz vorzugsweise in der umgangssprachlichen Form (z.B. "Einhundertdreikomma- sieben" bzw. "Hundertdreikommasieben", "Hundertund- dreikommasieben" bzw. einschließlich der Frequenzan¬ gabe (z.B. "Hundertdreikommasieben MegaHertz") ) ,

- Spracheingabe des gebräuchlichen Sendernamens (z.B. "SDR1") ,

- bei der Klimaanlage die gewünschte Temperatur (ggf. nach dem Ort in der Fahrgastzelle des Kfz gestaffelt nach links, rechts, vorne, hinten) per Spracheingabe nicht nur relativ, sondern vorzugsweise absolut (d.h. in Grad, Fahrenheit o.a.) festgelegt werden kann und zusätzlich minimale bzw. maximale bzw. mittlere Tempe- ratur oder die Normaltemperatur kommandiert werden kön¬ nen; ähnlich können die Betriebsbedingungen für das Ge¬ bläse im Fahrgastraum festgelegt werden,

- dem Navigationssystem ein Zielort (Ortsname, Straßenna¬ me) durch Eingabe von Buchstabenkolonnen im "Buchsta- biermode" mitgeteilt wird, wobei auch der Anfang des Namens als Eingabe genügt und das Navigationssystem gegebenfalls mehrere Kandidaten zur Auswahl anbietet, eine oder mehrere der folgenden benutzerspezifischen Namenslisten eingerichtet werden: - Liste zur Speicherung von Telefonnummern unter vorgeb¬ baren Namen/Abkürzungen,

- Liste zur Speicherung von Zielen für das Navigations¬ system unter vorgebbaren Namen/Abkürzungen,

- Liste zur Speicherung von Funktionsnamen für Kommandos oder Kommandofolgen,

- Liste zur Speicherung von Senderfrequenzen des Autora¬ dios unter vorgebbaren Sendernamen bzw. Abkürzungen, - die Ausgabelautstärke der Sprachausgabe und des "Pieps"- Tσns, ggf. auch die Radiolautstärke, unter Berücksichti¬ gung eines oder mehrerer der folgenden Parameter festge¬ legt bzw. adaptiv angepaßt werden: - Fahrzeuggeschwindigkeit,

- Drehzahl,

- öffnungsbreite der Fenster und des Schiebedaches,

- Gebläseeinstellung,

- Fahrzeugtyp, - Wichtigkeit der Sprachausgabe in der jeweiligen Dialog¬ situation.

In einer bevorzugten Ausführungsform des geschilderten Sprachdialogsystems ist u.a. vorgesehen, daß die Ablauf-, Dialog-, Schnittstellensteuerung, die Sprachein-/-ausgabe sowie die Sprachsignalvorverarbeitung, Erkennung, syntak¬ tisch-grammatikalische und semantische Nachverarbeitung mittels Mikro- und Signalprozessoren, Speichern und Schnittstellenbausteinen erfolgt, vorzugsweise aber mit einem einzigen digitalen Signal- oder Mikroprozessor sowie dem erforderlichen externen Daten- und Programmspeicher, den Interfaces sowie den zugehörigen Treiberbausteinen, dem Taktgenerator, der Steuerlogik und den für Sprachein-/-aus- gabe erforderlichen Mikrofonen und Lautsprechern samt zuge- hörigen Wandlern und Verstärkern sowie gegebenenfalls einer Push-to-talk(PTT) -Taste und einer Abbruchtaste.

Ferner ist es möglich, daß über ein oder mehrere Interfaces

- Daten und/oder Parameter ladbar bzw. nachladbar sind, um z.B. Verfahrensänderungen oder ein Sprachdialogsystem für eine andere Sprache zu realisieren,

- die auf einem separaten Rechner festgelegte oder modifi¬ zierte Syntaxstruktur, Dialogstruktur, Ablaufsteuerung, Sprachausgabe etc. auf das Sprachdialogsystem übertragen werden ("off-linie Dialog Editor") ,

- Status- oder Diagnoseinformationen vom SDS angefordert und abgeholt werden können, - das Sprachdialogsystem mit mehreren der anzusteuernden

Geräte über ein Bussystem und/oder ein ringförmiges Netz¬ werk verknüpft ist (anstelle von Punkt zu Punkt-Verbin¬ dungen zu den einzelnen Geräten) und daß über diesen Bus bzw. das Netzwerk Steuerdaten bzw. Audiosignale bzw. Sta- tusmeldungen des Kfz bzw. der zu bedienenden Geräte über¬ tragen werden,

- die einzelnen anzusteuernden Geräte nicht jeweils ein eigenes Sprachdialogsystem enthalten, sondern von einem einzigen (gemeinsamen) Sprachdialogsystem bedient werden, - eine oder mehrere Schnittstellen zu Fahrzeugkomponenten oder Fahrzeugrechnern bestehen, worüber permanente oder aktuelle Fahrzeugdaten dem Sprachdialogsystem mitgeteilt werden, wie z.B. Geschwindigkeit, Motortemperatur usw.

- das Sprachdialogsystem während der Wartezeit (in der kei- ne Sprachein- oder -ausgäbe erfolgt) andere Funktionen z.B. des Radios, des Telefons o.a. übernimmt,

- durch erweiterten Speicher ein multilinguales sprecherun¬ abhängiges Dialogsystem aufgebaut wird, wobei kurzfristig zwischen den Dialogsystemen verschiedener Sprachen umge- schaltet werden kann,

- ein optisches Display mit dem Sprachdialogsystem über ein spezielles Interface bzw. über den Busanschluß gekoppelt ist, wobei dieser Bus vorzugsweise ein optischer Datenbus ist und hierüber sowohl Steuer- wie Audiosignale übertra- gen werden.

Es versteht sich, daß die Erfindung nicht auf die darge¬ stellten Ausfuhrungs- und Anwendungsbeispiele beschränkt ist, sondern vielmehr sinngemäß auf weitere übertragbar ist. So ist es z.B. denkbar, ein solches Sprachdialogsystem zur Bedienung eines elektrischen Wörterbuches oder eines elektronischen Diktier- bzw. Übersetzungssystems zu verwen- den.

Eine besondere Ausgestaltung der Erfindung besteht darin, daß

• für relativ begrenzte Anwendungen mit kleiner Syntax die syntaktische Überprüfung in Form eines syntaktischen Bi¬ gram-Sprachmodells in den Erkennungsprozeß einbezogen wird und somit die syntaktische Nachverarbeitung entfal¬ len kann,

• bei komplexen Aufgabenstellungen die Schnittstelle zwi- sehen Erkenner und Nachverarbeitung nicht mehr einzelne

Sätze, sondern ein sog. "Worthypothesennetz" ist, aus dem in einer Nachverarbeitungsstufe aufgrund syntaktischer Vorgaben mit speziellen Paarungs-Strategien der bestpas¬ sende Satz extrahiert wird.

Ferner ist es möglich, ergänzend oder alternativ zur Sprachausgabe eine auf optischer Basis arbeitende Ausgabe¬ einheit (z.B. Display) vorzusehen, auf der z.B. die einge¬ gebenen Sprachkommandos in der vom SDS erkannten Form zur Anzeige gebracht werden.

Schließlich ist es denkbar, daß das aktivierte SDS auch da¬ durch wieder deaktiviert werden kann, indem über eine län¬ gere, vom System entweder fest vorgegebene oder adaptiv auf den Benutzer/Sprecher eingestellte Zeitdauer vom Benutzer/ Sprecher kein neues Sprachkommando mehr eingegeben wird. Abkürzungen

PTT Push-to-Talk

HMM Hidden Markov Modelle

DTW Dynamic Time Warping (dynamische Zeitnormierung)

CMF Mittelwert befreite Cepstralvektoren

DCT Digitale Cosinus Transformation FFT Fast Fourier Transformation

LDA Lineare Diskriminanzanalyse

PCM Pulse Code Modulation

VQ Vektorquantisierung

SDS Sprachdialogsystem SBS Sprachbediensystem

Claims

Patentansprüche

1. Verfahren zur automatischen Steuerung eines oder mehre¬ rer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb, gekennzeichnet durch folgende Merkmale:

- die eingegebenen Sprachkommandos werden mittels eines sprecherunabhängigen Verbundwort-Spracherkenners und ggf. eines sprecherabhängigen Zusatz-Spracherkenners erkannt und gemäß ihrer Erkennungswahrscheinlichkeit klassifi¬ ziert,

- erkannte zulässige Sprachkommandos werden auf ihre Plau¬ sibilität überprüft und dasjenige zulässige und plausible Sprachkommando mit der größten Erkennungswahrscheinlich- keit als das eingegebene Sprachkommando identifiziert und die diesem Sprachkommando zugeordneten Funktionen des oder der Geräte bzw. Antworten des Sprachdialogsystems initiiert bzw. generiert.

2. Verfahren nach Anspruch 1, gekennzeichnet durch folgen- de Merkmale:

• die Sprachkommandos (der Sprachdialog) werden (wird) auf der Basis von mindestens einer Syntaxstruktur, mindestens einem Basiskommandovokabular und bei Bedarf mindestens einem sprecherspezifischen Zusatzkommandovokabular gebil- det (geführt) ;

• die Syntaxstruktur(en) und das (die) Basiskommandovokabu- lar(ien) werden in sprecherunabhängiger Form vorgegeben und sind während des Echtzeitbetriebs fixiert;

• das (die) sprecherspezifische(n) Zusatzkommandovokabular (ien) wird (werden) vom (jeweiligen) Sprecher eingegeben und/oder geändert, indem in Trainingsphasen in- und/oder außerhalb des Echtzeitbetriebs ein nach einem sprecher- abhängigen Erkennungsverfahren arbeitender Zusatz-Spra¬ cherkenner vom (jeweiligen) Sprecher durch ein- oder mehrmalige Eingabe der Zusatzkommandos auf die sprachspe- zifischen Merkmale des (jeweiligen) Sprechers trainiert wird;

• im Echtzeitbetrieb erfolgt die Abwicklung des Sprachdia- logs und/oder die Steuerung des Geräts (der Geräte) wie folgt: vom (jeweiligen) Sprecher eingegebene Sprachkommandos werden einem sprecherunabhängigen und auf der Basis von Phonemen und/oder Ganzwortmodellen arbeitenden Verbundwortspracherkenner und dem sprecherabhängigen Zusatz-Spracherkenner zugeleitet und dort (jeweils) einer Merkmalsextraktion unterzogen und im Verbundwortspracherkenner anhand der dort ex¬ trahierten Merkmale auf das Vorliegen von Basiskom¬ mandos aus dem (jeweiligen) Basiskommandovokabular gemäß der (jeweils) vorgegebenen Syntaxstruktur un¬ tersucht und klassifiziert und im sprecherabhängigen Zusatz-Spracherkenner anhand der dort extrahierten Merkmale auf das Vorliegen von Zusatzkommandos aus dem (jeweiligen) Zusatzkom- mandovokabular untersucht und klassifiziert; anschließend werden die als mit einer bestimmten Wahr¬ scheinlichkeit erkannt klassifizierten Kommandos und Syntaxstrukturen der beiden Spracherkenner zu hypothe- tischen Sprachkommandos zusammengefügt und diese gemäß der vorgegebenen Syntaxstruktur auf ihre Zulässigkeit und Erkennungswahrscheinlichkeit untersucht und klas¬ sifiziert; - anschließend werden die zulässigen hypothetischen Sprachkommandos nach vorgegebenen Kriterien auf ihre

Plausibilität untersucht und von den als plausibel er¬ kannten hypothetischen Sprachkommandos dasjenige mit der höchsten Erkennungswahrscheinlichkeit ausgewählt und als das vom (jeweiligen) Sprecher eingegebene Sprachkommando identifiziert; anschließend wird (werden) die dem identifizierten Sprachkommando zugeordnete (n)

Funktion(en) des (jeweils) zu steuernden Geräts initiiert und/oder - Antwort(en) gemäß einer vorgegebenen Sprachdialog- struktur zur Fortführung des Sprachdialogs gene¬ riert.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß die Eingabe von Sprachkommandos aku¬ stisch, vorzugsweise im Freisprechbetrieb, erfolgt.

4. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß akustisch eingegebene Sprachkom- mandos geräuschreduziert den beiden Spracherkennern zuge- leitet werden, indem durch stationäre bzw. quasistationäre Umgebungsgeräusche verursachte Geräuschsignale im Sprachsi¬ gnal-Empfangskanal vor den beiden Spracherkennern vorzugs¬ weise mittels adaptiver digitaler Filterverfahren kompen- siert werden.

5. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß akustisch eingegebene Sprachkom¬ mandos echokompensiert den beiden Spracherkennern zugelei- tet werden, indem in den Sprachsignal-Empfangskanal rückge¬ koppelte Signale einer Sprach- oder Musikausgabeeinheit im Sprachsignal-Empfangskanal vor den beiden Spracherkennern, insbesondere vor der Geräuschreduktionseinheit und vorzugs¬ weise mittels adaptiver digitaler Filterverfahren, kompen- siert werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß die eingegebenen Sprachkommandos nach Digitalisierung blockweise zusammengefaßt und nach einer Gewichtung mittels einer Spektraltransformation, vor¬ zugsweise einer Fast-Fourier-Transformation (FFT) , in den Frequenzbereich umgesetzt werden und anschließend durch Be- tragsbildung und nachfolgender gehörbezogener MEL-Filterung zu Kanalvektoren zusammengefaßt werden und daß daran an- schließend eine Segmentierung durchgeführt wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Segmentierung in eine Grob- und eine Feinsegmentierung unterteilt ist.

8. Verfahren nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, daß im sprecherunabhängigen Verbundwort¬ spracherkenner die Merkmalsextraktion dergestalt durchge¬ führt wird, • daß die Kanalvektoren mit einer diskreten Cosinustrans¬ formation (DCT) in Cepstralvektoren transformiert werden,

• daß zusätzlich die Energie des zugehörigen Signals be¬ rechnet und normiert wird, • daß zur Adaption des Erkenners auf den jeweiligen Spre¬ cher und/oder die jeweiligen Übertragungscharakteristiken des Sprachsignal-Empfangskanals fortlaufend der Mittel¬ wert der Cepstralvektoren berechnet und von den Cepstral¬ vektoren abgezogen wird, • daß die vom Mittelwert der Cepstralvektoren befreite Cep¬ stralvektoren und die berechnete normierte Signalenergie zu mittelwertfreien Cepstralkoeffizienten (CMF-Vektoren) zusammengefaßt werden.

9. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß der sprecherunabhängige Verbund- worterkenner bei der Klassifizierung mit phonem- und/oder ganzwortbasierten Hidden-Markov-Modellen (HMM) arbeitet.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die Klassifikation mit Hilfe eines Viterbialgorithmus durchgeführt wird und daß der Viterbialgorithmus vorzugs¬ weise durch eine vorgegebene Wortfolgestatistik ergänzt wird.

11. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß bei der Klassifikation zusätzlich auch Füllwörter oder -laute oder sonstige im vorgegebenen Basisvokabular nicht enthaltene Fehlkommandos als solche erkannt und entsprechend klassifiziert und ausgesondert werden.

12. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß der sprecherunabhängige Verbund- wort-Spracherkenner und der sprecherabhängige Zusatz- Spracherkenner auf derselben Signalvorverarbeitung für die eingegebenen Sprachkommandos aufsetzen, vorzugsweise ein¬ schließlich der Verfahren zur Geräuschreduktion, Echokom- pensation und Segmentierung.

13. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß der Zusatzspracherkenner als Ein- zelwortspracherkenner vorzugsweise nach dem Verfahren der dynamischen Zeitnormierung arbeitet.

14. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß der sprecherunabhängige Verbund¬ wort-Spracherkenner und der sprecherabhängige Spracherken- ner kombiniert im Verbundwortmodus arbeiten.

15. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß während des Echtzeitbetriebs eine fortlaufende Anpassung des Sprachsignal-Empfangskanals an die analoge Übertragungscharakteristik, insbesondere Raum¬ akustik- und/oder Mikrofon- und/oder Verstärker- und/oder Sprechercharakteristik, erfolgt.

16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß die vorgegebenen Basiskommandos in sprachcodierter Form vorgegeben und abgespeichert werden und/oder die vom (jeweiligen) Sprecher in Trainingsphasen eingegebenen Zusatzkommandos und/oder im Echtzeitbetrieb eingegebenen Sprachkommandos nach ihrer Eingabe sprachco- diert weiterverarbeitet und/oder nichtflüchtig abgespei¬ chert werden und daß akustisch auszugebende codierte Sprachkommandos vor ihrer Ausgabe sprachdecodiert werden.

17. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß die vorgegebenen Basiskommandos und/ oder die Zusatzkommandos und/oder die im Echtzeitbetrieb eingegebenen Sprachkommandos in Form von Text abgespeichert werden und daß akustisch auszugebende Sprachkommandos vor ihrer Ausgabe einer Text-zu-Sprache-Synthese unterzogen werden.

18. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß die Syntaxstruktur und die spre¬ cherunabhängigen Kommandos vorab im "off-line Dialog Edi- tiermodus" im Labor erstellt und fixiert werden und dem

Verbundwort-Spracherkenner in Form von Datenfiles übergeben werden.

19. Verfahren nach einem der vorhergehenden Ansprüche, da- durch gekennzeichnet, daß

• die Wortstellung in den Sprachkommandos durch Vertauschen einzelner Worte eines Kommandos veränderbar ist und/oder

• vorgegebene synonyme Worte bei der Bildung von Sprachkom¬ mandos nutzbar sind und/oder • die gleiche Funktion durch Sprachkommandos unterschiedli¬ cher Wortanzahl realisiert werden kann.

20. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß zur Erkennung und anschließender Aussonderung von Einfügungen oder anderer nicht zum Vokabu¬ lar gehöriger Kommandos dem zulässigen Vokabular weitere Wörter bzw. Lauteinheiten hinzugefügt werden bzw. Wordspot- tingansätze genutzt werden.

21. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß die Dialogstruktur folgende Eigenschaften aufweist:

• flache Hierarchie mit nur einigen wenigen Hierarchieebe¬ nen, vorzugsweise einer oder zweier Hierarchieebenen, • Einbindung von Ellipsen bei der Abwicklung des Sprachdia¬ logs,

• Einbeziehung von Hilfe- oder Info-Menüs,

• Einbeziehung von Rückfragen des Sprachdialogsystems bei unsicheren Entscheidungen des Erkenners,

• Einbeziehung von Sprachausgaben, um durch Anregung be¬ stimmter Sprechweisen die Erkennsicherheit zu steigern.

22. Verfahren nach einem der vorhergehenden Ansprüche, da- durch gekennzeichnet, daß die Spracherkennung bzw. der

Sprachdialog zur Steuerung einer oder mehrerer Gerätefunk¬ tionen durch vorzugsweise einmalige Betätigung einer Push- to-talk-Taste (PTT) aktiviert wird und diese Aktivierung vorzugsweise akustisch und/oder optisch quittiert wird.

23. Verfahren nach einem der Ansprüche 1 bis 22, dadurch gekennzeichnet, daß die Aktivierung automatisch abgebrochen wird, wenn nach einer vorgebbaren oder adaptiv auf den je¬ weiligen Benutzer eingestellten Zeit und/oder nach einer Rückfrage des Sprachdialogsystems keine Spracheingabe er¬ folgt ist oder wenn der vom Benutzer ausgewählte Dialog planmäßig abgeschlossen worden ist.

24. Verfahren nach einem der vorhergehenden Ansprüche, da- durch gekennzeichnet, daß der Sprachdialog bzw. die Eingabe von Sprachkommandos durch Eingabe eines vorgegebenen spe¬ ziellen Abbruch-Sprachkommandos an definierten Stellen des Sprachdialogs oder jederzeit durch das Betätigen einer Ta¬ ste, vorzugsweise der Push-to-talk-Taste oder einer Ab- bruchtaste, abgebrochen werden kann.

25. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß das Sprachdialogsystem eines oder mehrere der folgenden Leistungsmerkmale aufweist: • die spezifischen (z.B. trainierten) Sprachkommandos un¬ terschiedlicher Sprecher werden bei Bedarf für spätere Wiederbenutzung festgehalten,

• vom Sprecher trainierte Sprachkommandos bzw. Namen werden während der Trainingsphase nicht nur der Erkennung zuge¬ führt, sondern auch in ihrem zeitlichen Verlauf aufgenom¬ men, einer Datenkompression ("Sprachkodierung") zugeführt und nichtflüchtig gespeichert,

• die vom Sprecher trainierten Sprachkommandos werden wäh- rend der Trainingsphase derart verarbeitet, daß Umge- bungsgeräusche während der Aufnahme weitestgehend kompen¬ siert werden.

26. Verfahren nach einem der vorhergehenden Ansprüche, da- durch gekennzeichnet, daß der Abschluß eines Erkennvorgan¬ ges akustisch durch einen Kontrollton quittiert wird.

27. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß vorzugsweise bei sicherheits- bzw. zeit- oder kostenrelevanten Entscheidungen das Erken- nungsergebnis akustisch wiederholt wird (Sprachausgabe) und der Sprecher die Möglichkeit hat, durch ein Sprachkommando oder durch Betätigen eines Schalters, vorzugsweise der Push-to-talk- oder der Abbruchtaste die Ausführung der dem Sprachkommando zugeordneten Funktion zu unterbinden oder rückgängig zu machen.

28. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß das Sprachdialogsystem an ein op- tisches Anzeigemedium, vorzugsweise ein LCD-Display oder einen Monitor oder ein Display eines angesteuerten Geräts, gekoppelt ist.

29. Verfahren nach Anspruch 28, dadurch gekennzeichnet, daß das optische Anzeigenmedium einzelne oder mehrere der folgenden Funktionen übernimmt:

• Ausgabe der erkannten Sprachkommandos zu Kontrollzwecken, • Darstellung der vom Zielgerät als Reaktion auf das Sprachkommando eingestellten Funktionen,

• Darstellung verschiedener Funktionen/Alternativen, die per Sprachkommando anschließend eingestellt bzw. ausge¬ wählt oder modifiziert werden.

30. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß jeder Sprecher eigene Namens¬ oder Abkürzungslisten einrichten kann mit einem oder mehre¬ ren oder allen der folgenden Merkmale: • der vom Sprecher beim sprecherabhangigen Erkenner trai¬ nierte Namen repräsentiert eine Ziffernkette, Buchstaben¬ kette und/oder ein Kommando bzw. eine Kommandosequenz, die im sprecherunabhängigen Betriebsmodus eingegeben wur¬ de, • anstelle der erneuten Eingabe der Ziffernkette, Buchsta- benkette oder Kommandosequenz kann der Benutzer die Li¬ stenbezeichnung und den von ihm gewählten Namen eingeben, oder neben dem Namen ein geeignetes Kommando eingeben, welches auf die richtige Liste schließen läßt, • die Liste kann sprachgesteuert jederzeit um weitere Ein¬ träge erweitert werden,

• die Liste kann sprachgesteuert komplett oder selektiv gelöscht werden,

• die Liste kann auf einen Sprachbefehl hin abgehört wer- den, wobei die vom Benutzer eingegebenen Namen und bei

Bedarf die zugehörigen Ziffernkette, Buchstabenkette bzw. Kommandos akustisch ausgegeben werden,

• die akustische Ausgabe der Liste kann zu jedem beliebigen Zeitpunkt abgebrochen werden.

31. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß eine Folge von Ziffern (Ziffern¬ kolonne) an einem Stück zusammenhängend oder blockweise eingesprochen werden kann, wobei die Spracheingabe bzw. der Sprachdialog vorzugsweise eines oder mehrere oder alle der folgenden Merkmale aufweist:

• nach jeder Eingabepause erfolgt eine Quittierung, indem der letzte Eingabeblock von der Sprachausgabe wiederholt wird, • nach der Quittierung durch ein Sprachkommando "Fehler" o.a. wird der letzte Eingabeblock gelöscht und die ver¬ bleibenden, gespeicherten Blöcke akustisch ausgegeben,

• nach der Quittierung durch ein Sprachkommando "Löschen" o.a. werden alle eingegebenen Ziffernblöcke gelöscht, • nach der Quittierung durch ein Sprachkommando "wiederho¬ len" o.a. werden die bisher gespeicherten Blöcke aku¬ stisch ausgegeben,

• nach der Quittierung durch ein Sprachkommando "Abbruch" o.a. wird die Eingabe der Ziffernkolonne vollständig ab- gebrochen,

• nach der Quittierung können weitere Ziffern bzw. Ziffern¬ blöcke eingegeben werden,

• nach der Quittierung wird die Zifferneingabe durch ein geeignetes Sprachkommando "stop", "speichern" o.a. abge- schlössen,

• durch Eingabe eines eine Aktion/Funktion startenden Sprachkommandos wie "wählen" o.a. wird die Eingabe abge¬ schlossen und die dem Sprachkommando zugeordnete Aktion/ Funktion initiiert.

32. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß eine Folge von Buchstaben (Buch¬ stabenkolonne) eingesprochen wird, welche zur Auswahl kom¬ plexer Funktionen bzw. zur Eingabe einer Vielzahl von In- formationen vorgesehen ist, wobei die Buchstabenkolonne zusammenhängend oder blockweise eingegeben wird und die Spracheingabe bzw. der Sprachdialog vorzugsweise eines oder mehrere oder alle der folgenen Merkmale aufweist: • nach jeder Eingabepause erfolgt eine Quittierung, indem der letzte Eingabeblock von der Sprachausgabe wiederholt wird,

• nach der Quittierung durch ein Sprachkommando "Fehler" o.a. wird der letzte Eingabeblock gelöscht und die ver- bleibenden, gespeicherten Blöcke akustisch ausgegeben,

• nach der Quittierung durch ein Sprachkommando "Löschen" o.a. werden alle eingegebenen Buchstaben gelöscht und im Anschluß daran kann eine erneute Eingabe erfolgen,

• nach der Quittierung durch ein Sprachkommando "wiederho- len" o.a. werden die bisher gespeicherten Blöcke aku¬ stisch ausgegeben,

• nach der Quittierung können weitere Buchstaben bzw. Buch- stabenblöcke eingegeben werden,

• gegebenenfalls erfolgt ein Abgleich der Buchstabenkolonne oder der einzelnen Buchstabenblocks mit einer gespeicher¬ ten Wortliste und es wird (werden) daraus das (die) best¬ passende(n) Wort (Wörter) extrahiert,

• nach der Quittierung durch ein Sprachkommando "Abbruch" o.a. wird die Eingabe der Buchstabenkolonne vollständig abgebrochen,

• nach der Quittierung wird die Buchstabeneingabe durch ein Sprachkommando "stop", "speichern" o.a. abgeschlossen,

• durch Eingabe eines eine Aktion/Funktion startenden Sprachkommandos wie "wählen" o.a. wird die Eingabe abge- schlössen und die dem Sprachkommando zugeordnete Aktion/ Funktion initiiert.

33. Verfahren nach einem der Ansprüche 31 oder 32, dadurch gekennzeichnet, daß bei der auf das Sprachkommando "Fehler" o.a. bzw. auf das Sprachkommando "wiederholen" o.a. folgen¬ den Ausgabe der bisher eingesprochenen Ziffern dieselbe Blockung benutzt wird wie bei der Eingabe.

34. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß die Ausgabelautstärke der Sprach¬ ausgabe und des Kontrolltons den Umgebungsgeräuschen ange¬ paßt sind, wobei die Umgebungsgeräusche während der Sprach¬ pausen bezüglich ihrer Stärke und Charakteristik erfaßt werden.

35. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß der Zugang zum Sprachdialogsystem bzw. der Zugriff auf benutzerspezifische Daten/Kommandos nur durch Eingabe spezieller Kommandoworte bzw. durch Ein¬ gabe spezieller Kommandoworte eines autorisierten Sprechers erfolgt, dessen Sprachcharakteristika dem Sprachdialogsy¬ stem bekannt sind und von diesem geprüft werden.

36. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß länger andauernde Sprachausgaben (z.B. Info-Menüs) durch gesprochene oder manuelle Abbruch- kommandos vorzeitig beendet werden können.

37. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß das Sprachdialogsystem in einer der folgenden Formen die manuelle Bedienung obiger Funktio¬ nen (z.B. per Schalter, Taste, Drehknopf) ergänzt oder er¬ setzt: • Die Sprachkommandierung existiert neben der manuellen Be¬ dienung, so daß die Bedienung jederzeit manuell erfolgen bzw. weitergeführt werden kann;

• einige spezielle Leistungsmerkmale sind nur per Sprach¬ eingabe aktivierbar, die anderen Geräte- und Bedienfunk- tionen bleiben sowohl manuell wie per Sprache kommandier¬ bar;

• die Anzahl der manuellen Bedienelemente wird deutlich re¬ duziert, einzelne Tasten bzw. Drehknöpfe übernehmen Mehr- fachfunktion; per Sprache wird manuellen Bedienelementen eine spezielle Funktion zugewiesen; nur wesentliche Be¬ dienfunktionen sind noch manuell ansteuerbar; die Basis der Bedienfunktionen ist die Sprachkommandierung.

38. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß mit einem einzigen Einzelwort¬ oder Mehrwortkommando eine Vielzahl unterschiedliche Geräte sowie Gerätefunktionen ansprech- und modifizierbar sind und somit eine mehrstufige Vorgehensweise nicht oder nur in einem geringen Umfang erforderlich ist.

39. Verfahren nach einem der vorhergehenden Ansprüche, da¬ durch gekennzeichnet, daß das Sprachdialogsystem in Fahr¬ zeugen für einzelne oder mehrere der im folgenden genannten Funktionen zur Anwendung kommt:

• Bedienung einzelner oder mehrerer Geräte, wie z.B. Auto¬ telefon, Autoradio (ggf. mit Kassette, CD-Wechsler, Soundsystem) , Navigationssystem, Notruf, Bordmonitor, Klimaanlage, Heizung, Reiserechner, Beleuchtung, Schiebe- dach, Fensterheber, Sitzversteller;

• Informationsabfrage von Parametern, wie z.B. Öldruck, -temperatur, Kühlwassertemperatur, Verbrauch, Reifen¬ druck;

• Information über notwendige Maßnahmen z.B. bei zu hoher Kühlwassertemperatur, zu geringem Reifendruck;

• Warnung des Fahrers bei Defekten des Fahrzeugs.

40. Verfahren nach Anspruch 39, dadurch gekennzeichnet, daß die sprachgesteuerte Auswahl eines neuen Senders im Autoradio nach einem der folgenden Abläufe erfolgt:

• Kommandierung des Suchlaufs auf- bzw. abwärts, • Spracheingabe der Senderfrequenz vorzugsweise in der um¬ gangssprachlichen Form, vorzugsweise einschließlich der Frequenzangabe,

• Spracheingabe des gebräuchlichen Sendernamens.

41. Verfahren nach Anspruch 39, dadurch gekennzeichnet, daß bei der Klimaanlage die gewünschte Temperatur per Spracheingabe relativ und/oder vorzugsweise absolut fest¬ gelegt werden kann und vorzugsweise zusätzlich eine minima¬ le bzw. maximale bzw. mittlere Temperatur bzw. Normaltem- peratur kommandiert werden kann.

42. Verfahren nach Anspruch 39, dadurch gekennzeichnet, daß dem Navigationssystem ein Zielort (Ortsname, Straßenna¬ me) durch Eingabe von Buchstabenkolonnen im "Buchstabier- mode" mitgeteilt wird, wobei vorzugsweise auch der Anfang des Namens als Eingabe genügt und das Navigationssystem ge¬ gebenfalls mehrere Kandidaten zur Auswahl anbietet.

43. Verfahren nach einem der Ansprüche 39 bis 42, dadurch gekennzeichnet, daß eine oder mehrere der folgenden benut- zerspezifischen Namenslisten eingerichtet werden:

• Liste zur Speicherung von Telefonnummern unter vorgebba¬ ren Namen/Abkürzungen,

• Liste zur Speicherung von Zielen für das Navigationssy- stem unter vorgebbaren Namen/Abkürzungen,

• Liste zur Speicherung von Funktionsnamen für Kommandos oder Kommandofolgen,

• Liste zur Speicherung von Senderfrequenzen des Autoradios unter vorgebbaren Sendernamen bzw. Abkürzungen.

44. Verfahren nach einem der Ansprüche 39 bis 43, dadurch gekennzeichnet, daß die Ausgabelautstärke der Sprachausgabe und des Kontrolltons oder der Kontrolltöne, ggf. auch die Radiolautstarke, unter Berücksichtigung eines oder mehrerer der folgenden Parameter festgelegt oder adaptiv angepaßt werden:

• Fahrzeuggeschwindigkeit

• Gebläseeinstellung

• Drehzahl • Öffnungsbreite der Fenster und des Schiebedaches

• Fahrzeugtyp,

• Wichtigkeit der Sprachausgabe in der jeweiligen Dialogsi¬ tuation.

45. Verfahren nach einem der Ansprüche 22 bis 44, dadurch gekennzeichnet, daß die Push-to-talk-Taste

• entweder Mehrfachfunktionen wahrnimmt oder beinhaltet, z.B. während des Telefonierens ( "Auflegen des Hörers", "Abheben des Hörers") bzw. beim Neustart des Sprachdia- logsystems bzw. beim Abbruch eines Telefonwahlvorganges,

• oder ergänzt wird durch einen zusätzlichen Schalter oder eine zusätzliche Schaltposition, welche z.B. einen Neu¬ start oder den Abbruch einer Funktion erlauben.

46. Vorrichtung zum Ausführen des Verfahrens nach einem der vorhergehenden Ansprüche, bei welcher eine Sprachein- gabe-/-ausgabeeinheit über eine Sprachsignalvorverarbei- tungseinheit mit einer Spracherkennungseinheit verbunden ist, die wiederum mit einer Ablauf-, Dialog- und Schnitt- Stellensteuerung verbunden ist, dadurch gekennzeichnet, daß die Spracherkennungseinheit aus einem sprecherunabhängigen Verbundworterkenner und einem sprecherabhängigen Zusatz- Spracherkenner besteht, die beide ausgangsseitig mit einer Einheit zur syntaktisch-grammatikalischen bzw. semantischen Nachverarbeitung verbunden sind, die mit der Ablauf-, Dia¬ log- und Schnittstellensteuerung verbunden ist.

47. Vorrichtung nach Anspruch 46, dadurch gekennzeichnet, daß die Sprachsignalvorverarbeitungseinheit eine Vorrich¬ tung zur Geräuschreduktion und/oder eine Vorrichtung zur Echokompensation und/oder eine Vorrichtung zur Segmentie¬ rung enthält.

48. Vorrichtung nach einem der Ansprüche 46 oder 47, da¬ durch gekennzeichnet, daß die Spracheingabe-/-ausgabeein- heit einen Sprachencoder, einen Sprachdecoder sowie einen Sprachspeicher enthält.

49. Vorrichtung nach einem der Ansprüche 46 bis 48, da¬ durch gekennzeichnet, daß die Ablauf-, Dialog- und Schnitt¬ stellensteuerung, die Sprachein-/-ausgabe sowie die Sprach¬ signalvorverarbeitung, Spracherkennung, syntaktisch-gramma¬ tikalische und semantische Nachverarbeitung mittels Mikro- und Signalprozessoren, Speichern und Schnittstellenbaustei¬ ne erfolgt, vorzugsweise aber mit einem einzigen digitalen Signal- oder Mikroprozessor sowie dem erforderlichen exter¬ nen Daten- und Programmspeicher, den Interfaces sowie den zugehörigen Treiberbausteinen, einem Taktgenerator, einer Steuerlogik und den für Sprachein-/-ausgabe erforderlichen Mikrofonen und Lautsprechern samt zugehörigen Wandlern und Verstärkern sowie gegebenenfalls einer Push-to-talk(PTT) - Taste und einer Abbruchtaste.

50. Vorrichtung nach Anspruch 49, dadurch gekennzeichnet, daß über ein oder mehrere Interfaces

• Daten und/oder Parameter ladbar bzw. nachladbar sind, um z.B. Verfahrensänderungen oder ein Sprachdialogsystem für eine andere Sprache zu realisieren, • die auf einem separaten Rechner festgelegte oder modifi¬ zierte Syntaxstruktur, Dialogstruktur, Ablaufsteuerung, Sprachausgabe etc. auf das Sprachdialogsystem übertragen werden ("off-linie Dialog-Editor") , • Status- oder Diagnoseinformationen vom Sprachdialogsystem angefordert und abgeholt werden können.

51. Vorrichtung nach Anspruch 49, dadurch gekennzeichnet, daß diese mit mehreren der anzusteuernden Geräte über ein Bussystem oder ein ringförmiges Netzwerk verknüpft ist und daß über diesen Bus bzw. das Netzwerk Steuerdaten und/oder Audiosignale und/oder Statusmeldungen des Sprachdialogsy¬ stems und/oder der zu bedienenden Geräte übertragen werden.

52. Vorrichtung nach einem der Ansprüche 46 bis 51 für die Anwendung in Fahrzeugen, dadurch gekennzeichnet, daß die einzelnen anzusteuernden Geräte nicht jeweils ein eigenes Sprachdialogsystem enthalten, sondern von einem einzigen gemeinsamen Sprachdialogsystem bedient werden.

53. Vorrichtung nach einem der Ansprüche 46 bis 52, da¬ durch gekennzeichnet, daß eine oder mehrere Schnittstellen zu Fahrzeugkomponenten oder Fahrzeugrechnern bestehen, wo¬ rüber permanente oder aktuelle Fahrzeugdaten dem Sprachdia- logsystem mitgeteilt werden, wie z. B. Geschwindigkeit.

54. Vorrichtung nach einem der Ansprüche 46 bis 53, da¬ durch gekennzeichnet, daß diese Vorrichtung während der Wartezeiten, in denen keine Sprachein- oder -ausgäbe er- folgt, andere Funktionen z.B. des Radios, des Telefons o.a. übernimmt.

55. Vorrichtung nach einem der Ansprüche 46 bis 54, da¬ durch gekennzeichnet, daß mittels eines erweiterten Spei- chers ein multilinguales sprecherunabhängiges Dialogsystem realisiert ist, wobei zwischen den Dialogsystemen ver¬ schiedener Sprachen umgeschaltet werden kann.

56. Vorrichtung nach einem der Ansprüche 46 bis 55, da- durch gekennzeichnet, daß ein optisches Display mit dem

Sprachdialogsystem über ein spezielles Interface bzw. über den Busanschluß gekoppelt ist.

57. Vorrichtung nach einem der Ansprüche 46 bis 56, da- durch gekennzeichnet, daß das vollständige Sprachdialogsy¬ stem über eine PCMCIA-Schnittstelle mit dem per Sprache zu steuernden bzw. zu bedienenden Gerät bzw. einem Host- oder Applikationsrechner gekoppelt ist.

58. Vorrichtung nach Anspruch 51 oder 57, dadurch gekenn¬ zeichnet, daß dieser Bus oder dieses Netzwerk ein optischer Datenbus ist und hierüber sowohl Steuer- wie Audiosignale bzw. Statusmeldungen des Sprachdialogsystems und der zu be¬ dienenden Geräte übertragen werden.