DE19533541C1 - Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens - Google Patents
Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des VerfahrensInfo
- Publication number
- DE19533541C1 DE19533541C1 DE19533541A DE19533541A DE19533541C1 DE 19533541 C1 DE19533541 C1 DE 19533541C1 DE 19533541 A DE19533541 A DE 19533541A DE 19533541 A DE19533541 A DE 19533541A DE 19533541 C1 DE19533541 C1 DE 19533541C1
- Authority
- DE
- Germany
- Prior art keywords
- voice
- speech
- speaker
- command
- commands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Description
Die Erfindung betrifft ein Verfahren zur automatischen
Steuerung eines oder mehrerer Geräte durch Sprachkommandos
oder per Sprachdialog im Echtzeitbetrieb gemäß Oberbegriff
des Patentanspruchs 1 sowie eine Vorrichtung zum Ausführen
des Verfahrens gemäß Oberbegriff des Patentanspruchs 50.
Ein solches Verfahren ist bereits aus der DE 38 19 178 A1
bekannt.
Verfahren bzw. Vorrichtungen dieser Art werden allgemein in
sogenannten Sprachdialog- bzw. Sprachbediensystemen z. B.
für Fahrzeuge, Computer, Roboter, Maschinen, Anlagen usw.
eingesetzt.
Ein Sprachdialogsystem (SDS) läßt sich i.a. im wesentlichen
auf folgende Komponenten reduzieren (vgl. hierzu z. B.: F.
Class, H. Katterfeldt, P. Regel: "Methoden und Algorithmen
der Worterkennung"; in: H. Mangold (Herausgeber): Sprachli
che Mensch-Maschine-Kommunikation (Verlag Oldenbourg,
1992), Seiten 1 bis 13):
⚫ Spracherkennungssystem, welches ein eingesprochenes Kom mando ("Sprachkommando") mit anderen erlaubten Sprachkom mandos vergleicht und eine Entscheidung trifft, welches Kommando aller Wahrscheinlichkeit nach eingesprochen wurde,
⚫ Sprachausgabe, welche die zur Benutzerführung erforderli chen Sprachbefehle und Signalisierungstöne ausgibt und ggf. das Erkennergebnis rückmeldet,
⚫ Dialog- und Ablaufsteuerung, um dem Benutzer zu verdeut lichen, welche Art von Eingabe erwartet wird, bzw. um zu prüfen, ob die erfolgte Eingabe konsistent ist mit der Aufforderung und mit dem momentanen Status der Applika tion, und um die resultierende Aktion bei der Applikation (z. B. dem zu steuernden Gerät) anzustoßen,
⚫ Kontrollinterface als Schnittstelle zur Applikation:
Dahinter verbergen sich Hard- und Softwaremodule, um ver schiedene Aktuatoren bzw. Rechner anzusteuern, die die Applikation beinhalten,
⚫ Applikation, die per Sprache angesteuert wird:
Das kann z. B. ein Bestell- oder Auskunftsystem, ein CAE- Arbeitsplatz oder ein behindertengerechter Rollstuhl sein.
⚫ Spracherkennungssystem, welches ein eingesprochenes Kom mando ("Sprachkommando") mit anderen erlaubten Sprachkom mandos vergleicht und eine Entscheidung trifft, welches Kommando aller Wahrscheinlichkeit nach eingesprochen wurde,
⚫ Sprachausgabe, welche die zur Benutzerführung erforderli chen Sprachbefehle und Signalisierungstöne ausgibt und ggf. das Erkennergebnis rückmeldet,
⚫ Dialog- und Ablaufsteuerung, um dem Benutzer zu verdeut lichen, welche Art von Eingabe erwartet wird, bzw. um zu prüfen, ob die erfolgte Eingabe konsistent ist mit der Aufforderung und mit dem momentanen Status der Applika tion, und um die resultierende Aktion bei der Applikation (z. B. dem zu steuernden Gerät) anzustoßen,
⚫ Kontrollinterface als Schnittstelle zur Applikation:
Dahinter verbergen sich Hard- und Softwaremodule, um ver schiedene Aktuatoren bzw. Rechner anzusteuern, die die Applikation beinhalten,
⚫ Applikation, die per Sprache angesteuert wird:
Das kann z. B. ein Bestell- oder Auskunftsystem, ein CAE- Arbeitsplatz oder ein behindertengerechter Rollstuhl sein.
Die vorliegende Beschreibung konzentriert sich - ohne Ein
schränkung auf die allgemeine Anwendbarkeit der geschilder
ten Verfahren, Vorrichtungen und Abläufe - auf die Sprach
erkennung, die Dialogstruktur sowie auf eine spezielle Ap
plikation in Kraftfahrzeugen.
Die Schwierigkeiten bei bisher bekannten Lösungen (vgl.:
z. B. T. Shinohara, N. Maeda, H. Asada: "Hands Free Voice
Recognition Telephone For Automobile"; in: Proceedings of
the ISATA-Conference 1990, Seiten 525 bis 545 sowie H.
Asada, H. Norimatsu, S. Azuma: "Speaker-Dependent Voice
Recognition Algorithm For Voice Dialing In Automotive
Environment"; in: Proceedings of the ISATA-Conference 1990,
Seiten 547 bis 557) liegen
- a) in der Notwendigkeit, ein aufwendiges Training durchzu führen, um das System auf die Charakteristik des jewei ligen Sprechers oder auf einen wechselnden Wortschatz anzupassen. Die Systeme sind in der Regel entweder vollständig sprecherunabhängig oder vollständig spre cherabhängig bzw. sprecheradaptiv, wobei letztere für jeden neuen Benutzer einen Trainingslauf erfordern. Dies kostet Zeit und reduziert den Bedienkomfort bei häufig wechselnden Sprechern sehr stark. Aus diesem Grund ist bei herkömmlichen Systemen auch der Vokabu larumfang gering bei Applikationen, wo mit wechselnden Sprechern und Zeitnot der einzelnen Sprecher zu rechnen ist,
- b) in dem unzureichenden Bedienkomfort, der darin zum Aus
druck kommt, daß
- - das Vokabular auf ein Minimum begrenzt ist, um hohe Erkennsicherheit zu garantieren,
- - die Einzelworte eines Kommandos isoliert (d. h. mit Zwischenpausen) eingegeben werden,
- - Einzelworte quittiert werden müssen, um Fehler zu erkennen,
- - mehrstufige Dialoghierarchien abzuarbeiten sind, um vielfältige Funktionen zu steuern,
- - ein Mikrofon in die Hand zu nehmen ist bzw. ein Headset getragen werden muß,
- c) in der fehlenden Robustheit
- - gegenüber Bedienfehlern
- - gegenüber störenden Umgebungsgeräuschen,
- d) in der aufwendigen und teueren Hardware-Realisierung, vor allem bei mittleren und kleinen Stückzahlen.
In der eingangs bereits genannten DE 38 19 178 A1 wird ein
Spracherkennungssystem beschrieben, bei dem die eingegebe
nen Sprachkommandos mittels eines sprecherunabhängigen Ver
bundwort-Spracherkenners und eines sprecherabhängigen Zu
satz-Spracherkenners erkannt und gemäß ihrer Erkennungs
wahrscheinlichkeit klassifiziert werden.
Bei diesem Spracherkennungsverfahren wird zuerst ein unbe
kanntes Sprachkommandomuster aus Merkmalen erzeugt, welche
aus dem unbekannten Sprachkommando extrahiert worden sind.
Danach wird ein Ähnlichkeitsgrad zwischen dem erzeugten un
bekannten Muster und Referenzmustern ermittelt, die sich
zusammensetzen
- a) aus Referenzmustern, die ausschließlich für eine spre cherunabhängige Erkennung verwendet worden sind, und
- b) aus Referenzmustern, die ausschließlich für eine spre cherabhängige Erkennung verwendet worden sind.
Anschließend wird der Ähnlichkeitsgrad jedes Referenzmu
sters entweder bezüglich der sprecherunabhängigen oder be
züglich der sprecherabhängigen Erkennung korrigiert, indem
der ermittelte Ähnlichkeitsgrad einer vorgegebenen Opera
tion unterzogen wird. Danach wird das Muster mit dem höch
sten Ähnlichkeitsgrad bestimmt.
Die zugehörige Spracherkennungseinrichtung weist eine Ko
effizientenspeichereinrichtung auf, um den erhaltenen Ähn
lichkeitsgrad entsprechend zu korrigieren, sowie eine
Sprachidentifizierungseinrichtung, um die Ähnlichkeitsgrade
des Musters, das entweder bei einer sprecherunabhängigen
oder bei einer sprecherabhängigen Erkennung geliefert wor
den ist, mit korrigierten Ähnlichkeitsgraden des Musters zu
vergleichen und um das Muster mit dem höchsten Ähnlich
keitsgrad zu bestimmen. Das System kann per Sprachkommando
oder per Sprachdialog betrieben werden.
Aus der DE 39 28 049 A1 ist ein Verfahren zur automatischen
Steuerung eines Archivierungssystems durch Sprachkommandos
bekannt, bei dem erkannte zulässige Sprachkommandos auf ih
re Plausibilität hin überprüft werden.
Die Aufgabe der Erfindung besteht darin, zum einen ein Ver
fahren anzugeben, mit dem mit möglichst geringem Aufwand
ein oder mehrere Geräte durch Sprachkommandos oder per
Sprachdialog zuverlässig im Echtzeitbetrieb gesteuert wer
den können. Ferner soll eine geeignete Vorrichtung angege
ben werden, mit der das zu schaffende Verfahren ausgeführt
werden kann.
Die erfindungsgemäße Lösung der Aufgabe ist in bezug auf
das zu schaffende Verfahren durch die Merkmale des Patent
anspruchs 1 und in bezug auf die zu schaffende Vorrichtung
durch die Merkmale des Patentanspruchs 50 wiedergegeben.
Die übrigen Ansprüche enthalten vorteilhafte Aus- und Wei
terbildungen des erfindungsgemäßen Verfahrens (Ansprüche 2
bis 49) sowie der erfindungsgemäßen Vorrichtung (Ansprüche
51 bis 62).
Der wesentliche Vorteil der Erfindung ist darin zu sehen,
daß mit relativ geringem Aufwand eine zuverlässige Steue
rung bzw. Bedienung von Geräten per Sprachkommando bzw. per
Sprachdialog im Echtzeitbetrieb möglich ist.
Ein weiterer wesentlicher Vorteil ist darin zu sehen, daß
eine der natürlichen Sprechweise weitgehend angepaßte Ein
gabe der Sprachkommandos bzw. Führung des Sprachdialogs mit
dem System möglich ist und daß dem Sprecher hierfür ein
umfangreiches Vokabular von zulässigen Kommandos zur Ver
fügung steht.
Ein dritter Vorteil ist darin zu sehen, daß das System feh
lertolerant arbeitet und in einer vorteilhaften Weiterbil
dung der Erfindung z. B. auch nichtzulässige Wörter, Namen,
Laute oder Wortumstellungen in den vom Sprecher eingegebe
nen Sprachkommandos i.a. als solche erkennt und aus diesen
eingegebenen Sprachkommandos von dem Sprecher an sich ge
wollte zulässige Sprachkommandos extrahiert.
Im folgenden wird die Erfindung anhand der Figuren näher
erläutert. Es zeigt
Fig. 1 das Blockschaltbild einer bevorzugten Ausführungs
form der erfindungsgemäßen Vorrichtung zum Ausfüh
ren des erfindungsgemäßen Verfahrens ("Sprachdia
logsystem"),
Fig. 2 eine detaillierte Darstellung des eigentlichen
Sprachdialogsystems gemäß Fig. 1,
Fig. 3 das Flußdiagramm zu einer bevorzugten Ausführungs
form der Segmentierung der eingegebenen Sprachkom
mandos für ein Sprachdialogsystem gemäß Fig. 2,
Fig. 4 und 5 Ausführungsbeispiele von Hidden-Markov-
Modellen,
Fig. 6 den hardwaremäßigen Aufbau eines bevorzugten Aus
führungsbeispiels des Sprachdialogsystems gemäß
Fig. 2,
Fig. 7 das Zustandsdiagramm für die Anwendung des Sprach
dialogsystems gemäß Fig. 2 zur sprachgesteuerten
Bedienung eines Telefons,
Fig. 8 das Flußdiagramm zur Bedienung eines Telefons gemäß
Fig. 7,
Fig. 9 und 10 das Flußdiagramm zur Funktion "Namenswahl"
(Fig. 9) bzw. "Nummernwahl" (Fig. 10) bei
der Bedienung eines Telefons gemäß Flußdia
gramm nach Fig. 8.
Das im folgenden beschriebene Sprachdialogsystem (SDS) in
Fig. 1 umfaßt die Komponenten Spracheingabe (symbolisch
dargestellt durch ein Mikrofon), Spracherkennung, Dialog-
und Ablaufsteuerung, Kommunikations- und Kontrollinterface
Sprachausgabe mit angeschlossenem Lautsprecher sowie (bei
spielhaft) eine Applikation, d. h. ein durch das SDS zu
steuerndes bzw. zu bedienendes Gerät. SDS und Applikation
bilden zusammen ein Sprachbediensystem (SBS), das in Echt
zeit ("on-line") betrieben wird.
Die Syntax- und Dialogstruktur und die für alle Benutzers
Sprecher verbindlichen Basissprachkommandos werden "off
line" außerhalb des SDS bzw. SBS (beispielhaft) mit Hilfe
einer PC-Workstation im "off-line Dialog Editormodus" er
stellt und fixiert und zusammen mit vorzugebenden Parame
tern und Ablaufstrukturen dem SDS bzw. SBS vor Inbetrieb
name in Form von Datenfiles übergeben.
Das SDS der Fig. 1 ist in Fig. 2 im Detail dargestellt. Ein
(nicht gezeigtes) Mikrofon ist mit einem Analog/Digital-
Wandler verbunden, der über Vorrichtungen zur Geräuschre
duktion, Echokompensation und Segmentierung mit einem spre
cherunabhängigen Verbundwort-Spracherkenner und mit einem
sprecherabhängigen Spracherkenner verbunden ist. Die beiden
Spracherkenner sind ausgangsseitig mit einer Einheit zur
syntaktisch-grammatikalischen und semantischen Verarbeitung
der Erkenner-Ausgangssignale verbunden. Diese Einheit wie
derum ist mit der Dialog- und Ablaufsteuerung verbunden,
die ihrerseits zum einen über Schnittstellen (z. B. D2B,
V24, CAN, PCMCIA usw.) mit den (nicht gezeigten) Geräten
verbunden ist, die über das SDS angesteuert bzw. bedient
werden sollen. Die Dialog- und Ablaufsteuerung ist ferner
mit einer Spracheingabe-/Sprachausgabe-Einheit verbunden,
die aus einem Sprachencoder, einem Sprachdecoder und einem
Sprachspeicher besteht.
Der Sprachencoder ist eingangsseitig an den Ausgang der
Vorrichtung zur Geräuschreduktion und ausgangsseitig an den
Sprachspeicher angeschlossen. Der Sprachspeicher ist aus
gangsseitig an den Sprachdecoder angeschlossen, der aus
gangsseitig über einen Digital/Analog-Wandler mit einem
(nicht gezeigten) Lautsprecher verbunden ist.
Die Vorrichtung zur Echokompensation ist über Schnittstel
len mit (nicht gezeigten) Geräten/Sensoren verbunden, die
ggf. zu kompensierende Audiosignale liefern.
Der sprecherunabhängige Verbundwort-Spracherkenner weist
zum einen eine Einheit zur Merkmalsextraktion auf, in der
die Cepstrumsbildung und die Adaption des Erkenners u. a. an
die analoge Übertragungscharakteristik der eingehenden Si
gnale durchgeführt werden, und zum anderen eine nachge
schaltete Einheit zur Klassifikation.
Der sprecherabhängige Spracherkenner weist ebenfalls zum
einen eine Einheit zur Merkmalsextraktion und zum anderen
ein Einheit zur Klassifikation auf. Zusätzlich ist jedoch
über einen Umschalter anstelle der Klassifikationseinheit
eine Einheit zur Eingabe der sprecherspezifischen Zusatz
sprachkommandos zuschaltbar, die in den Trainingsphasen
vor, während oder nach dem Echtzeitbetrieb des SDS vom
Erkenner trainiert werden sollen. Der sprecherabhängige Er
kenner arbeitet z. B. nach dem Dynamic-Time-Warping(DTW)-
Verfahren, nach dem dessen Klassifikationseinheit die Ab
stände zwischen dem zu erkennenden Kommando und vortrai
nierten Referenzmustern feststellt und das Referenzmuster
mit dem geringsten Abstand als das zu erkennende Kommando
identifiziert. Alternativ hierzu kann aber auch der spre
cherabhängige Erkenner mit Methoden der Merkmalsextraktion
arbeiten, wie sie in sprecherunabhängigen Spracherkennern
zur Anwendung kommen (Cepstrumsbildung, Adaption usw.).
Im folgenden wird die Funktionsweise des SDS näher erläu
tert.
Das SDS beinhaltet - wie zuvor ausgeführt - zweierlei
Spracherkennertypen zur Erkennung vorgegebener Sprachkom
mandos. Die beiden Erkenner können wie folgt charakteri
siert werden:
⚫ Sprecherunabhängige Erkennung von verbunden gesprochenen Worten. Damit lassen sich allgemeine Steuerkommandos, Ziffern, Namen, Buchstaben etc. erkennen, ohne daß der Sprecher bzw. Benutzer eines oder mehrere der benutzten Worte vorher trainiert haben muß.
Weiterhin kann die Eingabe im Verbundwortmodus erfolgen, d. h. eine Kombination mehrerer Worte, Ziffern, Namen er gibt ein Kommando, welches in einem Zug, d. h. ohne Pause eingesprochen wird (z. B. das Kommando: "Kreis mit Radius Eins"). Beim Algorithmus zur Klassifikation handelt es sich um einen HMM(Hidden-Markov-Modell)-Erkenner, der im wesentlichen auf Phonemen (Lautuntereinheiten) aufbaut und daraus Worte bzw. Kommandos zusammensetzt. Das Voka bular und die daraus aufgebauten Kommandos ("Syntaxstruk tur") werden vorab im Labor fixiert und dem Erkenner in Form von Datenfiles übergeben ("off-line Dialog Editier modus"). Im Echtzeit-Betrieb kann das Vokabular und die Syntaxstruktur des unabhängigen Erkenners vom Benutzer nicht modifiziert werden.
⚫ Sprecherabhängige Erkennung von benutzer-/sprecherspezi fischen Namen oder Funktionen, die der Benutzer/Sprecher definiert und trainiert.
Der Benutzer/Sprecher hat die Möglichkeit, ein persönli ches Vokabular in Form von Namenslisten, Funktionslisten etc. anzulegen bzw. zu editieren. Dadurch kann der Benut zer/Sprecher seinen persönlichen Wortschatz wählen und diesen jederzeit "on line" d. h. im Echtzeitbetrieb, an seine Bedürfnisse anpassen.
Als Beispiel für eine Anwendung im Telefonumfeld sei die "Namensliste" genannt, d. h. das individuelle Verzeichnis von Namen, wobei
⚫ Sprecherunabhängige Erkennung von verbunden gesprochenen Worten. Damit lassen sich allgemeine Steuerkommandos, Ziffern, Namen, Buchstaben etc. erkennen, ohne daß der Sprecher bzw. Benutzer eines oder mehrere der benutzten Worte vorher trainiert haben muß.
Weiterhin kann die Eingabe im Verbundwortmodus erfolgen, d. h. eine Kombination mehrerer Worte, Ziffern, Namen er gibt ein Kommando, welches in einem Zug, d. h. ohne Pause eingesprochen wird (z. B. das Kommando: "Kreis mit Radius Eins"). Beim Algorithmus zur Klassifikation handelt es sich um einen HMM(Hidden-Markov-Modell)-Erkenner, der im wesentlichen auf Phonemen (Lautuntereinheiten) aufbaut und daraus Worte bzw. Kommandos zusammensetzt. Das Voka bular und die daraus aufgebauten Kommandos ("Syntaxstruk tur") werden vorab im Labor fixiert und dem Erkenner in Form von Datenfiles übergeben ("off-line Dialog Editier modus"). Im Echtzeit-Betrieb kann das Vokabular und die Syntaxstruktur des unabhängigen Erkenners vom Benutzer nicht modifiziert werden.
⚫ Sprecherabhängige Erkennung von benutzer-/sprecherspezi fischen Namen oder Funktionen, die der Benutzer/Sprecher definiert und trainiert.
Der Benutzer/Sprecher hat die Möglichkeit, ein persönli ches Vokabular in Form von Namenslisten, Funktionslisten etc. anzulegen bzw. zu editieren. Dadurch kann der Benut zer/Sprecher seinen persönlichen Wortschatz wählen und diesen jederzeit "on line" d. h. im Echtzeitbetrieb, an seine Bedürfnisse anpassen.
Als Beispiel für eine Anwendung im Telefonumfeld sei die "Namensliste" genannt, d. h. das individuelle Verzeichnis von Namen, wobei
- - der Namen in einer Trainingsphase ein- oder mehrmals vom Benutzer eingesprochen wird (z. B. "Onkel Willi") und dem Namen per Tastatureingabe, vorzugsweise aber per unabhängigem Spracherkenner eine Telefonnummer zugeordnet wird,
- - nach Abschluß des obigen Trainings und der Nummernzu weisung der Benutzer nur noch dem sprecherabhängigen Erkenner einen Namen ("Onkel Willi") nennt, nicht aber die zugehörige Telefonnummer, die dem System bereits bekannt ist.
Der sprecherabhängige Erkenner wird in der
- - einfachsten Form als Einzelworterkenner ausgelegt
- - in der leistungsfähigeren Form als Verbundworterken ner, der nahtlos mit dem sprecherunabhängigen Erkenner gekoppelt ist. ("Onkel Willi anrufen" als vollständi ges Kommando, wobei das Wort "anrufen" Teil des spre cherunabhängigen Vokabulars ist).
Im Anschluß an die Spracherkennung wird eine Nachverarbei
tung der mit einer bestimmten Erkennwahrscheinlichkeit be
hafteten Ergebnisse der beiden Spracherkenner durchgeführt.
Der sprecherunabhängige Verbundwort-Spracherkenner z. B.
liefert mehrere Satzhypothesen in einer Reihenfolge, welche
die Erkennwahrscheinlichkeiten repräsentiert. Diese Satz
hypothesen berücksichtigen bereits die erlaubte Syntax
struktur, d. h. innerhalb der syntaktischen Nachverarbeitung
(Fig. 2) werden unzulässige Wortfolgen ausgesondert bzw.
nach verschiedenen Kriterien bewertet, wie wahrscheinlich
die hierin auftretende Wortkombination ist. Ferner werden
die von den Spracherkennern erzeugten Satzhypothesen auf
ihre semantische Plausibilität überprüft und danach die Hy
pothese mit der höchsten Wahrscheinlichkeit ausgewählt.
Ein korrekt erkanntes Sprachkommando wird an die Dialog
steuerung weitergereicht und führt anschließend zu einem
diesem Sprachkommando zugeordneten Eingriff auf die Appli
kation, wobei die Meldung über das Kontrollinterface wei
tergereicht wird.
Das hier skizzierte System ist im "on-line"-Betrieb durch
eine fixierte Syntax- und Kommandostruktur, sowie durch
eine Kombination von fixiertem Vokabular (sprecherunabhän
giger Erkenner) und frei definierbarem Vokabular, wie z. B.
Namen (sprecherabhängiger Erkenner), gekennzeichnet.
Dieser zunächst starr erscheinende Rahmen ist eine Voraus
setzung für hohe Erkennleistung bei großem Vokabularumfang
(bis zu mehreren hundert Worten), bei geräuschbehafteter
Umgebung, bei wechselnden akustischen Verhältnissen in der
Fahrgastzelle sowie bei variierenden Sprechern. Der hohe
Vokabularumfang wird genutzt, um die Benutzerfreundlichkeit
durch Verwendung synonymer Worte bzw. unterschiedlicher
Aussprachevarianten zu erhöhen. Auch erlaubt die Syntax die
Umstellung von Worten in den Sprachkommandos, so z. B.:
"Größerer Radius bei linkem Kreis"
oder - alternativ hierzu -
"Bei linkem Kreis größerer Radius",
wobei diese Alternativen jedoch von vorneherein bei der Festlegung mit dem "off-line Dialog Editor" definiert sein müssen.
"Größerer Radius bei linkem Kreis"
oder - alternativ hierzu -
"Bei linkem Kreis größerer Radius",
wobei diese Alternativen jedoch von vorneherein bei der Festlegung mit dem "off-line Dialog Editor" definiert sein müssen.
Der hier skizzierte Lösungsansatz erweist sich insofern als
vorteilhaft, als
⚫ die Verbundworteingabe von Kommandos natürlicher und schneller ist als die Isoliertworteingabe. Die Praxis hat insbesondere gezeigt, daß der unbefangene Benutzer schwer daran zu gewöhnen ist, abgehackt (mit deutlichen Zwi schenpausen) zu sprechen, um ein Mehrwortkommando einzu geben (die Akzeptanz derartiger Systeme ist deshalb deut lich geringer),
⚫ die Eingabe z. B. von Ziffern- oder Buchstabenkolonnen im Verbund leichter ist und weniger Konzentration erfordert als die Einzeleingabe,
⚫ die Dialogführung natürlicher ist, weil z. B. bei Ziffern kolonnen nicht jede Einzelziffer quittiert werden muß, sondern nur der eingegebene Ziffernblock,
⚫ wegen des Wortschatzes von z. B. bis zu einigen hundert Worten eine Vielzahl von Funktionen per Sprache bedienbar sind, die vorher manuelle Bedienung erforderten,
⚫ die Menge manueller Schaltelemente reduziert werden kann bzw. bei Spracheingabe die Hände anderweitig benutzbar sind, z. B. bei der Qualitätskontrolle von Motoren.
⚫ die Verbundworteingabe von Kommandos natürlicher und schneller ist als die Isoliertworteingabe. Die Praxis hat insbesondere gezeigt, daß der unbefangene Benutzer schwer daran zu gewöhnen ist, abgehackt (mit deutlichen Zwi schenpausen) zu sprechen, um ein Mehrwortkommando einzu geben (die Akzeptanz derartiger Systeme ist deshalb deut lich geringer),
⚫ die Eingabe z. B. von Ziffern- oder Buchstabenkolonnen im Verbund leichter ist und weniger Konzentration erfordert als die Einzeleingabe,
⚫ die Dialogführung natürlicher ist, weil z. B. bei Ziffern kolonnen nicht jede Einzelziffer quittiert werden muß, sondern nur der eingegebene Ziffernblock,
⚫ wegen des Wortschatzes von z. B. bis zu einigen hundert Worten eine Vielzahl von Funktionen per Sprache bedienbar sind, die vorher manuelle Bedienung erforderten,
⚫ die Menge manueller Schaltelemente reduziert werden kann bzw. bei Spracheingabe die Hände anderweitig benutzbar sind, z. B. bei der Qualitätskontrolle von Motoren.
Der Bedienkomfort wird bei dem vorliegenden System weiter
hin erhöht durch Nutzung von Freisprechmikrofon(en) und
Verzicht auf Headset (Kopfhörer und Lippenmikrofon) bzw.
Handmikrofon. Das erfordert allerdings eine leistungsfähige
Geräuschreduktion (Fig. 2) sowie ggf. eine Echokompensation
von Signalen, die z. B. aus dem Dialog- oder anderen Laut
sprechern stammen.
Die vorgeschlagene Echokompensation erlaubt es insbesonde
re, der Sprachausgabe ins Wort zu fallen, d. h. den Erkenner
anzusprechen, während die Sprachausgabe aktiv ist.
Gleichzeitig können im Labor per "off-line Dialog Editor"
jederzeit das Vokabular und die Kommandos verändert werden,
ohne daß dies ein neues Training mit einer Vielzahl von
Sprechern für die neuen Worte des sprecherunabhängigen Er
kenners bedarf. Der Grund liegt darin, daß im Labor die Da
tenbank für sprecherunabhängige Phoneme vorliegt und aus
diesen Phonemen mit der vorhandenen Entwicklungsumgebung
ohne weiteres neue Worte und Kommandos generiert werden
können. Letztlich läuft eine Kommando- oder Vokabularände
rung darauf hinaus, die im Labor mit dem Entwicklungssystem
berechneten neuen Parameter und Daten als Datenfile in den
sprecherunabhängigen "Echtzeit-Erkenner" zu überspielen und
dort im Speicher abzulegen.
Mittels des vorgeschlagenen SDS können sowohl Funktionen
innerhalb des Computers, in dem das SDS eingebaut ist, als
auch externe Geräte bedient werden. Das SDS weist neben
einer PCMCIA-Schnittstelle noch Schnittstellen auf, welche
für externe Geräte zugänglich sind. Dies sind zum Beispiel:
V.24-Schnittstelle, optischer Daten-Steuerbus, CAN-Inter face usw. Optional kann das SDS mit weiteren Schnittstellen ausgestattet werden.
V.24-Schnittstelle, optischer Daten-Steuerbus, CAN-Inter face usw. Optional kann das SDS mit weiteren Schnittstellen ausgestattet werden.
Das SDS wird vorzugsweise durch Betätigen einer push-to
talk-Taste (PTT) oder durch ein definiertes Schlüsselwort
aktiviert. Die Abschaltung nach Beendigung eines Kommandos
erfolgt automatisch durch die interne Segmentierung des
SDS. In geräuscharmer Umgebung kann das SDS auch kontinu
ierlich aktiviert sein.
An dieser Stelle sei betont, daß das SDS in Fig. 2 nur ein
Beispiel ist für ein nach der Erfindung mögliches SDS. Die
Konfiguration der Schnittstellen zur Dateneingabe bzw. Da
tenausgabe bzw. zur Steuerung der angeschlossenen Komponen
ten ist hier ebenfalls nur beispielhaft dargestellt.
Die dargestellten Funktionsblöcke werden im folgenden näher
erläutert.
Diese ermöglicht es, stationäre oder quasi-stationäre
Umgebungsgeräusche vom digitalisierten Sprachsignal zu
unterscheiden und diese vom Sprachsignal abzuziehen.
Geräusche dieser Art sind z. B.: Fahrgeräusche in einem
Kraftfahrzeug (Kfz), Umgebungsgeräusche in Labors und
Büros wie Lüfter oder Maschinengeräusche in Fabrika
tionshallen.
Über die Echokompensation werden die digitalisierten
Lautsprechersignale z. B. der Sprachausgabe bzw. eines
eingeschalteten Radios über adaptive Filteralgorithmen
vom Mikrofonsignal subtrahiert. Die Filteralgorithmen
bilden den Echopfad vom Lautsprecher zum Mikrofon nach.
Die Segmentierung setzt - wie in Fig. 3 gezeigt - auf
spektraltransformierten Daten auf. Hierzu werden die
Signale blockweise zusammengefaßt (frame) und mit einer
schnellen Fouriertransformation (FFT) in den Frequenz
bereich umgesetzt. Durch Betragsbildung und Gewichtung
mit einem gehörbezogenen MEL-Filter, d. h. einem dem
melodischen Empfinden der Tonhöhe nachgebildeten Fil
ter, bei dem eine gehörbezogene Einteilung des Sprach
bereiches (∼200 Hz bis ∼6 kHz) in einzelne Frequenz
bereiche ("Kanäle") durchgeführt wird, werden die Spek
tralwerte zu Kanalvektoren zusammengefaßt, die die Lei
stung in den verschiedenen Frequenzbändern angeben. Im
Anschluß erfolgen eine Grobsegmentierung, die permanent
aktiv ist und Kommandoanfang sowie Kommandoende grob
erfaßt, sowie eine Feinsegmentierung, die im Anschluß
daran die genauen Grenzen festlegt.
Der Merkmalsextraktor berechnet aus den digitalisierten
und segmentierten Sprachsignalen über mehrere Stufen
hinweg Merkmalsvektoren und bestimmt den dazugehörigen
normierten Energiewert.
Dazu werden beim sprecherunabhängigen Erkenner die Ka
nalvektoren mit einer diskreten Cosinustransformation
(DCT) in Cepstralvektoren transformiert. Zusätzlich
wird die Energie des Signals berechnet und normiert.
Parallel dazu wird eine laufende Mittelwertberechnung
der Cepstralwerte durchgeführt mit dem Ziel, den Erken
ner sowohl an den momentanen Sprecher als auch auf
Übertragungscharakteristiken, z. B. des Mikrofons und
des Kanals (Sprecher → Mikrofon) zu adaptieren.
Die Cepstralvektoren werden von diesem adaptierten Mit
telwert befreit und mit der zuvor berechneten normier
ten Energie zu sogenannten CMF-Vektoren (Cepstralkoef
fizienten mittelwertfrei) zusammengefaßt.
Ein Hidden-Markov-Modell ist eine Ansammlung von Zu
ständen, die untereinander durch Übergänge verbunden
sind (Fig. 4).
Jeder Übergang, von einem Zustand qi zum anderen qj,
wird durch eine sogenannte Übergangswahrscheinlichkeit
beschrieben. Jedem Knoten (Zustand) ist ein Vektor von
sogenannten Emissionswahrscheinlichkeiten der Länge M
zugeordnet. Über diese Emissionswahrscheinlichkeiten
wird die Verbindung zur physikalischen Welt herge
stellt. Die Modellvorstellung geht soweit, daß in einem
bestimmten Zustand qi eines von M verschiedenen
Symbolen "emittiert" wird, entsprechend der zustands
bezogenen Emissionswahrscheinlichkeit. Die Symbole
stehen stellvertretend für die Merkmalsvektoren.
Die Folge von "emittierten" Symbolen, die das Modell
erzeugt, sind sichtbar. Die konkrete Abfolge der Zu
stände, die innerhalb des Modells durchlaufen werden,
ist dagegen nicht sichtbar (engl. "hidden").
Ein Hidden-Markov-Modell ist durch folgende Größen de
finiert:
⚫ T Anzahl der Symbole
⚫ t Zeitpunkt für ein beobachtetes Symbol, t = 1 . . . T
⚫ N Anzahl der Zustände (Knoten) des Modells
⚫ M Anzahl der möglichen Symbole (= Codebuchgröße)
⚫ Q Zustände des Modells {q1, q2, . . . qn}
⚫ V Menge der möglichen Symbole
⚫ A Übergangswahrscheinlichkeit vom einem Zustand in einen anderen
⚫ B Wahrscheinlichkeit für ein Ausgabesymbol in einem Zustand des Modells (Emissionswahrscheinlichkeit)
⚫ π Wahrscheinlichkeit für den Anfangszustand des Modells (beim Training des HMM′s).
⚫ T Anzahl der Symbole
⚫ t Zeitpunkt für ein beobachtetes Symbol, t = 1 . . . T
⚫ N Anzahl der Zustände (Knoten) des Modells
⚫ M Anzahl der möglichen Symbole (= Codebuchgröße)
⚫ Q Zustände des Modells {q1, q2, . . . qn}
⚫ V Menge der möglichen Symbole
⚫ A Übergangswahrscheinlichkeit vom einem Zustand in einen anderen
⚫ B Wahrscheinlichkeit für ein Ausgabesymbol in einem Zustand des Modells (Emissionswahrscheinlichkeit)
⚫ π Wahrscheinlichkeit für den Anfangszustand des Modells (beim Training des HMM′s).
Unter Benutzung der Wahrscheinlichkeitsverteilungen A
und B können mit Hilfe dieses Modells Ausgabesymbole
erzeugt werden.
Bei einem Spracherkennungssystem mit größerem Wortschatz
basiert die Worterkennung zweckmäßigerweise nicht auf
Ganzwörtern, sondern auf phonetischen Wortuntereinhei
ten. Eine solche Wortuntereinheit ist zum Beispiel ein
Laut, ein Diphon (Doppellaut) oder ein Lautübergang.
Ein zu erkennendes Wort wird dann durch die Verkettung
der entsprechenden Wortuntereinheiten-Modelle darge
stellt. In Fig. 5 ist als Beispiel einer solchen Dar
stellung mit verketteten Hidden-Markov-Modellen zum
einen die standardphonetische Beschreibung des Wortes
"braten" (Fig. 5a) sowie zum anderen die phonetische
Beschreibung von Aussprachevarianten (Fig. 5b) darge
stellt. Diese Wortuntereinheiten-Modelle werden bei der
Erstellung des Systems an Stichproben vieler Sprecher
trainiert und bilden die Datenbasis, auf der der "off
line Dialog Editor" auf setzt. Dieses Konzept mit Wort
untereinheiten hat den Vorteil, daß neue Wörter relativ
einfach in das vorhandene Lexikon aufgenommen werden
können, da die Parameter für die Wortuntereinheiten
schon bekannt sind.
Theoretisch kann mit diesem Erkenner ein beliebig gro
ßes Vokabular erkannt werde. In der Praxis wird man je
doch durch beschränkte Rechenleistung und für die je
weilige Anwendung notwendige Erkennungsleistung an
Grenzen stoßen.
Die Klassifikation basiert auf dem sogenannten Viterbi
algorithmus, in welchem die Wahrscheinlichkeit jedes
Wortes für die einlaufende Symbolfolge berechnet wird,
wobei ein Wort hier als Verkettung verschiedener Pho
neme zu verstehen ist. Der Viterbialgorithmus wird er
gänzt durch eine Wortfolgestatistik ("Language Mo
dell"), d. h. die im "off-line Dialog Editor" spezifi
zierten Mehrwortkommandos liefern die erlaubten Wort
kombinationen. Im Extremfall beinhaltet die Klassifika
tion auch die Erkennung und Aussonderung von Füllauten
(Äh, Hmm, Räusperer, Pausen) oder "Garbagewörtern"
("Nichtwörtern"). "Garbagewörter" sind sprachliche Er
gänzungen, die den eigentlichen Sprachkommandos - unnö
tigerweise - vom Sprecher hinzugefügt werden, die aber
in den Vokabularien des Spracherkenners nicht enthalten
sind. Beispielsweise kann der Sprecher das Kommando
"preis mit Radius eins" noch erweitern um Begriffe wie
"Ich möchte jetzt einen . . ." oder "Bitte einen . . .".
Für die sprecherabhängige Erkennung wird auf derselben
Vorverarbeitung aufgesetzt wie für den sprecherunabhän
gigen Erkenner. Aus der Literatur sind unterschiedliche
Lösungsansätze bekannt (z. B. dynamische Zeitnormierung,
Neuronale Netz-Klassifaktoren), die ein Training im
Echtzeitbetrieb erlauben. Es handelt sich hierbei in
erster Linie um Einzelworterkenner, wobei hier vorzugs
weise das Verfahren der dynamischen Zeitnormierung zum
Einsatz kommt. Um die Benutzerfreundlichkeit zu erhö
hen, wird eine Kombination von sprecherabhängigem und
sprecherunabhängigem Erkenner im Verbundwortmode ver
wendet ("Gloria anrufen", "Neues Ziel Onkel Willi",
"Funktion Schrägellipse darstellen") wobei die Namen
"Gloria", "Onkel Willi", "Schrägellipse" vom Benutzer
beim Training frei gewählt wurden und samt den zugehö
rigen Telefonnummern/Zieladressen/Funktionsbeschreibun
gen in entsprechenden Listen abgelegt wurden. Der Vor
teil dieses Lösungsansatzes liegt darin, daß ein bis
zwei (oder noch mehr) Dialogschritte eingespart werden.
Das SDS beinhaltet eine leistungsfähige Nachverarbei
tung der vom Spracherkenner gelieferten Ergebnisse. Da
zu gehören die syntaktischen Prüfungen dahingehend, ob
die ermittelten Satzhypothesen dem a priori festgeleg
ten Aufbau der Sprachkommandos ("Syntax") entsprechen.
Falls nicht, werden die entsprechenden Hypothesen ver
worfen.
Weiterhin werden die vom Spracherkenner gelieferten
Satzhypothesen auf ihren Sinn und auf ihre Plausibili
tät überprüft.
Nach dieser Plausibilitätsprüfung wird die aktive Satz
hypothese entweder an die Dialogsteuerung weiterge
reicht oder zurückgewiesen.
Im Falle einer Rückweisung wird die nächstwahrscheinli
che Hypothese des Spracherkenners hergenommen und auf
gleiche Art und Weise behandelt.
Im Falle eines syntaktisch korrekten und plausiblen
Kommandos wird dieses zusammen mit der Beschreibung der
Bedeutung an die Dialogsteuerung weitergegeben.
Die Dialogsteuerung reagiert auf den erkannten Satz und
bestimmt die auszuführenden Funktionen. So z. B. legt
sie fest
⚫ welche Rückfragen, Informationen oder Aufforderungen an den Benutzer ausgegeben werden,
⚫ welche Aktuatoren wie angesprochen werden,
⚫ welche Systemmodule aktiv sind (sprecherunabhängiger Erkenner, Training)
⚫ welche Teilwortschätze (Teilvokabularien) für die als nächstes erwartete Antwort aktiv sind (z. B. nur Zif fern).
⚫ welche Rückfragen, Informationen oder Aufforderungen an den Benutzer ausgegeben werden,
⚫ welche Aktuatoren wie angesprochen werden,
⚫ welche Systemmodule aktiv sind (sprecherunabhängiger Erkenner, Training)
⚫ welche Teilwortschätze (Teilvokabularien) für die als nächstes erwartete Antwort aktiv sind (z. B. nur Zif fern).
Des weiteren behält die Dialogsteuerung den Überblick
über den Status der Applikation, soweit der dem SDS
mitgeteilt wird. Der Dialogsteuerung unterlagert ist
die Ablaufsteuerung, die die einzelnen Prozesse zeit
lich und logisch kontrolliert.
Hier wird die Kommunikation mit den angeschlossenen
Peripheriegeräten abgewickelt.
Dazu stehen verschiedene Schnittstellen zur Verfügung.
Das SDS setzt i.a. allerdings nicht alle diese Schnitt
stellen voraus. Die in der Fig. 2 genannten sind nur
Möglichkeiten einer Implementierung.
Das Kommunikations- und Kontrollinterface wickelt ins
besondere die Sprachein- und -ausgaben z. B. über A/D-
bzw. D/A-Wandler ab.
Die Sprachein/ausgabe setzt sich zusammen aus einem
"Sprachsignal-Kompressionsmodul" (= "Sprachencoder"),
der die Redundanz bzw. Irrelevanz aus dem digitalisier
ten Sprachsignal entzieht und somit ein Sprachsignal
definierter Dauer in einem erheblich kleineren Speicher
als direkt nach der A/D-Wandlung ablegen kann. Die kom
primierte Information wird in einem Sprachspeicher ab
gelegt und für die Ausgabe im "Sprachdecoder" regene
riert, so daß das ursprüngliche eingegebene Wort ohne
größeren Qualitätsverlust wieder hörbar ist.
Für die Dialogführung sind im Sprachspeicher bereits
von vorneherein ("off-line Dialog Editor") eine Reihe
von Kommandos, Hilfstexten oder Anweisungen abgelegt,
die den Benutzer bei der Bedienung unterstützen sollen,
bzw. ihm Informationen von der Applikationsseite her
zukommen lassen.
Weiterhin wird die Sprachcodierung während des Trai
nings für den sprecherabhängigen Erkenner aktiviert, da
der vom Benutzer eingesprochene Namen gleichfalls in
den Sprachspeicher kommt. Der Benutzer kann durch Abhö
ren seiner Namensliste jederzeit akustisch über den In
halt, d. h. die einzelnen Namen informiert werden.
Bezüglich Sprachcodier- und -decodieralgorithmus werden
Verfahren angewandt, die aus der Literatur bekannt sind
und per Software auf einem programmierbaren Prozessor
implementiert werden.
In Fig. 6 ist ein Beispiel für einen möglichen Hardwareauf
bau der SDS gemäß Fig. 2 dargestellt. Die Konfiguration der
einzelnen Funktionsblöcke sowie die Schnittstellen zur Da
tenein- und Datenausgabe bzw. zur Steuerung der angeschlos
senen Komponenten ist hier nur beispielhaft dargestellt.
Der hier angenommene aktive Wortschatz (Vokabular) für
sprecherunabhängig gesprochene Worte kann z. B. einige hun
dert Worte umfassen.
Der digitale Signalprozessor (DSP) ist ein handelsüblicher
programmierbarer Prozessor, der sich von einem Mikroprozes
sor durch andere Busarchitektur (z. B. Harvard-Architektur
statt Von-Neumann-Architektur), spezielle "on-chip"-Hard
ware-Rechenwerke (Multiplizierer/Akkumulatoren/Shifter
etc.) und I/O-Funktionalitäten auszeichnet, die bei echt
zeitiger digitaler Signalverarbeitung benötigt werden. In
zunehmendem Maße bieten leistungsfähige RISC-Prozessoren
ähnliche Funktionalitäten wie DSPs und können diese ggf.
ersetzen.
Der DSP (bzw. ein anderer Mikroprozessor vergleichbarer
Leistungsfähigkeit) kann mit Ausnahme spezieller Interface-
Kontrollfunktionen sämtliche in Fig. 2 dargestellte Funk
tionen per Software bzw. integrierter Hardware abwickeln.
Mit derzeit handelsüblichen DSPs lassen sich mit dem hier
vorgestellten Konzept Wortschätze von z. B. ca. 100 bis 200
Worten realisieren, wobei davon ausgegangen wird, daß die
ser Wortschatz vollständig zur Auswahl steht als "aktives
Vokabular" und nicht durch Bildung von Teilvokabularien er
heblich kleiner ist. Für den Fall, daß Teilvokabularien ge
bildet werden, kann jedes davon die genannte Größe umfas
sen.
Durch die Hardwarestruktur gemäß Fig. 6 und insbesondere
durch den Verzicht auf zusätzliche Spezialbausteine für die
Erkennung und/oder für Dialogabwicklung, Ablaufsteuerung,
Sprachkodierung und Interface-Protokollabwicklung bietet
sich die Chance einer Realisierung mit einer kompakten, ko
stengünstigen Hardware mit niedrigem Stromverbrauch. Durch
die technologische Weiterentwicklung werden zukünftig höhe
re Rechenleistungen auf den DSPs verfügbar sein und größere
Speicherbereiche adressierbar sein, so daß umfangreichere
Vokabularien bzw. leistungsfähigere Algorithmen realisier
bar sein werden.
Das SDS wird durch die an den DSP angeschlossene "push-to
talk"-Taste (PTT) aktiviert. Ein Bestätigen dieser Taste
veranlaßt die Steuersoftware, den Erkennvorgang zu starten.
Teile der Signalverarbeitungssoftware sind immer aktiv (Ge
räuschreduktion, Echokompensation), während die Klassifika
tion oder die Dialogsteuerung erst durch die PTT aktiviert
werden. Im einzelnen sind folgende Module vorhanden:
⚫ A/D- und D/A-Wandler:
Über einen angeschlossenen A/D- und D/A-Wandler werden
⚫ A/D- und D/A-Wandler:
Über einen angeschlossenen A/D- und D/A-Wandler werden
- - das Mikrofonsignal und ggf. die Lautsprechersignale digitalisiert und zur weiteren Verarbeitung an den DSP übertragen,
- - die digitalisierten Sprachdaten zur Sprachausgabe/ Dialogsteuerung in ein Analogsignal zurückgewandelt, verstärkt und an ein geeignetes Wiedergabemedium (z. B. Lautsprecher) weitergereicht.
⚫ D2B optical:
Dies ist ein optisches Bussystem, über welches diverse Audio- und Informationsgeräte gesteuert werden können (z. B.: Autoradio und CD Wechsler, Autotelefon und Naviga tionsgeräte . . .). Dieser Bus überträgt nicht nur Steuer-, sondern auch Audiodaten; im Extremfall (d. h. wenn Mikro fon- und Lautsprechersignal hierüber geschickt werden) erübrigt sich A/D- und D/A-Wandlung im SDS.
⚫ CAN Bus:
Dies ist ein Bussystem, über welches Informationsgeräte und Aktuatoren im Kfz gesteuert werden können; Audioüber tragung ist in der Regel nicht möglich.
⚫ V.24-Schnittstelle:
Diese Schnittstelle kann zur Steuerung diverser Periphe riegeräte dienen. Weiterhin kann über diese Schnittstelle die Software des SBS aktualisiert werden. So kann ein entsprechender Wortschatz oder eine entsprechende Sprache (z. B.: Deutsch, Englisch, Französisch . . .) geladen werden.
⚫ PCMCIA-Interface:
Diese Schnittstelle dient neben der Kommunikation mit einem Desktop- oder Portable Computer auch der Spannungs versorgung des SDS. Mehrere der oben angeführten Funktio nen können hier zusammengefaßt werden. Weiterhin be schreibt diese Schnittstelle neben den elektrischen Eigenschaften auch die mechanischen Abmessungen des SDS. Diese sind z. B. so ausgewählt, daß das SDS in einen PCMCIA-Schacht eines Desktop- oder Portable Computers ge steckt werden kann.
⚫ Speicher:
Der an den DSP angeschlossene Speicher (Daten/Programm- RAM und ROM) dient dem DSP als Programm und Datenspei cher. Ferner beinhaltet dieser die spezifischen Klassifi kations-Modelle und ggf. die Referenzmuster für die bei den Spracherkenner und die Festtexte zur Dialogsteuerung und zur Benutzerführung. In einem FLASH- oder batterie gepufferten Speicher werden die benutzerspezifischen In formationen abgelegt (Adress-, Datenlisten).
Dies ist ein optisches Bussystem, über welches diverse Audio- und Informationsgeräte gesteuert werden können (z. B.: Autoradio und CD Wechsler, Autotelefon und Naviga tionsgeräte . . .). Dieser Bus überträgt nicht nur Steuer-, sondern auch Audiodaten; im Extremfall (d. h. wenn Mikro fon- und Lautsprechersignal hierüber geschickt werden) erübrigt sich A/D- und D/A-Wandlung im SDS.
⚫ CAN Bus:
Dies ist ein Bussystem, über welches Informationsgeräte und Aktuatoren im Kfz gesteuert werden können; Audioüber tragung ist in der Regel nicht möglich.
⚫ V.24-Schnittstelle:
Diese Schnittstelle kann zur Steuerung diverser Periphe riegeräte dienen. Weiterhin kann über diese Schnittstelle die Software des SBS aktualisiert werden. So kann ein entsprechender Wortschatz oder eine entsprechende Sprache (z. B.: Deutsch, Englisch, Französisch . . .) geladen werden.
⚫ PCMCIA-Interface:
Diese Schnittstelle dient neben der Kommunikation mit einem Desktop- oder Portable Computer auch der Spannungs versorgung des SDS. Mehrere der oben angeführten Funktio nen können hier zusammengefaßt werden. Weiterhin be schreibt diese Schnittstelle neben den elektrischen Eigenschaften auch die mechanischen Abmessungen des SDS. Diese sind z. B. so ausgewählt, daß das SDS in einen PCMCIA-Schacht eines Desktop- oder Portable Computers ge steckt werden kann.
⚫ Speicher:
Der an den DSP angeschlossene Speicher (Daten/Programm- RAM und ROM) dient dem DSP als Programm und Datenspei cher. Ferner beinhaltet dieser die spezifischen Klassifi kations-Modelle und ggf. die Referenzmuster für die bei den Spracherkenner und die Festtexte zur Dialogsteuerung und zur Benutzerführung. In einem FLASH- oder batterie gepufferten Speicher werden die benutzerspezifischen In formationen abgelegt (Adress-, Datenlisten).
Im folgenden sind nun die Dialogabläufe exemplarisch am
Beispiel einer sprachgesteuerten Telefonsteuerung (z. B. in
einem Kfz) beschrieben.
Dieses Beispiel läßt sich erweitern auf die Ansteuerung von
Telefon + Radio + CD + Navigation im Kfz bzw. auf die Be
dienung eines CAE-Arbeitsplatzes o.a.
Charakteristisch ist für jedes dieser Beispiele:
- - Die sprecherunabhängige Erkennung von Mehrwortkommandos, sowie Buchstaben- oder Ziffernkolonnen,
- - die sprecherabhängige Eingabe eines vom Benutzer vorher
trainierten, freigewählten Namens, dem zugeordnet ist
eine Funktion, ein Zahlencode (z. B. Telefonnummer eines
Telefonbuches oder Senderfrequenz einer Radiosenderliste)
oder eine Buchstabenkombination (z. B. Zielort bei Naviga
tionssystemen).
Bei der Definition der Zuordnung gibt der Benutzer die Funktion, Buchstaben- oder Ziffernkombination im spre cherunabhängigen Verbundwortmode ein (wobei die Funktion, die Buchstaben, Ziffern Teil des zulässigen Vokabulars, d. h. mit "off-line Dialog Editor" vorab festgelegt sein müssen). - - Mit dieser Namenswahl verbunden ist stets die Verwaltung einer entsprechenden Liste unterschiedlicher Namen des selben Benutzers (Telefonbuch, Senderliste, Zielortli ste). Diese Liste kann erweitert, gelöscht, abgefragt oder korrigiert werden.
Während der Bedienung des Telefons über die Spracheingabe
nimmt diese unterschiedliche Zustände ein. Die Übergänge
werden durch Äußerung von Schlüsselworten gesteuert, wobei
die Einleitung einer Äußerung durch die PTT-Taste erfolgt.
Ein Gesprächsabbruch erfolgt z. B. durch eine Abbruchtaste.
Das Sprachdialogsystem ist in diesem Zustand abgeschaltet.
Das Sprachdialogsystem ist aktiviert und wartet nun auf
die zur weiteren Steuerung der Peripheriegeräte erlaubten
Kommandos. Die Funktionsabläufe des Betriebszustandes "Ak
tiv" sind in Fig. 8 in Form eines Flußdiagramms (beispiel
haft) dargestellt.
Dieser Zustand setzt voraus, daß das entsprechende Schlüs
selwort "Namenswahl" bzw. "Telefon Namenswahl" o. ä. richtig
erkannt wurde. In diesem Zustand ist die Wahl einer Tele
fonnummer durch eine Eingabe eines Namens möglich. Dazu
wird auf einen sprecherabhängigen Spracherkenner umgeschal
tet.
Das Sprachdialogsystem fordert zur Eingabe eines Namens
auf. Dieser wird dem Benutzer bestätigt. Das Sprachdialog
system schaltet nun wieder auf den sprecherunabhängigen Er
kenner um.
Sollte der Namen falsch verstanden worden sein, so kann
durch eine Abbruchfunktion (Abbruchtaste) ein Wählen der
Telefonnummer verhindert werden. Alternativ hierzu ist auch
eine Rückfrage des SDS denkbar, ob die dem Sprachkommando
zugeordnete Aktion/Funktion ausgeführt werden soll oder
nicht.
Der Umfang des Telefonbuches kann je nach Aufwand bzw.
Speicherplatz z. B. 50 oder mehr gespeicherte Namen umfas
sen. Die Funktionsabläufe des Betriebszustandes "Namens
wahl" sind in Fig. 9 in Form eines Flußdiagramms darge
stellt.
Dieser Zustand setzt voraus, daß das entsprechende Schlüs
selwort richtig erkannt wurde. In diesem Zustand erfolgt
die Wahl einer Telefonnummer durch eine Eingabe einer Zah
lenfolge. Die Eingabe erfolgt verbunden und sprecherunab
hängig.
Der Spracherkenner fordert zur Eingabe einer Nummer auf.
Diese wird dem Benutzer bestätigt. Nach der Aufforderung
"wählen" wird die Verbindung hergestellt.
Sollte die Nummer falsch verstanden worden sein, so kann
durch eine Fehlerfunktion die Nummer korrigiert werden oder
über eine Abbruchfunktion, z. B. dem Kommando "Beenden" die
Sprachbedienung abgebrochen werden.
Die Funktionsabläufe des Betriebszustandes "Nummernwahl"
sind in Fig. 10 in Form eines Flußdiagramms dargestellt.
Die Verbindung ist aufgebaut. In diesem Zustand ist die
Spracherkennungseinheit deaktiviert. Das Telefongespräch
wird z. B. durch die Abbruchtaste beendet.
Nachdem auf das Schlüsselwort "Nummer speichern" bzw. "Na
men speichern" hin das SDS den Benutzer/Sprecher aufgefor
dert hat, die Ziffern einzugeben und der Benutzer diese
eingesprochen hat (vgl. Betriebszustand "Nummernwahl") wird
anstelle des Kommandos "wählen" das Kommando "speichern"
bzw. ein vergleichbares eingegeben. Die Telefonnummer wird
nunmehr gespeichert. Das SDS fordert anschließend den Be
nutzer auf, den zugehörigen Namen einzusprechen und läßt
die Namenseingabe zur Verbesserung des Trainingsergebnisses
ein- oder mehrfach wiederholen. Nach dieser Wiederholung
ist der Dialog beendet. Zu ergänzen ist, daß die anfängli
che Zifferneingabe durch Dialog-Kommandos wie "abbrechen"
bzw. "Abbruch", "wiederholen", "korrigieren" bzw. "Korrek
tur", "Fehler" usw. kontrolliert werden kann.
In Zusammenhang mit dem "Telefonbuch" (Liste aller trai
nierten Namen und zugehörigen Telefonnummern) sind eine
Reihe von Editierfunktionen definiert, die den Komfort des
Systems für den Benutzer erhöhen, wie z. B.:
Telefonbuch löschen:
Komplettes oder selektives Löschen, wobei durch Rückfrage ("Sind sie sicher?") des SDS vor dem endgültigen Löschen und durch ggf. Ausgabe des spezifischen Namens ein verse hentlichen Löschen durch Erkennungsfehler vermieden wird.
Telefonbuch löschen:
Komplettes oder selektives Löschen, wobei durch Rückfrage ("Sind sie sicher?") des SDS vor dem endgültigen Löschen und durch ggf. Ausgabe des spezifischen Namens ein verse hentlichen Löschen durch Erkennungsfehler vermieden wird.
Namen löschen:
Das SDS fordert den Benutzer auf, den zu löschenden Namen zu sprechen. Der Name wird vom SDS wiederholt. Danach wird der Benutzer mit der Frage "Sind sie sicher?" aufgefordert, den Löschvorgang zu bestätigen:
Die Eingabe des Sprachkommandos "Ja" veranlaßt das Löschen des Namens aus dem Telefonbuch.
Das SDS fordert den Benutzer auf, den zu löschenden Namen zu sprechen. Der Name wird vom SDS wiederholt. Danach wird der Benutzer mit der Frage "Sind sie sicher?" aufgefordert, den Löschvorgang zu bestätigen:
Die Eingabe des Sprachkommandos "Ja" veranlaßt das Löschen des Namens aus dem Telefonbuch.
Jedes andere als Sprachkommando eingegebene Wort beendet
den Dialog.
Betriebszustand "Telefonbuch anhören":
Das SDS sagt das gesamte Telefonbuch an. Ein Bestätigen der PTT oder die Eingabe eines Abbruchkommandos bricht den Dia log ab.
Das SDS sagt das gesamte Telefonbuch an. Ein Bestätigen der PTT oder die Eingabe eines Abbruchkommandos bricht den Dia log ab.
Betriebszustand "Telefonbuch wählen":
Das SDS sagt das Telefonbuch komplett an. Wird bei dem ge wünschten Namen ein Abbruch- oder Wählkommando gegeben bzw. die PTT betätigt, so wird der ausgewählte Namen noch einmal angesagt und nachgefragt "Soll die Nummer gewählt werden?" Die Eingabe des Sprachkommandos "Ja" veranlaßt den Wahlvor gang, d. h. die Verbindung wird hergestellt.
Das SDS sagt das Telefonbuch komplett an. Wird bei dem ge wünschten Namen ein Abbruch- oder Wählkommando gegeben bzw. die PTT betätigt, so wird der ausgewählte Namen noch einmal angesagt und nachgefragt "Soll die Nummer gewählt werden?" Die Eingabe des Sprachkommandos "Ja" veranlaßt den Wahlvor gang, d. h. die Verbindung wird hergestellt.
"Nein" veranlaßt das SDS, das Ansagen des Telefonbuches
fortzusetzen.
"Abbruch/abbrechen" beendet den Dialog.
Die Eigenschaften des zuvor beschriebenen SDS können wie
folgt zusammengefaßt werden:
Benutzt wird ein Verfahren zur automatischen Steuerung und/ oder Bedienung von einem oder mehreren Geräten per Sprach kommandos bzw. per Sprachdialog im Echtzeitbetrieb, bei dem Verfahren zur Sprachausgabe, Sprachsignalvorverarbeitung und Spracherkennung, syntaktisch-grammatikalischen Nachver arbeitung sowie Dialog-, Ablauf- und Schnittstellensteue rung zur Anwendung kommen. Das Verfahren in seiner Grund version ist im "on-line"-Betrieb durch eine fixierte Syn tax- und Kommandostruktur, sowie durch eine Kombination von fixiertem Vokabular (sprecherunabhängiger Erkenner) und frei definierbarem Vokabular, wie z. B. Namen (sprecherab hängiger Erkenner), gekennzeichnet. In vorteilhaften Aus- und Weiterbildungen kann es durch eine Reihe von Merkmalen charakterisiert werden, wonach vorgesehen ist, daß:
Benutzt wird ein Verfahren zur automatischen Steuerung und/ oder Bedienung von einem oder mehreren Geräten per Sprach kommandos bzw. per Sprachdialog im Echtzeitbetrieb, bei dem Verfahren zur Sprachausgabe, Sprachsignalvorverarbeitung und Spracherkennung, syntaktisch-grammatikalischen Nachver arbeitung sowie Dialog-, Ablauf- und Schnittstellensteue rung zur Anwendung kommen. Das Verfahren in seiner Grund version ist im "on-line"-Betrieb durch eine fixierte Syn tax- und Kommandostruktur, sowie durch eine Kombination von fixiertem Vokabular (sprecherunabhängiger Erkenner) und frei definierbarem Vokabular, wie z. B. Namen (sprecherab hängiger Erkenner), gekennzeichnet. In vorteilhaften Aus- und Weiterbildungen kann es durch eine Reihe von Merkmalen charakterisiert werden, wonach vorgesehen ist, daß:
- - Syntax- und Kommandostruktur während des Echtzeit-Dialog betriebs fixiert sind,
- - Vorverarbeitung, Erkennung und Dialogsteuerung für Be trieb in geräuschbehafteter Umgebung ausgelegt sind,
- - für die Erkennung allgemeiner Kommandos, Namen oder Daten kein Training durch den Benutzer erforderlich ist ("Spre cherunabhängigkeit"),
- - für die Erkennung spezifischer Namen, Daten oder Komman dos einzelner Benutzer ein Training notwendig ist ("Spre cherabhängigkeit" bei benutzerspezifischen Namen),
- - die Eingabe von Kommandos, Namen oder Daten vorzugsweise verbunden erfolgt, wobei die Anzahl der Worte, aus denen ein Kommando für die Spracheingabe gebildet wird, varia bel ist, d. h. daß nicht nur Ein- oder Zweiwortkommandos, sondern auch Drei-, Vier- oder Mehrwortkommados definiert werden können,
- - eine echtzeitige Verarbeitung und Abwicklung des Sprach dialoges gegeben ist,
- - die Sprachein- und -ausgabe nicht nur über Handapparat, Kopfhörer, Headset o. ä., sondern vorzugsweise im Frei sprechbetrieb erfolgt,
- - die bei Freisprechen im Mikrofon registrierten Lautspre cherechos elektrisch kompensiert werden, um gleichzeiti gen Betrieb von Spracheingabe und Lautsprecher (z. B. für Sprachausgabe, Ready-Signale etc.) zu ermöglichen ("Echo kompensation"),
- - eine laufende automatische Anpassung an die analoge Über tragungscharakteristik (Raumakustik, Mikrofon- und Ver stärkercharakteristik, Sprechercharakteristik) im Betrieb erfolgt,
- - im "off-line Dialog Editor" die Syntaxstruktur, die Dia logstruktur, das Vokabular und Aussprachevarianten für den Erkenner neu konfiguriert und festgelegt werden kön nen, ohne daß dies zusätzlicher oder neuer Sprachaufnah men für den unabhängigen Erkenner bedarf,
- - im "off-line Dialog Editor" der Sprachumfang für die Sprachausgabe festgelegt wird, wobei
- a) die registrierten Sprachsignale einer digitalen Sprachdatenkompression unterworfen werden ("Sprachcodie rung"), anschließend abgespeichert werden und im echt zeitigen Sprachausgabebetrieb nach Auslesen aus dem Spei cher eine entsprechende Sprachdecodierung erfolgt, oder b) der Sprachumfang in Form von Text abgespeichert wurde und im echtzeitigen Sprachausgabebetrieb einer "Text to Speech"-Synthese unterworfen wird,
- - die Wortstellung durch Vertauschen einzelner Worte eines Kommandos veränderbar ist,
- - vorgegebene synonyme Worte nutzbar sind,
- - die gleiche Funktion durch Kommandos unterschiedlicher Wortanzahl (z. B. durch Zweiwort- oder Dreiwortkommandos) realisiert werden kann,
- - zur Erkennung und anschließender Aussonderung von Einfü gungen wie "Äh", "Hm", "Bitte", oder anderer nicht zum Vokabular gehöriger Kommandos dem Nutzvokabular weitere Wörter bzw. Lauteinheiten hinzugefügt werden ("Nichtwör ter, Garbagewörter") bzw. Wordspottingansätze genutzt werden,
- - die Dialogstruktur durch folgende Eigenschaften sich
auszeichnet:
- - flache Hierarchie, d. h. einige wenige Hierarchieebenen, vorzugsweise eine oder zwei Auswahlebenen,
- - Einbindung von "Ellipsen" d. h. Verzicht auf Wiederho lung ganzer Kommandosätze mit mehreren Kommandoworten; statt dessen Beschränkung auf kurze Kommandos, z. B. "weiter", "höher", "stärker" , wobei dem System aus dem jeweils vorigen Kommando bekannt ist, worauf sich diese Aussage bezieht,
- - Einbeziehung von "Hilfe-" oder "Info-Menüs",
- - Einbeziehung von Rückfragen von seiten des SDS bei un sicheren Entscheidungen des Erkenners ("Wie bitte", "bitte wiederholen", "und weiter"),
- - Einbeziehung von Sprachausgaben, um durch Anregung be stimmter Sprechweisen die Erkennsicherheit zu steigern (z. B. durch die Aufforderung: "bitte lauter"),
- - die Spracherkennung durch Betätigung einer "Push-to talk"-Taste ("PTT") aktiviert und dies akustisch quit tiert wird (z. B. durch einen "Pieps"-Ton), um anzuzeigen, daß die Eingabe nunmehr erfolgen kann,
- - auf die Betätigung der PTT verzichtet werden kann, wenn
nach Rückfragen von Seiten der Sprachausgabe im Anschluß
daran Spracheingaben erforderlich sind, wobei die PTT
- - entweder Mehrfachfunktionen wahrnimmt oder beinhaltet, z. B. während des Telefonierens ("Auflegen des Hörers", "Abheben des Hörers") bzw. beim Neustart des Sprachdia logsystems bzw. beim Abbruch eines Telefonwahlvorgangs,
- - oder ergänzt wird durch zusätzliche Schalter, welche z. B. einen Neustart oder den Abbruch einer Funktion/Ak tion erlauben,
- - das Dialogsystem eines oder mehrere der folgenden
Leistungsmerkmale aufweist:
- - die spezifischen (z. B. trainierten) Kommandos, Daten, Namen oder Parameter unterschiedlicher Benutzer werden bei Bedarf für spätere Wiederbenutzung festgehalten,
- - vom Sprecher trainierte Kommandos bzw. Namen werden während der Trainingsphase nicht nur der Erkennung zu geführt, sondern auch in ihrem zeitlichen Verlauf auf genommen, einer Datenkompression ("Sprachkodierung") zugeführt und nichtflüchtig gespeichert,
- - die vom Sprecher trainierten Kommandos bzw. Namen wer den während der Trainingsphase derart verarbeitet, daß Umgebungsgeräusche während der Aufnahme weitgehend kom pensiert werden,
- - der Abschluß eines Erkennvorganges optisch bzw. akustisch quittiert wird ("Pieps"-Ton o. ä.) oder alternativ hierzu bei sicherheits- bzw. zeit- oder kostenrelevanten Ent scheidungen das Erkennungsergebnis akustisch wiederholt wird (Sprachausgabe) und der Benutzer die Möglichkeit hat, durch ein verbales Kommando oder durch Betätigen eines Schalters (z. B. PTT) die Ausführung der Aktion zu unterbinden,
- - das Sprachdialogsystem mit einem optischen Anzeigemedium
(LCD Display, Monitor o. ä.) gekoppelt ist, wobei das op
tische Anzeigenmedium einzelne oder mehrere der folgenden
Funktionen übernehmen kann:
- - Ausgabe der erkannten Befehle zu Kontrollzwecken,
- - Darstellung der vom Zielgerät als Reaktion auf das Sprachkommando eingestellten Funktionen,
- - Darstellung verschiedener Funktionen/Alternativen, die per Sprachkommando anschließend eingestellt bzw. ausge wählt oder modifiziert werden,
- - jeder Benutzer eigene Namens- oder Abkürzungslisten ein
richten kann (vergleichbar einem Telefon- oder Adreß
buch), wobei
- - dem vom Benutzer beim sprecherabhängigen Erkenner trai nierte Namen eine Ziffernkette, Buchstabenkette oder ein Kommando bzw. eine Kommandosequenz zugeordnet ist, die im sprecherunabhängigen Betriebsmode eingegeben wurde,
- - anstelle der erneuten Eingabe der Ziffernkette, Buch stabenkette oder Kommandosequenz der Benutzer die Li stenbezeichnung und den von ihm gewählten Namen ein gibt, oder neben dem Namen ein geeignetes Kommando ein gegeben wird, welches auf die richtige Liste schließen läßt,
- - die Liste sprachgesteuert jederzeit um weitere Einträge erweitert werden kann,
- - die Liste sprachgesteuert komplett oder selektiv ge löscht werden kann,
- - die Liste auf einen Sprachbefehl hin abgehört werden kann, wobei die vom Benutzer eingegebenen Namen und bei Bedarf die zugehörigen Ziffernkette, Buchstabenkette bzw. Kommandos akustisch ausgegeben werden,
- - die akustische Ausgabe der Liste zu jedem beliebigen Zeitpunkt abgebrochen werden kann, wobei bei der auf das Kommando "Fehlern, o. ä. bzw. auf das Kommando "wie derholen" folgenden Ausgabe der bisher eingesprochenen Ziffern dieselbe Blockung benutzt wird wie bei der Eingabe,
- - eine Folge von Ziffern (Ziffernkolonne) entweder an einem
Stück (zusammenhängend) oder blockweise eingesprochen
werden kann, wobei
- - nach jeder Eingabepause eine Quittierung erfolgt, indem der letzte Eingabeblock von der Sprachausgabe wieder holt wird,
- - nach der Quittierung durch ein Kommando "Fehler", "falsch" o. ä. der letzte Eingabeblock gelöscht werden und die verbleibenden, gespeicherten Blöcke akustisch ausgegeben werden,
- - nach der Quittierung durch ein Kommando "Löschen" oder eine ähnliche Kommandoeingabe alle eingegebenen Zif fernblöcke gelöscht werden können,
- - nach der Quittierung durch ein Kommando "wiederholen" o. ä. die bisher gespeicherten Blöcke akustisch ausgege ben werden können,
- - nach der Quittierung durch ein Kommando "Abbruch" oder eine ähnliche Kommandoeingabe die Eingabe der Ziffern kolonne vollständig abgebrochen werden kann,
- - nach der Quittierung weitere Ziffern bzw. Ziffernblöcke eingegeben werden können,
- - nach der Quittierung die Zifferneingabe durch ein ge eignetes Kommando abgeschlossen wird,
- - eine Folge von Buchstaben (Buchstabenkolonne) eingespro
chen wird, welche zur Auswahl komplexer Funktionen bzw.
zur Eingabe einer Vielzahl von Informationen vorgesehen
wird, wobei die Buchstabenkolonne zusammenhängend oder
blockweise eingegeben wird und
- - nach jeder Eingabepause eine Quittierung erfolgt, indem der letzte Eingabeblock von der Sprachausgabe wieder holt wird,
- - nach der Quittierung durch ein Kommando "Fehler", "falsch" o. ä. der letzte Eingabeblock gelöscht wird und die verbleibenden, gespeicherten Blöcke akustisch ausgegeben werden,
- - nach der Quittierung durch ein Kommando "Löschen" o. ä. alle eingegebenen Buchstaben gelöscht werden können, und im Anschluß daran eine erneute Eingabe erfolgt,
- - nach der Quittierung durch ein Kommando "wiederholen" o. ä. die bisher gespeicherten Blöcke akustisch ausgege ben werden können,
- - nach der Quittierung weitere Buchstaben bzw. Buchsta benblöcke eingegeben werden können,
- - gegebenenfalls ein Abgleich der Buchstabenkolonne mit einer gespeicherten Wortliste erfolgt und daraus das (die) bestpassende(n) Wort (Wörter) extrahiert wird (werden); alternativ hierzu kann dieser Abgleich be reits nach Eingabe der einzelnen Buchstabenblocks er folgen,
- - nach der Quittierung durch ein Kommando "Abbruch" oder eine ähnliche Kommandoeingabe die Eingabe der Buchsta benkolonne vollständig abgebrochen werden kann,
- - nach der Quittierung die Buchstabeneingabe durch ein geeignetes Kommando abgeschlossen wird,
- - die Ausgabelautstärke der Sprachausgabe und des "Pieps"- Tons den Umgebungsgeräuschen angepaßt sind, wobei die Umgebungsgeräusche während der Sprachpausen bezüglich ihrer Stärke und Charakteristik erfaßt werden,
- - der Zugang zum Sprachdialogsystem bzw. der Zugriff auf benutzerspezifische Daten/Kommandos nur durch Eingabe spezieller Kommandoworte bzw. durch Eingabe spezieller Kommandoworte eines autorisierten Sprechers erfolgt, des sen Sprachcharakteristika dem Dialogsystem bekannt sind und von diesem geprüft werden,
- - länger andauernde Sprachausgaben (z. B. Info-Menüs) durch gesprochene oder manuelle Abbruchkommandos oder durch die PTT- oder die Abbruchtaste vorzeitig beendet werden kön nen,
- - das Sprachdialogsystem in einer der folgenden Formen die
manuelle Bedienung obiger Funktionen (z. B. per Schalter,
Taste, Drehknopf) ergänzt oder ersetzt:
- - die Sprachkommandierung ersetzt keinerlei manuelle Be dienung, sondern existiert neben der manuellen Bedie nung, d. h. die Bedienung kann jederzeit manuell erfol gen bzw. weitergeführt werden,
- - einige spezielle Leistungsmerkmale sind nur per Sprach eingabe aktivierbar, die wesentlichen Geräte- und Be dienfunktionen bleiben sowohl manuell wie per Sprache kommandierbar,
- - die Anzahl der manuellen Bedienelemente wird deutlich reduziert, einzelne Tasten bzw. Drehknöpfe übernehmen Mehrfachfunktion. Per Sprache wird manuellen Bedien elementen eine spezielle Funktion zugewiesen. Nur we sentliche Bedienfunktionen sind noch manuell ansteuer bar. Die Basis ist die Sprachkommandierung,
- - mit einem einzigen Mehrwortkommando eine Vielzahl unter schiedliche Geräte sowie Gerätefunktionen ansprech- und modifizierbar sind und somit eine umständliche mehrstu fige Vorgehensweise (z. B. Auswahl des Gerätes im 1. Schritt, danach Auswahl der Funktion im 2. Schritt, da nach Auswahl der Art der Änderung im 3. Schritt) nicht er forderlich ist,
- - das Sprachdialogsystem im Kfz für einzelne oder mehrere
der im folgenden genannten Funktionen zur Anwendung
kommt:
- - Bedienung einzelner oder mehrerer Geräte, wie z. B. Autotelefon, Autoradio (ggf. mit Kassette, CD-Wechsler, Soundsystem), Navigationssystem, Klimaanlage, Heizung, Reiserechner, Beleuchtung, Schiebedach, Fensterheber, Sitzversteller, Sitzheizung, Heckscheibenheizung, Spie gelverstellung und -memory, Sitzverstellung und -memo ry, Lenkradverstellung und -memory etc.,
- - Informationsabfrage von Parametern, wie Öldruck, -tem peratur, Wassertemperatur, Verbrauch, Reifendruck etc.,
- - Information über notwendige Maßnahmen in besonderen Si tuationen, z. B. bei hoher Wassertemperatur, geringem Reifendruck etc.,
- - Warnung des Fahrers bei Defekten,
- wobei
- - die sprachgesteuerte Auswahl eines neuen Senders im
Autoradio nach einem der folgenden Abläufe erfolgt
- - Kommandierung des Suchlaufs auf- bzw. abwärts,
- - Spracheingabe der Senderfrequenz vorzugsweise in der umgangssprachlichen Form (z. B. "Einhundertdreikomma sieben" bzw. "Hundertdreikommasieben" "Hundertund dreikommasieben" bzw. einschließlich der Frequenzan gabe (z. B. "Hundertdreikommasieben MegaHertz"),
- - Spracheingabe des gebräuchlichen Sendernamens (z. B. "SDR1"),
- - bei der Klimaanlage die gewünschte Temperatur (ggf. nach dem Ort der Fahrgastzelle des Kfz gestaffelt nach links, rechts, vorne, hinten) per Spracheingabe nicht nur relativ, sondern vorzugsweise absolut (d. h. in Grad, Fahrenheit o. ä.) festgelegt werden kann und zu sätzlich minimale bzw. maximale bzw. mittlere Tempera tur oder die Normaltemperatur kommandiert werden kön nen; ähnlich können die Betriebsbedingungen für das Ge bläse im Fahrgastraum festgelegt werden.
- - dem Navigationssystem ein Zielort (Ortsname, Straßenna me) durch Eingabe von Buchstabenkolonnen im "Buchsta biermode" mitgeteilt wird, wobei auch der Anfang des Namens als Eingabe genügt und das Navigationssystem gegebenenfalls mehrere Kandidaten zur Auswahl anbietet,
- - eine oder mehrere der folgenden benutzerspezifischen
Namenslisten eingerichtet werden:
- - Liste zur Speicherung von Telefonnummern unter vorgeb baren Namen/Abkürzungen,
- - Liste zur Speicherung von Zielen für das Navigations system unter vorgebbaren Namen/Abkürzungen,
- - Liste zur Speicherung von Funktionsnamen für Kommandos oder Kommandofolgen,
- - Liste zur Speicherung von Senderfrequenzen des Autora dios unter vorgebbaren Sendernamen bzw. Abkürzungen,
- - die Ausgabelautstärke der Sprachausgabe und des "Pieps"-
Tons, ggf. auch die Radiolautstärke und die Gebläseein
stellung, unter Berücksichtigung eines oder mehrerer der
folgenden Parameter festgelegt werden:
- - Fahrzeuggeschwindigkeit,
- - Drehzahl,
- - Öffnungsbreite der Fenster und des Schiebedaches,
- - Fahrzeugtyp,
- - Wichtigkeit der Sprachausgabe in der jeweiligen Dialog situation.
In bezug auf die Vorrichtung zur Realisierung eines Sprach
dialogsystems ist u. a. vorgesehen, daß
die Ablauf-, Dialog-, Schnittstellensteuerung, die Sprach
ein-/-ausgabe sowie die Sprachsignalvorverarbeitung, Erken
nung syntaktisch-grammatikalische und semantische Nachver
arbeitung mittels Mikro- und Signalprozessoren, Speichern
und Schnittstellenbausteinen erfolgt, vorzugsweise aber mit
einem einzigen digitalen Signal- oder Mikroprozessor sowie
dem erforderlichen externen Daten- und Programmspeicher,
den Interfaces sowie den zugehörigen Treiberbausteinen, dem
Taktgenerator, der Steuerlogik und den für Sprachein-/-aus
gabe erforderlichen Mikrofonen und Lautsprechern samt zuge
hörigen Wandlern und Verstärkern sowie gegebenenfalls einer
Push-to-talk(PTT)-Taste und/oder Abbruchtaste.
Ferner ist vorgesehen, daß über ein Interface
- - Daten und/oder Parameter ladbar bzw. nachladbar sind, um z. B. Verfahrensänderungen oder ein Sprachdialogsystem für eine andere Sprache zu realisieren,
- - die auf einem separaten Rechner festgelegte oder modifi zierte Syntaxstruktur, Dialogstruktur, Ablaufsteuerung, Sprachausgabe etc. auf das Sprachdialogsystem übertragen werden ("off-linie Dialog Editor")
- - das Sprachdialogsystem mit mehreren der anzusteuernden Geräte über ein Bussystem und/oder ein ringförmiges Netz werk verknüpft ist (anstelle von Punkt zu Punkt-Verbin dungen zu den einzelnen Geräten) und daß über diesen Bus bzw. das Netzwerk Steuerdaten bzw. Audiosignale bzw. Sta tusmeldungen des Kfz bzw. der zu bedienenden Geräte über tragen werden,
- - die einzelnen anzusteuernden Geräte nicht jeweils ein eigenes Sprachdialogsystem enthalten, sondern von einem einzigen Sprachdialogsystem bedient werden,
- - eine oder mehrere Schnittstellen zu Fahrzeugkomponenten oder Fahrzeugrechnern bestehen, worüber permanente oder aktuelle Fahrzeugdaten dem Sprachdialogsystem mitgeteilt werden, wie z. B. Geschwindigkeit,
- - das Sprachdialogsystem während der Wartezeit (wo keine Sprachein- oder -ausgabe erfolgt) andere Funktionen z. B. des Radios, des Telefons o.a. übernimmt,
- - durch erweiterten Speicher ein multilinguales sprecherun abhängiges Dialogsystem aufgebaut wird, wobei kurzfristig zwischen den Dialogsystemen verschiedener Sprachen umge schaltet werden kann,
- - ein optisches Display mit dem Sprachdialogsystem über ein spezielles Interface bzw. über den Busanschluß gekoppelt ist, wobei dieser Bus vorzugsweise ein optischer Datenbus ist und hierüber sowohl Steuer- wie Audiosignale übertra gen werden,
- - das vollständige Sprachdialogsystem über eine PCMCIA- Schnittstelle mit der per Sprache zu steuernden Vorrich tung bzw. einem Host- oder Applikationsrechner gekoppelt wird.
Es versteht sich, daß die Erfindung nicht auf die darge
stellten Ausführungs- und Anwendungsbeispiele beschränkt
ist, sondern vielmehr sinngemäß auf weitere übertragbar
ist. So ist es z. B. denkbar, ein solches Sprachdialogsystem
zur Bedienung eines elektrischen Wörterbuches oder eines
elektronischen Diktier- bzw. Übersetzungssystems zu verwen
den.
Eine weitere Ausgestaltung der Erfindung besteht darin, daß
⚫ für relativ begrenzte Anwendungen mit kleiner Syntax die syntaktische Überprüfung in Form eines syntaktischen Bi gram-Sprachmodells in den Erkennungsprozeß einbezogen wird und somit die syntaktische Nachverarbeitung entfal len kann,
⚫ bei komplexen Aufgabenstellungen die Schnittstelle zwi schen Erkenner und Nachverarbeitung nicht mehr einzelne Sätze, sondern ein sog. "Worthypothesennetz" ist, aus dem in einer Nachverarbeitungsstufe aufgrund syntaktischer Vorgaben mit speziellen Paarungs-Strategien der bestpas sende Satz extrahiert wird.
⚫ für relativ begrenzte Anwendungen mit kleiner Syntax die syntaktische Überprüfung in Form eines syntaktischen Bi gram-Sprachmodells in den Erkennungsprozeß einbezogen wird und somit die syntaktische Nachverarbeitung entfal len kann,
⚫ bei komplexen Aufgabenstellungen die Schnittstelle zwi schen Erkenner und Nachverarbeitung nicht mehr einzelne Sätze, sondern ein sog. "Worthypothesennetz" ist, aus dem in einer Nachverarbeitungsstufe aufgrund syntaktischer Vorgaben mit speziellen Paarungs-Strategien der bestpas sende Satz extrahiert wird.
Bezugszeichenliste
SBS Sprachbediensystem
PTT Push-to-Talk
HMM Hidden Markov Modelle
DTW Dynamic Time Warping
CMF Mittelwert befreite Cepstralvektoren
DCT Digitale Cosinus Transformation
FFT Fast Fourier Transformation
LDA Lineare Diskriminanzanalyse
PCM Pulse Code Modulation
VQ Vektorquantisierung
SDS Sprachdialogsystem
PTT Push-to-Talk
HMM Hidden Markov Modelle
DTW Dynamic Time Warping
CMF Mittelwert befreite Cepstralvektoren
DCT Digitale Cosinus Transformation
FFT Fast Fourier Transformation
LDA Lineare Diskriminanzanalyse
PCM Pulse Code Modulation
VQ Vektorquantisierung
SDS Sprachdialogsystem
Claims (62)
1. Verfahren zur automatischen Steuerung eines oder meh
rerer Geräte durch Sprachkommandos oder per Sprachdialog
im Echtzeitbetrieb, bei welchem Verfahren die eingegebenen
Sprachkommandos mittels eines sprecherunabhängigen Ver
bundwort-Spracherkenners und eines sprecherabhängigen Zu
satz-Spracherkenners erkannt und gemäß ihrer Erkennungs
wahrscheinlichkeit klassifiziert werden und dasjenige zu
lässige Sprachkommando mit der größten Erkennungswahr
scheinlichkeit als das eingegebene Sprachkommando identi
fiziert und die diesem Sprachkommando zugeordneten Funk
tionen des oder der Geräte initiiert werden,
gekennzeichnet durch folgende Merkmale:
⚫ die Sprachkommandos (der Sprachdialog) werden (wird) auf der Basis von mindestens einer Syntaxstruktur, minde stens einem Basiskommandovokabular und bei Bedarf min destens einem sprecherspezifischen Zusatzkommandovokabu lar gebildet (geführt);
⚫ die Syntaxstruktur(en) und das (die) Basiskommandovoka bular(ien) werden in sprecherunabhängiger Form vorgege ben und sind während des Echtzeitbetriebs fixiert;
⚫ das (die) sprecherspezifische (n) Zusatzkommandovokabular (ien) wird (werden) vom (jeweiligen) Sprecher eingegeben und/oder geändert, indem in Trainingsphasen in- und/oder außerhalb des Echtzeitbetriebs ein nach einem sprecher abhängigen Erkennungsverfahren arbeitender Zusatz-Spra cherkenner vom (jeweiligen) Sprecher durch ein- oder mehrmalige Eingabe der Zusatzkommandos auf die sprach spezifischen Merkmale des (jeweiligen) Sprechers trai niert wird;
⚫ im Echtzeitbetrieb erfolgt die Abwicklung des Sprachdia logs und/oder die Steuerung des Geräts (der Geräte) wie folgt:
⚫ die Sprachkommandos (der Sprachdialog) werden (wird) auf der Basis von mindestens einer Syntaxstruktur, minde stens einem Basiskommandovokabular und bei Bedarf min destens einem sprecherspezifischen Zusatzkommandovokabu lar gebildet (geführt);
⚫ die Syntaxstruktur(en) und das (die) Basiskommandovoka bular(ien) werden in sprecherunabhängiger Form vorgege ben und sind während des Echtzeitbetriebs fixiert;
⚫ das (die) sprecherspezifische (n) Zusatzkommandovokabular (ien) wird (werden) vom (jeweiligen) Sprecher eingegeben und/oder geändert, indem in Trainingsphasen in- und/oder außerhalb des Echtzeitbetriebs ein nach einem sprecher abhängigen Erkennungsverfahren arbeitender Zusatz-Spra cherkenner vom (jeweiligen) Sprecher durch ein- oder mehrmalige Eingabe der Zusatzkommandos auf die sprach spezifischen Merkmale des (jeweiligen) Sprechers trai niert wird;
⚫ im Echtzeitbetrieb erfolgt die Abwicklung des Sprachdia logs und/oder die Steuerung des Geräts (der Geräte) wie folgt:
- - vom (jeweiligen) Sprecher eingegebene Sprachkommandos werden einem sprecherunabhängigen und auf der Basis von Phonemen arbeitenden Verbundwortspracherkenner und dem sprecherabhängigen Zusatz-Spracherkenner zu geleitet und dort (jeweils) einer Merkmalsextraktion unterzogen und
- - im Verbundwortspracherkenner anhand der dort ex trahierten Merkmale auf das Vorliegen von Basis kommandos aus dem (jeweiligen) Basiskommandovoka bular gemäß der (jeweils) vorgegebenen Syntax struktur untersucht und klassifiziert und
- - im sprecherabhängigen Zusatz-Spracherkenner anhand der dort extrahierten Merkmale auf das Vorliegen von Zusatzkommandos aus dem (jeweiligen) Zusatz kommandovokabular untersucht und klassifiziert;
- - anschließend werden die als mit einer bestimmten Wahrscheinlichkeit erkannt klassifizierten Kommandos und Syntaxstrukturen der beiden Spracherkenner zu hypothetischen Sprachkommandos zusammengefügt und diese gemäß der vorgegebenen Syntaxstruktur auf ihre Zulässigkeit und Erkennungswahrscheinlichkeit unter sucht und klassifiziert;
- - anschließend werden die zulässigen hypothetischen Sprachkommandos nach vorgegebenen Kriterien auf ihre Plausibilität untersucht und von den als plausibel erkannten hypothetischen Sprachkommandos dasjenige mit der höchsten Erkennungswahrscheinlichkeit ausge wählt und als das vom (jeweiligen) Sprecher eingege bene Sprachkommando identifiziert;
- - anschließend wird (werden) die dem identifizierten
Sprachkommando zugeordnete(n)
- - Funktion(en) des (jeweils) zu steuernden Geräts initiiert und/oder
- - Antwort(en) gemäß einer vorgegebenen Sprachdialog struktur zur Fortführung des Sprachdialogs gene riert.
2. Verfahren nach Anspruch 1, dadurch
gekennzeichnet, daß die Eingabe von Sprachkommandos manu
ell und/oder akustisch erfolgt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
die Eingabe von Sprachkommandos im Freisprechbetrieb er
folgt.
4. Verfahren nach einem der vorhergehenden Ansprüche, da
durch gekennzeichnet, daß akustisch eingegebene Sprachkom
mandos geräuschreduziert den beiden Spracherkennern zuge
leitet werden, indem durch stationäre und/oder quasista
tionäre Umgebungsgeräusche verursachte Geräuschsignale im
Sprachsignal-Empfangskanal vor den beiden Spracherkennern
kompensiert werden.
5. Verfahren nach einem der vorhergehenden Ansprüche, da
durch gekennzeichnet, daß akustisch eingegebene Sprachkom
mandos echokompensiert den beiden Spracherkennern zugelei
tet werden, indem in den Sprachsignal-Empfangskanal rück
gekoppelte Signale einer Sprachausgabeeinheit im Sprachsi
gnal-Empfangskanal vor den beiden Spracherkennern kompen
siert werden.
6. Verfahren nach einem der Ansprüche 4 oder 5, dadurch
gekennzeichnet, daß die Kompensation mittels adaptiver
digitaler Filterverfahren erfolgt.
7. Verfahren nach einem der vorhergehenden Ansprüche, da
durch gekennzeichnet, daß die eingegebenen Sprachkommandos
nach Digitalisierung blockweise zusammengefaßt und nach
einer Gewichtung mittels einer Spektraltransformation in
den Frequenzbereich umgesetzt werden und anschließend
durch Betragsbildung und nachfolgender gehörbezogener MEL-
Filterung zu Kanalvektoren zusammengefaßt werden und daß
daran anschließend eine Segmentierung durchgeführt wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß
als Spektraltransformation eine Fast-Fourier-Transforma
tion (FFT) eingesetzt wird.
9. Verfahren nach einem der Ansprüche 7 oder 8, dadurch
gekennzeichnet, daß die Segmentierung in eine Grob- und
eine Feinsegmentierung unterteilt ist.
10. Verfahren nach einem der Ansprüche 7 bis 9, dadurch
gekennzeichnet, daß im sprecherunabhängigen Verbundwort
spracherkenner die Merkmalsextraktion dergestalt durchge
führt wird,
⚫ daß die Kanalvektoren mit einer diskreten Cosinustrans formation (DCT) in Cepstralvektoren transformiert wer den,
⚫ daß zusätzlich die Energie des zugehörigen Signals be rechnet und normiert wird,
⚫ daß zur Adaption des Erkenners auf den jeweiligen Spre cher und/oder die jeweiligen Übertragungscharakteristi ken des Sprachsignal-Empfangskanals fortlaufend der Mit telwert der Cepstralvektoren berechnet und von den Cep stralvektoren abgezogen wird,
⚫ daß die vom Mittelwert der Cepstralvektoren befreite Cepstralvektoren und die berechnete normierte Signal energie zu mittelwertfreien Cepstralkoeffizienten (CMF- Vektoren) zusammengefaßt werden.
⚫ daß die Kanalvektoren mit einer diskreten Cosinustrans formation (DCT) in Cepstralvektoren transformiert wer den,
⚫ daß zusätzlich die Energie des zugehörigen Signals be rechnet und normiert wird,
⚫ daß zur Adaption des Erkenners auf den jeweiligen Spre cher und/oder die jeweiligen Übertragungscharakteristi ken des Sprachsignal-Empfangskanals fortlaufend der Mit telwert der Cepstralvektoren berechnet und von den Cep stralvektoren abgezogen wird,
⚫ daß die vom Mittelwert der Cepstralvektoren befreite Cepstralvektoren und die berechnete normierte Signal energie zu mittelwertfreien Cepstralkoeffizienten (CMF- Vektoren) zusammengefaßt werden.
11. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß der sprecherunabhängige Ver
bundworterkenner bei der Klassifizierung mit einem
phonembasierten Hidden-Markov-Modell (HMM) arbeitet.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet,
daß die Klassifikation mit Hilfe eines Viterbialgorithmus
durchgeführt wird.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet,
daß der Viterbialgorithmus durch eine vorgegebene Wortfol
gestatistik ergänzt wird.
14. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß bei der Klassifikation zusätz
lich auch Füllwörter oder -laute oder sonstige im vorgege
benen Basisvokabular nicht enthaltene Fehlkommandos als
solche erkannt und entsprechend klassifiziert und ausge
sondert werden.
15. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß der sprecherunabhängige Ver
bundwort-Spracherkenner und der Zusatz-Spracherkenner auf
derselben Signalvorverarbeitung für die eingegebenen
Sprachkommandos aufsetzen.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet,
daß die Signalvorverarbeitung Verfahren zur Geräuschreduk
tion, Echokompensation und Segmentierung umfaßt.
17. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß der Zusatzspracherkenner als
Einzelwortspracherkenner arbeitet.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet,
daß der Zusatzspracherkenner als Einzelwortspracherkenner
nach dem Verfahren der dynamischen Zeitnormierung
arbeitet.
19. Verfahren nach Anspruch 17, dadurch gekennzeichnet,
daß der sprecherunabhängige Verbundwort-Spracherkenner und
der sprecherabhängige Einzelwort-Spracherkenner kombiniert
im Verbundwortmodus arbeiten.
20. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß während des Echtzeitbetriebs
eine fortlaufende Anpassung des Sprachsignal-Empfangska
nals an die analoge Übertragungscharakteristik, insbeson
dere Raumakustik- und/oder Mikrofon- und/oder Verstärker
und/oder Sprechercharakteristik, erfolgt.
21. Verfahren nach einem der Ansprüche 1 bis 20, dadurch
gekennzeichnet, daß die vorgegebenen Basiskommandos in
sprachcodierter Form vorgegeben und abgespeichert werden
und/oder die vom (jeweiligen) Sprecher in Trainingsphasen
eingegebenen Zusatzkommandos und/oder im Echtzeitbetrieb
eingegebenen Sprachkommandos nach ihrer Eingabe sprachco
diert weiterverarbeitet und/oder abgespeichert werden und
daß akustisch auszugebende Sprachkommandos vor ihrer Aus
gabe sprachdecodiert werden.
22. Verfahren nach einem der Ansprüche 1 bis 20, dadurch
gekennzeichnet, daß die vorgegebenen Basiskommandos und/
oder die Zusatzkommandos und/oder die im Echtzeitbetrieb
eingegebenen Sprachkommandos in Form von Text abgespei
chert werden und daß akustisch auszugebende Sprachkomman
dos vor ihrer Ausgabe einer Text-zu-Sprache-Synthese un
terzogen werden.
23. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Syntaxstruktur und die Ba
siskommandos und/oder die Zusatzkommandos vorab im "off
line Dialog Editiermodus" im Labor erstellt und fixiert
werden und dem Verbundwort-Spracherkenner in Form von Da
tenfiles übergeben werden.
24. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
⚫ die Wortstellung in den Sprachkommandos durch Vertau schen einzelner Worte eines Kommandos veränderbar ist und/oder
⚫ vorgegebene synonyme Worte bei der Bildung von Sprach kommandos nutzbar sind und/oder
⚫ die gleiche Funktion durch Sprachkommandos unterschied licher Wortanzahl realisiert werden kann.
⚫ die Wortstellung in den Sprachkommandos durch Vertau schen einzelner Worte eines Kommandos veränderbar ist und/oder
⚫ vorgegebene synonyme Worte bei der Bildung von Sprach kommandos nutzbar sind und/oder
⚫ die gleiche Funktion durch Sprachkommandos unterschied licher Wortanzahl realisiert werden kann.
25. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß zur Erkennung und anschließen
der Aussonderung von Einfügungen oder anderer nicht zum
Vokabular gehöriger Kommandos dem zulässigen Vokabular
weitere Wörter bzw. Lauteinheiten hinzugefügt werden bzw.
Wordspottingansätze genutzt werden.
26. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Dialogstruktur folgende
Eigenschaften aufweist:
⚫ flache Hierarchie mit nur einigen wenigen Hierarchieebe nen, vorzugsweise einer oder zweier Hierarchieebenen,
⚫ Einbindung von Ellipsen, bei der Abwicklung des Sprach dialogs,
⚫ Einbeziehung von Hilfe- oder Info-Menüs,
⚫ Einbeziehung von Rückfragen des Sprachdialogsystems bei unsicheren Entscheidungen des Erkenners,
⚫ Einbeziehung von Sprachausgaben, um durch Anregung be stimmter Sprechweisen die Erkennsicherheit zu steigern.
⚫ flache Hierarchie mit nur einigen wenigen Hierarchieebe nen, vorzugsweise einer oder zweier Hierarchieebenen,
⚫ Einbindung von Ellipsen, bei der Abwicklung des Sprach dialogs,
⚫ Einbeziehung von Hilfe- oder Info-Menüs,
⚫ Einbeziehung von Rückfragen des Sprachdialogsystems bei unsicheren Entscheidungen des Erkenners,
⚫ Einbeziehung von Sprachausgaben, um durch Anregung be stimmter Sprechweisen die Erkennsicherheit zu steigern.
27. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Spracherkennung durch Be
tätigung einer Push-to-talk-Taste (PTT) aktiviert wird
oder daß die Spracherkennung durch Betätigung einer Push
to-talk-Taste (PTT) aktiviert und dies akustisch und/oder
optisch quittiert wird.
28. Verfahren nach Anspruch 27, dadurch gekennzeichnet,
daß der anschließende Sprachdialog bzw. die anschließende
Eingabe von Sprachkommandos ohne Betätigung der Push-to
talk-Taste abgewickelt wird.
29. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß das Sprachdialogsystem eines
oder mehrere der folgenden Leistungsmerkmale aufweist:
⚫ die spezifischen (z. B. trainierten) Sprachkommandos un terschiedlicher Sprecher werden bei Bedarf für spätere Wiederbenutzung festgehalten,
⚫ vom Sprecher trainierte Sprachkommandos bzw. Namen wer den während der Trainingsphase nicht nur der Erkennung zugeführt, sondern auch in ihrem zeitlichen Verlauf aufgenommen, einer Datenkompression ("Sprachkodierung") zugeführt und nichtflüchtig gespeichert,
⚫ die vom Sprecher trainierten Sprachkommandos werden wäh rend der Trainingsphase derart verarbeitet, daß Umge bungsgeräusche während der Aufnahme weitestgehend kom pensiert werden.
⚫ die spezifischen (z. B. trainierten) Sprachkommandos un terschiedlicher Sprecher werden bei Bedarf für spätere Wiederbenutzung festgehalten,
⚫ vom Sprecher trainierte Sprachkommandos bzw. Namen wer den während der Trainingsphase nicht nur der Erkennung zugeführt, sondern auch in ihrem zeitlichen Verlauf aufgenommen, einer Datenkompression ("Sprachkodierung") zugeführt und nichtflüchtig gespeichert,
⚫ die vom Sprecher trainierten Sprachkommandos werden wäh rend der Trainingsphase derart verarbeitet, daß Umge bungsgeräusche während der Aufnahme weitestgehend kom pensiert werden.
30. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß der Abschluß eines Erkennvor
ganges akustisch durch einen Kontrollton quittiert wird.
31. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß bei sicherheits- bzw. zeit-
oder kostenrelevanten Entscheidungen das Erkennungsergeb
nis akustisch wiederholt wird (Sprachausgabe) und der
Sprecher die Möglichkeit hat, durch ein verbales Kommando
oder durch Betätigen der Push-to-talk-Taste die Ausführung
der dem Sprachkommando zugeordneten Funktion zu unterbin
den oder rückgängig zu machen.
32. Verfahren nach einem der vorhergehenden Ansprüche da
durch gekennzeichnet, daß das Sprachbediensystem mit einem
optischen Anzeigemedium (LCD Display, Monitor, Display
eines angesteuerten Geräts o. ä.) gekoppelt ist.
33. Verfahren nach Anspruch 32, dadurch gekennzeichnet,
daß das optische Anzeigenmedium einzelne oder mehrere der
folgenden Funktionen übernimmt:
⚫ Ausgabe der erkannten Sprachkommandos zu Kontrollzwec ken,
⚫ Darstellung der vom Zielgerät als Reaktion auf das Sprachkommando eingestellten Funktionen,
⚫ Darstellung verschiedener Funktionen/Alternativen, die per Sprachkommando anschließend eingestellt bzw. ausge wählt oder modifiziert werden.
⚫ Ausgabe der erkannten Sprachkommandos zu Kontrollzwec ken,
⚫ Darstellung der vom Zielgerät als Reaktion auf das Sprachkommando eingestellten Funktionen,
⚫ Darstellung verschiedener Funktionen/Alternativen, die per Sprachkommando anschließend eingestellt bzw. ausge wählt oder modifiziert werden.
34. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß jeder Sprecher eigene Namens-
oder Abkürzungslisten einrichten kann mit einem oder meh
reren der folgenden Merkmale:
⚫ der vom Sprecher beim sprecherabhängigen Erkenner trai nierte Namen repräsentiert eine Ziffernkette, Buchsta benkette und/oder ein Kommando bzw. eine Kommandose quenz, die im sprecherunabhängigen Betriebsmode eingege ben wurde,
⚫ anstelle der erneuten Eingabe der Ziffernkette, Buchsta benkette oder Kommandosequenz kann der Benutzer die Li stenbezeichnung und den von ihm gewählten Namen einge ben, oder neben dem Namen ein geeignetes Kommando einge ben, welches auf die richtige Liste schließen läßt,
⚫ die Liste kann sprachgesteuert jederzeit um weitere Ein träge erweitert werden,
⚫ die Liste kann sprachgesteuert komplett oder selektiv gelöscht werden,
⚫ die Liste kann auf einen Sprachbefehl hin abgehört wer den, wobei die vom Benutzer eingegebenen Namen und bei Bedarf die zugehörigen Ziffernkette, Buchstabenkette bzw. Kommandos akustisch ausgegeben werden,
⚫ die akustische Ausgabe der Liste kann zu jedem beliebi gen Zeitpunkt abgebrochen werden.
⚫ der vom Sprecher beim sprecherabhängigen Erkenner trai nierte Namen repräsentiert eine Ziffernkette, Buchsta benkette und/oder ein Kommando bzw. eine Kommandose quenz, die im sprecherunabhängigen Betriebsmode eingege ben wurde,
⚫ anstelle der erneuten Eingabe der Ziffernkette, Buchsta benkette oder Kommandosequenz kann der Benutzer die Li stenbezeichnung und den von ihm gewählten Namen einge ben, oder neben dem Namen ein geeignetes Kommando einge ben, welches auf die richtige Liste schließen läßt,
⚫ die Liste kann sprachgesteuert jederzeit um weitere Ein träge erweitert werden,
⚫ die Liste kann sprachgesteuert komplett oder selektiv gelöscht werden,
⚫ die Liste kann auf einen Sprachbefehl hin abgehört wer den, wobei die vom Benutzer eingegebenen Namen und bei Bedarf die zugehörigen Ziffernkette, Buchstabenkette bzw. Kommandos akustisch ausgegeben werden,
⚫ die akustische Ausgabe der Liste kann zu jedem beliebi gen Zeitpunkt abgebrochen werden.
35. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß eine Folge von Ziffern (Zif
fernkolonne) entweder an einem Stück (zusammenhängend)
oder blockweise eingesprochen werden kann, wobei
⚫ nach jeder Eingabepause eine Quittierung erfolgt, indem der letzte Eingabeblock von der Sprachausgabe wiederholt wird,
⚫ nach der Quittierung durch ein Sprachkommando "Fehler" o. ä. der letzte Eingabeblock gelöscht wird und die ver bleibenden, gespeicherten Blöcke akustisch ausgegeben werden,
⚫ nach der Quittierung durch ein Sprachkommando "Löschen" o. ä. alle eingegebenen Ziffernblöcke gelöscht werden können,
⚫ nach der Quittierung durch ein Sprachkommando "wiederho len" o. ä. die bisher gespeicherten Blöcke akustisch aus gegeben werden können,
⚫ nach der Quittierung durch ein Sprachkommando "Abbruch" o. ä. die Eingabe der Ziffernkolonne vollständig abgebro chen werden kann,
⚫ nach der Quittierung weitere Ziffern bzw. Ziffernblöcke eingegeben werden können,
⚫ nach der Quittierung die Zifferneingabe durch ein geeig netes Sprachkommando "Stop" o. ä. abgeschlossen wird,
⚫ durch Eingabe eines eine Aktion/Funktion startenden Sprachkommandos wie "wählen" o. ä. die Eingabe abge schlossen wird und die dem Sprachkommando zugeordnete Aktion/ Funktion initiiert wird.
⚫ nach jeder Eingabepause eine Quittierung erfolgt, indem der letzte Eingabeblock von der Sprachausgabe wiederholt wird,
⚫ nach der Quittierung durch ein Sprachkommando "Fehler" o. ä. der letzte Eingabeblock gelöscht wird und die ver bleibenden, gespeicherten Blöcke akustisch ausgegeben werden,
⚫ nach der Quittierung durch ein Sprachkommando "Löschen" o. ä. alle eingegebenen Ziffernblöcke gelöscht werden können,
⚫ nach der Quittierung durch ein Sprachkommando "wiederho len" o. ä. die bisher gespeicherten Blöcke akustisch aus gegeben werden können,
⚫ nach der Quittierung durch ein Sprachkommando "Abbruch" o. ä. die Eingabe der Ziffernkolonne vollständig abgebro chen werden kann,
⚫ nach der Quittierung weitere Ziffern bzw. Ziffernblöcke eingegeben werden können,
⚫ nach der Quittierung die Zifferneingabe durch ein geeig netes Sprachkommando "Stop" o. ä. abgeschlossen wird,
⚫ durch Eingabe eines eine Aktion/Funktion startenden Sprachkommandos wie "wählen" o. ä. die Eingabe abge schlossen wird und die dem Sprachkommando zugeordnete Aktion/ Funktion initiiert wird.
36. Verfahren nach Anspruch 35, dadurch gekennzeichnet,
daß bei der auf das Sprachkommando "Fehler" o. ä. bzw. auf
das Sprachkommando "wiederholen" o. ä. folgenden Ausgabe
der bisher eingesprochenen Ziffern dieselbe Blockung be
nutzt wird wie bei der Eingabe.
37. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß eine Folge von Buchstaben
(Buchstabenkolonne) eingesprochen wird, welche zur Auswahl
komplexer Funktionen bzw. zur Eingabe einer Vielzahl von
Informationen vorgesehen wird, wobei die Buchstabenkolonne
zusammenhängend oder blockweise eingegeben wird und
⚫ nach jeder Eingabepause eine Quittierung erfolgt, indem der letzte Eingabeblock von der Sprachausgabe wiederholt wird,
⚫ nach der Quittierung durch ein Sprachkommando "Fehler", o. ä. der letzte Eingabeblock gelöscht wird und die ver bleibenden, gespeicherten Blöcke akustisch ausgegeben werden,
⚫ nach der Quittierung durch ein Sprachkommando "Löschen" o. ä. alle eingegebenen Buchstaben gelöscht werden können, und im Anschluß daran eine erneute Eingabe erfolgt,
⚫ nach der Quittierung durch ein Sprachkommando "wiederho len" o. ä. die bisher gespeicherten Blöcke akustisch aus gegeben werden können,
⚫ nach der Quittierung weitere Buchstaben bzw. Buchstaben blöcke eingegeben werden können,
⚫ gegebenenfalls ein Abgleich der Buchstabenkolonne oder der einzelnen Buchstabenblocks mit einer gespeicherten Wortliste erfolgt und daraus das (die) bestpassende(n) Wort (Wörter) extrahiert wird (werden)
⚫ nach der Quittierung durch ein Sprachkommando "Abbruch" o. ä. die Eingabe der Buchstabenkolonne vollständig abge brochen werden kann,
⚫ nach der Quittierung die Buchstabeneingabe durch ein Sprachkommando "Stop" o. ä. abgeschlossen wird,
⚫ durch Eingabe eines eine Aktion/Funktion startenden Sprachkommandos wie "wählen" o. ä. die Eingabe abge schlossen wird und die dem Sprachkommando zugeordnete Aktion/ Funktion initiiert wird.
⚫ nach jeder Eingabepause eine Quittierung erfolgt, indem der letzte Eingabeblock von der Sprachausgabe wiederholt wird,
⚫ nach der Quittierung durch ein Sprachkommando "Fehler", o. ä. der letzte Eingabeblock gelöscht wird und die ver bleibenden, gespeicherten Blöcke akustisch ausgegeben werden,
⚫ nach der Quittierung durch ein Sprachkommando "Löschen" o. ä. alle eingegebenen Buchstaben gelöscht werden können, und im Anschluß daran eine erneute Eingabe erfolgt,
⚫ nach der Quittierung durch ein Sprachkommando "wiederho len" o. ä. die bisher gespeicherten Blöcke akustisch aus gegeben werden können,
⚫ nach der Quittierung weitere Buchstaben bzw. Buchstaben blöcke eingegeben werden können,
⚫ gegebenenfalls ein Abgleich der Buchstabenkolonne oder der einzelnen Buchstabenblocks mit einer gespeicherten Wortliste erfolgt und daraus das (die) bestpassende(n) Wort (Wörter) extrahiert wird (werden)
⚫ nach der Quittierung durch ein Sprachkommando "Abbruch" o. ä. die Eingabe der Buchstabenkolonne vollständig abge brochen werden kann,
⚫ nach der Quittierung die Buchstabeneingabe durch ein Sprachkommando "Stop" o. ä. abgeschlossen wird,
⚫ durch Eingabe eines eine Aktion/Funktion startenden Sprachkommandos wie "wählen" o. ä. die Eingabe abge schlossen wird und die dem Sprachkommando zugeordnete Aktion/ Funktion initiiert wird.
38. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Ausgabelautstärke der
Sprachausgabe und des Kontrolltons den Umgebungsgeräuschen
angepaßt sind, wobei die Umgebungsgeräusche während der
Sprachpausen bezüglich ihrer Stärke und Charakteristik
erfaßt werden.
39. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß der Zugang zum Sprachdialog
system bzw. der Zugriff auf benutzerspezifische Daten-
Kommandos nur durch Eingabe spezieller Kommandoworte bzw.
durch Eingabe spezieller Kommandoworte eines autorisierten
Sprechers erfolgt, dessen Sprachcharakteristika dem
Sprachdialogsystem bekannt sind und von diesem geprüft
werden.
40. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß länger andauernde Sprachausga
ben (z. B. Info-Menüs) durch gesprochene oder manuelle Ab
bruchkommandos vorzeitig beendet werden können.
41. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß das Sprachdialogsystem in
einer der folgenden Formen die manuelle Bedienung obiger
Funktionen (z. B. per Schalter, Taste, Drehknopf) ergänzt
oder ersetzt
⚫ Die Sprachkommandierung existiert neben der manuellen Bedienung, so daß die Bedienung jederzeit manuell erfol gen bzw. weitergeführt werden kann;
⚫ einige spezielle Leistungsmerkmale sind nur per Sprach eingabe aktivierbar, die anderen Geräte- und Bedienfunk tionen bleiben sowohl manuell wie per Sprache komman dierbar;
⚫ die Anzahl der manuellen Bedienelemente wird deutlich reduziert, einzelne Tasten bzw. Drehknöpfe übernehmen Mehrfachfunktion. Per Sprache wird manuellen Bedienele menten eine spezielle Funktion zugewiesen. Nur wesentli che Bedienfunktionen sind noch manuell ansteuerbar. Die Basis ist die Sprachkommandierung.
⚫ Die Sprachkommandierung existiert neben der manuellen Bedienung, so daß die Bedienung jederzeit manuell erfol gen bzw. weitergeführt werden kann;
⚫ einige spezielle Leistungsmerkmale sind nur per Sprach eingabe aktivierbar, die anderen Geräte- und Bedienfunk tionen bleiben sowohl manuell wie per Sprache komman dierbar;
⚫ die Anzahl der manuellen Bedienelemente wird deutlich reduziert, einzelne Tasten bzw. Drehknöpfe übernehmen Mehrfachfunktion. Per Sprache wird manuellen Bedienele menten eine spezielle Funktion zugewiesen. Nur wesentli che Bedienfunktionen sind noch manuell ansteuerbar. Die Basis ist die Sprachkommandierung.
42. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß mit einem einzigen Einzelwort-
Mehrwortkommando eine Vielzahl unterschiedliche Geräte so
wie Gerätefunktionen ansprech- und modifizierbar sind und
somit eine mehrstufige Vorgehensweise nicht oder nur in
einem geringen Umfang erforderlich ist.
43. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß das Sprachdialogsystem in
Fahrzeugen für einzelne oder mehrere der im folgenden
genannten Funktionen zur Anwendung kommt:
⚫ Bedienung einzelner oder mehrerer Geräte, wie z. B. Auto telefon, Autoradio (ggf. mit Kassette, CD-Wechsler, Soundsystem), Navigationssystem, Klimaanlage, Heizung, Reiserechner, Beleuchtung, Schiebedach, Fensterheber Sitzversteller etc.
⚫ Informationsabfrage von Parametern, wie Öldruck, -tempe ratur, Wassertemperatur, Verbrauch, Reifendruck etc.
⚫ Information über notwendige Maßnahmen, z. B. bei hoher Wassertemperatur, geringem Reifendruck etc.
⚫ Warnung des Fahrers bei Defekten.
⚫ Bedienung einzelner oder mehrerer Geräte, wie z. B. Auto telefon, Autoradio (ggf. mit Kassette, CD-Wechsler, Soundsystem), Navigationssystem, Klimaanlage, Heizung, Reiserechner, Beleuchtung, Schiebedach, Fensterheber Sitzversteller etc.
⚫ Informationsabfrage von Parametern, wie Öldruck, -tempe ratur, Wassertemperatur, Verbrauch, Reifendruck etc.
⚫ Information über notwendige Maßnahmen, z. B. bei hoher Wassertemperatur, geringem Reifendruck etc.
⚫ Warnung des Fahrers bei Defekten.
44. Verfahren nach Anspruch 39, dadurch gekennzeichnet,
daß die sprachgesteuerte Auswahl eines neuen Senders im
Autoradio nach einem der folgenden Abläufe erfolgt:
⚫ Kommandierung des Suchlaufs auf- oder abwärts,
⚫ Spracheingabe der Senderfrequenz,
⚫ Spracheingabe des gebräuchlichen Sendernamens.
⚫ Kommandierung des Suchlaufs auf- oder abwärts,
⚫ Spracheingabe der Senderfrequenz,
⚫ Spracheingabe des gebräuchlichen Sendernamens.
45. Verfahren nach Anspruch 43, dadurch gekennzeichnet,
daß bei der Klimaanlage die gewünschte Temperatur per
Spracheingabe relativ oder absolut festgelegt werden kann
und zusätzlich eine minimale und/oder maximale und/oder
mittlere Temperatur und/oder Normaltemperatur kommandiert
werden kann.
46. Verfahren nach Anspruch 43, dadurch gekennzeichnet,
daß dem Navigationssystem ein Zielort (Ortsname, Straßen
name) durch Eingabe von Buchstabenkolonnen im
"Buchstabiermode" mitgeteilt wird, wobei auch der Anfang
des Namens als Eingabe genügt und das Navigationssystem
gegebenenfalls mehrere Kandidaten zur Auswahl anbietet.
47. Verfahren nach einem der Ansprüche 43 bis 46, dadurch
gekennzeichnet, daß eine oder mehrere der folgenden benut
zerspezifischen Namenslisten eingerichtet werden:
⚫ Liste zur Speicherung von Telefonnummern unter vorgebba ren Namen/Abkürzungen,
⚫ Liste zur Speicherung von Zielen für das Navigationssy stem unter vorgebbaren Namen/Abkürzungen,
⚫ Liste zur Speicherung von Funktionsnamen für Kommandos oder Kommandofolgen,
⚫ Liste zur Speicherung von Senderfrequenzen des Autora dios unter vorgebbaren Sendernamen bzw. Abkürzungen.
⚫ Liste zur Speicherung von Telefonnummern unter vorgebba ren Namen/Abkürzungen,
⚫ Liste zur Speicherung von Zielen für das Navigationssy stem unter vorgebbaren Namen/Abkürzungen,
⚫ Liste zur Speicherung von Funktionsnamen für Kommandos oder Kommandofolgen,
⚫ Liste zur Speicherung von Senderfrequenzen des Autora dios unter vorgebbaren Sendernamen bzw. Abkürzungen.
48. Verfahren nach einem der Ansprüche 43 bis 47, dadurch
gekennzeichnet, daß die Ausgabelautstärke der Sprachaus
gabe und des Kontrolltons oder der Kontrolltöne, ggf. auch
die Radiolautstärke und die Gebläseeinstellung, unter Be
rücksichtigung eines oder mehrerer der folgenden Parameter
festgelegt werden:
⚫ Fahrzeuggeschwindigkeit
⚫ Drehzahl
⚫ Öffnungsbreite der Fenster und des Schiebedaches
⚫ Fahrzeugtyp,
⚫ Wichtigkeit der Sprachausgabe in der jeweiligen Dialogsituation.
⚫ Fahrzeuggeschwindigkeit
⚫ Drehzahl
⚫ Öffnungsbreite der Fenster und des Schiebedaches
⚫ Fahrzeugtyp,
⚫ Wichtigkeit der Sprachausgabe in der jeweiligen Dialogsituation.
49. Verfahren nach Anspruch 28, dadurch gekennzeichnet,
daß die Push-to-talk-Taste
⚫ entweder Mehrfachfunktionen wahrnimmt oder beinhaltet, z. B. während des Telefonierens ("Auflegen des Hörers" "Abheben des Hörers") bzw. beim Neustart des Sprachdia logsystems bzw. beim Abbruch eines Telefonwahlvorganges,
⚫ oder ergänzt wird durch zusätzliche Schalter, welche z. B. einen Neustart oder den Abbruch einer Funktion erlauben.
⚫ entweder Mehrfachfunktionen wahrnimmt oder beinhaltet, z. B. während des Telefonierens ("Auflegen des Hörers" "Abheben des Hörers") bzw. beim Neustart des Sprachdia logsystems bzw. beim Abbruch eines Telefonwahlvorganges,
⚫ oder ergänzt wird durch zusätzliche Schalter, welche z. B. einen Neustart oder den Abbruch einer Funktion erlauben.
50. Vorrichtung zum Ausführen des Verfahrens nach einem
der vorhergehenden Ansprüche, bei welcher eine Sprachein
gabe-/-ausgabeeinheit über eine Sprachsignalvorverarbei
tungseinheit mit einer Spracherkennungseinheit verbunden
ist, die wiederum mit einer Ablauf-, Dialog- und Schnitt
stellensteuerung verbunden ist, dadurch gekennzeichnet daß
die Spracherkennungseinheit aus einem sprecherunabhängigen
Verbundworterkenner und einem sprecherabhängigen Zusatz-
Spracherkenner besteht, die beide ausgangsseitig mit einer
Einheit zur syntaktisch-grammatikalischen und/oder seman
tischen Nachverarbeitung verbunden sind, die mit der Ab
lauf-, Dialog- und Schnittstellensteuerung verbunden ist.
51. Vorrichtung nach Anspruch 50, dadurch gekennzeichnet,
daß die Sprachsignalvorverarbeitungseinheit eine Vorrich
tung zur Geräuschreduktion und/oder eine Vorrichtung zur
Echokompensation und/oder eine Vorrichtung zur Segmentie
rung enthält.
52. Vorrichtung nach einem der Ansprüche 50 oder 51, da
durch gekennzeichnet, daß die Spracheingabe-/-ausgabeein
heit einen Sprachencoder, einen Sprachdecoder sowie einen
Sprachspeicher enthält.
53. Vorrichtung nach einem der Ansprüche 50 bis 52, da
durch gekennzeichnet, daß die Ablauf-, Dialog- und
Schnittstellensteuerung, die Sprachein-/-ausgabe sowie die
Sprachsignalvorverarbeitung, Spracherkennung, syntaktisch
grammatikalische und semantische Nachverarbeitung mittels
mehrerer Mikro- und Signalprozessoren, Speichern und
Schnittstellenbausteine erfolgt, oder mittels eines ein
zigen digitalen Signal- oder Mikroprozessors sowie des
erforderlichen externen Daten- und Programmspeichers, der
Interfaces sowie der zugehörigen Treiberbausteine, eines
Taktgenerators, einer Steuerlogik und der für Sprachein-/
-ausgabe erforderlichen Mikrofone und Lautsprecher samt
zugehöriger Wandler und Verstärker sowie gegebenenfalls
einer Push-to-talk(PTT)- Taste und/oder einer Abbruchta
ste.
54. Vorrichtung nach Anspruch 53, dadurch gekennzeichnet,
daß über ein Interface
⚫ Daten und/oder Parameter ladbar bzw. nachladbar sind, um z. B. Verfahrensänderungen oder ein Sprachdialogsystem für eine andere Sprache zu realisieren,
⚫ die auf einem separaten Rechner festgelegte oder modifi zierte Syntaxstruktur, Dialogstruktur, Ablaufsteuerung, Sprachausgabe etc. auf das Sprachdialogsystem übertragen werden ("off-linie Dialog-Editor").
⚫ Daten und/oder Parameter ladbar bzw. nachladbar sind, um z. B. Verfahrensänderungen oder ein Sprachdialogsystem für eine andere Sprache zu realisieren,
⚫ die auf einem separaten Rechner festgelegte oder modifi zierte Syntaxstruktur, Dialogstruktur, Ablaufsteuerung, Sprachausgabe etc. auf das Sprachdialogsystem übertragen werden ("off-linie Dialog-Editor").
55. Vorrichtung nach Anspruch 53, dadurch gekennzeichnet,
daß diese mit mehreren der anzusteuernden Geräte über ein
Bussystem und/oder ein ringförmiges Netzwerk verknüpft ist
und daß über diesen Bus bzw. das Netzwerk Steuerdaten und/
oder Audiosignale und/oder Statusmeldungen des Kfz und/
oder der zu bedienenden Geräte übertragen werden.
56. Vorrichtung nach einem der Ansprüche 50 bis 55 für
die Anwendung in Fahrzeugen, dadurch gekennzeichnet, daß
die einzelnen anzusteuernden Geräte nicht jeweils ein
eigenes Sprachdialogsystem enthalten, sondern von einem
einzigen Sprachdialogsystem bedient werden.
57. Vorrichtung nach Anspruch 56, dadurch gekennzeichnet,
daß eine oder mehrere Schnittstellen zu Fahrzeugkomponen
ten oder Fahrzeugrechnern bestehen, worüber permanente
oder aktuelle Fahrzeugdaten dem Sprachdialogsystem mitge
teilt werden.
58. Vorrichtung nach einem der Ansprüche 55 oder 56, da
durch gekennzeichnet, daß diese Vorrichtung während der
Wartezeiten, in denen keine Sprachein- oder -ausgabe er
folgt, andere Funktionen übernimmt.
59. Vorrichtung nach einem der Ansprüche 50 bis 58, da
durch gekennzeichnet, daß durch erweiterten Speicher ein
multilinguales sprecherunabhängiges Dialogsystem aufgebaut
wird, wobei kurzfristig zwischen den Dialogsystemen ver
schiedener Sprachen umgeschaltet werden kann.
60. Vorrichtung nach einem der Ansprüche 50 bis 59, da
durch gekennzeichnet, daß ein optisches Display mit dem
Sprachdialogsystem über ein spezielles Interface oder über
den Busanschluß gekoppelt ist.
61. Vorrichtung nach Anspruch 60, dadurch gekennzeichnet,
daß dieser Bus ein optischer Datenbus ist und hierüber so
wohl Steuer- wie Audiosignale bzw. Statusmeldungen des Kfz
und der zu bedienenden Geräte übertragen werden.
62. Vorrichtung nach einem der Ansprüche 50 bis 61, da
durch gekennzeichnet, daß das vollständige Sprachdialogsy
stem über eine PCMCIA-Schnittstelle mit dem per Sprache zu
steuernden Gerät und/oder einem Host- oder Applika
tionsrechner gekoppelt wird.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19533541A DE19533541C1 (de) | 1995-09-11 | 1995-09-11 | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
CA002231504A CA2231504C (en) | 1995-09-11 | 1996-09-09 | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US09/043,134 US6839670B1 (en) | 1995-09-11 | 1996-09-09 | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
JP51163997A JP3479691B2 (ja) | 1995-09-11 | 1996-09-09 | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 |
PCT/EP1996/003939 WO1997010583A1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
EP96932482A EP0852051B1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
DE59608614T DE59608614D1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
ES96932482T ES2170870T3 (es) | 1995-09-11 | 1996-09-09 | Procedimiento para controlar automaticamente uno o varios aparatos mediante comandos de voz o dialogo de voz en funcionamiento en tiempo real y dispositivo para ejecutar el procedimiento. |
AT96932482T ATE211572T1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19533541A DE19533541C1 (de) | 1995-09-11 | 1995-09-11 | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19533541C1 true DE19533541C1 (de) | 1997-03-27 |
Family
ID=7771821
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19533541A Expired - Lifetime DE19533541C1 (de) | 1995-09-11 | 1995-09-11 | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
DE59608614T Revoked DE59608614D1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59608614T Revoked DE59608614D1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
Country Status (8)
Country | Link |
---|---|
US (1) | US6839670B1 (de) |
EP (1) | EP0852051B1 (de) |
JP (1) | JP3479691B2 (de) |
AT (1) | ATE211572T1 (de) |
CA (1) | CA2231504C (de) |
DE (2) | DE19533541C1 (de) |
ES (1) | ES2170870T3 (de) |
WO (1) | WO1997010583A1 (de) |
Cited By (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19709518C1 (de) * | 1997-03-10 | 1998-03-05 | Daimler Benz Aerospace Ag | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
DE19715325A1 (de) * | 1997-04-12 | 1998-10-15 | Bayerische Motoren Werke Ag | Anzeige- und Bedienvorrichtung für Menüs und/oder Funktionen eines Fahrzeugs |
DE19715101A1 (de) * | 1997-04-11 | 1998-10-15 | Saechsisches Inst Fuer Die Dru | Verfahren zur Steuerung einer graphischen Maschine |
DE19730920A1 (de) * | 1997-07-18 | 1999-01-21 | Ise Interactive Systems Entwic | Computeranlage |
DE19730816A1 (de) * | 1997-07-18 | 1999-01-21 | Ise Interactive Systems Entwic | Freisprecheinrichtung |
DE19818262A1 (de) * | 1998-04-23 | 1999-10-28 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb bzw. zum Bedienen verschiedener Geräte in einem Fahrzeug |
EP0971330A1 (de) * | 1998-07-07 | 2000-01-12 | Otis Elevator Company | Verbale Fernsteuerungseinrichtung |
WO2000019410A1 (en) * | 1998-09-30 | 2000-04-06 | Lernout & Hauspie Speech Products N.V. | Graphic user interface for navigation in speech recognition system grammars |
WO2000023982A1 (de) * | 1998-10-16 | 2000-04-27 | Volkswagen Aktiengesellschaft | Verfahren und vorrichtung zur ausgabe von informationen und/oder meldungen per sprache |
WO2000046794A1 (en) * | 1999-02-08 | 2000-08-10 | Qualcomm Incorporated | Distributed voice recognition system |
DE19738339C2 (de) * | 1997-09-02 | 2000-08-31 | Siemens Ag | Verfahren zum benutzergesteuerten Abbauen von drahtlosen Telekommunikationsverbindungen in drahtlosen Telekommunikationssystemen, insbesondere DECT-Systemen |
DE19913677A1 (de) * | 1999-03-25 | 2000-10-05 | Groza Igor | Sprachsystem im Auto und LKW mit erweiterter Steuerungsmöglichkeit |
DE19956747C1 (de) * | 1999-11-25 | 2001-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem |
DE19939065A1 (de) * | 1999-08-18 | 2001-02-22 | Volkswagen Ag | Multifunktions-Bedieneinrichtung |
DE19955890A1 (de) * | 1999-11-20 | 2001-06-21 | Bosch Gmbh Robert | Verfahren und Vorrichtung zur Ausgabe von Bedienhinweisen |
DE10008226A1 (de) * | 2000-02-22 | 2001-09-06 | Bosch Gmbh Robert | Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung |
DE10012756A1 (de) * | 2000-03-16 | 2001-09-20 | Volkswagen Ag | Verfahren und Einrichtung zur Abspeicherung und Abrufung individueller Einstellungen |
DE10012572A1 (de) * | 2000-03-15 | 2001-09-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
DE10030369A1 (de) * | 2000-06-21 | 2002-01-03 | Volkswagen Ag | Spracherkennungssystem |
DE10037023A1 (de) * | 2000-07-29 | 2002-02-21 | Bosch Gmbh Robert | Verfahren und System zur akustischen Funktionssteuerung im Kraftfahrzeug |
DE10040466A1 (de) * | 2000-08-18 | 2002-03-07 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
DE10062669A1 (de) * | 2000-12-15 | 2002-06-20 | Bsh Bosch Siemens Hausgeraete | Eingabevorrichtung und Verfahren zur Eingabe von Informationen in eine Steuereinheit |
DE10103608A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10103609A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10103610A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10115899A1 (de) * | 2001-03-30 | 2002-10-17 | Siemens Ag | Computer und Steuerverfahren dafür |
DE10118668A1 (de) * | 2001-04-14 | 2002-10-24 | Schott Glas | Koordinatenmeßvorrichtung |
DE10127852A1 (de) * | 2001-06-08 | 2002-12-12 | Mende Speech Solutions Gmbh & | Verfahren zur Erkennung von Sprachinformationen |
DE19730935C2 (de) * | 1997-07-18 | 2002-12-19 | Siemens Ag | Verfahren zum Generieren einer Sprachausgabe und Navigationssystem |
DE10129720A1 (de) * | 2001-06-15 | 2003-01-02 | Forsch Die Biolog Landw Licher | Lautverarbeitungsvorrichtung und -verfahren |
DE10151007A1 (de) * | 2001-10-16 | 2003-04-17 | Volkswagen Ag | Bedienvorrichtung für Fahrzeuge |
FR2831287A1 (fr) * | 2001-10-19 | 2003-04-25 | Visteon Global Tech Inc | Systeme de commande active a la voix a base de conduit de lumiere de communications et procede le mettant en oeuvre |
DE10207895A1 (de) * | 2002-02-23 | 2003-09-18 | Harman Becker Automotive Sys | Verfahren zur Spracherkennung und Spracherkennungssystem |
DE10237951A1 (de) * | 2002-08-20 | 2004-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Betrieb eines Roboters zu laufender Musik |
WO2004049192A2 (en) | 2002-11-28 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
EP1450133A1 (de) * | 2001-11-30 | 2004-08-25 | Sanyo Electric Company Limited | Navigationsvorrichtung |
DE19925064B4 (de) * | 1999-04-21 | 2004-12-16 | Thomas Böhner | Vorrichtung und Verfahren zur Steuerung von Beleuchtungsanlagen, Maschinen u. dgl. |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
DE10338512A1 (de) * | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
DE102004006467A1 (de) * | 2003-09-09 | 2005-04-21 | Volkswagen Ag | Verfahren und Vorrichtung zur Navigation eines Kraftfahrzeugführers |
DE10191732B4 (de) * | 2000-05-04 | 2005-10-06 | Visteon Global Technologies, Inc., Dearborn | Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem |
DE10017717B4 (de) * | 2000-04-11 | 2006-01-05 | Leopold Kostal Gmbh & Co. Kg | Spracheingabe gesteuertes Steuergerät |
DE102004046932A1 (de) * | 2004-09-28 | 2006-04-13 | Aug. Winkhaus Gmbh & Co. Kg | Schließeinrichtung und Verfahren zur Programmierung einer Schließeinrichtung |
DE102005059630A1 (de) * | 2005-12-14 | 2007-06-21 | Bayerische Motoren Werke Ag | Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl |
DE102006035780A1 (de) * | 2006-08-01 | 2008-02-07 | Bayerische Motoren Werke Ag | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems |
EP1933303A1 (de) * | 2006-12-14 | 2008-06-18 | Harman/Becker Automotive Systems GmbH | Sprachdialogkontrolle basierend auf Signalvorverarbeitung |
DE102007037567A1 (de) | 2007-08-09 | 2009-02-12 | Volkswagen Ag | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug |
DE102007046761A1 (de) * | 2007-09-28 | 2009-04-09 | Robert Bosch Gmbh | Verfahren zum Betrieb eines Navigationssystems, welches über eine Sprachausgabe verfügt |
DE102008008948A1 (de) | 2008-02-13 | 2009-08-20 | Volkswagen Ag | Systemarchitektur und Verfahren zur multimodalen Informationseingabe |
DE102009018590A1 (de) * | 2009-04-23 | 2010-10-28 | Volkswagen Ag | Kraftfahrzeug |
DE102009025530A1 (de) * | 2009-06-19 | 2010-12-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
DE102013001219A1 (de) * | 2013-01-25 | 2014-07-31 | Inodyn Newmedia Gmbh | Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
DE102014108371A1 (de) * | 2014-06-13 | 2015-12-17 | LOEWE Technologies GmbH | Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten und unterhaltungselektronisches Gerät |
US9378737B2 (en) | 2012-11-05 | 2016-06-28 | Mitsubishi Electric Corporation | Voice recognition device |
EP3089026A1 (de) * | 2000-05-03 | 2016-11-02 | Nokia Technologies Oy | Verfahren zum steuern eines systems, insbesondere eines elektrischen und/oder elektronischen systems mit zumindest einer anwendungseinrichtung |
EP3270575A1 (de) | 2016-07-12 | 2018-01-17 | Veecoo Ug | Plattform zur integration von mobilen endgräten und peripheren geräten des nachrüstmarktes in einem fahrzeug |
DE10007223B4 (de) | 2000-02-17 | 2019-04-25 | Harman Becker Automotive Systems Gmbh | System mit einem Sprachbediensystem als einer ersten Systemeinheit und einer zweiten Systemeinheit in einem Kraftfahrzeug |
US10636404B2 (en) | 2017-07-27 | 2020-04-28 | Volkswagen Atiengesellschaft | Method for compensating for interfering noises in a hands-free apparatus in a motor vehicle, and hands-free apparatus |
CN111274365A (zh) * | 2020-02-25 | 2020-06-12 | 广州七乐康药业连锁有限公司 | 基于语义理解的智能问诊方法、装置、存储介质及服务器 |
US10949602B2 (en) | 2016-09-20 | 2021-03-16 | Nuance Communications, Inc. | Sequencing medical codes methods and apparatus |
US10956860B2 (en) | 2011-02-18 | 2021-03-23 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US10978192B2 (en) | 2012-03-08 | 2021-04-13 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US11101024B2 (en) | 2014-06-04 | 2021-08-24 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
DE10228408B4 (de) | 2001-07-10 | 2021-09-30 | Sew-Eurodrive Gmbh & Co Kg | Bussystem, umfassend mindestens einen Bus und Busteilnehmer und Verfahren zur Sprachsteuerung |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US11241937B2 (en) | 2017-06-30 | 2022-02-08 | Volkswagen Aktiengesellschaft | Method and apparatus for controlling air conditioning devices in a transportation vehicle |
US11250856B2 (en) | 2011-02-18 | 2022-02-15 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
Families Citing this family (252)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5616549A (en) * | 1995-12-29 | 1997-04-01 | Clark; Lawrence A. | Molecular level cleaning of contaminates from parts utilizing an envronmentally safe solvent |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
JP3358498B2 (ja) * | 1997-07-17 | 2002-12-16 | 株式会社デンソー | 音声認識装置及びナビゲーションシステム |
JP4562910B2 (ja) * | 1998-03-23 | 2010-10-13 | マイクロソフト コーポレーション | オペレーティングシステムのアプリケーション・プログラム・インターフェース |
JP2000259198A (ja) * | 1999-03-04 | 2000-09-22 | Sony Corp | パターン認識装置および方法、並びに提供媒体 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
EP1285435B1 (de) * | 2000-05-23 | 2007-03-21 | Thomson Licensing | Syntax- und semantische-analyse von sprachbefehlen |
DE10034235C1 (de) * | 2000-07-14 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung und Spracherkenner |
KR20020040850A (ko) * | 2000-08-15 | 2002-05-30 | 요트.게.아. 롤페즈 | 공통 에코 소거가 있는 다중-디바이스 오디오-비디오 |
DE10041456A1 (de) * | 2000-08-23 | 2002-03-07 | Philips Corp Intellectual Pty | Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen |
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
US7203651B2 (en) * | 2000-12-07 | 2007-04-10 | Art-Advanced Recognition Technologies, Ltd. | Voice control system with multiple voice recognition engines |
JP3919210B2 (ja) * | 2001-02-15 | 2007-05-23 | アルパイン株式会社 | 音声入力案内方法及び装置 |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
JP2002304188A (ja) * | 2001-04-05 | 2002-10-18 | Sony Corp | 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体 |
JP4724943B2 (ja) * | 2001-04-05 | 2011-07-13 | 株式会社デンソー | 音声認識装置 |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US7610189B2 (en) | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US7174300B2 (en) * | 2001-12-11 | 2007-02-06 | Lockheed Martin Corporation | Dialog processing method and apparatus for uninhabited air vehicles |
DE10163214A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
DE10208466A1 (de) * | 2002-02-27 | 2004-01-29 | BSH Bosch und Siemens Hausgeräte GmbH | Elektrisches Haushaltsgerät |
JP2003280688A (ja) * | 2002-03-25 | 2003-10-02 | Nissan Diesel Motor Co Ltd | 情報交換システム |
JP3654262B2 (ja) * | 2002-05-09 | 2005-06-02 | 株式会社デンソー | 音声認識装置及びナビゲーションシステム |
JP2004032430A (ja) * | 2002-06-26 | 2004-01-29 | Fujitsu Ltd | 制御装置及び制御プログラム |
JP2004110613A (ja) * | 2002-09-20 | 2004-04-08 | Toshiba Corp | 制御装置、制御プログラム、対象装置及び制御システム |
DE10344007A1 (de) | 2002-12-24 | 2004-07-08 | Robert Bosch Gmbh | Informationssystem für Fahrzeuge und Verfahren zur Sprachsteuerung |
US20040143440A1 (en) * | 2003-01-03 | 2004-07-22 | Venkatesh Prasad | Vehicle speech recognition system |
ES2245546B1 (es) * | 2003-03-12 | 2006-11-01 | Carlos Catala Costa | Cabinas de ducha, mini piscinas (spas), bañeras de hidromasaje controladas por voz. |
US20050071170A1 (en) * | 2003-09-30 | 2005-03-31 | Comerford Liam D. | Dissection of utterances into commands and voice data |
US7552221B2 (en) | 2003-10-15 | 2009-06-23 | Harman Becker Automotive Systems Gmbh | System for communicating with a server through a mobile communication device |
JP2005167866A (ja) * | 2003-12-05 | 2005-06-23 | Kenwood Corp | データ記録装置及びデータ記録方法 |
DE602004010054T2 (de) * | 2004-01-19 | 2008-03-06 | Harman Becker Automotive Systems Gmbh | Betätigung eines Sprachdialogsystems |
EP1560199B1 (de) | 2004-01-29 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Multimodale Dateneingabe |
ATE415684T1 (de) * | 2004-01-29 | 2008-12-15 | Harman Becker Automotive Sys | Verfahren und system zur sprachdialogschnittstelle |
EP1562180B1 (de) * | 2004-02-06 | 2015-04-01 | Nuance Communications, Inc. | Sprachdialogsystem und Verfahren zum Steuern eines elektronischen Gerätes |
US20090164215A1 (en) * | 2004-02-09 | 2009-06-25 | Delta Electronics, Inc. | Device with voice-assisted system |
US7366535B2 (en) * | 2004-04-21 | 2008-04-29 | Nokia Corporation | Push-to-talk mobile communication terminals |
FR2871978B1 (fr) * | 2004-06-16 | 2006-09-22 | Alcatel Sa | Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede |
US8725505B2 (en) * | 2004-10-22 | 2014-05-13 | Microsoft Corporation | Verb error recovery in speech recognition |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US7689423B2 (en) * | 2005-04-13 | 2010-03-30 | General Motors Llc | System and method of providing telematically user-optimized configurable audio |
US20060253272A1 (en) * | 2005-05-06 | 2006-11-09 | International Business Machines Corporation | Voice prompts for use in speech-to-speech translation system |
JP4660299B2 (ja) * | 2005-06-29 | 2011-03-30 | 三菱電機株式会社 | 移動体用情報装置 |
US7424431B2 (en) * | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
ATE550756T1 (de) * | 2005-08-04 | 2012-04-15 | Nuance Communications Inc | Sprachdialogsystem |
US7904300B2 (en) * | 2005-08-10 | 2011-03-08 | Nuance Communications, Inc. | Supporting multiple speech enabled user interface consoles within a motor vehicle |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7590541B2 (en) * | 2005-09-30 | 2009-09-15 | Rockwell Automation Technologies, Inc. | HMI presentation layer configuration system |
US20090222270A2 (en) * | 2006-02-14 | 2009-09-03 | Ivc Inc. | Voice command interface device |
US20070198271A1 (en) * | 2006-02-23 | 2007-08-23 | Dana Abramson | Method for training a user of speech recognition software |
JP4131978B2 (ja) * | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
US7899673B2 (en) * | 2006-08-09 | 2011-03-01 | Microsoft Corporation | Automatic pruning of grammars in a multi-application speech recognition interface |
US20080045256A1 (en) * | 2006-08-16 | 2008-02-21 | Microsoft Corporation | Eyes-free push-to-talk communication |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8831183B2 (en) * | 2006-12-22 | 2014-09-09 | Genesys Telecommunications Laboratories, Inc | Method for selecting interactive voice response modes using human voice detection analysis |
JP4827721B2 (ja) * | 2006-12-26 | 2011-11-30 | ニュアンス コミュニケーションズ,インコーポレイテッド | 発話分割方法、装置およびプログラム |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US20080221899A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile messaging environment speech processing facility |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20080221884A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US20080228493A1 (en) * | 2007-03-12 | 2008-09-18 | Chih-Lin Hu | Determining voice commands with cooperative voice recognition |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
ATE509345T1 (de) * | 2007-09-21 | 2011-05-15 | Boeing Co | Gesprochene fahrzeugsteuerung |
WO2009047858A1 (ja) * | 2007-10-12 | 2009-04-16 | Fujitsu Limited | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体 |
ATE491201T1 (de) * | 2007-10-17 | 2010-12-15 | Harman Becker Automotive Sys | Sprachdialogsystem mit an den benutzer angepasster sprachausgabe |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US7516068B1 (en) * | 2008-04-07 | 2009-04-07 | International Business Machines Corporation | Optimized collection of audio for speech recognition |
US8958848B2 (en) * | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682660B1 (en) * | 2008-05-21 | 2014-03-25 | Resolvity, Inc. | Method and system for post-processing speech recognition results |
US8983841B2 (en) * | 2008-07-15 | 2015-03-17 | At&T Intellectual Property, I, L.P. | Method for enhancing the playback of information in interactive voice response systems |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9043209B2 (en) * | 2008-11-28 | 2015-05-26 | Nec Corporation | Language model creation device |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
DE102009041007A1 (de) | 2009-09-10 | 2011-03-24 | Bayerische Motoren Werke Aktiengesellschaft | Navigationssystem und Radioempfangssystem |
US8428947B2 (en) | 2009-12-15 | 2013-04-23 | At&T Intellectual Property I, L.P. | Automatic sound level control |
EP4318463A3 (de) * | 2009-12-23 | 2024-02-28 | Google LLC | Multimodale eingabe in eine elektronische vorrichtung |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8700405B2 (en) | 2010-02-16 | 2014-04-15 | Honeywell International Inc | Audio system and method for coordinating tasks |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8787977B2 (en) * | 2010-04-08 | 2014-07-22 | General Motors Llc | Method of controlling dialing modes in a vehicle |
US8265928B2 (en) * | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US20120065972A1 (en) * | 2010-09-12 | 2012-03-15 | Var Systems Ltd. | Wireless voice recognition control system for controlling a welder power supply by voice commands |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP2012215673A (ja) * | 2011-03-31 | 2012-11-08 | Toshiba Corp | 音声処理装置、及び音声処理方法 |
US9368107B2 (en) * | 2011-04-20 | 2016-06-14 | Nuance Communications, Inc. | Permitting automated speech command discovery via manual event to command mapping |
JP5681041B2 (ja) * | 2011-06-03 | 2015-03-04 | 富士通株式会社 | 名寄せ規則生成方法、装置、およびプログラム |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120316884A1 (en) * | 2011-06-10 | 2012-12-13 | Curtis Instruments, Inc. | Wheelchair System Having Voice Activated Menu Navigation And Auditory Feedback |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP2013068532A (ja) * | 2011-09-22 | 2013-04-18 | Clarion Co Ltd | 情報端末、サーバー装置、検索システムおよびその検索方法 |
US9847083B2 (en) * | 2011-11-17 | 2017-12-19 | Universal Electronics Inc. | System and method for voice actuated configuration of a controlling device |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US20140016797A1 (en) * | 2012-07-16 | 2014-01-16 | Ford Global Technologies, Llc | Method for Changing Audio System Mode for Roof Open/Closed Condition |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9148499B2 (en) | 2013-01-22 | 2015-09-29 | Blackberry Limited | Method and system for automatically identifying voice tags through user operation |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (de) | 2013-06-09 | 2022-01-12 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10163455B2 (en) * | 2013-12-03 | 2018-12-25 | Lenovo (Singapore) Pte. Ltd. | Detecting pause in audible input to device |
KR102210433B1 (ko) | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
DE102014111503B4 (de) * | 2014-08-12 | 2016-04-28 | Gls It Services Gmbh | Intelligentes Zustellsystem |
US9418679B2 (en) | 2014-08-12 | 2016-08-16 | Honeywell International Inc. | Methods and apparatus for interpreting received speech data using speech recognition |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9792901B1 (en) * | 2014-12-11 | 2017-10-17 | Amazon Technologies, Inc. | Multiple-source speech dialog input |
DE112014007287B4 (de) * | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
CN104615052A (zh) * | 2015-01-15 | 2015-05-13 | 深圳乐投卡尔科技有限公司 | Android车载导航全局声控装置及方法 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6481939B2 (ja) * | 2015-03-19 | 2019-03-13 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9966073B2 (en) | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10083697B2 (en) * | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
CN104899002A (zh) * | 2015-05-29 | 2015-09-09 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换方法及系统 |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10672385B2 (en) * | 2015-09-04 | 2020-06-02 | Honeywell International Inc. | Method and system for remotely training and commanding the speech recognition system on a cockpit via a carry-on-device in a connected aircraft |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DE102015222105A1 (de) * | 2015-11-10 | 2017-05-11 | Volkswagen Aktiengesellschaft | Audiosignalverarbeitung in einem Fahrzeug |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR102588423B1 (ko) * | 2016-12-22 | 2023-10-12 | 삼성전자주식회사 | 벤디드 디스플레이를 통한 부품 실장 구조를 갖는 전자 장치 |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
EP3622784B1 (de) * | 2017-05-08 | 2020-11-11 | Signify Holding B.V. | Sprachsteuerung |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11775891B2 (en) | 2017-08-03 | 2023-10-03 | Telepathy Labs, Inc. | Omnichannel, intelligent, proactive virtual agent |
CN107642864B (zh) * | 2017-08-18 | 2021-08-24 | 重庆海尔空调器有限公司 | 一种多空调语音控制方法、控制装置和空调系统 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
DE102017123443A1 (de) * | 2017-10-09 | 2019-04-11 | Lenze Automation Gmbh | System für die Steuerung und/oder Diagnose eines elektrischen Antriebssystems |
US10586537B2 (en) * | 2017-11-30 | 2020-03-10 | International Business Machines Corporation | Filtering directive invoking vocal utterances |
US10869128B2 (en) | 2018-08-07 | 2020-12-15 | Pangissimo Llc | Modular speaker system |
US10978064B2 (en) | 2018-11-30 | 2021-04-13 | International Business Machines Corporation | Contextually relevant spoken device-to-device communication between IoT devices |
RU2761940C1 (ru) * | 2018-12-18 | 2021-12-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу |
EP3906538A4 (de) * | 2019-01-03 | 2022-10-19 | Lucomm Technologies, Inc. | Robotische vorrichtungen |
CN110288988A (zh) * | 2019-05-16 | 2019-09-27 | 平安科技(深圳)有限公司 | 目标数据筛选方法、装置及存储介质 |
CN112885340A (zh) * | 2019-11-29 | 2021-06-01 | 阿里巴巴集团控股有限公司 | 设备控制方法、装置和系统 |
DE102020202506A1 (de) * | 2020-02-27 | 2021-09-02 | Siemens Mobility GmbH | Verfahren zur Dokumentation einer sprachbasierten Kommunikation |
CN111724768A (zh) * | 2020-04-22 | 2020-09-29 | 深圳市伟文无线通讯技术有限公司 | 用于离线语音识别的实时生成解码文件的系统和方法 |
KR20210149969A (ko) * | 2020-06-02 | 2021-12-10 | 삼성전자주식회사 | 컨텐츠를 수정하기 위한 전자 장치 및 방법 |
KR102494051B1 (ko) * | 2021-01-26 | 2023-01-31 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
DE3928049A1 (de) * | 1989-08-25 | 1991-02-28 | Grundig Emv | Sprachgesteuertes archivsystem |
Family Cites Families (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS493507A (de) * | 1972-04-19 | 1974-01-12 | ||
JPS4957702A (de) * | 1972-10-02 | 1974-06-05 | ||
JPS5689799A (en) * | 1979-12-22 | 1981-07-21 | Fujitsu Ltd | Voice identification device |
JPS56102635A (en) * | 1980-01-21 | 1981-08-17 | Toshiba Corp | Controller for air conditioner |
JPS5755240A (en) * | 1980-09-17 | 1982-04-02 | Toyota Motor Corp | Voice input-output control method for vehicle |
JPS5816700U (ja) * | 1981-07-27 | 1983-02-01 | 日産自動車株式会社 | 車両用音声認識装置 |
JPS5823097A (ja) * | 1981-08-03 | 1983-02-10 | 日本電信電話株式会社 | 音声認識装置 |
JPS5830800A (ja) * | 1981-08-17 | 1983-02-23 | トヨタ自動車株式会社 | 車両用音声認識方式 |
JPS5850598A (ja) * | 1981-09-22 | 1983-03-25 | 富士通株式会社 | 音声認識装置の入力監視方式 |
JPS5870287A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 音声認識装置 |
JPS5876893A (ja) * | 1981-10-30 | 1983-05-10 | 日本電気株式会社 | 音声認識装置 |
JPS58117926A (ja) * | 1981-12-29 | 1983-07-13 | Matsushita Electric Ind Co Ltd | 加熱装置 |
JPS58120297A (ja) * | 1982-01-11 | 1983-07-18 | 日本電信電話株式会社 | 音声応答認識装置 |
JPS58114625U (ja) * | 1982-01-28 | 1983-08-05 | 富士通テン株式会社 | ラジオ受信機 |
JPS58151000A (ja) * | 1982-03-02 | 1983-09-07 | 三菱電機株式会社 | 音声入力制御装置 |
JPS5971100A (ja) * | 1982-10-18 | 1984-04-21 | 日本電信電話株式会社 | 音声認識方式 |
JPS59107391A (ja) * | 1982-12-13 | 1984-06-21 | 株式会社日立製作所 | 発声法訓練装置 |
JPS59122634U (ja) * | 1983-02-07 | 1984-08-18 | 横河電機株式会社 | 外部スイツチ付音声入力装置 |
JPS59180600A (ja) * | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | 車載用音声認識制御装置 |
JPS59211099A (ja) * | 1983-05-16 | 1984-11-29 | 富士通株式会社 | 音声認識装置 |
JPS59228434A (ja) * | 1983-06-09 | 1984-12-21 | Fujitsu Ltd | 音声入力制御方式 |
JPS6062221A (ja) * | 1983-09-14 | 1985-04-10 | Hitachi Micro Comput Eng Ltd | 選局装置 |
JPS60104999A (ja) * | 1983-11-14 | 1985-06-10 | 松下電器産業株式会社 | 音声認識装置 |
JPS60122850A (ja) * | 1983-12-07 | 1985-07-01 | Sharp Corp | 空気調和機等の音声入力装置 |
JPS60198596A (ja) * | 1984-03-21 | 1985-10-08 | 電子計算機基本技術研究組合 | 音声入力装置 |
JPS6135494A (ja) * | 1984-07-27 | 1986-02-19 | 日本電気株式会社 | 音声認識処理装置 |
JPS61112198A (ja) * | 1984-11-07 | 1986-05-30 | 株式会社日立製作所 | 音声認識装置 |
JPS61130999A (ja) * | 1984-11-30 | 1986-06-18 | 株式会社神戸製鋼所 | 音声認識装置 |
JPS61151600A (ja) * | 1984-12-26 | 1986-07-10 | 株式会社日立製作所 | 音声認識方法 |
JPH068999B2 (ja) * | 1985-08-21 | 1994-02-02 | 株式会社日立製作所 | 音声入力方法 |
WO1987001546A1 (en) * | 1985-09-03 | 1987-03-12 | Motorola, Inc. | Hands-free control system for a radiotelephone |
JPS62105198A (ja) * | 1985-10-31 | 1987-05-15 | 富士通株式会社 | 音声出力制御方式 |
US4751737A (en) | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
JPS62138900A (ja) * | 1985-12-12 | 1987-06-22 | 日本電気株式会社 | 正規化ケプストラム分析装置 |
JPS62245296A (ja) * | 1986-04-18 | 1987-10-26 | シチズン時計株式会社 | 音声認識装置 |
JPS6332596A (ja) * | 1986-07-25 | 1988-02-12 | 日本電信電話株式会社 | 音声認識装置 |
JPS63116199A (ja) * | 1986-11-05 | 1988-05-20 | 富士通株式会社 | 音声入力装置の音声辞書格納方式 |
US4856072A (en) * | 1986-12-31 | 1989-08-08 | Dana Corporation | Voice actuated vehicle security system |
JPS63281199A (ja) * | 1987-05-13 | 1988-11-17 | 日本電気株式会社 | 音声セグメンテ−ション装置 |
JPS63301998A (ja) * | 1987-06-02 | 1988-12-08 | 日本電気株式会社 | 音声認識応答装置 |
JPH0766272B2 (ja) * | 1987-08-24 | 1995-07-19 | 日本電気株式会社 | 音声セグメンテ−ション装置 |
JPH0197044A (ja) * | 1987-10-08 | 1989-04-14 | Nec Corp | 音声ダイヤル装置 |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
JPH02184900A (ja) * | 1989-01-11 | 1990-07-19 | Ricoh Co Ltd | 音声ダイヤル装置 |
JPH02184899A (ja) * | 1989-01-11 | 1990-07-19 | Ricoh Co Ltd | 標準パターン及び電話番号登録方式 |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH02312426A (ja) * | 1989-05-29 | 1990-12-27 | Nissan Motor Co Ltd | 車両用電話装置 |
JP2867425B2 (ja) * | 1989-05-30 | 1999-03-08 | 日本電気株式会社 | 音声認識用前処理装置 |
US5144672A (en) | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
JPH03155598A (ja) * | 1989-11-14 | 1991-07-03 | Nec Corp | 認識対象テンプレート差し替え型音声認識装置 |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
JPH04120850A (ja) * | 1990-09-12 | 1992-04-21 | Toshiba Corp | 音声合成装置 |
JP3029654B2 (ja) * | 1990-09-17 | 2000-04-04 | 株式会社東芝 | 音声認識装置 |
JPH04172052A (ja) * | 1990-11-06 | 1992-06-19 | Toshiba Corp | 音声合成装置 |
JPH04301697A (ja) * | 1991-03-29 | 1992-10-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置 |
US5241619A (en) | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5388183A (en) | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
US5353376A (en) * | 1992-03-20 | 1994-10-04 | Texas Instruments Incorporated | System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JPH05290101A (ja) * | 1992-04-13 | 1993-11-05 | Mitsubishi Electric Corp | 連続音声認識処理方法およびその装置 |
JPH06133039A (ja) * | 1992-10-16 | 1994-05-13 | Oki Electric Ind Co Ltd | 気象情報自動案内装置 |
JP3277579B2 (ja) * | 1992-12-28 | 2002-04-22 | ソニー株式会社 | 音声認識方法および装置 |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
JPH08307509A (ja) * | 1995-04-19 | 1996-11-22 | Texas Instr Inc <Ti> | 手を使わずに電話機のダイアル操作を行う方法および装置 |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
-
1995
- 1995-09-11 DE DE19533541A patent/DE19533541C1/de not_active Expired - Lifetime
-
1996
- 1996-09-09 WO PCT/EP1996/003939 patent/WO1997010583A1/de active IP Right Grant
- 1996-09-09 AT AT96932482T patent/ATE211572T1/de active
- 1996-09-09 JP JP51163997A patent/JP3479691B2/ja not_active Expired - Lifetime
- 1996-09-09 US US09/043,134 patent/US6839670B1/en not_active Expired - Lifetime
- 1996-09-09 DE DE59608614T patent/DE59608614D1/de not_active Revoked
- 1996-09-09 CA CA002231504A patent/CA2231504C/en not_active Expired - Lifetime
- 1996-09-09 EP EP96932482A patent/EP0852051B1/de not_active Revoked
- 1996-09-09 ES ES96932482T patent/ES2170870T3/es not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
DE3928049A1 (de) * | 1989-08-25 | 1991-02-28 | Grundig Emv | Sprachgesteuertes archivsystem |
Non-Patent Citations (3)
Title |
---|
ASADA, H., NORIMATSU, H., AZUMA, S.: "Speaker- Dependent Voice Recognition Algorithm For Voice Dialing In Automotive Environment". In: Procee- dings of the ISATA-Conference 1990, S. 547-557 * |
CLASS, F., KATTERFELDT, P., REGEL, P.: "Methoden und Algorithmen der Worterkennung". In: MANGOLD, H. (Herausgeber) Sprachliche Mensch- Maschine-Kommunikation, Verlag Oldenbourg 1992, S. 1-13 * |
SHINOHARA, T., MAEDA, N., ASADA, H.: "Hands Free Voice Recognition Telephone For Automobile". In: Proceedings of the ISATA-Conference 1990, S. 525-545 * |
Cited By (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19709518C1 (de) * | 1997-03-10 | 1998-03-05 | Daimler Benz Aerospace Ag | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
DE19709518C5 (de) * | 1997-03-10 | 2006-05-04 | Harman Becker Automotive Systems Gmbh | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
US6230132B1 (en) | 1997-03-10 | 2001-05-08 | Daimlerchrysler Ag | Process and apparatus for real-time verbal input of a target address of a target address system |
DE19715101C2 (de) * | 1997-04-11 | 2003-04-10 | Saechsisches Inst Fuer Die Dru | Verfahren zur Steuerung einer graphischen Maschine |
DE19715101A1 (de) * | 1997-04-11 | 1998-10-15 | Saechsisches Inst Fuer Die Dru | Verfahren zur Steuerung einer graphischen Maschine |
DE19715325A1 (de) * | 1997-04-12 | 1998-10-15 | Bayerische Motoren Werke Ag | Anzeige- und Bedienvorrichtung für Menüs und/oder Funktionen eines Fahrzeugs |
DE19730920A1 (de) * | 1997-07-18 | 1999-01-21 | Ise Interactive Systems Entwic | Computeranlage |
DE19730816A1 (de) * | 1997-07-18 | 1999-01-21 | Ise Interactive Systems Entwic | Freisprecheinrichtung |
DE19730935C2 (de) * | 1997-07-18 | 2002-12-19 | Siemens Ag | Verfahren zum Generieren einer Sprachausgabe und Navigationssystem |
DE19738339C2 (de) * | 1997-09-02 | 2000-08-31 | Siemens Ag | Verfahren zum benutzergesteuerten Abbauen von drahtlosen Telekommunikationsverbindungen in drahtlosen Telekommunikationssystemen, insbesondere DECT-Systemen |
US6625443B1 (en) | 1997-09-02 | 2003-09-23 | Siemens Aktiengesellschaft | Method for the user-controlled release of wireless telecommunications connections in wireless telecommunications systems, especially DECT systems |
DE19818262A1 (de) * | 1998-04-23 | 1999-10-28 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb bzw. zum Bedienen verschiedener Geräte in einem Fahrzeug |
EP0971330A1 (de) * | 1998-07-07 | 2000-01-12 | Otis Elevator Company | Verbale Fernsteuerungseinrichtung |
WO2000019410A1 (en) * | 1998-09-30 | 2000-04-06 | Lernout & Hauspie Speech Products N.V. | Graphic user interface for navigation in speech recognition system grammars |
WO2000023982A1 (de) * | 1998-10-16 | 2000-04-27 | Volkswagen Aktiengesellschaft | Verfahren und vorrichtung zur ausgabe von informationen und/oder meldungen per sprache |
US7991618B2 (en) | 1998-10-16 | 2011-08-02 | Volkswagen Ag | Method and device for outputting information and/or status messages, using speech |
WO2000046794A1 (en) * | 1999-02-08 | 2000-08-10 | Qualcomm Incorporated | Distributed voice recognition system |
DE19913677A1 (de) * | 1999-03-25 | 2000-10-05 | Groza Igor | Sprachsystem im Auto und LKW mit erweiterter Steuerungsmöglichkeit |
DE19925064B4 (de) * | 1999-04-21 | 2004-12-16 | Thomas Böhner | Vorrichtung und Verfahren zur Steuerung von Beleuchtungsanlagen, Maschinen u. dgl. |
DE19939065A1 (de) * | 1999-08-18 | 2001-02-22 | Volkswagen Ag | Multifunktions-Bedieneinrichtung |
DE19955890B4 (de) * | 1999-11-20 | 2006-10-05 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Ausgabe von Bedienhinweisen |
DE19955890A1 (de) * | 1999-11-20 | 2001-06-21 | Bosch Gmbh Robert | Verfahren und Vorrichtung zur Ausgabe von Bedienhinweisen |
DE19956747C1 (de) * | 1999-11-25 | 2001-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem |
DE10007223B4 (de) | 2000-02-17 | 2019-04-25 | Harman Becker Automotive Systems Gmbh | System mit einem Sprachbediensystem als einer ersten Systemeinheit und einer zweiten Systemeinheit in einem Kraftfahrzeug |
DE10008226C2 (de) * | 2000-02-22 | 2002-06-13 | Bosch Gmbh Robert | Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung |
DE10008226A1 (de) * | 2000-02-22 | 2001-09-06 | Bosch Gmbh Robert | Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung |
DE10012572A1 (de) * | 2000-03-15 | 2001-09-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
DE10012572C2 (de) * | 2000-03-15 | 2003-03-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
DE10012756A1 (de) * | 2000-03-16 | 2001-09-20 | Volkswagen Ag | Verfahren und Einrichtung zur Abspeicherung und Abrufung individueller Einstellungen |
DE10012756B4 (de) * | 2000-03-16 | 2017-11-02 | Volkswagen Ag | Verfahren und Einrichtung zur Abspeicherung und Abrufung individueller Einstellungen |
DE10017717B4 (de) * | 2000-04-11 | 2006-01-05 | Leopold Kostal Gmbh & Co. Kg | Spracheingabe gesteuertes Steuergerät |
EP3089026A1 (de) * | 2000-05-03 | 2016-11-02 | Nokia Technologies Oy | Verfahren zum steuern eines systems, insbesondere eines elektrischen und/oder elektronischen systems mit zumindest einer anwendungseinrichtung |
US9772739B2 (en) | 2000-05-03 | 2017-09-26 | Nokia Technologies Oy | Method for controlling a system, especially an electrical and/or electronic system comprising at least one application device |
DE10191732B4 (de) * | 2000-05-04 | 2005-10-06 | Visteon Global Technologies, Inc., Dearborn | Selektive Sprecheradaption für ein fahrzeuggebundenes Spracherkennungssystem |
DE10030369A1 (de) * | 2000-06-21 | 2002-01-03 | Volkswagen Ag | Spracherkennungssystem |
DE10037023A1 (de) * | 2000-07-29 | 2002-02-21 | Bosch Gmbh Robert | Verfahren und System zur akustischen Funktionssteuerung im Kraftfahrzeug |
DE10040466C2 (de) * | 2000-08-18 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
DE10040466A1 (de) * | 2000-08-18 | 2002-03-07 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
DE10062669A1 (de) * | 2000-12-15 | 2002-06-20 | Bsh Bosch Siemens Hausgeraete | Eingabevorrichtung und Verfahren zur Eingabe von Informationen in eine Steuereinheit |
EP1229432A3 (de) * | 2000-12-15 | 2006-07-12 | BSH Bosch und Siemens Hausgeräte GmbH | Eingabevorrichtung und Verfahren zur Eingabe von Informationen in eine Steuereinheit |
EP1229432A2 (de) * | 2000-12-15 | 2002-08-07 | BSH Bosch und Siemens Hausgeräte GmbH | Eingabevorrichtung und Verfahren zur Eingabe von Informationen in eine Steuereinheit |
DE10103608A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10103610A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10103609A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10115899A1 (de) * | 2001-03-30 | 2002-10-17 | Siemens Ag | Computer und Steuerverfahren dafür |
DE10115899B4 (de) * | 2001-03-30 | 2005-04-14 | Siemens Ag | Verfahren zur Erstellung von Computer-Programmen mittels Spracherkennung |
DE10118668A1 (de) * | 2001-04-14 | 2002-10-24 | Schott Glas | Koordinatenmeßvorrichtung |
DE10118668B4 (de) * | 2001-04-14 | 2004-02-05 | Schott Glas | Koordinatenmeßvorrichtung |
DE10127852A1 (de) * | 2001-06-08 | 2002-12-12 | Mende Speech Solutions Gmbh & | Verfahren zur Erkennung von Sprachinformationen |
DE10129720A1 (de) * | 2001-06-15 | 2003-01-02 | Forsch Die Biolog Landw Licher | Lautverarbeitungsvorrichtung und -verfahren |
DE10129720B4 (de) * | 2001-06-15 | 2004-02-19 | Forschungsinstitut Für Die Biologie Landwirtschaftlicher Nutztiere | Lautverarbeitungsvorrichtung und -verfahren |
DE10228408B4 (de) | 2001-07-10 | 2021-09-30 | Sew-Eurodrive Gmbh & Co Kg | Bussystem, umfassend mindestens einen Bus und Busteilnehmer und Verfahren zur Sprachsteuerung |
DE10151007A1 (de) * | 2001-10-16 | 2003-04-17 | Volkswagen Ag | Bedienvorrichtung für Fahrzeuge |
FR2831287A1 (fr) * | 2001-10-19 | 2003-04-25 | Visteon Global Tech Inc | Systeme de commande active a la voix a base de conduit de lumiere de communications et procede le mettant en oeuvre |
EP1450133A1 (de) * | 2001-11-30 | 2004-08-25 | Sanyo Electric Company Limited | Navigationsvorrichtung |
CN100460816C (zh) * | 2001-11-30 | 2009-02-11 | 三洋电机株式会社 | 导航设备 |
US7512482B2 (en) | 2001-11-30 | 2009-03-31 | Sanyo Electric Co., Ltd. | Navigation apparatus |
US8086399B2 (en) | 2001-11-30 | 2011-12-27 | Sanyo Electric Co., Ltd. | Navigation apparatus |
EP1450133A4 (de) * | 2001-11-30 | 2006-11-02 | Sanyo Electric Co | Navigationsvorrichtung |
US7643937B2 (en) | 2001-11-30 | 2010-01-05 | Sanyo Electric Co., Ltd. | Navigation apparatus |
DE10207895A1 (de) * | 2002-02-23 | 2003-09-18 | Harman Becker Automotive Sys | Verfahren zur Spracherkennung und Spracherkennungssystem |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
DE10237951A1 (de) * | 2002-08-20 | 2004-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Betrieb eines Roboters zu laufender Musik |
US9996675B2 (en) | 2002-11-28 | 2018-06-12 | Nuance Communications, Inc. | Method to assign word class information |
US8032358B2 (en) | 2002-11-28 | 2011-10-04 | Nuance Communications Austria Gmbh | Classifying text via topical analysis, for applications to speech recognition |
US8965753B2 (en) | 2002-11-28 | 2015-02-24 | Nuance Communications, Inc. | Method to assign word class information |
US10515719B2 (en) | 2002-11-28 | 2019-12-24 | Nuance Communications, Inc. | Method to assign world class information |
CN100517300C (zh) * | 2002-11-28 | 2009-07-22 | 皇家飞利浦电子股份有限公司 | 分配词类信息的设备和方法 |
WO2004049192A3 (en) * | 2002-11-28 | 2004-08-12 | Koninkl Philips Electronics Nv | Method to assign word class information |
US8612209B2 (en) | 2002-11-28 | 2013-12-17 | Nuance Communications, Inc. | Classifying text via topical analysis, for applications to speech recognition |
EP2544101A1 (de) * | 2002-11-28 | 2013-01-09 | Nuance Communications Austria GmbH | Verfahren zur Zuordnung von Wordklassifikationen |
EP2544102A1 (de) * | 2002-11-28 | 2013-01-09 | Nuance Communications Austria GmbH | Verfahren zur zuordnung von wordklassifikationen |
WO2004049192A2 (en) | 2002-11-28 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US10923219B2 (en) | 2002-11-28 | 2021-02-16 | Nuance Communications, Inc. | Method to assign word class information |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US7630878B2 (en) | 2003-07-28 | 2009-12-08 | Svox Ag | Speech recognition with language-dependent model vectors |
DE10338512A1 (de) * | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
DE102004006467A1 (de) * | 2003-09-09 | 2005-04-21 | Volkswagen Ag | Verfahren und Vorrichtung zur Navigation eines Kraftfahrzeugführers |
DE102004046932A1 (de) * | 2004-09-28 | 2006-04-13 | Aug. Winkhaus Gmbh & Co. Kg | Schließeinrichtung und Verfahren zur Programmierung einer Schließeinrichtung |
DE102005059630A1 (de) * | 2005-12-14 | 2007-06-21 | Bayerische Motoren Werke Ag | Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl |
DE102006035780B4 (de) * | 2006-08-01 | 2019-04-25 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems |
DE102006035780A1 (de) * | 2006-08-01 | 2008-02-07 | Bayerische Motoren Werke Ag | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems |
EP1933303A1 (de) * | 2006-12-14 | 2008-06-18 | Harman/Becker Automotive Systems GmbH | Sprachdialogkontrolle basierend auf Signalvorverarbeitung |
US8306815B2 (en) | 2006-12-14 | 2012-11-06 | Nuance Communications, Inc. | Speech dialog control based on signal pre-processing |
EP2026328A1 (de) | 2007-08-09 | 2009-02-18 | Volkswagen Aktiengesellschaft | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug |
DE102007037567A1 (de) | 2007-08-09 | 2009-02-12 | Volkswagen Ag | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug |
DE102007046761A1 (de) * | 2007-09-28 | 2009-04-09 | Robert Bosch Gmbh | Verfahren zum Betrieb eines Navigationssystems, welches über eine Sprachausgabe verfügt |
DE102008008948A1 (de) | 2008-02-13 | 2009-08-20 | Volkswagen Ag | Systemarchitektur und Verfahren zur multimodalen Informationseingabe |
DE102009018590A1 (de) * | 2009-04-23 | 2010-10-28 | Volkswagen Ag | Kraftfahrzeug |
DE102009018590B4 (de) | 2009-04-23 | 2022-11-17 | Volkswagen Ag | Kraftfahrzeug mit einer Bedienvorrichtung und dazugehöriges Verfahren |
DE102009025530A1 (de) * | 2009-06-19 | 2010-12-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
DE102009025530B4 (de) * | 2009-06-19 | 2019-05-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
US11250856B2 (en) | 2011-02-18 | 2022-02-15 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10956860B2 (en) | 2011-02-18 | 2021-03-23 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US10978192B2 (en) | 2012-03-08 | 2021-04-13 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
DE112012007103B4 (de) * | 2012-11-05 | 2017-02-02 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
US9378737B2 (en) | 2012-11-05 | 2016-06-28 | Mitsubishi Electric Corporation | Voice recognition device |
DE102013001219A1 (de) * | 2013-01-25 | 2014-07-31 | Inodyn Newmedia Gmbh | Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US11101024B2 (en) | 2014-06-04 | 2021-08-24 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
DE102014108371B4 (de) * | 2014-06-13 | 2016-04-14 | LOEWE Technologies GmbH | Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten |
DE102014108371A1 (de) * | 2014-06-13 | 2015-12-17 | LOEWE Technologies GmbH | Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten und unterhaltungselektronisches Gerät |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
EP3270575A1 (de) | 2016-07-12 | 2018-01-17 | Veecoo Ug | Plattform zur integration von mobilen endgräten und peripheren geräten des nachrüstmarktes in einem fahrzeug |
US10949602B2 (en) | 2016-09-20 | 2021-03-16 | Nuance Communications, Inc. | Sequencing medical codes methods and apparatus |
US11241937B2 (en) | 2017-06-30 | 2022-02-08 | Volkswagen Aktiengesellschaft | Method and apparatus for controlling air conditioning devices in a transportation vehicle |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
US10636404B2 (en) | 2017-07-27 | 2020-04-28 | Volkswagen Atiengesellschaft | Method for compensating for interfering noises in a hands-free apparatus in a motor vehicle, and hands-free apparatus |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
CN111274365A (zh) * | 2020-02-25 | 2020-06-12 | 广州七乐康药业连锁有限公司 | 基于语义理解的智能问诊方法、装置、存储介质及服务器 |
CN111274365B (zh) * | 2020-02-25 | 2023-09-19 | 广州七乐康药业连锁有限公司 | 基于语义理解的智能问诊方法、装置、存储介质及服务器 |
Also Published As
Publication number | Publication date |
---|---|
US6839670B1 (en) | 2005-01-04 |
CA2231504A1 (en) | 1997-03-20 |
ES2170870T3 (es) | 2002-08-16 |
EP0852051B1 (de) | 2002-01-02 |
EP0852051A1 (de) | 1998-07-08 |
JPH11506845A (ja) | 1999-06-15 |
DE59608614D1 (de) | 2002-02-28 |
WO1997010583A1 (de) | 1997-03-20 |
ATE211572T1 (de) | 2002-01-15 |
CA2231504C (en) | 2005-08-02 |
JP3479691B2 (ja) | 2003-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19533541C1 (de) | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens | |
DE102011120315B4 (de) | Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten | |
EP2176858B1 (de) | Verfahren zur spracherkennung | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
EP1256936B1 (de) | Verfahren zum Training oder zur Adaption eines Spracherkenners | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
DE19709518C1 (de) | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb | |
DE60215272T2 (de) | Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen | |
DE102009017177B4 (de) | Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges | |
DE102018128006A1 (de) | Natürlichsprachliche generierung basierend auf dem benutzersprachstil | |
DE102019111529A1 (de) | Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung | |
WO2005013261A1 (de) | Verfahren zur spracherkennung und kommunikationsgerät | |
DE102017121059A1 (de) | Identifikation und erzeugung von bevorzugten emoji | |
DE102008062542A1 (de) | Fahrzeuginterne die Umstände berücksichtigende Spracherkennung | |
DE102010034433B4 (de) | Verfahren zum Erkennen von Sprache | |
DE102019107624A1 (de) | System und Verfahren zur Erfüllung einer Sprachanforderung | |
DE10338512A1 (de) | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen | |
EP3095114B1 (de) | Verfahren und system zur erzeugung eines steuerungsbefehls | |
DE112021000292T5 (de) | Sprachverarbeitungssystem | |
EP1745467A2 (de) | Verfahren und vorrichtung für einen akustischen zugang zu einem anwendungsrechner | |
EP3735688B1 (de) | Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung | |
EP3115886A1 (de) | Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem | |
DE102013216427B4 (de) | Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung | |
EP1302928A1 (de) | Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner | |
DE102010049869A1 (de) | Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AEROSPACE AKTIENGESELLSCHAFT, 8099 |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AG, 70567 STUTTGART, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS (BECKER DIVISION) |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLS |
|
R071 | Expiry of right |