DE69829604T2 - System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz - Google Patents
System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz Download PDFInfo
- Publication number
- DE69829604T2 DE69829604T2 DE69829604T DE69829604T DE69829604T2 DE 69829604 T2 DE69829604 T2 DE 69829604T2 DE 69829604 T DE69829604 T DE 69829604T DE 69829604 T DE69829604 T DE 69829604T DE 69829604 T2 DE69829604 T2 DE 69829604T2
- Authority
- DE
- Germany
- Prior art keywords
- client
- information
- grammar
- packet
- data network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Description
- Technisches Gebiet
- Diese Erfindung betrifft die Spracherkennung im allgemeinen und insbesondere einen Weg zum Bereitstellen von automatischen Spracherkennungsdiensten per Fernzugriff und über ein paket-orientiertes Datennetz.
- Hintergrund der Erfindung
- Techniken zur Durchführung einer automatischen Spracherkennung (ASR) sind gut bekannt. Unter bekannten ASR-Techniken befinden sich jene, die Grammatiken verwenden. Eine Grammatik ist eine Darstellung der Sprache oder Phrasen, von denen erwartet wird, dass sie in einem gegebenen Kontext verwendet oder gesprochen werden. In gewisser Hinsicht zwingen dann die ASR-Grammatiken für gewöhnlich den Spracherkenner auf ein Vokabular, das eine Untergruppe des Universums an möglicherweisegesprochenen Worten darstellt; und die Grammatiken können Unter-Grammatiken einschließen. Eine ASR-Grammatik-Regel kann dann verwendet werden, um den Satz von "Phrasen" oder Wortkombinationen aus einer oder mehreren Grammatiken oder Unter-Grammatiken darzustellen, die in einem gegebenen Zusammenhang erwartet werden können. "Grammatik" kann sich allgemein auf ein statistisches Sprachmodell beziehen (wo ein Modell Phrasen darstellt) wie beispielsweise diejenigen, die in Sprachverständnis-Systemen verwendet werden.
- Produkte und Dienste, die irgendeine Form einer automatischen Spracherkennungs-("ASR")-Verfahrensweisen verwenden, wurden jüngst im Handel eingeführt. AT&T hat z. B. eine Grammatikbasierte ASR-Maschine, WATSON genannt, entwickelt, der die Entwicklung von komplexen ASR-Diensten ermöglicht. Wünschens werte Attribute von komplexen ASR-Diensten, die eine solche ASR-Technologie verwenden würden, umfassen: die hohe Genauigkeit bei der Erkennung; die Robustheit zur Ermöglichung der Erkennung, wo die Sprechenden verschiedene Akzente oder Dialekte haben und/oder wenn ein Hintergrundgeräusch vorliegt; Fähigkeit zum Handhaben große Vokabularien; und das natürliche Sprachverständnis. Um diese Attribute für komplexe ASR-Dienste zu erreichen, benötigen die ASR-Techniken und -Maschinen für gewöhnlich Computerbasierte Systeme, die über eine signifikante Verarbeitungsleistung verfügen, um die gewünschte Spracherkennungsleistung zu erreichen. Die Verarbeitungsleistung, wie hierin verwendet, betrifft die Prozessorgeschwindigkeit, den Speicher, den Plattenplatz sowie den Zugriff auf die Applikationsdatenbänke. Solche Erfordernisse haben die Entwicklung von komplexen ASR-Diensten eingeschränkt, die am eigenen Desktop verfügbar sind, da die Verarbeitungserfordernisse die Leistungen der meisten Desktop-Systeme übersteigen, die für gewöhnlich auf einer Personalrechner-(PC)-Technologie basieren. Ein ASR-System, das eine Client-Server-Architektur benutzt, wird in der Schrift 'Clientserver model for speech recognition' IBM Technical Disclosure Bulletin, Vol. 36, Nr. 3, 1 März, 1993, S. 25–26, offenbart.
- Paket-orientierte Datennetze sind Allzweck-Datennetze, die für das Senden an verschiedenartigen gespeicherten Daten, einschließlich Sprache oder Audio, gut geeignet sind. Internet, das größte und berühmteste der existierenden paket-orientierten Datennetze, verbindet über 4 Millionen Computer in etwa 140 Ländern. Das globale und exponentielle Wachstum von Internet ist heutzutage allgemein bekannt.
- Für gewöhnlich greift man mittels eines Client-Software-Programms, das auf einem Computer wie einem PC ausgeführt wird, auf ein paket-orientierten Datennetz zu, und so sind die paket-orientierten Datennetze inhärent Client/Server-orientiert. Ein Weg zum Zugreifen auf die Information über ein paketorientiertes Datennetz liegt in der Verwendung eines Web-Browsers (wie beispielsweise Netscape Navigator, der von Netscape Communications, Inc., erhältlich ist, und Internet Explorer, der von Microsoft Corp. erhältlich ist), der einem Client ermöglicht, mit den Web-Servern zu interagieren. Web-Server und die darin erhältliche Informationen werden für gewöhnlich durch eine Uniform Resource Locator (URL)-kompatiblen Adresse identifiziert und adressiert. Die URL-Adressierung ist in Internet- und Intranet-Applikationen weit verbreitet und ist den Fachleuten auf dem Gebiet gut bekannt (ein "Intranet" ist ein paket-orientiertes Datennetz, das der Funktion nach auf der Basis von Internet modelliert ist und z. B. durch Unternehmen lokal oder intern verwendet wird).
- Was gewünscht ist, ist ein Weg zum Ermöglichen von ASR-Diensten, die Benutzern an einer Stelle wie an ihrem Desktop, der von dem System, das die ASR-Maschine aufnimmt, entfernt liegt, zur Verfügung gestellt werden.
- Zusammenfassung der Erfindung
- Ein System und ein Verfahren zum Betreiben eines automatischen Spracherkennungsdienstes, unter der Verwendung einer Client-Server-Architektur, wird verwendet, um ASR-Dienste an einer von der Stelle der Haupt-ASR-Maschine entfernten Client-Stelle zugänglich zu machen. In Übereinstimmung mit der vorliegenden Erfindung, wie in den Ansprüchen 1–29 beansprucht, empfängt der ASR-Server mittels Verwendung der Client-Server-Kommunikation über ein paket-orientiertes Datennetz eine Grammatik vom Client, empfängt die Informationen, die die Sprache vom Client darstellt, führt die Spracherkennung durch und gibt die Informationen aufgrund der erkannten Sprache an den Client zurück. Alternative Ausführungsformen der vorliegenden Erfindung schließen eine Reihe an Wegen ein, um den Zugriff auf die gewünschte Grammatik zu erhalten, die Verwendung der Kompressions- oder Merkmalsextraktion als ein Verarbeitungsschritt am ASR-Client vor der Überführung der Sprachinformation an den ASR-Server, die Bereitstellung eines Dialogs zwischen Client und Server und das Betreiben eines Formular-ausfüllenden Dienstes.
- Kurze Beschreibung der Zeichnungen
-
1 ist ein Diagramm, das ein Client-Server-Beziehung für ein System zeigt, das einen entfernten ASR-Dienst in Übereinstimmung mit der vorliegenden Erfindung bereitstellt. -
2 ist ein Diagramm, das einen Vorbereitungsvorgang zur Ermöglichung der entfernten ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zeigt. -
3 ist ein Diagramm, das einen alternativen Vorbereitungsvorgang zur Ermöglichung der entfernten ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zeigt. -
4 ist ein Diagramm, das einen Vorgang für die Regel-Auswahl in Übereinstimmung mit der vorliegenden Erfindung zeigt. -
5 ist ein Diagramm, das einen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt. -
6 ist ein Diagramm, das einen alternativen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt. -
7 ist ein Diagramm, das einen anderen alternativen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt. - Detaillierte Beschreibung
- Die vorliegende Erfindung betrifft ein auf einem Client-Server basiertes System zum Bereitstellen fern-verfügbarer ASR-Dienste. In Übereinstimmung mit der vorliegenden Erfindung können einem Benutzer- z. B. am Desktop des Benutzers – über ein paket-orientiertes Datennetz wie dem Internet ASR-Dienste bereitgestellt werden, ohne dass der Benutzer die Computerhardware erhalten muss, die über die erweiterte Verarbeitungsleistung verfügt, die zum Ausführen der vollständigen ASR-Techniken erforderlich ist.
- Eine grundlegende Client-Server-Architektur, die in Übereinstimmung mit der vorliegenden Erfindung verwendet wird, wird in
1 gezeigt. Der ASR-Server100 ist eine ASR-Softwaremaschine, die auf einem als Server-Knoten110 bezeichneten System ausgeführt wird, das über ein paket-orientiertes Datennetz120 (wie Internet) mit anderen Computern verbunden werden kann. Der Server-Knoten110 kann für gewöhnlich ein Computer sein, dessen Verarbeitungsleistung ausreicht, um komplexe ASR-basierte Appli kationen wie beispielsweise das System WATSON von AT&T auszuführen. Das paket-orientierte Datennetz120 kann zur Darstellung dass Internet oder Intranet sein. - Der ASR-Client
130 ist ein relativ kleines Programm (verglichen mit dem ASR-Server100 ), das am Client PC140 ausgeführt wird. Der Client-PC140 ist ein Computer wie beispielsweise ein Personalrechner (PC), der eine genügende Verarbeitungsleistung hat, um Client-Applikationen auszuführen, wie beispielsweise ein Web-Browser. Der Client-PC schließt Hardware wie beispielsweise ein Mikrofon und eine Software für das Eingeben und Erfassen von Audioklängen wie beispielsweise einer Sprache ein. Verfahren zum Anschließen von Mikrofonen an einem PC und zur Erfassung von Audioklängen wie Sprache am PC sind gut bekannt. Beispiele für Sprachbearbeitung für PCs schließen die Sprachapplikation-Programmierschnittstelle (Speech Application Programmer Interface – SAPI) von Microsoft und die forgeschrittene Sprachapplikation-Programmierschnittstelle (Advanced Speech Application Programmer Interface – ASAPI) von AT&T ein. Die Details für die Microsoft-SAPI werden z. B. in einer Veröffentlichung unter dem Titel "Speech API Developers Guide, WindowsTM 95 Edition," Vers. 1.0, Microsoft Corporation (1995) gefunden, und Details der AT&T-ASAPI werden in einer Veröffentlichung unter dem Titel "Advanced Speech API Developers Guide," Vers. 1.0, AT&T Corporation (1996) bereitgestellt. Eine alternative Ausführungsform der vorliegenden Erfindung kann eine Schnittstelle zwischen dem ASR-Client130 und einem oder mehreren Sprachkanälen verwenden, so dass die Spracheingabe durch andere Audioquellen als einem Mikrofon bereitgestellt werden kann. - Der Client-PC
140 hat auch die Fähigkeit zum Kommunizieren mit anderen Computern über ein paket-orientiertes Datennetz (wie beispielsweise dem Internet). Verfahren zum Aufbau einer Kommunikationsverbindung mit anderen Computern über ein paket-orientiertes Datennetz (wie dem Internet) sind gut bekannt und schließen z. B. die Verwendung eines Modems ein, um über eine Telefonleitung einen Internetdienstprovider anzuwählen. - Der ASR-Server
100 mittels des Server-Knotens110 und der ASR-Client130 mittels des Client-PC140 können über ein paket- orientiertes Datennetz120 miteinander kommunizieren, indem bekannte Verfahren verwendet werden, die geeignet sind, um eine Information (einschließlich der Übertragung von Daten) über ein paket-orientiertes Datennetz zu kommunizieren, indem z. B. ein Standard-Kommunikationsprotokoll wie beispielsweise eine Transmission Control Protocol/Internet Protocol-(TCP/IP)-Socket-Schnittstelle verwendet wird. Eine TCP/IP-Socket-Schnittstelle ist analog mit einem "Rohr", mittels dem die Information über ein paket-orientiertes Datennetz von einem Punkt zum anderen übertragen werden kann. - Der Aufbau einer TCP/IP-Socket-Schnittstelle zwischen dem ASR-Server
100 und dem ASR-Client130 wird die Überführung der Daten zwischen dem ASR-Server100 und dem ASR-Client130 über das paket-orientierte Datennetz120 ermöglichen, die erforderlich ist, um entfernte ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zu ermöglichen. Der ASR-Client130 ist auch über eine Schnittstelle mit den Audio/Spracheingabe- und -ausgabeleistungen und Text/Grafik-Anzeige-Mitteln des Client-PC140 . Verfahren und Schnittstellen für die Abwicklung der Eingabe und der Ausgabe von Audio und der Sprache sind gut bekannt, und Text- und Grafikanzeige-Handling-Verfahren und -Schnittstellen sind ebenfalls gut bekannt. - Der ASR-Client
130 kann ausgebildet werden, um auf mehrere Weisen im Client-PC140 zu laufen. Zum Beispiel kann der Client130 von einem permanenten Datenspeichermedium wie beispielsweise einer Magnetplatte oder einer CD-ROM auf den Client-PC140 geladen werden. Alternativ kann der ASR-Client130 von einer Informations- oder Datenquelle heruntergeladen werden, die über ein paket-orientiertes Datennetz wie dem Internet lokalisierbar ist. Das Herunterladen vom ASR-Client130 kann z. B. einmal durchgeführt werden, um permanent im Client-PC-140 zu liegen; alternativ kann der ASR-Client130 für einzelne oder limitierte Verwendungszwecke heruntergeladen werden. Der ASR-Client130 kann z. B. als ein kleines Plug-In-Software-Modul für ein anderes Programm wie beispielsweise einen Web-Browser implementiert sein, der am Client-PC140 ausgeführt wird. Ein Weg, dies zu erreichen, liegt darin, aus dem ASR-Client130 eine Active-X Softwarekomponente gemäß dem Microsoft Active-X Standard zu machen. Auf diese Weise kann der ASR-Client130 z. B. in Verbindung mit einer Web-Browsing-Sitzung wie folgt in den Client-PC140 geladen werden: ein Benutzer, der das World Wide Web mittels Verwendung des Client-PC140 durchbrowst, tritt in eine Web-Seite, die die ASR-Fähigkeit hat; die Web-Seite fragt den Benutzer um Erlaubnis, ein ASR-Client-Modul in Übereinstimmung mit der signierten Active-X Steuerung in den Client-PC140 herunterzuladen; nach der Autorisierung des Benutzers wird der ASR-Client130 in den Client-PC140 heruntergeladen. Auf eine ähnliche Weise kann der ASR-Server100 ausgebildet sein, um auf besonderer Weise im Server-Knoten110 zu laufen. Zum Beispiel kann der ASR-Server von einem permanenten Datenspeichermedium wie beispielsweise einer Magnetplatte oder einem CD-ROM auf den Server-Knoten100 geladen werden, oder alternativ kann der ASR-Server100 von einer Informations- oder Datenquelle heruntergeladen werden, die über ein paket-orientiertes Datennetz wie Internet lokalisierbar ist. - Weitere Details zum Bereitstellen von entfernten ASR-Diensten in Übereinstimmung mit der vorliegenden Erfindung werden jetzt mit Bezug auf die
2 -7 beschrieben. Für die mit Bezug auf jede dieser Figuren folgende Erörterung wird vorausgesetzt, dass das Client-Server-Beziehung wie in1 gezeigt ist. Eine Initialisierungsphase wird verwendet, um den ASR-Server100 und den ASR-Client130 vorzubereiten, damit sie als Teil einer ASR-Applikation eine automatische Spracherkennungsaufgabe durchführen. Zweckdienlich werden Gegenstände, die in1 gezeigt werden und in anderen Figuren erscheinen, mit denselben Bezugsziffern wie in der1 gekennzeichnet. - Nimmt man jetzt auf
2 Bezug, wird nun eine Initialisierungsphase in einem Verfahren zur Bereitstellung entfernter ASR-Dienste beschrieben. Im Schritt201 empfängt der ASR-Client130 eine Anfrage von der Applikation für das Laden einer Client-Grammatik. Die Client-Grammatik ist zum Zweck der Veranschaulichung eine Datendatei, die eine die Sprache (z. B. Worte und Phrasen) darstellende Information enthält, von der erwartet wird, dass sie in Zusammenhang mit der speziellen ASR-Applika tion gesprochen wird. Die Datendatei kann in einem bekannten Format wie beispielsweise dem Standard Grammatik Format (Standard Grammar Format (SGF)) vorliegen, der Teil der Microsoft SAPI ist. - Um der Veranschaulichung willen wird eine ASR-Applikation zum Annehmen einer Pizza-Bestellung für die Beschreibung der vorliegenden Erfindung verwendet. Eine ASR-Dienst-Applikation wie beispielsweise eine Applikation für eine Pizza-Bestellung würde für gewöhnlich ein Programm einschließen, das mit dem ASR-Client
130 über eine Schnittstelle verbunden ist und ihn als Betriebsmittel verwendet, um die Aufgaben der ASR-Applikation zu erfüllen. Eine solche ASR-Applikation könnte im Ganzen oder zum Teil im Client-PC140 liegen und ausgeführt werden. - Betrachtet man das Pizza-Bestellungsbeispiel würde die Client-Grammatik PIZZA Informationen einschließen, die Worte einschließt, die man bei der Bestellung einer Pizza verwenden kann, z. B. "Pizza", "Peperoni" usw. Tatsächlich können Unter-Grammatiken verwendet werden, um eine geeignete Grammatik zu errichten. Für das Pizza-Bestellbeispiel schließen Unter-Grammatiken für die Pizza-Grammatik GRÖßE und BELAG ein. Die Unter-Grammatik GRÖßE könnte aus Worten bestehen, die verwendet werden, um die Größe der gewünschten Pizza zu beschreiben, wie beispielsweise "klein", "mittel" und "groß". Die Unter-Grammatik BELAG könnte aus Worten bestehen, die verwendet werden, um die verschiedenen Beläge zu beschreiben, die man mit einer Pizza bestellen kann, z. B. "Wurst", "Peperoni", "Pilze" und dergleichen.
- Dem ASR-Client
130 kann die gewünschte Grammatik von der Applikation gegeben werden, oder der ASR-Client130 kann alternativ die Grammatik aufgrund der von der Applikation bereitgestellten Information aus einem vorbestimmten Satz aussuchen. In beiden Fällen sendet der ASR-Client130 dann im Schritt202 die gewünschte Grammatik-Datei über die TCP/IP-Socket-Schnittstelle an den ASR-Server100 . Eine neue TCP/IP-Socket-Schnittstelle kann als Teil der Initialisierung einer neuen Kommunikationssitzung zwischen dem Client-PC140 und dem Server-Knoten100 ausgebildet werden müssen, oder die TCP/IP-Socket-Schnitt stelle kann bereits als Ergebnis einer ausgebauten Kommunikationssitzung zwischen dem Client-PC140 und dem Server-Knoten110 bestehen, die nicht beendet wurde. In der Pizza-Bestelldarstellung würde der ASR-Client130 die Übertragung einer die PIZZA-Grammatik enthaltenden Datei über eine TCP/IP-Socket-Schnittstelle an den ASR-Server100 veranlassen. - Im Schritt
203 empfängt der ASR-Server100 die vom ASR-Client130 gesandte Client-Grammatik, und im Schritt204 lädt der ASR-Server die übertragene Client-Grammatik. Wie hierin verwendet, bedeutet das "Laden" der Client-Grammatik, dass die Grammatik für die Verwendung durch ASR-Server100 zugänglich ist, z. B. durch das Speichern der Grammatik im RAM des Server-Knotens110 . Im Schritt205 gibt der ASR-Server100 ein Grammatik "Handle" an den ASR-Client130 zurück. Ein Grammatik-"Handle" ist ein Markierer wie beispielsweise ein Zeiger für einen Speicher, der die geladene Grammatik enthält, der es dem ASR-Client ermöglicht, während der übrigen Kommunikationssitzung oder Applikationsausführung auf einfache Weise auf die Grammatik zu verweisen. Der ASR-Client130 empfängt den Grammatik-Handle vom ASR-Server100 im Schritt206 und gibt das Handle im Schritt207 an die Applikation zurück. Für das Pizza-Bestellbeispiel würde ASR-Server100 die übertragene PIZZA-Grammatik-Datei empfangen und laden und ein Handle zurück an ASR-Client130 übertragen, das auf die geladene PIZZA-Grammatik zeigt. Der ASR-Client würde wiederum das PIZZA-Handle vom ASR-Server100 empfangen und das PIZZA-Handle an die Pizza-Bestellapplikation zurückführen. Auf diese Weise kann die Applikation einfach auf das PIZZA-Handle Bezug nehmen, wenn sie als Teil der Pizza-Bestellapplikation eine ASR-Aufgabe ausführt oder initiiert. - Ein alternativer Initialisierungsversuch wird jetzt mit Bezug auf die
3 beschrieben. Für die übrige Beschreibung hierin wird angenommen, dass die Übertragung oder die Kommunikation der Information oder Daten zwischen dem ASR-Server100 und dem ASR-Client130 über eine errichtete TCP/IP-Socket-Schnittstelle stattfindet. Im Schritt301 empfängt der ASR-Client130 von der Applikation eine Anfrage, um eine Client-Grammatik zu laden. Eher als das Senden der Client-Grammatik als eine Datendatei an den ASR-Server100 im Schritt302 , sendet der ASR-Client130 stattdessen einen Bezeichner, der eine "konservierte" Grammatik darstellt, an den ASR-Server100 ; eine "konservierte" Grammatik wäre z. B. eine gewöhnliche Grammatik wie TAGESZEIT oder DATUM, die der ASR-Server100 bereits gespeichert hätte. Alternativ könnte der ASR-Client130 an den ASR-Server100 eine IP-Adresse wie beispielsweise eine URL-kompatible Adresse senden, wo der ASR-Server100 die gewünschte Grammatik-Datei finden könnte. Der ASR-Server100 empfängt im Schritt303 den Grammatik-Bezeichner oder die URL-Grammatik-Adresse vom ASR-Client130 , lokalisiert und lädt die angeforderte Client-Grammatik im Schritt304 und gibt ein Grammatik-Handle im Schritt305 an den ASR-Client130 zurück. Ähnlich wie mit den oben Bezug auf die2 beschriebenen Schritten empfängt der ASR-Client130 das Grammatik-Handle im Schritt306 vom ASR-Server100 und gibt das Handle im Schritt307 an die Applikation zurück. Für das Pizza-Bestellbeispiel wären die oben in Verbindung mit der2 beschriebenen Schritte gleich, wenn man davon absieht, dass der ASR-Client130 einen Grammatik-Bezeichner für die Pizza-Grammatik (wenn es eine "konservierte" Grammatik wäre) oder eine URL-Adresse für die Stelle einer die PIZZA-Grammatik enthaltenden Datei an den ASR-Server100 senden; der ASR-Server100 würde wiederum eine Datei für die Pizza-Grammatik aufgrund des Grammatik-Bezeichners oder der URL-Adresse (wie vom ASR-Client gesendet) abrufen und dann die angeforderte PIZZA-Grammatik laden. - Nachdem die Grammatik geladen und ein Grammatik-Handle an den ASR-Client
130 rückgegeben wurde, muss eine ASR-Dienstapplikation eine zu aktivierende Grammatik-Regel auswählen.4 zeigt ein Verfahren für die Grammatik-Regel-Auswahl in Übereinstimmung mit der vorliegenden Erfindung. Der ASR-Client130 empfängt von der Applikation eine Anfrage zur Aktivierung einer Grammatik-Regel im Schritt401 . Im Schritt402 sendet der ASR-Client eine Regelaktivierungsanfrage an den ASR-Server100 ; wie in der4 gezeigt, kann der ASR-Client130 auch im Schritt402 das zuvor rückgegebene Grammatik-Handle (das dem ASR-Server ermöglichen kann, die richtige Grammatik-Regel für die spezielle Grammatik, wie durch das Grammatik-Handle gekennzeichnet, zu aktivieren) an den ASR-Server100 senden. Der ASR-Server100 im Schritt403 empfängt die Regelaktivierungsanfrage und das Grammatik-Handle (falls gesendet). Im Schritt404 aktiviert der ASR-Server100 die angeforderte Regel und gibt im Schritt405 die Benachrichtigung, dass die angeforderte Regel aktiviert wurde, an den ASR-Client130 zurück. Der ASR-Client130 empfängt im Schritt406 die Benachrichtigung der Regelaktivierung und teilt der Applikation im Schritt407 mit, dass die Regel aktiviert wurde. Hat die Applikation einmal die Benachrichtigung der Regelaktivierung empfangen, dann kann sie mit der Spracherkennung anfangen. - Zu Darstellungszwecken des in
4 gezeigten Verfahrens betrachte man neuerlich das Pizza-Bestellbeispiel. Eine Regel, die verwendet werden kann, um eine Pizzabestellung zu erkennen, kann den gewünschten Ausdruck für eine Bestellung so einstellen, dass er die Unter-Grammatiken GRÖßE und BELÄGE zusammen mit dem Wort "Pizza" einschließt, und dass auf folgende Weise bezeichnet werden könnte: (BESTELLUNG = GRÖßE "Pizza" "mit" BELÄGEN). Wiederum mit Bezug auf die4 , würde der ASR-Client130 von der Applikation eine Anfrage zur Aktivierung einer Pizza-Bestellregel empfangen und die BESTELL-Regel, wie oben angegeben, zusammen mit dem PIZZA-Grammatik-Handle an den ASR-Server100 senden. Der ASR-Server empfängt die Regelaktivierungsanfrage zusammen mit dem PIZZA-Grammatik-Handle und aktiviert die BESTELL-Regel, so dass der Erkenner dazu gezwungen würde, Worte aus der GRÖΒE-Unter-Grammatik, das Wort "Pizza", das Wort "mit" und Worte aus der Unter-Grammatik BELÄGE zu erkennen. Nach der Aktivierung der BESTELL-Regel sendet der ASR-Server100 die Benachrichtigung der Regelaktivierung an den ASR-Client130 , der wiederum die Applikation benachrichtigt. - Wurde eine Grammatik-Regel einmal aktiviert, kann die Sprachverarbeitung zum Zwecke des Erkennens der Worte in der Grammatik gemäß der Regel stattfinden. Nimmt man auf
5 Bezug, empfängt der ASR-Client130 im Schritt501 eine Anfrage von der Applikation zum Einleiten einer Spracherkennungsaufgabe. Im Schritt502 verlangt der ASR-Client130 ein Streaming-Audio von der Audio-Eingabe des Client-PC140 . Streaming-Audio betrifft ein Audio, das "fliegend" ("on the fly") verarbeitet wird, wenn mehr Audio eingeht; das System wartet nicht auf alle Audioeingaben (d. h. die gesamte Sprache), bevor es das Audio für die digitale Verarbeitung weiter sendet; Streaming-Audio kann auch die Teil-Übertragung eines Teils des Audiosignals betreffen, während zusätzliches Audio eingegeben wird. Darstellend kann eine Anfrage nach einem Streaming-Audio ausgeführt werden, indem ein richtiger Software-Aufruf für das auf dem Client-PC140 ausführende Betriebssystem gemacht wird, und zwar derart, dass des Streaming-Audio von der Mikrofon-Eingabe durch den Audio-Prozessor des Client-PC140 digitalisiert wird. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann an den ASR-Client130 weitergereicht. Der ASR-Client130 beginnt dann im Schritt503 mit der Übertragung des digitalisierten Streaming-Audios an den ASR-Server100 ; wie die Audio-Eingabe vom Mikrofon wird das digitalisierte Audio selbst dann fliegend ("on the fly") an den ASR-Server100 übertragen, wenn die Spracheingabe fortgesetzt wird. - Im Schritt
504 führt der ASR-Server100 die Spracherkennung am digitalisierten Streaming-Audio durch, wenn das Audio vom ASR-Client130 empfangen wird. Die Spracherkennung wird mittels bekannter Erkennungsalgorithmen wie denen durchgeführt, die von der Spracherkennungsmaschine von AT&T WATSON benutzt werden, und wird innerhalb der Bedingungen der ausgewählten Grammatik, wie von der aktivierten Regel definiert, durchgeführt. Im Schritt505 gibt der ASR-Server100 den Streaming-Text (d. h. die teilweise erkannte Sprache) zurück, wenn die Eingabe-Sprache erkannt wird. Wenn der ASR-Server100 seine anfänglichen Ergebnisse erreicht, gibt er sogar dann diese Ergebnisse an den ASR-Client130 zurück, wenn der ASR-Server100 damit fortfährt, das vom ASR-Client130 übertragene zusätzliche Streaming-Audio zu verarbeiten. Dieser Vorgang zum Zurückgeben des erkannten Textes fliegend ("on the fly"), erlaubt dem ASR-Client130 (oder der Applikation, die mit dem ASR-Client130 über eine Schnittstelle verbunden ist), eine Rückmeldung für den Sprecher bereitzustellen. Wenn der ASR-Server100 fortfährt, das zusätzlich eingegebene Streaming-Audio zu verarbeiten, kann er die Ergebnisse der früheren Spracherkennung derart berichtigen, dass der rückgegebene Text sogar Teile des bereits als Teile der Spracherkennungsaufgabe an den ASR-Client130 rückgegebenen Texts aktualisiert (oder korrigieren) kann. Wurde einmal das gesamte Streaming-Audio vom ASR-Client130 empfangen, vervollständigt der ASR-Server seine Spracherkennungsverarbeitung und gibt im Schritt506 die endgültige Version des erkannten Texts (einschließlich der Korrekturen) zurück. - Im Schritt
507 empfängt der ASR-Client130 den erkannten Text vom ASR-Server100 und gibt den Text im Schritt508 an die Applikation zurück. Wiederum kann dies "on the fly" gemacht werden, wenn der erkannte Text eingeht, und der ASR-Client reicht alle Korrekturen in Bezug auf den vom ASR-Server100 empfangenen erkannten Text an die Applikation weiter. - Nimmt man auf das Pizza-Bestellbeispiel Bezug, wird der ASR-Client
130 , wenn einmal die BESTELL-Regel aktiviert und die Applikation benachrichtigt wurde, eine Anfrage für den Beginn der Spracherkennung empfangen und das Streaming-Audio von der Mikrofon-Eingabe einleiten. Der Sprecher kann aufgefordert werden, die Pizza-Bestellung zu sprechen, und der ASR-Client130 sendet das digitalisierte Streaming-Audio an den ASR-Server100 , wenn einmal das Sprechen einsetzt. Wenn solchermaßen der Sprecher z. B. angibt, dass er eine "große Pizza mit Wurst und Peperoni" bestellen will, wird der ASR-Client130 sogar das digitalisierte Streaming-Audio für das erste Wort der Bestellung an den ASR-Server100 weiter übertragen, während das zweite Wort gesprochen wird. Der ASR-Server100 wird, während die Bestellung gesprochen wird, das erste Wort im Text "groß" zurückgeben, während der Rest der Bestellung gesprochen wird. Schließlich kann, wenn der Sprecher einmal mit dem Sprechen aufhört, der endgültige erkannte Text für die Bestellung an den ASR-Client130 und daher an die Applikation rückgegeben werden. - Eine alternative Ausführungsform zum Durchführen des Spracherkennungsverfahrens in Übereinstimmung mit der vorliegenden Erfindung wird in
6 gezeigt. Ähnlich wie im in5 gezeigten Spracherkennungsverfahren empfängt der ASR-Client130 im Schritt601 eine Anfrage von der Applikation, um eine Spracherkennungsaufgabe einzuleiten, und im Schritt602 verlangt der ASR-Client130 das Streaming-Audio von der Audio-Eingabe des Client-PC140 . Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann an den ASR-Client130 weitergereicht. Im Schritt603 komprimiert der ASR-Client130 das digitalisierte Audio "on the fly" und beginnt dann mit der Übertragung des komprimierten, digitalisierten Streaming-Audios an den ASR-Server100 , während die Spracheingabe fortgesetzt wird. - Im Schritt
604 dekomprimiert der ASR-Server100 das vom ASR-Client130 empfangene komprimierte Audio, bevor die Spracherkennung am digitalisierten Streaming-Audio durchgeführt wird. Wie oben mit Bezug auf die5 beschrieben, wird die Spracherkennung innerhalb der Bedingungen der ausgewählten Grammatik, wie durch die aktivierte Regel definiert, durchgeführt. Im Schritt605 gibt der ASR-Server100 den Streaming-Text (d. h. die teilweise erkannte Sprache) zurück, wenn die Eingabe-Sprache erkannt wird. Solchermaßen gibt der ASR-Server100 selbst dann die anfänglichen Ergebnisse an den ASR-Client130 zurück, wenn der ASR-Server100 fortfährt, das vom ASR-Client130 gesandte zusätzliche komprimierte Streaming-Audio zu verarbeiten, und kann Teile des Texts, die als Teil der Spracherkennungsaufgabe bereits an den ASR-Client rückgegeben wurden, aktualisieren oder berichtigen. Wurde einmal das gesamte Streaming-Audio vom ASR-Client130 empfangen, beendet der ASR-Server seine Spracherkennungsverarbeitung und gibt im Schritt606 eine endgültige Version des erkannten Texts (einschließlich der Korrekturen) zurück. Der ASR-Client130 empfängt den erkannten Text vom ASR-Server100 im Schritt607 , wenn er eingeht, und gibt den Text im Schritt608 an die Applikation zurück. - Eine andere alternative Ausführungsform zum Durchführen des Spracherkennungsverfahrens in Übereinstimmung mit der vorliegenden Erfindung wird in
7 gezeigt. Ähnlich wie mit dem in den5 und6 gezeigten Spracherkennungsverfahren, empfängt der ASR-Client130 im Schritt701 eine Anfrage von der Applikation, um eine Spracherkennungsaufgabe einzuleiten, und fordert ein Streaming-Audio von der Audio-Eingabe des Client-PC140 . Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann weiter an den ASR-Client130 gereicht. Im Schritt703 verarbeitet der ASR-Client130 das digitalisierte Audio "on the fly", um die für die Spracherkennungsverarbeitung nützlichen Merkmale zu extrahieren, und beginnt dann mit der Übertragung der extrahierten Merkmale an den Server100 , während die Spracheingabe fortgesetzt wird. Die Extraktion der wichtigen Merkmale von der Sprache beinhaltet die von der Grammatik unabhängige Verarbeitung, die für gewöhnlich ein Teil der für die Spracherkennung benutzten Algorithmen ist, und kann mittels der Verwendung von Verfahren gemacht werden, die den Fachleuten auf dem Gebiet bekannt sind, wie beispielsweise jene, denen die auf der linearen Prädiktionsodierung (LPC) oder Mel-Filterbank-Verarbeitung basieren. Die Merkmalsextraktion sorgt für eine Information, die aus den Merkmalen der Stimmsignale erhalten werden, während die unnötige Information wie das Volumen beseitigt wird. - Beim Empfangen der extrahierten Merkmale vom ASR-Client
130 , führt der ASR-Server100 im Schritt704 die Spracherkennung an den ankommenden Merkmalen durch, die "on the fly" ankommen (d. h. auf eine mit dem Streaming-Audio analoge Weise). Die Spracherkennung wird innerhalb Randbedingungen der ausgewählten Grammatik, wie durch die aktivierte Regel definiert, durchgeführt. Wie im Fall der oben mit Bezug auf die5 und6 erörterten Ausführungsformen, gibt der ASR-Server100 im Schritt705 den Streaming-Text (d. h. die teilweise erkannte Sprache) an den ASR-Client130 zurück, wenn die eingegebenen Merkmale erkannt sind. Der ASR-Server100 fährt fort, die vom ASR-Client130 übertragenen zusätzlichen extrahierten Merkmale zu verarbeiten, und kann die Teile des bereit an den ASR-Client130 rückgegebenen Textes aktualisieren und berichtigen. Der ASR-Server beendet seine Spracherkennungsverarbeitung beim Empfang aller extrahierten Merkmale vom ASR-Client130 und gibt im Schritt706 eine endgültige Version des erkannten Textes (einschließlich der Korrekturen) zurück. Der ASR-Client130 empfängt im Schritt707 den erkannten Text vom ASR-Server100 , wenn er eingeht, und gibt den Text im Schritt708 an die Applikation zurück. - Die oben mit Bezug auf die
6 und7 beschriebenen alternativen Ausführungsformen sorgen jeweils für die zusätzliche Verarbeitung am Client-Ende. Für die Ausführungsform in der6 beinhaltet dies die Komprimierung des Streaming-Audios (mit der Audio-Dekomprimierung am Serverende); für die Ausführungsform in7 schloss dies den Teil der Spracherkennungsverarbeitung in Form der Merkmalsextraktion ein. Die Verwendung dieser zusätzlichen Verarbeitung am Client-Ende reduziert in signifikantem Maße die vom ASR-Client130 an den ASR-Server100 übertragene Datenmenge. Solchermaßen werden weniger Daten benötigt, um die übertragenen Sprachsignale darzustellen. Wo die Merkmalsextraktion am Client-Ende ausgeführt wird, erhöhen sich solche Vorteile möglicherweise sehr, da die extrahierten Merkmale (im Gegensatz zu digitalisierten Stimmsignalen) weniger Daten benötigen und während der Schweigeperioden keine Merkmale übertragen werden müssen. Die Reduzierung der Daten erzeugt einen gewünschten doppelten Vorteil: (1) sie erlaubt eine Reduzierung in der Bandbreite, die zum Erreichen eines gewissen Leistungsgrads erforderlich ist, und (2) sie reduziert die Übertragungszeit für das Senden der Sprachdaten vom ASR-Client mittels der TCP/IP-Socket-Schnittstelle an den ASR-Server. - Während für gewöhnlich vor dem Beginn der Übertragung einer Sprachinformation vom ASR-Client
130 an den ASR-Server100 eine Grammatik-Regel aktiviert werden wird, könnte die Regelaktivierung stattfinden, nachdem ein Teil oder die gesamte zu erkennende Sprachinformation vom ASR-Client130 an den ASR-Server100 übertragen wurde. Unter diesen Umständen würde der ASR-Server100 nicht mit den Spracherkennungsversuchen beginnen, bis eine Grammatik-Regel aktiviert wurde. Die vor der Aktivierung einer Grammatik-Regel durch den ASR Client130 übertragene Sprache könnte zeitweilig vom ASR-Server100 gespeichert werden, um vom Erkenner verarbeitet zu werden; oder alternativ könnte diese Sprache ignoriert werden. - Weiterhin können die mehreren Spracherkennungsaufgaben mittels Verwendung der Techniken der vorliegenden Erfindung ausgeführt werden. Zum Beispiel könnte eine ASR-Applikation vom ASR-Client
130 anfordern, den ASR-Server100 einzuweisen, eine kon servierte Grammatik für eine Telefonnummer (d. h. "TELEFONNUMMER") zu laden und dann die Aktivierung einer die gesprochenen Nummern abdeckenden Regel anzufordern. Nachdem eine Telefonnummer gesprochen und in Übereinstimmung mit der vorliegenden Erfindung erkannt ist (z. B. als Reaktion auf eine Aufforderung zum Sprechen der Telefonnummer, sendet der ASR-Client130 digitalisierte gesprochene Nummer zur Erkennung an den ASR-Server100 ), könnte die ASR-Applikation dann den ASR-Client130 auffordern, die Erkennung der Pizza-Bestellsprache (z. B. laden der Pizza-Grammatik, aktivieren der BESTELL-Regel und beginnen der Spracherkennung) in Übereinstimmung mit den oben mit Bezug auf die2 –5 beschriebenen Beispielen zu initialisieren und einzuleiten. - Zusätzlich zum oben zur Veranschaulichung verwendeten einfachen Pizza-Bestellbeispiel, kann über ein paket-orientiertes Datennetz in Übereinstimmung mit der vorliegenden Erfindung ein weiter Bereich an möglichen ASR-Diensten bereitgestellt werden. Ein Beispiel für eine von der vorliegenden Erfindung ermöglichte ASR-Applikation ist ein Formular-ausfüllender Dienst zum Ausfüllen eines Formulars als Reaktion auf gesprochene Antworten zu einer Information, die für jede der Reihe an Leerstellen in der Form verlangt wird. In Übereinstimmung mit der vorliegenden Erfindung kann ein Formular-ausfüllender Dienst implementiert werden, worin der ASR-Client
130 Grammatiken, die die möglichen Auswahlen für jede der Leerstellen darstellen, an den ASR-Server100 sendet. Für jede Leerstelle verlangt der ASR-Client130 die Aktivierung der richtigen Grammatik-Regel und sendet eine entsprechende gesprochene Antwort, die als Anfrage nach einer Information, die zum AUsfüllen der Leerstelle erforderlich ist, gegeben wird. Der ASR-Server100 legt in Übereinstimmung mit der ausgewählten Grammatik und Regel einen passenden Spracherkennungsalgorithmus an und gibt den in das Formular einzufügenden Text zurück. - Andere ASR-Dienste können einen Informationsaustausch (z. B. einen Dialog) zwischen dem Server und dem Client beinhalten. Zum Beispiel kann eine ASR-Dienst-Applikation zur Abwicklung von Flugreservierungen in Übereinstimmung mit der wie hierin be schriebenen vorliegenden Erfindung einen Dialog zwischen dem ASR-Server
100 und dem ASR-Client130 verwenden, um die ASR-Aufgabe auszuführen. Ein Dialog kann wie folgt ablaufen:
Der Sprecher (mittels des ASR-Clients130 an den ASR-Server100 ): "Ich will einen Flug nach Los Angeles." - Die Antwort des ASR-Servers an den ASR-Client (in Form eines Textes oder alternativ als vom ASR-Server
100 an den ASR-Client130 rückgegebene Sprache):
"Von welcher Stadt werden sie abfliegen ?"
Sprecher (mittels ASR-Client an ASR-Server):
"Washington, DC."
ASR-Serverantwort an ASR-Client:
"An welchem Tag möchten sie abfliegen ?"
Sprecher (ASR-Client an ASR-Server):
"Dienstag."
ASR-Serverantwort an ASR-Client:
"Um wie viel Uhr wollen sie abfliegen ?"
Sprecher (ASR-Client an ASR-Server):
"Um 4 Uhr nachmittags."
ASR-Serverantwort an den ASR-Client:
"Ich kann Sie auf den Flug 4567 der XYZ-Fluggesellschaft von Washington, DC nach Los Angeles am Dienstag um 4 Uhr nachmittags einbuchen. Wollen Sie einen Platz in diesem Flug reservieren ?" - In diesem Fall ist die vom ASR-Server
110 empfangene Information nicht wortgetreu der Text von der erkannten Sprache, jedoch die Information aufgrund der erkannten Sprache (die von der Applikation abhängen würde). Jeder Teil des Dialogs kann in Übereinstimmung mit dem oben beschriebenen ASR-Client-Server-Verfahren ausgeführt werden. Wie aus diesem Beispiel beobachtet werden kann, benötigt eine solche ASR-Dienst-Applikation vom ASR-Client und vom ASR-Server nicht nur die Fähigkeit zur Abwicklung von natürlichen Sprache, sondern auch das Zugreifen auf eine große Datenbank, die konstant wechselt. Um dies zu erfüllen, kann es wünschenswert sein, dass die ASR-Dienst-Applikation eigentlich eher im Server-Knoten110 als im Client-PC140 installiert wird und ausführt. Der Client-PC140 würde in diesem Fall bloß ein relativ kleines "Agent"-Programm ausführen müssen, das – bei der Steuerung des am Server-Knoten110 ablaufenden Applikationsprogramms – den ASR-Client130 initiiert und die Spracheingabe mittels des ASR-Clients130 weiter an den ASR-Server100 leitet. Ein Beispiel für ein solches "Agent"-Programm kann z. B. eines sein, das einen "sprechenden Kopf" auf den Bildschirm des Client-PC140 setzt, um die Interaktion mit einem Individuum zu unterstützen, das die ASR-Dienst-Applikation am Client-PC140 verwendet, und um durch den ASR-Client130 und den ASR-Server100 die Sprachinformation der Person zur Erkennung weiter an den ASR-Server100 sendet. - Zusammengefasst sorgt die vorliegende Erfindung für einen Weg zur Bereitstellung von ASR-Diensten, die Benutzern über ein paket-orientiertes Datennetz wie das Internet zur Verfügung gestellt werden können, und zwar an einer Stelle, die entfernt von einem eine ASR-Maschine aufnehmenden System liegt, das eine Client-Server-Architektur verwendet.
- Das Beschriebene dient bloß zur Darstellung der Applikation der Grundsätze der vorliegenden Erfindung. Andere Anordnungen und Verfahren können von den Fachleuten auf dem Gebiet implementiert werden, ohne sich vom Schutzumfang der vorliegenden Erfindung, wie durch die anliegenden Ansprüche definiert, zu lösen.
- Wenn technische Merkmale in den Ansprüchen mit Bezugszeichen versehen sind, so sind diese Bezugszeichen lediglich zum besseren Verständnis der Ansprüche vorhanden und dementsprechend stellen solche Bezugszeichen keine Einschränkungen des Schutzumfangs solcher Elemente dar, die nur exemplarisch durch solche Bezugszeichen gekennzeichnet sind.
Claims (29)
- Ein Verfahren zum Betreiben eines automatischen Spracherkennungsdienstes, auf den durch einen Client über ein paketorientierte Datennetz zugegriffen werden kann, das die folgenden Schritte umfasst: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
- Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, den Schritt des Erhaltens des Zugriffs auf eine Grammatik umfasst, die sich an der entsprechenden Grammatik-Adresse befindet.
- Das Verfahren nach Anspruch 2 oder das System nach Anspruch 13 oder der Herstellungsgegenstand nach Anspruch 21, worin die Adresse, die der Stelle einer Grammatik entspricht, eine Uniform-Resouce-Locator-kompatible Adresse ist.
- Das Verfahren nach den Ansprüchen 1 oder 28 oder das System nach Anspruch 12 oder der Herstellungsgegenstand nach Anspruch 20, worin die Information, die die Sprache darstellt, vom Client durch Streaming eingeht; oder worin die Information, die die vom Client empfangene Sprache darstellt, eine digitalisierte Sprache umfasst; oder worin die Information, die die vom Client empfangene Sprache darstellt, eine komprimierte digitalisierte Sprache umfasst; oder worin die Information, die die vom Client empfangene Sprache darstellt, Merkmale umfasst, die vom Client aus der digitalisierten Sprache extrahiert werden.
- Das Verfahren nach Anspruch 1, worin der Schritt zum Erkennen der empfangenen Sprachinformation wiederholt wird, wenn neue Sprachinformation vom Client empfangen wird.
- Das Verfahren nach den Ansprüchen 1 oder 9 oder das System nach den Ansprüchen 12 oder 17 oder der Herstellungsgegenstand nach den Ansprüchen 20 oder 25, worin die Information aufgrund der erkannten Sprache Textinformation umfasst; oder worin die Information aufgrund der erkannten Sprache eine zusätzliche Sprache umfasst.
- Das Verfahren nach Anspruch 1, worin der Schritt zum Senden von Information aufgrund der erkannten Sprache wiederholt wird, wenn zusätzliche Sprachinformation erkannt wird.
- Das Verfahren nach Anspruch 7, das weiterhin den Schritt von Senden an den Client einer überarbeiteten Information umfasst, und zwar aufgrund der zuvor an den Client gesandten erkannten Sprache.
- Das Verfahren nach Anspruch 1, worin die Schritte b, c und d wiederholt werden, um einen Informationsaustausch zwischen dem Client und dem Server zu erzeugen.
- Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin den Schritt zum Aktivieren einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage umfasst.
- Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin den Schritt des Sendens eines Handles über das paket-orientierte Datennetz an den Client umfasst, das der Grammatik entspricht.
- Ein System zum Betreiben eines automatischen Spracherkennungsdienstes, dadurch gekennzeichnet, dass der Dienst über ein paket-orientiertes Datennetz durch einen Client zugänglich ist, wobei das System folgendes umfasst: a. einen programmierbaren Prozessor; b. einen Speicher; c. eine Audio-Eingabe-Vorrichtung; und d. eine Kommunikationsschnittstelle zum Aufbau einer Kommunikationsverbindung mit dem Client über das paket-orientierte Datennetz; und wobei der Prozessor programmiert ist, um folgende Schritte auszuführen: i. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; ii. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; iii. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und iv. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
- Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt auszuführen, dass, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, der Zugriff auf eine Grammatik erhalten wird, die sich an der entsprechenden Grammatik-Adresse befindet.
- Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert wird, um den Schritt zum Erkennen der empfangenen Sprachinformation zu wiederholen, wenn vom Client eine neue Sprachinformation empfangen wird.
- Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden der Information aufgrund der erkannten Sprache zu wiederholen, wenn eine zusätzliche Sprachinformation erkannt wird.
- Das System nach Anspruch 15, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden an den Client einer überarbeiteten Information auszuführen, und zwar aufgrund einer zuvor an den Client gesandten erkannten Sprache.
- Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um die Schritte von ii, iii und iv zu wiederholen, um einen Informationsaustausch zwischen Client und Server zu erzeugen.
- Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zur Aktivierung einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage auszuführen.
- Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden über das paket-orientierte Datennetz an den Client eines der Grammatik entsprechenden Handles auszuführen.
- Ein Herstellungsgegenstand, der ein Computer-lesbares Medium umfasst, dadurch gekennzeichnet, dass das Computerlesbare Medium darauf Anweisungen zum Betreiben eines automatischen Spracherkennungsdienstes gespeichert hat, auf den ein Client über ein paket-orientiertes Datennetz zugreifen kann, wobei die Anweisungen, wenn sie von einem Prozessor durchgeführt werden, bewirken, dass der Prozessor eine Reihe von Schritten ausführt, die folgendes umfassen: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, den Schritt auszuführen, dass, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, der Zugriff auf eine Grammatik erhalten wird, die sich an der entsprechenden Grammatik-Adresse befindet.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Erkennen der empfangenen Sprachinformation wiederholt wird, wenn vom Client eine neue Sprachinformation empfangen wird.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Senden der Information aufgrund der erkannten Sprache wiederholt wird, wenn eine zusätzliche Sprachinformation erkannt wird.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Senden an den Client der überarbeiteten Information ausgeführt wird, und zwar aufgrund der zuvor an den Client gesandten erkannten Sprache.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass die Schritte von b, c und d wiederholt werden, um einen Informationsaustausch zwischen Client und Server zu erzeugen.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zur Aktivierung einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage ausführt wird.
- Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin veranlassen, dass der Prozessor den Schritt zum Senden eines der Grammatik entsprechenden Handles über das paket-orientierte Datennetz an den Client ausführt.
- Ein Verfahren zum Betreiben eines automatischen Formularfüllenden Dienstes für das Ausfüllen eines Formulars als Reaktion auf gesprochene Antworten zu einer Information, die für jede einer Reihe an Leerstellen in dem Formular verlangt werden, wobei der automatische Formular-füllende Dienst über ein paket-orientiertes Datennetz von einem Client zugänglich ist, wobei das Verfahren die folgenden Schritte umfasst: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht, worin die Grammatik Worten entspricht, die mit der in dem Formular einzufügenden Textinformation verknüpft sind; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt ; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden eines Textes, der der erkannten Sprache entspricht, über das paket-orientierte Datennetz an den Client zur Einfügung in das Formular.
- Ein Verfahren zum Betreiben eines Sprach-zu-Text-Dienstes, der für einen Client über ein paket-orientiertes Datennetz fernzugänglich ist, wobei das Verfahren folgendes umfasst: a. das Empfangen vom Client über das paket-orientiertes Datennetz eines Grammatik-Bezeichners, der mit einer einer Vielzahl von Grammatiken verknüpft ist; b. das Auswählen einer Grammatik aus der Vielzahl von Grammatiken aufgrund des Grammatik-Bezeichners; c. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; d. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der ausgewählten Grammatik; e. das Erzeugen von Sprache als Reaktion auf die erkannte Sprache; und f. das Übertragen der erzeugten Sprache über das paket-orientierte Datennetz an den Client.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/833,210 US6078886A (en) | 1997-04-14 | 1997-04-14 | System and method for providing remote automatic speech recognition services via a packet network |
US833210 | 1997-04-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69829604D1 DE69829604D1 (de) | 2005-05-12 |
DE69829604T2 true DE69829604T2 (de) | 2006-02-09 |
Family
ID=25263756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69829604T Expired - Lifetime DE69829604T2 (de) | 1997-04-14 | 1998-04-08 | System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz |
Country Status (6)
Country | Link |
---|---|
US (3) | US6078886A (de) |
EP (1) | EP0872827B1 (de) |
JP (3) | JPH10333693A (de) |
CA (1) | CA2228917C (de) |
DE (1) | DE69829604T2 (de) |
MX (2) | MX2007013017A (de) |
Families Citing this family (295)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7168084B1 (en) | 1992-12-09 | 2007-01-23 | Sedna Patent Services, Llc | Method and apparatus for targeting virtual objects |
US9286294B2 (en) | 1992-12-09 | 2016-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content suggestion engine |
EP2184864A3 (de) | 1996-04-26 | 2011-12-14 | AT & T Corp. | Verfahren und Vorrichtung zur Datenübertragung mit mehreren Sendeantennen |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
US8209184B1 (en) | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
JP4562910B2 (ja) * | 1998-03-23 | 2010-10-13 | マイクロソフト コーポレーション | オペレーティングシステムのアプリケーション・プログラム・インターフェース |
US6434526B1 (en) * | 1998-06-29 | 2002-08-13 | International Business Machines Corporation | Network application software services containing a speech recognition capability |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
WO2000022597A1 (en) * | 1998-10-15 | 2000-04-20 | Planetlingo Inc. | Method for computer-aided foreign language instruction |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
DE19910234A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
WO2000058946A1 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
ATE281689T1 (de) * | 1999-03-26 | 2004-11-15 | Scansoft Inc | Client-server spracherkennungssystem |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
WO2000062222A1 (en) * | 1999-04-14 | 2000-10-19 | Syvox Corporation | Interactive voice unit for giving instruction to a worker |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
GB9911971D0 (en) | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
DE19930407A1 (de) * | 1999-06-09 | 2000-12-14 | Philips Corp Intellectual Pty | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten |
AU5399300A (en) * | 1999-06-09 | 2001-01-02 | Koninklijke Philips Electronics N.V. | Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units. |
GB2356318A (en) * | 1999-09-04 | 2001-05-16 | Marconi Comm Ltd | Server with voice recognition |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
EP1098297A1 (de) * | 1999-11-02 | 2001-05-09 | BRITISH TELECOMMUNICATIONS public limited company | Spracherkennung |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7110947B2 (en) * | 1999-12-10 | 2006-09-19 | At&T Corp. | Frame erasure concealment technique for a bitstream-based feature extractor |
US6792405B2 (en) * | 1999-12-10 | 2004-09-14 | At&T Corp. | Bitstream-based feature extraction method for a front-end speech recognizer |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6434529B1 (en) * | 2000-02-16 | 2002-08-13 | Sun Microsystems, Inc. | System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar |
US6853714B2 (en) | 2000-02-25 | 2005-02-08 | Keith A. Liljestrand | Apparatus and method for providing enhanced telecommunications services |
DE60130880T2 (de) * | 2000-03-24 | 2008-07-17 | Eliza Corp., Beverly | Web-gestützte spracherkennung durch scripting und semantische objekte |
KR20010025230A (ko) * | 2000-11-09 | 2001-04-06 | 차정만 | 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법 |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
US7770102B1 (en) | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
DE60039076D1 (de) * | 2000-06-26 | 2008-07-10 | Mitsubishi Electric Corp | System zum Betreiben eines Gerätes |
KR100383391B1 (ko) * | 2000-06-28 | 2003-05-12 | 김지한 | 음성인식서비스 시스템 및 방법 |
FI115868B (fi) * | 2000-06-30 | 2005-07-29 | Nokia Corp | Puhesynteesi |
US7245291B2 (en) | 2000-07-11 | 2007-07-17 | Imran Sharif | System and method for internet appliance data entry and navigation |
US6980313B2 (en) * | 2000-07-11 | 2005-12-27 | Imran Sharif | Fax-compatible internet appliance |
US20030115167A1 (en) * | 2000-07-11 | 2003-06-19 | Imran Sharif | Web browser implemented in an Internet appliance |
US20020078445A1 (en) * | 2000-07-11 | 2002-06-20 | Imran Sharif | Internet appliance for interactive audio/video display using a remote control unit for user input |
US7139709B2 (en) * | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
GB2365189A (en) * | 2000-07-26 | 2002-02-13 | Canon Kk | Voice-controlled machine |
CA2417926C (en) * | 2000-07-31 | 2013-02-12 | Eliza Corporation | Method of and system for improving accuracy in a speech recognition system |
AU2001284713A1 (en) * | 2000-08-02 | 2002-02-13 | Speaklink, Inc. | System and method for voice-activated web content navigation |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US6556563B1 (en) * | 2000-09-11 | 2003-04-29 | Yahoo! Inc. | Intelligent voice bridging |
US7095733B1 (en) | 2000-09-11 | 2006-08-22 | Yahoo! Inc. | Voice integrated VOIP system |
US6567419B1 (en) | 2000-09-11 | 2003-05-20 | Yahoo! Inc. | Intelligent voice converter |
US6580786B1 (en) | 2000-09-11 | 2003-06-17 | Yahoo! Inc. | Message store architecture |
US7454346B1 (en) * | 2000-10-04 | 2008-11-18 | Cisco Technology, Inc. | Apparatus and methods for converting textual information to audio-based output |
GB2368441A (en) * | 2000-10-26 | 2002-05-01 | Coles Joseph Tidbold | Voice to voice data handling system |
US7136814B1 (en) * | 2000-11-03 | 2006-11-14 | The Procter & Gamble Company | Syntax-driven, operator assisted voice recognition system and methods |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US6823306B2 (en) | 2000-11-30 | 2004-11-23 | Telesector Resources Group, Inc. | Methods and apparatus for generating, updating and distributing speech recognition models |
WO2002044887A2 (en) * | 2000-12-01 | 2002-06-06 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US20020143553A1 (en) * | 2001-01-24 | 2002-10-03 | Michael Migdol | System, method and computer program product for a voice-enabled universal flight information finder |
FR2820872B1 (fr) * | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
DE10109156C2 (de) * | 2001-02-24 | 2003-01-09 | Diehl Ako Stiftung Gmbh & Co | Intelligente Haushaltsgrossgeräte |
US7805310B2 (en) * | 2001-02-26 | 2010-09-28 | Rohwer Elizabeth A | Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment |
US20020178003A1 (en) * | 2001-03-09 | 2002-11-28 | Motorola, Inc. | Method and apparatus for providing voice recognition service to a wireless communication device |
US6985862B2 (en) * | 2001-03-22 | 2006-01-10 | Tellme Networks, Inc. | Histogram grammar weighting and error corrective training of grammar weights |
CN1291307C (zh) | 2001-03-22 | 2006-12-20 | 佳能株式会社 | 信息处理装置和方法 |
US7233903B2 (en) * | 2001-03-26 | 2007-06-19 | International Business Machines Corporation | Systems and methods for marking and later identifying barcoded items using speech |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US7778816B2 (en) | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
CN101833952B (zh) * | 2001-05-04 | 2013-02-13 | 微软公司 | 客户服务器系统中处理输入数据的方法 |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US20020178182A1 (en) * | 2001-05-04 | 2002-11-28 | Kuansan Wang | Markup language extensions for web enabled recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
CN1279465C (zh) * | 2001-05-04 | 2006-10-11 | 微软公司 | Web启用的识别体系结构 |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203188B1 (en) | 2001-05-21 | 2007-04-10 | Estara, Inc. | Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
JP3885523B2 (ja) | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US7194513B2 (en) * | 2001-07-08 | 2007-03-20 | Imran Sharif | System and method for using an internet appliance to send/receive digital content files as E-mail attachments |
US20030014254A1 (en) * | 2001-07-11 | 2003-01-16 | You Zhang | Load-shared distribution of a speech system |
US7793326B2 (en) | 2001-08-03 | 2010-09-07 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator |
US7908628B2 (en) | 2001-08-03 | 2011-03-15 | Comcast Ip Holdings I, Llc | Video and digital multimedia aggregator content coding and formatting |
US7313526B2 (en) | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US8644475B1 (en) | 2001-10-16 | 2014-02-04 | Rockstar Consortium Us Lp | Telephony usage derived presence information |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
JP2003143256A (ja) | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US7246060B2 (en) * | 2001-11-06 | 2007-07-17 | Microsoft Corporation | Natural input recognition system and method using a contextual mapping engine and adaptive user bias |
US6816578B1 (en) * | 2001-11-27 | 2004-11-09 | Nortel Networks Limited | Efficient instant messaging using a telephony interface |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US20030135624A1 (en) * | 2001-12-27 | 2003-07-17 | Mckinnon Steve J. | Dynamic presence management |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7054813B2 (en) * | 2002-03-01 | 2006-05-30 | International Business Machines Corporation | Automatic generation of efficient grammar for heading selection |
US6895379B2 (en) * | 2002-03-27 | 2005-05-17 | Sony Corporation | Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US20030217149A1 (en) * | 2002-05-20 | 2003-11-20 | International Business Machines Corporation | Method and apparatus for tunneling TCP/IP over HTTP and HTTPS |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US8073930B2 (en) * | 2002-06-14 | 2011-12-06 | Oracle International Corporation | Screen reader remote access system |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7797159B2 (en) * | 2002-09-16 | 2010-09-14 | Movius Interactive Corporation | Integrated voice navigation system and method |
US8392609B2 (en) | 2002-09-17 | 2013-03-05 | Apple Inc. | Proximity detection for media proxies |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US20050049922A1 (en) * | 2003-03-24 | 2005-03-03 | Ipdev Co. | Method and apparatus for specifying toppings and their placement on a pizza and confirming same |
US7013282B2 (en) * | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7260539B2 (en) * | 2003-04-25 | 2007-08-21 | At&T Corp. | System for low-latency animation of talking heads |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US20050015256A1 (en) * | 2003-05-29 | 2005-01-20 | Kargman James B. | Method and apparatus for ordering food items, and in particular, pizza |
EP1631899A4 (de) * | 2003-06-06 | 2007-07-18 | Univ Columbia | System und verfahren zur sprachaktivierung von web-seiten |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
JP4267385B2 (ja) | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
US7073203B2 (en) * | 2003-08-08 | 2006-07-11 | Simms Fishing Products Corporation | Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US7519042B2 (en) | 2003-09-12 | 2009-04-14 | Motorola, Inc. | Apparatus and method for mixed-media call formatting |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US20050102625A1 (en) * | 2003-11-07 | 2005-05-12 | Lee Yong C. | Audio tag retrieval system and method |
US9118574B1 (en) | 2003-11-26 | 2015-08-25 | RPX Clearinghouse, LLC | Presence reporting using wireless messaging |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
US20050171781A1 (en) * | 2004-01-08 | 2005-08-04 | Poploskie Jon M. | Speech information system |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
FR2865846A1 (fr) * | 2004-02-02 | 2005-08-05 | France Telecom | Systeme de synthese vocale |
US7925512B2 (en) * | 2004-05-19 | 2011-04-12 | Nuance Communications, Inc. | Method, system, and apparatus for a voice markup language interpreter and voice browser |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7940746B2 (en) | 2004-08-24 | 2011-05-10 | Comcast Cable Holdings, Llc | Method and system for locating a voice over internet protocol (VoIP) device connected to a network |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US7783028B2 (en) * | 2004-09-30 | 2010-08-24 | International Business Machines Corporation | System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US7529677B1 (en) | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
DE102005010285A1 (de) * | 2005-03-01 | 2006-09-07 | Deutsche Telekom Ag | Verfahren und System zur Spracherkennung |
US20060247925A1 (en) * | 2005-04-27 | 2006-11-02 | International Business Machines Corporation | Virtual push-to-talk |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
WO2007117626A2 (en) * | 2006-04-05 | 2007-10-18 | Yap, Inc. | Hosted voice recognition system for wireless devices |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
US8296139B2 (en) * | 2006-12-22 | 2012-10-23 | International Business Machines Corporation | Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system |
US8918318B2 (en) * | 2007-01-16 | 2014-12-23 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
WO2008100518A1 (en) * | 2007-02-13 | 2008-08-21 | Ntera Limited | Voltage feedback circuit for active matrix reflective display devices |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8086457B2 (en) | 2007-05-30 | 2011-12-27 | Cepstral, LLC | System and method for client voice building |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8019608B2 (en) * | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
WO2010075623A1 (en) * | 2008-12-31 | 2010-07-08 | Bce Inc. | System and method for unlocking a device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
JP5244663B2 (ja) * | 2009-03-18 | 2013-07-24 | Kddi株式会社 | 音声によってテキストを入力する音声認識処理方法及びシステム |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US8880403B2 (en) * | 2010-09-03 | 2014-11-04 | Canyon Ip Holdings Llc | Methods and systems for obtaining language models for transcribing communications |
US20120078635A1 (en) * | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
US10032455B2 (en) | 2011-01-07 | 2018-07-24 | Nuance Communications, Inc. | Configurable speech recognition system using a pronunciation alignment between multiple recognizers |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
US8914288B2 (en) | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
CN104769668B (zh) | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
US9691377B2 (en) | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
US9275638B2 (en) | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US10811004B2 (en) * | 2013-03-28 | 2020-10-20 | Nuance Communications, Inc. | Auto-generation of parsing grammars from a concept ontology |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9218804B2 (en) | 2013-09-12 | 2015-12-22 | At&T Intellectual Property I, L.P. | System and method for distributed voice models across cloud and device for embedded text-to-speech |
US9558736B2 (en) * | 2014-07-02 | 2017-01-31 | Bose Corporation | Voice prompt generation combining native and remotely-generated speech data |
JP6390264B2 (ja) * | 2014-08-21 | 2018-09-19 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
EP3195145A4 (de) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Sprachhandel |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10331312B2 (en) * | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
EP3341933A1 (de) * | 2015-10-21 | 2018-07-04 | Google LLC | Parametersammlung und automatische dialogerzeugung in dialogsystemen |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10192555B2 (en) * | 2016-04-28 | 2019-01-29 | Microsoft Technology Licensing, Llc | Dynamic speech recognition data evaluation |
US11010820B2 (en) * | 2016-05-05 | 2021-05-18 | Transform Sr Brands Llc | Request fulfillment system, method, and media |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
WO2018144465A1 (en) * | 2017-01-31 | 2018-08-09 | Interactive Intelligence Group, Inc. | System and method for speech-based interaction resolution |
US10757058B2 (en) | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US10102868B2 (en) * | 2017-02-17 | 2018-10-16 | International Business Machines Corporation | Bot-based honeypot poison resilient data collection |
US10810510B2 (en) | 2017-02-17 | 2020-10-20 | International Business Machines Corporation | Conversation and context aware fraud and abuse prevention agent |
US10332505B2 (en) * | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10796088B2 (en) * | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
DE102017213946B4 (de) | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343374B1 (en) * | 2017-12-14 | 2022-05-24 | Amazon Technologies, Inc. | Message aggregation and comparing |
US10715470B1 (en) * | 2017-12-14 | 2020-07-14 | Amazon Technologies, Inc. | Communication account contact ingestion and aggregation |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11145291B2 (en) * | 2018-01-31 | 2021-10-12 | Microsoft Technology Licensing, Llc | Training natural language system with generated dialogues |
US10861440B2 (en) * | 2018-02-05 | 2020-12-08 | Microsoft Technology Licensing, Llc | Utterance annotation user interface |
US11133001B2 (en) * | 2018-03-20 | 2021-09-28 | Microsoft Technology Licensing, Llc | Generating dialogue events for natural language system |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
EP3654249A1 (de) | 2018-11-15 | 2020-05-20 | Snips | Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) * | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11574622B2 (en) | 2020-07-02 | 2023-02-07 | Ford Global Technologies, Llc | Joint automatic speech recognition and text to speech conversion using adversarial neural networks |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088739B2 (ja) * | 1989-10-06 | 2000-09-18 | 株式会社リコー | 音声認識システム |
JPH04372037A (ja) * | 1991-06-21 | 1992-12-25 | Matsushita Electric Ind Co Ltd | システム管理情報設定装置 |
DE69232112T2 (de) | 1991-11-12 | 2002-03-14 | Fujitsu Ltd | Vorrichtung zur Sprachsynthese |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
EP0607615B1 (de) * | 1992-12-28 | 1999-09-15 | Kabushiki Kaisha Toshiba | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
CN1058097C (zh) * | 1993-03-31 | 2000-11-01 | 英国电讯有限公司 | 连续语音识别 |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
JPH07222248A (ja) * | 1994-02-08 | 1995-08-18 | Hitachi Ltd | 携帯型情報端末における音声情報の利用方式 |
US5586171A (en) * | 1994-07-07 | 1996-12-17 | Bell Atlantic Network Services, Inc. | Selection of a voice recognition data base responsive to video data |
US5623605A (en) * | 1994-08-29 | 1997-04-22 | Lucent Technologies Inc. | Methods and systems for interprocess communication and inter-network data transfer |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
US5682478A (en) * | 1995-01-19 | 1997-10-28 | Microsoft Corporation | Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server |
US5732219A (en) * | 1995-03-17 | 1998-03-24 | Vermeer Technologies, Inc. | Computer system and computer-implemented process for remote editing of computer files |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5745754A (en) * | 1995-06-07 | 1998-04-28 | International Business Machines Corporation | Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report |
US5745874A (en) * | 1996-03-04 | 1998-04-28 | National Semiconductor Corporation | Preprocessor for automatic speech recognition system |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
-
1997
- 1997-04-14 US US08/833,210 patent/US6078886A/en not_active Expired - Lifetime
-
1998
- 1998-02-05 CA CA002228917A patent/CA2228917C/en not_active Expired - Lifetime
- 1998-04-08 JP JP10095930A patent/JPH10333693A/ja active Pending
- 1998-04-08 EP EP98106446A patent/EP0872827B1/de not_active Expired - Lifetime
- 1998-04-08 DE DE69829604T patent/DE69829604T2/de not_active Expired - Lifetime
-
2000
- 2000-03-24 US US09/533,820 patent/US6366886B1/en not_active Expired - Lifetime
-
2002
- 2002-02-05 US US10/067,464 patent/US6604077B2/en not_active Expired - Lifetime
- 2002-05-29 JP JP2002156302A patent/JP2003050594A/ja active Pending
-
2006
- 2006-01-18 JP JP2006010432A patent/JP4849894B2/ja not_active Expired - Lifetime
-
2007
- 2007-10-18 MX MX2007013017A patent/MX2007013017A/es active IP Right Grant
- 2007-10-18 MX MX2007013015A patent/MX2007013015A/es active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
EP0872827B1 (de) | 2005-04-06 |
MX2007013017A (es) | 2009-02-13 |
JP2006146262A (ja) | 2006-06-08 |
MX2007013015A (es) | 2009-02-17 |
CA2228917C (en) | 2002-03-19 |
JP2003050594A (ja) | 2003-02-21 |
US6604077B2 (en) | 2003-08-05 |
JPH10333693A (ja) | 1998-12-18 |
JP4849894B2 (ja) | 2012-01-11 |
DE69829604D1 (de) | 2005-05-12 |
US6078886A (en) | 2000-06-20 |
CA2228917A1 (en) | 1998-10-14 |
US6366886B1 (en) | 2002-04-02 |
US20020091528A1 (en) | 2002-07-11 |
MX9802754A (es) | 1998-12-31 |
EP0872827A3 (de) | 1999-04-21 |
EP0872827A2 (de) | 1998-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69829604T2 (de) | System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
US9065914B2 (en) | System and method of providing generated speech via a network | |
US6856960B1 (en) | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network | |
DE60015531T2 (de) | Client-server spracherkennungssystem | |
EP1435088B1 (de) | Dynamischer aufbau einer dialogsteuerung aus dialogobjekten | |
DE69922971T2 (de) | Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache | |
DE60133529T2 (de) | Sprachnavigation in Webanwendungen | |
DE60222093T2 (de) | Verfahren, modul, vorrichtung und server zur spracherkennung | |
DE10125406A1 (de) | Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser | |
DE60207217T2 (de) | Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite | |
WO2003054731A2 (de) | Verfahren zur rechnergestützten transformation strukturierter dokumente | |
US20040037401A1 (en) | Interactive voice response system and a method for use in interactive voice response system | |
DE10220521B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
DE60123153T2 (de) | Sprachgesteuertes Browsersystem | |
CN108241597A (zh) | 一种演示文稿的制作方法和装置 | |
EP1659571A2 (de) | Sprachdialogsystem und Verfahren zum Betreiben | |
EP1240775B1 (de) | Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon | |
DE19930407A1 (de) | Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten | |
WO2003055189A1 (de) | Verfahren zum austausch von informationen mittels sprache über ein paketorientiertes netzwerk | |
DE10129634A1 (de) | Direktes Diktat unter Verwendung von Eingabemethoden | |
DE19707973A1 (de) | Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet | |
DE10220518B4 (de) | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformation | |
EP1388786A1 (de) | Benutzerschnittstelle für eine Mensch-Computer Interaktion | |
MXPA98002754A (en) | System and method for providing remote automatic voice recognition services via a network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |