DE69829604T2 - System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz - Google Patents

System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz Download PDF

Info

Publication number
DE69829604T2
DE69829604T2 DE69829604T DE69829604T DE69829604T2 DE 69829604 T2 DE69829604 T2 DE 69829604T2 DE 69829604 T DE69829604 T DE 69829604T DE 69829604 T DE69829604 T DE 69829604T DE 69829604 T2 DE69829604 T2 DE 69829604T2
Authority
DE
Germany
Prior art keywords
client
information
grammar
packet
data network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69829604T
Other languages
English (en)
Other versions
DE69829604D1 (de
Inventor
Pamela Leigh Bedminster Dragosh
David Bjorn Santa Barbara Roe
Robert Douglas Morristown Sharp
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69829604D1 publication Critical patent/DE69829604D1/de
Publication of DE69829604T2 publication Critical patent/DE69829604T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Description

  • Technisches Gebiet
  • Diese Erfindung betrifft die Spracherkennung im allgemeinen und insbesondere einen Weg zum Bereitstellen von automatischen Spracherkennungsdiensten per Fernzugriff und über ein paket-orientiertes Datennetz.
  • Hintergrund der Erfindung
  • Techniken zur Durchführung einer automatischen Spracherkennung (ASR) sind gut bekannt. Unter bekannten ASR-Techniken befinden sich jene, die Grammatiken verwenden. Eine Grammatik ist eine Darstellung der Sprache oder Phrasen, von denen erwartet wird, dass sie in einem gegebenen Kontext verwendet oder gesprochen werden. In gewisser Hinsicht zwingen dann die ASR-Grammatiken für gewöhnlich den Spracherkenner auf ein Vokabular, das eine Untergruppe des Universums an möglicherweisegesprochenen Worten darstellt; und die Grammatiken können Unter-Grammatiken einschließen. Eine ASR-Grammatik-Regel kann dann verwendet werden, um den Satz von "Phrasen" oder Wortkombinationen aus einer oder mehreren Grammatiken oder Unter-Grammatiken darzustellen, die in einem gegebenen Zusammenhang erwartet werden können. "Grammatik" kann sich allgemein auf ein statistisches Sprachmodell beziehen (wo ein Modell Phrasen darstellt) wie beispielsweise diejenigen, die in Sprachverständnis-Systemen verwendet werden.
  • Produkte und Dienste, die irgendeine Form einer automatischen Spracherkennungs-("ASR")-Verfahrensweisen verwenden, wurden jüngst im Handel eingeführt. AT&T hat z. B. eine Grammatikbasierte ASR-Maschine, WATSON genannt, entwickelt, der die Entwicklung von komplexen ASR-Diensten ermöglicht. Wünschens werte Attribute von komplexen ASR-Diensten, die eine solche ASR-Technologie verwenden würden, umfassen: die hohe Genauigkeit bei der Erkennung; die Robustheit zur Ermöglichung der Erkennung, wo die Sprechenden verschiedene Akzente oder Dialekte haben und/oder wenn ein Hintergrundgeräusch vorliegt; Fähigkeit zum Handhaben große Vokabularien; und das natürliche Sprachverständnis. Um diese Attribute für komplexe ASR-Dienste zu erreichen, benötigen die ASR-Techniken und -Maschinen für gewöhnlich Computerbasierte Systeme, die über eine signifikante Verarbeitungsleistung verfügen, um die gewünschte Spracherkennungsleistung zu erreichen. Die Verarbeitungsleistung, wie hierin verwendet, betrifft die Prozessorgeschwindigkeit, den Speicher, den Plattenplatz sowie den Zugriff auf die Applikationsdatenbänke. Solche Erfordernisse haben die Entwicklung von komplexen ASR-Diensten eingeschränkt, die am eigenen Desktop verfügbar sind, da die Verarbeitungserfordernisse die Leistungen der meisten Desktop-Systeme übersteigen, die für gewöhnlich auf einer Personalrechner-(PC)-Technologie basieren. Ein ASR-System, das eine Client-Server-Architektur benutzt, wird in der Schrift 'Clientserver model for speech recognition' IBM Technical Disclosure Bulletin, Vol. 36, Nr. 3, 1 März, 1993, S. 25–26, offenbart.
  • Paket-orientierte Datennetze sind Allzweck-Datennetze, die für das Senden an verschiedenartigen gespeicherten Daten, einschließlich Sprache oder Audio, gut geeignet sind. Internet, das größte und berühmteste der existierenden paket-orientierten Datennetze, verbindet über 4 Millionen Computer in etwa 140 Ländern. Das globale und exponentielle Wachstum von Internet ist heutzutage allgemein bekannt.
  • Für gewöhnlich greift man mittels eines Client-Software-Programms, das auf einem Computer wie einem PC ausgeführt wird, auf ein paket-orientierten Datennetz zu, und so sind die paket-orientierten Datennetze inhärent Client/Server-orientiert. Ein Weg zum Zugreifen auf die Information über ein paketorientiertes Datennetz liegt in der Verwendung eines Web-Browsers (wie beispielsweise Netscape Navigator, der von Netscape Communications, Inc., erhältlich ist, und Internet Explorer, der von Microsoft Corp. erhältlich ist), der einem Client ermöglicht, mit den Web-Servern zu interagieren. Web-Server und die darin erhältliche Informationen werden für gewöhnlich durch eine Uniform Resource Locator (URL)-kompatiblen Adresse identifiziert und adressiert. Die URL-Adressierung ist in Internet- und Intranet-Applikationen weit verbreitet und ist den Fachleuten auf dem Gebiet gut bekannt (ein "Intranet" ist ein paket-orientiertes Datennetz, das der Funktion nach auf der Basis von Internet modelliert ist und z. B. durch Unternehmen lokal oder intern verwendet wird).
  • Was gewünscht ist, ist ein Weg zum Ermöglichen von ASR-Diensten, die Benutzern an einer Stelle wie an ihrem Desktop, der von dem System, das die ASR-Maschine aufnimmt, entfernt liegt, zur Verfügung gestellt werden.
  • Zusammenfassung der Erfindung
  • Ein System und ein Verfahren zum Betreiben eines automatischen Spracherkennungsdienstes, unter der Verwendung einer Client-Server-Architektur, wird verwendet, um ASR-Dienste an einer von der Stelle der Haupt-ASR-Maschine entfernten Client-Stelle zugänglich zu machen. In Übereinstimmung mit der vorliegenden Erfindung, wie in den Ansprüchen 1–29 beansprucht, empfängt der ASR-Server mittels Verwendung der Client-Server-Kommunikation über ein paket-orientiertes Datennetz eine Grammatik vom Client, empfängt die Informationen, die die Sprache vom Client darstellt, führt die Spracherkennung durch und gibt die Informationen aufgrund der erkannten Sprache an den Client zurück. Alternative Ausführungsformen der vorliegenden Erfindung schließen eine Reihe an Wegen ein, um den Zugriff auf die gewünschte Grammatik zu erhalten, die Verwendung der Kompressions- oder Merkmalsextraktion als ein Verarbeitungsschritt am ASR-Client vor der Überführung der Sprachinformation an den ASR-Server, die Bereitstellung eines Dialogs zwischen Client und Server und das Betreiben eines Formular-ausfüllenden Dienstes.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Diagramm, das ein Client-Server-Beziehung für ein System zeigt, das einen entfernten ASR-Dienst in Übereinstimmung mit der vorliegenden Erfindung bereitstellt.
  • 2 ist ein Diagramm, das einen Vorbereitungsvorgang zur Ermöglichung der entfernten ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 3 ist ein Diagramm, das einen alternativen Vorbereitungsvorgang zur Ermöglichung der entfernten ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 4 ist ein Diagramm, das einen Vorgang für die Regel-Auswahl in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 5 ist ein Diagramm, das einen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 6 ist ein Diagramm, das einen alternativen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • 7 ist ein Diagramm, das einen anderen alternativen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt.
  • Detaillierte Beschreibung
  • Die vorliegende Erfindung betrifft ein auf einem Client-Server basiertes System zum Bereitstellen fern-verfügbarer ASR-Dienste. In Übereinstimmung mit der vorliegenden Erfindung können einem Benutzer- z. B. am Desktop des Benutzers – über ein paket-orientiertes Datennetz wie dem Internet ASR-Dienste bereitgestellt werden, ohne dass der Benutzer die Computerhardware erhalten muss, die über die erweiterte Verarbeitungsleistung verfügt, die zum Ausführen der vollständigen ASR-Techniken erforderlich ist.
  • Eine grundlegende Client-Server-Architektur, die in Übereinstimmung mit der vorliegenden Erfindung verwendet wird, wird in 1 gezeigt. Der ASR-Server 100 ist eine ASR-Softwaremaschine, die auf einem als Server-Knoten 110 bezeichneten System ausgeführt wird, das über ein paket-orientiertes Datennetz 120 (wie Internet) mit anderen Computern verbunden werden kann. Der Server-Knoten 110 kann für gewöhnlich ein Computer sein, dessen Verarbeitungsleistung ausreicht, um komplexe ASR-basierte Appli kationen wie beispielsweise das System WATSON von AT&T auszuführen. Das paket-orientierte Datennetz 120 kann zur Darstellung dass Internet oder Intranet sein.
  • Der ASR-Client 130 ist ein relativ kleines Programm (verglichen mit dem ASR-Server 100), das am Client PC 140 ausgeführt wird. Der Client-PC 140 ist ein Computer wie beispielsweise ein Personalrechner (PC), der eine genügende Verarbeitungsleistung hat, um Client-Applikationen auszuführen, wie beispielsweise ein Web-Browser. Der Client-PC schließt Hardware wie beispielsweise ein Mikrofon und eine Software für das Eingeben und Erfassen von Audioklängen wie beispielsweise einer Sprache ein. Verfahren zum Anschließen von Mikrofonen an einem PC und zur Erfassung von Audioklängen wie Sprache am PC sind gut bekannt. Beispiele für Sprachbearbeitung für PCs schließen die Sprachapplikation-Programmierschnittstelle (Speech Application Programmer Interface – SAPI) von Microsoft und die forgeschrittene Sprachapplikation-Programmierschnittstelle (Advanced Speech Application Programmer Interface – ASAPI) von AT&T ein. Die Details für die Microsoft-SAPI werden z. B. in einer Veröffentlichung unter dem Titel "Speech API Developers Guide, WindowsTM 95 Edition," Vers. 1.0, Microsoft Corporation (1995) gefunden, und Details der AT&T-ASAPI werden in einer Veröffentlichung unter dem Titel "Advanced Speech API Developers Guide," Vers. 1.0, AT&T Corporation (1996) bereitgestellt. Eine alternative Ausführungsform der vorliegenden Erfindung kann eine Schnittstelle zwischen dem ASR-Client 130 und einem oder mehreren Sprachkanälen verwenden, so dass die Spracheingabe durch andere Audioquellen als einem Mikrofon bereitgestellt werden kann.
  • Der Client-PC 140 hat auch die Fähigkeit zum Kommunizieren mit anderen Computern über ein paket-orientiertes Datennetz (wie beispielsweise dem Internet). Verfahren zum Aufbau einer Kommunikationsverbindung mit anderen Computern über ein paket-orientiertes Datennetz (wie dem Internet) sind gut bekannt und schließen z. B. die Verwendung eines Modems ein, um über eine Telefonleitung einen Internetdienstprovider anzuwählen.
  • Der ASR-Server 100 mittels des Server-Knotens 110 und der ASR-Client 130 mittels des Client-PC 140 können über ein paket- orientiertes Datennetz 120 miteinander kommunizieren, indem bekannte Verfahren verwendet werden, die geeignet sind, um eine Information (einschließlich der Übertragung von Daten) über ein paket-orientiertes Datennetz zu kommunizieren, indem z. B. ein Standard-Kommunikationsprotokoll wie beispielsweise eine Transmission Control Protocol/Internet Protocol-(TCP/IP)-Socket-Schnittstelle verwendet wird. Eine TCP/IP-Socket-Schnittstelle ist analog mit einem "Rohr", mittels dem die Information über ein paket-orientiertes Datennetz von einem Punkt zum anderen übertragen werden kann.
  • Der Aufbau einer TCP/IP-Socket-Schnittstelle zwischen dem ASR-Server 100 und dem ASR-Client 130 wird die Überführung der Daten zwischen dem ASR-Server 100 und dem ASR-Client 130 über das paket-orientierte Datennetz 120 ermöglichen, die erforderlich ist, um entfernte ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zu ermöglichen. Der ASR-Client 130 ist auch über eine Schnittstelle mit den Audio/Spracheingabe- und -ausgabeleistungen und Text/Grafik-Anzeige-Mitteln des Client-PC 140. Verfahren und Schnittstellen für die Abwicklung der Eingabe und der Ausgabe von Audio und der Sprache sind gut bekannt, und Text- und Grafikanzeige-Handling-Verfahren und -Schnittstellen sind ebenfalls gut bekannt.
  • Der ASR-Client 130 kann ausgebildet werden, um auf mehrere Weisen im Client-PC 140 zu laufen. Zum Beispiel kann der Client 130 von einem permanenten Datenspeichermedium wie beispielsweise einer Magnetplatte oder einer CD-ROM auf den Client-PC 140 geladen werden. Alternativ kann der ASR-Client 130 von einer Informations- oder Datenquelle heruntergeladen werden, die über ein paket-orientiertes Datennetz wie dem Internet lokalisierbar ist. Das Herunterladen vom ASR-Client 130 kann z. B. einmal durchgeführt werden, um permanent im Client-PC-140 zu liegen; alternativ kann der ASR-Client 130 für einzelne oder limitierte Verwendungszwecke heruntergeladen werden. Der ASR-Client 130 kann z. B. als ein kleines Plug-In-Software-Modul für ein anderes Programm wie beispielsweise einen Web-Browser implementiert sein, der am Client-PC 140 ausgeführt wird. Ein Weg, dies zu erreichen, liegt darin, aus dem ASR-Client 130 eine Active-X Softwarekomponente gemäß dem Microsoft Active-X Standard zu machen. Auf diese Weise kann der ASR-Client 130 z. B. in Verbindung mit einer Web-Browsing-Sitzung wie folgt in den Client-PC 140 geladen werden: ein Benutzer, der das World Wide Web mittels Verwendung des Client-PC 140 durchbrowst, tritt in eine Web-Seite, die die ASR-Fähigkeit hat; die Web-Seite fragt den Benutzer um Erlaubnis, ein ASR-Client-Modul in Übereinstimmung mit der signierten Active-X Steuerung in den Client-PC 140 herunterzuladen; nach der Autorisierung des Benutzers wird der ASR-Client 130 in den Client-PC 140 heruntergeladen. Auf eine ähnliche Weise kann der ASR-Server 100 ausgebildet sein, um auf besonderer Weise im Server-Knoten 110 zu laufen. Zum Beispiel kann der ASR-Server von einem permanenten Datenspeichermedium wie beispielsweise einer Magnetplatte oder einem CD-ROM auf den Server-Knoten 100 geladen werden, oder alternativ kann der ASR-Server 100 von einer Informations- oder Datenquelle heruntergeladen werden, die über ein paket-orientiertes Datennetz wie Internet lokalisierbar ist.
  • Weitere Details zum Bereitstellen von entfernten ASR-Diensten in Übereinstimmung mit der vorliegenden Erfindung werden jetzt mit Bezug auf die 2-7 beschrieben. Für die mit Bezug auf jede dieser Figuren folgende Erörterung wird vorausgesetzt, dass das Client-Server-Beziehung wie in 1 gezeigt ist. Eine Initialisierungsphase wird verwendet, um den ASR-Server 100 und den ASR-Client 130 vorzubereiten, damit sie als Teil einer ASR-Applikation eine automatische Spracherkennungsaufgabe durchführen. Zweckdienlich werden Gegenstände, die in 1 gezeigt werden und in anderen Figuren erscheinen, mit denselben Bezugsziffern wie in der 1 gekennzeichnet.
  • Nimmt man jetzt auf 2 Bezug, wird nun eine Initialisierungsphase in einem Verfahren zur Bereitstellung entfernter ASR-Dienste beschrieben. Im Schritt 201 empfängt der ASR-Client 130 eine Anfrage von der Applikation für das Laden einer Client-Grammatik. Die Client-Grammatik ist zum Zweck der Veranschaulichung eine Datendatei, die eine die Sprache (z. B. Worte und Phrasen) darstellende Information enthält, von der erwartet wird, dass sie in Zusammenhang mit der speziellen ASR-Applika tion gesprochen wird. Die Datendatei kann in einem bekannten Format wie beispielsweise dem Standard Grammatik Format (Standard Grammar Format (SGF)) vorliegen, der Teil der Microsoft SAPI ist.
  • Um der Veranschaulichung willen wird eine ASR-Applikation zum Annehmen einer Pizza-Bestellung für die Beschreibung der vorliegenden Erfindung verwendet. Eine ASR-Dienst-Applikation wie beispielsweise eine Applikation für eine Pizza-Bestellung würde für gewöhnlich ein Programm einschließen, das mit dem ASR-Client 130 über eine Schnittstelle verbunden ist und ihn als Betriebsmittel verwendet, um die Aufgaben der ASR-Applikation zu erfüllen. Eine solche ASR-Applikation könnte im Ganzen oder zum Teil im Client-PC 140 liegen und ausgeführt werden.
  • Betrachtet man das Pizza-Bestellungsbeispiel würde die Client-Grammatik PIZZA Informationen einschließen, die Worte einschließt, die man bei der Bestellung einer Pizza verwenden kann, z. B. "Pizza", "Peperoni" usw. Tatsächlich können Unter-Grammatiken verwendet werden, um eine geeignete Grammatik zu errichten. Für das Pizza-Bestellbeispiel schließen Unter-Grammatiken für die Pizza-Grammatik GRÖßE und BELAG ein. Die Unter-Grammatik GRÖßE könnte aus Worten bestehen, die verwendet werden, um die Größe der gewünschten Pizza zu beschreiben, wie beispielsweise "klein", "mittel" und "groß". Die Unter-Grammatik BELAG könnte aus Worten bestehen, die verwendet werden, um die verschiedenen Beläge zu beschreiben, die man mit einer Pizza bestellen kann, z. B. "Wurst", "Peperoni", "Pilze" und dergleichen.
  • Dem ASR-Client 130 kann die gewünschte Grammatik von der Applikation gegeben werden, oder der ASR-Client 130 kann alternativ die Grammatik aufgrund der von der Applikation bereitgestellten Information aus einem vorbestimmten Satz aussuchen. In beiden Fällen sendet der ASR-Client 130 dann im Schritt 202 die gewünschte Grammatik-Datei über die TCP/IP-Socket-Schnittstelle an den ASR-Server 100. Eine neue TCP/IP-Socket-Schnittstelle kann als Teil der Initialisierung einer neuen Kommunikationssitzung zwischen dem Client-PC 140 und dem Server-Knoten 100 ausgebildet werden müssen, oder die TCP/IP-Socket-Schnitt stelle kann bereits als Ergebnis einer ausgebauten Kommunikationssitzung zwischen dem Client-PC 140 und dem Server-Knoten 110 bestehen, die nicht beendet wurde. In der Pizza-Bestelldarstellung würde der ASR-Client 130 die Übertragung einer die PIZZA-Grammatik enthaltenden Datei über eine TCP/IP-Socket-Schnittstelle an den ASR-Server 100 veranlassen.
  • Im Schritt 203 empfängt der ASR-Server 100 die vom ASR-Client 130 gesandte Client-Grammatik, und im Schritt 204 lädt der ASR-Server die übertragene Client-Grammatik. Wie hierin verwendet, bedeutet das "Laden" der Client-Grammatik, dass die Grammatik für die Verwendung durch ASR-Server 100 zugänglich ist, z. B. durch das Speichern der Grammatik im RAM des Server-Knotens 110. Im Schritt 205 gibt der ASR-Server 100 ein Grammatik "Handle" an den ASR-Client 130 zurück. Ein Grammatik-"Handle" ist ein Markierer wie beispielsweise ein Zeiger für einen Speicher, der die geladene Grammatik enthält, der es dem ASR-Client ermöglicht, während der übrigen Kommunikationssitzung oder Applikationsausführung auf einfache Weise auf die Grammatik zu verweisen. Der ASR-Client 130 empfängt den Grammatik-Handle vom ASR-Server 100 im Schritt 206 und gibt das Handle im Schritt 207 an die Applikation zurück. Für das Pizza-Bestellbeispiel würde ASR-Server 100 die übertragene PIZZA-Grammatik-Datei empfangen und laden und ein Handle zurück an ASR-Client 130 übertragen, das auf die geladene PIZZA-Grammatik zeigt. Der ASR-Client würde wiederum das PIZZA-Handle vom ASR-Server 100 empfangen und das PIZZA-Handle an die Pizza-Bestellapplikation zurückführen. Auf diese Weise kann die Applikation einfach auf das PIZZA-Handle Bezug nehmen, wenn sie als Teil der Pizza-Bestellapplikation eine ASR-Aufgabe ausführt oder initiiert.
  • Ein alternativer Initialisierungsversuch wird jetzt mit Bezug auf die 3 beschrieben. Für die übrige Beschreibung hierin wird angenommen, dass die Übertragung oder die Kommunikation der Information oder Daten zwischen dem ASR-Server 100 und dem ASR-Client 130 über eine errichtete TCP/IP-Socket-Schnittstelle stattfindet. Im Schritt 301 empfängt der ASR-Client 130 von der Applikation eine Anfrage, um eine Client-Grammatik zu laden. Eher als das Senden der Client-Grammatik als eine Datendatei an den ASR-Server 100 im Schritt 302, sendet der ASR-Client 130 stattdessen einen Bezeichner, der eine "konservierte" Grammatik darstellt, an den ASR-Server 100; eine "konservierte" Grammatik wäre z. B. eine gewöhnliche Grammatik wie TAGESZEIT oder DATUM, die der ASR-Server 100 bereits gespeichert hätte. Alternativ könnte der ASR-Client 130 an den ASR-Server 100 eine IP-Adresse wie beispielsweise eine URL-kompatible Adresse senden, wo der ASR-Server 100 die gewünschte Grammatik-Datei finden könnte. Der ASR-Server 100 empfängt im Schritt 303 den Grammatik-Bezeichner oder die URL-Grammatik-Adresse vom ASR-Client 130, lokalisiert und lädt die angeforderte Client-Grammatik im Schritt 304 und gibt ein Grammatik-Handle im Schritt 305 an den ASR-Client 130 zurück. Ähnlich wie mit den oben Bezug auf die 2 beschriebenen Schritten empfängt der ASR-Client 130 das Grammatik-Handle im Schritt 306 vom ASR-Server 100 und gibt das Handle im Schritt 307 an die Applikation zurück. Für das Pizza-Bestellbeispiel wären die oben in Verbindung mit der 2 beschriebenen Schritte gleich, wenn man davon absieht, dass der ASR-Client 130 einen Grammatik-Bezeichner für die Pizza-Grammatik (wenn es eine "konservierte" Grammatik wäre) oder eine URL-Adresse für die Stelle einer die PIZZA-Grammatik enthaltenden Datei an den ASR-Server 100 senden; der ASR-Server 100 würde wiederum eine Datei für die Pizza-Grammatik aufgrund des Grammatik-Bezeichners oder der URL-Adresse (wie vom ASR-Client gesendet) abrufen und dann die angeforderte PIZZA-Grammatik laden.
  • Nachdem die Grammatik geladen und ein Grammatik-Handle an den ASR-Client 130 rückgegeben wurde, muss eine ASR-Dienstapplikation eine zu aktivierende Grammatik-Regel auswählen. 4 zeigt ein Verfahren für die Grammatik-Regel-Auswahl in Übereinstimmung mit der vorliegenden Erfindung. Der ASR-Client 130 empfängt von der Applikation eine Anfrage zur Aktivierung einer Grammatik-Regel im Schritt 401. Im Schritt 402 sendet der ASR-Client eine Regelaktivierungsanfrage an den ASR-Server 100; wie in der 4 gezeigt, kann der ASR-Client 130 auch im Schritt 402 das zuvor rückgegebene Grammatik-Handle (das dem ASR-Server ermöglichen kann, die richtige Grammatik-Regel für die spezielle Grammatik, wie durch das Grammatik-Handle gekennzeichnet, zu aktivieren) an den ASR-Server 100 senden. Der ASR-Server 100 im Schritt 403 empfängt die Regelaktivierungsanfrage und das Grammatik-Handle (falls gesendet). Im Schritt 404 aktiviert der ASR-Server 100 die angeforderte Regel und gibt im Schritt 405 die Benachrichtigung, dass die angeforderte Regel aktiviert wurde, an den ASR-Client 130 zurück. Der ASR-Client 130 empfängt im Schritt 406 die Benachrichtigung der Regelaktivierung und teilt der Applikation im Schritt 407 mit, dass die Regel aktiviert wurde. Hat die Applikation einmal die Benachrichtigung der Regelaktivierung empfangen, dann kann sie mit der Spracherkennung anfangen.
  • Zu Darstellungszwecken des in 4 gezeigten Verfahrens betrachte man neuerlich das Pizza-Bestellbeispiel. Eine Regel, die verwendet werden kann, um eine Pizzabestellung zu erkennen, kann den gewünschten Ausdruck für eine Bestellung so einstellen, dass er die Unter-Grammatiken GRÖßE und BELÄGE zusammen mit dem Wort "Pizza" einschließt, und dass auf folgende Weise bezeichnet werden könnte: (BESTELLUNG = GRÖßE "Pizza" "mit" BELÄGEN). Wiederum mit Bezug auf die 4, würde der ASR-Client 130 von der Applikation eine Anfrage zur Aktivierung einer Pizza-Bestellregel empfangen und die BESTELL-Regel, wie oben angegeben, zusammen mit dem PIZZA-Grammatik-Handle an den ASR-Server 100 senden. Der ASR-Server empfängt die Regelaktivierungsanfrage zusammen mit dem PIZZA-Grammatik-Handle und aktiviert die BESTELL-Regel, so dass der Erkenner dazu gezwungen würde, Worte aus der GRÖΒE-Unter-Grammatik, das Wort "Pizza", das Wort "mit" und Worte aus der Unter-Grammatik BELÄGE zu erkennen. Nach der Aktivierung der BESTELL-Regel sendet der ASR-Server 100 die Benachrichtigung der Regelaktivierung an den ASR-Client 130, der wiederum die Applikation benachrichtigt.
  • Wurde eine Grammatik-Regel einmal aktiviert, kann die Sprachverarbeitung zum Zwecke des Erkennens der Worte in der Grammatik gemäß der Regel stattfinden. Nimmt man auf 5 Bezug, empfängt der ASR-Client 130 im Schritt 501 eine Anfrage von der Applikation zum Einleiten einer Spracherkennungsaufgabe. Im Schritt 502 verlangt der ASR-Client 130 ein Streaming-Audio von der Audio-Eingabe des Client-PC 140. Streaming-Audio betrifft ein Audio, das "fliegend" ("on the fly") verarbeitet wird, wenn mehr Audio eingeht; das System wartet nicht auf alle Audioeingaben (d. h. die gesamte Sprache), bevor es das Audio für die digitale Verarbeitung weiter sendet; Streaming-Audio kann auch die Teil-Übertragung eines Teils des Audiosignals betreffen, während zusätzliches Audio eingegeben wird. Darstellend kann eine Anfrage nach einem Streaming-Audio ausgeführt werden, indem ein richtiger Software-Aufruf für das auf dem Client-PC 140 ausführende Betriebssystem gemacht wird, und zwar derart, dass des Streaming-Audio von der Mikrofon-Eingabe durch den Audio-Prozessor des Client-PC 140 digitalisiert wird. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann an den ASR-Client 130 weitergereicht. Der ASR-Client 130 beginnt dann im Schritt 503 mit der Übertragung des digitalisierten Streaming-Audios an den ASR-Server 100; wie die Audio-Eingabe vom Mikrofon wird das digitalisierte Audio selbst dann fliegend ("on the fly") an den ASR-Server 100 übertragen, wenn die Spracheingabe fortgesetzt wird.
  • Im Schritt 504 führt der ASR-Server 100 die Spracherkennung am digitalisierten Streaming-Audio durch, wenn das Audio vom ASR-Client 130 empfangen wird. Die Spracherkennung wird mittels bekannter Erkennungsalgorithmen wie denen durchgeführt, die von der Spracherkennungsmaschine von AT&T WATSON benutzt werden, und wird innerhalb der Bedingungen der ausgewählten Grammatik, wie von der aktivierten Regel definiert, durchgeführt. Im Schritt 505 gibt der ASR-Server 100 den Streaming-Text (d. h. die teilweise erkannte Sprache) zurück, wenn die Eingabe-Sprache erkannt wird. Wenn der ASR-Server 100 seine anfänglichen Ergebnisse erreicht, gibt er sogar dann diese Ergebnisse an den ASR-Client 130 zurück, wenn der ASR-Server 100 damit fortfährt, das vom ASR-Client 130 übertragene zusätzliche Streaming-Audio zu verarbeiten. Dieser Vorgang zum Zurückgeben des erkannten Textes fliegend ("on the fly"), erlaubt dem ASR-Client 130 (oder der Applikation, die mit dem ASR-Client 130 über eine Schnittstelle verbunden ist), eine Rückmeldung für den Sprecher bereitzustellen. Wenn der ASR-Server 100 fortfährt, das zusätzlich eingegebene Streaming-Audio zu verarbeiten, kann er die Ergebnisse der früheren Spracherkennung derart berichtigen, dass der rückgegebene Text sogar Teile des bereits als Teile der Spracherkennungsaufgabe an den ASR-Client 130 rückgegebenen Texts aktualisiert (oder korrigieren) kann. Wurde einmal das gesamte Streaming-Audio vom ASR-Client 130 empfangen, vervollständigt der ASR-Server seine Spracherkennungsverarbeitung und gibt im Schritt 506 die endgültige Version des erkannten Texts (einschließlich der Korrekturen) zurück.
  • Im Schritt 507 empfängt der ASR-Client 130 den erkannten Text vom ASR-Server 100 und gibt den Text im Schritt 508 an die Applikation zurück. Wiederum kann dies "on the fly" gemacht werden, wenn der erkannte Text eingeht, und der ASR-Client reicht alle Korrekturen in Bezug auf den vom ASR-Server 100 empfangenen erkannten Text an die Applikation weiter.
  • Nimmt man auf das Pizza-Bestellbeispiel Bezug, wird der ASR-Client 130, wenn einmal die BESTELL-Regel aktiviert und die Applikation benachrichtigt wurde, eine Anfrage für den Beginn der Spracherkennung empfangen und das Streaming-Audio von der Mikrofon-Eingabe einleiten. Der Sprecher kann aufgefordert werden, die Pizza-Bestellung zu sprechen, und der ASR-Client 130 sendet das digitalisierte Streaming-Audio an den ASR-Server 100, wenn einmal das Sprechen einsetzt. Wenn solchermaßen der Sprecher z. B. angibt, dass er eine "große Pizza mit Wurst und Peperoni" bestellen will, wird der ASR-Client 130 sogar das digitalisierte Streaming-Audio für das erste Wort der Bestellung an den ASR-Server 100 weiter übertragen, während das zweite Wort gesprochen wird. Der ASR-Server 100 wird, während die Bestellung gesprochen wird, das erste Wort im Text "groß" zurückgeben, während der Rest der Bestellung gesprochen wird. Schließlich kann, wenn der Sprecher einmal mit dem Sprechen aufhört, der endgültige erkannte Text für die Bestellung an den ASR-Client 130 und daher an die Applikation rückgegeben werden.
  • Eine alternative Ausführungsform zum Durchführen des Spracherkennungsverfahrens in Übereinstimmung mit der vorliegenden Erfindung wird in 6 gezeigt. Ähnlich wie im in 5 gezeigten Spracherkennungsverfahren empfängt der ASR-Client 130 im Schritt 601 eine Anfrage von der Applikation, um eine Spracherkennungsaufgabe einzuleiten, und im Schritt 602 verlangt der ASR-Client 130 das Streaming-Audio von der Audio-Eingabe des Client-PC 140. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann an den ASR-Client 130 weitergereicht. Im Schritt 603 komprimiert der ASR-Client 130 das digitalisierte Audio "on the fly" und beginnt dann mit der Übertragung des komprimierten, digitalisierten Streaming-Audios an den ASR-Server 100, während die Spracheingabe fortgesetzt wird.
  • Im Schritt 604 dekomprimiert der ASR-Server 100 das vom ASR-Client 130 empfangene komprimierte Audio, bevor die Spracherkennung am digitalisierten Streaming-Audio durchgeführt wird. Wie oben mit Bezug auf die 5 beschrieben, wird die Spracherkennung innerhalb der Bedingungen der ausgewählten Grammatik, wie durch die aktivierte Regel definiert, durchgeführt. Im Schritt 605 gibt der ASR-Server 100 den Streaming-Text (d. h. die teilweise erkannte Sprache) zurück, wenn die Eingabe-Sprache erkannt wird. Solchermaßen gibt der ASR-Server 100 selbst dann die anfänglichen Ergebnisse an den ASR-Client 130 zurück, wenn der ASR-Server 100 fortfährt, das vom ASR-Client 130 gesandte zusätzliche komprimierte Streaming-Audio zu verarbeiten, und kann Teile des Texts, die als Teil der Spracherkennungsaufgabe bereits an den ASR-Client rückgegeben wurden, aktualisieren oder berichtigen. Wurde einmal das gesamte Streaming-Audio vom ASR-Client 130 empfangen, beendet der ASR-Server seine Spracherkennungsverarbeitung und gibt im Schritt 606 eine endgültige Version des erkannten Texts (einschließlich der Korrekturen) zurück. Der ASR-Client 130 empfängt den erkannten Text vom ASR-Server 100 im Schritt 607, wenn er eingeht, und gibt den Text im Schritt 608 an die Applikation zurück.
  • Eine andere alternative Ausführungsform zum Durchführen des Spracherkennungsverfahrens in Übereinstimmung mit der vorliegenden Erfindung wird in 7 gezeigt. Ähnlich wie mit dem in den 5 und 6 gezeigten Spracherkennungsverfahren, empfängt der ASR-Client 130 im Schritt 701 eine Anfrage von der Applikation, um eine Spracherkennungsaufgabe einzuleiten, und fordert ein Streaming-Audio von der Audio-Eingabe des Client-PC 140. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann weiter an den ASR-Client 130 gereicht. Im Schritt 703 verarbeitet der ASR-Client 130 das digitalisierte Audio "on the fly", um die für die Spracherkennungsverarbeitung nützlichen Merkmale zu extrahieren, und beginnt dann mit der Übertragung der extrahierten Merkmale an den Server 100, während die Spracheingabe fortgesetzt wird. Die Extraktion der wichtigen Merkmale von der Sprache beinhaltet die von der Grammatik unabhängige Verarbeitung, die für gewöhnlich ein Teil der für die Spracherkennung benutzten Algorithmen ist, und kann mittels der Verwendung von Verfahren gemacht werden, die den Fachleuten auf dem Gebiet bekannt sind, wie beispielsweise jene, denen die auf der linearen Prädiktionsodierung (LPC) oder Mel-Filterbank-Verarbeitung basieren. Die Merkmalsextraktion sorgt für eine Information, die aus den Merkmalen der Stimmsignale erhalten werden, während die unnötige Information wie das Volumen beseitigt wird.
  • Beim Empfangen der extrahierten Merkmale vom ASR-Client 130, führt der ASR-Server 100 im Schritt 704 die Spracherkennung an den ankommenden Merkmalen durch, die "on the fly" ankommen (d. h. auf eine mit dem Streaming-Audio analoge Weise). Die Spracherkennung wird innerhalb Randbedingungen der ausgewählten Grammatik, wie durch die aktivierte Regel definiert, durchgeführt. Wie im Fall der oben mit Bezug auf die 5 und 6 erörterten Ausführungsformen, gibt der ASR-Server 100 im Schritt 705 den Streaming-Text (d. h. die teilweise erkannte Sprache) an den ASR-Client 130 zurück, wenn die eingegebenen Merkmale erkannt sind. Der ASR-Server 100 fährt fort, die vom ASR-Client 130 übertragenen zusätzlichen extrahierten Merkmale zu verarbeiten, und kann die Teile des bereit an den ASR-Client 130 rückgegebenen Textes aktualisieren und berichtigen. Der ASR-Server beendet seine Spracherkennungsverarbeitung beim Empfang aller extrahierten Merkmale vom ASR-Client 130 und gibt im Schritt 706 eine endgültige Version des erkannten Textes (einschließlich der Korrekturen) zurück. Der ASR-Client 130 empfängt im Schritt 707 den erkannten Text vom ASR-Server 100, wenn er eingeht, und gibt den Text im Schritt 708 an die Applikation zurück.
  • Die oben mit Bezug auf die 6 und 7 beschriebenen alternativen Ausführungsformen sorgen jeweils für die zusätzliche Verarbeitung am Client-Ende. Für die Ausführungsform in der 6 beinhaltet dies die Komprimierung des Streaming-Audios (mit der Audio-Dekomprimierung am Serverende); für die Ausführungsform in 7 schloss dies den Teil der Spracherkennungsverarbeitung in Form der Merkmalsextraktion ein. Die Verwendung dieser zusätzlichen Verarbeitung am Client-Ende reduziert in signifikantem Maße die vom ASR-Client 130 an den ASR-Server 100 übertragene Datenmenge. Solchermaßen werden weniger Daten benötigt, um die übertragenen Sprachsignale darzustellen. Wo die Merkmalsextraktion am Client-Ende ausgeführt wird, erhöhen sich solche Vorteile möglicherweise sehr, da die extrahierten Merkmale (im Gegensatz zu digitalisierten Stimmsignalen) weniger Daten benötigen und während der Schweigeperioden keine Merkmale übertragen werden müssen. Die Reduzierung der Daten erzeugt einen gewünschten doppelten Vorteil: (1) sie erlaubt eine Reduzierung in der Bandbreite, die zum Erreichen eines gewissen Leistungsgrads erforderlich ist, und (2) sie reduziert die Übertragungszeit für das Senden der Sprachdaten vom ASR-Client mittels der TCP/IP-Socket-Schnittstelle an den ASR-Server.
  • Während für gewöhnlich vor dem Beginn der Übertragung einer Sprachinformation vom ASR-Client 130 an den ASR-Server 100 eine Grammatik-Regel aktiviert werden wird, könnte die Regelaktivierung stattfinden, nachdem ein Teil oder die gesamte zu erkennende Sprachinformation vom ASR-Client 130 an den ASR-Server 100 übertragen wurde. Unter diesen Umständen würde der ASR-Server 100 nicht mit den Spracherkennungsversuchen beginnen, bis eine Grammatik-Regel aktiviert wurde. Die vor der Aktivierung einer Grammatik-Regel durch den ASR Client 130 übertragene Sprache könnte zeitweilig vom ASR-Server 100 gespeichert werden, um vom Erkenner verarbeitet zu werden; oder alternativ könnte diese Sprache ignoriert werden.
  • Weiterhin können die mehreren Spracherkennungsaufgaben mittels Verwendung der Techniken der vorliegenden Erfindung ausgeführt werden. Zum Beispiel könnte eine ASR-Applikation vom ASR-Client 130 anfordern, den ASR-Server 100 einzuweisen, eine kon servierte Grammatik für eine Telefonnummer (d. h. "TELEFONNUMMER") zu laden und dann die Aktivierung einer die gesprochenen Nummern abdeckenden Regel anzufordern. Nachdem eine Telefonnummer gesprochen und in Übereinstimmung mit der vorliegenden Erfindung erkannt ist (z. B. als Reaktion auf eine Aufforderung zum Sprechen der Telefonnummer, sendet der ASR-Client 130 digitalisierte gesprochene Nummer zur Erkennung an den ASR-Server 100), könnte die ASR-Applikation dann den ASR-Client 130 auffordern, die Erkennung der Pizza-Bestellsprache (z. B. laden der Pizza-Grammatik, aktivieren der BESTELL-Regel und beginnen der Spracherkennung) in Übereinstimmung mit den oben mit Bezug auf die 25 beschriebenen Beispielen zu initialisieren und einzuleiten.
  • Zusätzlich zum oben zur Veranschaulichung verwendeten einfachen Pizza-Bestellbeispiel, kann über ein paket-orientiertes Datennetz in Übereinstimmung mit der vorliegenden Erfindung ein weiter Bereich an möglichen ASR-Diensten bereitgestellt werden. Ein Beispiel für eine von der vorliegenden Erfindung ermöglichte ASR-Applikation ist ein Formular-ausfüllender Dienst zum Ausfüllen eines Formulars als Reaktion auf gesprochene Antworten zu einer Information, die für jede der Reihe an Leerstellen in der Form verlangt wird. In Übereinstimmung mit der vorliegenden Erfindung kann ein Formular-ausfüllender Dienst implementiert werden, worin der ASR-Client 130 Grammatiken, die die möglichen Auswahlen für jede der Leerstellen darstellen, an den ASR-Server 100 sendet. Für jede Leerstelle verlangt der ASR-Client 130 die Aktivierung der richtigen Grammatik-Regel und sendet eine entsprechende gesprochene Antwort, die als Anfrage nach einer Information, die zum AUsfüllen der Leerstelle erforderlich ist, gegeben wird. Der ASR-Server 100 legt in Übereinstimmung mit der ausgewählten Grammatik und Regel einen passenden Spracherkennungsalgorithmus an und gibt den in das Formular einzufügenden Text zurück.
  • Andere ASR-Dienste können einen Informationsaustausch (z. B. einen Dialog) zwischen dem Server und dem Client beinhalten. Zum Beispiel kann eine ASR-Dienst-Applikation zur Abwicklung von Flugreservierungen in Übereinstimmung mit der wie hierin be schriebenen vorliegenden Erfindung einen Dialog zwischen dem ASR-Server 100 und dem ASR-Client 130 verwenden, um die ASR-Aufgabe auszuführen. Ein Dialog kann wie folgt ablaufen:
    Der Sprecher (mittels des ASR-Clients 130 an den ASR-Server 100): "Ich will einen Flug nach Los Angeles."
  • Die Antwort des ASR-Servers an den ASR-Client (in Form eines Textes oder alternativ als vom ASR-Server 100 an den ASR-Client 130 rückgegebene Sprache):
    "Von welcher Stadt werden sie abfliegen ?"
    Sprecher (mittels ASR-Client an ASR-Server):
    "Washington, DC."
    ASR-Serverantwort an ASR-Client:
    "An welchem Tag möchten sie abfliegen ?"
    Sprecher (ASR-Client an ASR-Server):
    "Dienstag."
    ASR-Serverantwort an ASR-Client:
    "Um wie viel Uhr wollen sie abfliegen ?"
    Sprecher (ASR-Client an ASR-Server):
    "Um 4 Uhr nachmittags."
    ASR-Serverantwort an den ASR-Client:
    "Ich kann Sie auf den Flug 4567 der XYZ-Fluggesellschaft von Washington, DC nach Los Angeles am Dienstag um 4 Uhr nachmittags einbuchen. Wollen Sie einen Platz in diesem Flug reservieren ?"
  • In diesem Fall ist die vom ASR-Server 110 empfangene Information nicht wortgetreu der Text von der erkannten Sprache, jedoch die Information aufgrund der erkannten Sprache (die von der Applikation abhängen würde). Jeder Teil des Dialogs kann in Übereinstimmung mit dem oben beschriebenen ASR-Client-Server-Verfahren ausgeführt werden. Wie aus diesem Beispiel beobachtet werden kann, benötigt eine solche ASR-Dienst-Applikation vom ASR-Client und vom ASR-Server nicht nur die Fähigkeit zur Abwicklung von natürlichen Sprache, sondern auch das Zugreifen auf eine große Datenbank, die konstant wechselt. Um dies zu erfüllen, kann es wünschenswert sein, dass die ASR-Dienst-Applikation eigentlich eher im Server-Knoten 110 als im Client-PC 140 installiert wird und ausführt. Der Client-PC 140 würde in diesem Fall bloß ein relativ kleines "Agent"-Programm ausführen müssen, das – bei der Steuerung des am Server-Knoten 110 ablaufenden Applikationsprogramms – den ASR-Client 130 initiiert und die Spracheingabe mittels des ASR-Clients 130 weiter an den ASR-Server 100 leitet. Ein Beispiel für ein solches "Agent"-Programm kann z. B. eines sein, das einen "sprechenden Kopf" auf den Bildschirm des Client-PC 140 setzt, um die Interaktion mit einem Individuum zu unterstützen, das die ASR-Dienst-Applikation am Client-PC 140 verwendet, und um durch den ASR-Client 130 und den ASR-Server 100 die Sprachinformation der Person zur Erkennung weiter an den ASR-Server 100 sendet.
  • Zusammengefasst sorgt die vorliegende Erfindung für einen Weg zur Bereitstellung von ASR-Diensten, die Benutzern über ein paket-orientiertes Datennetz wie das Internet zur Verfügung gestellt werden können, und zwar an einer Stelle, die entfernt von einem eine ASR-Maschine aufnehmenden System liegt, das eine Client-Server-Architektur verwendet.
  • Das Beschriebene dient bloß zur Darstellung der Applikation der Grundsätze der vorliegenden Erfindung. Andere Anordnungen und Verfahren können von den Fachleuten auf dem Gebiet implementiert werden, ohne sich vom Schutzumfang der vorliegenden Erfindung, wie durch die anliegenden Ansprüche definiert, zu lösen.
  • Wenn technische Merkmale in den Ansprüchen mit Bezugszeichen versehen sind, so sind diese Bezugszeichen lediglich zum besseren Verständnis der Ansprüche vorhanden und dementsprechend stellen solche Bezugszeichen keine Einschränkungen des Schutzumfangs solcher Elemente dar, die nur exemplarisch durch solche Bezugszeichen gekennzeichnet sind.

Claims (29)

  1. Ein Verfahren zum Betreiben eines automatischen Spracherkennungsdienstes, auf den durch einen Client über ein paketorientierte Datennetz zugegriffen werden kann, das die folgenden Schritte umfasst: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
  2. Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, den Schritt des Erhaltens des Zugriffs auf eine Grammatik umfasst, die sich an der entsprechenden Grammatik-Adresse befindet.
  3. Das Verfahren nach Anspruch 2 oder das System nach Anspruch 13 oder der Herstellungsgegenstand nach Anspruch 21, worin die Adresse, die der Stelle einer Grammatik entspricht, eine Uniform-Resouce-Locator-kompatible Adresse ist.
  4. Das Verfahren nach den Ansprüchen 1 oder 28 oder das System nach Anspruch 12 oder der Herstellungsgegenstand nach Anspruch 20, worin die Information, die die Sprache darstellt, vom Client durch Streaming eingeht; oder worin die Information, die die vom Client empfangene Sprache darstellt, eine digitalisierte Sprache umfasst; oder worin die Information, die die vom Client empfangene Sprache darstellt, eine komprimierte digitalisierte Sprache umfasst; oder worin die Information, die die vom Client empfangene Sprache darstellt, Merkmale umfasst, die vom Client aus der digitalisierten Sprache extrahiert werden.
  5. Das Verfahren nach Anspruch 1, worin der Schritt zum Erkennen der empfangenen Sprachinformation wiederholt wird, wenn neue Sprachinformation vom Client empfangen wird.
  6. Das Verfahren nach den Ansprüchen 1 oder 9 oder das System nach den Ansprüchen 12 oder 17 oder der Herstellungsgegenstand nach den Ansprüchen 20 oder 25, worin die Information aufgrund der erkannten Sprache Textinformation umfasst; oder worin die Information aufgrund der erkannten Sprache eine zusätzliche Sprache umfasst.
  7. Das Verfahren nach Anspruch 1, worin der Schritt zum Senden von Information aufgrund der erkannten Sprache wiederholt wird, wenn zusätzliche Sprachinformation erkannt wird.
  8. Das Verfahren nach Anspruch 7, das weiterhin den Schritt von Senden an den Client einer überarbeiteten Information umfasst, und zwar aufgrund der zuvor an den Client gesandten erkannten Sprache.
  9. Das Verfahren nach Anspruch 1, worin die Schritte b, c und d wiederholt werden, um einen Informationsaustausch zwischen dem Client und dem Server zu erzeugen.
  10. Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin den Schritt zum Aktivieren einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage umfasst.
  11. Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin den Schritt des Sendens eines Handles über das paket-orientierte Datennetz an den Client umfasst, das der Grammatik entspricht.
  12. Ein System zum Betreiben eines automatischen Spracherkennungsdienstes, dadurch gekennzeichnet, dass der Dienst über ein paket-orientiertes Datennetz durch einen Client zugänglich ist, wobei das System folgendes umfasst: a. einen programmierbaren Prozessor; b. einen Speicher; c. eine Audio-Eingabe-Vorrichtung; und d. eine Kommunikationsschnittstelle zum Aufbau einer Kommunikationsverbindung mit dem Client über das paket-orientierte Datennetz; und wobei der Prozessor programmiert ist, um folgende Schritte auszuführen: i. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; ii. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; iii. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und iv. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
  13. Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt auszuführen, dass, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, der Zugriff auf eine Grammatik erhalten wird, die sich an der entsprechenden Grammatik-Adresse befindet.
  14. Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert wird, um den Schritt zum Erkennen der empfangenen Sprachinformation zu wiederholen, wenn vom Client eine neue Sprachinformation empfangen wird.
  15. Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden der Information aufgrund der erkannten Sprache zu wiederholen, wenn eine zusätzliche Sprachinformation erkannt wird.
  16. Das System nach Anspruch 15, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden an den Client einer überarbeiteten Information auszuführen, und zwar aufgrund einer zuvor an den Client gesandten erkannten Sprache.
  17. Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um die Schritte von ii, iii und iv zu wiederholen, um einen Informationsaustausch zwischen Client und Server zu erzeugen.
  18. Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zur Aktivierung einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage auszuführen.
  19. Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden über das paket-orientierte Datennetz an den Client eines der Grammatik entsprechenden Handles auszuführen.
  20. Ein Herstellungsgegenstand, der ein Computer-lesbares Medium umfasst, dadurch gekennzeichnet, dass das Computerlesbare Medium darauf Anweisungen zum Betreiben eines automatischen Spracherkennungsdienstes gespeichert hat, auf den ein Client über ein paket-orientiertes Datennetz zugreifen kann, wobei die Anweisungen, wenn sie von einem Prozessor durchgeführt werden, bewirken, dass der Prozessor eine Reihe von Schritten ausführt, die folgendes umfassen: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
  21. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, den Schritt auszuführen, dass, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, der Zugriff auf eine Grammatik erhalten wird, die sich an der entsprechenden Grammatik-Adresse befindet.
  22. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Erkennen der empfangenen Sprachinformation wiederholt wird, wenn vom Client eine neue Sprachinformation empfangen wird.
  23. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Senden der Information aufgrund der erkannten Sprache wiederholt wird, wenn eine zusätzliche Sprachinformation erkannt wird.
  24. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Senden an den Client der überarbeiteten Information ausgeführt wird, und zwar aufgrund der zuvor an den Client gesandten erkannten Sprache.
  25. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass die Schritte von b, c und d wiederholt werden, um einen Informationsaustausch zwischen Client und Server zu erzeugen.
  26. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zur Aktivierung einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage ausführt wird.
  27. Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin veranlassen, dass der Prozessor den Schritt zum Senden eines der Grammatik entsprechenden Handles über das paket-orientierte Datennetz an den Client ausführt.
  28. Ein Verfahren zum Betreiben eines automatischen Formularfüllenden Dienstes für das Ausfüllen eines Formulars als Reaktion auf gesprochene Antworten zu einer Information, die für jede einer Reihe an Leerstellen in dem Formular verlangt werden, wobei der automatische Formular-füllende Dienst über ein paket-orientiertes Datennetz von einem Client zugänglich ist, wobei das Verfahren die folgenden Schritte umfasst: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht, worin die Grammatik Worten entspricht, die mit der in dem Formular einzufügenden Textinformation verknüpft sind; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt ; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden eines Textes, der der erkannten Sprache entspricht, über das paket-orientierte Datennetz an den Client zur Einfügung in das Formular.
  29. Ein Verfahren zum Betreiben eines Sprach-zu-Text-Dienstes, der für einen Client über ein paket-orientiertes Datennetz fernzugänglich ist, wobei das Verfahren folgendes umfasst: a. das Empfangen vom Client über das paket-orientiertes Datennetz eines Grammatik-Bezeichners, der mit einer einer Vielzahl von Grammatiken verknüpft ist; b. das Auswählen einer Grammatik aus der Vielzahl von Grammatiken aufgrund des Grammatik-Bezeichners; c. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; d. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der ausgewählten Grammatik; e. das Erzeugen von Sprache als Reaktion auf die erkannte Sprache; und f. das Übertragen der erzeugten Sprache über das paket-orientierte Datennetz an den Client.
DE69829604T 1997-04-14 1998-04-08 System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz Expired - Lifetime DE69829604T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/833,210 US6078886A (en) 1997-04-14 1997-04-14 System and method for providing remote automatic speech recognition services via a packet network
US833210 1997-04-14

Publications (2)

Publication Number Publication Date
DE69829604D1 DE69829604D1 (de) 2005-05-12
DE69829604T2 true DE69829604T2 (de) 2006-02-09

Family

ID=25263756

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69829604T Expired - Lifetime DE69829604T2 (de) 1997-04-14 1998-04-08 System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz

Country Status (6)

Country Link
US (3) US6078886A (de)
EP (1) EP0872827B1 (de)
JP (3) JPH10333693A (de)
CA (1) CA2228917C (de)
DE (1) DE69829604T2 (de)
MX (2) MX2007013017A (de)

Families Citing this family (295)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
EP2184864A3 (de) 1996-04-26 2011-12-14 AT & T Corp. Verfahren und Vorrichtung zur Datenübertragung mit mehreren Sendeantennen
US6856960B1 (en) * 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
JP4562910B2 (ja) * 1998-03-23 2010-10-13 マイクロソフト コーポレーション オペレーティングシステムのアプリケーション・プログラム・インターフェース
US6434526B1 (en) * 1998-06-29 2002-08-13 International Business Machines Corporation Network application software services containing a speech recognition capability
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000022597A1 (en) * 1998-10-15 2000-04-20 Planetlingo Inc. Method for computer-aided foreign language instruction
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
ATE281689T1 (de) * 1999-03-26 2004-11-15 Scansoft Inc Client-server spracherkennungssystem
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
WO2000062222A1 (en) * 1999-04-14 2000-10-19 Syvox Corporation Interactive voice unit for giving instruction to a worker
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
GB9911971D0 (en) 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
DE19930407A1 (de) * 1999-06-09 2000-12-14 Philips Corp Intellectual Pty Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
AU5399300A (en) * 1999-06-09 2001-01-02 Koninklijke Philips Electronics N.V. Method of speech-based navigation in a communications network and of implementing a speech input possibility in private information units.
GB2356318A (en) * 1999-09-04 2001-05-16 Marconi Comm Ltd Server with voice recognition
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
EP1098297A1 (de) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Spracherkennung
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7110947B2 (en) * 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
US6792405B2 (en) * 1999-12-10 2004-09-14 At&T Corp. Bitstream-based feature extraction method for a front-end speech recognizer
US6424945B1 (en) 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
US6853714B2 (en) 2000-02-25 2005-02-08 Keith A. Liljestrand Apparatus and method for providing enhanced telecommunications services
DE60130880T2 (de) * 2000-03-24 2008-07-17 Eliza Corp., Beverly Web-gestützte spracherkennung durch scripting und semantische objekte
KR20010025230A (ko) * 2000-11-09 2001-04-06 차정만 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
DE60039076D1 (de) * 2000-06-26 2008-07-10 Mitsubishi Electric Corp System zum Betreiben eines Gerätes
KR100383391B1 (ko) * 2000-06-28 2003-05-12 김지한 음성인식서비스 시스템 및 방법
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US7245291B2 (en) 2000-07-11 2007-07-17 Imran Sharif System and method for internet appliance data entry and navigation
US6980313B2 (en) * 2000-07-11 2005-12-27 Imran Sharif Fax-compatible internet appliance
US20030115167A1 (en) * 2000-07-11 2003-06-19 Imran Sharif Web browser implemented in an Internet appliance
US20020078445A1 (en) * 2000-07-11 2002-06-20 Imran Sharif Internet appliance for interactive audio/video display using a remote control unit for user input
US7139709B2 (en) * 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
GB2365189A (en) * 2000-07-26 2002-02-13 Canon Kk Voice-controlled machine
CA2417926C (en) * 2000-07-31 2013-02-12 Eliza Corporation Method of and system for improving accuracy in a speech recognition system
AU2001284713A1 (en) * 2000-08-02 2002-02-13 Speaklink, Inc. System and method for voice-activated web content navigation
FI20001918A (fi) 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US6556563B1 (en) * 2000-09-11 2003-04-29 Yahoo! Inc. Intelligent voice bridging
US7095733B1 (en) 2000-09-11 2006-08-22 Yahoo! Inc. Voice integrated VOIP system
US6567419B1 (en) 2000-09-11 2003-05-20 Yahoo! Inc. Intelligent voice converter
US6580786B1 (en) 2000-09-11 2003-06-17 Yahoo! Inc. Message store architecture
US7454346B1 (en) * 2000-10-04 2008-11-18 Cisco Technology, Inc. Apparatus and methods for converting textual information to audio-based output
GB2368441A (en) * 2000-10-26 2002-05-01 Coles Joseph Tidbold Voice to voice data handling system
US7136814B1 (en) * 2000-11-03 2006-11-14 The Procter & Gamble Company Syntax-driven, operator assisted voice recognition system and methods
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
WO2002044887A2 (en) * 2000-12-01 2002-06-06 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US20020143553A1 (en) * 2001-01-24 2002-10-03 Michael Migdol System, method and computer program product for a voice-enabled universal flight information finder
FR2820872B1 (fr) * 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
DE10109156C2 (de) * 2001-02-24 2003-01-09 Diehl Ako Stiftung Gmbh & Co Intelligente Haushaltsgrossgeräte
US7805310B2 (en) * 2001-02-26 2010-09-28 Rohwer Elizabeth A Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment
US20020178003A1 (en) * 2001-03-09 2002-11-28 Motorola, Inc. Method and apparatus for providing voice recognition service to a wireless communication device
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights
CN1291307C (zh) 2001-03-22 2006-12-20 佳能株式会社 信息处理装置和方法
US7233903B2 (en) * 2001-03-26 2007-06-19 International Business Machines Corporation Systems and methods for marking and later identifying barcoded items using speech
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
CN101833952B (zh) * 2001-05-04 2013-02-13 微软公司 客户服务器系统中处理输入数据的方法
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
CN1279465C (zh) * 2001-05-04 2006-10-11 微软公司 Web启用的识别体系结构
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203188B1 (en) 2001-05-21 2007-04-10 Estara, Inc. Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
JP3885523B2 (ja) 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US20030009331A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Grammars for speech recognition
US7194513B2 (en) * 2001-07-08 2007-03-20 Imran Sharif System and method for using an internet appliance to send/receive digital content files as E-mail attachments
US20030014254A1 (en) * 2001-07-11 2003-01-16 You Zhang Load-shared distribution of a speech system
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
US7313526B2 (en) 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7809574B2 (en) 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US8644475B1 (en) 2001-10-16 2014-02-04 Rockstar Consortium Us Lp Telephony usage derived presence information
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
JP2003143256A (ja) 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US6816578B1 (en) * 2001-11-27 2004-11-09 Nortel Networks Limited Efficient instant messaging using a telephony interface
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US20030135624A1 (en) * 2001-12-27 2003-07-17 Mckinnon Steve J. Dynamic presence management
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US20030144846A1 (en) * 2002-01-31 2003-07-31 Denenberg Lawrence A. Method and system for modifying the behavior of an application based upon the application's grammar
US7054813B2 (en) * 2002-03-01 2006-05-30 International Business Machines Corporation Automatic generation of efficient grammar for heading selection
US6895379B2 (en) * 2002-03-27 2005-05-17 Sony Corporation Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US20030217149A1 (en) * 2002-05-20 2003-11-20 International Business Machines Corporation Method and apparatus for tunneling TCP/IP over HTTP and HTTPS
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US8073930B2 (en) * 2002-06-14 2011-12-06 Oracle International Corporation Screen reader remote access system
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7797159B2 (en) * 2002-09-16 2010-09-14 Movius Interactive Corporation Integrated voice navigation system and method
US8392609B2 (en) 2002-09-17 2013-03-05 Apple Inc. Proximity detection for media proxies
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US20050049922A1 (en) * 2003-03-24 2005-03-03 Ipdev Co. Method and apparatus for specifying toppings and their placement on a pizza and confirming same
US7013282B2 (en) * 2003-04-18 2006-03-14 At&T Corp. System and method for text-to-speech processing in a portable device
US7260539B2 (en) * 2003-04-25 2007-08-21 At&T Corp. System for low-latency animation of talking heads
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US20050015256A1 (en) * 2003-05-29 2005-01-20 Kargman James B. Method and apparatus for ordering food items, and in particular, pizza
EP1631899A4 (de) * 2003-06-06 2007-07-18 Univ Columbia System und verfahren zur sprachaktivierung von web-seiten
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US7073203B2 (en) * 2003-08-08 2006-07-11 Simms Fishing Products Corporation Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US7519042B2 (en) 2003-09-12 2009-04-14 Motorola, Inc. Apparatus and method for mixed-media call formatting
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US20050102625A1 (en) * 2003-11-07 2005-05-12 Lee Yong C. Audio tag retrieval system and method
US9118574B1 (en) 2003-11-26 2015-08-25 RPX Clearinghouse, LLC Presence reporting using wireless messaging
KR100600522B1 (ko) * 2003-12-16 2006-07-13 에스케이 주식회사 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법
US20050171781A1 (en) * 2004-01-08 2005-08-04 Poploskie Jon M. Speech information system
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
FR2865846A1 (fr) * 2004-02-02 2005-08-05 France Telecom Systeme de synthese vocale
US7925512B2 (en) * 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7940746B2 (en) 2004-08-24 2011-05-10 Comcast Cable Holdings, Llc Method and system for locating a voice over internet protocol (VoIP) device connected to a network
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7783028B2 (en) * 2004-09-30 2010-08-24 International Business Machines Corporation System and method of using speech recognition at call centers to improve their efficiency and customer satisfaction
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US7529677B1 (en) 2005-01-21 2009-05-05 Itt Manufacturing Enterprises, Inc. Methods and apparatus for remotely processing locally generated commands to control a local device
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
WO2007117626A2 (en) * 2006-04-05 2007-10-18 Yap, Inc. Hosted voice recognition system for wireless devices
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
US8296139B2 (en) * 2006-12-22 2012-10-23 International Business Machines Corporation Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system
US8918318B2 (en) * 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
WO2008100518A1 (en) * 2007-02-13 2008-08-21 Ntera Limited Voltage feedback circuit for active matrix reflective display devices
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8086457B2 (en) 2007-05-30 2011-12-27 Cepstral, LLC System and method for client voice building
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
WO2010075623A1 (en) * 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5244663B2 (ja) * 2009-03-18 2013-07-24 Kddi株式会社 音声によってテキストを入力する音声認識処理方法及びシステム
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8880403B2 (en) * 2010-09-03 2014-11-04 Canyon Ip Holdings Llc Methods and systems for obtaining language models for transcribing communications
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US10811004B2 (en) * 2013-03-28 2020-10-20 Nuance Communications, Inc. Auto-generation of parsing grammars from a concept ontology
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9218804B2 (en) 2013-09-12 2015-12-22 At&T Intellectual Property I, L.P. System and method for distributed voice models across cloud and device for embedded text-to-speech
US9558736B2 (en) * 2014-07-02 2017-01-31 Bose Corporation Voice prompt generation combining native and remotely-generated speech data
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
EP3341933A1 (de) * 2015-10-21 2018-07-04 Google LLC Parametersammlung und automatische dialogerzeugung in dialogsystemen
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US11010820B2 (en) * 2016-05-05 2021-05-18 Transform Sr Brands Llc Request fulfillment system, method, and media
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
WO2018144465A1 (en) * 2017-01-31 2018-08-09 Interactive Intelligence Group, Inc. System and method for speech-based interaction resolution
US10757058B2 (en) 2017-02-17 2020-08-25 International Business Machines Corporation Outgoing communication scam prevention
US10102868B2 (en) * 2017-02-17 2018-10-16 International Business Machines Corporation Bot-based honeypot poison resilient data collection
US10810510B2 (en) 2017-02-17 2020-10-20 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10796088B2 (en) * 2017-04-21 2020-10-06 International Business Machines Corporation Specifying a conversational computer agent and its outcome with a grammar
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
DE102017213946B4 (de) 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343374B1 (en) * 2017-12-14 2022-05-24 Amazon Technologies, Inc. Message aggregation and comparing
US10715470B1 (en) * 2017-12-14 2020-07-14 Amazon Technologies, Inc. Communication account contact ingestion and aggregation
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145291B2 (en) * 2018-01-31 2021-10-12 Microsoft Technology Licensing, Llc Training natural language system with generated dialogues
US10861440B2 (en) * 2018-02-05 2020-12-08 Microsoft Technology Licensing, Llc Utterance annotation user interface
US11133001B2 (en) * 2018-03-20 2021-09-28 Microsoft Technology Licensing, Llc Generating dialogue events for natural language system
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) * 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11574622B2 (en) 2020-07-02 2023-02-07 Ford Global Technologies, Llc Joint automatic speech recognition and text to speech conversion using adversarial neural networks
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088739B2 (ja) * 1989-10-06 2000-09-18 株式会社リコー 音声認識システム
JPH04372037A (ja) * 1991-06-21 1992-12-25 Matsushita Electric Ind Co Ltd システム管理情報設定装置
DE69232112T2 (de) 1991-11-12 2002-03-14 Fujitsu Ltd Vorrichtung zur Sprachsynthese
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
EP0607615B1 (de) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
CN1058097C (zh) * 1993-03-31 2000-11-01 英国电讯有限公司 连续语音识别
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
JPH07222248A (ja) * 1994-02-08 1995-08-18 Hitachi Ltd 携帯型情報端末における音声情報の利用方式
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
US5623605A (en) * 1994-08-29 1997-04-22 Lucent Technologies Inc. Methods and systems for interprocess communication and inter-network data transfer
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data
US5682478A (en) * 1995-01-19 1997-10-28 Microsoft Corporation Method and apparatus for supporting multiple, simultaneous services over multiple, simultaneous connections between a client and network server
US5732219A (en) * 1995-03-17 1998-03-24 Vermeer Technologies, Inc. Computer system and computer-implemented process for remote editing of computer files
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5745754A (en) * 1995-06-07 1998-04-28 International Business Machines Corporation Sub-agent for fulfilling requests of a web browser using an intelligent agent and providing a report
US5745874A (en) * 1996-03-04 1998-04-28 National Semiconductor Corporation Preprocessor for automatic speech recognition system
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network

Also Published As

Publication number Publication date
EP0872827B1 (de) 2005-04-06
MX2007013017A (es) 2009-02-13
JP2006146262A (ja) 2006-06-08
MX2007013015A (es) 2009-02-17
CA2228917C (en) 2002-03-19
JP2003050594A (ja) 2003-02-21
US6604077B2 (en) 2003-08-05
JPH10333693A (ja) 1998-12-18
JP4849894B2 (ja) 2012-01-11
DE69829604D1 (de) 2005-05-12
US6078886A (en) 2000-06-20
CA2228917A1 (en) 1998-10-14
US6366886B1 (en) 2002-04-02
US20020091528A1 (en) 2002-07-11
MX9802754A (es) 1998-12-31
EP0872827A3 (de) 1999-04-21
EP0872827A2 (de) 1998-10-21

Similar Documents

Publication Publication Date Title
DE69829604T2 (de) System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
US9065914B2 (en) System and method of providing generated speech via a network
US6856960B1 (en) System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
DE60015531T2 (de) Client-server spracherkennungssystem
EP1435088B1 (de) Dynamischer aufbau einer dialogsteuerung aus dialogobjekten
DE69922971T2 (de) Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache
DE60133529T2 (de) Sprachnavigation in Webanwendungen
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE10125406A1 (de) Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser
DE60207217T2 (de) Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite
WO2003054731A2 (de) Verfahren zur rechnergestützten transformation strukturierter dokumente
US20040037401A1 (en) Interactive voice response system and a method for use in interactive voice response system
DE10220521B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE60123153T2 (de) Sprachgesteuertes Browsersystem
CN108241597A (zh) 一种演示文稿的制作方法和装置
EP1659571A2 (de) Sprachdialogsystem und Verfahren zum Betreiben
EP1240775B1 (de) Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon
DE19930407A1 (de) Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
WO2003055189A1 (de) Verfahren zum austausch von informationen mittels sprache über ein paketorientiertes netzwerk
DE10129634A1 (de) Direktes Diktat unter Verwendung von Eingabemethoden
DE19707973A1 (de) Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet
DE10220518B4 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformation
EP1388786A1 (de) Benutzerschnittstelle für eine Mensch-Computer Interaktion
MXPA98002754A (en) System and method for providing remote automatic voice recognition services via a network

Legal Events

Date Code Title Description
8364 No opposition during term of opposition