DE69829604T2

DE69829604T2 - System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz

Info

Publication number: DE69829604T2
Application number: DE69829604T
Authority: DE
Inventors: Pamela Leigh Bedminster Dragosh; David Bjorn Santa Barbara Roe; Robert Douglas Morristown Sharp
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-04-14
Filing date: 1998-04-08
Publication date: 2006-02-09
Anticipated expiration: 2018-04-09
Also published as: EP0872827B1; MX2007013017A; JP2006146262A; MX2007013015A; CA2228917C; JP2003050594A; US6604077B2; JPH10333693A; JP4849894B2; DE69829604D1; US6078886A; CA2228917A1; US6366886B1; US20020091528A1; MX9802754A; EP0872827A3; EP0872827A2

Description

Technisches Gebiet
Diese Erfindung betrifft die Spracherkennung im allgemeinen und insbesondere einen Weg zum Bereitstellen von automatischen Spracherkennungsdiensten per Fernzugriff und über ein paket-orientiertes Datennetz.
Hintergrund der Erfindung
Techniken zur Durchführung einer automatischen Spracherkennung (ASR) sind gut bekannt. Unter bekannten ASR-Techniken befinden sich jene, die Grammatiken verwenden. Eine Grammatik ist eine Darstellung der Sprache oder Phrasen, von denen erwartet wird, dass sie in einem gegebenen Kontext verwendet oder gesprochen werden. In gewisser Hinsicht zwingen dann die ASR-Grammatiken für gewöhnlich den Spracherkenner auf ein Vokabular, das eine Untergruppe des Universums an möglicherweisegesprochenen Worten darstellt; und die Grammatiken können Unter-Grammatiken einschließen. Eine ASR-Grammatik-Regel kann dann verwendet werden, um den Satz von "Phrasen" oder Wortkombinationen aus einer oder mehreren Grammatiken oder Unter-Grammatiken darzustellen, die in einem gegebenen Zusammenhang erwartet werden können. "Grammatik" kann sich allgemein auf ein statistisches Sprachmodell beziehen (wo ein Modell Phrasen darstellt) wie beispielsweise diejenigen, die in Sprachverständnis-Systemen verwendet werden.
Produkte und Dienste, die irgendeine Form einer automatischen Spracherkennungs-("ASR")-Verfahrensweisen verwenden, wurden jüngst im Handel eingeführt. AT&T hat z. B. eine Grammatikbasierte ASR-Maschine, WATSON genannt, entwickelt, der die Entwicklung von komplexen ASR-Diensten ermöglicht. Wünschens werte Attribute von komplexen ASR-Diensten, die eine solche ASR-Technologie verwenden würden, umfassen: die hohe Genauigkeit bei der Erkennung; die Robustheit zur Ermöglichung der Erkennung, wo die Sprechenden verschiedene Akzente oder Dialekte haben und/oder wenn ein Hintergrundgeräusch vorliegt; Fähigkeit zum Handhaben große Vokabularien; und das natürliche Sprachverständnis. Um diese Attribute für komplexe ASR-Dienste zu erreichen, benötigen die ASR-Techniken und -Maschinen für gewöhnlich Computerbasierte Systeme, die über eine signifikante Verarbeitungsleistung verfügen, um die gewünschte Spracherkennungsleistung zu erreichen. Die Verarbeitungsleistung, wie hierin verwendet, betrifft die Prozessorgeschwindigkeit, den Speicher, den Plattenplatz sowie den Zugriff auf die Applikationsdatenbänke. Solche Erfordernisse haben die Entwicklung von komplexen ASR-Diensten eingeschränkt, die am eigenen Desktop verfügbar sind, da die Verarbeitungserfordernisse die Leistungen der meisten Desktop-Systeme übersteigen, die für gewöhnlich auf einer Personalrechner-(PC)-Technologie basieren. Ein ASR-System, das eine Client-Server-Architektur benutzt, wird in der Schrift 'Clientserver model for speech recognition' IBM Technical Disclosure Bulletin, Vol. 36, Nr. 3, 1 März, 1993, S. 25–26, offenbart.
Paket-orientierte Datennetze sind Allzweck-Datennetze, die für das Senden an verschiedenartigen gespeicherten Daten, einschließlich Sprache oder Audio, gut geeignet sind. Internet, das größte und berühmteste der existierenden paket-orientierten Datennetze, verbindet über 4 Millionen Computer in etwa 140 Ländern. Das globale und exponentielle Wachstum von Internet ist heutzutage allgemein bekannt.
Für gewöhnlich greift man mittels eines Client-Software-Programms, das auf einem Computer wie einem PC ausgeführt wird, auf ein paket-orientierten Datennetz zu, und so sind die paket-orientierten Datennetze inhärent Client/Server-orientiert. Ein Weg zum Zugreifen auf die Information über ein paketorientiertes Datennetz liegt in der Verwendung eines Web-Browsers (wie beispielsweise Netscape Navigator, der von Netscape Communications, Inc., erhältlich ist, und Internet Explorer, der von Microsoft Corp. erhältlich ist), der einem Client ermöglicht, mit den Web-Servern zu interagieren. Web-Server und die darin erhältliche Informationen werden für gewöhnlich durch eine Uniform Resource Locator (URL)-kompatiblen Adresse identifiziert und adressiert. Die URL-Adressierung ist in Internet- und Intranet-Applikationen weit verbreitet und ist den Fachleuten auf dem Gebiet gut bekannt (ein "Intranet" ist ein paket-orientiertes Datennetz, das der Funktion nach auf der Basis von Internet modelliert ist und z. B. durch Unternehmen lokal oder intern verwendet wird).
Was gewünscht ist, ist ein Weg zum Ermöglichen von ASR-Diensten, die Benutzern an einer Stelle wie an ihrem Desktop, der von dem System, das die ASR-Maschine aufnimmt, entfernt liegt, zur Verfügung gestellt werden.
Zusammenfassung der Erfindung
Ein System und ein Verfahren zum Betreiben eines automatischen Spracherkennungsdienstes, unter der Verwendung einer Client-Server-Architektur, wird verwendet, um ASR-Dienste an einer von der Stelle der Haupt-ASR-Maschine entfernten Client-Stelle zugänglich zu machen. In Übereinstimmung mit der vorliegenden Erfindung, wie in den Ansprüchen 1–29 beansprucht, empfängt der ASR-Server mittels Verwendung der Client-Server-Kommunikation über ein paket-orientiertes Datennetz eine Grammatik vom Client, empfängt die Informationen, die die Sprache vom Client darstellt, führt die Spracherkennung durch und gibt die Informationen aufgrund der erkannten Sprache an den Client zurück. Alternative Ausführungsformen der vorliegenden Erfindung schließen eine Reihe an Wegen ein, um den Zugriff auf die gewünschte Grammatik zu erhalten, die Verwendung der Kompressions- oder Merkmalsextraktion als ein Verarbeitungsschritt am ASR-Client vor der Überführung der Sprachinformation an den ASR-Server, die Bereitstellung eines Dialogs zwischen Client und Server und das Betreiben eines Formular-ausfüllenden Dienstes.
Kurze Beschreibung der Zeichnungen
1 ist ein Diagramm, das ein Client-Server-Beziehung für ein System zeigt, das einen entfernten ASR-Dienst in Übereinstimmung mit der vorliegenden Erfindung bereitstellt.
2 ist ein Diagramm, das einen Vorbereitungsvorgang zur Ermöglichung der entfernten ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zeigt.
3 ist ein Diagramm, das einen alternativen Vorbereitungsvorgang zur Ermöglichung der entfernten ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zeigt.
4 ist ein Diagramm, das einen Vorgang für die Regel-Auswahl in Übereinstimmung mit der vorliegenden Erfindung zeigt.
5 ist ein Diagramm, das einen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt.
6 ist ein Diagramm, das einen alternativen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt.
7 ist ein Diagramm, das einen anderen alternativen Vorgang zur Ermöglichung der entfernten automatischen Spracherkennung in Übereinstimmung mit der vorliegenden Erfindung zeigt.
Detaillierte Beschreibung
Die vorliegende Erfindung betrifft ein auf einem Client-Server basiertes System zum Bereitstellen fern-verfügbarer ASR-Dienste. In Übereinstimmung mit der vorliegenden Erfindung können einem Benutzer- z. B. am Desktop des Benutzers – über ein paket-orientiertes Datennetz wie dem Internet ASR-Dienste bereitgestellt werden, ohne dass der Benutzer die Computerhardware erhalten muss, die über die erweiterte Verarbeitungsleistung verfügt, die zum Ausführen der vollständigen ASR-Techniken erforderlich ist.
Eine grundlegende Client-Server-Architektur, die in Übereinstimmung mit der vorliegenden Erfindung verwendet wird, wird in 1 gezeigt. Der ASR-Server 100 ist eine ASR-Softwaremaschine, die auf einem als Server-Knoten 110 bezeichneten System ausgeführt wird, das über ein paket-orientiertes Datennetz 120 (wie Internet) mit anderen Computern verbunden werden kann. Der Server-Knoten 110 kann für gewöhnlich ein Computer sein, dessen Verarbeitungsleistung ausreicht, um komplexe ASR-basierte Appli kationen wie beispielsweise das System WATSON von AT&T auszuführen. Das paket-orientierte Datennetz 120 kann zur Darstellung dass Internet oder Intranet sein.
Der ASR-Client 130 ist ein relativ kleines Programm (verglichen mit dem ASR-Server 100), das am Client PC 140 ausgeführt wird. Der Client-PC 140 ist ein Computer wie beispielsweise ein Personalrechner (PC), der eine genügende Verarbeitungsleistung hat, um Client-Applikationen auszuführen, wie beispielsweise ein Web-Browser. Der Client-PC schließt Hardware wie beispielsweise ein Mikrofon und eine Software für das Eingeben und Erfassen von Audioklängen wie beispielsweise einer Sprache ein. Verfahren zum Anschließen von Mikrofonen an einem PC und zur Erfassung von Audioklängen wie Sprache am PC sind gut bekannt. Beispiele für Sprachbearbeitung für PCs schließen die Sprachapplikation-Programmierschnittstelle (Speech Application Programmer Interface – SAPI) von Microsoft und die forgeschrittene Sprachapplikation-Programmierschnittstelle (Advanced Speech Application Programmer Interface – ASAPI) von AT&T ein. Die Details für die Microsoft-SAPI werden z. B. in einer Veröffentlichung unter dem Titel "Speech API Developers Guide, Windows^TM 95 Edition," Vers. 1.0, Microsoft Corporation (1995) gefunden, und Details der AT&T-ASAPI werden in einer Veröffentlichung unter dem Titel "Advanced Speech API Developers Guide," Vers. 1.0, AT&T Corporation (1996) bereitgestellt. Eine alternative Ausführungsform der vorliegenden Erfindung kann eine Schnittstelle zwischen dem ASR-Client 130 und einem oder mehreren Sprachkanälen verwenden, so dass die Spracheingabe durch andere Audioquellen als einem Mikrofon bereitgestellt werden kann.
Der Client-PC 140 hat auch die Fähigkeit zum Kommunizieren mit anderen Computern über ein paket-orientiertes Datennetz (wie beispielsweise dem Internet). Verfahren zum Aufbau einer Kommunikationsverbindung mit anderen Computern über ein paket-orientiertes Datennetz (wie dem Internet) sind gut bekannt und schließen z. B. die Verwendung eines Modems ein, um über eine Telefonleitung einen Internetdienstprovider anzuwählen.
Der ASR-Server 100 mittels des Server-Knotens 110 und der ASR-Client 130 mittels des Client-PC 140 können über ein paket- orientiertes Datennetz 120 miteinander kommunizieren, indem bekannte Verfahren verwendet werden, die geeignet sind, um eine Information (einschließlich der Übertragung von Daten) über ein paket-orientiertes Datennetz zu kommunizieren, indem z. B. ein Standard-Kommunikationsprotokoll wie beispielsweise eine Transmission Control Protocol/Internet Protocol-(TCP/IP)-Socket-Schnittstelle verwendet wird. Eine TCP/IP-Socket-Schnittstelle ist analog mit einem "Rohr", mittels dem die Information über ein paket-orientiertes Datennetz von einem Punkt zum anderen übertragen werden kann.
Der Aufbau einer TCP/IP-Socket-Schnittstelle zwischen dem ASR-Server 100 und dem ASR-Client 130 wird die Überführung der Daten zwischen dem ASR-Server 100 und dem ASR-Client 130 über das paket-orientierte Datennetz 120 ermöglichen, die erforderlich ist, um entfernte ASR-Dienste in Übereinstimmung mit der vorliegenden Erfindung zu ermöglichen. Der ASR-Client 130 ist auch über eine Schnittstelle mit den Audio/Spracheingabe- und -ausgabeleistungen und Text/Grafik-Anzeige-Mitteln des Client-PC 140. Verfahren und Schnittstellen für die Abwicklung der Eingabe und der Ausgabe von Audio und der Sprache sind gut bekannt, und Text- und Grafikanzeige-Handling-Verfahren und -Schnittstellen sind ebenfalls gut bekannt.
Der ASR-Client 130 kann ausgebildet werden, um auf mehrere Weisen im Client-PC 140 zu laufen. Zum Beispiel kann der Client 130 von einem permanenten Datenspeichermedium wie beispielsweise einer Magnetplatte oder einer CD-ROM auf den Client-PC 140 geladen werden. Alternativ kann der ASR-Client 130 von einer Informations- oder Datenquelle heruntergeladen werden, die über ein paket-orientiertes Datennetz wie dem Internet lokalisierbar ist. Das Herunterladen vom ASR-Client 130 kann z. B. einmal durchgeführt werden, um permanent im Client-PC-140 zu liegen; alternativ kann der ASR-Client 130 für einzelne oder limitierte Verwendungszwecke heruntergeladen werden. Der ASR-Client 130 kann z. B. als ein kleines Plug-In-Software-Modul für ein anderes Programm wie beispielsweise einen Web-Browser implementiert sein, der am Client-PC 140 ausgeführt wird. Ein Weg, dies zu erreichen, liegt darin, aus dem ASR-Client 130 eine Active-X Softwarekomponente gemäß dem Microsoft Active-X Standard zu machen. Auf diese Weise kann der ASR-Client 130 z. B. in Verbindung mit einer Web-Browsing-Sitzung wie folgt in den Client-PC 140 geladen werden: ein Benutzer, der das World Wide Web mittels Verwendung des Client-PC 140 durchbrowst, tritt in eine Web-Seite, die die ASR-Fähigkeit hat; die Web-Seite fragt den Benutzer um Erlaubnis, ein ASR-Client-Modul in Übereinstimmung mit der signierten Active-X Steuerung in den Client-PC 140 herunterzuladen; nach der Autorisierung des Benutzers wird der ASR-Client 130 in den Client-PC 140 heruntergeladen. Auf eine ähnliche Weise kann der ASR-Server 100 ausgebildet sein, um auf besonderer Weise im Server-Knoten 110 zu laufen. Zum Beispiel kann der ASR-Server von einem permanenten Datenspeichermedium wie beispielsweise einer Magnetplatte oder einem CD-ROM auf den Server-Knoten 100 geladen werden, oder alternativ kann der ASR-Server 100 von einer Informations- oder Datenquelle heruntergeladen werden, die über ein paket-orientiertes Datennetz wie Internet lokalisierbar ist.
Weitere Details zum Bereitstellen von entfernten ASR-Diensten in Übereinstimmung mit der vorliegenden Erfindung werden jetzt mit Bezug auf die 2-7 beschrieben. Für die mit Bezug auf jede dieser Figuren folgende Erörterung wird vorausgesetzt, dass das Client-Server-Beziehung wie in 1 gezeigt ist. Eine Initialisierungsphase wird verwendet, um den ASR-Server 100 und den ASR-Client 130 vorzubereiten, damit sie als Teil einer ASR-Applikation eine automatische Spracherkennungsaufgabe durchführen. Zweckdienlich werden Gegenstände, die in 1 gezeigt werden und in anderen Figuren erscheinen, mit denselben Bezugsziffern wie in der 1 gekennzeichnet.
Nimmt man jetzt auf 2 Bezug, wird nun eine Initialisierungsphase in einem Verfahren zur Bereitstellung entfernter ASR-Dienste beschrieben. Im Schritt 201 empfängt der ASR-Client 130 eine Anfrage von der Applikation für das Laden einer Client-Grammatik. Die Client-Grammatik ist zum Zweck der Veranschaulichung eine Datendatei, die eine die Sprache (z. B. Worte und Phrasen) darstellende Information enthält, von der erwartet wird, dass sie in Zusammenhang mit der speziellen ASR-Applika tion gesprochen wird. Die Datendatei kann in einem bekannten Format wie beispielsweise dem Standard Grammatik Format (Standard Grammar Format (SGF)) vorliegen, der Teil der Microsoft SAPI ist.
Um der Veranschaulichung willen wird eine ASR-Applikation zum Annehmen einer Pizza-Bestellung für die Beschreibung der vorliegenden Erfindung verwendet. Eine ASR-Dienst-Applikation wie beispielsweise eine Applikation für eine Pizza-Bestellung würde für gewöhnlich ein Programm einschließen, das mit dem ASR-Client 130 über eine Schnittstelle verbunden ist und ihn als Betriebsmittel verwendet, um die Aufgaben der ASR-Applikation zu erfüllen. Eine solche ASR-Applikation könnte im Ganzen oder zum Teil im Client-PC 140 liegen und ausgeführt werden.
Betrachtet man das Pizza-Bestellungsbeispiel würde die Client-Grammatik PIZZA Informationen einschließen, die Worte einschließt, die man bei der Bestellung einer Pizza verwenden kann, z. B. "Pizza", "Peperoni" usw. Tatsächlich können Unter-Grammatiken verwendet werden, um eine geeignete Grammatik zu errichten. Für das Pizza-Bestellbeispiel schließen Unter-Grammatiken für die Pizza-Grammatik GRÖßE und BELAG ein. Die Unter-Grammatik GRÖßE könnte aus Worten bestehen, die verwendet werden, um die Größe der gewünschten Pizza zu beschreiben, wie beispielsweise "klein", "mittel" und "groß". Die Unter-Grammatik BELAG könnte aus Worten bestehen, die verwendet werden, um die verschiedenen Beläge zu beschreiben, die man mit einer Pizza bestellen kann, z. B. "Wurst", "Peperoni", "Pilze" und dergleichen.
Dem ASR-Client 130 kann die gewünschte Grammatik von der Applikation gegeben werden, oder der ASR-Client 130 kann alternativ die Grammatik aufgrund der von der Applikation bereitgestellten Information aus einem vorbestimmten Satz aussuchen. In beiden Fällen sendet der ASR-Client 130 dann im Schritt 202 die gewünschte Grammatik-Datei über die TCP/IP-Socket-Schnittstelle an den ASR-Server 100. Eine neue TCP/IP-Socket-Schnittstelle kann als Teil der Initialisierung einer neuen Kommunikationssitzung zwischen dem Client-PC 140 und dem Server-Knoten 100 ausgebildet werden müssen, oder die TCP/IP-Socket-Schnitt stelle kann bereits als Ergebnis einer ausgebauten Kommunikationssitzung zwischen dem Client-PC 140 und dem Server-Knoten 110 bestehen, die nicht beendet wurde. In der Pizza-Bestelldarstellung würde der ASR-Client 130 die Übertragung einer die PIZZA-Grammatik enthaltenden Datei über eine TCP/IP-Socket-Schnittstelle an den ASR-Server 100 veranlassen.
Im Schritt 203 empfängt der ASR-Server 100 die vom ASR-Client 130 gesandte Client-Grammatik, und im Schritt 204 lädt der ASR-Server die übertragene Client-Grammatik. Wie hierin verwendet, bedeutet das "Laden" der Client-Grammatik, dass die Grammatik für die Verwendung durch ASR-Server 100 zugänglich ist, z. B. durch das Speichern der Grammatik im RAM des Server-Knotens 110. Im Schritt 205 gibt der ASR-Server 100 ein Grammatik "Handle" an den ASR-Client 130 zurück. Ein Grammatik-"Handle" ist ein Markierer wie beispielsweise ein Zeiger für einen Speicher, der die geladene Grammatik enthält, der es dem ASR-Client ermöglicht, während der übrigen Kommunikationssitzung oder Applikationsausführung auf einfache Weise auf die Grammatik zu verweisen. Der ASR-Client 130 empfängt den Grammatik-Handle vom ASR-Server 100 im Schritt 206 und gibt das Handle im Schritt 207 an die Applikation zurück. Für das Pizza-Bestellbeispiel würde ASR-Server 100 die übertragene PIZZA-Grammatik-Datei empfangen und laden und ein Handle zurück an ASR-Client 130 übertragen, das auf die geladene PIZZA-Grammatik zeigt. Der ASR-Client würde wiederum das PIZZA-Handle vom ASR-Server 100 empfangen und das PIZZA-Handle an die Pizza-Bestellapplikation zurückführen. Auf diese Weise kann die Applikation einfach auf das PIZZA-Handle Bezug nehmen, wenn sie als Teil der Pizza-Bestellapplikation eine ASR-Aufgabe ausführt oder initiiert.
Ein alternativer Initialisierungsversuch wird jetzt mit Bezug auf die 3 beschrieben. Für die übrige Beschreibung hierin wird angenommen, dass die Übertragung oder die Kommunikation der Information oder Daten zwischen dem ASR-Server 100 und dem ASR-Client 130 über eine errichtete TCP/IP-Socket-Schnittstelle stattfindet. Im Schritt 301 empfängt der ASR-Client 130 von der Applikation eine Anfrage, um eine Client-Grammatik zu laden. Eher als das Senden der Client-Grammatik als eine Datendatei an den ASR-Server 100 im Schritt 302, sendet der ASR-Client 130 stattdessen einen Bezeichner, der eine "konservierte" Grammatik darstellt, an den ASR-Server 100; eine "konservierte" Grammatik wäre z. B. eine gewöhnliche Grammatik wie TAGESZEIT oder DATUM, die der ASR-Server 100 bereits gespeichert hätte. Alternativ könnte der ASR-Client 130 an den ASR-Server 100 eine IP-Adresse wie beispielsweise eine URL-kompatible Adresse senden, wo der ASR-Server 100 die gewünschte Grammatik-Datei finden könnte. Der ASR-Server 100 empfängt im Schritt 303 den Grammatik-Bezeichner oder die URL-Grammatik-Adresse vom ASR-Client 130, lokalisiert und lädt die angeforderte Client-Grammatik im Schritt 304 und gibt ein Grammatik-Handle im Schritt 305 an den ASR-Client 130 zurück. Ähnlich wie mit den oben Bezug auf die 2 beschriebenen Schritten empfängt der ASR-Client 130 das Grammatik-Handle im Schritt 306 vom ASR-Server 100 und gibt das Handle im Schritt 307 an die Applikation zurück. Für das Pizza-Bestellbeispiel wären die oben in Verbindung mit der 2 beschriebenen Schritte gleich, wenn man davon absieht, dass der ASR-Client 130 einen Grammatik-Bezeichner für die Pizza-Grammatik (wenn es eine "konservierte" Grammatik wäre) oder eine URL-Adresse für die Stelle einer die PIZZA-Grammatik enthaltenden Datei an den ASR-Server 100 senden; der ASR-Server 100 würde wiederum eine Datei für die Pizza-Grammatik aufgrund des Grammatik-Bezeichners oder der URL-Adresse (wie vom ASR-Client gesendet) abrufen und dann die angeforderte PIZZA-Grammatik laden.
Nachdem die Grammatik geladen und ein Grammatik-Handle an den ASR-Client 130 rückgegeben wurde, muss eine ASR-Dienstapplikation eine zu aktivierende Grammatik-Regel auswählen. 4 zeigt ein Verfahren für die Grammatik-Regel-Auswahl in Übereinstimmung mit der vorliegenden Erfindung. Der ASR-Client 130 empfängt von der Applikation eine Anfrage zur Aktivierung einer Grammatik-Regel im Schritt 401. Im Schritt 402 sendet der ASR-Client eine Regelaktivierungsanfrage an den ASR-Server 100; wie in der 4 gezeigt, kann der ASR-Client 130 auch im Schritt 402 das zuvor rückgegebene Grammatik-Handle (das dem ASR-Server ermöglichen kann, die richtige Grammatik-Regel für die spezielle Grammatik, wie durch das Grammatik-Handle gekennzeichnet, zu aktivieren) an den ASR-Server 100 senden. Der ASR-Server 100 im Schritt 403 empfängt die Regelaktivierungsanfrage und das Grammatik-Handle (falls gesendet). Im Schritt 404 aktiviert der ASR-Server 100 die angeforderte Regel und gibt im Schritt 405 die Benachrichtigung, dass die angeforderte Regel aktiviert wurde, an den ASR-Client 130 zurück. Der ASR-Client 130 empfängt im Schritt 406 die Benachrichtigung der Regelaktivierung und teilt der Applikation im Schritt 407 mit, dass die Regel aktiviert wurde. Hat die Applikation einmal die Benachrichtigung der Regelaktivierung empfangen, dann kann sie mit der Spracherkennung anfangen.
Zu Darstellungszwecken des in 4 gezeigten Verfahrens betrachte man neuerlich das Pizza-Bestellbeispiel. Eine Regel, die verwendet werden kann, um eine Pizzabestellung zu erkennen, kann den gewünschten Ausdruck für eine Bestellung so einstellen, dass er die Unter-Grammatiken GRÖßE und BELÄGE zusammen mit dem Wort "Pizza" einschließt, und dass auf folgende Weise bezeichnet werden könnte: (BESTELLUNG = GRÖßE "Pizza" "mit" BELÄGEN). Wiederum mit Bezug auf die 4, würde der ASR-Client 130 von der Applikation eine Anfrage zur Aktivierung einer Pizza-Bestellregel empfangen und die BESTELL-Regel, wie oben angegeben, zusammen mit dem PIZZA-Grammatik-Handle an den ASR-Server 100 senden. Der ASR-Server empfängt die Regelaktivierungsanfrage zusammen mit dem PIZZA-Grammatik-Handle und aktiviert die BESTELL-Regel, so dass der Erkenner dazu gezwungen würde, Worte aus der GRÖΒE-Unter-Grammatik, das Wort "Pizza", das Wort "mit" und Worte aus der Unter-Grammatik BELÄGE zu erkennen. Nach der Aktivierung der BESTELL-Regel sendet der ASR-Server 100 die Benachrichtigung der Regelaktivierung an den ASR-Client 130, der wiederum die Applikation benachrichtigt.
Wurde eine Grammatik-Regel einmal aktiviert, kann die Sprachverarbeitung zum Zwecke des Erkennens der Worte in der Grammatik gemäß der Regel stattfinden. Nimmt man auf 5 Bezug, empfängt der ASR-Client 130 im Schritt 501 eine Anfrage von der Applikation zum Einleiten einer Spracherkennungsaufgabe. Im Schritt 502 verlangt der ASR-Client 130 ein Streaming-Audio von der Audio-Eingabe des Client-PC 140. Streaming-Audio betrifft ein Audio, das "fliegend" ("on the fly") verarbeitet wird, wenn mehr Audio eingeht; das System wartet nicht auf alle Audioeingaben (d. h. die gesamte Sprache), bevor es das Audio für die digitale Verarbeitung weiter sendet; Streaming-Audio kann auch die Teil-Übertragung eines Teils des Audiosignals betreffen, während zusätzliches Audio eingegeben wird. Darstellend kann eine Anfrage nach einem Streaming-Audio ausgeführt werden, indem ein richtiger Software-Aufruf für das auf dem Client-PC 140 ausführende Betriebssystem gemacht wird, und zwar derart, dass des Streaming-Audio von der Mikrofon-Eingabe durch den Audio-Prozessor des Client-PC 140 digitalisiert wird. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann an den ASR-Client 130 weitergereicht. Der ASR-Client 130 beginnt dann im Schritt 503 mit der Übertragung des digitalisierten Streaming-Audios an den ASR-Server 100; wie die Audio-Eingabe vom Mikrofon wird das digitalisierte Audio selbst dann fliegend ("on the fly") an den ASR-Server 100 übertragen, wenn die Spracheingabe fortgesetzt wird.
Im Schritt 504 führt der ASR-Server 100 die Spracherkennung am digitalisierten Streaming-Audio durch, wenn das Audio vom ASR-Client 130 empfangen wird. Die Spracherkennung wird mittels bekannter Erkennungsalgorithmen wie denen durchgeführt, die von der Spracherkennungsmaschine von AT&T WATSON benutzt werden, und wird innerhalb der Bedingungen der ausgewählten Grammatik, wie von der aktivierten Regel definiert, durchgeführt. Im Schritt 505 gibt der ASR-Server 100 den Streaming-Text (d. h. die teilweise erkannte Sprache) zurück, wenn die Eingabe-Sprache erkannt wird. Wenn der ASR-Server 100 seine anfänglichen Ergebnisse erreicht, gibt er sogar dann diese Ergebnisse an den ASR-Client 130 zurück, wenn der ASR-Server 100 damit fortfährt, das vom ASR-Client 130 übertragene zusätzliche Streaming-Audio zu verarbeiten. Dieser Vorgang zum Zurückgeben des erkannten Textes fliegend ("on the fly"), erlaubt dem ASR-Client 130 (oder der Applikation, die mit dem ASR-Client 130 über eine Schnittstelle verbunden ist), eine Rückmeldung für den Sprecher bereitzustellen. Wenn der ASR-Server 100 fortfährt, das zusätzlich eingegebene Streaming-Audio zu verarbeiten, kann er die Ergebnisse der früheren Spracherkennung derart berichtigen, dass der rückgegebene Text sogar Teile des bereits als Teile der Spracherkennungsaufgabe an den ASR-Client 130 rückgegebenen Texts aktualisiert (oder korrigieren) kann. Wurde einmal das gesamte Streaming-Audio vom ASR-Client 130 empfangen, vervollständigt der ASR-Server seine Spracherkennungsverarbeitung und gibt im Schritt 506 die endgültige Version des erkannten Texts (einschließlich der Korrekturen) zurück.
Im Schritt 507 empfängt der ASR-Client 130 den erkannten Text vom ASR-Server 100 und gibt den Text im Schritt 508 an die Applikation zurück. Wiederum kann dies "on the fly" gemacht werden, wenn der erkannte Text eingeht, und der ASR-Client reicht alle Korrekturen in Bezug auf den vom ASR-Server 100 empfangenen erkannten Text an die Applikation weiter.
Nimmt man auf das Pizza-Bestellbeispiel Bezug, wird der ASR-Client 130, wenn einmal die BESTELL-Regel aktiviert und die Applikation benachrichtigt wurde, eine Anfrage für den Beginn der Spracherkennung empfangen und das Streaming-Audio von der Mikrofon-Eingabe einleiten. Der Sprecher kann aufgefordert werden, die Pizza-Bestellung zu sprechen, und der ASR-Client 130 sendet das digitalisierte Streaming-Audio an den ASR-Server 100, wenn einmal das Sprechen einsetzt. Wenn solchermaßen der Sprecher z. B. angibt, dass er eine "große Pizza mit Wurst und Peperoni" bestellen will, wird der ASR-Client 130 sogar das digitalisierte Streaming-Audio für das erste Wort der Bestellung an den ASR-Server 100 weiter übertragen, während das zweite Wort gesprochen wird. Der ASR-Server 100 wird, während die Bestellung gesprochen wird, das erste Wort im Text "groß" zurückgeben, während der Rest der Bestellung gesprochen wird. Schließlich kann, wenn der Sprecher einmal mit dem Sprechen aufhört, der endgültige erkannte Text für die Bestellung an den ASR-Client 130 und daher an die Applikation rückgegeben werden.
Eine alternative Ausführungsform zum Durchführen des Spracherkennungsverfahrens in Übereinstimmung mit der vorliegenden Erfindung wird in 6 gezeigt. Ähnlich wie im in 5 gezeigten Spracherkennungsverfahren empfängt der ASR-Client 130 im Schritt 601 eine Anfrage von der Applikation, um eine Spracherkennungsaufgabe einzuleiten, und im Schritt 602 verlangt der ASR-Client 130 das Streaming-Audio von der Audio-Eingabe des Client-PC 140. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann an den ASR-Client 130 weitergereicht. Im Schritt 603 komprimiert der ASR-Client 130 das digitalisierte Audio "on the fly" und beginnt dann mit der Übertragung des komprimierten, digitalisierten Streaming-Audios an den ASR-Server 100, während die Spracheingabe fortgesetzt wird.
Im Schritt 604 dekomprimiert der ASR-Server 100 das vom ASR-Client 130 empfangene komprimierte Audio, bevor die Spracherkennung am digitalisierten Streaming-Audio durchgeführt wird. Wie oben mit Bezug auf die 5 beschrieben, wird die Spracherkennung innerhalb der Bedingungen der ausgewählten Grammatik, wie durch die aktivierte Regel definiert, durchgeführt. Im Schritt 605 gibt der ASR-Server 100 den Streaming-Text (d. h. die teilweise erkannte Sprache) zurück, wenn die Eingabe-Sprache erkannt wird. Solchermaßen gibt der ASR-Server 100 selbst dann die anfänglichen Ergebnisse an den ASR-Client 130 zurück, wenn der ASR-Server 100 fortfährt, das vom ASR-Client 130 gesandte zusätzliche komprimierte Streaming-Audio zu verarbeiten, und kann Teile des Texts, die als Teil der Spracherkennungsaufgabe bereits an den ASR-Client rückgegeben wurden, aktualisieren oder berichtigen. Wurde einmal das gesamte Streaming-Audio vom ASR-Client 130 empfangen, beendet der ASR-Server seine Spracherkennungsverarbeitung und gibt im Schritt 606 eine endgültige Version des erkannten Texts (einschließlich der Korrekturen) zurück. Der ASR-Client 130 empfängt den erkannten Text vom ASR-Server 100 im Schritt 607, wenn er eingeht, und gibt den Text im Schritt 608 an die Applikation zurück.
Eine andere alternative Ausführungsform zum Durchführen des Spracherkennungsverfahrens in Übereinstimmung mit der vorliegenden Erfindung wird in 7 gezeigt. Ähnlich wie mit dem in den 5 und 6 gezeigten Spracherkennungsverfahren, empfängt der ASR-Client 130 im Schritt 701 eine Anfrage von der Applikation, um eine Spracherkennungsaufgabe einzuleiten, und fordert ein Streaming-Audio von der Audio-Eingabe des Client-PC 140. Das von der Mikrofon-Eingabe digitalisierte Streaming-Audio wird dann weiter an den ASR-Client 130 gereicht. Im Schritt 703 verarbeitet der ASR-Client 130 das digitalisierte Audio "on the fly", um die für die Spracherkennungsverarbeitung nützlichen Merkmale zu extrahieren, und beginnt dann mit der Übertragung der extrahierten Merkmale an den Server 100, während die Spracheingabe fortgesetzt wird. Die Extraktion der wichtigen Merkmale von der Sprache beinhaltet die von der Grammatik unabhängige Verarbeitung, die für gewöhnlich ein Teil der für die Spracherkennung benutzten Algorithmen ist, und kann mittels der Verwendung von Verfahren gemacht werden, die den Fachleuten auf dem Gebiet bekannt sind, wie beispielsweise jene, denen die auf der linearen Prädiktionsodierung (LPC) oder Mel-Filterbank-Verarbeitung basieren. Die Merkmalsextraktion sorgt für eine Information, die aus den Merkmalen der Stimmsignale erhalten werden, während die unnötige Information wie das Volumen beseitigt wird.
Beim Empfangen der extrahierten Merkmale vom ASR-Client 130, führt der ASR-Server 100 im Schritt 704 die Spracherkennung an den ankommenden Merkmalen durch, die "on the fly" ankommen (d. h. auf eine mit dem Streaming-Audio analoge Weise). Die Spracherkennung wird innerhalb Randbedingungen der ausgewählten Grammatik, wie durch die aktivierte Regel definiert, durchgeführt. Wie im Fall der oben mit Bezug auf die 5 und 6 erörterten Ausführungsformen, gibt der ASR-Server 100 im Schritt 705 den Streaming-Text (d. h. die teilweise erkannte Sprache) an den ASR-Client 130 zurück, wenn die eingegebenen Merkmale erkannt sind. Der ASR-Server 100 fährt fort, die vom ASR-Client 130 übertragenen zusätzlichen extrahierten Merkmale zu verarbeiten, und kann die Teile des bereit an den ASR-Client 130 rückgegebenen Textes aktualisieren und berichtigen. Der ASR-Server beendet seine Spracherkennungsverarbeitung beim Empfang aller extrahierten Merkmale vom ASR-Client 130 und gibt im Schritt 706 eine endgültige Version des erkannten Textes (einschließlich der Korrekturen) zurück. Der ASR-Client 130 empfängt im Schritt 707 den erkannten Text vom ASR-Server 100, wenn er eingeht, und gibt den Text im Schritt 708 an die Applikation zurück.
Die oben mit Bezug auf die 6 und 7 beschriebenen alternativen Ausführungsformen sorgen jeweils für die zusätzliche Verarbeitung am Client-Ende. Für die Ausführungsform in der 6 beinhaltet dies die Komprimierung des Streaming-Audios (mit der Audio-Dekomprimierung am Serverende); für die Ausführungsform in 7 schloss dies den Teil der Spracherkennungsverarbeitung in Form der Merkmalsextraktion ein. Die Verwendung dieser zusätzlichen Verarbeitung am Client-Ende reduziert in signifikantem Maße die vom ASR-Client 130 an den ASR-Server 100 übertragene Datenmenge. Solchermaßen werden weniger Daten benötigt, um die übertragenen Sprachsignale darzustellen. Wo die Merkmalsextraktion am Client-Ende ausgeführt wird, erhöhen sich solche Vorteile möglicherweise sehr, da die extrahierten Merkmale (im Gegensatz zu digitalisierten Stimmsignalen) weniger Daten benötigen und während der Schweigeperioden keine Merkmale übertragen werden müssen. Die Reduzierung der Daten erzeugt einen gewünschten doppelten Vorteil: (1) sie erlaubt eine Reduzierung in der Bandbreite, die zum Erreichen eines gewissen Leistungsgrads erforderlich ist, und (2) sie reduziert die Übertragungszeit für das Senden der Sprachdaten vom ASR-Client mittels der TCP/IP-Socket-Schnittstelle an den ASR-Server.
Während für gewöhnlich vor dem Beginn der Übertragung einer Sprachinformation vom ASR-Client 130 an den ASR-Server 100 eine Grammatik-Regel aktiviert werden wird, könnte die Regelaktivierung stattfinden, nachdem ein Teil oder die gesamte zu erkennende Sprachinformation vom ASR-Client 130 an den ASR-Server 100 übertragen wurde. Unter diesen Umständen würde der ASR-Server 100 nicht mit den Spracherkennungsversuchen beginnen, bis eine Grammatik-Regel aktiviert wurde. Die vor der Aktivierung einer Grammatik-Regel durch den ASR Client 130 übertragene Sprache könnte zeitweilig vom ASR-Server 100 gespeichert werden, um vom Erkenner verarbeitet zu werden; oder alternativ könnte diese Sprache ignoriert werden.
Weiterhin können die mehreren Spracherkennungsaufgaben mittels Verwendung der Techniken der vorliegenden Erfindung ausgeführt werden. Zum Beispiel könnte eine ASR-Applikation vom ASR-Client 130 anfordern, den ASR-Server 100 einzuweisen, eine kon servierte Grammatik für eine Telefonnummer (d. h. "TELEFONNUMMER") zu laden und dann die Aktivierung einer die gesprochenen Nummern abdeckenden Regel anzufordern. Nachdem eine Telefonnummer gesprochen und in Übereinstimmung mit der vorliegenden Erfindung erkannt ist (z. B. als Reaktion auf eine Aufforderung zum Sprechen der Telefonnummer, sendet der ASR-Client 130 digitalisierte gesprochene Nummer zur Erkennung an den ASR-Server 100), könnte die ASR-Applikation dann den ASR-Client 130 auffordern, die Erkennung der Pizza-Bestellsprache (z. B. laden der Pizza-Grammatik, aktivieren der BESTELL-Regel und beginnen der Spracherkennung) in Übereinstimmung mit den oben mit Bezug auf die 2–5 beschriebenen Beispielen zu initialisieren und einzuleiten.
Zusätzlich zum oben zur Veranschaulichung verwendeten einfachen Pizza-Bestellbeispiel, kann über ein paket-orientiertes Datennetz in Übereinstimmung mit der vorliegenden Erfindung ein weiter Bereich an möglichen ASR-Diensten bereitgestellt werden. Ein Beispiel für eine von der vorliegenden Erfindung ermöglichte ASR-Applikation ist ein Formular-ausfüllender Dienst zum Ausfüllen eines Formulars als Reaktion auf gesprochene Antworten zu einer Information, die für jede der Reihe an Leerstellen in der Form verlangt wird. In Übereinstimmung mit der vorliegenden Erfindung kann ein Formular-ausfüllender Dienst implementiert werden, worin der ASR-Client 130 Grammatiken, die die möglichen Auswahlen für jede der Leerstellen darstellen, an den ASR-Server 100 sendet. Für jede Leerstelle verlangt der ASR-Client 130 die Aktivierung der richtigen Grammatik-Regel und sendet eine entsprechende gesprochene Antwort, die als Anfrage nach einer Information, die zum AUsfüllen der Leerstelle erforderlich ist, gegeben wird. Der ASR-Server 100 legt in Übereinstimmung mit der ausgewählten Grammatik und Regel einen passenden Spracherkennungsalgorithmus an und gibt den in das Formular einzufügenden Text zurück.
Andere ASR-Dienste können einen Informationsaustausch (z. B. einen Dialog) zwischen dem Server und dem Client beinhalten. Zum Beispiel kann eine ASR-Dienst-Applikation zur Abwicklung von Flugreservierungen in Übereinstimmung mit der wie hierin be schriebenen vorliegenden Erfindung einen Dialog zwischen dem ASR-Server 100 und dem ASR-Client 130 verwenden, um die ASR-Aufgabe auszuführen. Ein Dialog kann wie folgt ablaufen:
Der Sprecher (mittels des ASR-Clients 130 an den ASR-Server 100): "Ich will einen Flug nach Los Angeles."
Die Antwort des ASR-Servers an den ASR-Client (in Form eines Textes oder alternativ als vom ASR-Server 100 an den ASR-Client 130 rückgegebene Sprache):
"Von welcher Stadt werden sie abfliegen ?"
Sprecher (mittels ASR-Client an ASR-Server):
"Washington, DC."
ASR-Serverantwort an ASR-Client:
"An welchem Tag möchten sie abfliegen ?"
Sprecher (ASR-Client an ASR-Server):
"Dienstag."
ASR-Serverantwort an ASR-Client:
"Um wie viel Uhr wollen sie abfliegen ?"
Sprecher (ASR-Client an ASR-Server):
"Um 4 Uhr nachmittags."
ASR-Serverantwort an den ASR-Client:
"Ich kann Sie auf den Flug 4567 der XYZ-Fluggesellschaft von Washington, DC nach Los Angeles am Dienstag um 4 Uhr nachmittags einbuchen. Wollen Sie einen Platz in diesem Flug reservieren ?"
In diesem Fall ist die vom ASR-Server 110 empfangene Information nicht wortgetreu der Text von der erkannten Sprache, jedoch die Information aufgrund der erkannten Sprache (die von der Applikation abhängen würde). Jeder Teil des Dialogs kann in Übereinstimmung mit dem oben beschriebenen ASR-Client-Server-Verfahren ausgeführt werden. Wie aus diesem Beispiel beobachtet werden kann, benötigt eine solche ASR-Dienst-Applikation vom ASR-Client und vom ASR-Server nicht nur die Fähigkeit zur Abwicklung von natürlichen Sprache, sondern auch das Zugreifen auf eine große Datenbank, die konstant wechselt. Um dies zu erfüllen, kann es wünschenswert sein, dass die ASR-Dienst-Applikation eigentlich eher im Server-Knoten 110 als im Client-PC 140 installiert wird und ausführt. Der Client-PC 140 würde in diesem Fall bloß ein relativ kleines "Agent"-Programm ausführen müssen, das – bei der Steuerung des am Server-Knoten 110 ablaufenden Applikationsprogramms – den ASR-Client 130 initiiert und die Spracheingabe mittels des ASR-Clients 130 weiter an den ASR-Server 100 leitet. Ein Beispiel für ein solches "Agent"-Programm kann z. B. eines sein, das einen "sprechenden Kopf" auf den Bildschirm des Client-PC 140 setzt, um die Interaktion mit einem Individuum zu unterstützen, das die ASR-Dienst-Applikation am Client-PC 140 verwendet, und um durch den ASR-Client 130 und den ASR-Server 100 die Sprachinformation der Person zur Erkennung weiter an den ASR-Server 100 sendet.
Zusammengefasst sorgt die vorliegende Erfindung für einen Weg zur Bereitstellung von ASR-Diensten, die Benutzern über ein paket-orientiertes Datennetz wie das Internet zur Verfügung gestellt werden können, und zwar an einer Stelle, die entfernt von einem eine ASR-Maschine aufnehmenden System liegt, das eine Client-Server-Architektur verwendet.
Das Beschriebene dient bloß zur Darstellung der Applikation der Grundsätze der vorliegenden Erfindung. Andere Anordnungen und Verfahren können von den Fachleuten auf dem Gebiet implementiert werden, ohne sich vom Schutzumfang der vorliegenden Erfindung, wie durch die anliegenden Ansprüche definiert, zu lösen.
Wenn technische Merkmale in den Ansprüchen mit Bezugszeichen versehen sind, so sind diese Bezugszeichen lediglich zum besseren Verständnis der Ansprüche vorhanden und dementsprechend stellen solche Bezugszeichen keine Einschränkungen des Schutzumfangs solcher Elemente dar, die nur exemplarisch durch solche Bezugszeichen gekennzeichnet sind.

Claims

Ein Verfahren zum Betreiben eines automatischen Spracherkennungsdienstes, auf den durch einen Client über ein paketorientierte Datennetz zugegriffen werden kann, das die folgenden Schritte umfasst: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, den Schritt des Erhaltens des Zugriffs auf eine Grammatik umfasst, die sich an der entsprechenden Grammatik-Adresse befindet.
Das Verfahren nach Anspruch 2 oder das System nach Anspruch 13 oder der Herstellungsgegenstand nach Anspruch 21, worin die Adresse, die der Stelle einer Grammatik entspricht, eine Uniform-Resouce-Locator-kompatible Adresse ist.
Das Verfahren nach den Ansprüchen 1 oder 28 oder das System nach Anspruch 12 oder der Herstellungsgegenstand nach Anspruch 20, worin die Information, die die Sprache darstellt, vom Client durch Streaming eingeht; oder worin die Information, die die vom Client empfangene Sprache darstellt, eine digitalisierte Sprache umfasst; oder worin die Information, die die vom Client empfangene Sprache darstellt, eine komprimierte digitalisierte Sprache umfasst; oder worin die Information, die die vom Client empfangene Sprache darstellt, Merkmale umfasst, die vom Client aus der digitalisierten Sprache extrahiert werden.
Das Verfahren nach Anspruch 1, worin der Schritt zum Erkennen der empfangenen Sprachinformation wiederholt wird, wenn neue Sprachinformation vom Client empfangen wird.
Das Verfahren nach den Ansprüchen 1 oder 9 oder das System nach den Ansprüchen 12 oder 17 oder der Herstellungsgegenstand nach den Ansprüchen 20 oder 25, worin die Information aufgrund der erkannten Sprache Textinformation umfasst; oder worin die Information aufgrund der erkannten Sprache eine zusätzliche Sprache umfasst.
Das Verfahren nach Anspruch 1, worin der Schritt zum Senden von Information aufgrund der erkannten Sprache wiederholt wird, wenn zusätzliche Sprachinformation erkannt wird.
Das Verfahren nach Anspruch 7, das weiterhin den Schritt von Senden an den Client einer überarbeiteten Information umfasst, und zwar aufgrund der zuvor an den Client gesandten erkannten Sprache.
Das Verfahren nach Anspruch 1, worin die Schritte b, c und d wiederholt werden, um einen Informationsaustausch zwischen dem Client und dem Server zu erzeugen.
Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin den Schritt zum Aktivieren einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage umfasst.
Das Verfahren nach den Ansprüchen 1 oder 28, das weiterhin den Schritt des Sendens eines Handles über das paket-orientierte Datennetz an den Client umfasst, das der Grammatik entspricht.
Ein System zum Betreiben eines automatischen Spracherkennungsdienstes, dadurch gekennzeichnet, dass der Dienst über ein paket-orientiertes Datennetz durch einen Client zugänglich ist, wobei das System folgendes umfasst: a. einen programmierbaren Prozessor; b. einen Speicher; c. eine Audio-Eingabe-Vorrichtung; und d. eine Kommunikationsschnittstelle zum Aufbau einer Kommunikationsverbindung mit dem Client über das paket-orientierte Datennetz; und wobei der Prozessor programmiert ist, um folgende Schritte auszuführen: i. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; ii. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; iii. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und iv. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt auszuführen, dass, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, der Zugriff auf eine Grammatik erhalten wird, die sich an der entsprechenden Grammatik-Adresse befindet.
Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert wird, um den Schritt zum Erkennen der empfangenen Sprachinformation zu wiederholen, wenn vom Client eine neue Sprachinformation empfangen wird.
Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden der Information aufgrund der erkannten Sprache zu wiederholen, wenn eine zusätzliche Sprachinformation erkannt wird.
Das System nach Anspruch 15, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden an den Client einer überarbeiteten Information auszuführen, und zwar aufgrund einer zuvor an den Client gesandten erkannten Sprache.
Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um die Schritte von ii, iii und iv zu wiederholen, um einen Informationsaustausch zwischen Client und Server zu erzeugen.
Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zur Aktivierung einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage auszuführen.
Das System nach Anspruch 12, worin der Prozessor weiterhin programmiert ist, um den Schritt zum Senden über das paket-orientierte Datennetz an den Client eines der Grammatik entsprechenden Handles auszuführen.
Ein Herstellungsgegenstand, der ein Computer-lesbares Medium umfasst, dadurch gekennzeichnet, dass das Computerlesbare Medium darauf Anweisungen zum Betreiben eines automatischen Spracherkennungsdienstes gespeichert hat, auf den ein Client über ein paket-orientiertes Datennetz zugreifen kann, wobei die Anweisungen, wenn sie von einem Prozessor durchgeführt werden, bewirken, dass der Prozessor eine Reihe von Schritten ausführt, die folgendes umfassen: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden von Information aufgrund der erkannten Sprache über das paket-orientierte Datennetz an den Client.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, den Schritt auszuführen, dass, wenn die Information, die einer Grammatik entspricht, eine Adresse ist, die der Stelle einer Grammatik entspricht, der Zugriff auf eine Grammatik erhalten wird, die sich an der entsprechenden Grammatik-Adresse befindet.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Erkennen der empfangenen Sprachinformation wiederholt wird, wenn vom Client eine neue Sprachinformation empfangen wird.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Senden der Information aufgrund der erkannten Sprache wiederholt wird, wenn eine zusätzliche Sprachinformation erkannt wird.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zum Senden an den Client der überarbeiteten Information ausgeführt wird, und zwar aufgrund der zuvor an den Client gesandten erkannten Sprache.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass die Schritte von b, c und d wiederholt werden, um einen Informationsaustausch zwischen Client und Server zu erzeugen.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin den Prozessor veranlassen, dass der Schritt zur Aktivierung einer Grammatik-Regel als Reaktion auf eine vom Client über das paket-orientierte Datennetz empfangene Anfrage ausführt wird.
Der Herstellungsgegenstand nach Anspruch 20, worin die Anweisungen, wenn von einem Prozessor durchgeführt, weiterhin veranlassen, dass der Prozessor den Schritt zum Senden eines der Grammatik entsprechenden Handles über das paket-orientierte Datennetz an den Client ausführt.
Ein Verfahren zum Betreiben eines automatischen Formularfüllenden Dienstes für das Ausfüllen eines Formulars als Reaktion auf gesprochene Antworten zu einer Information, die für jede einer Reihe an Leerstellen in dem Formular verlangt werden, wobei der automatische Formular-füllende Dienst über ein paket-orientiertes Datennetz von einem Client zugänglich ist, wobei das Verfahren die folgenden Schritte umfasst: a. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die einer für die Spracherkennung verwendeten Grammatik entspricht, worin die Grammatik Worten entspricht, die mit der in dem Formular einzufügenden Textinformation verknüpft sind; b. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt ; c. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der Grammatik; und d. das Senden eines Textes, der der erkannten Sprache entspricht, über das paket-orientierte Datennetz an den Client zur Einfügung in das Formular.
Ein Verfahren zum Betreiben eines Sprach-zu-Text-Dienstes, der für einen Client über ein paket-orientiertes Datennetz fernzugänglich ist, wobei das Verfahren folgendes umfasst: a. das Empfangen vom Client über das paket-orientiertes Datennetz eines Grammatik-Bezeichners, der mit einer einer Vielzahl von Grammatiken verknüpft ist; b. das Auswählen einer Grammatik aus der Vielzahl von Grammatiken aufgrund des Grammatik-Bezeichners; c. das Empfangen vom Client über das paket-orientierte Datennetz von Information, die die Sprache darstellt; d. das Erkennen der empfangenen Sprachinformation durch das Anlegen eines automatischen Spracherkennungsalgorithmus in Übereinstimmung mit der ausgewählten Grammatik; e. das Erzeugen von Sprache als Reaktion auf die erkannte Sprache; und f. das Übertragen der erzeugten Sprache über das paket-orientierte Datennetz an den Client.