DE60117376T2

DE60117376T2 - System und verfahren zur spracherkennung bei einem drahtgebundenen knoten eines netzes für kabelfernsehen und/oder videoverteilung

Info

Publication number: DE60117376T2
Application number: DE60117376T
Authority: DE
Inventors: Theodore San Carlos CALDERONE; M. Paul Woodside COOK; J. Mark Palo Alto FOSTER
Original assignee: AGILE TV CORP MENLO PARK; Agile TV Corp
Current assignee: AGILE TV CORP MENLO PARK; Agile TV Corp
Priority date: 2000-06-08
Filing date: 2001-05-07
Publication date: 2006-10-19
Anticipated expiration: 2021-05-08
Also published as: EP1290889A1; ATE318482T1; US7047196B2; USRE44326E1; US20010056350A1; DE60117376D1; US20060080106A1; WO2001095625A1; AU2001261257A1; US7685523B2; EP1290889B1

Description

Hintergrund der Erfindung
Technisches Feld
Diese Erfindung betrifft die Spracherkennung, die in der Nähe eines Leitungs-Knotens eines Netzwerks durchgeführt wird, das Kabelfernsehen und/oder Video-Verteildienste unterstützt.
Technische Grundlagen
Zurzeit sind sprachgesteuerte Funktionen, bei denen die neuesten Erkennungs-Technologien angewendet werden, auf einige wenige Anwendungen begrenzt, wie z.B. Spielzeug, Geräte, einige Computer, Diktiergeräte, Mobiltelefone und Sprachsteuerungen im Haushalt. Bei den meisten dieser Anwendungen wird die Spracherkennungs-Technologie, die auf einem Computer läuft, oder die Spracherkennungs-Chip-Technologie verwendet. Diese Spracherkennungs-Systeme bieten typischerweise nur eine begrenzte Zahl von Befehlen, und die Erkennungs-Effizienz ist nur mittelmäßig, und oft ist ein Sprach-Training erforderlich.
Es wurde eine Vielzahl von Patenten bezüglich der Spracherkennung erteilt. Viele gelten im Zusammenhang von Fernsprechsystemen oder im Zusammenhang mit anderen Wählverbindungen, wie z.B. für Geldautomaten, einschließlich der folgenden: Rabin, Voice command control and verification system, U.S. Patent No. 6,081,782, erteilt am 27. Juni 2000, Bascore, et al, Voice activated device and method for providing access to remotely retrieved data, U.S. Patent No. 5,752,232, erteilt am 12. Mai 1998, und Kowalkowski et al, Voice-control integrated field support data communications system for maintenance, repair and emergency services, U.S. Patent No. 5,924,069, erteilt am 13. Juli 1999.
Es gibt jedoch auch noch eine andere Klasse der Spracherkennungs-Technologie, die mit natürlicher Sprache bezeichnet wird und die Verarbeitungs-Software nach dem neuesten Stand der Technik und Hunderte von Megabytes RAM-Speicher zur Unterstützung erfordert. Die Spracherkennung von natürlicher Sprache wird zur Zeit in High-End-Systemen eingesetzt, wie in Rechnungserstellungs-Anwendungen für Stadtwerke und an der Börse in New York, da mit ihr gesprochene Worte in jeder Sprache erkannt werden können. Von manchen Systemen für natürliche Sprache wird behauptet, dass sie völlig benutzerunabhängig sind und auch Sprache in mehreren unterschiedlichen Sprachen erkennen können.
Die Probleme der Spracherkennung in einem zentralisierten Leitungs-Knoten in einem Netzwerk, das Videodienste oder Kabelfernseh-Dienste unterstützt, wurden jedoch durch die bisherige Technik nicht behandelt. Zum Zweck der hier gegebenen Beschreibung bezeichnet ein zentralisierter Leitungs-Knoten einen Netzwerkknoten, der Video- oder Kabelfernseh-Dienste für mehrere Teilnehmer bereitstellt, wozu eine physikalische Übertragung über Leitungen zwischen den Teilnehmern an dem Knoten verwendet wird.
1 zeigt ein typisches Netzwerk, wie man es in einem Kabelfernseh- und/oder Video-Verteilnetz findet, bei dem eine HFC-(Hybrid Fiber-Coaxial)-Verdrahtung verwendet wird, wie nach dem bisherigen Stand der Technik bekannt.
Jeder Teilnehmerstandort verfügt über eine Set-Top-Box, wie STB 180, die mit dem Netzwerk über ein Koaxialkabel 172 verbunden ist, das eine Schnittstelle 170 zu einem gemeinsamen Koaxialkabel 160 hat, das an einem Kno ten 126 angeschlossen ist. Die Schnittstelle 170 kann eine bidirektionale Signalverstärkung enthalten und möglicherweise weiterhin die Filterung und/oder Frequenzverschiebung dieser Signale enthalten.
Der Knoten 126 ist hierarchisch mit einer Kopfstation 104 gekoppelt 128, die in den meisten Kabelfernsehnetzen als Quelle der Fernseh-Programmierung und weiterer Signalisierung dient. Die Signale werden durch den Knoten 126 und die Kopplungen 160-170-172 gesendet, um die Fernseh-Signalisierung an die STB 180 und andere zu liefern. In bestimmten großen Städten und in Großstädten kann eine weitere hierarchische Ebene vorhanden sein, welche eine Stadt-Kopfstation 10 enthält, die mit der Kopfstation 104 gekoppelt 106 ist. Für diese höheren Ebenen des Netzwerks werden für die physikalische Übertragung über die Kopplungen 102, 106 und 108, sowie für 122, 126 und 128 optische Fasern verwendet.
Die Kopplungen zwischen STB 180 und Knoten 126 unterstützen die bidirektionale Kommunikation. Die Kopplungen zwischen STB 180, Knoten 126 und Kopfstation 104 können auch die bidirektionale Kommunikation unterstützen. Eine solche bidirektionale Kommunikation erlaubt es der STB 180, mehrere Fernsehkanäle zu empfangen. Die bidirektionale Kommunikation erlaubt es der STB 180, mindestens beschränkte Informationen zum Knoten 126 und/oder zur Kopfstation 104 zu signalisieren. Solche Informationen können in jedem Fall die Verwaltung von Pay-per-View und anderen Diensten unterstützen.
Gebührenerfassungs-Informationen für den Teilnehmerstandort befinden sich normalerweise auf der höchsten Ebene des Netzwerks, die entweder die Kopfstation 104 oder die Stadt-Kopfstation 10 ist.
In Kabelsystemen werden mehrere Downstream-Datenkanäle, die Kanal- und Synchronisations-Informationen senden, oft in einem vorher reservierten Frequenzband übertragen. Sie werden in den Vereinigten Staaten typischer weise für die Neu-Übertragung von FM-Kanälen über Kabel zugeordnet. Zurzeit wird in den meisten Kabelsystemen ein Teil des FM-Spektrums von 88 bis 108 MHz für die Datenübertragung der Set-Top-Boxen reserviert. Der unbenutzte Teil des Spektrums wird für Barker-Channels (Werbe-Kanäle) oder für weitere Videokanäle gelassen. Der Open Cable Standard erfordert, dass das Band von 70 bis 130 MHz für das zur Verfügung steht, was Außerband-(Out-of-Band, OOB) oder Downstream-Übertragung genannt wird.
Bei den meisten derzeitigen Kabelsystemen wird die weit verbreitete HFC-Architektur verwendet, so dass die Downstream-Videosignale, digital oder analog, von der Kopfstation über Kabel mit optischen Fasern zu Hubs oder Knoten gesendet werden. Auf der Empfangsseite des Knotens wird das optische Signal der Faser in ein elektrisches Signal gewandelt, das alle analogen und digitalen Video-HF-Träger und die Programm-/Dienst-Information enthält. Dieses Signal wiederum wird verstärkt und über Koaxialkabel an die entsprechenden Teilnehmer verteilt, die an den Knoten angeschlossen sind.
Ein wesentliches Design-Ziel für vorhandene Kabelfernseh-Set-Top-Boxen war eine effiziente Downstream-Informationslieferung, d.h. von der Kabelanlage zum Teilnehmer. Die Bereitstellung für die Upstream-Datenübertragung, d.h. vom Teilnehmer zur Kabelanlage hat viel mehr Einschränkungen und unterstützt nur eine begrenzte Bandbreite. Da neue Klassen von interaktiven Diensten verfügbar werden, gewinnt eine effiziente Ausnutzung der Upstream-Übertragungs-Bandbreite an Bedeutung. Wenn es zum Beispiel erforderlich ist, Sprachinformationen vom Teilnehmer zur Kabel-Kopfstation (auch als Kopfstation bekannt) zu übertragen, muss ausreichend Upstream-Bandbreite zur Verfügung gestellt werden.
Eine der bekanntesten Set-Top-Boxen, die DCT-2000 von General Instruments (jetzt Motorola), ist ein nützliches Beispiel. Als diese Box zuerst eingesetzt wurde, waren Upstream-Übertragungen auf Pay-per-View-Anforderungen der Teilnehmer und andere, einfache, seltene Übertragungen beschränkt. Als Folge davon war es nicht erforderlich, dass das für Upstream-Übertragungen benutzte Format sehr effizient war, und in der Tat ist es dies nicht.
In dieser Set-Top-Box ist die Hardware in der Lage, zwanzig verschiedene Kanäle mit 256 kBit/s auszuwählen, wobei jeder davon die QPSK-Übertragungs-Codierung benutzt. Obwohl die Hardware in der Lage ist, Frequenzsprünge durchzuführen, um Kanäle zu vermeiden, die Störungen ausgesetzt sind, ist das benutzte Verfahren ziemlich statisch, wobei bei typischen Installationen nur zwei aktive Upstream-Kanäle benutzt werden. Dies führt zu einer Gesamt-Bandbreite von nur 512 kBit/s pro Gruppe von Set-Top-Boxen, die gemäß den Kabelfernseh-Begriffen im Netzwerk zu einem Knoten zusammenlaufen. Der Kabel-Knoten unterstützt typischerweise zwischen 500 und 2000 Teilnehmer.
Upstream-Signale im 5- bis 40-MHz-Band von jedem mit dem Knoten verbundenen Teilnehmer werden gesammelt, zusammengefasst, und dann entweder über dieselbe Faser, die für die Downstream-Video-Träger benutzt wird, oder über eine getrennte Faser zur Kopfstation gesendet.
Weiterhin ist das verwendete Übertragungs-Steuerungs-Protokoll, das als Aloha bezeichnet wird, ein Protokoll, bei dem eine einzelne Set-Top-Box sofort jede anstehende Anforderung zur Kopfstation sendet, ohne zu berücksichtigen, ob der Übertragungskanal bereits benutzt wird oder nicht. Diese Übertragung wird in regelmäßigen Zeitabständen wiederholt, bis die Box einen Quittungs-Befehl von der Kopfstation empfängt, der einen erfolgreichen Empfang der Übertragung anzeigt.
Das Übertragungs-Steuerungs-Protokoll ist recht ineffizient, da zahlreiche Kollisionen auftreten, z.B. gleichzeitige Übertragungen von verschiedenen Set-Top-Boxen, die sich gegenseitig stören und alle Sender zwingen, ihre Übertragungen zu wiederholen. Dies führt zu einer typischen Kanal- Ausnutzung von nur 30%. Als Folge davon beträgt die Gesamt-Bandbreite, die pro Knoten für die Upstream-Übertragung zur Verfügung steht, im Durchschnitt nur ungefähr 30% von 512 kBit/s = 137 kBit/s.
Die Downstream-Übertragung von Steuerungs-Daten erfolgt typischerweise in einem von den Upstream-Kanälen getrenntem Frequenzband.
Typischerweise wird in HFC-Netzwerken von einer Vermittlungsstelle oder Kopfstation zu einem benachbarten Knoten eine optische Faser verwendet. Auf der Faser kann in Vorwärts- und in Rückwärtsrichtung gesendet werden, alternativ können die Richtungen auf getrennten Fasern untergebracht werden. Um beide Richtungen auf einer einzigen Faser zu implementieren, kann Wellenlängen-Multiplex (WDM) verwendet werden. Am Knoten werden die Teilnehmer über Koaxialkabel angeschlossen, auf dem ein gemeinsames Frequenzmultiplex-Verfahren (FDM) mit Blockierungsauflösungs-Protokollen verwendet wird, um die Upstream-Datenflüsse zu verwalten.
Solche Kommunikationsverfahren, die sowohl Vorwärts- als auch Rückwärts-Pfade haben, und die einen Teilnehmer einbeziehen können oder nicht, werden hier als Schleifen bezeichnet. Ein Beispiel für eine Schleife ist die Kommunikation zwischen Kopfstation 104 und Knoten 126. Kommunikationsverfahren, die sowohl Vorwärts-, als auch Rückwärts-Pfade zu mehreren Teilnehmern haben, werden als lokale Schleifen bezeichnet. Ein Beispiel für eine lokale Schleife ist die Kommunikation zwischen Knoten 126 und den STBs 180, 182 und 184 am Teilnehmerstandort. Man beachte, dass eine Schleife aus optischen Fasern oder Koaxialkabeln bestehen kann.
Hybrid-Fber-Copper-(HFCop)-Netzwerke arbeiten auf dieselbe Weise, hier wird jedoch das Koaxialkabel durch Kupferleitungen, oft verdrillte Doppelleitungen, ersetzt. In solchen Netzwerken kann eine lokale Schleife weiterhin aus optischen Fasern, Koaxialkabel oder verdrillten Doppelleitungen bestehen.
Eine weitere alternative Schleifen-Konfiguration ist allgemein als Switched Digital Video bekannt. Dies ist eine Form von HFC, bei dem die Faser über einen Knoten mittels eines Punkt-zu-Punkt-Koaxialkabels mit jedem Teilnehmerstandort gekoppelt wird. Der Knoten verbindet die Koaxialkabel von den Teilnehmerstandorten über einen Schalter mit der optischen Faser. Der Schalter enthält typischerweise eine Netzwerkmanagement-Einheit, die den Schalter verwaltet, der den Bandbreiten-Dienstanbieter mit mehreren Haushalten verbindet, heute oft im Bereich von fünf bis 40 Haushalten pro Schalter.
Zum Aufbau von Netzen mit hohen Datenraten für Haushalte und Firmen wird auch das synchrone optische Netzwerk (SONET, Synchonous Optical NETwork) eingesetzt. Dieses und ähnliche Kommunikationsverfahren können eingesetzt werden, um Video-Datenströme an Teilnehmerstandorte zu liefern.
2 zeigt ein typisches Haushalts-Breitbandnetz, bei dem die Verdrahtung der lokalen Schleife des Netzwerks verwendet wird, wie in der bisherigen Technik bekannt.
Wie in 1 enthält jeder Teilnehmerstandort eine Set Top Box, wie STB 180, die über ein Koaxialkabel 172, das mit einem gemeinsamen Koaxialkabel 160 verbunden 170 ist, das mit Knoten 126 verbunden ist, mit dem Netzwerk gekoppelt ist. Die Schnittstelle 170 kann eine bidirektionale Signalverstärkung enthalten und möglicherweise weiterhin die Filterung und/oder Frequenzverschiebung dieser Signale enthalten.
Wie in 1, unterstützen die Kopplungen zwischen STB 180 und Knoten 126 die bidirektionale Kommunikation, so dass STB 180 mehrere Fernsehkanäle empfangen kann, und STB 180 mindestens begrenzte Informationen zum Knoten 126 signalisieren kann, die das Management von Pay-per-View und andere Dienste enthalten kann. Die Kopplungen zwischen STB 180, Knoten 126 und Kopfstation 104 können auch die bidirektionale Kommunikation unterstützen, so dass STB 180 mehrere Fernsehkanäle empfangen kann, und STB 180 mindestens begrenzte Informationen zur Kopfstation 104 signalisieren kann, die das Management von Pay-per-View und andere Dienste enthalten kann.
2 zeigt eine Schleife, die Kopfstation 104 über Kopplung 130 mit Knoten 120 über Kopplung 132 mit Knoten 124 über Kopplung 134 mit Knoten 126 verbindet, der wiederum 136 mit Kopfstation 104 verbindet, wodurch die Schleife gebildet wird.
Die hierarchische Kopplung von Knoten 126 mit Kopfstation 104 wird in dieser Schleife entlang bestimmter Pfade durchgeführt. Die Kommunikation von Kopfstation 104 zum Knoten 126 folgt dem Pfad 130-132-134. Die Kommunikation von Knoten 126 zur Kopfstation 104 folgt dem Pfad 136. Die speziellen Verdrahtungspläne sind von der Auswahl des physikalischen Transportmediums, der Kommunikations-Protokolle und des Managements auf Netzwerk-Ebene beherrscht. Die gerade für 2 gegebene Beschreibung wird als vereinfachte Erklärung der Grundlagen angegeben, wie schnelle Heim-Breitbandnetze Schleifen und lokale Schleifen einbeziehen, die Hierarchien auf Netzwerk-Ebene unterstützen.
Es wurden umfangreiche Forschungen zu den Mechanismen der Spracherkennung durchgeführt. Der Fortschritt hat ausgereicht, dass Börsenmakler jetzt über ihre Tischcomputer einen sprachgesteuerten Handel durchführen können.
Obwohl diese Innovationen erheblich waren, bieten sie keine Lösung für mehrere zentrale Fragen, die für Kabelfernsehen, Video-Verteilsysteme und den Handel von großer Wichtigkeit sind. Es gibt zurzeit kein System, das eine Spracherkennung für mehrere Teilnehmer über ein Kabelfernsehnetz bereitstellt. Es gibt zurzeit kein System, dass eine Benutzer-Identifizierung be reitstellt, die auf der Spracherkennung über ein Netzwerk beruht, das Kabelfernsehen und/oder Video-Verteildienste unterstützt. Es gibt zurzeit kein System, das für Echtzeit-Auktionen und Vertragsabschlüsse ausreicht, die über ein Kabelfernseh- und/oder Video-Verteilnetz durchgeführt werden und das auf der Teilnehmer-Identifizierung durch Spracherkennung beruht.
In US-Patent Nr. 5 446 489 wird ein Gebührenerfassungs-Verfahren für Kabelfernsehen beschrieben. In dem Patent wird ein Gebührenerfassungs-Verfahren für Kabelfernsehen offen gelegt, das den Aufbau einer ständigen Kommunikationsverbindung zwischen einem Dienstanbieter und einer Vielzahl von Teilnehmern über eine einzige Duplex-Übertragungsleitung umfasst. Jedem Teilnehmer wird eine Kontonummer für die Gebührenerfassung zugeordnet, und jedem Kunden wird für die ständige Kommunikationsverbindung eine Flat-Rate-Gebühr in Rechnung gestellt. Ein Teilnehmer sendet eine Anfrage nach einem Produkt oder einem Dienst, der dem Teilnehmer über die Kommunikationsverbindung vom Dienstanbieter bereitgestellt wird, und das Gebühren-Konto des Teilnehmers wird mit der Gebühr für das bereitgestellte Produkt oder den Dienst belastet. Die Kommunikationsverbindung wird sowohl vor, als auch nach der Bereitstellung des Produktes oder Dienstes aufrechterhalten.
Zusammenfassung der Erfindung
Gemäß der Erfindung wird ein Verfahren nach Anspruch 1 und ein System nach Anspruch 13 bereitgestellt. Die Erfindung stellt einer Anzahl von Teilnehmern Spracherkennungsdienste über ein Netzwerk bereit, das Kabelfernsehen und/oder Video-Verteildienste unterstützt. Eine auf Spracherkennung beruhende Teilnehmer-Identifizierung kann über ein Kabelfernseh- und/oder Video-Verteilnetz bereitgestellt werden. Auf Spracherkennung beruhende Verträge mit Teilnehmern können über ein Kabelfernseh- und/oder Video-Verteilnetz bereitgestellt werden, das eine ausreichende Bandbreite für Echtzeit-Auktionen und Vertragsabschlüsse hat.
Die Erfindung kann ein Mehrbenutzer-Steuerungssystem für audiovisuelle Geräte umfassen, das ein Spracherkennungssystem enthält, welches sich zentral in einem oder in der Nähe eines Leitungs-Knotens befindet und das eine Kabelfernseh-(CATV)-Kopfstation enthalten kann. Das Spracherkennungssystem kann auch zentral in einer oder in der Nähe einer Server-Farm einer Web-Site-Hosting-Einrichtung oder eines Netzwerk-Gateways angeordnet sein.
In diesen Ausführungen der Erfindung werden gesprochene Kommandos von einem Kabel-Teilnehmer erkannt und dann darauf reagiert, um die Lieferung von Unterhaltungs- und Informationsdiensten zu steuern, wie Video on Demand, Pay per View, Channel Control, Online-Shopping und Internet. Dieses System ist darin einzigartig, dass das Sprach-Kommando, das vom Teilnehmerstandort kommt, oft die Wohnung des Teilnehmers, über den Pfad in Rückrichtung (oft mit 5 bis 40 MHz) im Kabel-System upstream zu einer zentralen Spracherkennungs- und Identifizierungs-Engine gesendet wird. Die hier beschriebene Spracherkennungs- und Identifizierungs-Engine ist in der Lage, Tausende von Sprachkommandos gleichzeitig zu verarbeiten und dem Teilnehmer Unterhaltungs-, Informations- und Einkaufserlebnisse mit geringer Verzögerung zu bieten.
Das System kann in der Lage sein, sofort nachdem ein Wort vom System erkannt wurde, Text auf dem Fernseh-Bildschirm des Teilnehmers zu überlagern, um die richtige oder falsche Erkennung zu überprüfen, wodurch eine sofortige visuelle Rückmeldung gegeben wird und die Möglichkeit besteht, Sprachnachrichten zu akzeptieren oder zu korrigieren.
Das System kann Sprache erkennen und verarbeiten so dass Schlüsselworte von gesprochenen Kommandos erkannt und angezeigt werden. Dies kann im Navigations-Modus, im Such-Kontext oder in anderen Zusammenhängen und Betriebsarten angewendet werden.
Das System kann auf ein Kommando mit einer visuellen Anzeige der gesprochenen Anforderung reagieren. Diese visuelle Rückmeldung kann die Erkennung von Schlüsselworten in Form von geschriebenem Text oder Symbolen anzeigen.
Das System kann Verzögerungen der Upstream-Übertragung oder der Spracherkennung maskieren. Auf Druck einer optionalen Sprech-Taste an der Fernbedienung kann eine digitale Adresse an den Beginn der zu verarbeitenden digitalen Sprachpakete angehängt werden. Die Adresse teilt dem System nicht nur den Teilnehmerstandort mit, sondern sie stellt dem System auch einen Mechanismus bereit, mit der Erzeugung von Maskierungs-Bildschirmen oder Symbolen zu beginnen. Die Daten werden zur zentralen Stelle gesendet, wenn die Taste am Mikrofon gedrückt wird, wodurch das System auf den Teilnehmerstandort und die mögliche Eingabe hingewiesen wird. Diese Funktion erlaubt es dem System, ein Symbol oder ein Overlay zu erzeugen, um schnell auf den Teilnehmer zu reagieren. Diese Funktion unterstützt auch standortspezifische Verzeichnisse, sowie das Laden von Sprachdaten-Referenzen zur Spracherkennung oder zur Teilnehmer-Erkennung.
In einem Server-Zentrum, das sich an einer zentralen Stelle befindet, können mindestens zwei Operationen ausgeführt werden: Die Upstream-Erkennung von Sprachkommandos und die Ausführung von Sprachkommando-Protokoll(en).
Visuelle Aufforderungen mit geringer Verzögerung können bereitgestellt werden, um eine schnelle und genaue Sprach-Navigation zu unterstützen. Wenn ein Kommando gesprochen und erkannt wird, gibt das System somit das Schlüsselwort zurück und erzeugt optional eine Liste visueller Aufforderungen, die den Teilnehmer durch den nächsten Navigationsschritt führen. Durch Verwendung von Aufforderungen umfasst das System die optimale Erkennung der Aufforderungs-Worte, wodurch die Erkennungs-Genauigkeit erhöht wird und gleichzeitig die Zufriedenheit des Teilnehmers vergrößert wird.
In diesem Zusammenhang der Erfindung kann eine adaptive Spracherkennung auf einer optimierten Worterkennung beruhen, indem eine Untermenge möglicher Übereinstimmungen erzeugt wird, die auf der Kenntnis beruht, was sich in einer Unterhaltungs-Datenbank befindet oder welche Worte auf einer Web-Seite vorhanden sind. Dies unterstützt das Lernen der teilnehmerspezifischen Sprachmuster.
Sichere Sprach-Transaktionen bieten ein Verfahren für sprachbasierte Vertragsabschlüsse über ein Multimedia-Verteilsystem. Sprachbasierte Vertragsabschlüsse, wie sie hier benutzt werden, beziehen sich auf einen Prozess der Erzeugung und/oder Unterzeichnung eines Vertrages, in dem mindestens ein Schritt des Prozesses darauf beruht, dass die Erfindung die erkannte Sprache eines Teilnehmers empfängt, erkennt und bezeugt.
Sprachbasierte Vertragsabschlüsse enthalten folgendes, sind aber nicht darauf beschränkt: Ein erster erkannter Teilnehmer macht ein Angebot. Ein zweiter erkannter Teilnehmer akzeptiert ein Angebot, das akustisch präsentiert werden kann oder nicht, wobei der zweite erkannte Benutzer Einzelheiten für die Annahme angibt, wie z.B. Zahlungsvereinbarungen und die Stückzahl.
Sprachbasierte Vertragsabschlüsse enthalten auch folgendes, sind aber nicht darauf beschränkt: Empfangsbestätigung von Waren oder Dienstleistungen materieller und/oder immaterieller Natur, möglicherweise einschließlich Grundbesitz, persönlichen Eigentums und/oder geistigen Eigentums, Anwendung von Optionen des Vertrages, sowie Beenden eines bereits bestehenden Vertrages. Die Empfangsbestätigung kann folgendes enthalten, ist aber nicht darauf beschränkt: Eine Erklärung über den Zustand der Waren beim Empfang oder bei der nachfolgenden Überprüfung, die eine Einschätzung einer Beschädigung umfassen kann.
Sprachbasierte Vertragsabschlüsse können auch mindestens eines des folgenden enthalten: Der zweite erkannte Teilnehmer macht dem ersten erkannten Teilnehmer ein Gegenangebot auf der Grundlage des Angebotes, und der erste erkannte Teilnehmer antwortet auf das Gegenangebot.
Die Antwort kann die Annahme des Gegenangebotes oder die Unterbreitung eines zweiten Gegenangebotes an den zweiten erkannten Teilnehmer umfassen.
Sprachbasierte Vertragsabschlüsse können es auch umfassen, dass der zweite erkannte Teilnehmer Angebote anfordert. In der Anforderung können der erste erkannte Teilnehmer angegeben werden oder nicht und/oder Leistungs-Einschränkungen, wie z.B. Lieferzeit und/oder Fristen und/oder optionale Bedingungen, die nach der Annahme des Vertrages gelten.
Sprachbasierte Vertragsabschlüsse können es auch umfassen, dass ein erkannter Teilnehmer eine oder mehrere Bedingungen eines schon bestehenden Vertrages einhält. Die Einhaltung der optionalen Bedingungen kann weiterhin eine oder mehrere Mengen, Lieferzeiten, Bereiche von Zeiten und/oder Orten wann/wo eine Dienstleistung geleistet oder eine Ware entsprechend den optionalen Bedingungen des schon existierenden Vertrages geliefert wird, spezifizieren.
Das Angebot kann vom Teilnehmerstandort des Anbieters kommen und möglicherweise Sprache umfassen, wenn es zur zentralen Stelle gesendet und an der zentralen Stelle erkannt, aufgezeichnet, verteilt und an Teilnehmerstandorten möglicher Angebotsempfänger präsentiert wird. Das Angebot kann zur zentralen Stelle gesendet werden, um aufgezeichnet und an Teilnehmerstandorte möglicher Angebotsempfänger verteilt zu werden. Der An gebotsempfänger kann die Annahme des Angebotes verbal am Standort des Angebotsempfängers signalisieren, wo der Angebotsempfänger erkannt ist. Das System sendet die verbale Annahme zur zentralen Stelle, wo sie erkannt, aufgezeichnet und dann an den Anbieter gesendet wird.
Die Verwendung der Teilnehmerstandort-Adresse beschleunigt die Sprecher-Identifizierung, erhöht die Zuverlässigkeit, verbessert die Sicherheit und verringert die Verzögerungszeit bei der Erkennung eines Sprechers.
Die Verwendung der Teilnehmerstandort-Adresse und benutzerspezifischer Sprachdaten-Referenzen dient zur weiteren Beschleunigung der Sprecher-Identifizierung, erhöht die Zuverlässigkeit, verbessert die Sicherheit und verringert die Verzögerungszeit bei der Erkennung eines Sprechers.
Die Erfindung kann die automatische Erzeugung von seriell gemultiplexten Video-Ausgangs-Datenströmen ohne zusätzliche Video-Karten oder Multiplexer unterstützen. Das zentral angeordnete Spracherkennungs-System verwendet extrem schnelle, effiziente Mikroprozessor-Anordnungen, von denen viele im lokal zugänglichen Speicher einen Rahmen-Puffer besitzen können. Jeder Mikroprozessor setzt den Rahmen-Puffer in einen MPEG-Datenstrom um. Mehrere MPEG-Datenströme werden in einem einzelnen Mikroprozessor zusammengefasst, um einen Multimedia-Datenstrom zur Verteilung an die Teilnehmer zu bilden.
Kurzbeschreibung der Zeichnungen
1 zeigt eine typische Netzwerk-Hierarchie, wie man sie in einem Kabelfernseh- oder Video-Verteilnetz findet, für das ein Hybrid Fiber Coax (HFC) Verdrahtungsverfahren verwendet wird, wie nach dem bisherigen Stand der Technik;
2 zeigt ein typisches Heim-Breitbandnetz, das eine lokale Schleifen-Verdrahtung des Netzwerks verwendet, wie nach dem bisherigen Stand der Technik;
3 zeigt eine Fernbedienung 1000, die mit der Set-Top-Vorrichtung 1100 gekoppelt 1002 ist, die über ein zweistufiges Leitungs-Kommunikationssystem kommuniziert, das ein drahtgebundenes physikalisches Übertragungsmedium 1200 enthält, über einen Verteilerknoten 1300 und über ein physikalisches Hochgeschwindigkeits-Übertragungsmedium 1400, das verschiedene Lieferungs-Punkte 1510 und Eingangs-Punkte 1512–1518 zu einer eng gekoppelten Server-Farm 3000 mit einem oder mehreren Gateways 3100 und einem oder mehreren eng gekoppelten Server-Arrays 3200 gemäß der Erfindung enthält;
4 zeigt ein gekoppeltes Server-Array 3200 aus 3;
5 zeigt einen Gateway 3100 aus 3;
6 zeigt die eng gekoppelte Server-Farm 3000 aus 3, die in einem zweidimensionalen Plex-Kommunikations-Netzwerk mit N = 4 Plex-Knoten in jeder der beiden orthogonalen Richtungen der Knoten-Anordnung implementiert ist;
7 zeigt einen Gateway 3100 aus 3, der in einem zweidimensionalen Plex-Kommunikations-Netzwerk mit N = 4 Plex-Knoten in jeder der beiden orthogonalen Richtungen der Knoten-Anordnung implementiert ist;
8 zeigt eine gekoppelte Server-Anordnung 3200 aus 3, die in einem zweidimensionalen Plex-Kommunikations-Netzwerk mit N = 4 Plex-Knoten in jeder der beiden orthogonalen Richtungen der Knoten-Anordnung implementiert ist;
9 zeigt ein vereinfachtes Blockdiagramm, in dem eine Anordnung von Prozessoren verwendet wird, wie als 3200 in 3 gezeigt.
10 zeigt ein Flussdiagramm eines Verfahrens, das einen Rückkanal von einer Vielzahl von Teilnehmerstandorten verwendet, der eine Vielzahl erkannter Sprachkanäle enthält, die einem Sprachverarbeitungssystem an einem Leitungs-Knoten in einem Netzwerk, das Kabelfernsehen unterstützt, gemäß der Erfindung präsentiert werden;
11A zeigt ein detailliertes Flussdiagramm des Betriebs 2012 von 10, bei dem eine weitere Unterteilung des empfangenen Rückkanals stattfindet;
11B zeigt ein detailliertes Flussdiagramm des Betriebs 2022 von 10, bei dem die Vielzahl der empfangenen Sprachkanäle weiter verarbeitet wird;
11C zeigt ein detailliertes Flussdiagramm des Betriebs 2032 von 10, wobei weiterhin auf den empfangenen Sprachinhalt reagiert wird;
12 zeigt ein detailliertes Flussdiagramm des Betriebs 2000 von 10, wobei das Verfahren zur Verwendung des Rückkanals von mehreren Teilnehmerstandorten weiter durchgeführt wird;
13A zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den erkannten Sprachinhalt reagiert wird;
13B zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den Sprachinhalt reagiert wird;
14 zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort reagiert wird;
15A zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort reagiert wird;
15B zeigt ein detailliertes Flussdiagramm des Betriebs 2252 von 15A, wobei der Teilnehmer erkannt wird;
16 zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort reagiert wird;
17A zeigt die Reaktion auf den Sprachinhalt 2350, die das aktuelle Reaktions-Menü 2352 und die gesamte Teilnehmerstandort-Reaktion 2354 gemäß der Erfindung enthält;
17B zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort reagiert wird;
18A zeigt ein detailliertes Flussdiagramm des Betriebs 2112 von 11C, wobei weiterhin auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort reagiert wird;
18B zeigt ein detailliertes Flussdiagramm des Betriebs 2092 von 11B, wobei die Vielzahl der empfangenen Sprachkanäle weiter verarbeitet wird;
19A zeigt ein vereinfachtes Blockdiagramm einer Hand-Fernbedienung 1000, die Mikrophon 1060 und Tastatur 1020 enthält, welche die Benutzereingabe unterstützen, die von dem Embedded-Controller 1050 zur Kommunikation über die drahtlose Schnittsteile 1040, die mit der in 3 gezeigten Set-Top-Vorrichtung 1100 gekoppelt 1002 ist, organisiert und verarbeitet wird;
19B zeigt ein vereinfachtes Blockdiagramm der in 3 gezeigten Set-Top-Vorrichtung 1100, das die Kopplung 1002 und das erste drahtgebundene physikalische Übertragungsmedium 1200 zeigt, das weiterhin aus der Downlink-Kopplung 1202 und der Uplink-Kopplung 1204 besteht;
19C zeigt weiterhin die in 19B gezeigte Set-Top-Vorrichtung 1100, die ein Set-Top-Gerät 1120 enthält, das mit der Hand-Fernbedienung 1000 gekoppelt 1002 ist und das mit der Set-Top-Box 1120 gekoppelt 1112 ist, die eine Downlink-Kopplung 1202 und eine Uplink-Kopplung 1204 besitzt;
19D zeigt weiterhin die in 19B gezeigte Set-Top-Vorrichtung 1100, die ein Set-Top-Gerät 1120 enthält, das mit der Hand-Fernbedienung 1000 gekoppelt 1002 ist und das eine Downlink-Kopplung 1202 und eine Uplink-Kopplung 1204 besitzt, sowie die verarbeitete Downlink-Kopplung 1114 zur Set-Top-Box 1110 liefert und die Anfangs-Uplink-Kopplung 1112 von der Set-Top-Box 1110 empfängt;
20A zeigt ein vereinfachtes Blockdiagramm des in 19C gezeigten Set-Top-Gerätes 1120, das die Kopplung 1002 mit der Hand-Fernbedienung 1000 und die Kopplung 1112 zur Set-Top-Box 1110 unterstützt;
20B zeigt ein vereinfachtes Blockdiagramm des in 19D gezeigten Set-Top-Gerätes 1120, das die Kopplung 1002 mit der Hand-Fernbedienung 1000 und die Kopplungen 1112 und 1114 zur Set-Top-Box 1110 unterstützt;
20C zeigt ein vereinfachtes Blockdiagramm, das weiterhin den zugreifbar gekoppelten 1162 Speicher 1160 darstellt, wie in den 20A und 20B gezeigt;
21 zeigt eine Fernbedienungs-Einheit 1000-180, die mit der Set-Top-Vorrichtung 1100-180 gekoppelt 1002-180 ist und über ein zweistufiges drahtgebundenes Kommunikationssystem kommuniziert, das ein drahtgebundenes physikalisches Übertragungsmedium 1200 über einen erweiterten Verteiler-Knoten 1310 enthält, der an eine drahtgebundene Kommunikations-Schleife angeschlossen ist, die eine erweiterte Kopfstation 1410 enthält und weiterhin eine Kommunikations-Schleife unterstützt, die eine erweiterte Stadt-Kopfstation 1410 gemäß der Erfindung enthält;
22 zeigt eine Fernbedienungs-Einheit 1000-180, die mit der Set-Top-Vorrichtung 1100-180 gekoppelt 1002-180 ist und über ein zweistufiges drahtgebundenes Kommunikationssystem kom muniziert, das ein drahtgebundenes physikalisches Übertragungsmedium 1200 über einen Verteiler-Knoten 126, der an eine drahtgebundene Kommunikations-Schleife angeschlossen ist, die eine erweiterte Kopfstation 1414 enthält und weiterhin eine Kommunikations-Schleife unterstützt, die eine erweiterte Stadt-Kopfstation 1410 gemäß der Erfindung enthält;
23 zeigt ein detailliertes Blockdiagramm eines erweiterten Verteiler-Knotens 1310, der mit dem drahtgebundenen physikalischen Übertragungsmedium 1200 gekoppelt ist und der mit der drahtgebundenen Kommunikations-Schleife aus 21 gekoppelt ist;
24 zeigt ein alternatives detailliertes Blockdiagramm eines erweiterten Verteiler-Knotens 1310, der mit dem drahtgebundenen physikalischen Übertragungsmedium 1200 gekoppelt ist und der mit der drahtgebundenen Kommunikations-Schleife aus 21 gekoppelt ist;
25 zeigt ein allgemeines Blockdiagramm einer Kopfstation 104 nach dem bisherigen Stand der Technik, wie in 3 gezeigt;
26 zeigt eine erweiterte Kopfstation 1410 aus 21 oder eine erweiterte Kopfstation 1414 aus 22 oder eine erweiterte Stadt-Kopfstation 1410 aus den 21 oder 22 gemäß der Erfindung;
27 zeigt eine alternative erweiterte Kopfstation 1410 aus 21 oder eine alternative erweiterte Kopfstation 1414 aus 22 oder eine alternative erweiterte Stadt-Kopfstation 1410 aus den 21 oder 22 gemäß der Erfindung;
28A zeigt ein Blockdiagramm einer Sprach-Engine 1330, wie in 23 gezeigt;
28B zeigt ein Blockdiagramm einer Sprach-Engine 1330, wie in 24 gezeigt;
29 zeigt ein detaillierteres Blockdiagramm einer Sprach-Engine 1330, wie in 28A gezeigt;
30 zeigt ein alternatives detailliertes Blockdiagramm einer Sprach-Engine 1330, wie in 28A gezeigt;
31 zeigt ein zweites alternatives detailliertes Blockdiagramm einer Sprach-Engine 1330, wie in 28A gezeigt;
32A zeigt ein Blockdiagramm einer Modulator-Engine 1350 der 23 und 24 und die Modulator-Engine 1450 der 26 und 27;
32B zeigt ein Blockdiagramm eines Lokaloszillators, wie in der Technik bekannt, zur Verwendung als Lokaloszillator, wie in den 33 und 34 als LO1 1760, LO1 1860, LO2 1770 oder LO2 1870 gezeigt;
33 zeigt ein detailliertes Blockdiagramm des Frequenzumwandlungs-Schaltkreises 1710 der 32A;
34 zeigt ein alternatives detailliertes Blockdiagramm des Frequenzumwandlungs-Schaltkreises 1710 der 32A; und
35 zeigt ein detailliertes Blockdiagramm der Sprach-Engine 1330, wie in 23 gezeigt, oder der Sprach-Engine 1430, wie in
27 gezeigt, die zwei Plex-Kommunikations-Netze mit doppelten redundanten Gateways enthält.
Detaillierte Beschreibung der Erfindung
3 zeigt eine Fernbedienungs-Einheit 1000, die mit der Set-Top-Vorrichtung 1100 gekoppelt 1002 ist. Set-Top-Vorrichtung 1100 kommuniziert über ein zweistufiges drahtgebundenes Kommunikationssystem, das ein drahtgebundenes physikalisches Übertragungsmedium 1200 zu einem Verteiler-Knoten 1300 enthält. Set-Top-Vorrichtung 1100 kommuniziert über Verteiler-Knoten 1300 über ein schnelles physikalisches Übertragungsmedium 1400 mit einer eng gekoppelten Server-Farm 3000, die verschiedene Lieferungs-Punkte 1510 und Eingangs-Punkte 1512–1518 besitzt. Die eng gekoppelte Server-Farm 3000 enthält einen oder mehrere Gateways 3100 und ein oder mehrere eng gekoppelte Server-Arrays 3200.
Wie hier verwendet, bezieht sich eine Server-Farm auf eine Sammlung von mindestens zwei Server-Komponenten, die kommunikativ miteinander gekoppelt sind. Die Server-Komponenten können alle oder nicht alle direkt kommunikativ miteinander gekoppelt sein. Eine Server-Komponente bezieht sich auf mindestens einen Gateway, ein Server-Array, einen Server-Computer, eine Datenbank-Engine oder Festplatten-Farm.
Wie hier verwendet, bezieht sich Gateway auf mindestens eines der folgenden: Ein Gateway kann die Protokollumwandlung zwischen verschiedenen Arten von Netzwerken oder Anwendungen durchführen; Gateways können die komplette Umwandlung eines Protokolls in ein anderes unterstützen oder ein Protokoll innerhalb eines anderen unterstützen; ein Gateway kann die Umwandlung zwischen zwei Nachrichtenübermittlungs- oder Mail-Protokollen durchführen; ein Gateway kann als Vermittler zwischen zwei Netzwerken mit gleichen Protokollen dienen, der einen Eintritts-/Austritts-Punkt für ein Netzwerk zum anderen Netzwerk bereitstellt. Solche Gateways umfassen Proxy- Server; ein Gateway kann Sprache und Daten zwischen einem terrestrischen Netzwerk und einem Satelliten-Kommunikationssystem vermitteln; und ein Gateway kann Vermittlungsaufgaben auf Netzwerk-Ebene zwischen mindestens zwei Netzwerken durchführen, wobei er die Lieferung von Informationen, normalerweise in Form von Nachrichten, Paketen oder Datenströmen, zu verschiedenen Zielen in den Netzwerken koordiniert.
Wie hier verwendet, bezieht sich Server-Array auf ein mehrdimensionales Gitter oder eine Anordnung von Server-Computern, von denen jeder eine zugeordnete Adresse in der mehrdimensionalen Anordnung hat, und ein Kommunikations-Netz, das die Kommunikation zwischen Server-Computern unterstützt, die auf den Adressen der Quell- und Ziel-Server-Computer in der mehrdimensionalen Anordnung beruht. Ein eng gekoppeltes Server-Array ist ein Server-Array, das ein Kommunikations-Netz mit sehr geringen Verzögerungszeiten besitzt.
Die Erfindung kann eine Fernbedienungs-Einheit 1000 enthalten, die mit einem Mikrophon ausgestattet ist. Die Fernbedienungs-Einheit 1000 kann mit Funktionen ausgestattet sein, wie z.B. mit einem speziellen rauschunterdrückenden Mikrophon und/oder einer Sprechtaste.
Das Mikrophon in der Fernbedienung leitet die Sprachkommandos des Teilnehmers zur zentralen Spracherkennungs-Engine weiter. Die Sprechtaste kann den Prozess der Spracherkennung beginnen, indem sie das System informiert, dass der Teilnehmer sprechen möchte und sofort eine Adress-Information liefert. Die Adress-Information kennzeichnet den Teilnehmerstandort, an dem die Spracheingabe stattfindet.
Die Erfindung kann auch eine Anordnung von Mikrophonen enthalten, die in Verbindung mit einer Fernbedienung 1000 betrieben werden, die mit der Set-Top-Box 1100 gekoppelt ist. Die Mikrophon-Anordnung kann weiterhin über eine Echokompensations-Funktion beim Empfang von Sprachsignalen im Einsatzbereich verfügen.
Man beachte, dass mehr als eine Fernbedienung 1000 mit einem oder mehreren Mikrophonen vorhanden sein können, wobei jede Fernbedienung durch einen anderen erkannten Teilnehmer kontrolliert wird. Solche Situationen sind insbesondere nützlich bei Spielen, in denen unterschiedliche Teilnehmer Kommandos an die Spiele-Simulation geben möchten, wie z.B. "Arm the Photon Torpedos", usw.
Ein vorgegebener Haushalt kann mehrere Set-Top-Boxen 1100 enthalten, von denen jede eine eindeutige Adresse in dem Netzwerk hat, das den Video-Inhalt und/oder Kabelfernsehen bereitstellt. Jede bildet einen getrennten Teilnehmerstandort und kann unterschiedlich parametrisiert werden. Zum Beispiel kann eine erste Set-Top-Box in einem Erholungsbereich für Kinder es erkannten Teilnehmer, die Kinder sind, erlauben, nur bestimmte Kanäle zu programmieren, während eine zweite Set-Top-Box in einem privaten Bereich von Erwachsenen, wie z.B. in einem Elternschlafzimmer, so parametrisiert ist, dass als Kind erkannte Teilnehmer keinen Zugriff haben.
Die Sprachkommandos des Teilnehmers können vorverarbeitet werden. Die vom Mikrophon aufgenommenen analogen Signale werden in digitale Signale umgewandelt und einer zusätzlichen Verarbeitung unterzogen, bevor sie zur Spracherkennungs- und Identifizierungs-Engine gesendet werden, die sich in der Kabel-Kopfstation oder an einem anderen zentralen Ort befindet. Eine solche Sprachvorverarbeitung kann eine Verschlüsselung, Komprimierung oder eine Umwandlung in eine alternative Form der Sprachdarstellung umfassen.
Die Vorverarbeitungs-Funktion findet in der Fernbedienung 1000 selbst vor der Übertragung zur Set-Top-Box 1100 oder zur Set-Top-Vorrichtung 1100 statt. Zur Kopplung 1002 kann ein drahtgebundenes oder ein drahtloses phy sikalisches Übertragungsmedium verwendet werden. Zur Kopplung 1002 kann ein drahtloses Übertragungsmedium verwendet werden, einschließlich, aber nicht begrenzt auf Infrarot und/oder Mikrowellen und/oder Funkfrequenz-Spektrum, sowie Ultraschall-Signalisierung. Die Kopplung 1002 kann eine bidirektionale Kommunikation zwischen der Fernbedienung 1000 und der Set-Top-Box oder Vorrichtung 1100 unterstützen. Die Kommunikation kann überwiegend oder grundsätzlich von der Fernbedienung 1000 zur Set-Top-Box oder Vorrichtung 1100 erfolgen.
Das Sprachsignal von der Fernbedienung 1000 kann ein digital moduliertes HF-Signal sein, dessen Eigenschaften dem Teil 15 der FCC-Regeln entsprechen. Alternativ dazu empfängt die Set-Top-Box 1100 oder die Set-Top-Vorrichtung 1100 das Sprachsignal von der Fernbedienung 1000 und führt die oben erwähnte Vorverarbeitungs-Funktion durch.
Die Set-Top-Box 1100 oder die Set-Top-Vorrichtung 1100 kann auch dazu verwendet werden, Sprache und Teilnehmer-Adressdaten zum zentralen Ort oder zur Kopfstation zur Spracherkennung und Identifizierung zu senden. Das Funkfrequenz-(HF)-Signal von der Fernbedienung 1000 wird von der Set-Top-Vorrichtung 1100 empfangen und dann zur Upstream-Übertragung 1200 auf dem 5- bis 40-MHz-Kabel-Rückpfad neu moduliert. Wenn eine kommerzielle Set-Top-Box 1100 zum Senden der Upstream-Sprachdaten verwendet wird, werden die Upstream-Kanalzuordnung und das Übertragungsprotokoll durch das in der Set-Top-Box vorhandene bidirektionale Kommunikationssystem gesteuert.
In bestimmten Ausführungen kann eine kommerzielle Set-Top-Box 1100 zur Upstream-Übertragung der digitalisierten Sprachdaten nicht verwendet werden. Die Set-Top-Vorrichtung 1100 ist dann dafür verantwortlich, die Upstream-Kanalzuordnungs- und Synchronisations-Information zu empfangen. Der Datenempfänger in der Set-Top-Vorrichtung 1100 kann auf jeden von mehreren Downstream-Datenkanälen abgestimmt werden, um Kanal- und Synchronisations-Information zu empfangen.
Die Set-Top-Vorrichtung 1100 ist auch in der Lage, Daten im Downstream-Pfad zu empfangen und zu decodieren. Diese Funktion ist erforderlich, um die Übertragung von Upstream-Daten zu synchronisieren, die Teilnehmer-Rückmeldungen enthalten können. Downstream-Daten können Upstream-Kanalzuordnungs-Information und Sprach-Überprüfungs-Overlay-Informationen, die als Text codiert sind, enthalten.
Die Set-Top-Box 1100 kann sowohl für die Upstream-, als auch die Downstream-Kommunikation für die beschriebene Sprachkommando-Funktion verwendet werden. Die Funktion der Set-Top-Vorrichtung 1100 kann es sein, das HF-Signal von der Fernbedienung zu empfangen und dann das Sprachsignal zu digitalisieren und zu komprimieren und es für die Upstream-Übertragung vorzubereiten.
Neue HF-Protokoll-Standards, wie z.B. Bluetooth, erlauben es, dass das HF-Signal der Fernbedienung das Sprachsignal direkt zur Set-Top-Box überträgt, wobei wieder die Vorverarbeitung entweder in der Fernbedienung 1000 oder von Firmware in der Set-Top-Box 1100 durchgeführt werden kann. Man beachte, dass Infrarot-Signalisierung eingesetzt werden kann, um das Sprachsignal zur Set-Top-Box zu senden.
Set-Top-Boxen 1100, bei denen Kabel-Modems vom Typ DOCSIS eingesetzt werden, wie z.B. die Set Top Boxen Open Cable oder die so genannten Heavy Set-Top-Boxen von Firmen, wie Scientific Atlanta und General Instruments sind in der Lage, Sprachdaten zu senden und zu empfangen, wozu effiziente Datenübertragungs-Protokolle verwendet werden. Das Protokoll DOCSIS enthält auch Fehlererkennungs- und Fehlerkorrektur-Funktionen, sowie weitere Übertragungs-Verbesserungen, wie eine Vorentzerrung für eine effizientere und fehlerfreie Übertragung.
4 zeigt ein gekoppeltes Server-Array 3200 aus 3.
5 zeigt einen Gateway 3100 aus 3.
Das System benutzt die Adress-Information des Teilnehmers als Mechanismus, mit dem der zentral angeordnete AgileTV^TM-Sprachprozessor die Parameterdatei eines bestimmten Teilnehmers aufrufen kann. Die Parameterdatei enthält Sprachtrainings-Parameter-Daten, Spracherkennungs-Parameter und Benutzerprofile für jeden Teilnehmer unter der Adresse. Diese Datei kann auch von den Eltern festgelegte Steuerinformationen bei einer Installation im Haushalt und andere Angaben für die spezielle Adresse enthalten, wie z.B. bevorzugte Sprachen oder Filme oder sogar Internet-Vorlieben.
Die Parameter-Datei des adressierten Teilnehmers (Addressed Subscriber Parameter File, ASPF) gibt dem System eine extrem hohe Wahrscheinlichkeit der Spracherkennung und der Teilnehmer-Identifizierung. Eine solche Adressierung unterstützt sichere Transaktionen, wie z.B. Bankgeschäfte, weil das Spracherkennungs- und Identifizierungs-System nur einige Parameter-Dateien für eine physikalische Adresse erkennen muss, was zu einer sehr hohen Wahrscheinlichkeit der Erkennung der Sprache eines bestimmten Sprechers führt.
Mit diesem System kann die Sicherheit bei Finanz-Transaktionen, z.B. Sprach-Bankgeschäften und e-commerce, realisiert werden, und durch Hinzufügung einer Sprach-Verschlüsselungs-Verarbeitung im Sprach-Preprozessor können noch höhere Sicherheitsgrade erreicht werden. Dies bietet eine direkte Unterstützung eines Verfahrens für Vertragsabschlüsse, das darauf beruht, dass dem Teilnehmer vom System ein Angebot gemacht wird und der erkannte Teilnehmer eine erkennbare Annahme des Angebotes abgibt. Das Verfahren für Vertragsabschlüsse kann weiterhin die Speiche rung des Angebotes und der Annahme als Protokollierungs-Mechanismus für den Vertrag umfassen.
Das von einer Set-Top-Box oder Set-Top-Vorrichtung 1100 des Teilnehmers gesendete Sprachsignal wird von der Fünf- bis 40-MHz-Datenempfangs-Einrichtung im Gateway 3100 an dem zentralen Ort empfangen 1510. Wie hier verwendet, kann ein zentraler Ort einen Knoten, eine Kopfstation oder eine Stadt-Kopfstation für ein Heim-Breitband-Netz umfassen.
Wenn das digitalisierte Sprachsignal von einer kommerziellen Set-Top-Box kommt, wie z.B. von einer Set-Top-Box von General Instruments oder Scientific Atlanta, kann die Empfangseinrichtung für den Rück-Pfad an dem zentralen Ort spezifisch für diesen Typ von Box sein. Daher können die Daten, die von dieser Einrichtung kommen und anderen Upstream-Verkehr enthalten, so analysiert werden, dass nur die Sprachkommandos und die Adress-Information vom Teilnehmer in die Spracherkennungs-Engine am zentralen Ort eingegeben werden.
Wenn das Upstream gesendete digitalisierte Sprachsignal von einer anderen Set-Top-Vorrichtung kommt, kann der Upstream-Datenempfänger an dem zentralen Ort eine getrennte Einheit sein, die nur Sprachkommando-Signale von Set-Top-Vorrichtungen an den Teilnehmerstandorten empfängt. Der Einsatz der Set-Top-Vorrichtung als Upstream-Sender erlaubt die Verwendung von kundenspezifischen Upstream-Protokollen, wie z.B. FM, AM, PSK, oder die digitale Spread-Spectrum-Übertragung. Digitale Übertragungsverfahren, wie QPSK oder QAM, können ebenfalls eingesetzt werden.
Bei Empfang des digitalisierten und vorverarbeiteten Sprachsignals von der Set-Top-Box oder der Set-Top-Vorrichtung des Teilnehmers kann das empfangene Upstream-Signal in Form eines Datenstroms vorliegen, der Sprach- und Adress-Information enthält. Der Datenstrom, der Sprach- und Adress-Information enthält, kann zu Ethernet kompatibel sein. Da die AgileTV^TM- Sprachverarbeitungseinheit (AgileTV^TM Voice Processing Unit, AVPU) eine schnelle Sprachverarbeitungseinheit ist, welche die Daten von mehreren Knoten verarbeiten kann, können die digitalen Sprachsignale von jedem dieser Knoten im AVPU-Eingangsmultiplexer kombiniert werden. Die Kombination digitaler Sprachsignale kann zu einer kleineren Anzahl sehr schneller digitaler Datenströme führen.
Upstream-Signale, wie 1510, werden am Gateway 3100 empfangen. Sprach- und Datensignale können von kommerziellen Datenempfängern für den Rück-Pfad empfangen werden. Sprach- und Datensignale werden auch von kundenspezifischen Rück-Pfad-Empfängern empfangen und decodiert, die mindestens eine der folgenden Protokoll-Optionen verwenden: FM- oder AM-Modulation/Demodulation, FDMA-, TDMA-, FSK-, PSK- oder QPSK-Digital-Modulation/Demodulation, Spread-Spectrum-Modulation/Demodulation, Fernsprechen, Zellularfunk-Rückleitung oder drahtlos.
Die AVPU-Engine muss kein Anwendungs-Dienst in und aus sich selbst sein. Das System kann neue Endbenutzer-Anwendungen bereitstellen. Die AVPU-Engine kann eine Spracherkennung und Steuerungs-Dienste für vorhandene Anwendungen bereitstellen, wie die Dienste Interactive Program Guides, Video On Demand (VOD) oder für den Zugang zum Internet oder World Wide Web.
Kurz nach dem Zeitpunkt der Netzwerk-System-Initialisierung kann es erforderlich sein, dass Anwendungen, wie Video On Demand oder Interactive Program Guides, die einen Zugriff auf Spracherkennungs-Dienste anfordern, sich erst beim AVPU-System registrieren müssen. Mindestens eine Standard-Programmschnittstelle kann dann benutzt werden, um jede Anwendung in die Lage zu versetzen, ihre komplette Menü-Hierarchie zu spezifizieren. Die Erfindung kann exakt eine Standard-Programmschnittstelle benutzen, um Anwendungen in die Lage zu versetzen, ihre komplette Menü-Hierarchie zu spezifizieren.
Eine Listen-Struktur spezifiziert die Menü-Hierarchie jeder Anwendung. Die Listen-Struktur kann ein Baum sein. Er enthält Kennzeichnungen für jedes Menü, zusammen mit dem Text jeder Schaltfläche auf jedem Menü-Bildschirm, Information, die das System benötigt, um unabhängige Sprach-Navigations-Dienste durch die Menü-Hierarchie für die Anwendung bereitzustellen. Die Menü-Hierarchie repräsentiert den statischen Teil der Anwendungs-Daten.
Zusätzlich zur statischen Menü-Struktur kann es auch die Aufgabe der Anwendung sein, das System über dynamischen Inhalt zu informieren, z.B. über die Namen von Spielfilmen in einem Video On Demand System oder von Programm-Namen und Zeiten in einem interaktiven Programm-Führer. Jedes Mal, wenn ein Teilnehmer einen Menü-Kontext eingibt, in dem ein dynamischer Inhalt erscheint, kann die Anwendung das Sprach-System über diesen Kontext informieren, indem es ein Handle übergibt, das der Liste von Namen zugeordnet ist, die den dynamischen Inhalt enthält. Das Sprach-System kann den statischen Menü-Inhalt mit dem erweiterten dynamischen Inhalt kombinieren (siehe Ähnlichkeits-Suche weiter unten), um eine komplette Grammatik zu bilden. Es können auch anwendungs-unabhängige Schlüsselworte, wie z.B. HILFE mit dem statischen Menü-Inhalt und dem erweiterten dynamischen Inhalt kombiniert werden, um die komplette Grammatik zu bilden. Dieses Konstrukt kann dann an das Sprach-System weitergegeben werden, um die Erkennungs-Genauigkeit zu maximieren.
Da dynamischer Inhalt sich per Definition ändert, kann es erforderlich sein, dass Anwendungen das System immer dann informieren, wenn sich der Inhalt ändert. In einer interaktiven Fernsehprogramm-Anwendung registriert die Anwendung zum Beispiel jede halbe Stunde einen neuen Satz mit dynamischem Inhalt. Für ein VOD-System kann diese Registrierung immer dann durchgeführt werden, wenn die Datenbank mit angebotenen Spielfilmen sich ändert.
Wenn die Registrierung abgeschlossen wurde und das System benutzt wird, kann die Erkennung einer gesprochenen Anforderung es bewirken, dass ein Signal zurück zur Anwendung gesendet wird. Dieses Signal informiert die Anwendung, die angeforderte Aktion auszuführen und/oder den Inhalt des Bildschirms als Folge der Teilnehmeranforderung zu aktualisieren. Auf diese Weise kann die Anwendung die Spracherkennungs-Dienste des Systems mit minimalen Änderungen des Anwendungs-Codes benutzen, während dieselbe grafische Benutzeroberfläche beibehalten wird, an die sich die Teilnehmer gewöhnt haben.
Am Teilnehmerstandort kann eine sprachfähige Fernbedienung eingesetzt werden, die z.B. ein Mikrophon, sowie die Funktionalität einer herkömmlichen Universal-Fernbedienung aufweist. Die Fernbedienung kann weiterhin eine Sprechtaste (Push-To-Talk, PTT) enthalten. Herkömmliche Fernbedienungs-Funktionen werden über Infrarot (IR) übertragen. Die Sprachausgabe kann drahtlos zu einem Set-Top-Gerät, Modul oder einer Set-Top-Vorrichtung übertragen werden, die sich an der Set-Top-Box befindet. Die drahtlose Übertragung von der Fernbedienung kann eine elektromagnetische physikalische Transportebene oder eine physikalische Ultraschall-Transportebene umfassen. Die elektromagnetische physikalische Transportebene kann einen Funkfrequenz-Träger oder einen Infrarot-Träger benutzen.
Wenn die PTT-Taste vom Teilnehmer gedrückt wird, sendet die Fernbedienung einen Befehl PTT-aktiv zur Set-Top-Vorrichtung. Die Vorrichtung kann dann die Set-Top-Box darüber informieren, ein Symbol auf dem Bildschirm darzustellen, oder dem Teilnehmer anders anzuzeigen, dass ihm das System zuhört. Als nächstes wird, wenn der Teilnehmer in das Mikrophon spricht, die Sprache digitalisiert, komprimiert und zur Set-Top-Vorrichtung gesendet.
Die Set-Top-Vorrichtung kann irgendetwas oder alles der folgenden Dinge durchführen: Verschlüsseln des Sprach-Abtastwertes zur Bereitstellung von Sicherheit, Hinzufügen von Teilnehmer-Adress-Information; Hinzufügen ei nes Nachrichten-Längen-Codes; Hinzufügen einer Fehlerüberwachungs-Codierung zur zusammengesetzten Information. Die Fehlerüberwachungs-Codierung kann einen zyklischen Blockcode (Cyclical Redundancy Code, CRC) umfassen, der es ermöglicht, Datenübertragungsfehler zu erkennen.
In Haushalten mit Set-Top-Boxen, welche die benötigten Funktionen aufweisen, kann die Set-Top-Vorrichtung Sprachinformationen zur Set-Top-Box übertragen, die sie dann als Reihe von Paketen zur zentralen Stelle sendet.
Alternativ kann die Set-Top-Vorrichtung den Sprach-Strom direkt selbst zum zentralen Ort übertragen. Dies kann fortgesetzt werden, bis die Set-Top-Vorrichtung von der Fernbedienung empfängt, dass die PTT-Taste losgelassen wurde, was das Ende der Sprache anzeigt. Diese Information wird auch an den zentralen Ort übertragen und signalisiert das Ende der gesprochenen Anforderung.
Jede einzelne Teilnehmer-Schnittstelle, d.h. Set-Top-Box oder Set-Top-Vorrichtung kann eine eindeutige Adresse haben. Die Adresse der einzelnen Teilnehmer-Schnittstelle kann während des Herstellungsprozesses festgelegt werden. Da Sprachpakete Upstream übertragen werden, kann diese Adressinformation an die Sprachpakete angehängt werden. Die Adress-Information ermöglicht eine schnelle Bestimmung des Teilnehmerstandortes, von dem der Sprach-Abtastwert empfangen wird. Die Adress-Information kann den Sprachpaketen vorangehen. Die Adress-Information verbessert die Effizienz mindestens einiger der Verarbeitungsstufen am zentralen Ort.
Die Zuordnung einer Eingangspuffer-Adresse zum Sprach-Abtastwert kann auf der Adresse des Teilnehmerstandortes beruhen. Der Eingangspuffer sammelt die eintreffenden Sprachpakete, bis das letzte Paket einer gesprochenen Anforderung empfangen wurde. Die Erkennung des Empfangs des letzten Sprachpaketes kann in dem Sprachpaket codiert sein. Die Erkennung des Empfangs des letzten Sprachpaketes kann eine Verzögerung der Spra che beinhalten, die länger als eine vorher festgelegte Zeitdauer ist. Die Verzögerung der Sprache kann einer oder mehrere von mindestens den folgenden Punkten sein: Eine global definierte Konstante, eine für den Teilnehmerstandort definierte Konstante, eine für den erkannten Teilnehmer definierte Konstante oder eine für die Anwendung definierte Konstante für eine Anwendung, die von dem Spracherkennungs-System bedient wird. Das letzte Sprachpaket kann auf der Grundlage des Loslassens der PTT-Taste in der Fernbedienung erzeugt werden. Das letzte Sprachpaket kann an der Fernbedienung, am Set-Top-Gerät, an der Set-Top-Vorrichtung, an der Set-Top-Box, im Knoten, in der Kopfstation oder der Stadt-Kopfstation oder von der bedienten Anwendung erzeugt werden. Das letzte Sprachpaket kann von der bedienten Anwendung auf der Grundlage eines Zeitplans, z.B. einer festen Zeitdauer, in der Teilnehmer antworten können, nach einem Privileg-System und/oder nach einem anderen mit der Anwendung verbundenen Schema erzeugt werden.
Es kann eine ständige Erzeugung der zyklischen Blockcodes (CRC) zur Fehlerüberprüfung eingesetzt werden. Jedes Mal, wenn ein Paket eingelesen wird, können in den Prozessor-Registern CRC-Codes berechnet werden, wenn jedes Byte gelesen wird, dann wird der Teil-CRC-Code mit dem Paket gespeichert. Der CRC-Code kann am Ende des Paketes, am Anfang des Paketes oder an speziell festgelegten Stellen innerhalb des Paketes gespeichert werden. Wenn das nächste Paket eintrifft, wird der Teil-CRC-Code von dort gelesen, wo er gespeichert war, und die neuen Paketdaten können an das Ende des vorherigen Paketes angehängt werden und überschreiben den temporären CRC-Code. Dies wird fortgesetzt, bis ein kompletter Sprach-Abtastwert empfangen wurde. Dieses Verfahren der CRC-Berechnung halbiert die Anzahl der Speicherzugriffe im Vergleich zu einer anfänglichen Speicherung der Zeichenkette und dem Ausführen eines zweiten Durchgangs zur Erzeugung des CRC-Codes.
Wenn eine komplette gesprochene Anforderung empfangen wurde, kann der Sprach-Eingangs-Prozessor die Quell-Adresse des Abtastwertes, die einen Teilnehmerstandort kennzeichnet, dazu verwenden, die Sprachdaten an einen speziellen Sprachverarbeitungs-Prozessor weiterzuleiten. Diese direkte Übereinstimmung zwischen der Quell-Adresse und einem speziellen Sprachprozessor erlaubt es Sprachprozessoren, teilnehmerspezifische Parameter für die von ihnen bedienten Teilnehmerstandorte zu speichern. Die Abbildung von Quell-Adressen auf Sprachprozessoren verringert die zur Übertragung von teilnehmerspezifischen Daten zu jedem Sprachprozessor erforderliche Bandbreite. In anderen Ausführungen der Erfindung kann eine Umsetzungs-Tabelle verwendet werden, damit es möglich ist, bei einem Hardware-Fehler oder einem anderen Ereignis, z.B. bei einer Kapazitäts-Überlastung, Sprachprozesor-Zuordnungen dynamisch zu ändern und dabei die Effizienz-Vorteile der direkten Abbildung des Sprachkanals auf den Prozessor beizubehalten.
Um einen Sprach-Abtastwert mit dem Sprachprozessor in Sprachinhalt zu verarbeiten, muss der Sprachprozessor zuerst in seinem lokalen Speicher eine Kopie der einem Teilnehmerstandort zugeordneten Grammatik-Definition enthalten. Eine Grammatik ist eine Struktur, die oft die Worte enthält, die am wahrscheinlichsten gesprochen werden, die Reihenfolge, in der diese Worte erscheinen können und die Bedeutung verschiedener Sequenzen von Worten. Diese Struktur kann eine Hardware-Konfiguration, ein Software-Programm, eine Datenstruktur oder eine Kombination von zwei oder mehr dieser Dinge sein.
Bevor der neue Sprach-Abtastwert zu einem Sprachprozessor übertragen wird, wird die dem Sprach-Abtastwert zugeordnete Grammatik zu dem Ziel-Sprachprozessor übertragen. Für die Übertragung der Grammatik kann eine einfache LRU-(Least Recently Used)-Warteschlange verwendet werden. Wenn der Sprachprozessor in seinem Speicher genug freien Platz hat, wird die erkannte Grammatik vom Massenspeicher direkt in den freien Speicher übertragen. Massenspeicher können eine Festplatte, eine Festplatten-Farm oder einen RAID-Platten-Speicher (Redundant Array of Independent Disks), eine Festplatten-Farm hoher Bandbreite umfassen, sind aber nicht darauf beschränkt. Ist nicht genug Speicher vorhanden, kann der zuletzt benutzte Grammatik-Eintrag verworfen und die neue Grammatik-Information in den frei gemachten Speicher geladen werden.
Der nächste Schritt zur Verarbeitung des Sprach-Abtastwertes stellt sicher, dass die aktuellen Parameter, die dem Teilnehmerstandort zugeordnet sind, bereits im RAM des speziellen Sprachprozessors gespeichert sind. Wenn diese Parameter nicht vorhanden sind, kann der zuletzt benutzte Parameter-Cache-Eintrag aus dem Cache gelöscht werden.
Hierzu wird der älteste Cache-Eintrag im Sprachprozessor zuerst untersucht, um festzustellen, ob er geändert wurde. Falls ja, wird der Cache-Eintrag im Massenspeicher gespeichert, und der Cache-Speicherbereich wird dann als frei erklärt. Als nächstes werden die Sprachparameter des Teilnehmerstandortes, die dem neuen Sprach-Abtastwert zugeordnet sind, in den frei gemachten Cache-Speicher-Block geladen. Während der relativ langen Zugriffszeiten, die benötigt werden, um einen neuen Satz von Teilnehmerstandort-Parametern vom Massenspeicher zu laden (und optional die alten Parameter auf die Festplatte zu schreiben, usw.), kann der aktuelle Sprach-Abtastwert im Eingangspuffer in einem Wartezustand gehalten werden.
Nachdem die Sprachparameter des neuen Haushalts in den Ziel-Sprachprozessor geladen wurden, wird der Sprach-Abtastwert in die Arbeits-Warteschlange für den Sprachprozessor verschoben. Hierdurch wird die Sprachprozessor-Verzögerung zur Verarbeitung anderer Sprach-Anforderungen während der Festplattenzugriffe minimiert. Stattdessen kann der Sprachprozessor andere Sprach-Abtastwerte verarbeiten, die anderen Teilnehmerstandorten zugeordnet sind, deren Parameter sich bereits im Cache befinden.
Sobald die einem Sprach-Abtastwert zugeordneten Sprach-Parameter im Sprachprozessor zur Verfügung stehen, kann der Sprach-Abtastwert dem Sprachprozessor zugeordnet werden, indem eine Beschreibung des Sprach-Abtastwertes in die Arbeits-Warteschlange des Ziel-Sprachprozessors gestellt wird. Bei der Verarbeitung der Sprach-Abtastwerte können sie vom Sprachprozessor von der Vorderseite der Arbeits-Warteschlange entfernt werden.
Schließlich erhält der Sprachprozessor den aktuellen Eingabe-Abtastwert. Der Sprach-Abtastwert wird in den lokalen Speicher des Sprachprozessors übertragen, und der Status dieses Sprach-Abtastwertes wird auf Next geändert Diese Übertragung kann parallel zur Verarbeitung des vorherigen Sprach-Abtastwertes erfolgen, wodurch sichergestellt wird, dass die Auslastung des Sprachprozessors maximiert wird.
Wenn die Übertragung beendet ist und der Sprachprozessor die Verarbeitung des vorherigen Abtastwertes beendet, ändert sich der Status dieses Sprach-Abtastwertes auf Current, und die Spracherkennungs-Engine beginnt mit der Verarbeitung dieses Abtastwertes.
Eine erfolgreiche Verarbeitung eines Sprach-Abtastwertes erfordert, dass der Sprachprozessor gleichzeitig sowohl auf die richtige Grammatik, als auch auf die richtige Teilnehmerstandort-Parameter-Information zugreifen kann.
Es besteht die Wahrscheinlichkeit, dass eine vor kurzem geladene Grammatik oder Sprach-Parameter-Datei bei dem Prozess des Ladens der Grammatik oder Sprach-Parameter für den aktuellen Sprach-Abtastwert vor ihrer Verwendung gelöscht wird. Um diese Bedingung zu beseitigen, darf die Gesamtzahl von Sprach-Abtastwerten, die in den Warteschlangen und Arbeits-Warteschlangen eines Sprachprozessors vorhanden sind, vorzugsweise die Anzahl von Cache-Einträgen in dem Sprachprozessor nicht übersteigen.
Der erste Schritt bei der Erkennung des aktuellen Sprach-Abtastwertes kann bestimmen, welche einzelne Person die aktuelle gesprochene Anforderung ausgesprochen hat. Das Sprechererkennungs-Software-Modul, das auf dem Ziel-Sprachprozessor läuft, vergleicht die Sprach-Charakteristiken des Sprach-Abtastwertes mit den Charakteristiken der Sprecher, die zuvor an diesem Teilnehmerstandort erkannt wurden.
In vielen gesprochenen Anforderungen stimmt der eintreffende Sprach-Abtastwert mit den Charakteristiken eines zuvor erkannten Sprechers überein. Wenn dies der Fall ist, wird der Sprach-Abtastwert zur nächsten Phase, der Spracherkennung, weitergegeben.
Wenn der Sprach-Abtastwert nicht als zu einem vorhandenen Sprecher gehörend erkannt wird, wird eine Routine für neue Teilnehmer aufgerufen, die es ermöglicht, einen neuen Teilnehmer diesem Haushalt zuzuordnen. Diese Routine zeichnet die neuen individuellen Sprach-Parameter in den Sprach-Parametern dieses Teilnehmerstandortes auf, so dass der neue Sprecher bei nachfolgenden gesprochenen Anforderungen erkannt werden kann. Optional kann das System dem Teilnehmerstandort-Verwalter die Gelegenheit geben, die neuen Sprecher-Parameter zu löschen oder zu ändern.
Die Eingaben an das Spracherkennungs-Software-Modul können einen Sprach-Abtastwert, die Sprachparameter eines einzelnen Teilnehmers und die zu erkennende Grammatik enthalten. Die Sprach-Engine bestimmt die am wahrscheinlichsten gesprochene Anforderung auf der Grundlage einer statistischen Analyse und kann eine Text-Zeichenkette zurückliefern, die der gesprochenen Anforderung entspricht. Der Abstimmungs-Prozess ist wahrscheinlichkeitstheoretisch: Zusammen mit der zurückgelieferten Text-Zeichenkette kann die Sprach-Engine auch ein Vertrauens-Maß oder einen Prozentsatz der Übereinstimmungs-Wahrscheinlichkeit zurück liefern. Die zurückgelieferte Zeichenkette und das Vertrauens-Maß ermöglichen es ver schiedenen Anwendungen, auf der Grundlage des berechneten Vertrauens-Maßes unterschiedlich zu reagieren.
Für Erkennungs-Ergebnisse, die für den Teilnehmer geringe Kosten verursachen, wie z.B. eine Anforderung zur Anzeige von Listen für einen bestimmten Spielfilm, können geringere Vertrauens-Kriterien angewendet werden. Für Erkennungs-Ergebnisse, die für den Teilnehmer hohe Kosten verursachen, wie z.B. eine Anforderung zum Kauf eines Spielfilms, können höhere Vertrauens-Schwellwerte erforderlich sein. Weiterhin kann eine Bestätigung des Kaufs angefordert werden.
Wenn die Erkennungs-Genauigkeit besonders gering ist, kann die Spracherkennungs-Engine teilweise Übereinstimmungen mit mehr als einem Satz bestimmen und den Text mehrerer möglicher Übereinstimmungen zurück liefern. Dieser Prozess ermöglicht es einer Anwendung oder einem Teilnehmer, aus mehreren alternativen Erkennungs-Ergebnissen auszuwählen.
In den Fällen, in denen eine Transaktion zu einer Gebühr für den Teilnehmer führt, kann das System den Sprach-Abtastwert, der die Kauf-Anforderung darstellt, auf einem Massenspeicher aufzeichnen. Diese Aufzeichnung der Sprach-Abtastwerte wird durchgeführt, um einen Nachweis zu haben, dass eine Kauf-Anforderung getätigt wurde, wenn ein Teilnehmer seine Kaufabsicht bestreiten sollte. Dies ist eine weitere Unterstützung für sprachbasierte Verfahren zum Vertragsabschluss. Man beachte, dass die Aufzeichnung in einem Standard- oder Nicht-Standard-Verfahren komprimiert werden kann, das weiterhin eine Verschlüsselungs-Technologie enthalten kann.
Wegen der statistischen Natur der Spracherkennung werden gesprochene Anforderungen gelegentlich falsch erkannt. Erkennungsfehler waren ein hauptsächlicher Hinderungsgrund für einen weiteren Einsatz von Spracherkennungs-Systemen. Dieses System liefert einen Mechanismus, mit dem der Teilnehmer eine schnelle visuelle Rückmeldung bezüglich des Erkennungs- Prozesses erhält. Kurz nachdem die Spracherkennungs-Engine ein Ergebnis zurückgeliefert hat, wird Text, welcher der erkannten gesprochenen Anforderung entspricht, visuell in der Anzeige dargestellt, z.B. auf dem Fernseher, auf einem Bildschirm.
Diese schnelle visuelle Rückmeldung kann erreicht werden, indem die erkannte Text-Zeichenkette zurück zur Set-Top-Box gesendet wird. Software, die in der Set-Top-Box ausgeführt wird, zeigt die Textinformation in einem speziellen Fenster oben in der vorhandenen Anwendungs-Anzeige oder als Überlagerung an. In den Fällen, in denen Einschränkungen in der Set-Top-Box es verhindern, dass das Fenster oben in vorhandenem Inhalt erscheint, kann die in der Set-Top-Box laufende Software eine alternative Anzeige der Rückmeldung auswählen, z.B. einen anderen Kanal, der ein Hintergrund-Feld enthält, und die zu überlagernde Information auf diesem Hintergrund anzeigen.
In Fällen, in denen die Erkennungs-Genauigkeit besonders schlecht ist, und die Sprach-Engine mehrere mögliche Erkennungs-Ergebnisse zurück liefert, kann diese Überlagerungs-Anzeige-Funktion dazu benutzt werden, die Anfrage des Teilnehmers zu verfeinern. Durch Anzeige des Textes der möglichen Erkennungs-Ergebnisse kann der Teilnehmer leicht aus der zurückgelieferten Liste auswählen.
Wenn keine der zurückgelieferten Zeichenketten mit der gesprochenen Anforderung des Teilnehmers übereinstimmt, kann der Teilnehmer sich entscheiden, neu zu beginnen. Häufiger ist es jedoch, dass eine der angezeigten Zeichenketten übereinstimmt oder wahrscheinlich bis leicht mit einer geeigneten Änderung zur Sprach-Anforderung des Teilnehmers führt. Wenn dies der Fall ist, kann der Teilnehmer leicht aus den angezeigten Alternativen auswählen, was eine verbesserte Produktivität in Situationen mit geringer Erkennung bietet.
Eine entscheidende Eigenschaft, die bei Anwendungen, wie Pay-Per-View und Video-On-Demand benutzt werden kann, ist die Ähnlichkeits-Suche. Wenn das System nach dynamischem Inhalt sucht, d.h. Spielfilmen und Schauspieler-Namen, kann eine Ähnlichkeits-Suchfunktion zur Verfügung stehen. Diese ermöglicht die Suche nach Namen, die nur teilweise übereinstimmen oder die dem erkannten Satz ähnlich sind, ohne dass eine präzise Angabe des exakten Titels oder Namens erforderlich ist. Das für die Ähnlichkeits-Suche verwendete Verfahren ist, die von der Anwendung spezifizierte Liste mit dem dynamischen Inhalt zu erweitern. Worte, die von der Bedeutung, vom Inhalt oder der Aussprache Worten in der Inhalts-Liste ähneln, können automatisch zur Liste des dynamischen Inhalts hinzugefügt werden, wenn die Anwendung das System über eine Inhalts-Aktualisierung informiert. Dies ermöglicht es, die Erkennungs-Grammatik zu erweitern, um eine größere Anzahl von Übereinstimmungen zu unterstützen, ohne jedes Mal bandbreitenintensive Textsuchen durchführen zu müssen, wenn eine Sprachanforderung eines Teilnehmers empfangen wird. Verknüpfungen zwischen ähnlichen und Ziel-Worten können in der internen Darstellung der Grammatik unterhalten werden, wodurch ein direkter Zugriff auf die Ziel-Namen bereitgestellt wird. Hierdurch wird die System-Leistungsfähigkeit weiter erhöht.
Man beachte, dass wie hier verwendet, Ähnlichkeits-Datenbanken aus mindestens einer oder mehreren der folgenden Datenbank-Architekturen konstruiert sein können: relational, SQL, wissensbasiert, schlussfolgernde Wissens-Datenbanken, einschließlich Horn Clause und erweiterte Horn Clause Fakten-Datenbanken, Fuzzy-Versionen der oben genannten, sowie neuronale Netze und Kombinationen dieser Techniken. Es können auch manuelle Hinzufügungen an der AgileTV^TM-Vermittlungsstelle vorgenommen werden.
Das gesamte System kann Fehlertoleranz für eine robuste Leistungsfähigkeit bereitstellen. Für individuelle Komponenten, wie Sprachprozessoren und zugehörige Speicher, kann das System automatisch die meisten Komponenten-Ausfälle erkennen und fehlerhafte Prozessoren abschalten.
Zusätzlich dazu können viele System-Installationen mehrere AgileTV^TM Voice Processing Unit (AVPU) Boxen 3000 erfordern, um die Leistungsfähigkeits-Anforderungen der Teilnehmerbasis zu erfüllen. Um eine maximale Betriebszeit sicherzustellen, darf sogar der Totalausfall einer AVPU-Engine keine Katastrophe darstellen. Die verbleibenden AVPU-Engines bedienen den eintreffenden Sprachverkehr mit einem reduzierten Leistungsfähigkeits-Grad weiter. Diese Ausfallsicherung wird durch ein Protokoll zwischen den AVPU-Boxen ausgehandelt.
Zusätzlich zu diesen internen Diagnosefunktionen kann das System auch kontinuierlich mit einem Netzwerk-Betriebs-Zentrum kommunizieren, was eine schnelle Erkennung von Systemfehlern, sowie einen schnellen Service-Einsatz zur Beseitigung von Problemen ermöglicht.
Ein Sprach-Kommando-Preprozessor kann die Funktion der Sprachfilterung, Digitalisierung, Datenkomprimierung, Codierung von Sprachpausen und Adressen-Einfügung durchführen. Die Vorverarbeitung von Sprachkommandos am Teilnehmerstandort führt zu einer kleineren Upstream-Datenrate. Diese Verarbeitung kann in der Fernbedienung 1000, der Set-Top-Vorrichtung 1100 oder in der Set-Top-Box stattfinden.
Ein Sprachpaket-Prozessor kann zentral angeordnet sein oder sich in der Nähe eines Leitungs-Knotens befinden, um die Upstream-Sprachpakete, die an die Spracherkennungs-Engine angelegt werden müssen, zu erfassen und aufzubereiten.
Ein Sprachprozessor-System kann zentral angeordnet sein oder sich in der Nähe eines Leitungs-Knotens befinden, der auch ein zentraler Ort eines Kabelfernsehsystems (CAN) sein kann. Das Spracherkennungs-System kann zentral oder in der Nähe einer Server-Farm angeordnet sein. Das Spracherkennungs-System kann zentral oder in der Nähe eines Ortes, an dem Web- Seiten bereitgestellt werden, angeordnet sein. Das Spracherkennungs-System kann zentral in der Nähe eines Gateways angeordnet sein.
Die Spracherkennungs-Engine verarbeitet Sprachpakete, um einen Sprachinhalt zu erzeugen und die Reaktion auf den Sprachinhalt für jeden der Teilnehmerstandorte zu formulieren.
Das System führt auch die Adress-Decodierung für das Routing und die Verringerung der Verzögerungszeit durch. Es führt auch die Funktion des Decodierens der Pausen zwischen Worten oder Tönen durch, die ursprünglich im Preprozessor am Teilnehmerstandort codiert wurden.
Für einen sehr hohen Sicherheitsgrad wird ein Verfahren bereitgestellt, das auf der Fähigkeit beruht, die Sprache der Eltern oder eines Kindes auf der Grundlage einer begrenzten Untermenge von Auswahlmöglichkeiten präzise zu erkennen. Die Fähigkeit, einen einzelnen Sprecher mit einer sehr hohen Wahrscheinlichkeit der Erkennung des speziellen Sprechers zu erkennen, beruht auf der Kenntnis der Adresse des Teilnehmerstandortes.
Eine zentral angeordnete Engine zur Erkennung natürlicher Sprache mit hoher Kapazität kann einen speziellen Sprecher leicht aus einer kleinen Menge an Auswahlmöglichkeiten erkennen, was es den Eltern erlaubt, die Art oder die Menge oder die Zeiten des Inhaltes, den ein Kind anfordern kann, festzulegen und damit zu kontrollieren. Ein Kind ist in der Lage, PIN-Nummern zu lernen, kann aber die Sprach-Charakteristik nicht überlisten. Die Spracherkennung ist in dieser Eltern-Kontroll-Anwendung besonders interessant und kann wegen der begrenzten Anzahl von Sprechern pro Teilnehmerstandort mit sehr hoher Genauigkeit angewendet werden. Eltern können mit diesem System und seiner Verwendung die speziellen Fernseh-Zeiten, die Gesamtzeit oder den Inhalt kontrollieren, den Kinder fernsehen dürfen.
Die Erklärung des Betriebs, die gerade bezüglich der 3–5 angegeben wurde, lässt sich auf die relevanten betrieblichen Ausführungen des Systems anwenden, die auf einer beliebigen und allen der 19A bis 24, sowie den 26 bis 31 beruhen.
Ein Parallel-Prozessor-System, das diese Art von System unterstützt, wird in der US-Patentanmeldung mit der Seriennummer 60/210,440 offen gelegt, die den Titel "System and Method of a Multi-dimensional Plex Communication Network" hat und Plex-Prozessor-Netzwerke beschreibt, und das hierin als Referenz aufgenommen wird.
Ein Plex-Kommunikations-Netzwerk hat M orthogonale Richtungen, welche die Kommunikation zwischen einem M-dimensionalen Gitter unterstützen, das N^M Plex-Knoten enthalten kann, wobei M mindestens zwei und N mindestens vier ist. Jedes Plex-Knoten-Bündel enthält in einer ersten orthogonalen Richtung mindestens vier Plex-Knoten, und jedes Plex-Knoten-Bündel enthält in einer zweiten orthogonalen Richtung mindestens zwei Plex-Knoten. Jeder der Plex-Knoten enthält eine Vielzahl von Anschlüssen.
Ein Plex-Knoten-Bündel bezeichnet eine 1-dimensionale Sammlung von Plex-Knoten, die sich voneinander nur in einer Dimensions-Komponente unterscheiden, d.h. in der orthogonalen Richtung des Bündels. Zum Beispiel enthält ein Knoten-Bündel in der ersten orthogonalen Richtung einer zweidimensionalen Anordnung die Plex-Knoten, die sich nur in der ersten Dimensions-Komponente unterscheiden. Ein Knoten-Bündel in der zweiten orthogonalen Richtung einer zweidimensionalen Anordnung enthält die Plex-Knoten, die sich nur in der zweiten Dimensions-Komponente unterscheiden.
Das Plex-Kommunikationsnetz besteht aus einem Kommunikations-Gitter, das die Plex-Knoten untereinander verbindet. Das Kommunikations-Gitter kann für jede der M Richtungen N^(M – 1) Kommunikations-Bündel enthalten. Jedes der Kommunikations-Bündel in jeder orthogonalen Richtung ist mit ei nem entsprechenden Plex-Knoten-Bündel gekoppelt, das eine Vielzahl von Plex-Knoten enthält, die jede Paarung von Plex-Knoten des entsprechenden Plex-Knoten-Bündels direkt koppelt.
Die Kommunikation zwischen zwei Plex-Knoten eines Knoten-Bündels, das mit dem entsprechenden Kommunikations-Bündel gekoppelt ist, umfasst die Überquerung der physikalischen Transport-Schicht(en) des Kommunikations-Bündels.
Solche Plex-Kommunikations-Netzwerke unterstützen die direkte Kommunikation zwischen zwei beliebigen Plex-Knoten, die zum selben Kommunikations-Bündel gehören. Dies unterstützt die Kommunikation zwischen zwei beliebigen Plex-Knoten in höchstens M Etappen zwischen Plex-Knoten.
6 zeigt eine eng gekoppelte Server-Farm 3000 aus 3, die in einem zweidimensionalen Plex-Kommunikations-Netzwerk mit N = 4 Plex-Knoten in jeder von zwei orthogonalen Richtungen der Plex-Knoten-Anordnung implementiert ist.
Betrachten wir das Plex-Knoten-Bündel in der ersten orthogonalen Richtung, das Plex-Knoten 0,0, Plex-Knoten 1,0, Plex-Knoten 2,0 und Plex-Knoten 3,0 enthält. Das Kommunikations-Bündel 400 in der ersten orthogonalen Richtung ist mit den Plex-Knoten dieses Plex-Knoten-Bündels gekoppelt. Plex-Knoten 0,0 ist mit Kommunikations-Bündel 400 gekoppelt 402. Plex-Knoten 1,0 ist mit Kommunikations-Bündel 400 gekoppelt 404. Plex-Knoten 2,0 ist mit Kommunikations-Bündel 400 gekoppelt 406. Plex-Knoten 3,0 ist mit Kommunikations-Bündel 400 gekoppelt 408.
Betrachten wir das Plex-Knoten-Bündel in der ersten orthogonalen Richtung, das Plex-Knoten 0,1, Plex-Knoten 1,1, Plex-Knoten 2,1 und Plex-Knoten 3,1 enthält. Das Kommunikations-Bündel 410 in der ersten orthogonalen Richtung ist mit den Plex-Knoten dieses Plex-Knoten-Bündels gekoppelt. Plex- Knoten 0,1 ist mit Kommunikations-Bündel 410 gekoppelt 412. Plex-Knoten 1,1 ist mit Kommunikations-Bündel 410 gekoppelt 414. Plex-Knoten 2,1 ist mit Kommunikations-Bündel 410 gekoppelt 416. Plex-Knoten 3,1 ist mit Kommunikations-Bündel 410 gekoppelt 418.
Betrachten wir das Plex-Knoten-Bündel in der ersten orthogonalen Richtung, das Plex-Knoten 0,2, Plex-Knoten 1,2, Plex-Knoten 2,2 und Plex-Knoten 3,2 enthält. Das Kommunikations-Bündel 420 in der ersten orthogonalen Richtung ist mit den Plex-Knoten dieses Plex-Knoten-Bündels gekoppelt. Plex-Knoten 0,2 ist mit Kommunikations-Bündel 420 gekoppelt 422. Plex-Knoten 1,2 ist mit Kommunikations-Bündel 420 gekoppelt 424. Plex-Knoten 2,2 ist mit Kommunikations-Bündel 420 gekoppelt 426. Plex-Knoten 3,2 ist mit Kommunikations-Bündel 420 gekoppelt 428.
Betrachten wir das Plex-Knoten-Bündel in der ersten orthogonalen Richtung, das Plex-Knoten 0,3, Plex-Knoten 1,3, Plex-Knoten 2,3 und Plex-Knoten 3,3 enthält. Das Kommunikations-Bündel 430 in der ersten orthogonalen Richtung ist mit den Plex-Knoten dieses Plex-Knoten-Bündels gekoppelt. Plex-Knoten 0,3 ist mit Kommunikations-Bündel 430 gekoppelt 432. Plex-Knoten 1,3 ist mit Kommunikations-Bündel 430 gekoppelt 434. Plex-Knoten 2,3 ist mit Kommunikations-Bündel 430 gekoppelt 436. Plex-Knoten 3,3 ist mit Kommunikations-Bündel 430 gekoppelt 438.
Drei dieser Anschlüsse an jedem Plex-Knoten sind dafür vorgesehen, über eine Sammlung von Kommunikations-Pfaden, die das Kommunikations-Bündel in der zweiten orthogonalen Richtung bilden, eine direkte Verbindung zu den anderen Plex-Knoten seiner Zeile bereitzustellen. Diese Plex-Knoten gehören zur selben Zeile wie die Plex-Knoten des Plex-Knoten-Bündels in der zweiten orthogonalen Richtung.
Ein Plex-Knoten kann mindestens einen zusätzlichen Anschluss haben. Mindestens einer der zusätzlichen Anschlüsse kann mit einem externen Netz werk verbunden sein. Weiterhin kann mindestens einer der zusätzlichen Ports mit einem externen Massenspeicher-System verbunden sein. In anderen Ausführungen der Erfindung kann mindestens einer der zusätzlichen Anschlüsse mit einem externen Datenbank-System verbunden sein.
Ein Plex-Knoten kann mindestens einen Instruktions-Prozessor enthalten. Wie hier verwendet, umfasst ein Instruktions-Prozessor Instruktionssatz-Prozessoren, Folgerungs-Engines und analoge Prozessoren, ist aber nicht darauf beschränkt. Ein Instruktionssatz-Prozessor bezieht sich auf Instruktions-Prozessoren, die den Zustand direkt auf der Grundlage einer Instruktion ändern, und die einen internen Zustand durch Ausführung der Instruktion ändern. Die Instruktion kann direkte oder eigene Instruktionen oder interpretierte Instruktionen umfassen, ist aber nicht darauf beschränkt. Eine Folgerungs-Engine ändert den Zustand, wenn eine Instruktion angelegt wird, die eine Aussage, eine Annahme oder eine Schlussfolgerungs-Regel enthalten kann. Folgerungs-Engines enthalten Horn-Clause-Engines, wie sie Prolog erfordert, auf Bedingungen basierende Systeme und neuronale Netz-Engines, sind aber nicht darauf beschränkt. Wie hier verwendet, enthalten analoge Prozessoren optische Signalprozessoren, CCDs und Resonanzkammer-Bauelemente, die auf Daten und/oder Steuersignale reagieren, die im analogen Bereich angelegt werden, sind aber nicht darauf beschränkt.
Kommunikation umfasst die Kommunikation unter Verwendung eines digitalen Kommunikations-Protokolls, ist aber nicht darauf beschränkt. Kommunikation umfasst auch ein Nachrichtenübermittlungs-Protokoll, welches das digitale Kommunikations-Protokoll benutzt. Kommunikation umfasst auch ein Nachrichtenübermittlungs-Protokoll, das TCP-IP unterstützt, das Internet unterstützt und/oder das World Wide Web unterstützt.
Kommunikation kann auch mindestens ein Video-Datenstrom-Protokoll unterstützen, das ein digitales Kommunikations-Protokoll verwendet. Kommunikation kann auch mindestens ein Multimedia-Datenstrom-Protokoll unterstüt zen, die Video-Datenstrom-Protokolle benutzen, einschließlich Motion JPEG und/oder mindestens eine Form von MPEG.
Die Erfindung kann Wellenlängen-Multiplex (Wavelength Division Multiplex, WDM) über das physikalische Übertragungsmedium der Kommunikationspfade der Kommunikations-Bündel unterstützen.
Jeder Plex-Knoten kann einen Kommunikations-Prozessor enthalten. Jeder Plex-Knoten kann weiterhin M Kommunikations-Prozessoren enthalten. Die Anschlüsse jedes Kommunikations-Prozessors können mit jedem der Bündel verbunden werden und die Bündel-Kommunikations-Verarbeitung unterstützen.
7 zeigt einen Gateway 3100 aus 3, der in einem zweidimensionalen Plex-Kommunikations-Netzwerk mit N = 4 Plex-Knoten in jeder von zwei orthogonalen Richtungen der Plex-Knoten-Anordnung implementiert ist.
In den 6 und 7 können Upstream-Signale 1510 am Plex-Knoten 0,0 empfangen werden, der Funktionen ausführt, die in ihrer Natur denen des Prozessor-Knotens 3110 der 3, 4 und 5 ähnlich sind. Plex-Knoten 0,1 kann mit dem RAID 3130 Subsystem gekoppelt sein 3142, das einen sehr schnellen Zugriff auf eine Festplatten-Farm hoher Kapazität bietet. Verschiedene Signale 1512 bis 1518 können von verschiedenen Plex-Knoten erzeugt werden. Man beachte, dass wegen der Gleichartigkeit der Kommunikations-Struktur eine große Flexibilität bei der Auswahl besteht, welcher Plex-Knoten welche Kommunikations-Signale erzeugt.
7 zeigt auch die Kopplung 3002 mit einer Spracherkennungs-Server-Anordnung 3200.
8 zeigt eine gekoppelte Server-Anordnung 3200 aus 3, die in einem zweidimensionalen Plex-Kommunikations-Netzwerk mit N = 4 Plex- Knoten in jeder von zwei orthogonalen Richtungen der Plex-Knoten-Anordnung implementiert ist.
Jeder Plex-Knoten aus 8 kann ein Plex-Kommunikations-Netzwerk enthalten, das eine zwei- oder mehrdimensionale Anordnung interner Plex-Knoten unterstützt, wobei jeder mindestens einen Instruktions-Prozessor enthält.
9 zeigt ein vereinfachtes Blockdiagramm, in dem eine Anordnung von Prozessoren, wie als 3200 in 3 gezeigt, verwendet wird.
Betrachten wir eine Anordnung von Plex-Knoten, wobei jeder Plex-Knoten Mehrprozessor-ICs verwendet, die mit CPU bezeichnet sind. Jede CPU kann drei oder mehr serielle Hochgeschwindigkeits-Protokoll-Kanäle C1-3, einen Hochgeschwindigkeits-Verbindungs-Bus B1, einen Verbindungs-Bus mit kleiner Datenrate PCI und einen Zugriffs-Bus R für den lokalen Speicher besitzen. Jede CPU kann mindestens zwei Prozessoren enthalten. Jeder Prozessor kann ein Instruktions-Prozessor sein. Jede CPU kann ein integrierter Schaltkreis sein. Der integrierte Schaltkreis kann ein BCM12500 sein, der von Broadcom Corporation of Irvine, Kalifornien, hergestellt wird.
CPU1 und CPU2 sind über mindestens einen der Verbindungs-Busse lokal gekoppelt. Jede CPU besitzt einen über einen Bus R zugänglichen lokalen Speicher. Jede CPU kann weiterhin über ihren eigenen Bus R auf lokal zugänglichen Speicher zugreifen. Der über den Bus R zugängliche Speicher kann DDR SDRAM (Double Data Rate Synchronous DRAM) sein.
Drei serielle Protokoll-Kanäle für die erste CPU jedes CPU-Paares sind für die Kommunikation innerhalb jeder Zeile von CPU-Paaren bestimmt. Drei serielle Protokoll-Kanäle für die zweite CPU jedes CPU-Paares sind für die Kommunikation innerhalb jeder Spalte von CPU-Paaren bestimmt.
Nehmen wir an, jede CPU enthält mindestens zwei Prozessoren. Nehmen wir an, jeder Prozessor arbeitet mit K Milliarden Integer-Operationen/Sekunde und L Milliarden Gleitkomma-Operationen/Sekunde. Nehmen wir an, die seriellen Hochgeschwindigkeits-Kanäle unterstützen bidirektionale Übertragungsraten von Gigabit/Sekunde. Die DDR DRAMs unterstützen Zugriffsraten von M Gigabyte/Sekunde. Das System liefert 64*K Milliarden Integer-Operationen, 64*L Milliarden Gleitkomma-Operationen, 128 Gigabit/Sekunde Verbindungs-Kommunikations-Bandbreite innerhalb der Anordnung über die seriellen Hochgeschwindigkeits-Kanäle, sowie Zugriffe auf den lokalen Speicher mit 64*M Gigabyte/Sekunde. Indem die auf jedem Prozessor laufenden Tasks entkoppelt und dadurch unabhängig voneinander werden und simultan laufen, wird mit dieser Systemarchitektur der Traum von einem Multiple-Instruction Multiple Datapath Computing (MIMD) verwirklicht, bei dem sich mit steigender Anzahl von Prozessoren für bis zu 64 Prozessoren eine im Wesentlichen lineare Erhöhung der Geschwindigkeit ergibt.
Solche Architekturen können jeden Prozessor unterstützen, der einen Rahmen in einem lokalen Rahmen-Puffer erzeugt und ihn in einen Bewegtbild-Video-Datenstrom liefert, der in einen gemultiplexten Video-Inhalts-Datenstrom zusammengefasst wird, der sich für eine Vielzahl von Multimedia-Anwendungen eignet. Diese Vorrichtung erfüllt oder übersteigt die Anforderungen einer Anzahl von Computer-Anwendungen der Teraflop-Klasse, für die es zurzeit keine kostengünstige Lösung gibt. Man beachte, dass die Prozessoren jeweils Doppel-Instruktions-Prozessoren sein können, die in einem einzigen Gehäuse untergebracht sind.
Jede dieser Anordnungen verarbeitet gleichzeitig über 1000 Sprecher und passt in einen einzigen Gestellrahmen. Standard-Gestellrahmen mit 72 Zoll Höhe können dann 4 solche Sprach-Engines enthalten, hier auch als AVPU bezeichnet, die bis zu 140000 Teilnehmer unterstützen. Jeder Server enthält mindestens doppelte, redundante, im Betrieb auswechselbare Stromversorgungen und redundante, im Betrieb auswechselbare Festplatten mit automa tischem Wiederanlauf bei ausgefallenen Laufwerken. Die im Betrieb auswechselbaren Stromversorgungen können weiterhin auf die Hälfte des Strombedarfs dimensioniert sein, wobei jede die Stromversorgungs-Anforderungen einer Hälfte der Server-Engine liefert.
Eine umfassende Echtzeit-Diagnose und kontinuierliche Verbindungsmöglichkeiten zu einem rund um die Uhr (24 × 7) laufenden Netzwerk-Betriebs-Zentrum garantieren eine rechtzeitige Fehlererkennung und einen rechtzeitigen Service-Einsatz. In Systemen mit mehr als einer Sprach-Engine behandelt der Server katastrophale Ausfälle automatisch. Sogar wenn eine gesamte Sprach-Engine ausfällt, übernehmen die verbleibenden die Arbeit.
10 zeigt ein Flussdiagramm eines Verfahrens, bei dem ein Rückkanal verwendet wird, der eine Vielzahl von erkannten Sprachkanälen zur Spracherkennung in einem Leitungs-Knoten in einem Netzwerk enthält, das Video-Verteildienste oder Kabelfernsehen gemäß der Erfindung unterstützt. Der Rückkanal kommt von einer Vielzahl von Teilnehmerstandorten und wird in ein Sprachverarbeitungssystem am Leitungs-Knoten im Netzwerk eingegeben. Das Sprachverarbeitungssystem führt die Operationen des Verfahrens aus.
Operation 2000 beginnt die Ausführung dieses Flussdiagramms. Der Pfeil 2002 richtet den Fluss der Ausführung von Operation 2000 zur Operation 2004. Operation 2004 führt den Empfang des Rückkanals aus, um einen empfangenen Rückkanal zu erzeugen. Der Pfeil 2006 richtet die Ausführung von Operation 2004 zur Operation 2008. Operation 2008 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2010 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2012. Operation 2012 führt die Aufteilung des empfangenen Rückkanals in eine Vielzahl empfangener erkannter Sprachkanäle durch. Der Pfeil 2014 richtet die Ausführung von Operation 2012 zur Operation 2008. Operation 2008 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2020 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2022. Operation 2022 führt die Verarbeitung der Vielzahl empfangener erkannter Sprachkanäle durch, um eine Vielzahl empfangenen Sprach-Inhalts zu erzeugen. Der Pfeil 2024 richtet die Ausführung von Operation 2022 zur Operation 2008. Operation 2008 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2030 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2032. Operation 2032 führt die Reaktion auf den erkannten Sprach-Inhalt durch, um eine Reaktion auf den erkannten Sprach-Inhalt für jeden aus der Vielzahl der erkannten Sprach-Inhalte zu erzeugen. Der Pfeil 2034 richtet die Ausführung von Operation 2032 zur Operation 2008. Operation 2008 beendet die Operationen dieses Flussdiagramms.
Teile des Flussdiagramms von 10, die zu den Operationen 2022 und 2032 gehören, können ein Sprachverarbeitungssystem betreiben, das mit einem Leitungs-Knoten in einem Netzwerk gekoppelt ist. Der Leitungs-Knoten liefert mehrere empfangene erkannte Sprachkanäle an das Sprachverarbeitungssystem. Die empfangenen erkannten Sprachkanäle basieren auf einem am Leitungs-Knoten empfangenen Rückkanal von mehreren Teilnehmerstandorten, die mit dem Netzwerk gekoppelt sind. Das Netzwerk unterstützt Video-Verteildienste für die Teilnehmerstandorte und/oder Kabelfernsehen für die Teilnehmerstandorte.
Das Sprachverarbeitungssystem kann mindestens einen Computer enthalten. Die Operationen 2022 und 2032 können als Programmschritte eines Programmsystems implementiert sein, das mindestens einen Teil der Computer betreibt, die im Sprachverarbeitungssystem enthalten sind. Implementationen dieser Operationen als Programmschritte können sich im Speicher befinden, der zugreifbar mit mindestens einem Computer im Sprachverarbeitungssystem gekoppelt ist.
Man beachte, dass die Operationen 2002 und 2012 in Hardware und/oder als Programmschritte implementiert sein können, die für den Betrieb der im Leitungs-Knoten befindlichen Computer verwendet werden können. Solche Computer können Teil des Sprachverarbeitungssystems sein oder nicht.
Mindestens einer und möglicherweise alle erkannten Sprachkanäle können einen zugeordneten Teilnehmerstandort haben.
11A zeigt ein detailliertes Flussdiagramm der Operation 2012 aus 10, die den empfangenen Rückkanal weiter unterteilt.
Der Pfeil 2070 richtet den Fluss der Ausführung von Start-Operation 2012 zur Operation 2072. Operation 2072 führt die Unterteilung des empfangenen Rückkanals in eine Vielzahl empfangener erkannter Sprachkanäle vom zugeordneten Teilnehmerstandort durch. Der Pfeil 2074 richtet die Ausführung von Operation 2072 zur Operation 2076. Operation 2076 beendet die Operationen dieses Flussdiagramms.
11B zeigt ein detailliertes Flussdiagramm der Operation 2022 aus 10, die die Vielzahl empfangener erkannter Sprachkanäle weiter verarbeitet.
Der Pfeil 2090 richtet den Fluss der Ausführung von Start-Operation 2022 zur Operation 2092. Operation 2092 führt die Verarbeitung der Vielzahl empfangener erkannter Sprachkanäle vom zugeordneten Teilnehmerstandort durch, um mehrere erkannte Sprach-Inhalte zu erzeugen. Der Pfeil 2094 richtet die Ausführung von Operation 2092 zur Operation 2096. Operation 2096 beendet die Operationen dieses Flussdiagramms.
11C zeigt ein detailliertes Flussdiagramm der Operation 2032 aus 10, die weiter auf den erkannten Sprachinhalt reagiert.
Der Pfeil 2110 richtet den Fluss der Ausführung von Start-Operation 2032 zur Operation 2112. Operation 2112 führt die Reaktion auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort durch, um eine Reaktion auf den erkannten Sprachinhalt für den zugeordneten Teilnehmerstandort zu erzeugen. Der Pfeil 2114 richtet die Ausführung von Operation 2112 zur Operation 2116. Operation 2116 beendet die Operationen dieses Flussdiagramms.
12 zeigt ein detailliertes Flussdiagramm der Operation 2000 aus 10, die das Verfahren der Verwendung des Rückkanals von mehreren Teilnehmerstandorten weiter ausführt.
Der Pfeil 2120 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2122. Operation 2122 führt die Bestimmung des zugeordneten Teilnehmerstandortes aus dem empfangenen erkannten Sprachkanal durch. Der Pfeil 2124 richtet die Ausführung von Operation 2122 zur Operation 2126. Operation 2126 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2130 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2132. Operation 2132 führt die Bestimmung des zugeordneten Teilnehmerstandortes aus dem erkannten Sprachinhalt durch. Der Pfeil 2134 richtet die Ausführung von Operation 2132 zur Operation 2126. Operation 2126 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2140 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2142. Operation 2142 führt die Bestimmung des zugeordneten Teilnehmerstandortes aus dem erkannten Sprachinhalt und einer Sprechererkennungs-Bibliothek durch. Der Pfeil 2144 richtet die Ausführung von O peration 2142 zur Operation 2126. Operation 2126 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2150 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2152. Operation 2152 führt die Bestimmung des zugeordneten Teilnehmerstandortes aus dem erkannten Sprachinhalt und einer Sprach-Erkennungs-Bibliothek durch. Der Pfeil 2154 richtet die Ausführung von Operation 2152 zur Operation 2126. Operation 2126 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2160 richtet den Fluss der Ausführung von Start-Operation 2000 zur Operation 2162. Operation 2162 führt die Bestimmung des zugeordneten Teilnehmerstandortes aus einer Kennung im Sprachkanal durch. Der Pfeil 2164 richtet die Ausführung von Operation 2162 zur Operation 2126. Operation 2126 beendet die Operationen dieses Flussdiagramms.
Man beachte, dass die Bestimmung des zugeordneten Teilnehmerstandortes durch eine Kennung innerhalb des Sprachsignal geliefert werden kann. Zum Beispiel kann ein Techniker an vielen Teilnehmerstandorten erkennbar sein und kann den Teilnehmerstandort in dem Prozess von Aktivitäten an dem Teilnehmerstandort als Raum 432 oder Hauptstraße 10 kennzeichnen.
Die Erfindung kann mindestens eine der Operationen 2120, 2132, 2142, 2152 und 2162 enthalten.
13A zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf erkannte Sprachinhalte weiter reagiert.
Der Pfeil 2170 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2172. Operation 2172 führt die Verarbeitung der Reaktion auf den erkannten Sprachinhalt durch, um die Reaktion auf den erkannten Teilnehmerstandort zu erzeugen. Der Pfeil 2174 richtet die Ausführung von Operati on 2172 zur Operation 2176. Operation 2176 sendet die Reaktion auf den erkannten Teilnehmerstandort zum erkannten Teilnehmerstandort. Der Pfeil 2178 richtet die Ausführung von Operation 2176 zur Operation 2180. Operation 2180 beendet die Operationen dieses Flussdiagramms.
13B zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf den erkannten Sprachinhalt weiter reagiert.
Der Pfeil 2190 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2192. Operation 2192 führt die Bewertung der Reaktion auf den Sprachinhalt durch, der für den Teilnehmerstandort erkannt wurde, um eine für den Teilnehmerstandort erkannte finanzielle Konsequenz zu erzeugen. Der Pfeil 2194 richtet die Ausführung von Operation 2192 zur Operation 2196. Operation 2196 führt die Rechnungserstellung für den Teilnehmerstandort auf der Grundlage der finanziellen Konsequenz durch. Der Pfeil 2198 richtet die Ausführung von Operation 2196 zur Operation 2200. Operation 2220 beendet die Operationen dieses Flussdiagramms.
14 zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort weiter reagiert.
Der Pfeil 2210 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2212. Operation 2212 führt die Bewertung der Reaktion auf den Sprachinhalt durch, um eine für den Teilnehmerstandort erkannte finanzielle Konsequenz zu erzeugen. Der Pfeil 2214 richtet die Ausführung von Operation 2212 zur Operation 2216. Operation 2216 führt die Anzeige der finanziellen Konsequenz durch, um am Teilnehmerstandort eine angezeigte finanzielle Konsequenz zu erzeugen. Der Pfeil 2218 richtet die Ausführung von Operation 2216 zur Operation 2200. Operation 2220 führt die Bestätigung der angezeigten finanziellen Konsequenz vom Teilnehmerstandort durch, um eine finanzielle Verpflichtung zu erzeugen. Der Pfeil 2222 richtet die Ausfüh rung von Operation 2220 zur Operation 2224. Operation 2224 führt die Rechnungserstellung für den Teilnehmerstandort auf der Basis der finanziellen Verpflichtung durch. Der Pfeil 2226 richtet die Ausführung von Operation 2224 zur Operation 2228. Operation 2228 beendet die Operationen dieses Flussdiagramms.
15A zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort weiter reagiert.
Der Pfeil 2250 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2252. Operation 2252 führt die Erkennung eines Teilnehmers auf der Grundlage des für den Teilnehmerstandort erkannten Sprachinhaltes durch, um einen erkannten Teilnehmer zu erzeugen. Der Pfeil 2254 richtet die Ausführung von Operation 2252 zur Operation 2256. Operation 2256 beendet die Operationen dieses Flussdiagramms.
15B zeigt ein detailliertes Flussdiagramm der Operation 2152 aus 15A, die den Teilnehmer weiter erkennt.
Der Pfeil 2270 richtet den Fluss der Ausführung von Start-Operation 2252 zur Operation 2272. Operation 2272 holt eine Teilnehmerprofil-Liste auf der Grundlage des Teilnehmerstandortes, und die Teilnehmerprofil-Liste enthält mindestens ein Teilnehmerprofil. Der Pfeil 2274 richtet die Ausführung von Operation 2272 zur Operation 2276. Operation 2276 führt die Erkennung des Teilnehmers auf der Grundlage des Sprachinhaltes und auf der Grundlage der Teilnehmerprofil-Liste durch, um einen erkannten Teilnehmer zu erzeugen. Der Pfeil 2278 richtet die Ausführung von Operation 2276 zur Operation 2280. Operation 2280 beendet die Operationen dieses Flussdiagramms.
16 zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort weiter reagiert.
Der Pfeil 2290 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2292. Operation 2292 führt die Bewertung der auf dem erkannten Teilnehmer beruhenden Sprach-Reaktion durch, um eine finanzielle Konsequenz für den erkannten Teilnehmer zu erzeugen. Der Pfeil 2294 richtet die Ausführung von Operation 2292 zur Operation 2296. Operation 2296 führt die Anzeige der finanziellen Konsequenz durch, um am Teilnehmerstandort eine angezeigte finanzielle Konsequenz zu erzeugen. Der Pfeil 2298 richtet die Ausführung von Operation 2296 zur Operation 2300. Operation 2300 führt die Bestätigung der angezeigten finanziellen Konsequenz vom Teilnehmerstandort auf der Grundlage des erkannten Teilnehmers durch, um eine finanzielle Verpflichtung zu erzeugen. Der Pfeil 2302 richtet die Ausführung von Operation 2300 zur Operation 2304. Operation 2304 führt die Rechnungserstellung für den erkannten Teilnehmer auf der Basis der finanziellen Verpflichtung durch. Der Pfeil 2306 richtet die Ausführung von Operation 2304 zur Operation 2308. Operation 2308 beendet die Operationen dieses Flussdiagramms.
17A zeigt die Reaktion 2350 auf den Sprachinhalt, die das aktuelle Reaktions-Menü 2352 und die Gesamt-Teilnehmerstandort-Reaktion 2354 gemäß der Erfindung enthält.
Die Reaktion auf den Sprachinhalt kann ein aktuelles Reaktions-Menü und eine Gesamt-Teilnehmerstandort-Reaktion umfassen, die für mindestens einen der Teilnehmerstandorte als für den Teilnehmerstandort erkannt wurde.
17B zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort weiter reagiert.
Der Pfeil 2330 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2332. Operation 2332 führt die Reaktion auf den Sprachinhalt auf der Grundlage des aktuellen Reaktions-Menüs und auf der Grundlage der Gesamt-Teilnehmertandort-Reaktion durch, um eine neue Gesamt-Teilnehmertandort-Reaktion zu erzeugen. Der Pfeil 2334 richtet die Ausführung von Operation 2332 zur Operation 2336. Operation 2336 beendet die Operationen dieses Flussdiagramms.
Der Pfeil 2340 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2342. Operation 2342 führt die Bewertung des Sprachinhalts auf der Grundlage des aktuellen Reaktions-Menüs und auf der Grundlage der Gesamt-Teilnehmertandort-Reaktion durch, um ein neues aktuelles Reaktions-Menü zu erzeugen. Der Pfeil 2344 richtet die Ausführung von Operation 2342 zur Operation 2336. Operation 2336 beendet die Operationen dieses Flussdiagramms.
Mindestens eine der Operationen 2332 oder 2342 muss ausgeführt werden.
18A zeigt ein detailliertes Flussdiagramm der Operation 2112 aus 11C, die auf den erkannten Sprachinhalt vom zugeordneten Teilnehmerstandort weiter reagiert.
Der Pfeil 2370 richtet den Fluss der Ausführung von Start-Operation 2112 zur Operation 2372. Operation 2372 führt die Reaktion auf den Sprachinhalt aus, der auf der Grundlage natürlicher Sprache für den Teilnehmerstandort erkannt wurde, um eine Sprachinhalt-Reaktion des für den Teilnehmerstandort erkannten Sprachinhaltes zu erzeugen. Der Pfeil 2374 richtet die Ausführung von Operation 2372 zur Operation 2376. Operation 2376 beendet die Operationen dieses Flussdiagramms.
18B zeigt ein detailliertes Flussdiagramm der Operation 2092 aus 11B, welche die Vielzahl der empfangenen Sprachkanäle weiter verarbeitet.
Der Pfeil 2390 richtet den Fluss der Ausführung von Start-Operation 2092 zur Operation 2392. Operation 2392 führt die Verarbeitung der empfangenen Sprachkanäle vom Teilnehmerstandort auf der Grundlage natürlicher Sprache für den Teilnehmerstandort durch, um einen für den Teilnehmerstandort erkannten Sprachinhalt zu erzeugen. Der Pfeil 2394 richtet die Ausführung von Operation 2392 zur Operation 2396. Operation 2396 beendet die Operationen dieses Flussdiagramms.
19A zeigt ein vereinfachtes Blockdiagramm einer Hand-Fernbedienung 1000, die ein Mikrophon 1060 und eine Tastatur 1020 enthält, die Teilnehmereingaben unterstützen, was vom Embedded Controller 1050 organisiert und verarbeitet wird, um eine Kommunikation über die drahtlose Schnittstelle 1040 durchzuführen, die mit der Set-Top-Vorrichtung 1100 gekoppelt 1002 ist, wie in 3 gezeigt.
19B zeigt ein vereinfachtes Blockdiagramm der Set-Top-Vorrichtung 1100, wie in 3 gezeigt, das die Kopplung 1002 und das erste drahtgebundene Übertragungsmedium 1200 zeigt, das aus der Downlink-Kopplung 1202 und der Uplink-Kopplung 1204 besteht.
Man beachte, dass das Mikrophon 1060 mehr als einen Audio-Sensor und/oder eine Mikrophon-Anordnung von zwei oder mehr Mikrophoneinheiten enthalten kann.
19C zeigt weiterhin die Set-Top-Vorrichtung 1100, wie in 19B gezeigt, die ein Set-Top-Gerät 1120 enthält, das mit der Hand-Fernbedienung 1000 gekoppelt 1002 ist. Das Set-Top-Gerät 1120 ist mit der Set-Top-Box 1110 gekoppelt 1112, das eine Downlink-Kopplung 1202 und eine Uplink-Kopplung 1204 besitzt.
19D zeigt weiterhin die Set-Top-Vorrichtung 1100, wie in 19B gezeigt, die ein Set-Top-Gerät 1120 enthält, das mit der Hand-Fernbedienung 1000 gekoppelt 1002 ist und eine Downlink-Kopplung 1202 und eine Uplink-Kopplung 1204 besitzt. Das Set-Top-Gerät 1120 bietet eine verarbeitete Downlink-Kopplung 1114 zur Set-Top-Box 1110 und empfängt eine Anfangs-Uplink-Kopplung 1112 von der Set-Top-Box 1110.
Betrachtet man die 19A–19D, können folgende Beobachtungen gemacht werden.
Die Erfindung unterstützt die unidirektionale Kommunikation über die Kopplung 1002, welche die kommunikative Übertragung von der Fernbedienung 1000 über die Kopplung 1002 zur Set-Top-Vorrichtung 1100 unterstützt.
Die Erfindung unterstützt die bidirektionale Kommunikation über die Kopplung 1002. Man beachte, dass Mikrophone 1060 mit Störunterdrückung die bidirektionale Kommunikation auf der Kopplung 1002 verwenden können. Die Störunterdrückung kann in der Set-Top-Vorrichtung 1100 durch Set-Top-Box 1110 und/oder Set-Top-Gerät 1120 durchgeführt werden.
Die drahtlose Schnittstelle 1040 interagiert mit der Kopplung 1002. Die Kopplung 1002 kann eine drahtlose Übertragung benutzen, einschließlich, aber nicht beschränkt auf mindestens eine der folgenden Signalisierungen: Infrarot, Mikrowellen, Funkfrequenz-Spektrum, sowie Ultraschall. Der Embedded Controller 1050 steuert 1042 die drahtlose Schnittstelle 1040. Der Embedded Controller 1150 kommuniziert über 1042 mit der drahtlosen Schnittstelle 1040 für eine direkte Kommunikation über Kopplung 1002.
20A zeigt ein vereinfachtes Blockdiagramm des Set-Top-Gerätes 1120, wie in 19C gezeigt, das die Kopplung 1002 mit der Hand-Fernbedienung 1000 und die Kopplung 1112 mit der Set-Top-Box 1110 unterstützt.
Der Computer 1150 ist mit der Fernbedienungs-Schnittstelle 1130 gekoppelt 1132 und ist auch mit der Set-Top-Box-Schnittstelle 1140 gekoppelt 1142. Der Computer 1150 führt ein Programmsystem aus, das Programmschritte enthält, die sich im zugreifbar gekoppelten 1162 Speicher 1160 befinden.
Das von Computer 1150 ausgeführte Programmsystem enthält Programmschritte, mit denen die Kommunikation der Hand-Fernbedienung 1000 über die Fernbedienungs-Schnittstelle 1130 durchgeführt wird und mit denen die Kommunikation der Set-Top-Box 1120 über die Set-Top-Box-Schnittstelle 1140 durchgeführt wird.
Die Fernbedienungs-Schnittstelle 1130 ist mit der Hand-Fernbedienung 1000 (in 20A nicht gezeigt) gekoppelt 1002.
Die Fernbedienungs-Schnittstelle 1130 enthält das/die erforderliche(n) Gerät(e) zur Bereitstellung der Kommunikation unter Verwendung der physikalischen Transport-Schicht der Ausführung.
Die Schnittstelle der Set-Top-Box 1140 ist mit der Set-Top-Box 1120 gekoppelt 1112, wie in 19C gezeigt. Zur Kopplung 1112 kann eine drahtgebundene oder eine drahtlose Übertragung verwendet werden. Die Kopplung 1112 kann eine drahtlose Übertragung benutzen, einschließlich, aber nicht beschränkt auf mindestens eine der folgenden Signalisierungen: Infrarot, Mikrowellen, Funkfrequenz-Spektrum, sowie Ultraschall. Die Schnittstelle der Set-Top-Box 1140 enthält das/die erforderliche(n) Gerät(e) zur Bereitstellung der Kommunikation unter Verwendung der physikalischen Transport-Schicht der Ausführung.
20B zeigt ein vereinfachtes Blockdiagramm des Set-Top-Gerätes 1120, wie in 19D gezeigt, das die Kopplung 1002 mit der Hand-Fernbedienung 1000 und die Kopplungen 1112 und 1114 mit der Set-Top-Box unterstützt.
Die Schnittstelle der Set-Top-Box 1140 bietet eine verarbeitete Downlink-Kopplung 1114 zur Set-Top-Box 1110 und empfängt eine Anfangs-Uplink-Kopplung 1112 von der Set-Top-Box 1110, wie in 19D gezeigt. Die Schnittstelle der Set-Top-Box 1140 enthält das/die erforderliche(n) Gerät(e) zur Bereitstellung dieser Kommunikationen.
20C zeigt ein Blockdiagramm, das den zugreifbar gekoppelten 1162 Speicher 1160, wie in den 20A und 20B gezeigt, weiter darstellt.
Der zugreifbar gekoppelte 1162 Speicher 1160 kann RAM-Speicher 1180 enthalten, der mit dem Computer 1150 gekoppelt 1182 ist. Der zugreifbar gekoppelte Speicher 1160 kann mehr als einen RAM-Speicher 1180 enthalten. Verschiedene RAM-Speicher 1180 können mit dem Computer 1150 gekoppelt sein. Ein oder mehrere RAM-Speicher 1180 können als Cache-Speicher für Computer 1150 dienen.
Der zugreifbar gekoppelte 1162 Speicher 1160 kann Festwertspeicher 1190 enthalten, der mit dem Computer 1150 gekoppelt 1192 ist. Der zugreifbar gekoppelte Speicher 1160 kann mehr als einen Festwertspeicher 1190 enthalten. Verschiedene Festwertspeicher 1190 können mit dem Computer 1150 gekoppelt sein. Ein Festwertspeicher kann als Datei-Management-System organisiert sein.
Man beachte, dass die Kopplung 1182 von RAM-Speicher 1180 sich von der Kopplung 1192 des Festwertspeichers 1190 mit dem Computer 1150 unterscheiden kann. Entweder RAM-Speicher- und/oder Festwertspeicher-Komponenten können mit dem Computer 1150 in einem Gehäuse untergebracht sein.
21 zeigt eine Fernbedienung 1000-180, die mit der Set-Top-Vorrichtung 1100-180 gekoppelt 1002-180 ist. Die Set-Top-Vorrichtung 1100-180 kommuniziert über ein ein- oder zweistufiges drahtgebundenes Kommunikations system, das ein drahtgebundenes physikalisches Übertragungsmedium 1200 enthält, mit einem erweiterten Verteiler-Knoten 1310. Die Kommunikation durchquert den erweiterten Verteiler-Knoten 1310, der an eine drahtgebundene Kommunikations-Schleife angeschlossen ist, die eine erweiterte Kopfstation 1410 enthält. Das Netzwerk kann weiterhin eine Kommunikations-Schleife unterstützen, die eine erweiterte Stadt-Kopfstation 1410 enthält.
Wie hier verwendet, wird das Adjektiv erweitert dazu benutzt, einen Knoten zu bezeichnen, der mindestens eine Ausführung der Erfindung enthält.
Der erweiterte Knoten 1310 kann eine optimierte Upstream-Kommunikation steuern und unterstützen, wie in der gleichzeitig eingereichten Patentanmeldung mit der Seriennummer 09/679,115 offen gelegt wird, die den Titel "Increased Bandwidth in Aloha-based Frequency Hopping Transmission Systems" hat, von Calderone und Foster, beide Erfinder dieser Anmeldung und gemeinsam AgileTV zugeteilt, das hier als Referenz mit aufgenommen wird.
Der erweiterte Knoten 1310 kann zwischengespeicherten Inhalt bereitstellen, wie beliebte Videos für einen VOD-Dienst.
Die Sprachverarbeitung kann in vielen Situationen im erweiterten Knoten 1310 durchgeführt werden.
Die erweiterte Kopfstation 1410 und die erweiterte Stadt-Kopfstation 1410 bieten Sprachverarbeitungs-Funktionen. Die erweiterte Kopfstation 1410 kann dazu verwendet werden, die Sprachverarbeitung für die Knoten 120 und 124 durchzuführen. Die erweiterte Stadt-Kopfstation 1410 kann dazu verwendet werden, die Sprachverarbeitung für die Kopfstationen 100 und 106 durchzuführen. Die Kopfstationen 100 und 106 und die Knoten 120 und 124 sind nicht durch diese Erfindung erweitert.
Alternativ kann die erweiterte Kopfstation 1410 die optimierte Upstream-Kommunikation steuern, wie in der gleichzeitig eingereichten Patentanmeldung mit der Seriennummer 09/679,115 offen gelegt wird, die den Titel "Increased Bandwidth in Aloha-based Frequency Hopping Transmission Systems" hat. Der Knoten 1310 kann die optimierte Upstream-Kommunikation unterstützen. Die Upstream-Kommunikation vom erweiterten Knoten 1310 und von der erweiterten Kopfstation 1410 können dasselbe Upstream-Kommunikationsprotokoll oder unterschiedliche Upstream-Kommunikationsprotokolle verwenden.
Man beachte, dass die Stadt-Kopfstation 1410 nicht am optimierten Upstream-Kommunikations-Verfahren beteiligt sein kann.
Alternativ kann die Stadt-Kopfstation 1410 an dem optimierten Upstream-Kommunikations-Verfahren beteiligt sein. Die erweiterte Stadt-Kopfstation 1410 kann weiterhin die optimierte Upstream-Kommunikation steuern, wie in der gleichzeitig eingereichten Patentanmeldung mit der Seriennummer 09/679,115 offen gelegt wird, die den Titel "Increased Bandwidth in Aloha-based Frequency Hopping Transmission Systems" hat. Die erweiterte Kopfstation 1410 kann die optimierte Upstream-Kommunikation zwischen dem Knoten 1310 und der Set-Top-Vorrichtung 1100-180 unterstützen. Der Knoten 1310 kann dann die optimierte Upstream-Kommunikation ausführen. Die Upstream-Kommunikation vom erweiterten Knoten 1310 und von der erweiterten Kopfstation 1410 können dasselbe Upstream-Kommunikationsprotokoll oder unterschiedliche Upstream-Kommunikationsprotokolle verwenden.
Man beachte, dass in bestimmten Netzwerk-Installationen keine Stadt-Kopfstation vorhanden sein kann, erweitert oder anders. Weiterhin kann in bestimmten Netzwerk-Installationen nur eine Kopfstation vorhanden sein.
22 zeigt eine Fernbedienungs-Einheit 1000-180, die mit der Set-Top-Vorrichtung 1100-180 gekoppelt 1002-180 ist und über ein zweistufiges drahtgebundenes Kommunikationssystem kommuniziert, das ein drahtgebundenes physikalisches Übertragungsmedium 1200 zu einem Verteiler-Knoten 126 enthält. Der Verteiler-Knoten 126 ist an eine drahtgebundene Kommunikations-Schleife angeschlossen, die eine erweiterte Kopfstation 1414 enthält. Das Netzwerk kann weiterhin eine Kommunikations-Schleife unterstützen, die eine erweiterte Stadt-Kopfstation 1410 gemäß der Erfindung enthält.
Die erweiterte Kopfstation 1414 kann die optimierte Upstream-Kommunikation steuern und unterstützen, wie in der gleichzeitig eingereichten Patentanmeldung mit der Seriennummer 09/679,115 offen gelegt wird, die den Titel "Increased Bandwidth in Aloha-based Frequency Hopping Transmission Systems" hat, von Calderone und Foster, beide Erfinder dieser Anmeldung und gemeinsam AgileTV zugeteilt, das hier als Referenz mit aufgenommen wird.
Die erweiterte Kopfstation 1414 kann zwischengespeicherten Inhalt bereitstellen, wie beliebte Videos für einen VOD-Dienst. Die Sprachverarbeitung kann in vielen Situationen in der erweiterten Kopfstation 1414 stattfinden.
Die erweiterte Stadt-Kopfstation 1410 kann weiterhin Sprachverarbeitungs-Funktionen bereitstellen. Die erweiterte Stadt-Kopfstation 1410 kann dazu verwendet werden, Sprachverarbeitungs-Anforderungen für die Kopfstationen 100 und 106 zu behandeln, die nicht durch diese Erfindung erweitert wurden.
Die Kopplungen zwischen STB 1100-180, Knoten 126 und Kopfstation 1410 können auch die bidirektionale Kommunikation unterstützen, die es dem STB 1100-180 erlaubt, mehrere Fernsehkanäle zu empfangen und es dem STB 1100-180 erlaubt, mindestens begrenzte Informationen zur erweiterten Kopf station 1410 zu signalisieren, die die Verwaltung von Pay-per-View und andere Dienste enthalten kann.
Alternativ kann die erweiterte Stadt-Kopfstation 1410 die optimierte Upstream-Kommunikation steuern, wie in der gleichzeitig eingereichten Patentanmeldung mit der Seriennummer 09/679,115 offen gelegt wird, die den Titel "Increased Bandwidth in Aloha-based Frequency Hopping Transmission Systems" hat. Die erweiterte Kopfstation 1414 kann dann die optimierte Upstream-Kommunikation unterstützen. Die Upstream-Kommunikation von dem erweiterten Knoten 126 und von der erweiterten Kopfstation 1410 können dasselbe Upstream-Kommunikationsprotokoll oder unterschiedliche Upstream-Kommunikationsprotokolle verwenden.
Man beachte, dass die Stadt-Kopfstation 1410 nicht am optimierten Upstream-Kommunikations-Verfahren beteiligt sein kann.
Alternativ kann die Stadt-Kopfstation 1410 an dem optimierten Upstream-Kommunikations-Verfahren beteiligt sein. Die erweiterte Stadt-Kopfstation 1410 kann weiterhin die optimierte Upstream-Kommunikation steuern, wie in der gleichzeitig eingereichten Patentanmeldung mit der Seriennummer 09/679,115 offen gelegt wird, die den Titel "Increased Bandwidth in Aloha-based Frequency Hopping Transmission Systems" hat. Die erweiterte Kopfstation 1410 kann die optimierte Upstream-Kommunikation zwischen dem Knoten 126 und der Set-Top-Vorrichtung 1100-180 unterstützen. Der Knoten 126 kann dann die optimierte Upstream-Kommunikation ausführen. Die Upstream-Kommunikation vom Knoten 126 und von der erweiterten Kopfstation 1410 können dasselbe Upstream-Kommunikationsprotokoll oder unterschiedliche Upstream-Kommunikationsprotokolle verwenden.
Man beachte, dass in bestimmten Netzwerk-Installationen keine Stadt-Kopfstation vorhanden sein kann, erweitert oder anders. Weiterhin kann in bestimmten Netzwerk-Installationen nur eine Kopfstation vorhanden sein.
23 zeigt ein detailliertes Blockdiagramm eines erweiterten Verteiler-Knotens 1310, der mit dem drahtgebundenen physikalischen Übertragungsmedium 1200 gekoppelt ist und der mit der drahtgebundenen Kommunikations-Schleife aus 21 gekoppelt ist.
Man beachte, dass ein Übertragungsmedium 1200 vorhanden sein kann. Transceiver 1320 ist mit dem Übertragungsmedium 1200 gekoppelt, um Uplink- 1204 und Downlink- 1202 Kommunikationen zwischen den STBs 1100 aus 21 bereitzustellen.
Es können mehrere Übertragungsmedien 1200 vorhanden sein, die drahtgebundenen Leitungen entsprechen, die Kombinationen von mindestens einer der Schnittstellen 170, 174 und 178 bedienen, wie in den 1, 2, 21 und 22 gezeigt. Transceiver 1320 ist mit Übertragungsmedium 1200 gekoppelt, um Uplink- 1204 und Downlink- 1202 Kommunikationen zwischen den STBs 1100 aus 21 und 22 bereitzustellen. Man beachte, dass Transceiver 1320 mehrere Uplinks 1204 bereitstellen kann. Transceiver 1320 kann mehrere Downlinks 1202 bereitstellen.
Transceiver 1320 kann den Sender 1324 enthalten, der Downlink- 1202 Kommunikationen zum drahtgebundenen physikalischen Übertragungsmedium 1200 bereitstellt. Mehrere Downlinks 1202 können von Sender 1324 bereitgestellt werden. Alternativ können mehrere Downlinks 1202 von mehr als einem Sender 1324 bereitgestellt werden.
Transceiver 1320 kann den Empfänger 1322 enthalten, der Uplink- 1204 Kommunikationen vom drahtgebundenen physikalischen Übertragungsmedium 1200 bereitstellt. Mehrere Uplinks 1204 können vom Empfänger 1322 bereitgestellt werden. Alternativ können mehrere Uplinks 1204 von mehr als einem Empfänger 1322 bereitgestellt werden.
Das drahtgebundene physikalische Übertragungsmedium 1200 kann weiterhin getrennte physikalische Uplink-Übertragungsmedien 1204 und physikalische Downlink-Übertragungsmedien 1202 enthalten. Verschiedene Ausführungen der Erfindung können mehrere physikalische Uplink-Übertragungsmedien 1204 enthalten. Verschiedene Ausführungen der Erfindung können mehrere physikalische Downlink-Übertragungsmedien 1202 enthalten. Die Anzahl von physikalischen Uplink-Übertragungsmedien 1204 und die Anzahl von physikalischen Downlink-Übertragungsmedien 1202 können sich unterscheiden.
Man beachte, dass sich die Anzahl von Sendern 1324 und die Anzahl von Empfängern 1322 unterscheiden können.
Betrachtet man 21, kann zum Beispiel ein Downlink-Datenstrom 1202 zur Schnittstelle 170 gesendet werden, und ein zweiter Downlink-Datenstrom, der in 21 oder 23 nicht gezeigt wird, kann zur Schnittstelle 174 gesendet werden. Ein Uplink-Datenstrom 1204 kann von Schnittstelle 170 empfangen werden, und ein zweiter Uplink-Datenstrom, der in 21 oder 23 nicht gezeigt wird, kann von Schnittstelle 174 empfangen werden.
Hiernach konzentriert sich die Erläuterung auf einen einzelnen Sender 1324, der so viele Downlinks 1202 bereitstellt, wie erforderlich, und auf einen einzelnen Empfänger 1322, der so viele Uplinks 1204 bereitstellt, wie erforderlich. Dies erfolgt grundsätzlich zur Vereinfachung der Erklärung und bedeutet keine Einschränkung der Erfindung.
Die Uplink- 1204 Kommunikation umfasst einen Rückkanal. Dieser Rückkanal enthält mehrere erkannte Sprachkanäle von mehreren Teilnehmerstandorten (STBs) 1100, wie in den 21 und 22 gezeigt. Der Empfänger 1322 liefert 1326 einen Rückkanal an die Sprach-Engine 1330. Sprach-Engine 1330 führt mindestens die Operationen von 10 aus.
Sprach-Engine 1330 interagiert weiterhin kommunikativ 1374 mit Netzwerkschnittstelle 1370. Netzwerkschnittstelle 1370 ist mit anderen Netzwerk-Komponenten gekoppelt. Die Netzwerk-Kopplung 1372 kann weiterhin eine überwiegende Eingangs-Kopplung 1306 und eine überwiegende Ausgangs-Kopplung 1308 enthalten.
Netzwerkschnittstelle 1370 kann kommunikativ mit dem lokalen System-Management und der Rechnungserstellung 1380 interagieren 1376. Das lokale System-Management und die Rechnungserstellung 1380 kann lokale System-Management- und Rechnungserstellungs-Daten enthalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch den lokalen Knoten verwaltet oder gesteuert werden.
Das lokale System-Management und die Rechnungserstellung 1380 kann weiterhin System-Management- und Rechnungserstellungs-Daten unterhalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch den lokalen Knoten verwaltet oder gesteuert werden.
Das lokale System-Management und die Rechnungserstellung 1380 kann einen Cache-Speicher für System-Management- und Rechnungserstellungs-Daten enthalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch den lokalen Knoten verwaltet oder gesteuert werden.
Empfänger 1322 liefert 1326 einen Rückkanal zur Sprach-Engine 1330. Sprach-Engine 1330 führt mindestens die Operationen von 10 aus. Sprach-Engine 1330 interagiert weiterhin kommunikativ 1374 mit Netzwerkschnittstelle 1370.
Sprach-Engine 1330 kann kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagieren 1382. Sprach-Engine 1330 kann Anforderungen an das System-Management und die Rechnungserstellung 1380 nach Teilnehmer-Konten-Information senden 1382, die Kredit- Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen umfassen können, aber nicht darauf beschränkt sind. Sprach-Engine 1330 kann an das System-Management und die Rechnungserstellung 1380 Teilnehmer-Passworte, die Bestätigung von Vereinbarungen, Befehle bezüglich Berechtigungs-Stufen anderer Teilnehmer, wie z.B. von Kindern im Haushalt eines Teilnehmers senden 1382.
Sprach-Engine 1330 kann vom System-Management und der Rechnungserstellung 1380 Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen empfangen 1382. Sprach-Engine 1330 kann vom System-Management und der Rechnungserstellung 1380 die Bestätigung der Annahme von Verträgen von Finanz-Engines empfangen 1382. Die Bestätigung der Annahme von Verträgen von externen Finanz-Engines kann auf verschiedene Arten empfangen werden, einschließlich durch Interaktionen mit Netzwerkschnittstelle 1370 oder anderen externen Kommunikationsnetzen 1312.
Das System-Management und die Rechnungserstellung 1380 kann weiterhin Schnittstellen zu anderen externen Kommunikationsnetzen enthalten. Solche Schaltkreise sind nicht Thema dieser Erfindung und werden hier nicht weiter erläutert.
Auf gleiche Weise ist der Mechanismus der Annahme von Verträgen zwischen System-Management und Rechnungserstellung 1380 und Finanz-Engines nicht Thema dieser Erfindung und wird hier nicht weiter erläutert.
Sprach-Engine 1330 kann von Inhalts-Engine 1340 Inhalts-Status-Information empfangen 1338. Inhalts-Status-Information kann eine Liste von über das/die gekoppelten Netzwerk(e) verfügbaren Diensten enthalten. Inhalts-Status-Information kann weiterhin eine Liste von in dem Knoten verfügbaren Diensten enthalten.
Inhalts-Status-Information kann eine Liste von Inhalts-Themen enthalten, die über das Netz zwischengespeichert wurden. Inhalts-Status-Information kann weiterhin eine Liste von Inhalts-Themen enthalten, die im Knoten zwischengespeichert wurden. Zwischengespeicherte Inhalts-Themen können Listen des Interactive Program Guide (IPG) für eine bestimmte Zeitspanne enthalten. Zwischengespeicherte Inhalts-Themen können eine oder mehrere Video-Sequenzen enthalten, die über die Dienste Video On Demand (VOD) oder Pay-Per-View bereitgestellt werden.
Inhalts-Engine 1340 interagiert 1378 kommunikativ mit Netzwerkschnittstelle 1370. Inhalts-Engine 1340 kann mindestens einen lokal erzeugten Multimedia-Datenstrom 1342 an Multiplexer-Engine 1360, sowie mindestens einen Multimedia-Datenstrom 1344, der über Netzwerkschnittstelle 1370 empfangen 1378 wurde, bereitstellen. Inhalts-Engine 1340 kann den Multimedia-Datenstrom 1344 ändern, der von Netzwerkschnittstelle 1370 über die Netzwerk-Eingabe 1306 empfangen 1378 wurde. Inhalts-Engine 1340 kann Netzwerkschnittstelle 1370 in Gang setzen 1378 und die Netzwerk-Ausgabe 1308 von Netzwerkschnittstelle 1370 ändern.
Inhalts-Engine 1340 kann mehr als einen registrierten Anwendungs-Server haben, von denen jeder einen statischen Menü-Inhalt und einen dynamischen Inhalt präsentiert. Einem Sprachprozessor mit Sprach-Engine 1330 kann eine Grammatik präsentiert werden, die auf dem statischen und dynamischen Inhalt mehrerer registrierter Anwendungs-Server beruht. Die zusammengefassten Dienste können den Teilnehmern als spezialisierte Mehr-Anwendungs-Dienst-Menüs präsentiert werden, die von der Sprach-Engine 1330 an die Teilnehmer geliefert werden.
Sprach-Engine 1330 kann einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über Kopplung 1332 an Modulator-Engine 1350 liefern. Modulator-Engine 1350 kann weiterhin Status- und Zuverlässigkeits-Information für Sprach-Engine 1330 bereitstellen 1334. Sprach-Reaktions-Inhalts-Kanäle, die über Kopplung 1332 präsentiert werden, können digital sein. Sprach-Reaktions-Inhalts-Kanäle können als Bits oder Gruppen von Bits mit einer speziellen Bitbreite präsentiert werden.
Mehrere Kanäle können auf Kopplung 1332 durch Sprach-Engine 1330 gemultiplext werden. Der Multiplex-Mechanismus auf Kanal 1332 kann Zeitmultiplex durchführen. Modulator-Engine 1350 kann mehrere gemultiplexte Kanäle, die über Kopplung 1332 empfangen wurden, demultiplexen. Modulator-Engine 1250 kann einen oder mehrere gedemultiplexte Kanäle in modulierte Kanäle oder modulierte Gruppen von Kanälen umwandeln, die Multiplexer-Engine 1360 präsentiert 1352 und 1354 werden.
Multiplexer-Engine 1360 akzeptiert die mehreren lokal erzeugten Kanäle 1352, 1354 und 1342, sowie den lokal empfangenen und möglicherweise geänderten externen Datenstrom 1344, um mindestens einen zusammengefassten Datenstrom 1362 zu erzeugen. Multiplexer-Engine 1360 kann mehr als einen zusammengefassten Datenstrom erzeugen, z.B. 1364.
Sender 1324 empfängt mindestens einen zusammengefassten Datenstrom 1362 von Multiplexer-Engine 1360, um mindestens einen Downlink-Datenstrom 1202 des physikalischen Übertragungsmediums 1200 zu erzeugen. Sender 1324 kann mehr als einen zusammengefassten Datenstrom 1364 von Multiplexer-Engine 1360 empfangen.
Sprach-Engine 1330 kann weiterhin mit einem externen Netzwerk interagieren 1312. Eine solche Interaktion kann mindestens eine physikalische drahtgebundene Übertragungsebene umfassen. Die physikalische drahtgebundene Ebene kann mindestens eines oder eine Kombination der Kommunikationsprotokolle unterstützen, die optische, Infrarot- und Funkfrequenz-Bereiche des elektromagnetischen Spektrums benutzen. Netzwerk-Interaktionen 1312 können Nachrichten-Weitergabe-Protokolle unterstützen, einschließlich, aber nicht begrenzt auf TCP-IP. Netzwerk-Interaktionen 1312 können weiterhin Kommunikationen mit dem Internet und dem World Wide Web unterstützen.
24 zeigt ein alternatives detailliertes Blockdiagramm eines erweiterten Verteiler-Knotens 1310, der mit dem drahtgebundenen physikalischen Übertragungsmedium 1200 gekoppelt ist und der mit der drahtgebundenen Kommunikations-Schleife aus 21 gekoppelt ist.
Empfänger 1322 liefert einen Rückkanal zu Sprach-Engine 1330 durch Interaktionen 1328 mit Schalter 1390, der den Rückkanal zur Sprach-Engine 1330 liefert 1392.
Sprach-Engine 1330 interagiert 1374 kommunikativ mit Netzwerkschnittstelle 1370, indem Sprach-Engine 1330 mit Schalter 1390 interagiert 1392, der mit Netzwerkschnittstelle 1370 interagiert 1398.
Netzwerkschnittstelle 1370 kann kommunikativ mit dem lokalen System-Management und der Rechnungserstellung 1380 interagieren, indem sie kommunikativ mit Schalter 1390 interagiert 1398, der kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagiert 1396.
Sprach-Engine 1330 kann kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagieren 1382, indem sie kommunikativ mit dem Schalter 1390 interagiert 1392, der kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagiert.
Sprach-Engine 1330 kann Inhalts-Status-Information von Inhalts-Engine 1340 empfangen, indem Inhalts-Engine 1340 mit Schalter 1390 interagiert 1394, der Inhalts-Status-Information an die Sprach-Engine 1330 liefert 1392.
Inhalts-Engine 1340 interagiert kommunikativ mit Netzwerkschnittstelle 1370, indem Inhalts-Engine 1340 kommunikativ mit Schalter 1390 interagiert und Netzwerkschnittstelle 1370 kommunikativ mit Schalter 1390 interagiert.
Schalter 1390 kann digitale Schnittstellen unterstützen. Schalter 1390 kann eine Durchschaltevermittlung enthalten. Die Durchschaltevermittlung kann Ethernet-Protokolle unterstützen. Schalter 1390 kann eine ATM-Vermittlung enthalten. Schalter 1390 kann analoge Schnittstellen unterstützen. Solche analogen Schnittstellen können Wellenlängen-Multiplex enthalten. Schalter 1390 kann aus mehr als einem Schalter zusammengesetzt sein.
Die Erfindung kann verschiedene Kombinationen von direkten Verbindungen und Vermittlungsnetzen enthalten, wie in den 23 und 24 gezeigt.
25 zeigt ein allgemeines Blockdiagramm einer Kopfstation 104 nach dem bisherigen Stand der Technik, wie in 3 gezeigt.
Die Uplink-Kommunikation 138 enthält einen Rückkanal.
Dieser Rückkanal enthält mehrere Antwort-Kanäle von mehreren Teilnehmerstandort-STBs, wie in den 1 und 2 gezeigt. Empfänger 1422 liefert 1427 einen Rückkanal zur Inhalts-Engine 1440.
Netzwerkschnittstelle 1470 interagiert 1476 kommunikativ mit dem System-Management und der Rechnungserstellung 1480 der Kopfstation. Das System-Management und die Rechnungserstellung 1480 der Kopfstation kann System-Management- und Rechnungserstellungs-Daten enthalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch die Kopfstation verwaltet oder gesteuert werden.
Das System-Management und die Rechnungserstellung 1480 der Kopfstation kann weiterhin System-Management- und Rechnungserstellungs-Daten unterhalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch die Kopfstation verwaltet oder gesteuert werden.
Das System-Management und die Rechnungserstellung 1480 der Kopfstation kann weiterhin einen Cache-Speicher für System-Management- und Rechnungserstellungs-Daten enthalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch die Kopfstation verwaltet oder gesteuert werden.
Das System-Management und die Rechnungserstellung 1480 kann weiterhin Schnittstellen zu anderen externen Kommunikationsnetzen enthalten. Solche Schaltkreise sind nicht Thema dieser Erfindung und werden hier nicht weiter erläutert.
Inhalts-Status-Information kann eine Liste von Inhalts-Themen enthalten, die über das Netz zwischengespeichert wurden. Inhalts-Status-Information kann weiterhin eine Liste von Inhalts-Themen enthalten, die im Knoten zwischengespeichert wurden. Zwischengespeicherte Inhalts-Themen können Listen des Interactive Program Guide (IPG) für eine bestimmte Zeitspanne enthalten. Zwischengespeicherte Inhalts-Themen können eine oder mehrere Video-Sequenzen enthalten, die über die Dienste Video On Demand (VOD) oder Pay-Per-View bereitgestellt werden.
Inhalts-Engine 1440 interagiert 1478 kommunikativ mit Netzwerkschnittstelle 1470. Inhalts-Engine 1440 kann mindestens einen lokal erzeugten Multimedia-Datenstrom 1442 an Multiplexer-Engine 1460, sowie mindestens einen Multimedia-Datenstrom 1444, der über Netzwerkschnittstelle 1470 empfangen 1478 wurde, bereitstellen. Inhalts-Engine 1440 kann den Multimedia-Datenstrom 1444 ändern, der von Netzwerkschnittstelle 1470 über die Netzwerk-Eingabe 1406 empfangen 1478 wurde. Inhalts-Engine 1440 kann Netzwerkschnittstelle 1470 in Gang setzen 1478 und die Netzwerk-Ausgabe 1408 von Netzwerkschnittstelle 1470 ändern.
Inhalts-Engine 1340 kann eine oder mehrere Standard-Komponenten einer Kopfstation enthalten ist aber nicht darauf beschränkt: OTA-Empfänger (Over The Air Empfänger) und Satelliten-Empfänger und Set-Top-Box-Controller. Ein Set-Top-Box-Controller ist das Sende-Äquivalent zum Kopfstations-Empfänger. Diese Box sendet Kommandos von der Kopfstation zur Set-Top-Box des einzelnen Teilnehmers. Diese Kommandos können Kanalwechsel, Einstellung des Entschlüsselungs-Schlüssels auf den folgenden und Freigabe der Set-Top-Box zur Wiedergabe eines gebührenpflichtigen Kanals umfassen.
Multiplexer-Engine 1460 akzeptiert die mehreren lokal erzeugten Kanäle 1452, 1454 und 1442, sowie den lokal empfangenen und möglicherweise geänderten externen Datenstrom 1444, um mindestens einen zusammengefassten Datenstrom 1462 zu erzeugen. Multiplexer-Engine 1460 kann mehr als einen zusammengefassten Datenstrom erzeugen, z.B. 1464.
Sender 1424 empfängt mindestens einen zusammengefassten Datenstrom 1462 von Multiplexer-Engine 1460, um mindestens einen Downlink-Datenstrom 132 des physikalischen Übertragungsmediums 1200 zu erzeugen. Sender 1424 kann mehr als einen zusammengefassten Datenstrom 1464 von Multiplexer-Engine 1460 empfangen.
26 zeigt eine erweiterte Kopfstation 1410 aus 21 oder eine erweiterte Kopfstation 1414 aus 22 oder eine erweiterte Stadt-Kopfstation 1410 aus den 21 oder 22 gemäß der Erfindung.
Man beachte, dass ein Übertragungsmedium 1200 vorhanden sein kann. Transceiver 1420 ist mit dem Übertragungsmedium 1200 gekoppelt, um Uplink- 1204 und Downlink- 1202 Kommunikationen zwischen den STBs 1100 aus 21 bereitzustellen.
Es können mehrere Übertragungsmedien 1200 vorhanden sein, die drahtgebundenen Leitungen entsprechen, die Kombinationen von mindestens einer der Schnittstellen 170, 174 und 178 bedienen, wie in den 1, 2, 21 und 22 gezeigt. Transceiver 1420 ist mit Übertragungsmedium 1200 gekoppelt, um Uplink- 1204 und Downlink- 1202 Kommunikationen zwischen den STBs 1100 aus 21 und 22 bereitzustellen. Man beachte, dass Transceiver 1420 mehrere Uplinks 1204 bereitstellen kann. Transceiver 1420 kann mehrere Downlinks 1202 bereitstellen.
Transceiver 1420 kann den Sender 1424 enthalten, der Downlink- 1202 Kommunikationen zum drahtgebundenen physikalischen Übertragungsmedium 1200 bereitstellt. Mehrere Downlinks 1202 können von Sender 1424 bereitgestellt werden. Alternativ können mehrere Downlinks 1202 von mehr als einem Sender 1424 bereitgestellt werden.
Transceiver 1420 kann den Empfänger 1422 enthalten, der Uplink- 1204 Kommunikationen vom drahtgebundenen physikalischen Übertragungsmedium 1200 bereitstellt. Mehrere Uplinks 1204 können vom Empfänger 1422 bereitgestellt werden. Alternativ können mehrere Uplinks 1204 von mehr als einem Empfänger 1422 bereitgestellt werden.
Das drahtgebundene physikalische Übertragungsmedium 1200 kann weiterhin getrennte physikalische Uplink-Übertragungsmedien 1204 und physikalische Downlink-Übertragungsmedien 1202 enthalten. Verschiedene Ausführungen der Erfindung können mehrere physikalische Uplink-Übertragungsmedien 1204 enthalten. Verschiedene Ausführungen der Erfindung können mehrere physikalische Downlink-Übertragungsmedien 1202 enthalten. Die Anzahl von physikalischen Uplink-Übertragungsmedien 1204 und die Anzahl von physikalischen Downlink-Übertragungsmedien 1202 können sich unterscheiden.
Man beachte, dass sich die Anzahl von Sendern 1424 und die Anzahl von Empfängern 1422 unterscheiden können.
Wie bereits früher, konzentriert sich die Erläuterung auf einen einzelnen Sender 1424, der so viele Downlinks 1202 bereitstellt, wie erforderlich, und auf einen einzelnen Empfänger 1422, der so viele Uplinks 1204 bereitstellt, wie erforderlich. Dies erfolgt grundsätzlich zur Vereinfachung der Erklärung und bedeutet keine Einschränkung der Erfindung.
Die Uplink- 1204 Kommunikation umfasst einen Rückkanal. Dieser Rückkanal enthält mehrere erkannte Sprachkanäle von mehreren Teilnehmerstandorten (STBs) 1100, wie in den 21 und 22 gezeigt. Empfänger 1422 liefert 1426 einen Rückkanal an die Sprach-Engine 1430. Sprach-Engine 1430 führt mindestens die Operationen von 10 aus.
Sprach-Engine 1430 interagiert weiterhin kommunikativ 1474 mit Netzwerkschnittstelle 1470. Netzwerkschnittstelle 1470 ist mit anderen Netzwerk-Komponenten gekoppelt 1472. Die Netzwerk-Kopplung 1472 kann weiterhin eine überwiegende Eingangs-Kopplung 1406 und eine überwiegende Ausgangs-Kopplung 1408 enthalten.
Netzwerkschnittstelle 1470 kann kommunikativ mit dem Kopfstations-System-Management und der Rechnungserstellung 1480 interagieren 1476. Das Kopfstations-System-Management und die Rechnungserstellung 1480 kann System-Management- und Rechnungserstellungs-Daten enthalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch den Kopfstations-Knoten verwaltet oder gesteuert werden.
Das Kopfstations-System-Management und die Rechnungserstellung 1480 kann weiterhin Kopfstations-System-Management- und Rechnungserstellungs-Daten unterhalten, die für die Elemente des Gesamt-Netzwerks rele vant sind, die durch den Kopfstations-Knoten verwaltet oder gesteuert werden.
Das Kopfstations-System-Management und die Rechnungserstellung 1480 kann einen Cache-Speicher für System-Management- und Rechnungserstellungs-Daten enthalten, die für die Elemente des Gesamt-Netzwerks relevant sind, die durch den Kopfstations-Knoten verwaltet oder gesteuert werden.
Sprach-Engine 1430 kann kommunikativ mit dem System-Management und der Rechnungserstellung 1480 interagieren 1482. Sprach-Engine 1430 kann Anforderungen an das System-Management und die Rechnungserstellung 1480 nach Teilnehmer-Konten-Information senden 1482, die Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen umfassen können, aber nicht darauf beschränkt sind. Sprach-Engine 1430 kann an das System-Management und die Rechnungserstellung 1480 Teilnehmer-Passworte, die Bestätigung von Vereinbarungen, Befehle bezüglich Berechtigungs-Stufen anderer Teilnehmer, wie z.B. von Kindern im Haushalt eines Teilnehmers, senden 1482.
Sprach-Engine 1430 kann vom System-Management und der Rechnungserstellung 1480 Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen empfangen 1482. Sprach-Engine 1430 kann vom System-Management und der Rechnungserstellung 1480 die Bestätigung der Annahme von Verträgen von Finanz-Engines empfangen 1482. Die Bestätigung der Annahme von Verträgen von externen Finanz-Engines kann auf verschiedene Arten empfangen werden, einschließlich durch Interaktionen mit Netzwerkschnittstelle 1470 oder anderen externen Kommunikationsnetzen.
Das System-Management und die Rechnungserstellung 1480 kann weiterhin Schnittstellen zu anderen externen Kommunikationsnetzen enthalten. Solche Schaltkreise sind nicht Thema dieser Erfindung und werden hier nicht weiter erläutert.
Auf gleiche Weise ist der Mechanismus der Annahme von Verträgen zwischen System-Management und Rechnungserstellung 1480 und Finanz-Engines nicht Thema dieser Erfindung und wird hier nicht weiter erläutert.
Sprach-Engine 1430 kann von Inhalts-Engine 1440 Inhalts-Status-Information empfangen 1438. Inhalts-Status-Information kann eine Liste von über das/die gekoppelten Netzwerk(e) verfügbaren Diensten enthalten. Inhalts-Status-Information kann weiterhin eine Liste von in dem Knoten verfügbaren Diensten enthalten.
Inhalts-Status-Information kann eine Liste von Inhalts-Themen enthalten, die über das Netz zwischengespeichert wurden. Inhalts-Status-Information kann weiterhin eine Liste von Inhalts-Themen enthalten, die im Knoten zwischengespeichert wurden. Zwischengespeicherte Inhalts-Themen können Listen des Interactive Program Guide (IPG) für eine bestimmte Zeitspanne enthalten. Zwischengespeicherte Inhalts-Themen können eine oder mehrere Video-Sequenzen enthalten, die über die Dienste Video On Demand (VOD) oder Pay-Per-View bereitgestellt werden.
Inhalts-Engine 1440 interagiert 1478 kommunikativ mit Netzwerkschnittstelle 1470. Inhalts-Engine 1440 kann mindestens einen lokal erzeugten Multimedia-Datenstrom 1442 an Multiplexer-Engine 1460, sowie mindestens einen Multimedia-Datenstrom 1444, der über Netzwerkschnittstelle 1470 empfangen 1478 wurde, bereitstellen. Inhalts-Engine 1440 kann den Multimedia-Datenstrom 1444 ändern, der von Netzwerkschnittstelle 1470 über die Netzwerk-Eingabe 1406 empfangen 1478 wurde. Inhalts-Engine 1440 kann Netzwerkschnittstelle 1470 in Gang setzen 1478 und die Netzwerk-Ausgabe 1408 von Netzwerkschnittstelle 1470 ändern.
Sprach-Engine 1430 kann einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über Kopplung 1432 an Modulator-Engine 1450 erzeugen. Modulator-Engine 1450 kann weiterhin Status- und Zuverlässigkeits-Information für Sprach-Engine 1430 bereitstellen 1434. Sprach-Reaktions-Inhalts-Kanäle, die über Kopplung 1432 präsentiert werden, können digital sein. Sprach-Reaktions-Inhalts-Kanäle können als Bits oder Gruppen von Bits mit einer speziellen Bitbreite präsentiert werden.
Mehrere Kanäle können auf Kopplung 1432 durch Sprach-Engine 1430 gemultiplext werden. Der Multiplex-Mechanismus auf Kanal 1432 kann Zeitmultiplex durchführen. Modulator-Engine 1450 kann mehrere gemultiplexte Kanäle, die über Kopplung 1432 empfangen wurden, demultiplexen. Modulator-Engine 1250 kann einen oder mehrere Kanäle in modulierte Kanäle oder modulierte Gruppen von Kanälen umwandeln, die dann Multiplexer-Engine 1460 präsentiert 1452 und 1454 werden.
Multiplexer-Engine 1460 akzeptiert die mehreren lokal erzeugten Kanäle 1452, 1454 und 1442, sowie den lokal empfangenen und möglicherweise geänderten externen Datenstrom 1444, um mindestens einen zusammengefassten Datenstrom 1462 zu erzeugen. Multiplexer-Engine 1460 kann mehr als einen zusammengefassten Datenstrom erzeugen, z.B. 1464.
Sender 1424 empfängt mindestens einen zusammengefassten Datenstrom 1462 von Multiplexer-Engine 1460, um mindestens einen Downlink-Datenstrom 1202 des physikalischen Übertragungsmediums 1200 zu erzeugen. Sender 1424 kann mehr als einen zusammengefassten Datenstrom 1464 von Multiplexer-Engine 1460 empfangen.
27 zeigt eine alternative erweiterte Kopfstation 1410 aus 21 oder eine alternative erweiterte Kopfstation 1414 aus 22 oder eine alternative erweiterte Stadt-Kopfstation 1410 aus den 21 oder 22 gemäß der Erfindung.
Empfänger 1422 liefert einen Rückkanal zu Sprach-Engine 1430 durch Interaktionen 1428 mit Schalter 1490, der den Rückkanal zur Sprach-Engine 1430 liefert 1492.
Sprach-Engine 1430 interagiert 1474 kommunikativ mit Netzwerkschnittstelle 1470, indem Sprach-Engine 1430 mit Schalter 1490 interagiert 1492, der mit Netzwerkschnittstelle 1470 interagiert 1498.
Netzwerkschnittstelle 1470 kann kommunikativ mit dem Kopfstations-System-Management und der Rechnungserstellung 1480 interagieren, indem sie kommunikativ mit Schalter 1490 interagiert 1498, der kommunikativ mit dem System-Management und der Rechnungserstellung 1480 interagiert 1496.
Sprach-Engine 1430 kann kommunikativ mit dem System-Management und der Rechnungserstellung 1480 interagieren 1482, indem sie kommunikativ mit dem Schalter 1490 interagiert 1492, der kommunikativ mit dem System-Management und der Rechnungserstellung 1480 interagiert.
Sprach-Engine 1430 kann Inhalts-Status-Information von Inhalts-Engine 1440 empfangen, indem Inhalts-Engine 1440 mit Schalter 1490 interagiert 1494, der Inhalts-Status-Information an die Sprach-Engine 1430 liefert 1492.
Inhalts-Engine 1440 interagiert kommunikativ mit Netzwerkschnittstelle 1470, indem Inhalts-Engine 1440 kommunikativ mit Schalter 1490 interagiert und Netzwerkschnittstelle 1470 kommunikativ mit Schalter 1490 interagiert.
Schalter 1490 kann digitale Schnittstellen unterstützen. Schalter 1490 kann eine Durchschaltevermittlung sein. Die Durchschaltevermittlung kann Ethernet-Protokolle unterstützen. Schalter 1490 kann eine ATM-Vermittlung enthalten. Schalter 1490 kann analoge Schnittstellen unterstützen. Solche ana logen Schnittstellen können Wellenlängen-Multiplex enthalten. Schalter 1490 kann aus mehr als einem Schalter zusammengesetzt sein.
Die Erfindung kann verschiedene Kombinationen von direkten Verbindungen und Vermittlungsnetzen enthalten, wie in den 23 und 24 gezeigt.
Man beachte, dass ein einzelner Computer die Operationen der Sprach-Engine ausführen kann, wie in 10 gezeigt. Der Computer führt diese Operationen gesteuert durch ein Programmsystem aus, dass Programmschritte enthält, die sich im zugreifbar gekoppelten Speicher befinden.
28A zeigt ein Blockdiagramm einer Sprach-Engine 1330, wie in 23 gezeigt.
Empfänger 1322 liefert 1326 einen Rückkanal zum Sprachprozessor-Computer 1520. Sprachprozessor-Computer 1520 interagiert weiterhin kommunikativ 1374 mit Netzwerkschnittstelle 1370.
Sprachprozessor-Computer 1520 kann kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagieren 1382. Sprachprozessor-Computer 1520 kann Anforderungen an das System-Management und die Rechnungserstellung 1380 nach Teilnehmer-Konten-Information senden 1382, die Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen umfassen können, aber nicht darauf beschränkt sind. Sprachprozessor-Computer 1520 kann an das System-Management und die Rechnungserstellung 1380 Teilnehmer-Passworte, die Bestätigung von Vereinbarungen, Befehle bezüglich Berechtigungs-Stufen anderer Teilnehmer, wie z.B. von Kindern im Haushalt eines Teilnehmers, senden 1382.
Sprachprozessor-Computer 1520 kann vom System-Management und der Rechnungserstellung 1380 Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen empfangen 1382. Sprachprozessor-Computer 1520 kann vom System-Management und der Rechnungserstellung 1380 die Bestätigung der Annahme von Verträgen von Finanz-Engines empfangen 1382. Die Bestätigung der Annahme von Verträgen von externen Finanz-Engines kann auf verschiedene Arten empfangen werden, einschließlich durch Interaktionen mit Netzwerkschnittstelle 1370 oder anderen externen Kommunikationsnetzen 1312.
Sprachprozessor-Computer 1520 kann von Inhalts-Engine 1340 Inhalts-Status-Information empfangen 1338. Inhalts-Status-Information kann eine Liste von über das/die gekoppelten Netzwerk(e) verfügbaren Diensten enthalten. Inhalts-Status-Information kann weiterhin eine Liste von in dem Knoten verfügbaren Diensten enthalten.
Sprachprozessor-Computer 1520 kann einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über Kopplung 1332 an Modulator-Engine 1350 liefern. Modulator-Engine 1350 kann weiterhin Status- und Zuverlässigkeits-Information für Sprachprozessor-Computer 1520 bereitstellen 1334. Sprach-Reaktions-Inhalts-Kanäle, die über Kopplung 1332 präsentiert werden, können digital sein. Sprach-Reaktions-Inhalts-Kanäle können als Bits oder Gruppen von Bits mit einer speziellen Bitbreite präsentiert werden.
Mehrere Kanäle können auf Kopplung 1332 durch Sprachprozessor-Computer 1520 gemultiplext werden. Der Multiplex-Mechanismus auf Kanal 1332 kann Zeitmultiplex durchführen. Modulator-Engine 1350 kann mehrere gemultiplexte Kanäle, die über Kopplung 1332 empfangen wurden, demultiplexen. Modulator-Engine 1250 kann einen oder mehrere gedemultiplexte Kanäle in modulierte Kanäle oder modulierte Gruppen von Kanälen umwandeln, die Multiplexer-Engine 1360 präsentiert 1352 und 1354 werden.
Sprachprozessor-Computer 1520 kann weiterhin mit einem externen Netzwerk interagieren 1312. Eine solche Interaktion kann mindestens eine physikalische drahtgebundene Übertragungsebene umfassen. Die physikalische drahtgebundene Ebene kann mindestens eines oder eine Kombination der Kommunikationsprotokolle unterstützen, die optische, Infrarot- und Funkfrequenz-Bereiche des elektromagnetischen Spektrums benutzen. Netzwerk-Interaktionen 1312 können Nachrichten-Weitergabe-Protokolle unterstützen, einschließlich, aber nicht begrenzt auf TCP-IP. Netzwerk-Interaktionen 1312 können weiterhin Kommunikationen mit dem Internet und dem World Wide Web unterstützen.
Sprachprozessor-Computer 1520 ist kommunikativ mit Massenspeicher 1540 gekoppelt. Massenspeicher 1540 kann eine Festplatte, eine Festplatten-Farm oder einen RAID-Platten-Speicher umfassen, ist aber nicht darauf beschränkt. Massenspeicher 1540 kann durch ein Dateiverwaltungssystem oder durch ein oder mehrere Datenbankverwaltungssysteme oder durch eine Kombination von Dateiverwaltungssystem und mindestens einem Datenbankverwaltungssystem organisiert sein.
28B zeigt ein Blockdiagramm einer Sprach-Engine 1330, wie in 24 gezeigt.
Empfänger 1322 liefert einen Rückkanal zu Sprachprozessor-Computer 1520 durch Interaktionen 1328 mit Schalter 1390, der den Rückkanal zur Sprach-Engine 1520 liefert.
Sprachprozessor-Computer 1520 interagiert 1374 kommunikativ mit Netzwerkschnittstelle 1370, indem Sprachprozessor-Computer 1520 mit Schalter 1390 interagiert 1392, der mit Netzwerkschnittstelle 1370 interagiert 1398.
Sprachprozessor-Computer 1520 kann kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagieren, indem er kommunikativ mit Schalter 1390 interagiert 1392, der kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagiert.
Sprachprozessor-Computer 1520 kann Inhalts-Status-Information von Inhalts-Engine 1340 empfangen, indem Inhalts-Engine 1340 mit Schalter 1390 interagiert 1394, der Inhalts-Status-Information an Sprachprozessor-Computer 1520 liefert 1392.
Wie in 24 kann Schalter 1390 digitale Schnittstellen unterstützen. Schalter 1390 kann eine Durchschaltevermittlung enthalten. Die Durchschaltevermittlung kann Ethernet-Protokolle unterstützen. Schalter 1390 kann eine ATM-Vermittlung enthalten. Schalter 1390 kann analoge Schnittstellen unterstützen. Solche analogen Schnittstellen können Wellenlängen-Multiplex enthalten. Schalter 1390 kann aus mehr als einem Schalter zusammengesetzt sein.
Die in den 3, 4, 5 und 28A zu findenden Erklärungen des Betriebs können direkt auf Systeme angewendet werden, die die Erfindung implementieren und dem Blockdiagramm in 28B ähneln. Sie werden nicht bezüglich 28B vorgestellt. Dies erfolgt nur zur Vereinfachung der Offenlegung, und hiermit wird in keiner Weise beabsichtigt, den Umfang der Ansprüche einzuschränken.
Die Erfindung kann verschiedene Kombinationen von direkten Verbindungen und Vermittlungsnetzen enthalten, wie in den 23 und 24 gezeigt.
29 zeigt ein detaillierteres Blockdiagramm einer Sprach-Engine 1330, die Gateway 3100 und die eng gekoppelte Server-Anordnung 3200 enthält, wie in 28A gezeigt.
Server-Anordnung 3200 enthält mindestens einen Sprachprozessor-Computer 1520, der kommunikativ mit mindestens Sprach-Gateway 3100 gekoppelt ist.
Empfänger 1322 liefert 1326 über Sprach-Gateway 3100 einen Rückkanal zum Sprachprozessor-Computer 1520. Sprach-Gateway 3100 kann weiterhin Sprachäußerungen von verschiedenen Teilnehmerstandorten für Sprachprozessor-Computer 1520 zwischenspeichern.
Sprachprozessor-Computer 1520 kann weiterhin kommunikativ über Sprach-Netzwerk-Gateway 1582 mit Netzwerkschnittstelle 1370 interagieren 1374.
Sprachprozessor-Computer 1520 kann über die sichere Schnittstelle 1578 kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagieren 1382. Sprachprozessor-Computer 1520 kann über die sichere Schnittstelle 1578 Anforderungen nach Teilnehmer-Konten-Information senden 1382, die Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen umfassen können, aber nicht darauf beschränkt sind. Sprachprozessor-Computer 1520 kann über die sichere Schnittstelle 1578 Teilnehmer-Passworte, die Bestätigung von Vereinbarungen, Befehle bezüglich Berechtigungs-Stufen anderer Teilnehmer, wie z.B. von Kindern im Haushalt eines Teilnehmers, senden 1382.
Sprachprozessor-Computer 1520 kann über die sichere Schnittstelle 1578 Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen empfangen 1382. Sprachprozessor-Computer 1520 kann über die sichere Schnittstelle 1578 die Bestätigung der Annahme von Verträgen von Finanz-Engines empfangen 1382. Die Bestätigung der Annahme von Verträgen von externen Finanz-Engines kann auf verschiedene Arten empfangen werden, einschließlich durch Interaktio nen mit Netzwerkschnittstelle 1370 oder anderen externen Kommunikationsnetzen 1312.
Sprachprozessor-Computer 1520 kann von Inhalts-Engine 1340 Inhalts-Status-Information empfangen 1338. Inhalts-Status-Information kann eine Liste von über das/die gekoppelten Netzwerk(e) verfügbaren Diensten enthalten. Inhalts-Status-Information kann weiterhin eine Liste von in dem Knoten verfügbaren Diensten enthalten.
Sprachprozessor-Computer 1520 kann einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über Kopplung 1332 an Modulator-Engine 1350 liefern. Modulator-Engine 1350 kann weiterhin Status- und Zuverlässigkeits-Information für Sprachprozessor-Computer 1520 bereitstellen 1334. Sprach-Reaktions-Inhalts-Kanäle, die über Kopplung 1332 präsentiert werden, können digital sein. Sprach-Reaktions-Inhalts-Kanäle können als Bits oder Gruppen von Bits mit einer speziellen Bitbreite präsentiert werden.
Mehrere Kanäle können auf Kopplung 1332 durch Sprachprozessor-Computer 1520 gemultiplext werden. Der Multiplex-Mechanismus auf Kanal 1332 kann Zeitmultiplex durchführen.
Sprachprozessor-Computer 1520 kann weiterhin mit einem externen Netzwerk interagieren 1312. Eine solche Interaktion kann mindestens eine physikalische drahtgebundene Übertragungsebene umfassen, die jeweils mindestens einen der optischen, Infrarot- und Funkfrequenz-Bereiche des elektromagnetischen Spektrums benutzen. Netzwerk-Interaktionen 1312 können Nachrichten-Weitergabe-Protokolle unterstützen, einschließlich, aber nicht begrenzt auf TCP-IP, und können weiterhin Kommunikationen mit dem Internet und dem World Wide Web unterstützen.
30 zeigt ein alternatives detailliertes Blockdiagramm einer Sprach-Engine 1330, wie in 28A gezeigt.
Sprach-Engine 1330 enthält Server-Anordnung 3200. Server-Anordnung 3200 enthält mindestens Sprachprozessor-Computer 1580 und Sprachprozessor-Computer 1590. Sprachprozessor-Computer 1580 und/oder Sprachprozessor-Computer 1590 sind kommunikativ mit Sprach-Gateway 3100 gekoppelt.
Empfänger 1322 liefert 1326 über Sprach-Inhalts-Gateway 3100 einen Rückkanal zur Server-Anordnung 3200. Sprach-Inhalts-Gateway 3100 kann weiterhin Sprachäußerungen von verschiedenen Teilnehmerstandorten für Server-Anordnung 3200 zwischenspeichern.
Sprach-Inhalts-Gateway 3100 kann weiterhin einen Computer enthalten, der zugreifbar mit Speicher 3104 gekoppelt 3102 ist. Sprach-Inhalts-Gateway 3100 kann durch ein Programm gesteuert werden, das für mindestens eine der Operationen aus 10 Programmschritte enthält, die sich im Speicher 3104 befinden.
Sprachprozessor-Computer 1580 und/oder 1590 kann über die sichere Schnittstelle 1578 kommunikativ mit dem System-Management und der Rechnungserstellung 1380 interagieren 1382. Sprachprozessor-Computer 1580 und/oder 1590 kann über die sichere Schnittstelle 1578 Anforderungen nach Teilnehmer-Konten-Information senden 1382, die Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern-Sicherheitseinstellungen umfassen können, aber nicht darauf beschränkt sind. Sprachprozessor-Computer 1580 Und/oder 1590 kann über die sichere Schnittstelle 1578 Teilnehmer-Passworte, die Bestätigung von Vereinbarungen, Befehle bezüglich Berechtigungs-Stufen anderer Teilnehmer, wie z.B. von Kindern im Haushalt eines Teilnehmers senden 1382.
Sprachprozessor-Computer 1580 und/oder 1590 in der Server-Anordnung 3200 kann über die sichere Schnittstelle 1578 Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen und Eltern- Sicherheitseinstellungen, sowie die Bestätigung der Annahme von Verträgen von Finanz-Engines empfangen 1382.
Die Bestätigung der Annahme von Verträgen von externen Finanz-Engines kann auf verschiedene Arten empfangen werden, einschließlich durch Sprachprozessor-Computer 1580 und/oder 1590, der über Netzwerk-Gateway 1560 mit Netzwerkschnittstelle 1374 und/oder anderen externen Kommunikationsnetzen 1312 interagiert.
Entweder Sprachprozessor-Computer 1580 oder 1590 in Server-Anordnung 3200 kann von Inhalts-Engine 1340 Inhalts-Status-Information empfangen 1338.
Entweder Sprachprozessor-Computer 1580 oder 1590 in Server-Anordnung 3200 kann einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über Modulator-Schnittstelle 1570, die mit Modulator-Engine 1350 gekoppelt 1332 ist, erzeugen. Modulator-Engine 1350 kann über Modulator-Schnittstelle 1570 Status- und Zuverlässigkeits-Information für Sprachprozessor-Computer 1580 und/oder 1590 in Server-Anordnung 3200 bereitstellen 1334. Sprach-Reaktions-Inhalts-Kanäle, die über Modulator-Schnittstelle 1570 der Kopplung 1332 präsentiert werden, können digital sein und als Bits oder Gruppen von Bits mit einer speziellen Bitbreite präsentiert werden.
Mehrere Kanäle können durch Modulator-Schnittstelle 1570 auf Kopplung 1332 durch Server-Anordnung 3200 gemultiplext werden. Der Multiplex-Mechanismus auf Kanal 1332 kann Zeitmultiplex durchführen. Der Multiplex-Mechanismus kann von Modulator-Schnittstelle 1570 durchgeführt werden.
Sprachprozessor-Computer 1580 und/oder 1590 in Server-Anordnung 3200 kann über Netzwerk-Gateway 1560 kommunikativ mit Netzwerkschnittstelle 1370 interagieren 1374.
Sprachprozessor-Computer 1580 und/oder 1590 in Server-Anordnung 3200 kann mit einem externen Netzwerk interagieren 1312, das mindestens eine physikalische drahtgebundene Übertragungsebene umfasst. Die physikalische drahtgebundene Ebene kann mindestens eines oder eine Kombination der Kommunikationsprotokolle unterstützen, die optische, Infrarot- und Funkfrequenz-Bereiche des elektromagnetischen Spektrums benutzen. Netzwerk-Interaktionen 1312 können Nachrichten-Weitergabe-Protokolle unterstützen, einschließlich, aber nicht begrenzt auf TCP-IP, und können möglicherweise Kommunikationen mit dem Internet und dem World Wide Web umfassen.
Sprachprozessor-Computer 1580 und/oder 1590 ist kommunikativ mit Massenspeicher 1540 gekoppelt. Massenspeicher 1540 kann eine Festplatte, eine Festplatten-Farm oder einen RAID-Platten-Speicher umfassen, die durch ein Dateiverwaltungssystem und/oder durch ein oder mehrere Datenbankverwaltungssysteme organisiert sind, ist aber nicht darauf beschränkt.
Sprachprozessor-Computer 1580 und/oder Sprachprozessor-Computer 1590 kann mindestens einige der Operationen aus 10 ausführen und kann durch ein Programmsystem 2000 gesteuert werden, das Programmschritte enthält, die sich im Speicher 1586 und/oder 1596 befinden, der zugreifbar mit dem entsprechenden Sprachprozessor-Computer gekoppelt ist 1585 und/oder 1595.
Sprachprozessor-Computer 1580 kann dieselben Operationen aus 10 ausführen, wie Sprachprozessor-Computer 1590, der möglicherweise Sprache von anderen Teilnehmerstandorten verarbeitet.
Sprachprozessor-Computer 1580 kann andere Operationen aus 10 ausführen als Sprachprozessor-Computer 1590. Zum Beispiel kann Sprachprozessor-Computer 1580 das Empfangen des Rückkanals 2004 und das Aufteilen des Rückkanals in die mehreren empfangenen erkannten Sprachkanäle 2012 durchführen. Sprachprozessor-Computer 1590 kann die Verar beitung der mehreren empfangenen erkannten Sprachkanäle durchführen, um mehrere erkannte Sprach-Inhalte 2022 zu erzeugen und auf die mehreren erkannten Sprach-Inhalte 2032 zu reagieren.
Sprach-Engine 1330 kann von einem Programmsystem 2000 gesteuert werden, das die Operationen von 10 implementiert, die als Programmschritte verteilt sind, die sich in mindestens einem der Speicher 3104, 1586 und 1596 befinden. Jede der Operationen 2004, 2012, 2022 und 2032 kann als Programmschritte implementiert werden, die sich in den Speichern 3104, 1586 und 1596 befinden.
Zum Beispiel empfängt Sprach-Inhalts-Gateway 3100 den Rückkanal 2004. Sprachprozessor-Computer 1580 unterteilt den Rückkanal in die mehreren empfangenen erkannten Sprachkanäle 2012. Sprachprozessor-Computer 1590 verarbeitet die mehreren empfangenen erkannten Sprachkanäle, um mehrere erkannte Sprach-Inhalte 2022 zu erzeugen und auf die mehreren erkannten Sprach-Inhalte 2032 zu reagieren.
Als alternatives Beispiel empfängt Sprach-Inhalts-Gateway 3100 den Rückkanal 2004 und unterteilt den Rückkanal in die mehreren empfangenen erkannten Sprachkanäle 2012. Sprachprozessor-Computer 1580 und 1590 verarbeiten jeder die mehreren empfangenen erkannten Sprachkanäle, um mehrere erkannte Sprach-Inhalte 2022 zu erzeugen und auf die mehreren erkannten Sprach-Inhalte 2032 zu reagieren. Sprachprozessor-Computer 1580 und 1590 führen diese Operationen auf der Grundlage von Zuordnungs-Entscheidungen, die von Sprach-Inhalts-Gateway 3100 getroffen werden, auf verschiedenen erkannten Sprachkanälen aus. Um einen Sprach-Abtastwert im zugewiesenen Sprachprozessor-Computer in Sprach-Inhalt zu verarbeiten, muss der Prozessor-Computer zuerst in seinem lokalen Speicher eine Kopie der Grammatik-Definition enthalten, die dem Teilnehmerstandort zugeordnet ist.
31 zeigt ein zweites alternatives detailliertes Blockdiagramm einer Sprach-Engine 1430.
Server-Anordnung 3200 enthält mindestens Sprachprozessor-Computer-Netzwerke 1640 und 1650. Mindestens ein Computer, der im Sprachprozessor-Computer-Netzwerk 1640 und/oder 1650 enthalten ist, ist kommunikativ mit Sprach-Gateway 3100 gekoppelt.
Mindestens ein Computer, der im Sprachprozessor-Computer-Netzwerk 1640 und/oder 1650 enthalten ist, führt mindestens einige der Operationen aus 10 aus und kann durch ein Programmsystem 2000 gesteuert werden, das Programmschritte enthält, die sich im Speicher befinden, der zugreifbar mit diesem Computer gekoppelt ist.
Sprachprozessor-Computer-Netzwerk 1640 kann andere Operationen aus 10 ausführen, als Sprachprozessor-Computer-Netzwerk 1650. Zum Beispiel verarbeitet Sprachprozessor-Computer-Netzwerk 1640 die mehreren empfangenen erkannten Sprachkanäle, um mehrere erkannte Sprach-Inhalte 2022 zu erzeugen. Sprachprozessor-Computer-Netzwerk 1650 reagiert auf die mehreren erkannten Sprach-Inhalte 2032.
Sprach-Engine 1430 kann von einem Programmsystem gesteuert werden, das 10 implementiert, die als Programmschritte verteilt ist, die sich in Speichern befinden, die zugreifbar mit mindestens einem der Computer in folgendem gekoppelt sind: Sprach-Inhalts-Gateway 3100, Sprachprozessor-Computer-Netzwerk 1640 und/oder Sprachprozessor-Computer-Netzwerk 1650. Jede der Operationen 2004, 2012, 2022 und 2032 kann als Programmschritte implementiert sein, die sich in mindestens einem dieser Speicher befinden.
Zum Beispiel empfangen einer oder mehrere Computer im Sprach-Inhalts-Gateway 3100 den Rückkanal 2004 und unterteilen den Rückkanal in die mehreren empfangenen erkannten Sprachkanäle 2012. Computer in den Sprachprozessor-Computer-Netzwerken 1640 und/oder 1650 verarbeiten die mehreren empfangenen erkannten Sprachkanäle, um mehrere erkannte Sprach-Inhalte 2022 zu erzeugen und auf die mehreren erkannten Sprach-Inhalte 2032 zu reagieren. Computer in den Sprachprozessor-Computer-Netzwerken führen diese Operationen auf der Grundlage von Zuordnungs-Entscheidungen, die von Sprach-Inhalts-Gateway 3100 getroffen werden, auf erkannten Sprachkanälen aus.
Mindestens ein Computer in Sprachcomputer-Netzwerk 1640 und/oder 1650 interagiert 1482 kommunikativ über die sichere Schnittstelle 1630 mit dem System-Management und der Rechnungserstellung 1480. Diese(r) Computer kann/können über die sichere Schnittstelle 1630 Anforderungen nach Teilnehmer-Konten-Information, sowie Befehle bezüglich Berechtigungs-Stufen anderer Teilnehmer, wie z.B. von Kindern im Haushalt eines Teilnehmers, senden 1382. Die Teilnehmer-Konten-Information kann Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen, Eltern-Sicherheitseinstellungen, Teilnehmer-Passworte und Bestätigungen von Vereinbarungen umfassen, ist aber nicht darauf beschränkt. Ein Computer in Sprachprozessor-Computer-Netzwerk 1640 und/oder 1650 kann über die sichere Schnittstelle 1630 Kredit-Information, Berechtigungs-Profile für das Sehen von Kanälen, Kredit-Grenzen, Eltern-Sicherheitseinstellungen, sowie die Bestätigung der Annahme von Verträgen von Finanz-Engines empfangen 1482.
Die Annahme von Verträgen von externen Finanz-Engines kann auf verschiedene Arten empfangen werden, einschließlich dadurch, dass mindestens ein Computer in Sprachcomputer-Netzwerk 1640 und/oder 1650 über Netzwerk-Gateway 1560 mit Netzwerkschnittstelle 1474 oder anderen externen Kommunikationsnetzen 1412 interagiert.
Mindestens ein Computer in Sprachcomputer-Netzwerk 1640 und/oder 1650 kann von Inhalts-Engine 1440 Inhalts-Status-Information empfangen 1438.
Mindestens ein Computer in Sprachcomputer-Netzwerk 1640 und/oder 1650 erzeugt einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über Modulator-Schnittstelle 1620, die mit Modulator-Engine 1450 gekoppelt 1432 ist. Modulator-Engine 1450 kann über Modulator-Schnittstelle 1620 Status- und Zuverlässigkeits-Information für mindestens einen Computer in Sprachprozessor-Computer-Netzwerk 1640 und/oder 1650 bereitstellen 1434.
Mindestens ein Computer in Sprachcomputer-Netzwerk 1640 und/oder 1650 interagiert 1474 kommunikativ mit Netzwerkschnittstelle 1470 über Netzwerk-Gateway 1610. Mindestens ein Computer in Sprachcomputer-Netzwerk 1640 und/oder 1650 kann mit einem externen Netzwerk interagieren 1412.
Man beachte, dass AgileTV^TM-Voice-Processing Unit-(AVPU)-Boxen 3000 in Sprach-Engine 1430 und/oder in Sprachcomputer-Netzwerk 1640 und/oder 1650 enthalten sein können.
32A zeigt ein Blockdiagramm der Modulator-Engine 1350 der 23 und 24 und die Modulator-Engine 1450 der 26 und 27.
Sprach-Engine 1330 oder 1450 erzeugt einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt über die Kopplung 1332 oder 1432 zu Modulator-Engine 1350, bzw. 1450. Aus Gründen der Einfachheit konzentriert sich die Erläuterung von der Erklärung der 32A auf ihre Anwendung in den 23 und 24. Dies erfolgt grundsätzlich zur Vereinfachung der Erklärung und bedeutet keine Einschränkung des Umfangs der Ansprüche.
Modulator-Engine 1350 kann Status- und Zuverlässigkeits-Information für Sprach-Engine 1330 bereitstellen 1334. Sprach-Reaktions-Inhalts-Kanäle, die über Kopplung 1332 präsentiert werden, können digital sein und als Bits oder Gruppen von Bits präsentiert werden.
Mehrere Kanäle werden auf Kopplung 1332 durch Sprach-Engine 1330 gemultiplext. Der Multiplex-Mechanismus auf Kanal 1332 kann Zeitmultiplex durchführen. Modulator-Engine 1350 demultiplext die mehreren gemultiplexten Kanäle, die über Kopplung 1332 empfangen werden und wandelt einen oder mehrere gedemultiplexte Kanäle in modulierte Kanäle oder modulierte Gruppen von Kanälen um, die Multiplexer-Engine 1360 präsentiert 1352 und 1354 werden.
Man beachte, dass die Erfindung auf spezielle Ebenen eines Heim-Breitbandnetzes abzielen kann, das mindestens Kabelfernseh-Anforderungen für eine Teilnehmer-Gemeinschaft erfüllt. Modulator-Engine 1350 kann spezielle Anforderungen für einen drahtgebundenen Knoten erfüllen, der einen Hybrid Fiber/Coaxial HFCOax-Knoten bedient. Modulator-Engine 1450 kann spezielle Anforderungen für einen drahtgebundenen Knoten erfüllen, der eine Kopfstation oder eine Stadt-Kopfstation bedient.
Modulator-Engine 1350 kann einen Modulator-Eingangs- und Steuerungs-Schaltkreis 1700 enthalten, der über Kopplung 1332 einen oder mehrere Kanäle mit Sprach-Reaktions-Inhalt empfängt und möglicherweise Status- und Zuverlässigkeits-Information an Sprach-Engine 1330 liefert 1334.
Modulator-Eingangs- und Steuerungs-Schaltkreis 1700 kann Operationen ausführen, wie in Patentanmeldung Nr. 091661,486 offen gelegt, die den Titel N-way Demultiplexor trägt, die Bearbeitungsnummer AGLE0008 hat, am 14. September 2000 eingereicht wurde und hier als Referenz mit aufgenommen wird.
Modulator-Eingangs- und Steuerungs-Schaltkreis 1700 erzeugt mindestens einen Kanal-Code-Strom 1702, der an Modulator-Schaltkreis 1706 angelegt wird. Modulator-Schaltkreis 1706 benutzt den Kanal-Code-Strom 1702, um einen Zwischenfrequenz-Kanal-Strom 1712 zu erzeugen, der an den Frequenzumwandlungs-Schaltkreis 1710 angelegt wird.
Als Beispiel zeigt 32A den Modulator-Eingangs- und Steuerungs-Schaltkreis 1700, der einen zweiten Kanal-Code-Strom 1704 erzeugt, der an Modulator-Schaltkreis 1706 angelegt wird. Modulator-Schaltkreis 1706 benutzt diesen zweiten Kanal-Code-Strom 1704, um einen entsprechenden Zwischenfrequenz-Kanal-Strom 1714 zu erzeugen, der an den Frequenzumwandlungs-Schaltkreis 1710 angelegt wird.
Frequenzumwandlungs-Schaltkreis 1710 empfängt mindestens einen Zwischenfrequenz-Kanal-Strom 1712 und erzeugt einen Frequenz-Kanal-Ausgangs-Strom 1352, der an Multiplexer-Engine 1360 angelegt wird, wie in den 23 und 24 gezeigt. Auf gleiche Weise empfängt in den 26 und 27 der Frequenzumwandlungs-Schaltkreis 1710 mindestens einen angelegten Zwischenfrequenz-Kanal-Strom 1712 und erzeugt einen Frequenz-Kanal-Ausgangs-Strom 1452, der an Multiplexer-Engine 1460 angelegt wird.
Frequenzumwandlungs-Schaltkreis 1710 kann einen zweiten angelegten Zwischenfrequenz-Kanal-Strom 1714 empfangen und einen zweiten Frequenz-Kanal-Ausgangs-Strom 1354 erzeugen, der an Multiplexer-Engine 1360 angelegt wird, wie in den 23 und 24 gezeigt. Auf gleiche Weise kann in den 26 und 27 der Frequenzumwandlungs-Schaltkreis 1710 einen zweiten angelegten Zwischenfrequenz-Kanal-Strom 1714 empfangen und einen zweiten Frequenz-Kanal-Ausgangs-Strom 1454 erzeugen, der an Multiplexer-Engine 1460 angelegt wird.
Frequenzumwandlungs-Schaltkreis 1710 kann eine Rückmeldung 1708 an Modulator-Eingang und Steuerung 1700 liefern, die Teil der Status- und Zu verlässigkeits-Information 1334 ist, die an Sprach-Engine 1330 angelegt wird.
Alternativ dazu kann als Rückmeldung 1708 Status- und Zuverlässigkeits-Information 1334 statt über Modulator-Eingang und Steuerung 1700 direkt an Sprach-Engine 1330 angelegt werden. Diese Alternative wurde nicht im Diagramm dargestellt, um die Erläuterung zu vereinfachen, dies hat aber nicht die Absicht, den Umfang der Ansprüche einzuschränken.
Modulator-Schaltkreis 1706 erzeugt Zwischenfrequenz-Kanal-Strom 1712 unter Verwendung des bereitgestellten Kanal-Code-Stroms 1702.
Zwischenfrequenz-Kanal-Strom 1712 kann die Präsentation einer sinusförmigen Signalform umfassen, die als digitaler Strom oder als analoger Strom dargestellt wird. Der angelegte Kanal-Code-Strom 1702 kann Phasen-Steuerungs-Information enthalten und/oder Frequenz-Steuerungs-Information enthalten und/oder Amplituden-Steuerungs-Information enthalten. Die Frequenz-Steuerungs-Information kann weiterhin einen Zwischenfrequenz-Träger betreffen.
Steuerungs-Information kann in einem gesonderten Kanal-Strom angelegt werden.
Der Mechanismus zur Erzeugung des Zwischenfrequenz-Kanal-Stroms kann die kohärente Demodulation und die Verwendung des Zwischenfrequenz-Trägers in einem Empfänger auf der Downstream-Teilnehmerseite unterstützen. Der Mechanismus zur Erzeugung des Zwischenfrequenz-Kanal-Stroms kann Modulations-Mechanismen unterstützen, einschließlich mindestens Phase Shift Keying (PSK), Frequency Shift Keying (FSK), Amplitude Shift Keying (ASK), Continuous Phase Modulation (CPM), hybride Kombinationen, Offset Quadrature PSK (OQPSK), Minimum Shift Keying (MSK), Quadrature Amplitude Modulation (QAM), Coded Orthogonal Frequency Division Mul tiplexing (COFDM) und Vestigal Side Band (VSB), insbesondere 8-Ebenen-VSB (8-VSB).
Der Mechanismus zur Erzeugung des Zwischenfrequenz-Kanal-Stroms kann die nicht-kohärente Demodulation des Zwischenfrequenz-Trägers in Empfängern auf der Downstream-Teilnehmerseite und/oder Demodulations-Mechanismen, die keine Träger-Referenz benötigen, unterstützen. Der Mechanismus zur Erzeugung des Zwischenfrequenz-Kanal-Stroms kann Modulations-Mechanismen unterstützen, einschließlich mindestens Differential Phase Shift Keying (DPSK), Frequency Shift Keying (FSK), Amplitude Shift Keying (ASK) und bestimmte hybride Verfahren dieser Mechanismen, die keine Träger-Referenz benötigen.
Der Zwischenfrequenz-Kanal-Strom 1712 kann die Präsentation einer Wavelett-Funktion umfassen, die als digitaler Strom oder als analoger Strom dargestellt wird, der weiterhin Dilatations-Steuerungs-Information und/oder temporäre Offset-Steuerungs-Information und/oder Amplituden-Steuerungs-Information enthält.
Der Zwischenfrequenz-Kanal-Strom 1712 kann die Präsentation sowohl von sinusförmigen, als auch von Wavelett-Funktionen umfassen.
Die Erfindung kann mehrere Frequenzumwandlungs-Schaltkreis-Instanzen 1710 und mehrere Modulator-Schaltkreis-Instanzen 1706 in Modulator-Engine 1350 mit möglicherweise unterschiedlicher Anzahl von Instanzen der Frequenzumwandlung 1710 und der Modulator-Schaltkreise 1706 umfassen.
Die Erfindung kann mehrere Frequenzumwandlungs-Schaltkreis-Instanzen 1710 und Modulator-Schaltkreis-Instanzen 1706 in Modulator-Engine 1450 mit möglicherweise unterschiedlicher Anzahl von Instanzen von Frequenzumwandlungs-Schaltkreisen 1710 und der Modulator-Schaltkreise 1706 umfassen.
Das Demultiplexen eines Bitstroms mit 2,5 Gigabit pro Sekunde, der die Sprach-Engine 1330 oder 1430 verlässt, kann von einer Preprozessor-CPU durchgeführt werden, die zwei 16-Bit-Ströme erzeugt. Die Preprozessor-CPU kann Teil eines integrierten Schaltkreises oder der ganze Schaltkreis Broadcom BCM 12500 sein, der die Ethernet-Verbindungen mit ungefähr drei Gigabit pro Sekunde in zwei digitale 16-Bit-Ströme mit 150–160 MHz umwandelt.
Modulator-Eingangs- und Steuerungs-Schaltkreis 1700 kann zwei Preprozessor-CPUs enthalten, die die beiden 16-Bit-Schnittstellen-Ströme in 96 Datenkanäle zerlegen, oder alternativ diese Funktion durch Hardware ausgeführt enthalten.
Modulator-Schaltkreis 1706 kann mehrere Modulatoren enthalten und kann mehrere Instanzen mehrerer Kanal-Modulatoren enthalten, die einen Achtfach-QAM-(Quadrature Amplitude Modulator)-Modulator implementieren.
Gruppen von 8 Daten-Kanälen können zu jedem Achtfach-QAM gesendet werden, um sie in ein Zwischenfrequenz-Signal umzuwandeln, das an einen zugeordneten Mehrkanal-Frequenz-Aufwärtswandler 1710 angelegt wird, um 8 diskrete Kanäle zu erzeugen, welche dieselbe Ausgangsfrequenz gemeinsam nutzen. Jedes Kanal-Ausgangssignal wird unter Ausschluss anderer Knoten an einen oder mehrere Knoten angelegt.
Ein systemweiter Kanal kann der Audio-Video-Rückmeldung des Spracherkennungssystems zugeordnet werden, wovon 96 Instanzen dieses einzelnen Kanals vorhanden sind, die dann auf 96 verschiedene Faser-Übertragungsleitungen gemultiplext werden, jede von ihnen mit einem einzigen zur Spracherkennung gehörigen Fernsehkanal.
Dies wird viel effizienter ausgenutzt als nach dem bisherigen Stand der Technik. Da alle Frequenz-Aufwärts-Umwandlungen dasselbe Frequenzband als Ziel haben, kann der Frequenzumwandlungs-Mechanismus für mehrere Kanäle mehrere kritische Komponenten gemeinsam nutzen, wie z.B. lokale Referenz-Oszillatoren, die sonst für jeden Kanal getrennt realisiert werden müssen.
Indem der Frequenzumwandlungs-Mechanismus auf Blöcke von Kanälen angewendet wird, ist eine Optimierung in Umgebungen mit umfangreicher Internet-Nutzung möglich. In solchen Situationen kann einer Umgebung ein zweiter Fernsehkanal für die Internet-Präsentation zugeordnet werden. Durch Rekonfiguration eines Blocks von Umwandlern auf diesen zweiten Kanal können bis zu 8 Umgebungen einen zweiten Fernsehkanal empfangen.
Konfiguriert man diese Frequenzumwandlungs-Mechanismen als frequenzagilen Block, werden die Kanal-Frequenzbänder aller Kanäle des frequenzagilen Blocks gleichzeitig geändert.
Es ergeben sich drastische Kosteneinsparungen. Zur Zuverlässigkeit: Es sind wesentlich weniger Teile, ein einfacheres Design und weniger Wärmeentwicklung vorhanden, alles Dinge, die zur Erhöhung der Zuverlässigkeit beitragen.
Es kann eine Hierarchie von Multiplexern vorhanden sein, die mit Inhalts-Engine 1340 oder 1440 arbeiten: Systemweite Kanäle werden in einem Satz von Multiplexern in Inhalts-Engine 1340 oder 1440 gemultiplext. Knotenspezifische Kanäle können in einem zweiten Satz von Multiplexern in Inhalts-Engine 1340 oder 1440 gemultiplext werden, die sich in einer Multiplexer-Engine befinden kann, wie z.B. 1460.
In einem Kabelfernsehsystem, das einen VOD-Server benutzt, werden oft 8 bis 16 Kanäle pro Knoten zur Bereitstellung von Video on Demand benutzt. Diese knotenspezifischen Kanäle werden in einem zweiten Satz von Multi plexern in Inhalts-Engine 1340 oder 1440 gemultiplext und können in Multiplexer-Engine 1460 weiter gemultiplext werden.
Jeder NTSC-Fernsehkanal hat eine Bandbreite von ungefähr 6 MHz, die bei Verwendung von QAM64-Modulatoren 27 MBit/s liefern. Die bereitgestellten 2,5 Gigabit pro Sekunde unterstützen ungefähr 4500 Internet-Nutzer.
32B zeigt ein Blockdiagramm eines Lokaloszillators, wie in der Technik bekannt, zur Verwendung als Lokaloszillator, wie in den 33 und 34 als LO1 1760, LO1 1860, LO2 1770 oder LO2 1870 gezeigt.
Der erste Lokaloszillator (LO1) 1760 oder 1860 kann mit einer festen Frequenz 1762 im Bereich von 900 MHz bis 1100 MHz arbeiten. Ein zweiter Lokaloszillator (LO2) 1770 oder 1870 kann in einem variablen Bereich von 1 bis 2 GHz arbeiten 1772, abhängig vom gewünschten Ausgangs-Frequenzbereich.
Die Lokaloszillatoren enthalten jeweils einen spannungsgesteuerten Oszillator, einen Frequenz-Synthesizer und ein Schleifen-Filter. Der Frequenz-Synthesizer benötigt eine Frequenz-Referenz. Das Ausgangssignal des spannungsgesteuerten Oszillators wird verstärkt, um ein Lokaloszillator-Ausgangssignal zu erzeugen, das in verschiedenen Instanzen mit 1762, 1772, 1862 und 1872 bezeichnet wird.
Die Frequenz-Synthesizer müssen die hohen Anforderungen an Phasenrauschen, Frequenzstabilität und Frequenz-Einstellbarkeit eines modernen digitalen Kabelfernsehnetzes erfüllen. Ein beträchtlicher Teil der Schaltkreise in dem typischen Aufwärtswandler 1710 ist den Synthesizern der Lokaloszillatoren 1760, 1770, 1860 und 1870 zugeordnet.
Spezielle Anwendungen beim Kabelfernsehen benötigen eine gemeinsame Frequenz, bei mehreren HF-Ausgangssignalen, wie z.B. dem speziellen Vi deo-Inhalt eines Rundsende-Knotens oder Daten über mehreren Knoten, die eine feste Kanal-Frequenz nutzen, ist es jedoch die gängige Praxis, sich auf individuelle HF-Modulatoren/Aufwärtswandler 1710 pro Knoten zu verlassen. Die Verwendung individueller Modulatoren/Aufwärtswandler benötigt eine große Menge an Platz im Gestellrahmen, der bei vielen Knoten, einschließlich den meisten CAN-Kopfstationen, knapp ist.
33 zeigt ein detailliertes Blockdiagramm des Frequenzumwandlungs-Schaltkreises 1710 der 32A.
Ein beträchtlicher Teil der Schaltkreise in dem typischen Aufwärtswandler ist den Synthesizern der Lokaloszillatoren 1860 und 1870 zugeordnet.
Die Erfindung umfasst Verfahren zur Implementation eines HF-Aufwärtswandlers mit gemeinsamem Träger und mehreren Ausgängen 1710, die mindestens eines von zwei Verfahren zur Verteilung von Lokaloszillator-Signalen enthalten. Die Verteilverfahren liefern ein Lokaloszillator-Signal von einem Lokaloszillator an mehrere Aufwärtswandler-Abschnitte gleichzeitig, wodurch die Frequenz-Synthesizer und spannungsgesteuerten Oszillatoren überflüssig werden, die typischerweise für jeden einzelnen Aufwärtswandler-Abschnitt benötigt werden. Die Beseitigung dieser Frequenz-Synthesizer und Lokaloszillatoren führt zu einer beträchtlichen Verringerung der Leiterplattenfläche und der Anzahl der Bauelemente, die normalerweise für diese Funktionen benötigt werden.
Indem man einen verteilten LO bereitstellt, werden pro Karte nur zwei LO-Synthesizer und VCOs benötigt, wobei eine Karte von 2 bis 12 oder mehr Aufwärtswandler-Abschnitte unterstützen kann.
34 zeigt ein alternatives detailliertes Blockdiagramm des Frequenzumwandlungs-Schaltkreises 1710 der 32A.
Um diese Erklärung zu vereinfachen, werden die beiden Verfahren zur Verteilung von Lokaloszillator-Signalen erläutert, wie sie dem ersten, bzw. dem zweiten Lokaloszillator zugeordnet sind. Dies erfolgt grundsätzlich zur Vereinfachung der Erklärung und bedeutet keine Einschränkung des Umfangs der Ansprüche. Der erste Verteiler-Mechanismus kann dazu benutzt werden, das/die Signal(e) des zweiten Lokaloszillators zu verteilen. Der zweite Verteiler-Mechanismus kann dazu benutzt werden, das/die Signal(e) des ersten Lokaloszillators zu verteilen.
Der erste Mechanismus 1764 verteilt das Lokaloszillator-Signal unter Verwendung von Hybrid-Verteilern 1766, wobei das HF-Ausgangssignal jedes Abzweiges 1724 und 1824 an die entsprechenden Frequenzumwandlungs-Abschnitte angelegt wird.
Ein zweiter Mechanismus 1774, der Lokaloszillator-Signale verteilt, benutzt ein Verteilungs-Signal-Aufteilungs-Verfahren, das aus einer Reihe von hybriden Richtkopplern besteht, die entlang eines Signal-Verteilungs-Pfades in gleichem Abstand angeordnet sind. Das Lokaloszillator-Signal vom Abzweig jedes Kopplers wird dann an den LO-Eingang 1744 und 1844 jedes Aufwärtswandler-Abschnittes angelegt. Bei den oben erwähnten LO-Frequenzen von 950 bis 1100 MHz kann ein Richtkoppler implementiert werden, indem Leiterbahnen 1776 in einem speziellen geometrischen Muster eingesetzt werden, was zusätzliche physische Komponenten überflüssig macht.
Bei beiden Verfahren ist es erforderlich, dass die LO-Signale von den Verteilern der Richtkoppler sofort nach dem Aufteilen verstärkt werden, wozu ein üblicher MMIC (Monolithic Microwave Integrated Circuit) verwendet wird, und/oder die Verstärkung kann in den Mischern 1720, 1740, 1820 und 1840 stattfinden.
Die Pegel der Lokaloszillator-Signale, die an die Mischer angelegt werden, werden durch ohmsche Dämpfungsglieder eingestellt, um sie an den LO- Ansteuerungs-Pegel anzupassen, der vom Mischer-Hersteller spezifiziert wurde. Für passive Mischer liegt der LO-Ansteuerungs-Pegel im Bereich von +13 dBm bis +17 dBm. Für aktive Mischer, wie z.B. Bauelemente auf der Basis einer Gilbert Cell, variieren die LO-Ansteuerungs-Pegel stark, je nach Konfiguration des Mischers. Viele Mischer vom Typ Gilbert Cell enthalten einen LO-Verstärker, so dass sie sehr kleine externe LO-Ansteuerungs-Pegel benötigen, typischerweise im Bereich von –10 dBm bis +2 dBm.
Der Aufwärtswandler mit gemeinsamem Träger und mehreren Ausgängen unterscheidet sich vom herkömmlichen CATV-Aufwärtswandler darin, dass herkömmliche Aufwärtswandler typischerweise so aufgebaut sind, dass sie für jede Aufwärtswandler-Einheit eine gesonderte Frequenz ausgeben. Im Gegensatz dazu gibt der Aufwärtswandler mit gemeinsamem Träger und mehreren Ausgängen für jede Aufwärtswandler-Einheit dieselbe Frequenz aus.
Die Zwischenfrequenz-(ZF)-Eingänge 1712 und 1724 für den Aufwärtswandler mit gemeinsamem Träger und mehreren Ausgängen können entweder eine Zwischenfrequenz mit 44 MHz oder 43,75 (Mittenfrequenz) sein. Die Bandbreite der ZF beträgt typischerweise 6 MHz für US-Anwendungen und 7 bis 8 MHz für internationale Anwendungen. Die 55-MHz-Tiefpassfilter 1716 und 1816 haben zwei Funktionen. Erstens entfernen sie jede zweite oder dritte Harmonische, die in der Verstärkerkette oder im D/A-Wandler erzeugt wird, wie im Fall der QAM-Modulation in 1706. Zweitens dienen sie als Entstör-Filter für Anwendungen, in denen ein D/A-Wandler dazu verwendet wird, die ZF von 44 MHz zu erzeugen, wie in einem QAM-Modulator 1706.
Die gefilterte 44-MHz-ZF 1718 und 1818 am Ausgang des 55-MHz-Filters 1716 und 1816 wird an den HF-Eingang des ersten Mischers 1720 und 1820 angelegt, wo sie mit dem ersten Lokaloszillator 1760 gemischt wird. Nehmen wir zum Beispiel an, die Frequenz des ersten Lokaloszillators 1760 ist 903 MHz. Das Ausgangssignal 1722 und 1822 des ersten Mischers 1720 und 1820 enthält ein oberes und ein unteres Seitenband um diese Lokaloszillator-Frequenz. Diese Seitenbänder, die 44 MHz über und 44 MHz unter der Lokaloszillator-Frequenz von 903 MHz liegen, werden verstärkt und an das 947-MHz-Bandpassfilter BPF1 1730 und 1830 angelegt. Das 947-MHz-Bandpassfilter 1730 und 1830 lässt das obere Seitenband mit 903 + 44 MHz (947 MHz) durch und sperrt das untere Seitenband 903 – 44 MHz (859 MHz).
Das gefilterte Ausgangssignal 1732 und 1832 des 947-MHz-Filters 1730 und 1830 wird an den HF-Eingang des zweiten Mischers 1740 und 1840 angelegt, wo es mit dem Lokaloszillator 1770 gemischt wird. Der zweite Lokaloszillator 1770 enthält einen VCO mit hoher Bandbreite, der durch einen Frequenz-Synthesizer gesteuert wird. Der zweite Lokaloszillator 1770 kann von 1 GHz bis etwas über 1,8 GHz in Frequenz-Schritten von 250 kHz arbeiten. Das Ausgangssignal 1742 und 1842 des zweiten Mischers enthält mehrere Frequenz-Produkte, einschließlich des oberen und des unteren Seitenbandes.
Das obere Seitenband wird gebildet, indem 947 MHz zur Frequenz des zweiten Lokaloszillators 1770 hinzuaddiert wird. Wenn die Frequenz des zweiten Lokaloszillators 1770 auf 1000 MHz eingestellt wird, ist die Frequenz des oberen Seitenbandes, das vom zweiten Mischer 1750 und 1850 kommt, 947 MHz + Frequenz des zweiten Lokaloszillators 1770 (1000 MHz) oder 1947 MHz.
Das Seitenband, welches unerwünscht ist, kann durch das 950-MHz-Tiefpassfilter 1750 und 1850 ausgefiltert werden und erscheint nicht am HF-Ausgang 1452 und 1454 des Frequenzumwandlungs-Schaltkreises. Die Frequenz des unteren Seitenbandes, das gewünscht ist, wird durch die Frequenz des zweiten LO (1000 MHz) – 947 MHz bestimmt, was eine Ausgangsfrequenz von 53 MHz erzeugt, die das 950-MHz-Tiefpassfilter leicht durchläuft.
Wenn die Frequenz des zweiten Lokaloszillators 1770 auf 1807 MHz erhöht wird, ist das untere Seitenband vom zweiten Mischer 1740 und 1840 860 MHz und noch in der Lage, das 950-MHz-Tiefpass-Ausgangsfilter 1750 und 1850 zu durchlaufen. Die Ausgangssignale 1752 und 1852 vom 950-MHz-Tiefpassfilter 1750 und 1850 werden in Verstärker-Demodulator 1760 und 1860 verstärkt, um den gewünschten Ausgangspegel zu erhalten, und werden an den Ausgangs-Steckverbinder gesendet 1452 und 1454. Der Verstärker-Demodulator kann weiterhin einen kleinen Teil der Ausgangsleistung abzweigen, wozu ein Richtkoppler verwendet wird, um die Leistungsmessung 1762 und 1862 zu ermöglichen.
Das Verfahren mit gemeinsamem Träger und mehreren Ausgängen unterscheidet sich vom herkömmlichen Aufwärtswandler auf mindestens die folgenden Weisen. Im System mit gemeinsamem Träger steuern ein einziger erster Lokaloszillator und ein zweiter Lokaloszillator jeden Aufwärtswandler-Teil in einem Mehrfach-Aufwärtswandler-System an. Dies wird erreicht, indem das Lokaloszillator-Signal auf so viele Leitungen aufgeteilt wird, wie benötigt werden, um den Mischer in jedem Abschnitt anzusteuern. Nach der N-maligen Aufteilung des LO-Signals ist die LO-Leistung verringert und erfordert eine Verstärkung, um den Pegel für den betreffenden Mischer zu erreichen. Indem sowohl das erste als auch das zweite Lokaloszillator-Signal auf diese Weise aufgeteilt wird, kann die Anzahl von Aufwärtswandler-Abschnitten für eine gegebene Leiterplatten-Größe drastisch erhöht werden.
Die Aufteilung des Lokaloszillator-Signals kann auch mit Richtkopplern erreicht werden. Um eine im Wesentlichen gleichmäßige LO-Leistung entlang des Verteilungs-Pfades zu erreichen, werden beim Richtkoppler-Verfahren Richtkoppler mit unterschiedlichen Abzweig-Werten verwendet. Koppler, die sich am nächsten am VCO befinden, haben die höchsten Abzweig-Werte (höchste Abzweig-Dämpfung), und die dem Ende am nächsten liegenden Koppler haben die geringsten Abzweig-Werte.
Die Operationen der vertikalen Kette von Mischern und Filtern sind im Wesentlichen die gleichen wie in 33 beschrieben.
Im ersten Frequenzumwandlungs-Abschnitt von Aufwärtswandler 1710 beider 33 und 34 kann der zweite Lokaloszillator (LO2) 1770 einen spannungsgesteuerten Oszillator mit hoher Bandbreite enthalten, der über die Frequenzeinstellungs-Agilität verfügt, den oben erwähnten Frequenzbereich von 50 bis 860 MHz abzudecken. Beide Lokaloszillatoren 1760 und 1770 können Frequenz-Synthesizer hoher Stabilität erfordern, um zum Beispiel die Anforderungen an Phasenrauschen, Frequenzstabilität und Frequenz-Einstellbarkeit eines modernen Kabelfernsehnetzes einzuhalten.
Betrachten wir den zweiten Frequenzumwandlungs-Abschnitt aus 34. Der empfangene Zwischenfrequenz-Kanal-Strom 1714 kann gefiltert werden 1816, um ein gefiltertes Zwischenfrequenz-Signal 1818 an Mischer 1 1820 anzulegen.
Anders als in 33 befindet sich kein erster Lokaloszillator (LO1) 1860 im zweiten Frequenzumwandlungs-Abschnitt, der typischerweise mit einer festen Frequenz 1862 im Bereich von 900 MHz bis 1100 MHz arbeitet.
Anders als in 33 ist kein zweiter Lokaloszillator (LO2) 1870 vorhanden, der im Bereich von 1 bis 2 GHz arbeitet 1872, abhängig vom gewünschten Ausgangs-Frequenzbereich.
Umfangreiche Schaltkreise dieses Aufwärtswandler-Abschnitts sind von der Unterstützung der Lokaloszillatoren 1860 und 1870 aus 33 befreit.
35 zeigt ein detailliertes Blockdiagramm der Sprach-Engine 1330, wie in 23 gezeigt, oder der Sprach-Engine 1430, wie in 27 gezeigt, die zwei Plex-Kommunikations-Netze mit doppelten redundanten Gateways enthält.
Die Nummerierung stimmt mit plex.cpp im Anhang zur Patentanmeldung Nr. 09/679,115 überein, die den Titel "System and Method of a Multi-dimensional Plex Communication Network" trägt, die Bearbeitungs-Nummer AGLE0003 hat, am 14. Oktober 2000 eingereicht wurde und die hierin als Referenz aufgenommen wird.
ROM und Massenspeicher sind mit CPU 8.0 gekoppelt, die Knoten 0.0 des ersten Plex-Netzwerks zugeordnet ist. CPU 8.0 ist für bestimmte Steuerungs- und Sicherheits-Aktivitäten reserviert, wie z.B. die Unterhaltung des Massenspeicher-Systems und seiner Schnittstelle, sowie die Initialisierung des Restes des Plex-Kommunikationsnetzes, mit dem sie gekoppelt ist. Der Massenspeicher kann RAID-Massenspeicher-Systeme umfassen.
Man beachte, dass CPU 8.0 sowohl mit CPU1 0.0, als auch mit CPU2 0.1 gekoppelt ist. Diese Kopplung kann durch verschiedene Mechanismen erreicht werden, einschließlich, aber nicht begrenzt auf eine Brücken-Schaltkreis-Schnittstelle zu einem Bus, der CPU1 und CPU2 eng koppelt und einen Bus-Standard implementiert, wie z.B. LDT und PCI.
Ähnliche Kopplungen sind im Folgenden gezeigt: CPU 8.1 ist mit CPU1 1.2 und CPU2 1.3 gekoppelt. CPU 8.2 ist mit CPU1 2.4 und CPU2 2.5 gekoppelt. CPU 8.3 ist mit CPU1 3.6 und CPU2 3.7 gekoppelt. CPU 8.4 ist mit CPU1 4.0 und CPU2 4.1 gekoppelt. CPU 8.5 ist mit CPU1 5.2 und CPU2 5.3 gekoppelt. CPU 8.6 ist mit CPU1 6.4 und CPU2 6.5 gekoppelt. CPU 8.7 ist mit CPU1 7.6 und CPU2 7.7 gekoppelt.
ROM und Massenspeicher sind redundant mit CPU 8.4 gekoppelt, die dem zweiten Plex-Netzwerk zugeordnet ist. Hierdurch wird die Möglichkeit eines Fehlers in der Kopplung zwischen entweder ROM oder Massenspeicher verhindert, der einen Systemfehler in der Sprach-Engine als Ganzes verursachen würde. Die auf CPU 8.0 und CPU 8.4 laufende Software kann weiterhin eine Ausfallsicherung im Fall eines Fehlers jeder CPU unterstützen.
CPU 8.0 und 8.4 wirken als doppelte, redundante, sichere Schnittstellen-Gateways.
Die Steuerungs-Prozessoren der AgileTV^TM-Engines können von den Routinen zur Nachrichten-Weiterleitung unterschiedlich behandelt werden: Es können keine Nachrichten durch die Steuerungs-Prozessoren CPU 8.0 und 8.4 weitergeleitet werden, die für ein anderes Ziel bestimmt sind. Die E/A-Leitungen der CPU 8.0 und 8.4 können interne Verwaltungsfunktionen im Knoten des Kabelnetzwerks unterstützen, insbesondere Verwaltung und Rechnungserstellung. Dies ist für die Sicherheit von Vorteil, da es für Computereindringlinge schwerer wird, die Verwaltungs- und Rechnungserstellungs-Kommunikation zu durchbrechen, da es bei solchen Angriffen unmöglich ist mit CPU 8.0 und 8.4 oder ihren E/A-Leitungen direkt zu kommunizieren.
Alternativ dazu können spezielle Klassen von Kommunikationen mit definierten Protokollen durch den Steuerungs-Prozessor weitergeleitet werden. Andere Arten von Kommunikationen können den Knoten durchlaufen, zu dem der Steuerungs-Prozessor gehört, können aber nicht am Steuerungs-Prozessor enden. Obwohl es für große Netzwerke üblich ist, sie zu unterteilen, ist diese Unterteilungs-Lösung neuartig und liefert sehr gut charakterisierte Datenpfade sowohl für die Verwaltungs-, als auch die Rechnungserstellungs-Kommunikation.
Es ist von Vorteil, dass der Steuerungs-Prozessor die Festplatten-Ressourcen besitzt, so dass sensible Informationen, wie z.B. Kreditkarten-Informationen nicht die weniger sicheren Komponenten des Plex-Netzwerks durchlaufen. Sensible Informationen gehen direkt von den Festplatten-Ressourcen durch den Steuerungs-Prozessor zur Rechnungserstellungs-Anwendung.
Die Sicherheit kann weiter erhöht werden, indem mindestens ein Verschlüsselungs-Standard verwendet wird, einschließlich des AES-Algorithmus, der kürzlich von der US-Regierung vorgeschlagen wurde.
Die Eingangs-Prozessoren (8.1 und 8.5) führen folgende Aufgaben aus: Empfang eintreffender Sprachpakete; Zwischenspeichern der empfangenen Sprachpakete; Erkennen des letzten Paketes der empfangenen Paket-Sequenz zum Erzeugen einer kompletten Paket-Sequenz; und Umsetzen der empfangenen Paket-Sequenz zum Erzeugen einer kompletten Audio-Äußerung.
Der Inhalts-Gateway enthält die Prozessoren 8.1 und/oder 8.5. Nach der Registrierung der Anwendung bei der AgileTV^TM-Engine werden der statische Menü-Inhalt und der dynamische Inhalt an die AgileTV^TM-Engine geliefert. Ein Sprachprozessor in der AgileTV^TM-Engine sendet über den Inhalts-Gateway Nachrichten zu einem Anwendungs-Server in der Inhalts-Engine, die den aktuellen Teilnehmerstandort in der Menü-Struktur und die angeforderten Teilnehmer-Aktionen anzeigen. Dies löst Ereignisse in einem ereignisgesteuerten Echtzeit-Programm-Betriebssystem aus, das im Anwendungs-Server ausgeführt wird.
In den CPUs 8.1 und 8.5 kann auch ein Job-Zuordnungs-Manager laufen. Der Job-Zuordnungs-Manager kann sich weiterhin wie ein endlicher Automat verhalten.
Die E/A- und Steuerungs-CPUs 8.1 bis 8.7 können als von der Plex-Anordnung von Prozessoren getrennt, oder als Komponenten spezialisierter Plex-Knoten innerhalb des Plex betrachtet werden. Die Erfindung kann es umfassen, Steuerungs- und E/A-CPUs als eine Zeile von Verarbeitungs-Ressourcen zu platzieren, die auf einer Diagonalen der Anordnung angeordnet ist. Die Anordnung kann quadratisch sein. Boot-ROMs, RAID-Schnittstellen, zusätzliche Kommunikations- und Bildverarbeitungs- Funktionen können zusätzlich mit einer oder mehreren der E/A- und Steuerungs-CPUs gekoppelt sein.
Ein Service-Modem kann mit einer Leitung außerhalb des Gebäudes eines Knotens oder einer Kopfstation verbunden sein. Jede Installation kann dieses Modem als letzten Backup-Kommunikationskanal zu einem entfernten Service-Zentrum haben. Die CPUs 8.0 und 8.4 können auch die doppelten Modems an einer Telefonleitung haben, die mit einem entfernten Service-Zentrum verbunden ist.
Die CPUs 8.1 und 8.5 sind Eingabe-CPUs für die Kommunikation der Kopfstations-Empfänger, der lokalen Inhalts-Server, wie z.B. VOD-Server und IPG-Server.
Die CPUs 8.2 und 8.6 sind Internet-Schnittstellen-Prozessoren, die Firewall-Funktionen bereitstellen.
Die CPUs 8.3 und 8.7 steuern das AgileTV^TM-Modulator-System 1350 oder 1450 an, wie in den 23, 24, 26 und 27 gezeigt.
Externe Netzwerkschnittstellen 1312 und 1412 können externe OC-48-(2,5 Gigabit)- und/oder Gigabit-Ethernet-Internet-Leitungen enthalten. Dies ist eine zentrale Verbindung zum das Internet unterstützenden 100 MBit-Ethernet- oder anderen Kommunikations-Protokollen.
Die AgileTV^TM-Engine 3000, 1330 und 1340 kann zwei Ebenen von Prozessoren enthalten, die durch Tunnel miteinander verbunden sind, wobei jede Prozessor-Ebene eine Zeile von Prozessoren enthält, die durch die Tunnel gekoppelt sind und in der Diagonalen jeder Prozessor-Ebene angeordnet sind. Eine Diagonale, wie hier verwendet, bezieht sich auf eine Gruppe von Orten in einer Anordnung mit mindestens zwei Dimensionen, die gemeinsam Knoten enthält, die mit jedem Bündel in jedem orthogonalen Bündel gekoppelt sind.
Eine Trägerklassen-Zuverläsigkeit von 99,999% ist die Grund-Zuverlässigkeit für die Plex-Kommunikations-Netzwerke. Simulations-Analysen, die einer der Erfinder durchgeführt hat, bestätigen, dass die Redundanz, die mehreren Kommunikations-Bündeln, die sich an einem Plex-Knoten schneiden, inhärent ist, eine beträchtliche Fehlertoleranz bietet. Diese Simulationen, die das Programm plex.cpp benutzt haben, zeigen, dass bei 42 aus 43 Experimenten für bis zu 25 Systemelement-Fehler keine Nachrichten-Leitweglenkungs-Fehler auftraten. Die unabhängigen Stromversorgungen, welche die doppelten Plex-Ebenen versorgen, unterstützen diese Zuverlässigkeits-Ziele noch weiter, da wenn eine Stromversorgung ausfällt, nur die Hälfte des Systems ausfällt. Die andere Hälfte des Systems arbeitet weiter, obwohl die Leistungsfähigkeit verringert ist.
Ein Skalierungs-Verfahren, das einen anderen Zuverlässigkeits-Mechanismus enthält, ist wünschenswert. Es wird ohne merklichen Anstieg des üblichen System-Overheads, von Verzögerungszeit, Bandbreite erreicht, ohne Engpässe zu erzeugen oder wesentliche zusätzliche Rechenbelastungen für die Komponenten der Netzwerk-Knoten hinzuzufügen. Ein weiterer E/A-Prozessor für das Inter-Engine-Plexing wird hinzugefügt, um mehrere Plex-Netzwerk-Hierarchien durch folgendes Verfahren zu koppeln: Auswählen eines Plex-Knotens, Hinzufügen einer für den Plex-Knoten internen Inter-Prozessor-Kommunikations-Schnittstelle und eines weiteren E/A-Prozessors, der mit der Inter-Prozessor-Kommunikations-Schnittstelle gekoppelt ist. Die Inter-Prozessor-Kommunikations-Schnittstelle kann einen Bus unterstützen, der ein LDT-kompatibler Bus sein kann.
Fügt man zwei dieser E/A-Prozessoren in das in 35 gezeigte Netzwerk ein, wird eine weitere 6-Gigabit-Faser unterstützt. Dies unterstützt ein 4 mal 4 Plex von AgileTV^TM-Engines oder Sprach-Engines. Plex-Knoten dieses Plex- Netzwerks enthalten jeweils eine AgileTV^TM-Engine oder Sprach-Engine, die zwei Ebenen von 4 mal 4 Plex-Netzwerken von Plex-Knoten enthalten, von denen jeder mindestens zwei CPUs hat. Jede CPU kann mindestens Doppel-Instruktions-Prozessoren enthalten.
Ein solches System unterstützt extrem hohe Rechenleistungs-Anforderungen, wie z.B. die quantenmechanische Modellierung von langen Kohlenwasserstoff-Ketten oder einen Video-Server für eine Einwohnerschaft, z.B. eines Stadtviertels, z.B. Brooklyn.
Das 4 mal 4 Plex von AgileTV^TM-Engines passt leicht in einen 8 Fuß (2,6 Meter) mal 10 Fuß (3,3 Meter) Schrank mit 8 Fuß (2,6 Meter) Höhe. Das System ist für die Spracherkennung von 560.000 Kabel-Teilnehmern mit mehr als 30.000 sprechenden Teilnehmern veranschlagt, wobei für die Teilnehmer-Gemeinschaft, die durch ein solches Kabelfernsehsystem bedient wird, eine Bandbreite von 20–30 Gigabit ausgetauscht wird. Das System überschreitet die Roh-Computerleistung von ASCI White, dem schnellsten Supercomputer der Welt, der im Jahr 2000 in den Lawrence Livermore Laboratories installiert wurde.
Die AgileTV^TM-Engine bietet MPEG-Komprimierungsverfahren, was eine Unterstützung von mehr Teilnehmern ermöglicht, als ohne eine solche intelligente Bandbreitenverwaltung andernfalls möglich wären.
Die AgileTV^TM-Engine unterstützt weiterhin eine spezielle Untermenge von Plex-Knoten und die Kopplung jedes Plex-Knotens der Untermenge mit mindestens einem zusätzlichen Prozessor. Dies bietet die Kommunikation mit zusätzlichen Kommunikations-Bündeln, die mit anderen System-Komponenten verbunden sind, bei denen es sich um zusätzliche Plex-Kommunikations-Netzwerke von Prozessor-Plex-Knoten handeln kann und kann auch die Sicherheit mehrerer Anwendungen durch Partitionierung verbessern.
Kommunikations-Bündel, die sich an einem Plex-Knoten schneiden, bieten ein hierarchisches Verbindungsverfahren, das beliebig große Gruppen von gleichlaufenden Computer-Ressourcen unterstützen. Die Kommunikations-Verzögerung zum Durchlaufen eines solchen Systems kann in der Größenordnung des Logarithmus der Anzahl von Computer-Ressourcen-Plex-Knoten, die durch diese Kommunikations-Bündel miteinander verbunden sind, wachsen.
Das Verfahren, welche diese Innovationen nutzt, bietet eine beträchtliche Menge an Computer-Ressourcen, die mit fast jedem Kommunikations-Protokoll gekoppelt werden können.
Die Anwendung dieses Verfahrens auf Kabelfernsehnetze mit einer extrem begrenzten Upstream-Kommunikations-Bandbreite ermöglicht die Spracherkennung in Kabelfernsehnetzen, die wiederum einen Durchbruch bei der Benutzerfreundlichkeit ermöglicht, die heute im Bereich des Home Entertainment noch nicht erzielt werden kann.
Die weitere Anwendung dieses Verfahrens, das die Teilnehmerstandort-Adressierung und die Erkennung der Sprache von diesem Teilnehmerstandort zugeordneten Teilnehmern ermöglicht, unterstützt die Reaktions-Schnelligkeit solcher Systeme.
Ein Internet-Browser kann auf einem Prozessor in der AgileTV^TM-Engine laufen und die Browser-Ansicht in Pixel-Rahmen zerlegen, die in einen MPEG-Strom umgesetzt und zu den Frequenz-Aufwärts-Umsetzern gesendet werden, usw.
Betrachten wir interaktive Spiele mit Sprachsteuerung. Große Bewegtbild-Videosequenzen können auf einem Spiele-Server gespeichert werden. Das Abspielen der entsprechenden Bewegtbild-Videosequenzen kann durch Sprachkommandos gesteuert werden, wobei der Spiele-Server als lokaler VOD-Server für den Kopfstations-Knoten benutzt wird, der über einen ausreichend schellen und reaktionsschnellen Kommunikations-Mechanismus kommuniziert, der das Internet sein kann.
Interaktive Glücksspiele werden über Kabelfernsehnetze unterstützt.
Interaktives Einkaufen, das auf Einkaufs-Inhalten beruht, die auf einem VOD-Server gespeichert und durch Spracherkennungs-Reaktionen der AgileTV^TM-Engine aktiviert werden, wird unterstützt.
Interaktive Auktionen werden über Kabelfernsehnetze unterstützt.
Interaktive Sprachkommunikations-Anwendungen werden über Kabelfernsehnetze unterstützt.
Die oben angegebenen Ausführungen der Erfindungen wurden als Beispiel angegeben und bedeuten keine Einschränkung des Umfangs der folgenden Ansprüche.

Claims

Verfahren zur Verwendung eines Rückkanals, der eine Vielzahl von erkannten Sprachkanälen von einer Vielzahl von Teilnehmerstandorten (1100) enthält, die in ein Spracherkennungssystem (3200) an einem Leitungs-Knoten (1300) eines Netzwerks, das mindestens einen der Dienste Kabelfernsehen oder Video-Verteildienst unterstützt, eingegeben werden und das folgende Schritte umfasst: Empfang des Rückkanals zur Erzeugung eines empfangenen Rückkanals; Aufteilung des empfangenen Rückkanals in eine Vielzahl empfangener erkannter Sprachkanäle; Verarbeitung jedes aus der Vielzahl empfangener erkannter Sprachkanäle mit dem Spracherkennungssystem, um für jeden empfangenen erkannten Sprachkanal einen entsprechenden erkannten Sprachinhalt zu erzeugen; Reaktion auf den erkannten Sprachinhalt, um eine Reaktion auf den erkannten Sprachinhalt zu erzeugen, die für jeden der erkannten Sprachkanäle eindeutig ist; und Individuelle Kontrolle der Lieferung von Unterhaltungs- und Informationsdiensten zu jedem Teilnehmerstandort (1100) in Übereinstimmung mit der erkannten Sprache.
Verfahren nach Anspruch 1, das weiterhin mindestens einen der folgenden Schritte umfasst: Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem empfangenen erkannten Sprachkanal; Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem empfangenen erkannten Sprachinhalt; Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem erkannten Sprachinhalt und einer Sprechererkennungs-Bibliothek; Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem erkannten Sprachinhalt und einer Spracherkennungs-Bibliothek; und Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus einer Erkennung innerhalb des Sprachkanals.
Verfahren nach Anspruch 1, wobei der Schritt der Reaktion auf den erkannten Sprachinhalt von dem zugeordneten Teilnehmerstandort (1100) folgende Schritte umfasst: Verarbeitung der Reaktion auf den erkannten Sprachinhalt, um die Reaktion auf den erkannten Teilnehmerstandort zu erzeugen; Senden der Reaktion auf den erkannten Teilnehmerstandort zum erkannten Teilnehmerstandort.
Verfahren nach Anspruch 1, wobei der Schritt der Reaktion auf den erkannten Sprachinhalt von dem zugeordneten Teilnehmerstandort (1100) folgende Schritte umfasst: Bewertung der Reaktion auf den Sprachinhalt, der für den Teilnehmerstandort (1100) erkannt wurde, um eine finanzielle Konsequenz, die für den Teilnehmerstandort (1100) erkannt wurde, zu erzeugen; und Gebührenerfassung für den Teilnehmerstandort (1100) auf der Grundlage der finanziellen Konsequenz.
Verfahren nach Anspruch 1, wobei der Schritt der Reaktion auf den erkannten Sprachinhalt von dem zugeordneten Teilnehmerstandort (1100) folgende Schritte umfasst: Bewertung der Sprach-Reaktion, um eine finanzielle Konsequenz, die für den Teilnehmerstandort (1100) erkannt wurde, zu erzeugen; Anzeige der finanziellen Konsequenz, um eine am Teilnehmerstandort (1100) angezeigte finanzielle Konsequenz zu erzeugen; Bestätigung der angezeigten finanziellen Konsequenz vom Teilnehmerstandort (1100), um eine finanzielle Verpflichtung zu erzeugen; und Gebührenerfassung für den Teilnehmerstandort (1100) auf der Grundlage der finanziellen Verpflichtung.
Verfahren nach Anspruch 5, wobei der Schritt der Reaktion auf den erkannten Sprachinhalt von dem zugeordneten Teilnehmerstandort (1100) folgende Schritte umfasst: Erkennung eines Teilnehmers auf der Grundlage des für den Teilnehmerstandort (1100) erkannten Sprachinhaltes, um einen erkannten Teilnehmer zu erzeugen;
Verfahren nach Anspruch 6, wobei der Schritt der Erkennung des Teilnehmers folgende Schritte umfasst: Holen einer Teilnehmerprofil-Liste auf der Grundlage des Teilnehmerstandortes (1100), wobei die Teilnehmerprofil-Liste mindestens ein Teilnehmerprofil enthält; Erkennen des Teilnehmers auf der Grundlage des Sprachinhaltes und auf der Grundlage der Teilnehmerprofil-Liste, um einen erkannten Teilnehmer zu erzeugen.
Verfahren nach Anspruch 7, wobei der Schritt der Bewertung der Sprach-Reaktion weiterhin folgenden Schritt umfasst: Bewertung der Sprach-Reaktion auf der Grundlage des erkannten Teilnehmers, um eine finanzielle Konsequenz für den erkannten Teilnehmer zu erzeugen.
Verfahren nach Anspruch 2, wobei die Reaktion auf den Sprachinhalt ein aktuelles Reaktions-Menü umfasst, und für mindestens einen der Teilnehmerstandorte (1100) eine kumulative Teilnehmerstandort-Reaktion für den Teilnehmerstandort (1100) erkannt wird.
Verfahren nach Anspruch 9, wobei der Schritt der Reaktion auf den erkannten Sprachinhalt von dem zugeordneten Teilnehmerstandort (1100) weiterhin folgende Schritte umfasst: Reaktion auf den Sprachinhalt auf der Grundlage des aktuellen Reaktions-Menüs und auf der Grundlage der kumulativen Teilnehmerstandort-Reaktion, um eine neue kumulative Teilnehmerstandort-Reaktion zu erzeugen; und Bewertung des Sprachinhaltes auf der Grundlage des aktuellen Reaktions-Menüs und auf der Grundlage der kumulativen Teilnehmerstandort-Reaktion, um ein neues aktuelles Reaktions-Menü zu erzeugen.
Verfahren nach Anspruch 1, wobei der Schritt der Reaktion auf den erkannten Sprachinhalt von dem zugeordneten Teilnehmerstandort (1100) weiterhin folgenden Schritt umfasst: Reaktion auf den Sprachinhalt, der für den Teilnehmerstandort (1100) erkannt wurde, auf der Grundlage natürlicher Sprache, um eine Sprachinhalt-Reaktion auf den für den Teilnehmerstandort (1100) erkannten Sprachinhalt zu erzeugen.
Verfahren nach Anspruch 1, wobei der Schritt der Verarbeitung der Vielzahl von empfangenen Sprachkanälen für mindestens einen der Teilnehmerstandorte (1100) weiterhin folgenden Schritt umfasst: Verarbeitung der von dem Teilnehmerstandort (1100) empfangenen Sprachkanäle auf der Grundlage natürlicher Sprache für den Teilnehmerstandort, um den für den Teilnehmerstandort (1100) erkannten Sprachinhalt zu erzeugen.
System, das die Spracherkennung für ein Netzwerk unterstützt, welches mindestens einen der Dienste zur Lieferung von Kabelfernsehen (1100) oder einen Video-Verteildienst (1100) für eine Vielzahl von Teilnehmern unterstützt, wobei das System folgendes enthält: Ein Spracherkennungssystem (3200), das mit einem Leitungs-Knoten (1300) gekoppelt ist, der Teil des Netzwerks ist, um einen Rückkanal von einer Vielzahl von Teilnehmerstandorten (1100), die mit dem Netzwerk gekoppelt sind, zu empfangen; Einen Rückkanal-Empfänger (1322) zum Empfang des Rückkanals, um einen empfangenen Rückkanal zu erzeugen; Einen Sprachkanal-Aufteiler (1580; 2012) zur Aufteilung des empfangenen Rückkanals in eine Vielzahl von empfangenen erkannten Sprachkanälen; und Einen Prozessor (1520) zur Ausführung eines Programms, das sich in einem Speicher befindet, der zugänglich mit dem Prozessor (1510) gekoppelt ist; wobei der Prozessor (1520) folgendes enthält: Mittel zur Verarbeitung jedes aus der Vielzahl empfangener erkannter Sprachkanäle in dem Spracherkennungssystem (3200), um für jeden empfangenen erkannten Sprachkanal einen entsprechenden erkannten Sprachinhalt zu erzeugen; Mittel zur Reaktion auf den erkannten Sprachinhalt, um eine Reaktion auf den erkannten Sprachinhalt zu erzeugen, die für jeden der erkannten Sprachkanäle eindeutig ist; und Mittel zur individuellen Kontrolle der Lieferung von Unterhaltungs- und Informationsdiensten zu jedem Teilnehmerstandort (1100) in Übereinstimmung mit der erkannten Sprache.
System nach Anspruch 13, wobei der Prozessor (1520) weiterhin mindestens einen der folgenden Schritte ausführt: Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem empfangenen erkannten Sprachkanal; Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem empfangenen erkannten Sprachinhalt; Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem erkannten Sprachinhalt und einer Sprechererkennungs-Bibliothek; Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus dem erkannten Sprachinhalt und einer Spracherkennungs-Bibliothek; und Bestimmung des zugeordneten Teilnehmerstandortes (1100) aus einer Erkennung innerhalb des Sprachkanals.
System nach Anspruch 13, wobei der Prozessor (1520) weiterhin folgende Schritte ausführt: Verarbeitung der Reaktion auf den erkannten Sprachinhalt, um die Reaktion auf den erkannten Teilnehmerstandort zu erzeugen; Senden der Reaktion auf den erkannten Teilnehmerstandort zum erkannten Teilnehmerstandort (1100).
System nach Anspruch 13, wobei der Prozessor (1520) weiterhin folgende Schritte ausführt: Bewertung der Reaktion auf den Sprachinhalt, der für den Teilnehmerstandort (1100) erkannt wurde, um eine finanzielle Konsequenz, die für den Teilnehmerstandort (1100) erkannt wurde zu erzeugen; und Gebührenerfassung für den Teilnehmerstandort (1100) auf der Grundlage der finanziellen Konsequenz.
System nach Anspruch 13, wobei der Prozessor (1520) weiterhin folgende Schritte ausführt: Bewertung der Sprach-Reaktion, um eine finanzielle Konsequenz, die für den Teilnehmerstandort (1100) erkannt wurde, zu erzeugen; Anzeige der finanziellen Konsequenz, um eine am Teilnehmerstandort (1100) angezeigte finanzielle Konsequenz zu erzeugen; Bestätigung der angezeigten finanziellen Konsequenz vom Teilnehmerstandort (1100), um eine finanzielle Verpflichtung zu erzeugen; und Gebührenerfassung für den Teilnehmerstandort (1100) auf der Grundlage der finanziellen Verpflichtung.
System nach Anspruch 17, wobei der Prozessor (1520) weiterhin folgenden Schritt ausführt: Erkennung eines Teilnehmers auf der Grundlage des für den Teilnehmerstandort (1100) erkannten Sprachinhaltes, um einen erkannten Teilnehmer zu erzeugen.
System nach Anspruch 18, wobei der Prozessor (1520) weiterhin folgende Schritte ausführt: Holen einer Teilnehmerprofil-Liste auf der Grundlage des Teilnehmerstandortes (1100), wobei die Teilnehmerprofil-Liste mindestens ein Teilnehmerprofil enthält; Erkennen des Teilnehmers auf der Grundlage des Sprachinhaltes und auf der Grundlage der Teilnehmerprofil-Liste, um einen erkannten Teilnehmer zu erzeugen.
System nach Anspruch 19, wobei der Prozessor (1520) weiterhin folgenden Schritt ausführt: Bewertung der Sprach-Reaktion auf der Grundlage des erkannten Teilnehmers, um eine finanzielle Konsequenz für den erkannten Teilnehmer zu erzeugen.
System nach Anspruch 13, wobei die Reaktion auf den Sprachinhalt ein aktuelles Reaktions-Menü umfasst, und für mindestens einen der Teilnehmerstandorte (1100) eine kumulative Teilnehmerstandort-Reaktion für den Teilnehmerstandort (1100) erkannt wird.
System nach Anspruch 21, wobei der Prozessor (1520) weiterhin folgenden Schritt ausführt: Reaktion auf den Sprachinhalt auf der Grundlage des aktuellen Reaktions-Menüs und auf der Grundlage der kumulativen Teilnehmerstandort-Reaktion, um eine neue kumulative Teilnehmerstandort-Reaktion zu erzeugen; und Bewertung des Sprachinhaltes auf der Grundlage des aktuellen Reaktions-Menüs und auf der Grundlage der kumulativen Teilnehmerstandort-Reaktion, um ein neues aktuelles Reaktions-Menü zu erzeugen.
System nach Anspruch 13, wobei der Prozessor (1520) weiterhin folgenden Schritt ausführt: Reaktion auf den Sprachinhalt, der für den Teilnehmerstandort (1100) erkannt wurde, auf der Grundlage natürlicher Sprache, um eine Sprachinhalt-Reaktion auf den für den Teilnehmerstandort (1100) erkannten Sprachinhalt zu erzeugen.
System nach Anspruch 13, wobei der Prozessor (1520) für mindestens einen der Teilnehmerstandorte (1100) weiterhin folgenden Schritt ausführt: Verarbeitung der von dem Teilnehmerstandort (1100) empfangenen Sprachkanäle auf der Grundlage natürlicher Sprache für den Teilneh merstandort (1100), um den für den Teilnehmerstandort (1100) erkannten Sprachinhalt zu erzeugen.
System nach Anspruch 13, wobei das Netzwerk ein drahtgebundenes Breitband-Netzwerk für Haushalte ist, das mindestens einen Teil der Vielzahl von Teilnehmerstandorten (1100) bedient.
System nach Anspruch 25, wobei das drahtgebundene Breitband-Netzwerk für Haushalte ein Breitband-Netzwerk für Haushalte mit Glasfaserkabeln bis zur Verteilerstelle auf der Straße (Fiber-to-the-Curb) ist.
System nach Anspruch 25, wobei das drahtgebundene Breitband-Netzwerk für Haushalte ein Breitband-Netzwerk für Haushalte mit Glasfaserkabeln bis zur Wohnung des Teilnehmers (Fiber-to-the-Home) ist.
System nach Anspruch 25, wobei das drahtgebundene Breitband-Netzwerk für Haushalte ein Switched-Digital-Video Residential Network (Breitband-Netzwerk für Haushalte mit vermittelten digitalen Videodiensten) ist.
System nach Anspruch 25, wobei sich der Leitungs-Knoten (1300) in der Nähe eines Knotens in dem drahtgebundenen Breitband-Netzwerk für Haushalte befindet.
System nach Anspruch 25, wobei sich der Leitungs-Knoten (1300) in der Nähe einer Kopfstation in dem drahtgebundenen Breitband-Netzwerk für Haushalte befindet.
System nach Anspruch 25, wobei sich der Leitungs-Knoten (1300) in der Nähe einer Vermittlungsstelle in dem drahtgebundenen Breitband-Netzwerk für Haushalte befindet.