DE69930109T2 - Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch - Google Patents

Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch Download PDF

Info

Publication number
DE69930109T2
DE69930109T2 DE69930109T DE69930109T DE69930109T2 DE 69930109 T2 DE69930109 T2 DE 69930109T2 DE 69930109 T DE69930109 T DE 69930109T DE 69930109 T DE69930109 T DE 69930109T DE 69930109 T2 DE69930109 T2 DE 69930109T2
Authority
DE
Germany
Prior art keywords
threshold
short
term average
calculating
vox
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69930109T
Other languages
English (en)
Other versions
DE69930109D1 (de
Inventor
Lynn Laura Palatine g STOBBA
Edward William Lombard JACKLIN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northrop Grumman Corp
Original Assignee
Northrop Grumman Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northrop Grumman Corp filed Critical Northrop Grumman Corp
Application granted granted Critical
Publication of DE69930109D1 publication Critical patent/DE69930109D1/de
Publication of DE69930109T2 publication Critical patent/DE69930109T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/17Time-division multiplex systems in which the transmission channel allotted to a first user may be taken away and re-allotted to a second user if the first user becomes inactive, e.g. TASI
    • H04J3/175Speech activity or inactivity detectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • H04B1/44Transmit/receive switching
    • H04B1/46Transmit/receive switching by voice-frequency signals; by pilot signals

Description

  • BEREICH DER ERFINDUNG
  • Die vorliegende Erfindung betrifft im Allgemeinen sprachgesteuerte Schalter und im Speziellen einen adaptiven sprachgesteuerten Schalter-(VOX)-Algorithmus, der bei sich verändernden Umgebungen mit starken Geräuschen effektiv arbeitet und lediglich eine geringe Verarbeitungsleistung benötigt.
  • HINTERGRUND DER ERFINDUNG
  • Sprachgesteuerte Schalter zum Aktivieren der Sende- oder Aufzeichnungsbetriebsart bei Headsets, Walkie-Talkies, Zweiweg-Funkgeräten, Bandrecordern und dergleichen sind hinlänglich bekannt.
  • Solche sprachgesteuerten Schalter funktionieren durch Messen des Ausgangs eines Mikrofons und Übertragen dieses Ausgangs zu einer Verstärkungsschaltung nur dann, wenn der Ausgang einen vorbestimmten Schwellenpegel überschreitet. Somit wird idealerweise nur dann gesendet, wenn der Sprecher spricht. Ein solcher Betrieb ist besonders in Halbduplexsystemen nützlich, bei denen eine Sendung nur dann empfangen werden kann, wenn der Zuhörer nicht spricht.
  • Die Verwendung eines sprachgesteuerten Schalters (VOX) senkt auch die Leistungsaufnahme, da der Sender nicht ständig eingeschaltet ist. Er kann auch die Anspannung für Personen verringern, die der Sendung zuhören, da Umgebungsrauschen nicht übertragen wird, wenn die den Sender bedienende Person nicht spricht (wenigstens in idealen Situationen). Sprachgesteuerte Schalter sind auch nützlich, wenn es schwierig oder unerwünscht ist, einen Sender manuell zu betätigen, wie z.B. durch Drücken einer Mikrofontaste. Dies kann dann der Fall sein, wenn die Hände des Benutzers anderweitig beschäftigt sind. Ein Panzerfahrer muss beispielsweise häufig beide Hände zum Bedienen des Panzers benutzen.
  • Ein Problem, das üblicherweise mit sprachgesteuerten Schaltern assoziiert ist, ist jedoch, dass sie dafür anfällig sind, versehentlich durch hohe Umgebungsgeräuschpegel aktiviert zu werden. Wie die Fachperson erkennen wird, führen hohe Umgebungsgeräuschpegel häufig zu einer unerwünschten Auslösung des sprachgesteuerten Schalters, wodurch verursacht wird, dass der Sendekanal offen bleibt, obwohl der Sprecher tatsächlich nicht spricht. Wenn der Sendekanal in einer Umgebung mit starken Geräuschen offen gehalten wird, dann wird das Geräusch jedoch zum Empfänger übertragen. Es kann für den Zuhörer am Empfänger sehr lästig sein, solche Geräuschen zuhören zu müssen, und kann in einigen Fällen in der Tat gefährlich sein, wenn es den Zuhörer ablenkt.
  • Die Empfindlichkeit solcher sprachgesteuerter Schalter kann zwar variiert werden, um eine unerwünschte Auslösung durch starke Umgebungsgeräusche abzumildern, aber eine solche Änderung der Schwelle macht es für den Benutzer auch von Natur aus schwieriger, den sprachgesteuerten Schalter durch Sprechen auszulösen. Das heißt, der Benutzer muss lauter sprechen, um einen weniger empfindlichen sprachgesteuerten Schalter auszulösen, besonders bei Schaltern wie dem, der hauptsächlich auf dem Energiepegel und nicht auf Spektralkomponenten beruht. Dies kann unerwünscht sein, da es möglicherweise nicht natürlich ist und weil man es schnell vergisst, was zur Folge hat, dass Kommunikationen nicht übertragen werden. Es kann für den Benutzer auch unbequem sein, mit einem solchen höheren Pegel zu sprechen. Längeres Sprechen auf einem höheren Pegel kann zu Heiserkeit oder Ermüdung oder sogar zu einem vorübergehenden Sprachverlust führen.
  • Die meisten modernen sprachgesteuerten Schalteralgorithmen sind speziell für Umgebungen mit schwachen Geräuschen ausgelegt, wo eine starke Zunahme der Gesamtsignalleistung tatsächlich ein sehr zuverlässiger Indikator für die Anwesenheit der Stimme des Sprechers ist. Es sind zwar Algorithmen bekannt, die speziell für Umgebungen mit starken Geräuschen ausgelegt sind, aber solche sprachgesteuerten Schalteralgorithmen für starke Geräusche arbeiten typischerweise mit Fast Fourier Transformationen (FFT) oder digitalen Gleitpunktfiltern, die beide eine erhebliche Menge an Verarbeitungsleistung erfordern.
  • Ein besonderes Problem mit sprachgesteuerten Schaltern tritt dann auf, wenn sich der Umgebungsgeräuschpegel häufig ändert und zuweilen sehr hoch wird. In diesen Fällen ist es nicht praktisch, die Empfindlichkeit der Triggerschaltung des Mikrofons ständig nachzustellen. Somit ist es wünschenswert, einen adaptiven sprachgesteuerten Schalteralgorithmus bereitzustellen, der effektiv bei sich verändernden Umgebungen mit starken Geräuschen arbeitet und der insbesondere keine zu starke Verarbeitungsleistung benötigt.
  • Das Dokument US-A-5459814 offenbart ein Beispiel für einen solchen sprachgesteuerten Schalter.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung, wie sie in den unabhängigen Ansprüchen definiert ist, geht die oben erwähnten Mängel in Verbindung mit dem Stand der Technik an und mildert sie ab. Die vorliegende Erfindung umfasst insbesondere einen adaptiven sprachgesteuerten Schalteralgorithmus, der effektiv bei sich verändernden Umgebungen mit starken Geräuschen arbeitet und lediglich eine geringe Menge an Verarbeitungsleistung benötigt, so dass ein kostenarmes Gerät niedriger Leistung bereitgestellt wird.
  • Gemäß der bevorzugten Ausgestaltung der vorliegenden Erfindung verwendet der sprachgesteuerte Schalteralgorithmus einen DSP-Chip TI-TMS320C2xx, der, wie die Fachperson erkennen wird, hauptsächlich für Ganzzahlenberechnungen ausgelegt ist (im Gegensatz zu Gleitpunktberechnungen). Es können jedoch auch viele andere DSP-Chips sowie universelle Rechengeräte geeignet sein.
  • Der sprachgesteuerte Schalteralgorithmus der vorliegenden Erfindung geht davon aus, dass das gewünschte Sprachsignal mehr Energie beinhaltet als die Hintergrundgeräusche. Dies basiert auf der Erwartung, dass der Sprecher unabhängig vom Geräuschpegel immer laut genug spricht, um seine eigene Stimme über die Geräusche herauszuhören.
  • Der sprachgesteuerte Schalteralgorithmus der vorliegenden Erfindung basiert auch auf der Annahme, dass das eingehende Audiosignal linear ist. Wenn also eine Kompression gemäß A-Gesetz oder μ-Gesetz verwendet wird, dann wird erwartet, dass die Daten vor dem Beginn des sprachgesteuerten Schalteralgorithmus dekomprimiert werden. Spezieller, die vorliegende Erfindung umfasst ein Verfahren zur Verwendung eines sprachgesteuerten Schalters bei sich verändernden Umgebungen mit starken Geräuschen, wobei das Verfahren die folgenden Schritte umfasst: Ermitteln einer relativen Energie von Hintergrundgeräuschen durch Berechnen eines Langzeitdurchschnitts, eines Kurzzeitdurchschnitts und einer Kurzzeitdifferenz der Hintergrundgeräusche. Das Berechnen des Kurzzeitdurchschnitts umfasst das Summieren eines Absolutwertes einer Mehrzahl von Audiodatenabtastsignalen und das Anwenden eines Glättungsalgorithmus darauf. Es sind verschiedene Glättungsalgorithmen geeignet, die der Fachperson hinlänglich bekannt sind. Das Berechnen des Langzeitdurchschnitts umfasst das Summieren einer Mehrzahl von Kurzzeitdurchschnitten. Das Berechnen der Kurzzeitdifferenz umfasst das Berechnen einer Differenz zwischen aufeinander folgenden Kurzzeitdurchschnitten.
  • Das Verfahren zur Verwendung eines sprachgesteuerten Schalters bei sich verändernden Umgebungen mit starken Geräuschen umfasst die Schritte des Berechnens eines VOX-Schwellenwertes, des Berechnens eines Sprachschwellenwertes und des Berechnens eines Delta-Schwellenwertes. Der VOX- Schwellenwert wird mit einer Amplitude eines eingehenden Datenabtastsignals verglichen. Wenn die Amplitude des eingehenden Datenabtastsignals größer ist als der VOX-Schwellenwert, dann wird der Delta-Schwellenwert mit dem Kurzzeitdurchschnittsdelta verglichen. Wenn die Amplitude von einem oder mehreren Kurzzeitdurchschnittsdeltas größer ist als der Delta-Schwellenwert, dann wird der Sprachschwellenwert mit dem Kurzzeitdurchschnitt verglichen. Wenn der Kurzzeitdurchschnitt größer ist als der Sprachschwellenwert oder, alternativ, wenn eine aktuelle Anzahl von Kurzzeitdeltas größer ist als der Delta-Schwellenwert innerhalb einer aktuellen Zeitperiode, dann wird das eingehende Datenabtastsignal als Sprache ermittelt und der sprachgesteuerte Schalter wird aktiviert.
  • Der Schritt des Anwendens eines Glättungsalgorithmus umfasst vorzugsweise eine Tiefpassfilterung der Audiodaten. Die Fachperson wird verstehen, dass verschiedene andere Algorithmen zum digitalen Tiefpassfiltern von Audiodaten geeignet sind.
  • Der Schritt des Ermittelns einer relativen Energie von Hintergrundgeräuschen unter Verwendung eines Langzeitdurchschnitts der Hintergrundgeräusche umfasst vorzugsweise die Anwendung eines Langzeitdurchschnitts, der aus 512 Audiodatenabtastsignalen besteht. Jedes Audiodatenabtastsignal hat vorzugsweise eine Länge von etwa 0,064 Sekunden und das Abtasten erfolgt mit einer Abtastrate von etwa 8 kHz. Die Fachperson wird verstehen, dass ebenso auch verschiedene andere Anzahlen von Audiodatenabtastsignalen und verschiedene andere Abtastsignallängen sowie verschiedene andere Abtastraten geeignet sind.
  • Der Schritt des Ermittelns einer relativen Energie von Hintergrundgeräuschen unter Verwendung eines Langzeitdurchschnitts umfasst vorzugsweise das Summieren von Kurzzeitdurchschnitten für etwa 16 Sekunden. Die Fachperson wird verstehen, dass auch verschiedene andere Zeitlängen geeignet sind.
  • Der Schritt des Ermittelns einer relativen Energie von Hintergrundgeräuschen unter Verwendung einer Kurzzeitdifferenz der Hintergrundgeräusche umfasst vorzugsweise das Ermitteln einer relativen Energie von Hintergrundgeräuschen mittels eines Gefälles der Kurzzeitdurchschnitte, das dafür repräsentativ ist, wie schnell sich das Audiosignal ändert. Dies kann durch Berechnen einer ersten Ableitung einer Best-Fit-Kurve erfolgen, die mit den Abtastdatenpunkten erzeugt wird.
  • Die Schritte des Berechnens eines VOX-Schwellenwertes, des Berechnens eines Sprachschwellenwertes und des Berechnens eines Delta-Schwellenwertes werden vorzugsweise jedes Mal durchgeführt, wenn der Langzeitdurchschnitt berechnet wird.
  • Die Schritte des Berechnens eines VOX-Schwellenwertes, des Berechnens eines Sprachschwellenwertes und des Berechnens eines Delta-Schwellenwertes werden vorzugsweise nur dann durchgeführt, wenn keine Sprache im Audiosignal vorhanden ist. Daten für den Langzeitdurchschnitt können bei Bedarf weiter gesammelt werden, wenn Sprache im Audiosignal vorhanden ist. Das Sammeln von Abtastsignalen für den Langzeitdurchschnitt wird vorzugsweise unterbrochen, wenn Sprache länger als eine vorbestimmte Zeitperiode im Abtastsignal vorhanden ist.
  • Der Schritt des Vorbereitens des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals umfasst vorzugsweise das Vergleichen eines VOX-Schwellenwertes, der um einen vorbestimmten Betrag größer ist als das Umgebungsgeräusch, mit der Amplitude des eingehenden Datenabtastsignals.
  • Der Schritt des Vergleichens des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals umfasst vorzugsweise das Vergleichen eines VOX-Schwellenwertes, der ein Vielfaches des Langzeitdurchschnitts ist, mit dem eingehenden Datenabtastsignal. Der VOX-Schwellenwert ist vorzugsweise etwa gleich der maximalen Umgebungsgeräuschamplitude.
  • Der Delta-Schwellenwert ist vorzugsweise etwa gleich dem Langzeitdurchschnitt. Der Sprachschwellenwert beträgt vorzugsweise etwa das 1,5fache des Langzeitdurchschnitts.
  • Gemäß einer bevorzugten Ausgestaltung der vorliegenden Erfindung beträgt der VOX-Schwellenwert etwa das Sechsfache des Langzeitdurchschnitts, der Sprachschwellenwert ist etwa gleich dem VOX-Schwellenwert um zwei Bits nach rechts verschoben und der Delta-Schwellenwert ist etwa gleich dem Langzeitdurchschnitt.
  • Der Langzeitdurchschnitt wird durch Summieren von 256 Kurzzeitdurchschnitten und Verschieben der Summe um 8 Bits nach rechts berechnet. Ebenso wird der Kurzzeitdurchschnitt durch Summieren des Absolutwertes von 512 Eingangsabtastsignalen und Verschieben der Summe um 9 Bits nach rechts berechnet.
  • Alternativ wird der Langzeitdurchschnitt durch Summieren von 256 Kurzzeitdurchschnitten, die vor dem Summieren um 4 Bits nach rechts verschoben wurden, dann Verschieben der Endsumme um vier zusätzliche Bits nach rechts, um einen Überlauf in einem 16-Bit-Prozessor zu verhindern, berechnet.
  • Ebenso kann der Kurzzeitdurchschnitt durch Summieren des Absolutwertes von 512 Eingangsabtastsignalen, die vor dem Summieren um fünf Bits nach rechts verschoben wurden, und dann Verschieben der Endsumme um vier zusätzliche Bits nach rechts, um einen Überlauf in einem 16-Bit-Prozessor zu verhindern, berechnet werden.
  • Da ein 16-Bit-Prozessor verwendet wurde, war es nicht möglich, 512 Eingangswerte ohne Überlauf zu summieren, da die Eingangswerte (als unkomprimierte μ-Gesetz-Daten) eine maximale Amplitude von 12 Bits haben. Daher wurde der Absolutwert jedes Eingangssignals vor dem Summieren um 5 Bits nach rechts verschoben, und die Endsumme wurde um weitere 4 Bits nach rechts verschoben, um den endgültigen 12-Bit-Kurzzeitdurchschnitt zu bilden. Ebenso war es, da der maximale Kurzzeitdurchschnitt eine Größe von 12 Bits haben könnte, nicht möglich, 256 dieser Werte ohne Überlauf in einem 16-Bit-Prozessor zu summieren. Daher wurde jeder Kurzzeitdurchschnitt vor dem Summieren um vier Bits nach rechts verschoben, und die Endsumme wurde um vier weitere Bits nach rechts verschoben, um den endgültigen 12-Bit-Langzeitdurchschnitt zu erzeugen. Diese Technik verhindert jeglichen Überlauf des Prozessors beim Berechnen dieser Durchschnittswerte.
  • Diese Technik verursacht auch einen gewissen Auflösungsverlust. Da nur die niedrigstwertigen Bits verloren gehen, ist dieser Auflösungsverlust in Umgebungen mit starken Geräuschen (und somit hoher Signalamplitude) vernachlässigbar; eine Anforderung dieses Algorithmus ist jedoch, dass er in Umgebungen mit starken und niedrigen Geräuschen akzeptabel arbeiten können muss. Aus diesem Grund wird eine Untergrenze für die Schwellenwerte festgesetzt. So wurde beispielsweise für diese Anwendung experimentell ermittelt, dass Langzeitdurchschnitte von weniger als 100 zu schlechten VOX-Leistungen führten. Daher wird ein Langzeitdurchschnitt von weniger als 100 vor dem Berechnen des Schwellenwertes immer auf 100 zurückgesetzt.
  • Gemäß der spezifischen VOX-Anwendung kann auch eine Obergrenze auf den Langzeitdurchschnitt angewendet werden. So beträgt beispielsweise in dieser VOX-Anwendung die maximale Amplitude der eingehenden Daten 12 Bits. Wenn der Langzeitdurchschnitt so groß ist, dass die resultierenden VOX- oder Sprachschwellenwerte größer sind als 12 Bits, dann wird VOX niemals aktiviert. So werden für Langzeitdurchschnitte, die größer sind als ein Wert von beispielsweise 680, die Schwellenwerte auf einen zulässigen Wert wie z.B. 3000 zurückgesetzt (was weniger ist als der maximale 12-Bit-Wert von 4095). Der DELTA-Schwellenwert wird weiterhin normal berechnet.
  • Gemäß der bevorzugten Ausgestaltung der vorliegenden Erfindung werden der VOX-Schwellenwert, der Sprachschwellenwert und der Datenschwellenwert alle auf die maximal zulässige Größe (4095 in dieser Anwendung) initialisiert.
  • So wird gemäß der vorliegenden Erfindung ein Verfahren zur Verwendung eines sprachgesteuerten Schalters bei sich verändernden Umgebungen mit starken Geräuschen bereitgestellt, der wenig Verarbeitungsleistung verbraucht.
  • Diese sowie andere Vorteile der vorliegenden Erfindung gehen aus der nachfolgenden Beschreibung und den Zeichnungen hervor. Man wird verstehen, dass die Änderungen des/der gezeigten und beschriebenen spezifischen Aufbaus und Methodik im Rahmen der Ansprüche möglich sind, ohne vom Wesen der Erfindung abzuweichen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm einer Zustandsmaschine zum Betreiben eines sprachgesteuerten Schalters in Umgebungen mit starken Geräuschen gemäß der Methodik der vorliegenden Erfindung; und
  • 2 ist ein Blockdiagramm eines adaptiven Filters für den sprachgesteuerten Schalter der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN ERFINDUNG
  • Die nachfolgende ausführliche Beschreibung in Verbindung mit den beiliegenden Zeichnungen soll die derzeit bevorzugte Ausgestaltung der Erfindung beschreiben und gilt nicht als die einzige Form, in der die vorliegende Erfindung konstruiert oder genutzt werden kann. Die Beschreibung legt die Funktionen und die Folge von Schritten zum Konstruieren und Betreiben der Erfindung in Verbindung mit der illustrierten Ausgestaltung dar. Es ist jedoch zu verstehen, dass dieselben oder äquivalente Funktionen durch andere Ausgestaltungen erzielt werden können, die ebenfalls in Wesen und Umfang der Erfindung fallend angesehen werden sollen. Der sprachgesteuerte Schalter der vorliegenden Erfindung ist in den 1 und 2 illustriert, die eine derzeit bevorzugte Ausgestaltung davon darstellen.
  • Der VOX-Algorithmus der vorliegenden Erfindung geht davon aus, dass das Sprachsignal mehr Energie hat als die Hintergrundgeräusche. Es wird angenommen, dass jegliche verständliche Sprache diese Erwartung auf der Basis der Annahme erfüllt, dass der Benutzer, unabhängig vom Geräuschpegel, laut genug sprechen wird, um sich selbst über die Geräusche herauszuhören.
  • Dieser Algorithmus erwartet, dass die eingehenden Audiodaten linear sind. Wenn Kompression gemäß A-Gesetz oder μ-Gesetz angewendet wird, dann müssen die Daten vor Beginn des VOX-Algorithmus dekomprimiert werden.
  • VOX ermittelt die relative Energie der Geräusche mit drei Datenelementen: dem Langzeitdurchschnitt (LTA), dem Kurzzeitdurchschnitt (STA) und der Kurzzeitdifferenz (STA-Delta). STA ist die Summierung des Absolutwertes von mehreren Abtastsignalen von eingehenden Audiodaten, z.B. 512 Abtastsignale (0,064 Sekunden mit einer Abtastrate von 8 kHz). STA glättet das Signal und dient als einfacher Tiefpassfilter. LTA ist die Summierung von STA über eine längere Periode (z.B. 16 Sekunden), dividiert durch die Gesamtzahl von STA. Dieser Wert gibt die Gesamtenergie des Signals an. Der dritte Wert, STA-Delta, ist die Differenz zwischen aufeinander folgenden STA-Werten. Dieser Wert gibt das Gefälle des STA an, das dafür repräsentativ ist, wie schnell die Signalenergie zu- oder abnimmt.
  • Der VOX der vorliegenden Erfindung nutzt drei Schwellenwerte VOX, SPRACHE und DELTA. Diese werden vorzugsweise bei jedem Berechnen eines LTA berechnet (z.B. alle 16 Sekunden); die Schwellenwertberechnung kann jedoch bei Bedarf auch unterbrochen werden, wenn Sprache vorhanden ist, um zu verhindern, dass die Schwellenwerte zu hoch werden. Die exakten Berechnungen der Schwellenwerte variieren je nachdem, welche Art von Hintergrundgeräuschen das System vermutlich erfahren wird. Schwellenwerte werden wie folgt definiert und angewendet.
  • Der VOX-Schwellenwert wird mit der Größe der einzelnen eingehenden Datenabtastsignale verglichen; Werte, die größer sind als der Schwellenwert, werden als Sprache angesehen. So wird gewünscht, den VOX-Schwellenwert so zu wählen, dass er weit über den Geräuschen liegt. Der VOX-Schwellenwert sollte ein Vielfaches des LTA sein. So wurde dieser Algorithmus beispielsweise für Panzergeräusche entwickelt; die LTA-Werte der meisten Panzergeräuschabtastsignale schienen bei etwa 1/6 der maximalen Geräuschgröße im Panzer zu liegen. Somit wird der VOX-Schwellenwert für diese Situation auf das Sechsfache des LTA eingestellt.
  • Der DELTA-Schwellenwert wird mit dem STA-Delta verglichen; Werte, die größer sind als der Schwellenwert, werden als Sprache festgestellt. Der DELTA-Schwellenwert repräsentiert Energiesprünge. Bei den meisten getesteten Geräuschabtastsignalen waren die Energiesprünge ohne vorhandene Sprache relativ niedrig; für Panzergeräusche waren die Sprünge im Allgemeinen geringer als die Gesamtenergie des Signals; somit ist der DELTA-Schwellenwert gleich dem LTA.
  • Der VOICE-Schwellenwert wird mit dem STA verglichen; Werte, die größer sind als der Schwellenwert, werden als Sprache angesehen. Wenn nur Geräusche vorliegen, dann kann der STA im Laufe der Zeit über oder unter den LTA springen, daher muss der VOICE-Schwellenwert über den größeren Werten der STAs des Geräuschsignals liegen. So wird beispielsweise für Panzergeräusche ein VOICE-Signal vom 1,5fachen des LTA verwendet.
  • Man beachte, dass, da der verwendete Prozessor für ganzzahlige Arithmetik ausgelegt ist, die als Beispiele gegebenen Durchschnittswerte wie folgt errechnet werden können:
    VOX = 6*LTA
    VOICE = VOX um 2 Bits nach rechts verschoben
    DELTA = LTA
  • Somit werden die Durchschnittswerte mit einer Multiplikations- und zwei Schiebeoperationen berechnet.
  • Der Langzeitdurchschnitt wird durch Summieren von 256 Kurzzeitdurchschnitten und Verschieben der Summe um 8 Bits nach rechts berechnet. Ebenso wird der Kurzzeitdurchschnitt durch Summieren des Absolutwertes von 512 Eingangsabtastsignalen und Verschieben der Summe um 9 Bits nach rechts berechnet.
  • Da ein 16-Bit-Prozessor verwendet wurde, war es nicht möglich, 512 Eingangswerte ohne Überlauf zu summieren, da die Eingangswerte (als unkomprimierte μ-Gesetz-Daten) eine maximale Amplitude von 12 Bits haben. Somit wurde der Absolutwert jedes Eingangsabtastsignals vor dem Summieren um 5 Bits nach rechts geschoben und die Endsumme wurde um weitere 4 Bits nach rechts verschoben, um den endgültigen 12-Bit-Kurzzeitdurchschnitt zu erzeugen. Ebenso war es, da der maximale Kurzzeitdurchschnitt eine Größe von 12 Bits haben könnte, nicht möglich, 256 dieser Werte ohne Überlauf in einem 16-Bit-Prozessor zu summieren. Somit wurde jeder Kurzzeitdurchschnitt vor dem Summieren um 4 Bits nach rechts verschoben, und die Endsumme wurde um weitere 4 Bits nach rechts verschoben, um den endgültigen 12-Bit-Langzeitdurchschnitt zu erzeugen. Diese Technik verhindert jeglichen Überlauf des Prozessors beim Berechnen dieser Durchschnittswerte.
  • Diese Technik verursacht auch einen gewissen Auflösungsverlust. Da nur die niedrigstwertigen Bits verloren gehen, ist dieser Auflösungsverlust in Umgebungen mit starken Geräuschen (und somit hoher Signalamplitude) vernachlässigbar; eine Anforderung an diesen Algorithmus ist jedoch, dass er in Umgebungen mit starken und schwachen Geräuschen akzeptabel arbeiten können muss. Aus diesem Grund wird eine Untergrenze auf die Schwellenwerte angewendet. Für diese Anwendung wurde beispielsweise experimentell ermittelt, dass Langzeitdurchschnitte von weniger als 100 zu einer schlechten VOX-Leistung führten. Daher wird jedes Mal dann, wenn ein Langzeitdurchschnitt geringer ist als 100, dieser vor dem Berechnen der Schwellenwerte auf 100 zurückgesetzt.
  • Je nach der spezifischen VOX-Anwendung kann auch eine Obergrenze auf den Langzeitdurchschnitt angewendet werden. So beträgt beispielsweise in dieser VOX-Anwendung die maximale Amplitude der eingehenden Daten 12 Bits. Wenn der Langzeitdurchschnitt so groß ist, dass die resultierenden VOX- oder VOICE-Schwellenwerte größer als 12 Bits sind, dann wird VOX niemals aktiviert. Somit werden für Langzeitdurchschnitte, die größer als ein Wert von beispielsweise 680 sind, die Schwellenwerte auf einen zulässigen Wert wie z.B. 3000 zurückgesetzt (was weniger ist als der maximale 12-Bit-Wert von 4095). Der DELTA-Schwellenwert wird jedoch weiterhin normal berechnet.
  • Nach dem Aktivieren des Systems werden alle Schwellenwerte auf den Maximalwert eingestellt und alle Datenelemente werden auf 0 gesetzt. Der VOX wird so vorgegeben, dass er in seinem AUS-Zustand ist, bis Daten von einer Sekunde erfasst sind. Nach einer Sekunde wird der LTA berechnet (auf der Basis der bis dahin berechneten STAs) und ein Satz von Schwellenwerten wird wie oben vorgegeben berechnet. So kann der VOX erst dann aktiviert werden, wenn wenigstens eine Sekunde vergangen ist. Dieser Vorgang wird wiederum vier Sekunden später nach dem Start mit den bis zu diesem Zeitpunkt gesammelten Daten wiederholt. Nach 16 Sekunden wird der normale VOX-Betrieb fortgesetzt, wobei Schwellenwerte alle 16 Sekunden berechnet werden.
  • Je nach dem benutzten Geräuschtyp ergibt ein Abtastsignal von einer Sekunde möglicherweise nicht genügend Daten, um die Gesamtenergie der Geräusche zu repräsentieren; in diesem Fall kann es eine größere Rate von Fehlalarmen oder verpassten Detektionen geben, bis die 4-Sekunden-Schwellenwerte berechnet sind. Daher können diese Zeiten je nach der spezifischen Anwendung dieses Algorithmus variiert werden.
  • Nun mit Bezug auf 1, der VOX-Algorithmus hat vier Zustände, AUS 10, WARTEN 12, EIN 16 und RASTEN (LATCH) 14. Der VOX sendet nur in den Zuständen EIN 16 und RASTEN 14. Es folgt eine Beschreibung der Zustände.
  • Der VOX befindet sich beim ersten Aktivieren im Zustand AUS 10. Der VOX bleibt im Zustand AUS 10, bis die Größe eines eingehenden Datenabtastsignals den VOX-Schwellenwert übersteigt. An dieser Stelle schaltet der VOX in den Zustand WARTEN 12 und startet eine Zeituhr.
  • Es kann sein, dass der VOX nicht länger als eine Sekunde im Zustand WARTEN 12 bleibt. Während dieser Sekunde werden die Kurzzeitdifferenzen mit dem DELTA-Schwellenwert verglichen. Wenn eine Kurzzeitdifferenz den Schwellenwert überschreitet, dann geht der VOX in den Zustand EIN 16. Wenn die Zeituhr eine Sekunde erreicht und der Schwellenwertzustand nicht erfüllt wurde, dann kehrt der VOX in den Zustand AUS 10 zurück.
  • Im Zustand EIN 16 sendet der VOX. Der VOX bleibt nicht länger als eine Sekunde lang im Zustand EIN 16. Während dieser Zeit werden die Kurzzeitdurchschnitte mit dem VOICE-Schwellenwert verglichen. Wenn die Bedingung erfüllt ist, dann geht der VOX in den RASTEN-Zustand. Wenn die Zeituhr vor der Erfüllung dieser Bedingung eine Sekunde erreicht, dann geht der VOX in den AUS-Zustand.
  • Alternativ wurde auch gefunden, dass ein anderes zuverlässiges Verfahren zum Bewegen vom EIN-Zustand in den RASTEN-Zustand darin besteht, eingehende Kurzzeit-Deltas mit dem DELTA-Schwellenwert zu vergleichen. Wenn eine bestimmte vorbestimmte Anzahl dieser Kurzzeit-Deltas den DELTA-Schwellenwert erfüllt, bevor die Zeituhr eine Sekunde erreicht, dann geht der VOX in den RASTEN-Zustand. Ansonsten kehrt er in den AUS-Zustand zurück. Die derzeitige Ausgestaltung des Algorithmus arbeitet mit diesem zweiten Verfahren zum Übergehen vom EIN- in den RASTEN-Zustand und gibt vor, dass vier Kurzzeit-Deltas größer sein müssen als der DELTA-Schwellenwert, damit VOX vom EIN- in den RASTEN-Zustand geht.
  • Im Zustand RASTEN 14 sendet der VOX. Der VOX bleibt unendlich lange im Zustand RASTEN 14. Zum Verlassen des Rasten-Zustands muss eine Zwei-Sekunden-Periode verstreichen, während der die VOX- und DELTA-Schwellenwerte nicht erfüllt sind. Dies zeigt an, dass die Signalleistung auf den Pegel der Geräusche abgesunken ist, was bedeutet, dass keine Sprache mehr vorhanden ist. Nach dem Verlassen des Zustands RASTEN 14 kehrt der VOX in den AUS-Zustand zurück.
  • Wie in 1 gezeigt, umfasst der VOX der vorliegenden Erfindung eine Zustandsmaschine. Die Pfeilrichtungen zeigen an, welche Zustände mögliche nächste Zustände für dieses System sind, und es werden die Schwellenwerte angegeben, die einen Übergang von einem Zustand zum nächsten zulassen.
  • Unter perfekten Bedingungen wird der VOX niemals in dem Moment aktivieren, in dem ein Benutzer zu sprechen beginnt. Es muss zumindest die Zeit verstreichen, die zum Berechnen eines neuen STA-Delta benötigt wird, bevor der VOX vom WARTE-Zustand in den EIN-Zustand umschalten und zu senden beginnen kann. Durch diese Verzögerung können die ersten paar gesendeten Sekunden, möglicherweise ein ganzes Wort, abgeschnitten werden. Aus diesem Grund wird ein Datenpuffer verwendet. Dieser Puffer speichert wenigstens Daten von einer STA-Länge (512 Abtastsignale oder 64 ms für die gegebene Anwendung). Wenn ermittelt wird, dass Sprache vorhanden ist, dann gibt der VOX zwei Signale aus. Ein Signal wird um die Länge des Puffers verzögert, um den gesamten Datenpuffer plus den Rest des Signals zu senden, bis der VOX deaktiviert. Dieser Ausgang wird über das Kommunikationssystem gesendet, so dass kein Zuhörer einen Teil der Meldung verpasst. Der andere Ausgang ist das tatsächliche Echtzeitsignal und wird ohne Verzögerung, für die Zwecke einer lokalen Mithörtonerzeugung, direkt zurück zum Sprecher gesendet. Dies erfolgt aus zwei Gründen: erstens erzeugt eine Verzögerung von mehr als 5 ms ein ablenkendes Echo, wenn der Sprecher den lokalen Mithörton hört; zweitens beeinträchtigt ein abgeschnittenes lokales Mithörtonsignal die Bedeutung oder Verständlichkeit nicht, da der Sprecher weiß, was er/sie gesagt hat.
  • Während des anfänglichen Testens des VOX arbeitet der Algorithmus am besten, wenn die Hintergrundgeräusche weißes Gaußsches Rauschen sind. Da weißes Gaußsches Rauschen am wenigsten wie Sprache in der Zeitdomäne ist, konnte der VOX die Anwesenheit von verständlicher Sprache schnell und korrekt erfassen. Panzergeräusche sind viel stärker spektral gefärbt, und der VOX würde häufig einen Fehlalarm erzeugen, wenn nur Geräusche vorliegen, oder würde die Erkennung von Sprache aufgrund der Ähnlichkeit zwischen Sprache und Rauschen verpassen. Da weißes Gaußsches Rauschen am wünschenswertesten sind, wurde ein adaptiver spektraler Weißfilter mit sehr positiven Ergebnissen implementiert.
  • Der Filter wurde zwar hauptsächlich zum Verbessern der VOX-Leistung hinzugefügt, aber es wurde auch gefunden, dass er einen Teil der Geräusche am Ausgang storniert, so dass ein deutlicheres Sprachsignal für den Hörer erzeugt wird. So ist es möglicherweise wünschenswert, den Ausgang des Filters als Ausgang des VOX zu verwenden, wenn Sprache vorhanden ist. Man hat festgestellt, dass der Filter sich selbst so adaptiert, dass er grob ein Hochpassfilter für die meisten Signale ist. Dies legt den Schluss nahe, dass impulsive Hochfrequenzgeräusche möglicherweise nicht effektiv storniert werden können, so dass ein Fehlalarm verursacht wird. Ebenso ist der Filter nicht so effektiv, wenn die Geräusche hauptsächlich in denselben Frequenzbändern wie Sprache vorliegen.
  • Es wird nun mit Bezug auf 2 der adaptive Filter der vorliegenden Erfindung erläutert. Der Filter versucht, den Fehler zu reduzieren, der aus der Differenz zwischen dem Eingangssignal und dem gefilterten Signal resultiert. Der Aktualisierungskoeffizient α wird klein genug gewählt, so dass der Filter nicht instabil wird. Die Verzögerungszeit D wurde experimentell als dann am effektivsten ermittelt, wenn sie gleich einem Abtastsignal für die gegebene Anwendung ist. Aufgrund der Beschränkungen der Verarbeitungsleistung wurden vier Abgriffe verwendet. Die Koeffizienten wurden adaptiv wie folgt aktualisiert: coeff(i) = coefi(i) + α* error * x(i-D)
  • Der Fehler wird als Filterausgang verwendet. Es ist nützlich, die Adaptierung der Koeffizienten zu unterbrechen, wenn Sprache vorhanden ist, indem der letzte Satz von Koeffizienten verwendet wird, der vor der Erfassung von Sprache berechnet wurde. Dadurch wird verhindert, dass der Filter versucht, das Sprachsignal ebenfalls zu unterdrücken.
  • Die Elemente werden in der folgenden Reihenfolge implementiert:
    • A. Adaptiven Filter auf eingehendes Datenabtastsignal anwenden.
    • B. Den Filterausgang zum Berechnen von Datenelementen verwenden.
    • C. Bei Bedarf Schwellenwerte berechnen.
    • D. Ermitteln, in welchem Zustand sich der VOX gerade befindet.
    • E. Ermitteln, ob der VOX seinen Zustand ändern muss.
    • F. Entweder das ursprüngliche Signal (für die Zustände EIN 16 und RASTEN 14) oder null (für die Zustände WARTEN 12 und AUS 10) zurückgeben.
  • Man wird verstehen, dass der hierin beschriebene und in den Zeichnungen dargestellte beispielhafte sprachgesteuerte Schalter lediglich eine derzeit bevorzugte Ausgestaltung der Erfindung repräsentiert. In der Tat können verschiedene Modifikationen und Additionen an einer solchen Ausgestaltung vorgenommen werden, ohne von Wesen und Umfang der Erfindung abzuweichen. So wird beispielsweise die Fachperson verstehen, dass verschiedene andere DSP-Chips als der DSP-Chip TI TMS320C2xx ebenfalls geeignet sind. In der Tat kann jedes andere Mittel zum Ausführen der digitalen Signalverarbeitungsfunktionen geeignet sein, und es braucht überhaupt kein DSP-Chip verwendet zu werden. Dies kann besonders dann gelten, wenn die Verarbeitungsgeschwindigkeit von Universalmikroprozessoren bis zu dem Punkt zunimmt, an dem sie ganzzahlige Arithmetik rasch ausführen können. Ebenso erfolgte die Erörterung der vorliegenden Erfindung bei einem Einsatz in einem Panzer lediglich beispielhaft und nicht begrenzend. Die Fachperson wird verstehen, dass verschiedene andere Anwendungen der vorliegenden Erfindung existieren. Somit sind diese sowie weitere Modifikationen und Additionen für die Fachperson möglicherweise offensichtlich und können implementiert werden, um die vorliegende Erfindung für den Einsatz in einer Reihe verschiedener anderer Anwendungen zu adaptieren.

Claims (17)

  1. Verfahren zur Verwendung eines sprachgesteuerten Schalters bei sich verändernden Umgebungen mit starken Geräuschen, wobei das Verfahren die folgenden Schritte umfasst: a) Ermitteln einer relativen Energie von Hintergrundgeräuschen durch Berechnen eines Langzeitdurchschnitts, eines Kurzzeitdurchschnitts und einer Kurzzeitdifferenz der Hintergrundgeräusche, wobei: i) das Berechnen des Kurzzeitdurchschnitts das Summieren eines Absolutwertes einer Mehrzahl von Audiodatenabtastsignalen und das Anwenden eines Glättungsalgorithmus darauf umfasst; ii) das Berechnen des Langzeitdurchschnitts das Summieren einer Mehrzahl von Kurzzeitdurchschnitten umfasst; und iii) das Berechnen der Kurzzeitdifferenz das Berechnen einer Differenz zwischen aufeinander folgenden Kurzzeitdurchschnittswerten umfasst; b) Berechnen eines VOX-Schwellenwertes; c) Berechnen eines Sprachschwellenwertes; d) Berechnen eines Delta-Schwellenwertes; e) Vergleichen des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals; f) Vergleichen, wenn die Amplitude des eingehenden Datenabtastsignals größer ist als der VOX-Schwellenwert, des Delta-Schwellenwertes mit dem Kurzzeitdurchschnittsdelta; g) Vergleichen, wenn die Amplitude des Kurzzeitdurchschnittsdeltas größer ist als der Delta-Schwellenwert, des Sprachschwellenwertes mit dem Kurzzeitdurchschnitt; und h) Ermitteln, wenn der Kurzzeitdurchschnitt größer ist als der Sprachschwellenwert, des eingehenden Datenabtastsignals als Sprache und Aktivieren des sprachgesteuerten Schalters.
  2. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Anwendens eines Glättungsalgorithmus eine Tiefpassfilterung der Audiodaten umfasst.
  3. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Ermittelns einer relativen Energie von Hintergrundgeräuschen unter Verwendung eines Kurzzeitdurchschnitts der Hintergrundgeräusche die Anwendung eines Kurzzeitdurchschnitts umfasst, der aus 512 Audiodatenabtastsignalen besteht, wobei jedes Audiodatenabtastsignal eine Länge von etwa 0,064 Sekunden hat und das Abtasten mit einer Abtastrate von etwa 8 kHz erfolgt.
  4. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Ermittelns einer relativen Energie von Hintergrundgeräuschen unter Verwendung eines Langzeitdurchschnitts das Summieren von Kurzzeitdurchschnitten für etwa 16 Sekunden umfasst.
  5. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Ermittelns einer relativen Energie von Hintergrundgeräuschen unter Verwendung einer Kurzzeitdifferenz von Hintergrundgeräuschen das Ermitteln einer relativen Energie von Hintergrundgeräuschen mittels eines Gefälles der Kurzzeitdurchschnitte umfasst, das dafür repräsentativ ist, wie schnell sich das Audiosignal ändert.
  6. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei die Schritte des Berechnens eines VOX-Schwellenwertes, des Berechnens eines Sprachschwellenwertes und des Berechnens eines Delta-Schwellenwertes jedes Mal dann durchgeführt werden, wenn der Langzeitdurchschnitt berechnet wird.
  7. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei die Schritte des Berechnens eines VOX-Schwellenwertes, des Berechnens eines Sprachschwellenwertes und des Berechnens eines Delta-Schwellenwertes nur dann durchgeführt werden, wenn keine Sprache im Audiosignal vorhanden ist.
  8. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Vergleichens des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals das Vergleichen eines VOX-Schwellenwertes, der um einen vorbestimmten Betrag größer ist als das Umgebungsgeräusch, mit der Amplitude des eingehenden Datenabtastsignals umfasst.
  9. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Vergleichens des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals das Vergleichen eines VOX-Schwellenwertes, der ein Vielfaches des Langzeitdurchschnitts ist, mit dem eingehenden Datenabtastsignal umfasst.
  10. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Schritt des Vergleichens des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals das Vergleichen eines VOX-Schwellenwertes, der etwa gleich einer maximalen Umgebungsgeräuschamplitude ist, mit dem eingehenden Datenabtastsignal umfasst.
  11. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Delta-Schwellenwert etwa gleich dem Langzeitdurchschnitt beträgt.
  12. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei der Sprachschwellenwert etwa das 1,5fache des Langzeitdurchschnitts beträgt.
  13. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei das Verfahren mit einem Prozessor für Ganzzahlenarithmetik durchgeführt wird und wobei: a) der VOX-Schwellenwert das Sechsfache des Langzeitdurchschnitts beträgt; b) der Sprachschwellenwert etwa gleich dem VOX-Schwellenwert um zwei Bits nach rechts verschoben ist; und c) der Delta-Schwellenwert etwa gleich dem Langzeitdurchschnitt um ein Bit nach rechts verschoben ist.
  14. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei: a) der Langzeitdurchschnitt durch Summieren von 256 Kurzzeitdurchschnitten und Verschieben der Summe um acht Bits nach rechts berechnet wird; und b) der Kurzzeitdurchschnitt durch Summieren des Absolutwertes von 512 Eingangsabtastsignalen und Verschieben der Summe um neun Bits nach rechts berechnet wird.
  15. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, wobei: a) der Langzeitdurchschnitt durch Summieren von 256 Kurzzeitdurchschnitten, die vor dem Summieren um 4 Bits nach rechts verschoben wurden, dann Verschieben der Endsumme um vier zusätzliche Bits nach rechts, um einen Überlauf in einem 16-Bit-Prozessor zu verhindern, berechnet wird; b) der Kurzzeitdurchschnitt durch Summieren des Absolutwertes von 512 Eingangsabtastsignalen, die vor dem Summieren um 5 Bits nach rechts verschoben wurden, und anschließendes Verschieben der Endsumme um vier zusätzliche Bits nach rechts, um einen Überlauf in einem 16-Bit-Prozessor zu verhindern, berechnet wird.
  16. Verfahren zum Verwenden eines sprachgesteuerten Schalters nach Anspruch 1, das ferner den Schritt des Initialisierens des VOX-Schwellenwertes, des Sprachschwellenwertes und des Delta-Schwellenwertes auf die maximal zulässige Audioamplitude umfasst.
  17. Verfahren zum Verwenden eines sprachgesteuerten Schalters bei sich ändernden Umgebungen mit starken Geräuschen, wobei das Verfahren die folgenden Schritte umfasst: a) Ermitteln einer relativen Energie von Hintergrundgeräuschen durch Berechnen eines Langzeitdurchschnitts, eines Kurzzeitdurchschnitts und einer Kurzzeitdifferenz der Hintergrundgeräusche, wobei: i) das Berechnen des Kurzzeitdurchschnitts das Summieren eines Absolutwertes einer Mehrzahl von Abtastsignalen von Audiodaten und das Anwenden eines Glättungsalgorithmus darauf umfasst; ii) das Berechnen des Langzeitdurchschnitts das Summieren einer Mehrzahl von Kurzzeitdurchschnitten umfasst; und iii) das Berechnen der Kurzzeitdifferenz das Berechnen einer Differenz zwischen aufeinander folgenden Kurzzeitdurchschnitten umfasst; b) Berechnen eines VOX-Schwellenwertes; c) Berechnen eines Sprachschwellenwertes; d) Berechnen eines Delta-Schwellenwertes; e) Vergleichen des VOX-Schwellenwertes mit einer Amplitude eines eingehenden Datenabtastsignals; f) Vergleichen, wenn die Amplitude des eingehenden Datenabtastsignals größer ist als der VOX-Schwellenwert, des Delta-Schwellenwertes mit dem Kurzzeitdurchschnitts-Deltawert; und g) Ermitteln, wenn die Amplitude von wenigstens einem der Kurzzeitdurchschnitts-Deltawerte größer ist als der Delta-Schwellenwert innerhalb einer voreingestellten Zeitperiode, des eingehenden Datenabtastsignals als Sprache und Aktivieren des sprachgesteuerten Schalters.
DE69930109T 1998-05-15 1999-03-31 Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch Expired - Lifetime DE69930109T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/079,649 US6141426A (en) 1998-05-15 1998-05-15 Voice operated switch for use in high noise environments
US79649 1998-05-15
PCT/US1999/007086 WO1999060697A1 (en) 1998-05-15 1999-03-31 Voice operated switch for use in high noise environments

Publications (2)

Publication Number Publication Date
DE69930109D1 DE69930109D1 (de) 2006-04-27
DE69930109T2 true DE69930109T2 (de) 2006-09-28

Family

ID=22151908

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69930109T Expired - Lifetime DE69930109T2 (de) 1998-05-15 1999-03-31 Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch

Country Status (5)

Country Link
US (1) US6141426A (de)
EP (1) EP1076929B1 (de)
AU (1) AU751642B2 (de)
DE (1) DE69930109T2 (de)
WO (1) WO1999060697A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493450B1 (en) * 1998-12-08 2002-12-10 Ps Engineering, Inc. Intercom system including improved automatic squelch control for use in small aircraft and other high noise environments
US7058190B1 (en) * 2000-05-22 2006-06-06 Harman Becker Automotive Systems-Wavemakers, Inc. Acoustic signal enhancement system
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
KR20070088190A (ko) * 2006-02-24 2007-08-29 삼성전자주식회사 멀티미디어 데이터 처리를 위한 서브워드 병렬 처리 방법
JP2008172766A (ja) * 2006-12-13 2008-07-24 Victor Co Of Japan Ltd 電子機器の制御方法及び制御装置
US8081778B2 (en) 2007-11-15 2011-12-20 Simplexgrinnell Lp VOX circuit with 2-wire interfaces
ITTO20110731A1 (it) 2011-08-05 2013-02-06 Inst Rundfunktechnik Gmbh Digitale umschaltsignalsequenz fuer umschaltzwecke, geraet zum unterbringen dieser digitalen umschaltsignalsequenz in einem digitalen audio-nutzsignal, und geraet zum empfangen des nutzsignals versehen mit der umschaltsignalsequenz.

Family Cites Families (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3916312A (en) * 1973-09-11 1975-10-28 William Lewis Campbell Portable audio communication transceiver device
US3917372A (en) * 1974-10-03 1975-11-04 Motorola Inc Supporting and connecting structure for electric device
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
US4031468A (en) * 1976-05-04 1977-06-21 Reach Electronics, Inc. Receiver mount
DE2805420A1 (de) * 1978-02-09 1979-08-16 Bosch Gmbh Robert Funksystem zur uebermittlung von nachrichten
US4156797A (en) * 1978-08-04 1979-05-29 The Boeing Company Filter for voice operated triggering circuits
US4227258A (en) * 1979-01-18 1980-10-07 Scope Incorporated Housing for a hand held transmitter-receiver
USD267249S (en) 1979-12-25 1982-12-14 Oki Electric Industry Co., Ltd. Transceiver for a car telephone set
USD265402S (en) 1979-12-25 1982-07-13 Oki Electric Industry Co. Ltd. Transceiver for a car telephone set
US4277645A (en) * 1980-01-25 1981-07-07 Bell Telephone Laboratories, Incorporated Multiple variable threshold speech detector
US4325142A (en) * 1980-07-25 1982-04-13 Nippon Electric Co., Ltd. Portable radio set with a carrying holder
US4374301A (en) * 1980-09-18 1983-02-15 Gentex Corporation Local external communication device for enclosed helmet and mask assembly
US4417102A (en) * 1981-06-04 1983-11-22 Bell Telephone Laboratories, Incorporated Noise and bit rate reduction arrangements
US4484344A (en) * 1982-03-01 1984-11-20 Rockwell International Corporation Voice operated switch
US4621373A (en) * 1984-03-13 1986-11-04 General Electric Company Control surface for a trunking personal radio
JPS60223231A (ja) * 1984-04-19 1985-11-07 Nec Corp 無線通信機
US4675863A (en) * 1985-03-20 1987-06-23 International Mobile Machines Corp. Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels
US4625083A (en) * 1985-04-02 1986-11-25 Poikela Timo J Voice operated switch
US5140628A (en) * 1985-08-27 1992-08-18 Kabushiki Kaisha Toshiba Radio telephone system control method
US4682367A (en) * 1985-11-13 1987-07-21 General Electric Company Mobile radio communications system with join feature
US4734049A (en) * 1986-04-09 1988-03-29 Uniden Corporation Of America Mechanical latch mechanism for combination portable transceiver and charging unit
US4754484A (en) * 1986-08-21 1988-06-28 Acs Communications, Inc. Convertible handset/headset for telephone
US4761823A (en) * 1986-09-05 1988-08-02 E. F. Johnson Company Communications adaptor bracket
USD298242S (en) 1986-12-19 1988-10-25 Oki Electric Industry Co., Ltd. Portable handset radio telephone
US4882746A (en) * 1987-03-22 1989-11-21 Masatoshi Shimada Cordless telephone system
JPS648733A (en) * 1987-06-30 1989-01-12 Mitsubishi Electric Corp Portable radio communication equipment
GB2209109A (en) * 1987-08-26 1989-04-26 Philips Nv Pabx cordless telephone system
USD309136S (en) 1987-11-02 1990-07-10 Motorola, Inc. Portable two-way radio or similar article
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JP2624760B2 (ja) * 1988-04-01 1997-06-25 株式会社日立製作所 移動無線電話システム
US5170494A (en) * 1988-12-08 1992-12-08 Nokia Mobile Phones Ltd. Two piece radio telephone
DE3843565A1 (de) * 1988-12-23 1990-06-28 Standard Elektrik Lorenz Ag Funktelefonsystem in form einer nebenstellenanlage
JPH0681086B2 (ja) * 1989-03-31 1994-10-12 三菱電機株式会社 移動無線機
US4993065A (en) * 1989-04-04 1991-02-12 Gamma Inc. Accessory communication device for telephone sets
ATA78889A (de) * 1989-04-04 1994-02-15 Siemens Ag Oesterreich Schnurlos-telefonsystem mit mobilteilen und feststationen
US5023936A (en) * 1989-08-07 1991-06-11 General Electric Company Method and apparatus for externally defining the operational mode of a digital radio transceiver
AU639010B2 (en) * 1989-08-11 1993-07-15 Nec Corporation Portable radio transceiver system having improved adaptor for transceiver and/or improved receive signal control arrangement
US5038400A (en) * 1989-09-01 1991-08-06 Motorola, Inc. Carry holder for an electronic device
JPH03109829A (ja) 1989-09-25 1991-05-09 Fujitsu Ltd 携帯電話用車載アダプタシステム
US5020090A (en) * 1989-11-13 1991-05-28 Intelligence Technology Corporation Apparatus for removably connecting a cellular portable telephone to a computer
US5081641A (en) * 1990-02-06 1992-01-14 Motorola, Inc. Interconnecting and processing system for facilitating frequency hopping
JP2806591B2 (ja) * 1990-02-08 1998-09-30 日本電気株式会社 無線電話システムの着信方式
FR2659512B1 (fr) * 1990-03-09 1994-04-29 Cogema Installation de communication en hyperfrequences.
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
KR940010210B1 (ko) * 1990-04-17 1994-10-22 닛본덴기 가부시끼가이샤 다중 서비스 영역을 커버하기 위한 무선 키 전화 시스템
US5193217A (en) * 1990-04-23 1993-03-09 Motorola, Inc. Low voltage IC for voice operated transceiver
DE4111705C2 (de) * 1990-04-28 1998-03-19 Pioneer Electronic Corp Tonsignal-Modulationssystem
US5305467A (en) * 1990-12-03 1994-04-19 Ericsson Ge Mobile Communications Inc. Local area network for flexible digital communications within and between RF base stations
JPH04233797A (ja) * 1990-12-28 1992-08-21 Sony Corp 電子機器保持装置
US5265150A (en) * 1991-01-30 1993-11-23 At&T Bell Laboratories Automatically configuring wireless PBX system
US5128959A (en) * 1991-02-22 1992-07-07 Motorola, Inc. Variable bandwidth CDMA radio system
CA2040234C (en) * 1991-04-11 2000-01-04 Steven Messenger Wireless coupling of devices to wired network
US5189358A (en) * 1991-05-07 1993-02-23 Fujitsu Limited Adaptor for mounting portable radio apparatus to moving body and charger for portable radio apparatus
JP3025712B2 (ja) * 1991-05-20 2000-03-27 パイオニアコミュニケーションズ株式会社 コードレス電話の子機間通話方式
US5191593A (en) * 1991-05-31 1993-03-02 Motorola, Inc. Conference call feature for spread spectrum cordless telephone
JP2954389B2 (ja) * 1991-06-06 1999-09-27 パイオニアコミュニケーションズ株式会社 コードレス電話の子機間転送装置
US5579535A (en) * 1991-07-01 1996-11-26 Motorola, Inc. Personal communication system providing supplemental information mode
FR2679400B1 (fr) * 1991-07-18 1993-10-08 Alcatel Radiotelephone Sequencement du traitement du signal dans le mode communication d'un systeme de radiotelephone cellulaire numerique.
US5297142A (en) * 1991-07-18 1994-03-22 Motorola, Inc. Data transfer method and apparatus for communication between a peripheral and a master
US5659890A (en) 1991-07-25 1997-08-19 Casio Computer Co., Ltd. Portable radio apparatus equipped with function to display received message information
JP2968099B2 (ja) * 1991-09-20 1999-10-25 明星電気株式会社 コードレスボタン電話システムのテナント制御方式
CA2052500C (en) * 1991-09-30 1995-09-19 Jozef Z. Babiarz Pabx common channel relay system
US5504803A (en) * 1991-11-25 1996-04-02 Matsushita Electric Industrial Co., Ltd. Method for automatic mode selection for a dual-mode telephone handset for use in a cellular mobile telephone system and in a wireless telephone system
US5513248A (en) * 1991-12-02 1996-04-30 At&T Corp. Cordless telephone micro-cellular system
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5533097A (en) * 1992-02-26 1996-07-02 Motorola, Inc. Portable communication system comprising a local and wide area communication units which can store a communication when the wide area communication system is not available
US5353331A (en) * 1992-03-05 1994-10-04 Bell Atlantic Network Services, Inc. Personal communications service using wireline/wireless integration
IL103620A0 (en) * 1992-11-03 1993-04-04 Rafael Armament Dev Authority Spread-spectrum,frequency-hopping radiotelephone system
JP3165218B2 (ja) 1992-03-13 2001-05-14 株式会社日立製作所 パーソナル通信システム
JP3489122B2 (ja) * 1992-03-27 2004-01-19 アイシン精機株式会社 データ伝送端末を備えた自動車電話のインターフェス装置
US5410737A (en) * 1992-04-27 1995-04-25 American Pcs L.P. Frequency agile sharing technology (FAST) for a personal communications service system
US5263047A (en) * 1992-07-02 1993-11-16 Motorola, Inc. Multiple cavity tuning of a transmitter output in a communication system
EP0671110B1 (de) * 1992-08-26 2003-01-02 Sonera Oyj Mobiltelefonsystem
US5603081A (en) * 1993-11-01 1997-02-11 Telefonaktiebolaget Lm Ericsson Method for communicating in a wireless communication system
US5465401A (en) * 1992-12-15 1995-11-07 Texas Instruments Incorporated Communication system and methods for enhanced information transfer
US5471503A (en) * 1992-12-29 1995-11-28 Apple Computer, Inc. Scanning method for receiving a transmission in a communication system with slow frequency hopping and coding
US5440613A (en) * 1992-12-30 1995-08-08 At&T Corp. Architecture for a cellular wireless telecommunication system
US5325419A (en) * 1993-01-04 1994-06-28 Ameritech Corporation Wireless digital personal communications system having voice/data/image two-way calling and intercell hand-off
JP2953898B2 (ja) * 1993-02-17 1999-09-27 日本電気通信システム株式会社 構内用無線内線着信方式
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
GB2279849B (en) * 1993-06-02 1997-03-26 Vtech Communications Ltd Method of conducting an intercom communication between two cordless telephone handsets
FR2706103B1 (fr) * 1993-06-03 1997-01-31 Ericsson Ge Mobile Communicat Appareil radiotéléphonique.
JP2503906B2 (ja) * 1993-07-23 1996-06-05 日本電気株式会社 携帯無線機
US5406615A (en) * 1993-08-04 1995-04-11 At&T Corp. Multi-band wireless radiotelephone operative in a plurality of air interface of differing wireless communications systems
US5574775A (en) * 1993-08-04 1996-11-12 Lucent Technologies, Inc. Universal wireless radiotelephone system
US5390233A (en) * 1993-08-31 1995-02-14 At&T Corp. Telephone call transfer between a wireless and wired telephone
US5442659A (en) * 1993-10-22 1995-08-15 International Business Machines Corporation Radio communications system with fault tolerant frequency hopping synchronization
US5487175A (en) * 1993-11-15 1996-01-23 Qualcomm Incorporated Method of invoking and canceling voice or data service from a mobile unit
JP3329549B2 (ja) * 1993-12-28 2002-09-30 松下電送システム株式会社 通信装置
US5644621A (en) 1994-01-11 1997-07-01 Matsushita Electric Industrial Co., Ltd. Point to multipoint radiotelephone system
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5563952A (en) * 1994-02-16 1996-10-08 Tandy Corporation Automatic dynamic VOX circuit
US5446769A (en) * 1994-03-04 1995-08-29 Motorola, Inc. Method for providing hand-offs in a frequency hopping communication system
IT1271627B (it) * 1994-04-29 1997-06-04 Ibm Semea Spa Integrazione tra comunicazione radio vocale e comunicazione radio di dati.
USD378678S (en) 1994-05-31 1997-04-01 Motorola, Inc. Portable two-way radio
SE9402537L (sv) * 1994-07-20 1996-01-21 Siemens Elema Ab Narkossystem
CA2154335C (en) * 1994-07-21 2002-04-23 Tom Gray Integrated wired and wireless telecommunications system
US5568536A (en) * 1994-07-25 1996-10-22 International Business Machines Corporation Selective reconfiguration method and apparatus in a multiple application personal communications device
US5596333A (en) * 1994-08-31 1997-01-21 Motorola, Inc. Method and apparatus for conveying a communication signal between a communication unit and a base site
US5509053A (en) * 1994-09-14 1996-04-16 Motorola, Inc. Method and apparatus for routing a call to a mobile communication unit in a telepoint communication system
US5625673A (en) * 1994-09-22 1997-04-29 Lucent Technologies Inc. Modular communication apparatus
US5606560A (en) * 1994-09-23 1997-02-25 Motorola, Inc. Between a base station and a portable device
US5774793A (en) 1994-12-22 1998-06-30 Ora Electronics, Inc. System and method for interfacing diversely controlled devices to a bus connector having a common signal format
US5633911A (en) * 1995-01-23 1997-05-27 Motorola, Inc. Method and apparatus for reserving a telephone line in a telepoint communication system
US5822726A (en) * 1995-01-31 1998-10-13 Motorola, Inc. Speech presence detector based on sparse time-random signal samples
US5555448A (en) * 1995-02-27 1996-09-10 Delco Electronics Corporation Combined wireless/wired phone handset system
US5625877A (en) * 1995-03-15 1997-04-29 International Business Machines Corporation Wireless variable bandwidth air-link system
US5640689A (en) 1995-03-31 1997-06-17 Compaq Computer Corp. Communications apparatus with antenna switching based on antenna rotation
USD384059S (en) 1995-04-11 1997-09-23 E.F. Johnson Company Handheld two-way radio with hinged cover
USD368711S (en) 1995-04-13 1996-04-09 Sony Corporation Of America Portable telephone
USD378816S (en) 1995-07-26 1997-04-15 Sony Corporation Wireless telephone
US5675629A (en) 1995-09-08 1997-10-07 At&T Cordless cellular system base station
USD385269S (en) 1995-10-25 1997-10-21 Metex Corporation Portable radio communication apparatus
USD385270S (en) 1995-11-10 1997-10-21 Motorola, Inc. Radio communication device
USD393260S (en) 1995-11-10 1998-04-07 Motorola, Inc. Radio communication device
USD393638S (en) 1996-03-08 1998-04-21 Motorola, Inc. Portable radio housing
USD383745S (en) 1996-08-05 1997-09-16 Motorola, Inc. Portable two-way communication device

Also Published As

Publication number Publication date
EP1076929A4 (de) 2004-12-22
AU3458799A (en) 1999-12-06
AU751642B2 (en) 2002-08-22
WO1999060697A1 (en) 1999-11-25
EP1076929A1 (de) 2001-02-21
US6141426A (en) 2000-10-31
DE69930109D1 (de) 2006-04-27
EP1076929B1 (de) 2006-03-01

Similar Documents

Publication Publication Date Title
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE69922940T2 (de) Vorrichtung und verfahren zur kombinierung von audiokompression und rückkopplungsunterdrückung in einem hörgerät
DE60020317T2 (de) Rauschunterdrückung unter verwendung eines externen sprach-aktivitäts-detektors
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE60129072T2 (de) Multimodale Sprachkodierung und Geräuschunterdrückung
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE112009002617B4 (de) Wahlweises Schalten zwischen mehreren Mikrofonen
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE60032797T2 (de) Geräuschunterdrückung
DE60031354T2 (de) Geräuschunterdrückung vor der Sprachkodierung
DE60004539T2 (de) Teilband-unterdrückung einer akustischen rückkopplung in hörgeräten
DE60132321T2 (de) Verfahren und vorrichtung zur verteilten geräuschunterdrückung
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
EP1091349A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE60033826T2 (de) Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank
EP1189419B1 (de) Verfahren und Vorrichtung zur Elimination Lautsprecherinterferenzen aus Mikrofonsignalen
DE69930109T2 (de) Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch
EP1152527B1 (de) Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
EP3197181A1 (de) Verfahren zur reduktion der latenzzeit einer filterbank zur filterung eines audiosignals sowie verfahren zum latenzarmen betrieb eines hörsystems
DE112019006383T5 (de) Akustische echokompensation mittels niederfrequenz-sprachdetektion am nahen ende
DE60303278T2 (de) Vorrichtung zur Verbesserung der Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition