DE4309985A1 - Geräuschreduktion zur Spracherkennung - Google Patents

Geräuschreduktion zur Spracherkennung

Info

Publication number
DE4309985A1
DE4309985A1 DE4309985A DE4309985A DE4309985A1 DE 4309985 A1 DE4309985 A1 DE 4309985A1 DE 4309985 A DE4309985 A DE 4309985A DE 4309985 A DE4309985 A DE 4309985A DE 4309985 A1 DE4309985 A1 DE 4309985A1
Authority
DE
Germany
Prior art keywords
neural network
speech recognition
noise reduction
aberration
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE4309985A
Other languages
English (en)
Inventor
Michael Gert Dipl Ing Trompf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent Deutschland AG
Original Assignee
Alcatel SEL AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel SEL AG filed Critical Alcatel SEL AG
Priority to DE4309985A priority Critical patent/DE4309985A1/de
Priority to EP94104462A priority patent/EP0618566A1/de
Priority to FI941433A priority patent/FI941433A/fi
Priority to JP6059464A priority patent/JPH06324698A/ja
Priority to US08/219,219 priority patent/US5583968A/en
Publication of DE4309985A1 publication Critical patent/DE4309985A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung in geräuschbehafteter Umgebung.
Bisher bekannte Verfahren führen z. B. eine Spracherkennung in geräuschbehafteter Umgebung durch, indem eine Geräuschreduktion durchgeführt wird.
Eine Methode der Geräuschreduktion ist z. B. eine Cepstral-Geräuschreduktion mittels eines Multilayer-Netzwerkes auf der Basis von LPC (Linear Predictive Coding) -Cepstral-Koeffizienten. Hierbei wird von einem Netzwerk zur Geräuschreduktion eine nichtlineare autoassoziative Abbildung von einer Anzahl geräuschbehafteter Cepstral-Koeffizienten auf eine Anzahl geräuschfreier Cepstral-Koeffizienten im cepstralen Bereich durchgeführt.
Die durchschnittliche Spracherkennungsrate liegt bei ungefähr 65% wenn die beschriebene Geräuschreduktion durchgeführt wird ("A Cepstral Noise Reduction Multi-layer Neural Network; Helge B.D. Sorensen; ICASSP91; Toronto; (Canada); May 14-17, 1991).
Eine weitere Methode der Geräuschreduktion im Cepstral-Bereich basiert auf einem sich selbst-strukturierenden universellen Netz. Mit einem solchen Netz wird eine Geräuschreduktion in den folgenden drei Modellen möglich. Das erste Modell führt eine Spektralanalyse der gesprochenen Sprache durch. Das zweite Modell ist ein Selbst-strukturierendes Neuronales Geräusch-Reduktions Modell SNNR ( Self-structuring Neural Noise Reduction). Die bereits geräuschreduzierte Ausgabe des SNNR-Netzwerks wird durch ein Spracherkennungssystem bestehend aus sogenannten Hidden Control Neural Networks (HCNN) ausgebreitet ("A self-structuring Neural Noise Reduction Model"; Helge B.D. Sorensen and Uwe Hartmann; University of Aalberg; Denmark; nach Mai 1991).
Eine ebenfalls bereits bekannte Methode zur Geräuschreduktion verwendet sogenannte Connectionist Models. Mittels eines Algorithmus wird ein Netz bestehend aus vier Schichten trainiert, um geräuschbehaftete Signale auf geräuschfreie Signale abzubilden. Das Netzwerk ist somit in der Lage Geräuschreduktion zu erlernen. Es ist somit ebenfalls in der Lage geräuschbehaftete Signale die nicht Bestandteil der trainierten Signale sind von den Geräuschen zu befreien. Ebenso ist ein solches Netz in der Lage geräuschbehaftete Signale von Geräuschen zu befreien die ebenfalls nicht antrainiert wurden ("Noise Reduction Using Connectionist Models"; Shin′ichi Tamura and Alex Waibel; Osaka; (Japan); ICASSP88; April 1988).
Des weiteren werden bei Verwendung neuronaler Netze zur Geräuschreduktion verschiedene Netzwerktopologien und verschiedene Varianten von Trainingsalgorithmen getestet und optimiert. Hierdurch soll die Robustheit von Spracherkennung gegen Umgebungsgeräusche verbessert werden ("Building Blocks for a Neural Noise Reduction Network für Robust Speech Recognition"; Michael Trompf; Proceedings of EUSCIPCO 1992; Brüssel (Belgium); 24-27.08.92).
Der Erfindung liegt die Aufgabe zugrunde eine Methode zur Geräuschreduktion zur Spracherkennung von geräuschbehafteter Sprache zu entwickeln. Als weitere Aufgabe soll ein neuronales Netz entwickelt werden das die vorgenannte Aufgabe erfüllt.
Die Aufgaben werden verfahrensgemäß gelöst durch die Lehre des ersten Patentanspruchs und durch die Lehre des fünften Patentanspruchs.
Ein Vorteil der vorliegenden Erfindung ist, daß mittels des Verfahrens eine robustere Spracherkennung von geräuschbehafteter Sprache durchgeführt werden kann. Dabei wird unter Robustheit die Störungsunempfindlichkeit der Spracherkennung gegen eintrainierte, aber auch gegen nicht eintrainierte Geräusche verstanden. Zur Robustheit zählt ebenso die richtige Erkennung von nicht eintrainierten Worten in geräuschbehafteter Umgebung. Das hier verwendete Verfahren führt durch verbesserte Geräuschreduktion zu einer robusteren Spracherkennung.
Ein weiterer Vorteil liegt darin, daß mit dem verwendeten Verfahren das zur neuronalen Geräuschreduktion verwendete neuronale Netz eine kürzere Netzentwicklungszeit benötigt.
Vorteilhafte Weiterentwicklungen des Verfahrens sind den Unteransprüchen 2 bis 4 zu entnehmen. Vorteilhafte Weiterentwicklungen des neuronalen Netzes sind den Unteransprüchen 6 bis 8 zu entnehmen.
Nach Unteranspruch 2 wird eine spezielle Fehlerberechnungsmethode erläutert. Die Bildung des quadratischen Abbildungsfehlers erweist sich als besonders vorteilhaft.
Nach Unteranspruch 3 wird eine Gewichtung der Abbildungsfehler einzelner Vektoren vorgenommen. Die gewichteten einzelnen Abbildungsfehler führen zu dem gesamten Abbildungsfehler.
Nach Unteranspruch 4 wird erläutert, daß durch Auswahl von geeigneten Signalrepräsentanten eine geeignete Topologie des neuronalen Netzes festgelegt wird.
Nach Unteranspruch 6 wird erläutert wie das neuronale Netz trainiert wird. Es werden Knoten zu einer Eingangsschicht des neuronalen Netzes hinzugefügt indem ein Abbildungsfehler zwischen geräuschreduziertem Vektor und geräuschfreiem Vektor berechnet und minimiert wird. Durch die Vergrößerung der Eingangsschicht ist eine Vergrößerung der Eingangsrepräsentanten möglich.
Nach Unteranspruch 7 wird als Fehlerberatungsmethode die Bildung des quadratischen Fehlers bevorzugt.
Nach Unteranspruch 8 wird wie bereits in Unteranspruch 3 erläutert eine Gewichtung der Abbildungsfehler einzelner Vektoren vorgenommen.
Ausführungsbeispiele der Erfindung werden anhand der folgenden Figuren erläutert. Folgende Figuren zeigen:
Fig. 1 Blockschaltbild einer Spracherkennungsvorrichtung die das erfindungsgemäße Verfahren ausführt,
Fig. 2 schematische Darstellung des neuronalen Netzes zur Geräuschreduktion.
Im folgenden Teil wird das erfindungsgemäße Verfahren zur Spracherkennung von Sprache in geräuschbehafteter Umgebung anhand von Fig. 1 erläutert.
Eine Spracherkennungsvorrichtung die in der Lage ist das erfindungsgemäße Verfahren auszuführen bedient sich einer Geräuschreduktion, die mittels eines neuronalen Netzes ausgeführt wird.
Sprache und Geräusche werden über ein Mikrofon M auf die Spracherkennungsvorrichtung gegeben. Die mit Geräuschen behaftete Sprache entspricht geräuschbehafteten Sprachsignalen und wird im folgenden auch so bezeichnet. Reine geräuschfreie Sprache wird im folgenden als geräuschfreies Sprachsignal bezeichnet. Das Mikrofon M ist über einen ersten Summierer 1 mit einer Vorverarbeitungseinrichtung VV verbunden. Die Vorverarbeitungseinrichtung VV ist mit einem neuronalen Netz N welches die neuronale Geräuschreduktion durchführt verbunden. Das neuronale Netz N ist über einen zweiten Summierer 2 mit einer Spracherkennungseinheit I verbunden.
Die geräuschbehafteten Sprachsignale werden über das Mikrofon M auf die Vorverarbeitungseinrichtung VV gegeben.
Die Vorverarbeitungseinrichtung VV kann beispielsweise eine LPC (Linear Predictive Coding)-Cepstral-Analyse durchführen, wie sie aus dem Bereich der Sprachverarbeitung bereits bekannt ist.
Bei dieser LPC-Cepstral-Analyse werden die geräuschbehafteten Sprachsignale mit einer festgelegten Frequenz, z. B. 3,4 KHz tiefpaßgefiltert. Daraufhin werden LPC-Cepstral-Koeffizienten gebildet. Üblicherweise werden zwischen 10 und 15 Koeffizienten gebildet.
Die Vorverarbeitungseinrichtung VV bildet somit aus den geräuschbehafteten Sprachsignalen eine Folge von geräuschbehafteten Vektoren, auch Merkmalsvektoren genannt. Darauf werden die so vorverarbeiteten geräuschbehafteten Sprachsignale, also die geräuschbehafteten Vektoren auf das neuronale Netz N gegeben. Das neuronale Netz N führt eine Geräuschreduktion durch.
Unter Geräuschreduktion wird die Abbildung von geräuschbehafteten auf geräuschfreie Vektoren verstanden.
Die bisher beschriebene Vorrichtung stellt die Spracherkennungsvorrichtung dar, mit der eine Geräuschreduktion vorgenommen werden kann.
Um diese Geräuschreduktion, also die Abbildung, durchführen zu können, muß das neuronale Netz N trainiert werden.
Neuronale Netze werden vortrainiert, d. h. vor dem Einsatz, wie hier zur Spracherkennung in geräuschbehafteter Umgebung, wird das neuronale Netz in die Lage versetzt einen bestimmten, in geräuschfreier Umgebung vortrainierten Wortschatz ebenfalls in geräuschbehafteter Umgebung zu erkennen. Zusätzlich wird das neuronale Netz in die Lage versetzt bestimmte Geräusche auch als Geräusch, also als nicht erwünschten Störeffekt zu erkennen.
Ein neuronales Netz ist im Allgemeinen nur auf wenige Worte und Geräusche vortrainiert. Ein solches Netz wird als Minimalnetz bezeichnet.
Ist das neuronale Netz in der Trainingsphase im Einsatz, wie hier als neuronales Netz N zur Geräuschreduktion, kann es währenddessen "lernen" also weitertrainiert werden. Die Topologie des Minimalnetzes besteht aus wenigen untereinander verbundenen Knoten. "Lernt" das neuronale Netz, so werden weitere Knoten hinzugefügt. Das erfolgt z. B. mittels eines CASCADE-Algorithmus. Bei dem CASCADE-Algorithmus werden ausgehend von dem Minimalnetz weitere Knoten trainiert und sukzessive hinzugefügt. Zum Training wird beispielsweise ein fehlervergleich zwischen Soll- und Istwert vorgenommen. Sind die Werte identisch, so gilt der Knoten als trainiert und er wird zu dem Netz hinzugefügt. Das Angleichen von dem Ist- an den Sollwert erfolgt mittels eines iterativen Verfahrens.
Zum Training des neuronalen Netzes N besteht die Spracherkennungsvorrichtung zusätzlich noch aus einem Speicher S in dem geräuschfreie Sprachsignale gespeichert sind. Der Speicher S ist über eine zweite Vorverarbeitungseinrichtung VV′ mit dem zweiten Summierer 2 verbunden. Die zweite Vorverarbeitungseinrichtung VV′ arbeitet mit der gleichen LPC-Cepstral-Analysemethode wie die Vorverarbeitungseinrichtung VV. Demnach befinden sich am Ausgang der Vorverarbeitungseinrichtung VV′ geräuschfreie Vektoren.
Der Speicher S ist ebenfalls mit dem ersten Summierer 1 verbunden.
Von dem zweiten Summierer 2 besteht eine weitere Verbindung, eine Rückkopplungsstrecke A, zu dem neuronalen Netz N.
Im speziellen erfolgt die Geräuschreduktion und das Training folgendermaßen:
Die Folge von geräuschbehafteten Vektoren wird auf das neuronale Netz N gegeben. Es wird eine erste neuronale Geräuschreduktion durchgeführt indem die geräuschbehafteten Vektoren auf geräuschfreie Vektoren abgebildet werden. Am Ausgang des neuronalen Netzes liegt sonst ein geräuschreduzierter Vektor an, der im Idealfall geräuschfrei sein kann.
Über die zweite Vorverarbeitungseinrichtung VV′ stehen an dem zweiten Summierer 2 ebenso geräuschfreie Vektoren zur Verfügung. An dem zweiten Summierer 2 werden die Vektoren addiert und der Abbildungsfehler zwischen geräuschfreiem Vektor und geräuschreduziertem Vektor wird gebildet.
Der Abbildungsfehler kann z. B. als quadratischer Abbildungsfehler berechnet werden. Explizit wird der quadratische Fehler gemittelt über mehrere geräuschbehaftete und geräuschfreie Vektoren.
Zusätzlich kann noch eine Gewichtung vorgenommen werden. Für die Spracherkennung wichtige Vektoren mit dem dazugehörenden Abbildungsfehler werden stärker gewichtet. Unter wichtigen Vektoren werden diejenigen verstanden, die im hörbaren Frequenzbereich sind und die deshalb für die Spracherkennung maßgeblich sind.
Ist der Abbildungsfehler nicht gleich Null, so wird mittels eines iterativen Verfahrens eine Annäherung an Null angestrebt. Um den Abbildungsfehler zu Beginn der Iteration möglichst klein zu halten, werden Zusatzinformationen aus geeigneten Signalrepräsentanten am Eingang des neuronalen Netzes ausgewählt. Unter geeigneten Signalrepräsentanten werden solche mit nicht allzu großen Verzerrungen verursacht durch Geräusche verstanden. In der Menge der Eingangssignale am Eingang des neuronalen Netzes befinden sich ebenfalls redundante Signale, so daß repräsentative Signale ausgewählt werden können. Zusatzinformationen stellen z. B. Kontextinformationen, Ableitungen oder Extraktionsverfahren für bestimmte Merkmale dar. Nach dem ersten Iterationsschritt wird ein Soll- und Istwertvergleich vorgenommen.
Über die Rückkopplungsstrecke A wird ein zweiter Iterationsschritt ermöglicht. Wiederum erfolgt ein Soll- und Istwertvergleich. Ist der Abbildungsfehler größer so erfolgt ein Iterationsschritt mit anderen Koeffizienten. Ist der Abbildungsfehler minimiert worden, so erfolgt ein neuer Iterationsschritt mit dem Ziel der erneuten Minimierung. Ist der Abbildungsfehler gleich Null, oder verkleinert sich der Abbildungsfehler nicht mehr, ist die Geräuschreduktion beendet und in der Spracherkennungseinheit I kann eine Spracherkennung vorgenommen werden.
Das mittels des iterativen Verfahrens geräuschreduzierte Wert gilt in dem neuronalen Netz N nun als eintrainiert und ein Knoten wird zu der Netztopologie hinzugefügt.
Im folgenden Teil wird anhand von Fig. 2 das neuronale Netz für die neuronale Geräuschreduktion näher erläutert.
Für die neuronale Geräuschreduktion steht nach der Vorverarbeitungseinrichtung VV die geräuschbehaftete Sprache in Form von geräuschbehafteten Vektoren zur Verfügung. Hierbei wird unterschieden zwischen geräuschbehafteten Vektoren Y die zur Zeit der neuronalen Geräuschreduktion am neuronalen Netz N anliegen, welche mit durchgezogenen Linien gekennzeichnet sind, und zwischen geräuschbehafteten Vektoren X die zu einen vorherigen Zeitpunkt an dem neuronalen Netz angelegen haben. Diese Vektoren X sind durch eine gebrochene Linie gekennzeichnet.
Von den derzeitig anliegenden geräuschbehafteten Vektoren Y können z. B. Ableitungen Y′, Y′′ gebildet werden.
Diese Ableitungen Y′ und Y′′ sind durch gepunktete Linie gekennzeichnet. Um aus der geräuschbehafteten Vektoren Y mittels der neuronalen Geräuschreduktion geräuschreduzierte Vektoren Q zu erzeugen, stehen der derzeitige Vektor Y, dessen Ableitungen Y′, Y′′ und der alte Vektor X der neuronalen Geräuschreduktion zur Verfügen.
Um auf zukünftige neuronale Geräuschreduktion von geräuschbehafteten Vektoren schließen zu können, werden alle vorgenannten Informationen die aus der Geräuschreduktion gezogen werden konnten verwendet, um auf zukünftige geräuschbehaftete Vektoren Z zu schließen und die Geräuschreduktion zu vereinfachen. Die zukünftige geräuschbehafteten Vektoren Z sind strich-punktiert dargestellt. Mit der Vereinfachung der Geräuschreduktion ist eine Vereinfachung der Spracherkennung von Sprache in geräuschbehafteter Umgebung mit eingeschlossen.

Claims (8)

1. Verfahren zur Spracherkennung in geräuschbehafteter Umgebung unter Verwendung eines neuronalen Netzes (N), wobei das neuronale Netz (N) eine neuronale Geräuschreduktion durchführt, indem es in einer Trainingsphase mittels eines iterativen Verfahrens einen Abbildungsfehler zwischen geräuschfreien Vektoren an einem Ausgang des neuronalen Netzes und geräuschreduzierten Vektoren an dem Ausgang des neuronalen Netzes reduziert, und wobei durch Zusatzinformationen, die aus einem geeigneten Signalrepräsentanten der am Eingang des neuronalen Netzes (N) ausgewählt wird, der Abbildungsfehler weiter reduziert wird.
2. Verfahren zur Spracherkennung nach Anspruch 1, bei dem als Abbildungsfehler der quadratische Abbildungsfehler gebildet wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem der Abbildungsfehler eine Gewichtung erhält, die von der Wichtigkeit der Vektoren für die Spracherkennung abhängig ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei der eine geeignete Topologie des neuronalen Netzes (N) durch Auswahl von geeigneten Signalrepräsentanten festgelegt wird.
5. Neuronales Netz zur Geräuschreduktion für Spracherkennung in geräuschbehafteter Umgebung mit einem Algorithmus zur automatischen Netzgenerierung, bei dem der Algorithmus eine Auswahl eines geeigneten Signalrepräsentanten automatisch ausführt.
6. Neuronales Netz nach Anspruch 5, welches sukzessive Knoten zu einer Eingangsschicht des neuronalen Netzes hinzufügt, wobei ein neuer Knoten trainiert wird, indem ein Abbildungsfehler berechnet und minimiert wird.
7. Neuronales Netz nach Anspruch 5 oder 6, wobei als Abbildungsfehler der quadratische Abbildungsfehler gebildet wird.
8. Neuronales Netz nach einem der Ansprüche 5 bis 71 bei dem der Abbildungsfehler eine Gewichtung erhält, die von der Wichtigkeit der Vektoren für die Spracherkennung abhängig ist.
DE4309985A 1993-03-29 1993-03-29 Geräuschreduktion zur Spracherkennung Withdrawn DE4309985A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE4309985A DE4309985A1 (de) 1993-03-29 1993-03-29 Geräuschreduktion zur Spracherkennung
EP94104462A EP0618566A1 (de) 1993-03-29 1994-03-22 Geräuschreduktion zur Spracherkennung
FI941433A FI941433A (fi) 1993-03-29 1994-03-28 Häiriönalentaminen puheen erottamista varten
JP6059464A JPH06324698A (ja) 1993-03-29 1994-03-29 スピーチ認識用の雑音減少方法
US08/219,219 US5583968A (en) 1993-03-29 1994-03-29 Noise reduction for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4309985A DE4309985A1 (de) 1993-03-29 1993-03-29 Geräuschreduktion zur Spracherkennung

Publications (1)

Publication Number Publication Date
DE4309985A1 true DE4309985A1 (de) 1994-10-06

Family

ID=6484012

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4309985A Withdrawn DE4309985A1 (de) 1993-03-29 1993-03-29 Geräuschreduktion zur Spracherkennung

Country Status (5)

Country Link
US (1) US5583968A (de)
EP (1) EP0618566A1 (de)
JP (1) JPH06324698A (de)
DE (1) DE4309985A1 (de)
FI (1) FI941433A (de)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19948308A1 (de) * 1999-10-06 2001-04-19 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE19963142A1 (de) * 1999-12-24 2001-06-28 Christoph Bueltemann Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems
DE10124762A1 (de) * 2001-05-21 2002-12-19 Siemens Ag Verfahren zum Training und Betrieb eines Spracherkenners und Spracherkenner mit Geräuschidentifikation
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät
DE102019219749A1 (de) * 2019-12-16 2021-06-17 Zf Friedrichshafen Ag Beurteilen der Identifizierbarkeit eines Warnsignals in Mikrofondaten

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122614A1 (en) * 1996-11-14 2004-06-24 Lg Electronics, Inc. Noise controller for controlling noise and method of removing noise
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US5904227A (en) * 1997-12-30 1999-05-18 Otis Elevator Company Method for continuously adjusting the architecture of a neural network used in elevator dispatching
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
ES2172410B1 (es) * 2000-07-11 2004-11-16 Voice Consulting, S.L. Sistema de respuesta y reconocimiento neuronal de voz.
US6718316B1 (en) * 2000-10-04 2004-04-06 The United States Of America As Represented By The Secretary Of The Navy Neural network noise anomaly recognition system and method
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7003455B1 (en) 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
EP1244094A1 (de) * 2001-03-20 2002-09-25 Swissqual AG Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7305122B2 (en) * 2002-08-13 2007-12-04 Lockheed Martin Corporation Method and computer program product for identifying and correcting systematic noise in a pattern recognition system
DE102005039621A1 (de) * 2005-08-19 2007-03-01 Micronas Gmbh Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
GB2465782B (en) * 2008-11-28 2016-04-13 Univ Nottingham Trent Biometric identity verification
US8438122B1 (en) 2010-05-14 2013-05-07 Google Inc. Predictive analytic modeling platform
US8473431B1 (en) 2010-05-14 2013-06-25 Google Inc. Predictive analytic modeling platform
US8533222B2 (en) * 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8533224B2 (en) * 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
US9767410B1 (en) 2014-10-03 2017-09-19 Google Inc. Rank-constrained neural networks
US10957342B2 (en) * 2019-01-16 2021-03-23 Cirrus Logic, Inc. Noise cancellation
US11741982B2 (en) 2021-10-05 2023-08-29 Dell Products L.P. Contextual beamforming to improve signal-to-noise ratio sensitive audio input processing efficiency in noisy environments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
GB8911461D0 (en) * 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
JP2763398B2 (ja) * 1990-11-20 1998-06-11 キヤノン株式会社 パターン認識装置
US5461699A (en) * 1993-10-25 1995-10-24 International Business Machines Corporation Forecasting using a neural network and a statistical forecast

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19948308A1 (de) * 1999-10-06 2001-04-19 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE19963142A1 (de) * 1999-12-24 2001-06-28 Christoph Bueltemann Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems
DE10124762A1 (de) * 2001-05-21 2002-12-19 Siemens Ag Verfahren zum Training und Betrieb eines Spracherkenners und Spracherkenner mit Geräuschidentifikation
DE10124762B4 (de) * 2001-05-21 2004-07-15 Siemens Ag Verfahren zum Training und Betrieb eines Spracherkenners und Spracherkenner mit Geräuschidentifikation
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät
DE102019219749A1 (de) * 2019-12-16 2021-06-17 Zf Friedrichshafen Ag Beurteilen der Identifizierbarkeit eines Warnsignals in Mikrofondaten

Also Published As

Publication number Publication date
US5583968A (en) 1996-12-10
FI941433A0 (fi) 1994-03-28
JPH06324698A (ja) 1994-11-25
EP0618566A1 (de) 1994-10-05
FI941433A (fi) 1994-09-30

Similar Documents

Publication Publication Date Title
DE4309985A1 (de) Geräuschreduktion zur Spracherkennung
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1168305A2 (de) Verfahren zur mehrkanaligen Merkmalextraktion für die Spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE3938645C1 (de)
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE4328752A1 (de) Spracherkennungssystem
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP4000010A1 (de) Vorrichtung und computerimplementiertes verfahren für die verarbeitung digitaler sensordaten und trainingsverfahren dafür
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE69820497T2 (de) Neuronales netzwerk und seine anwendung für die spracherkennung
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
EP0658878B1 (de) System zum Übertragen eines Sprachsignals
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
DE112017007051B4 (de) Signalverarbeitungsvorrichtung

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee