DE4309985A1 - Geräuschreduktion zur Spracherkennung - Google Patents
Geräuschreduktion zur SpracherkennungInfo
- Publication number
- DE4309985A1 DE4309985A1 DE4309985A DE4309985A DE4309985A1 DE 4309985 A1 DE4309985 A1 DE 4309985A1 DE 4309985 A DE4309985 A DE 4309985A DE 4309985 A DE4309985 A DE 4309985A DE 4309985 A1 DE4309985 A1 DE 4309985A1
- Authority
- DE
- Germany
- Prior art keywords
- neural network
- speech recognition
- noise reduction
- aberration
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Spracherkennung in
geräuschbehafteter Umgebung.
Bisher bekannte Verfahren führen z. B. eine Spracherkennung in
geräuschbehafteter Umgebung durch, indem eine Geräuschreduktion
durchgeführt wird.
Eine Methode der Geräuschreduktion ist z. B. eine
Cepstral-Geräuschreduktion mittels eines Multilayer-Netzwerkes auf
der Basis von LPC (Linear Predictive Coding)
-Cepstral-Koeffizienten. Hierbei wird von einem Netzwerk zur
Geräuschreduktion eine nichtlineare autoassoziative Abbildung von
einer Anzahl geräuschbehafteter Cepstral-Koeffizienten auf eine
Anzahl geräuschfreier Cepstral-Koeffizienten im cepstralen Bereich
durchgeführt.
Die durchschnittliche Spracherkennungsrate liegt bei ungefähr 65%
wenn die beschriebene Geräuschreduktion durchgeführt wird ("A
Cepstral Noise Reduction Multi-layer Neural Network; Helge B.D.
Sorensen; ICASSP91; Toronto; (Canada); May 14-17, 1991).
Eine weitere Methode der Geräuschreduktion im Cepstral-Bereich
basiert auf einem sich selbst-strukturierenden universellen Netz.
Mit einem solchen Netz wird eine Geräuschreduktion in den folgenden
drei Modellen möglich. Das erste Modell führt eine Spektralanalyse
der gesprochenen Sprache durch. Das zweite Modell ist ein
Selbst-strukturierendes Neuronales Geräusch-Reduktions Modell SNNR
( Self-structuring Neural Noise Reduction). Die bereits
geräuschreduzierte Ausgabe des SNNR-Netzwerks wird durch ein
Spracherkennungssystem bestehend aus sogenannten Hidden Control
Neural Networks (HCNN) ausgebreitet ("A self-structuring Neural
Noise Reduction Model"; Helge B.D. Sorensen and Uwe Hartmann;
University of Aalberg; Denmark; nach Mai 1991).
Eine ebenfalls bereits bekannte Methode zur Geräuschreduktion
verwendet sogenannte Connectionist Models. Mittels eines
Algorithmus wird ein Netz bestehend aus vier Schichten trainiert,
um geräuschbehaftete Signale auf geräuschfreie Signale abzubilden.
Das Netzwerk ist somit in der Lage Geräuschreduktion zu erlernen.
Es ist somit ebenfalls in der Lage geräuschbehaftete Signale die
nicht Bestandteil der trainierten Signale sind von den Geräuschen
zu befreien. Ebenso ist ein solches Netz in der Lage
geräuschbehaftete Signale von Geräuschen zu befreien die ebenfalls
nicht antrainiert wurden ("Noise Reduction Using Connectionist
Models"; Shin′ichi Tamura and Alex Waibel; Osaka; (Japan);
ICASSP88; April 1988).
Des weiteren werden bei Verwendung neuronaler Netze zur
Geräuschreduktion verschiedene Netzwerktopologien und verschiedene
Varianten von Trainingsalgorithmen getestet und optimiert.
Hierdurch soll die Robustheit von Spracherkennung gegen
Umgebungsgeräusche verbessert werden ("Building Blocks for a Neural
Noise Reduction Network für Robust Speech Recognition"; Michael
Trompf; Proceedings of EUSCIPCO 1992; Brüssel (Belgium);
24-27.08.92).
Der Erfindung liegt die Aufgabe zugrunde eine Methode zur
Geräuschreduktion zur Spracherkennung von geräuschbehafteter
Sprache zu entwickeln. Als weitere Aufgabe soll ein neuronales Netz
entwickelt werden das die vorgenannte Aufgabe erfüllt.
Die Aufgaben werden verfahrensgemäß gelöst durch die Lehre des
ersten Patentanspruchs und durch die Lehre des fünften
Patentanspruchs.
Ein Vorteil der vorliegenden Erfindung ist, daß mittels des
Verfahrens eine robustere Spracherkennung von geräuschbehafteter
Sprache durchgeführt werden kann. Dabei wird unter Robustheit die
Störungsunempfindlichkeit der Spracherkennung gegen eintrainierte,
aber auch gegen nicht eintrainierte Geräusche verstanden. Zur
Robustheit zählt ebenso die richtige Erkennung von nicht
eintrainierten Worten in geräuschbehafteter Umgebung. Das hier
verwendete Verfahren führt durch verbesserte Geräuschreduktion zu
einer robusteren Spracherkennung.
Ein weiterer Vorteil liegt darin, daß mit dem verwendeten Verfahren
das zur neuronalen Geräuschreduktion verwendete neuronale Netz eine
kürzere Netzentwicklungszeit benötigt.
Vorteilhafte Weiterentwicklungen des Verfahrens sind den
Unteransprüchen 2 bis 4 zu entnehmen. Vorteilhafte
Weiterentwicklungen des neuronalen Netzes sind den Unteransprüchen
6 bis 8 zu entnehmen.
Nach Unteranspruch 2 wird eine spezielle Fehlerberechnungsmethode
erläutert. Die Bildung des quadratischen Abbildungsfehlers erweist
sich als besonders vorteilhaft.
Nach Unteranspruch 3 wird eine Gewichtung der Abbildungsfehler
einzelner Vektoren vorgenommen. Die gewichteten einzelnen
Abbildungsfehler führen zu dem gesamten Abbildungsfehler.
Nach Unteranspruch 4 wird erläutert, daß durch Auswahl von
geeigneten Signalrepräsentanten eine geeignete Topologie des
neuronalen Netzes festgelegt wird.
Nach Unteranspruch 6 wird erläutert wie das neuronale Netz
trainiert wird. Es werden Knoten zu einer Eingangsschicht des
neuronalen Netzes hinzugefügt indem ein Abbildungsfehler zwischen
geräuschreduziertem Vektor und geräuschfreiem Vektor berechnet und
minimiert wird. Durch die Vergrößerung der Eingangsschicht ist eine
Vergrößerung der Eingangsrepräsentanten möglich.
Nach Unteranspruch 7 wird als Fehlerberatungsmethode die Bildung
des quadratischen Fehlers bevorzugt.
Nach Unteranspruch 8 wird wie bereits in Unteranspruch 3 erläutert
eine Gewichtung der Abbildungsfehler einzelner Vektoren vorgenommen.
Ausführungsbeispiele der Erfindung werden anhand der folgenden
Figuren erläutert. Folgende Figuren zeigen:
Fig. 1 Blockschaltbild einer Spracherkennungsvorrichtung die
das erfindungsgemäße Verfahren ausführt,
Fig. 2 schematische Darstellung des neuronalen Netzes zur
Geräuschreduktion.
Im folgenden Teil wird das erfindungsgemäße Verfahren zur
Spracherkennung von Sprache in geräuschbehafteter Umgebung anhand
von Fig. 1 erläutert.
Eine Spracherkennungsvorrichtung die in der Lage ist das
erfindungsgemäße Verfahren auszuführen bedient sich einer
Geräuschreduktion, die mittels eines neuronalen Netzes ausgeführt
wird.
Sprache und Geräusche werden über ein Mikrofon M auf die
Spracherkennungsvorrichtung gegeben. Die mit Geräuschen behaftete
Sprache entspricht geräuschbehafteten Sprachsignalen und wird im
folgenden auch so bezeichnet. Reine geräuschfreie Sprache wird im
folgenden als geräuschfreies Sprachsignal bezeichnet. Das Mikrofon
M ist über einen ersten Summierer 1 mit einer
Vorverarbeitungseinrichtung VV verbunden. Die
Vorverarbeitungseinrichtung VV ist mit einem neuronalen Netz N
welches die neuronale Geräuschreduktion durchführt verbunden. Das
neuronale Netz N ist über einen zweiten Summierer 2 mit einer
Spracherkennungseinheit I verbunden.
Die geräuschbehafteten Sprachsignale werden über das Mikrofon M auf
die Vorverarbeitungseinrichtung VV gegeben.
Die Vorverarbeitungseinrichtung VV kann beispielsweise eine LPC
(Linear Predictive Coding)-Cepstral-Analyse durchführen, wie sie
aus dem Bereich der Sprachverarbeitung bereits bekannt ist.
Bei dieser LPC-Cepstral-Analyse werden die geräuschbehafteten
Sprachsignale mit einer festgelegten Frequenz, z. B. 3,4 KHz
tiefpaßgefiltert. Daraufhin werden LPC-Cepstral-Koeffizienten
gebildet. Üblicherweise werden zwischen 10 und 15 Koeffizienten
gebildet.
Die Vorverarbeitungseinrichtung VV bildet somit aus den
geräuschbehafteten Sprachsignalen eine Folge von geräuschbehafteten
Vektoren, auch Merkmalsvektoren genannt. Darauf werden die so
vorverarbeiteten geräuschbehafteten Sprachsignale, also die
geräuschbehafteten Vektoren auf das neuronale Netz N gegeben. Das
neuronale Netz N führt eine Geräuschreduktion durch.
Unter Geräuschreduktion wird die Abbildung von geräuschbehafteten
auf geräuschfreie Vektoren verstanden.
Die bisher beschriebene Vorrichtung stellt die
Spracherkennungsvorrichtung dar, mit der eine Geräuschreduktion
vorgenommen werden kann.
Um diese Geräuschreduktion, also die Abbildung, durchführen zu
können, muß das neuronale Netz N trainiert werden.
Neuronale Netze werden vortrainiert, d. h. vor dem Einsatz, wie hier
zur Spracherkennung in geräuschbehafteter Umgebung, wird das
neuronale Netz in die Lage versetzt einen bestimmten, in
geräuschfreier Umgebung vortrainierten Wortschatz ebenfalls in
geräuschbehafteter Umgebung zu erkennen. Zusätzlich wird das
neuronale Netz in die Lage versetzt bestimmte Geräusche auch als
Geräusch, also als nicht erwünschten Störeffekt zu erkennen.
Ein neuronales Netz ist im Allgemeinen nur auf wenige Worte und
Geräusche vortrainiert. Ein solches Netz wird als Minimalnetz
bezeichnet.
Ist das neuronale Netz in der Trainingsphase im Einsatz, wie hier
als neuronales Netz N zur Geräuschreduktion, kann es währenddessen
"lernen" also weitertrainiert werden. Die Topologie des
Minimalnetzes besteht aus wenigen untereinander verbundenen Knoten.
"Lernt" das neuronale Netz, so werden weitere Knoten hinzugefügt.
Das erfolgt z. B. mittels eines CASCADE-Algorithmus. Bei dem
CASCADE-Algorithmus werden ausgehend von dem Minimalnetz weitere
Knoten trainiert und sukzessive hinzugefügt. Zum Training wird
beispielsweise ein fehlervergleich zwischen Soll- und Istwert
vorgenommen. Sind die Werte identisch, so gilt der Knoten als
trainiert und er wird zu dem Netz hinzugefügt. Das Angleichen von
dem Ist- an den Sollwert erfolgt mittels eines iterativen
Verfahrens.
Zum Training des neuronalen Netzes N besteht die
Spracherkennungsvorrichtung zusätzlich noch aus einem Speicher S in
dem geräuschfreie Sprachsignale gespeichert sind. Der Speicher S
ist über eine zweite Vorverarbeitungseinrichtung VV′ mit dem
zweiten Summierer 2 verbunden. Die zweite
Vorverarbeitungseinrichtung VV′ arbeitet mit der gleichen
LPC-Cepstral-Analysemethode wie die Vorverarbeitungseinrichtung VV.
Demnach befinden sich am Ausgang der Vorverarbeitungseinrichtung
VV′ geräuschfreie Vektoren.
Der Speicher S ist ebenfalls mit dem ersten Summierer 1 verbunden.
Von dem zweiten Summierer 2 besteht eine weitere Verbindung, eine
Rückkopplungsstrecke A, zu dem neuronalen Netz N.
Im speziellen erfolgt die Geräuschreduktion und das Training
folgendermaßen:
Die Folge von geräuschbehafteten Vektoren wird auf das neuronale
Netz N gegeben. Es wird eine erste neuronale Geräuschreduktion
durchgeführt indem die geräuschbehafteten Vektoren auf
geräuschfreie Vektoren abgebildet werden. Am Ausgang des neuronalen
Netzes liegt sonst ein geräuschreduzierter Vektor an, der im
Idealfall geräuschfrei sein kann.
Über die zweite Vorverarbeitungseinrichtung VV′ stehen an dem
zweiten Summierer 2 ebenso geräuschfreie Vektoren zur Verfügung. An
dem zweiten Summierer 2 werden die Vektoren addiert und der
Abbildungsfehler zwischen geräuschfreiem Vektor und
geräuschreduziertem Vektor wird gebildet.
Der Abbildungsfehler kann z. B. als quadratischer Abbildungsfehler
berechnet werden. Explizit wird der quadratische Fehler gemittelt
über mehrere geräuschbehaftete und geräuschfreie Vektoren.
Zusätzlich kann noch eine Gewichtung vorgenommen werden. Für die
Spracherkennung wichtige Vektoren mit dem dazugehörenden
Abbildungsfehler werden stärker gewichtet. Unter wichtigen Vektoren
werden diejenigen verstanden, die im hörbaren Frequenzbereich sind
und die deshalb für die Spracherkennung maßgeblich sind.
Ist der Abbildungsfehler nicht gleich Null, so wird mittels eines
iterativen Verfahrens eine Annäherung an Null angestrebt. Um den
Abbildungsfehler zu Beginn der Iteration möglichst klein zu halten,
werden Zusatzinformationen aus geeigneten Signalrepräsentanten am
Eingang des neuronalen Netzes ausgewählt. Unter geeigneten
Signalrepräsentanten werden solche mit nicht allzu großen
Verzerrungen verursacht durch Geräusche verstanden. In der Menge
der Eingangssignale am Eingang des neuronalen Netzes befinden sich
ebenfalls redundante Signale, so daß repräsentative Signale
ausgewählt werden können. Zusatzinformationen stellen z. B.
Kontextinformationen, Ableitungen oder Extraktionsverfahren für
bestimmte Merkmale dar. Nach dem ersten Iterationsschritt wird ein
Soll- und Istwertvergleich vorgenommen.
Über die Rückkopplungsstrecke A wird ein zweiter Iterationsschritt
ermöglicht. Wiederum erfolgt ein Soll- und Istwertvergleich. Ist
der Abbildungsfehler größer so erfolgt ein Iterationsschritt mit
anderen Koeffizienten. Ist der Abbildungsfehler minimiert worden,
so erfolgt ein neuer Iterationsschritt mit dem Ziel der erneuten
Minimierung. Ist der Abbildungsfehler gleich Null, oder verkleinert
sich der Abbildungsfehler nicht mehr, ist die Geräuschreduktion
beendet und in der Spracherkennungseinheit I kann eine
Spracherkennung vorgenommen werden.
Das mittels des iterativen Verfahrens geräuschreduzierte Wert gilt
in dem neuronalen Netz N nun als eintrainiert und ein Knoten wird
zu der Netztopologie hinzugefügt.
Im folgenden Teil wird anhand von Fig. 2 das neuronale Netz für
die neuronale Geräuschreduktion näher erläutert.
Für die neuronale Geräuschreduktion steht nach der
Vorverarbeitungseinrichtung VV die geräuschbehaftete Sprache in
Form von geräuschbehafteten Vektoren zur Verfügung. Hierbei wird
unterschieden zwischen geräuschbehafteten Vektoren Y die zur Zeit
der neuronalen Geräuschreduktion am neuronalen Netz N anliegen,
welche mit durchgezogenen Linien gekennzeichnet sind, und zwischen
geräuschbehafteten Vektoren X die zu einen vorherigen Zeitpunkt an
dem neuronalen Netz angelegen haben. Diese Vektoren X sind durch
eine gebrochene Linie gekennzeichnet.
Von den derzeitig anliegenden geräuschbehafteten Vektoren Y können
z. B. Ableitungen Y′, Y′′ gebildet werden.
Diese Ableitungen Y′ und Y′′ sind durch gepunktete Linie
gekennzeichnet. Um aus der geräuschbehafteten Vektoren Y mittels
der neuronalen Geräuschreduktion geräuschreduzierte Vektoren Q zu
erzeugen, stehen der derzeitige Vektor Y, dessen Ableitungen Y′, Y′′
und der alte Vektor X der neuronalen Geräuschreduktion zur Verfügen.
Um auf zukünftige neuronale Geräuschreduktion von
geräuschbehafteten Vektoren schließen zu können, werden alle
vorgenannten Informationen die aus der Geräuschreduktion gezogen
werden konnten verwendet, um auf zukünftige geräuschbehaftete
Vektoren Z zu schließen und die Geräuschreduktion zu vereinfachen.
Die zukünftige geräuschbehafteten Vektoren Z sind strich-punktiert
dargestellt. Mit der Vereinfachung der Geräuschreduktion ist eine
Vereinfachung der Spracherkennung von Sprache in geräuschbehafteter
Umgebung mit eingeschlossen.
Claims (8)
1. Verfahren zur Spracherkennung in geräuschbehafteter Umgebung
unter Verwendung eines neuronalen Netzes (N), wobei das neuronale
Netz (N) eine neuronale Geräuschreduktion durchführt, indem es in
einer Trainingsphase mittels eines iterativen Verfahrens einen
Abbildungsfehler zwischen geräuschfreien Vektoren an einem Ausgang
des neuronalen Netzes und geräuschreduzierten Vektoren an dem
Ausgang des neuronalen Netzes reduziert, und wobei durch
Zusatzinformationen, die aus einem geeigneten Signalrepräsentanten
der am Eingang des neuronalen Netzes (N) ausgewählt wird, der
Abbildungsfehler weiter reduziert wird.
2. Verfahren zur Spracherkennung nach Anspruch 1, bei dem als
Abbildungsfehler der quadratische Abbildungsfehler gebildet wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem der Abbildungsfehler
eine Gewichtung erhält, die von der Wichtigkeit der Vektoren für
die Spracherkennung abhängig ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei der eine
geeignete Topologie des neuronalen Netzes (N) durch Auswahl von
geeigneten Signalrepräsentanten festgelegt wird.
5. Neuronales Netz zur Geräuschreduktion für Spracherkennung in
geräuschbehafteter Umgebung mit einem Algorithmus zur automatischen
Netzgenerierung, bei dem der Algorithmus eine Auswahl eines
geeigneten Signalrepräsentanten automatisch ausführt.
6. Neuronales Netz nach Anspruch 5, welches sukzessive Knoten zu
einer Eingangsschicht des neuronalen Netzes hinzufügt, wobei ein
neuer Knoten trainiert wird, indem ein Abbildungsfehler berechnet
und minimiert wird.
7. Neuronales Netz nach Anspruch 5 oder 6, wobei als
Abbildungsfehler der quadratische Abbildungsfehler gebildet wird.
8. Neuronales Netz nach einem der Ansprüche 5 bis 71 bei dem der
Abbildungsfehler eine Gewichtung erhält, die von der Wichtigkeit
der Vektoren für die Spracherkennung abhängig ist.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4309985A DE4309985A1 (de) | 1993-03-29 | 1993-03-29 | Geräuschreduktion zur Spracherkennung |
EP94104462A EP0618566A1 (de) | 1993-03-29 | 1994-03-22 | Geräuschreduktion zur Spracherkennung |
FI941433A FI941433A (fi) | 1993-03-29 | 1994-03-28 | Häiriönalentaminen puheen erottamista varten |
JP6059464A JPH06324698A (ja) | 1993-03-29 | 1994-03-29 | スピーチ認識用の雑音減少方法 |
US08/219,219 US5583968A (en) | 1993-03-29 | 1994-03-29 | Noise reduction for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4309985A DE4309985A1 (de) | 1993-03-29 | 1993-03-29 | Geräuschreduktion zur Spracherkennung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4309985A1 true DE4309985A1 (de) | 1994-10-06 |
Family
ID=6484012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4309985A Withdrawn DE4309985A1 (de) | 1993-03-29 | 1993-03-29 | Geräuschreduktion zur Spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5583968A (de) |
EP (1) | EP0618566A1 (de) |
JP (1) | JPH06324698A (de) |
DE (1) | DE4309985A1 (de) |
FI (1) | FI941433A (de) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19948308A1 (de) * | 1999-10-06 | 2001-04-19 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE19963142A1 (de) * | 1999-12-24 | 2001-06-28 | Christoph Bueltemann | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems |
DE10124762A1 (de) * | 2001-05-21 | 2002-12-19 | Siemens Ag | Verfahren zum Training und Betrieb eines Spracherkenners und Spracherkenner mit Geräuschidentifikation |
DE202008016880U1 (de) | 2008-12-19 | 2009-03-12 | Hörfabric GmbH | Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit |
DE202010013508U1 (de) | 2010-09-22 | 2010-12-09 | Hörfabric GmbH | Software-definiertes Hörgerät |
DE102019219749A1 (de) * | 2019-12-16 | 2021-06-17 | Zf Friedrichshafen Ag | Beurteilen der Identifizierbarkeit eines Warnsignals in Mikrofondaten |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122614A1 (en) * | 1996-11-14 | 2004-06-24 | Lg Electronics, Inc. | Noise controller for controlling noise and method of removing noise |
US6178398B1 (en) * | 1997-11-18 | 2001-01-23 | Motorola, Inc. | Method, device and system for noise-tolerant language understanding |
US5904227A (en) * | 1997-12-30 | 1999-05-18 | Otis Elevator Company | Method for continuously adjusting the architecture of a neural network used in elevator dispatching |
US6411927B1 (en) | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
ES2172410B1 (es) * | 2000-07-11 | 2004-11-16 | Voice Consulting, S.L. | Sistema de respuesta y reconocimiento neuronal de voz. |
US6718316B1 (en) * | 2000-10-04 | 2004-04-06 | The United States Of America As Represented By The Secretary Of The Navy | Neural network noise anomaly recognition system and method |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US7003455B1 (en) | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
EP1244094A1 (de) * | 2001-03-20 | 2002-09-25 | Swissqual AG | Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7305122B2 (en) * | 2002-08-13 | 2007-12-04 | Lockheed Martin Corporation | Method and computer program product for identifying and correcting systematic noise in a pattern recognition system |
DE102005039621A1 (de) * | 2005-08-19 | 2007-03-01 | Micronas Gmbh | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System |
US8615393B2 (en) * | 2006-11-15 | 2013-12-24 | Microsoft Corporation | Noise suppressor for speech recognition |
US8306817B2 (en) * | 2008-01-08 | 2012-11-06 | Microsoft Corporation | Speech recognition with non-linear noise reduction on Mel-frequency cepstra |
US10257191B2 (en) | 2008-11-28 | 2019-04-09 | Nottingham Trent University | Biometric identity verification |
GB2465782B (en) * | 2008-11-28 | 2016-04-13 | Univ Nottingham Trent | Biometric identity verification |
US8438122B1 (en) | 2010-05-14 | 2013-05-07 | Google Inc. | Predictive analytic modeling platform |
US8473431B1 (en) | 2010-05-14 | 2013-06-25 | Google Inc. | Predictive analytic modeling platform |
US8533222B2 (en) * | 2011-01-26 | 2013-09-10 | Google Inc. | Updateable predictive analytical modeling |
US8595154B2 (en) | 2011-01-26 | 2013-11-26 | Google Inc. | Dynamic predictive modeling platform |
US8533224B2 (en) * | 2011-05-04 | 2013-09-10 | Google Inc. | Assessing accuracy of trained predictive models |
US8489632B1 (en) * | 2011-06-28 | 2013-07-16 | Google Inc. | Predictive model training management |
JP2014085609A (ja) * | 2012-10-26 | 2014-05-12 | Sony Corp | 信号処理装置および方法、並びに、プログラム |
US9767410B1 (en) | 2014-10-03 | 2017-09-19 | Google Inc. | Rank-constrained neural networks |
US10957342B2 (en) * | 2019-01-16 | 2021-03-23 | Cirrus Logic, Inc. | Noise cancellation |
US11741982B2 (en) | 2021-10-05 | 2023-08-29 | Dell Products L.P. | Contextual beamforming to improve signal-to-noise ratio sensitive audio input processing efficiency in noisy environments |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
GB8911461D0 (en) * | 1989-05-18 | 1989-07-05 | Smiths Industries Plc | Temperature adaptors |
US5278911A (en) * | 1989-05-18 | 1994-01-11 | Smiths Industries Public Limited Company | Speech recognition using a neural net |
JP2763398B2 (ja) * | 1990-11-20 | 1998-06-11 | キヤノン株式会社 | パターン認識装置 |
US5461699A (en) * | 1993-10-25 | 1995-10-24 | International Business Machines Corporation | Forecasting using a neural network and a statistical forecast |
-
1993
- 1993-03-29 DE DE4309985A patent/DE4309985A1/de not_active Withdrawn
-
1994
- 1994-03-22 EP EP94104462A patent/EP0618566A1/de not_active Ceased
- 1994-03-28 FI FI941433A patent/FI941433A/fi unknown
- 1994-03-29 US US08/219,219 patent/US5583968A/en not_active Expired - Fee Related
- 1994-03-29 JP JP6059464A patent/JPH06324698A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19948308A1 (de) * | 1999-10-06 | 2001-04-19 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE19963142A1 (de) * | 1999-12-24 | 2001-06-28 | Christoph Bueltemann | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems |
DE10124762A1 (de) * | 2001-05-21 | 2002-12-19 | Siemens Ag | Verfahren zum Training und Betrieb eines Spracherkenners und Spracherkenner mit Geräuschidentifikation |
DE10124762B4 (de) * | 2001-05-21 | 2004-07-15 | Siemens Ag | Verfahren zum Training und Betrieb eines Spracherkenners und Spracherkenner mit Geräuschidentifikation |
DE202008016880U1 (de) | 2008-12-19 | 2009-03-12 | Hörfabric GmbH | Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit |
DE202010013508U1 (de) | 2010-09-22 | 2010-12-09 | Hörfabric GmbH | Software-definiertes Hörgerät |
DE102019219749A1 (de) * | 2019-12-16 | 2021-06-17 | Zf Friedrichshafen Ag | Beurteilen der Identifizierbarkeit eines Warnsignals in Mikrofondaten |
Also Published As
Publication number | Publication date |
---|---|
US5583968A (en) | 1996-12-10 |
FI941433A0 (fi) | 1994-03-28 |
JPH06324698A (ja) | 1994-11-25 |
EP0618566A1 (de) | 1994-10-05 |
FI941433A (fi) | 1994-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4309985A1 (de) | Geräuschreduktion zur Spracherkennung | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
DE112017001830B4 (de) | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60302407T2 (de) | Umgebungs- und sprecheradaptierte Spracherkennung | |
DE69619284T3 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
EP0987683B1 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung | |
DE69830017T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
EP1168305A2 (de) | Verfahren zur mehrkanaligen Merkmalextraktion für die Spracherkennung | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE3938645C1 (de) | ||
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE4328752A1 (de) | Spracherkennungssystem | |
EP1193689A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
EP4000010A1 (de) | Vorrichtung und computerimplementiertes verfahren für die verarbeitung digitaler sensordaten und trainingsverfahren dafür | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE69820497T2 (de) | Neuronales netzwerk und seine anwendung für die spracherkennung | |
WO2022013045A1 (de) | Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente | |
EP0658878B1 (de) | System zum Übertragen eines Sprachsignals | |
DE60021666T2 (de) | Inkrementales Trainieren eines Spracherkenners für eine neue Sprache | |
DE112017007051B4 (de) | Signalverarbeitungsvorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |