DE69916321T2 - Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen - Google Patents

Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen Download PDF

Info

Publication number
DE69916321T2
DE69916321T2 DE69916321T DE69916321T DE69916321T2 DE 69916321 T2 DE69916321 T2 DE 69916321T2 DE 69916321 T DE69916321 T DE 69916321T DE 69916321 T DE69916321 T DE 69916321T DE 69916321 T2 DE69916321 T2 DE 69916321T2
Authority
DE
Germany
Prior art keywords
signal
information
generating
coded
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69916321T
Other languages
English (en)
Other versions
DE69916321D1 (de
Inventor
Roar Hagen
Bastiaan Kleijn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of DE69916321D1 publication Critical patent/DE69916321D1/de
Publication of DE69916321T2 publication Critical patent/DE69916321T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Description

  • GEBIET DER ERFINDUNG
  • Die vorlegende Erfindung betrifft allgemein ein Codieren von Signalen in Kommunikationssystemen und insbesondere ein Merkmal zur Verbesserung codierter Kommunikationssignale.
  • HINTERGRUND DER ERFINDUNG
  • Hochqualitatives Codieren akustischer Signale bei niedrigen Bitraten ist von höchster Wichtigkeit bei Kommunikationssystemen, wie beispielsweise Mobiltelefonie, sicherer Telefonie und Sprachspeicherung. In vergangenen Jahren gab es einen starken Trend im Mobiltelefonbereich in Richtung einer verbesserten Qualität des rekonstruierten akustischen Signals und in Richtung einer erhöhten Flexibilität der für eine Übertragung erforderlichen Bitrate. Der Trend in Richtung verbesserter Qualität reflektiert auf der einen Seite die Kundenerwartungen, dass eine Mobiltelefonie eine Qualität bereitstellt, die gleich der des normalen Telefonnetzes ist. Insbesondere ist in dieser Hinsicht die Leistung bei Hintergrundsignalen und Musik wichtig. Der Trend in Richtung einer Flexibilität einer Bitrate reflektiert auf der anderen Seite den Wunsch der Dienstanbieter, nahe an der Netzkapazität zu operieren, ohne das Risiko, dass Rufe abgebrochen werden müssen, und möglicherweise um unterschiedliche Dienstniveaus mit unterschiedlichen Kosten bereitzustellen. Die Möglichkeit eines Entfernens von Bits von einem existierenden Bitstrom, während die Fähigkeit zur Rekonstruktion des Sprachsignals aufrecht erhalten wird (wenn auch mit einer geringeren Genauigkeit), ist eine besonders nützliche Art einer Bitratenflexibilität.
  • Bei einer existierenden Sprachcodierungstechnologie ist es schwierig, die gleichzeitige Herausforderung verbesserter akustischer Signalqualität und verbesserter Flexibilität bei der Bitrate zu erfüllen. Diese Schwierigkeit ergibt sich direkt aus der Struktur des Paradigma mit auf Linearvorhersage basierter Analyse-mit-Synthese (LPAS, linear-prediction based analysis-by-synthesis), was allgemein im Mobiltelefonbereich verwendet wird. Gegenwärtig arbeiten LPAS-Codierer besser beim Codieren von Sprache bei Raten zwischen 5 und 20 kb/s als andere Technologien. Demzufolge bildet das LPAS-Paradigma die Basis fast jedes digitalen Telefonstandards, einschließlich GSM, D-AMPS und PDC. Während jedoch die Leistungseigenschaft bei Sprache gut ist, arbeiten LPAS-basierte Sprachcodierer nicht so gut bei Musik und Hintergrundrauschsignalen. Darüber hinaus implizierte bis jetzt die Fähigkeit zur Entfernung von Bits von einem existierenden Bitstrom die Verwendung eines Algorithmus mit relativ geringer Effizienz.
  • Das LPAS-Codierungsparadigma ist bei Nichtsprach-Geräuschen nicht so gut, da es für die Beschreibung von Sprache optimiert ist. Dabei wird die Form des Kurzzeitleistungsspektrums beschrieben als die Multiplikation einer spektralen Hüllkurve, beschrieben durch ein Allpolmodell (mit fast immer 10 Polen), mit der sogenannten spektralen Feinstruktur, welches eine Kombination von zwei Komponenten ist, die harmonischen beziehungsweise rauschartigen Charakter aufweisen. In der Praxis ist festzustellen, dass dieses Modell für viele Musik- und Hintergrundrauschsignale nicht ausreichend ist. Die Modellunzulänglichkeiten manifestieren sich in für die Wahrnehmung ungeeigneten Beschreibungen der spektralen Täler (Nullen), Spitzen, die nicht Teil der harmonischen Struktur in einem anderweitig periodischen Signal sind, und einem sogenannten "Swirling" Effekt beziehungsweise Schwankungseffekt bei stetigen Hintergrundrauschsignalen, möglicherweise bewirkt durch die Zeitvariation des Parameterschätzfehlers.
  • Die zwei existierenden Hauptansätze zur Entwicklung von LPAS-Algorithmen mit erhöhter Flexibilität bei der Bitrate haben signifikante Nachteile. Beim ersten Ansatz kombiniert man einfach eine Anzahl von Codierern, die mit unterschiedlichen Bitraten arbeiten, und wählt einen Codierer für ein bestimmtes Codierzeitsegment aus (Beispiele dieses ersten Ansatzes sind die TIA IS-95 und der neuere IS-127 Standard). Diese Arten von Codierern werden als "Multiraten" Codierer bezeichnet. Der Nachteil dieses Verfahrens ist es, dass die Signalrekonstruktion die Ankunft des gesamten Bitstroms des ausgewählten Codierers am Empfänger erfordert. Somit kann der Bitstrom nicht verändert werden, nachdem er den Transmitter verlassen hat.
  • Beim zweiten Ansatz, den eingebetteten Codieren, erzeugt der Codierer einen Kompositbitstrom, der aus zwei oder mehreren getrennten Bitströmen besteht: ein primärer Bitstrom enthält eine grundlegende Beschreibung des Signals, und einer oder mehrere zusätzliche Bitströme enthalten Informationsverbesserung der grundlegenden Signalbeschreibung. Bei der LPAS-Einstellung wird dieser zweite Ansatz implementiert durch eine Zerlegung des Anregungssignals des LPAS-Codierers in eine primäre Anregung und eine oder mehrere zusätzliche Anregungen, die die Anregung verbessern. Um jedoch die Synchronität zwischen dem Codierer und Decoder (fundamental für das LPAS-Paradigma) bei allen Raten aufrechtzuerhalten, kann der Langzeitprädiktor (vorhanden in nahezu allen LPAS-Paradigmen) nur mit der primären Anregung arbeiten. Da der Langzeitprädiktor den höchst signifikanten Teil des Codierungsgewinns im LPAS-Paradigma bereitstellt, beschränkt dies den Vorteil der zusätzlichen Anregungen sehr stark. Somit liefern diese eingebetteten LPAS-Codierungsalgorithmen eine erhöhte Bitratenflexibilität auf Kosten einer signifikant beschränkten Codierungseffizienz.
  • Für Codierer mit festen Bitraten zwischen 5 und 20 kb/s überwiegt das wohlbekannte LPAS-Paradigma. Überblicke dieses Codierungs-Paradigma sind beispielsweise P. Kroon und Ed. F. Deprettere, "A class of analysis-by-synthesis predictive coders for high quality speech coding at rates between 4,8 und 16 kbit/s", IEEE J. Selected Areas Comm., 6: 353–363, 1999; A. Gersho "Advances in speech and audio compression", Proceedings IEEE, 82: 900–918, 1994; und P. Kroon und W. B. Kleijn "Linear-prediction based analysis-by-synthesis coding", In W. B. Kleijn und K. K. Paliwal, Editors, Speech Coding and Synthesis, Seiten 79–119. Elsevier Science Publishers, Amsterdam, 1995.
  • Beim LPAS-Paradigma wird das Sprachsignal durch Anregen eines adaptiven Synthesefilters mit einem Anregesignal rekonstruiert. Der adaptive Synthesefilter, der eine Allpolstruktur aufweist, wird durch sogenannte Linearvorhersage-(LP, linear prediction)Koeffizienten bestimmt, die für einen Subrahmen adaptiert sind (ein Subrahmen ist typischer Weise 2 bis 5 ms). Die LP-Koeffizienten werden aus dem ursprünglichen Signal einmal pro Rahmen (10 bis 25 ms) geschätzt, und deren Wert für jeden Subrahmen wird durch Interpolation berechnet. Information über die LP-Koeffizienten wird normaler Weise einmal pro Rahmen übertragen. Die Anregung ist die Summe von zwei Komponenten: dem adaptiven Codebuch (für den vorliegenden Zweck identisch dem Langzeitprädiktor) Beitrag, und dem festen Codebuch Beitrag.
  • Der adaptive Codebuchbeitrag wird bestimmt, indem aus dem vorliegenden Subrahmen das Segment der letzten Anregung ausgewählt wird, das nach einem Filtern mit dem Synthesefilter ein rekonstruiertes Signal ergibt, das dem ursprünglichen akustischen Signal am ähnlichsten ist. Der feste Codebuchbeitrag ist der Eintrag aus einem Codebuch mit Anregungsvektoren, welcher, mit dem gegebenen adaptiven Codebuchbeitrag, das erhaltene rekonstruierte Signal dem ursprünglichen Signal am ähnlichsten macht. Zusätzlich zu dem obigen Prozess werden der adaptive und der feste Codebuchbeitrag durch einen quantisierten Skalierungsfaktor skaliert.
  • Die obige Beschreibung des LPAS-Paradigma ist anwendbar auf fast alle Codierer des Standes der Technik. Beispiele solcher Codierer sind der 8 kb/s ITU G.729 (siehe R. Salami, C. Laflamme, J.-P. Adoul und D. Massaloux "A toll quality 8 kb/s speech codec for the personal communications system (PCS)", IEEE Trans. Vehic. Techn., 43(3): 808–816, 1994; und R. Salami et al., "Description of the proposed ITU-T 8 kb/s speech coding standard", Proc. IEEE Speech Coding Workshop, pages 3–4, Annapolis, MD, 1995) and the GSM enhanced full-rate (GSMEFR) 12,2 kb/s coder (siehe European Telecommun. Standard Institute (ETSI), "Enhanced Full Rate (EFR) speech transcoding (GSM 06.60)", ETSI Technical Standard 300 726, 1996). Beide diese Codierer arbeiten gut bei Sprachsignalen. Für Musiksignale enthalten beide Codierer jedoch klar hörbare Artefakte, verstärkt beim Codierer mit niedriger Rate. Für jeden diesen Codierer muss der gesamte Bitstrom durch den Empfänger erfasst werden, um eine Rekonstruktion zu ermöglichen.
  • Der 16 kb/s ITU G.728 Codierer unterscheidet sich von der obigen Erläuterung des Paradigma darin, dass die LP-Parameter von dem vergangenen rekonstruierten Signal berechnet werden, und somit nicht übermittelt werden müssen. Dieses wird allgemein als Rückwärts-LP-Adaption beschrieben. Nur ein festes Codebuch wird verwendet. Im Gegensatz zu anderen Codierern (die eine lineare Vorhersageordnung von 10 verwenden), wird eine lineare Vorhersageordnung von 50 verwendet. Diese hohe Vorhersageordnung erlaubt eine bessere Leistungseigenscahft für Nichtsprachklänge im Vergleich zum G.729 und GSMEFR Codierer. Da jedoch aufgrund der Rückwärtsadaptivstruktur der Codierer hinsichtlich Kanalfehlern empfindlicher ist als der G.729 und GSMEFR-Codierer, ist dieser für Mobiltelefonieumgebungen weniger attraktiv. Darüber hinaus muss der gesamte Bitstrom durch den G.728 Empfänger erlangt werden, um eine Rekonstruktion zu ermöglichen.
  • Der IS-127 der TIA ist ein Mehrfachraten-Codierstandard, der auf Mobiltelefonie ausgerichtet ist. Während dieser Standard eine erhöhte Bitratenflexibilität aufweist, erlaubt er nicht, dass der Bitstrom zwischen dem Transmitter und Empfänger modifiziert wird. Somit muss die Entscheidung hinsichtlich der Bitrate im Transmitter vorgenommen werden. Das Codierungs-Paradigma unterscheidet sich etwas von dem oben ausgeführten Paradigma, (siehe z. B. D. Nahumi und W. B. Kleijn "An improved 8 kb/sRCELP coder", Proc. IEEE Speech Coding Workshop, Seiten 39–40, Annapolis, MD, 1995; und W. B. Kleijn, P. Kroon und D. Nahumi "The RCELP speech coding algorithm", European Trans. on Telecomm., 4(5): 573–582, 1994) jedoch beeinflussen diese Unterschiede die Nichtsprachklänge nicht signifikant.
  • Aufgrund der vorhergehend genannten Leistungsbeschränkungen bei vorliegenden Ansätzen gibt es nur sehr wenige praktische Codiererdesigns, die es erlauben, dass der Bitstrom zwischen Transmitter und Empfänger modifiziert wird. Einige Beispiele dieser Ansätze sind zu finden in: R. Drogo de Iacovo und D. Sereno "CELP coding at 6.55 kbit/s for digital mobile radio communications", Proc. IEEE Global Telecomm. Conf., Seite 405.6, S. Zhang und G. Lockhart "Embedded scheme for regular pulse excited (RPE) linear predictive coding", Proc. IEEE Interrogatory. Conf. Acoust. Speech Sign. Process., Seiten 37–40, Detroit, 1995; A. Le Guyader, C. Lamblin und E. Boursicaut, "Embedded algebraic CELP/VSELP coders for wideband speech coding", Speech Comm., 16(4): 219–328, 1995; und B. Tang, A. Shen, A. Alwan und G. Pottie "A perceptually- based embedded subband speech coder", IEEE Trans. Speech and Audio Process., 5(2): 131–140, 1997. Bei allen diesen Beispielen ist die Codierungseffizienz im Vergleich zu Fixraten-Codierern gering, weil entweder das adaptive Codebuch vollständig ausgelassen wird, oder weil das adaptive Codebuch nur mit dem primären Anregungssignal arbeitet. Die relativ geringe Leistung von LPAS-Codierern bei Verwendung dieses Ansatzes ist durch die Verwendung eines Subbandcodierers veranschaulicht, in kürzlich erschienener Arbeit bezüglich eingebetteter Codierung (siehe B. Tang, A. Shen, A. Alwan und G. Pottie "A perceptually-based embedded subband speech coder", IEEE Trans. Speech and Audio Process., 5(2): 131–140, 1997). Während Subbandcodierer bei einer festen Rate nicht gut arbeiten, ist ihre Leistung scheinbar konkurrenzfähig, wenn eingebettete Codierungssysteme verwendet werden.
  • Bei Raten über 16 kb/s sind akustische Signalcodierer eher auf eine Decodierung von Musik ausgerichtet. Im Gegensatz zu den vorhergehend genannten LPAS basierten Codierern verwenden diese höherratigen Codierer allgemein höhere Abtastraten als 8 kb/s. Viele dieser Codierer basieren auf den wohlbekannten Subband- und Transformationscodierungsprinzipien. Ein Beispiel eines hybriden Multiraten (16, 24, 24 und 34 kb/s) Codierers des Standes der Technik, der sowohl eine lineare Vorhersage und Transformationscodierung verwendet, ist in J.-H. Chen dargestellt: "A candidate coder for the ITU-T's new wideband speech coding standard", Proc. Interrogatory. Conf. Acoust. Speech Sign. Process., Seiten 1359–1362, Atlanta, 1997. Beispiele für Ratentransformations- und Subbandcodierungsverfahren sind zu finden in: K. Gosse, F. Moreau de Saint-Martin, X. Durot, P. Duhamel, und J. B. Rault "Subband audio coding with synthesis filters minimizing a perceptual distortion", Proc. IEEE Inter. Conf. Acoust. Speech Sign. Process., Seiten 347–350, Munich, 1997; M. Purat und P. Noll "Audio coding with dynamic wavelet packet decomposition based on frequency-varying modulated lapped transforms", Proc. IEEE Interrogatory. Conf. Acoust. Speech Sign. Process., Seiten 1021–1024, Atlanta, 1996, J. Princen und J. Johnston "Audio coding using signal adaptive filterbanks", Proc. IEEE Interogatory. Conf. Acoust. Speech Sign. Process., Seiten 3071–3074, Detroit, 1995; und N. S. Jayant, J. Johnston und R. Safranek "Signal compression based on models of human perception", Proc. IEEE, 81(10): 1385–1421, 1993. Insbesondere bei Raten jenseits 30 kb/s arbeiten diese Codierungsprozeduren gut bei Musik und dieses kann auch für Hintergrundrauschen angenommen werden. Bei niedrigeren Raten leiden die Codierer entweder an tonalem oder Breitbandrauschen. Leider sind die höheren Bitraten zu hoch für die meisten Mobiltelefonieanwendungen.
  • Bei den Raten, die allgemein für Mobiltelefonie verwendet werden (8–16 kb/s), verschlechtert sich die Leistungseigenschaft des Transformations- und Subbandcodierungsalgorithmus unterhalb dessen, was mittels LPAS-basierter Codierung erzielt werden kann. Aufgrund des Mangels einer Langzeit-Rückkopplung sind diese höherratigen Algorithmen geeigneter für ein eingebettetes Codieren mit konventionellen Verfahren wie dem LPAS-Codierungsparadigma, wie durch die Prozeduren veranschaulicht, die dargestellt sind in B. Tang, A. Shen, A. Alwan und G. Pottie "A perceptually-based embedded subband speech coder", IEEE Trans. Speech and Audio Process., 5(2): 131–140, 1997.
  • Die vorgehende Diskussion veranschaulicht zwei Probleme. Das erste ist die relativ geringe Leistung von Sprachcodierern, die bei Raten unterhalb 16 kb/s arbeiten, insbesondere für Nichtsprachklänge, wie beispielsweise Musik. Das zweite Problem ist die Schwierigkeit eines Aufbaus eines effizienten Codierers (bei Raten, die für Mobiltelefonie anwendbar sind), welche ein Vermindern der Bitrate zwischen Transmitter und Empfänger erlaubt.
  • Das erste Problem ergibt sich aus den Beschränkungen des LPAS-Paradigma. Das LPAS-Paradigma ist für Sprachsignale ausgelegt und in seiner gegenwärtigen Form arbeitet es bei anderen Signalen nicht gut. Während der ITU G.728 Codierer für solche Nichtsprachsignale besser arbeitet (aufgrund der Verwendung einer Rückwärts-LP-Adaptierung), ist er empfindlicher bei Kanalfehlern, was ihn für Mobiltelefonieanwendungen weniger attraktiv macht. Höherratige Codierer (Subband- und Transformationscodierer) leiden nicht an den vorhergehend genannten Qualitätsproblemen für nichtsprachliche Klänge, jedoch sind deren Bitraten für Mobiltelefonie zu hoch.
  • Das zweite Problem ergibt sich aus dem bisher verwendeten Ansatz zur Erzeugung von einem primären und zusätzlichen Bitstrom bei einer LPAS-Codierung. Bei diesem bekannten Ansatz wird das Anregungssignal in eine primäre und eine zusätzliche Anregung aufgetrennt. Unter Verwendung dieses Ansatzes verliert der Langzeit-Rückkopplungsmechanismus im LPAS-Codierer an Effizienz im Vergleich zu nicht eingebetteten Codierungssystemen. Als eine Folge wird eine eingebettete Codierung selten bei LPAS-Codierungssystemen verwendet.
  • Die Merkmale der vorliegenden Erfindung, wie sie durch die angefügten unabhängigen Ansprüche definiert ist, liefert eine Schätzung von Verbesserungsinformation wie beispielsweise eines adaptiven Ausgleichsoperators, der ein akustisches Signal (das codiert und rekonstruiert wurde mit einem primären Codierungsalgorithmus) dem ursprünglichen Signal ähnlicher macht. Der Ausgleichsoperator modifiziert das Signal mittels einer linearen oder nicht-linearen Filterungsoperation, oder einer blockweisen Annäherung derselben. Die Erfindung stellt weiter ein Codieren des adaptiven Ausgleichsoperators bereit, während einiges an Codierungsfehler erlaubt wird, mittels eines Bitstroms, der vom Bitstrom des primären Codierungsalgorithmus getrennt werden kann. Die Erfindung liefert weiter die Decodierung des adaptiven Ausgleichsoperators durch den Systemempfänger, und die Anwendung, am Empfänger, des decodierten adaptiven Ausgleichsoperators auf das akustische Signal, das mit einem primären Codierungsalgorithmus codiert und rekonstruiert wurde.
  • Der adaptive Ausgleichsoperator unterscheidet sich von Nachfiltern (siehe V. Ramamoorthy und N. S. Jayant "Enhancement of ADPCM speech by adaptive postfiltering", AT&T Bell Labs. Techn. J., Seiten 1465–1475, 1984; und J.-H. Chen und A. Gersho "Adaptive postfiltering for quality enhancement of coded speech", IEEE Trans. Speech Audio Process., 3(1): 59–71, 1995) darin, dass ein Kriterium optimiert wird und darin, dass Information bezüglich des Operators übertragen wird. Der adaptive Ausgleichsoperator unterscheidet sich von den Verbesserungsverfahren, die bei konventioneller eingebetteter Codierung verwendet werden, darin, dass der Ausgleichsoperator keine Korrektur zum Signal hinzuaddiert. Statt dessen wird der Ausgleichsoperator typischerweise durch Filtern mit einem adaptiven Filter implementiert, oder durch Multiplizieren von Kurzzeitsprektren mit einer Übertragungsfunktion. Somit weist die Korrektur des Signals eher eine multiplikative Natur als eine additive Natur auf.
  • Die Erfindung erlaubt die Korrektur einer Verzerrung, die sich aus dem primären Codierung/Decodierungsprozess ergibt, für Primärcodierer, die darauf ausgerichtet sind, die Signalwellenform zu modellieren. Die Struktur des adaptiven Ausgleichsoperators wird allgemein für eine Behandlung von Nachteilen der Primärcodiererstruktur gewählt (beispielsweise die Ungeeignetheiten bei einer Modellierung von nichtsprachlichen Klängen durch LPAS-Codierer). Dieses behandelt das erste oben erwähnte Problem.
  • Die Erfindung erlaubt eine verbesserte Flexibilität der Bitrate. In einem Ausführungsbeispiel ist nur der Bitstrom in Verbindung mit dem Primärcodierer für eine Rekonstruktion des Signals erforderlich. Der zusätzliche Bitstrom in Verbindung mit dem adaptiven Ausgleichsoperator kann irgendwo zwischen dem Transmitter und Empfänger weggelassen werden. Das rekonstruierte Signal wird verbessert, weil immer der zusätzliche Bitstrom den Decoder erreicht. In einem anderen Ausführungsbeispiel ist der Bitstrom in Verbindung mit dem adaptiven Ausgleichsoperator am Empfänger erforderlich und kann daher nicht weggelassen werden.
  • Das US Patent mit der Nummer 5 206 884 scheint in Verbindung zu stehen mit einem Verfahren bei prädiktiven Sprachcodierern für ein Quantisieren eines Residualsignals, das sich ergibt, nachdem lineare Prädiktionsverfahren verwendet wurden um Redundanzen von einem Eingangssignal zu entfernen. Das Quantisierungsverfahren beinhaltet eine Transformation des Restsignals in den Frequenzbereich und eine Quantisierung der Frequenzbereichskoeffizienten. Die Anzahl von Bits, die für eine Quantisierung eines jeden Frequenzbereichskoeffizienten verwendet werden, wird durch eine Schätzung der Leistung des Eingangssignals bei dieser Frequenz bestimmt. Unter Bezugnahme auf 3 wird das Restsignal r[i] durch einen Frequenzbereichs-Koeffizientenkalkulator 91 und eine Quantisierungsschaltung 93 quantisiert. Das quantisierte Restsignal wird dann über den Übertragungskanal zusammen mit Langzeit- und Kurzzeit-Prädiktionsparametern, jeweilig bei 9 und 3 erzeugt, übertragen. Wie im Decoder von 4 gezeigt, werden die quantisierten Transformationskoeffizienten invers in eine Zeitbereichssequenz transformiert (r'[i], mittels einer Schaltung 96, die einen Betrieb durchführt, der invers zum Betrieb ist, der durch den vorhergehend genannten Frequenzbereichs-Koeffizientenkalkulator durchgeführt wird. Die Zeitbereichssequenz (r'[i]), ausgegeben von der Schaltung 96, wird dann an Synthesefilter bei 25 und 28 angelegt, um eine rekonstruierte Version des Eingangssignals von 3 zu erlangen.
  • Der Chen-Beitrag mit dem Titel "A candidate coder for the ITU-T's new wideband speech coding standard" scheint in Bezug zu stehen mit einem Codierer für eine Breitbandsprachcodierung bei multiplen Raten mit einer hohen Sprachqualität und geringen Codiererkomplexität. Eine Closed-Loop Pitch Prediction wird mit einer wahrgenommenermaßen gewichteten Sprache durchgeführt, und dann wird das Vorhersageresiduum quantisiert unter Verwendung von auf Wahrnehmung basierenden Transformations-Codierungsverfahren. In 1 und 3 gezeigten Decoder verwenden eine Transformationsvorhersagecodierung (TPC, Transform Predictive Coding) Technik, um Information IC, IG, IT, IP und IL zu erzeugen, aus der die Decoder von 2 bzw. 4 ein Residualsignal dt rekonstruieren. Im Codierer von 1 empfängt ein Pitch Predictor das vorhergehend quantisierte Residualsignal dt, und verwendet ein Codebuchsuchkriterium mit geschlossener Schleife solcherart, dass dann, wenn das vorhergehend quantisierte Residualsignal dt durch einen Pitch-Synthesefilter gefiltert wird und dann durch einen Formungsfilter mit null Speicher, der Pitch Predictor Ausgangsvektor am nächsten am Zielvektor für die Pitchvorhersage, tp, liegt. Der Pitchvorhersage-Ausgangsvektor hd entsprechend dem besten Satz von Pitchabgriffen wird von dem Zielvektor für Pitchvorhersage tp abgezogen, und das sich ergebende Pitchvorhersageresiduum ist der Zielvektor für eine Transformationscodierung aus geschlossener Schleife. In den Decodern von 2 und 4 haben kooperieren ein Langzeitnachfilter, ein LPC-Synthesefilter, und ein Kurzeitnachfilter, um aus dem rekonstruierten Residualsignal dt Sprache zu synthetisieren.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 veranschaulicht einen Abschnitt eines konventionellen Sprachcodierungssystems.
  • 2 veranschaulicht diagrammartig eine Verbesserungsfunktion in Übereinstimmung mit der vorliegenden Erfindung.
  • 3 veranschaulicht diagrammartig ein LPAS Sprachcodierungssystem einschließlich eines Beispiels der Verbesserungsfunktion von 2.
  • 3A veranschaulicht ein Merkmal der 3 detaillierter.
  • 3B veranschaulicht ein Merkmal von 3 detaillierter.
  • 4 zeigt eine Veranschaulichung eines Fourier-Transformationsbereichs der Verbesserungsfunktion von 2.
  • 5 veranschaulicht ein Ausführungsbeispiel des Ausgleichsoperationsschätzers von 3.
  • 6 veranschaulicht den Ausgleichscodierer von 3 detaillierter.
  • 7 veranschaulicht den funktionalen Betrieb des Codierers von 6.
  • 8 veranschaulicht ein Ausführungsbeispiel des Ausgleichsoperators von 3.
  • 9 veranschaulicht eine Multistufenimplementierung der Übertragungsfunktion von 4.
  • 10 veranschaulicht den Betrieb des Codierers von 6, wenn die Mehrfachstufen-Übertragungsfunktion von 9 implementiert wird.
  • 11 veranschaulicht eine Modifikation des Ausgleichsoperators von 8, um die Mehrfachstufen-Übertragungsfunktion von 9 zu verwenden.
  • 12 veranschaulicht einen Code-Excited Linear Prediction (CELP) Codierer (Codeanregungs-Linearvorhersagecodierer) in Übereinstimmung mit vorliegenden Erfindung einschließlich des Ausgleichsschätzers der 3 und 5.
  • 12A veranschaulicht eine alternative Ausführungsform des Codierers von 12.
  • 13 veranschaulicht einen CELP Decoder in Übereinstimmung mit der vorliegenden Erfindung einschließlich des Ausgleichsoperators der 3, 8 und 11.
  • DETAILLIERTE BESCHREIBUNG
  • Beispiel 1 zeigt ein allgemeines Blockdiagramm eines herkömmlichen Kommunikationssystems. In 1 wird das Eingangssignal im Transmitter einem Codierungsprozess bei 11 unterzogen. Eine codierte Informationsausgabe von dem Transmitter wird über einen Kommunikationskanal 12 zum Empfänger geführt, der bei 13 versucht, aus der codierten Information ein rekonstruiertes Signal zu erzeugen, das dass Eingangssignal repräsentiert. Wie oben diskutiert, arbeiten jedoch viele herkömmliche Systeme, wie beispielsweise in 1 gezeigt, beispielsweise Sprachcodierungssysteme, die auf Mobiltelephonie angewendet werden, nicht unter allen Bedingungen gut. Wenn beispielsweise Nicht-Sprachsignale in einem LPAS-Systems verarbeitet werden, stellt das rekonstruierte Signal oft keine akzeptable Darstellung des Eingangssignals dar.
  • Die vorliegende Erfindung liefert in einer Beispielfigur 2 eine Verbesserungsfunktion (Verbesserer 21), die auf das rekonstruierte Signal von 1 angewendet wird, um ein verbessertes rekonstruiertes Signal zu erzeugen, wie in 2 gezeigt. Die verbesserte rekonstruierte Signalausgabe vom Verbesserer von 2 wird typischerweise eine bessere Repräsentation des Eingangssignals bereitstellen, als dies das rekonstruierte Signal von 1 tun wird.
  • 3 veranschaulicht ein Beispiel, wie die Verbesserungsfunktion von 2 als eine codierte Ausgleichsoperation implementiert werden kann. In 3 entspricht das Signal bei 133 dem rekonstruierten Signal von 1 und 2, der Ausgleichsoperator (oder Ausgleicher) 39 entspricht dem Verbesserer von 2, und das Signal bei 135 entspricht dem verbesserten rekonstruierten Signal von 2. Das Übertragungsmedium 31 von 3 entspricht dem Kanal 12 von 1.
  • Ein Ausgleichsschätzer 33 und ein Ausgleichscodierer 35 sind im Transmitter bereitgestellt, und ein Ausgleichsdecoder 37 und der Ausgleichsoperator 39 sind im Empfänger bereitgestellt. Ein primäres codiertes Signal 121 wird bei 32 durch den herkömmlichen Primär-Codierungsprozess des Transmitters erzeugt. Das primäre codierte Signal ist eine codierte Darstellung des Eingangssignals. Der Primärcodierer bei 32 gibt auch das Zielsignal 30 aus. Das primäre codierte Signal 121 soll soweit wie möglich das Zielsignal 30 annähern. Das primäre codierte Signal 121 und das Zielsignal 30 werden in den Ausgleichsschätzer 33 eingegeben. Die Ausgabe des Schätzers 33 wird dann an den Codierer 35 angelegt.
  • Ein Bitstrom 38, ausgegeben vom Primärcodierer 32 enthält Information, die der Wiederherstellungsprozess des Empfängers bei 13 verwenden wird, um das primäre codierte Signal bei 133 zu rekonstruieren. Ein von dem Codierer 35 ausgegebener Bitstrom 36 kann mit dem Bitstrom 38 mittels einer herkömmlichen Kombinierungsoperation (s. 3A) kombiniert werden, um einen Kompositbitstrom zu erzeugen, der durch das Übertragungsmedium 31 geführt wird. Der Kompositbitstrom wird am Empfänger empfangen und in seine Signalbestandteile mittels einer herkömmlichen Trennoperation (s. 3B) aufgeteilt. Der die Information zur Rekonstruktion des primären codierten Signals enthaltene Bitstrom wird in den Rekonstruierer 13 eingegeben, und der die Ausgleichsinformation enthaltene Bitstrom wird in den Decoder 37 eingegeben.
  • Die Bitströme 36 und 38 können auch getrennt über das Übertragungsmedium 31 übertragen werden, wie durch die unterbrochenen Linien in 3 gezeigt.
  • Die Aufgabe des Decoders 37 wird an den Ausgleichsoperator 39 zusammen mit dem rekonstruierten Signal 133 vom Rekonstruierer 13 angelegt. Der Ausgleichsoperator 39 gibt das verbesserte rekonstruierte Signal 135 aus.
  • Der Ausgleichsschätzer 33 bestimmt, was die Ausgleichsoperation tun muss, um ein verbessertes rekonstruiertes Signal 135 zu erzeugen, das dem Zielsignal 30 besser entspricht, als dies das rekonstruierte Signal 133 tut. Der Schätzer 33 gibt dann eine Ausgleichsschätzung aus, die ein relatives Ähnlichkeitsmaß zwischen dem Zielsignal 30 und dem verbesserten rekonstruierten Signal 135 maximieren wird. Die Ausgleichsschätzausgabe bei 34 vom Schätzer 33 wird bei 35 codiert, und die sich ergebende codierte Repräsentationsausgabe vom Codierer 35 wird über das Übertragungsmedium 31 geführt, und wird bei 37 decodiert. Die rekonstruierte Ausgleichsschätzausgabe vom Decoder 37 wird durch den Ausgleichsoperator 39 verwendet, um das rekonstruierte Signal 133 zu verbessern, was das verbesserte rekonstruierte Signal 135 ergibt.
  • Es wird angenommen, dass alle digitalen Signale in den Beispielen hierin mit einer 8000 Hz Abtastrate abzutasten sind. In einer beispielhaften Implementierung der Erfindung werden das Zielsignal und das primäre codierte Signal als eine Sequenz von Signalblöcken verarbeitet, wobei jeder Signalblock eine Vielzahl von Abtastwerten des zugeordneten Signals enthält. Die Blockgröße kann eine Rahmenlänge sein, eine Subrahmenlänge, oder eine beliebige erwünschte Länge dazwischen. Die Signalblöcke sind zeitsynchronisiert für das Ziel- und primäre codierte Signal, und entsprechende Blöcke des Ziel- und primären codierten Signals werden als "Blockbildungssignalpaare" bezeichnet. Die Signalblöcke werden so gewählt, dass eine genaue Rekonstruktion eines beliebigen Signals ermöglicht wird, durch einfaches Positionieren der entsprechenden Signalblöcke in zeitlicher Hinsicht von End-zu-End. Die oben beschriebenen Blockverarbeitungsverfahren sind im Stand der Technik wohlbekannt. Der Ausgleichsschätzer (s. 33 in 3), die Codierung und Decodierung der Schätzung (s. 35 und 37 in 3) und die Verbesserung (z. B. Ausgleichs-)Operation (s. 21 von 2 und 39 von 3) werden vorzugsweise getrennt für jedes Blockbildungssignalpaar durchgeführt.
  • Eine Blockverarbeitung, wie oben beschrieben, ist möglicherweise in einigen Anwendungen nicht geeignet, aufgrund nachteiliger Blockeffekte. In solchen Fällen können die Signale unter Verwendung konventioneller Fensterbildungsverfahren verarbeitet werden, beispielsweise mit dem wohlbekannten Hann-Fenster der Länge L (beispielsweise 256) Abtastwerte, mit einer Überlappung zwischen Fenstern von L/2 (in diesem Beispiel 128) Abtastwerten, um Blockbildungseffekte zu vermeiden.
  • Beispiel 4 veranschaulicht schematisch die Blockbildungssignale, nachdem sie in eine Frequenzbereichsdarstellung unter Verwendung der Fourier-Transformation transformiert wurden. B(n) bezeichnet das diskrete komplexe Spektrum des (diskreten und reellen) Zielsignals, und BR(n) bezeichnet das diskrete komplexe Spektrum des (diskreten und realen) rekonstruierten Signals. Die Ausgleichsoperation in diesem Beispiel ist die Multiplikation des rekonstruierten Signals BR(n) mit einem diskreten codierten Spektrum T(n). Somit ist das verbesserte rekonstruierte Signal BE(n) gegeben durch: BE(n) = T(n)BR(n) n = 0, ..., N – 1.
  • T(n) muss in sowohl dem realen als auch dem imaginären Teil symmetrisch sein, um sicherzustellen, dass BE(n) einem reellen Zeitbereichssignal entspricht. Für die gewöhnliche Situation, in der BR(n) für n = 0, ..., N – 1 nicht verschwindet, wird die optimale Repräsentation von T(n) (unter Bereitstellung einer exakten Rekonstruktion des ursprünglichen Signals B(n)) erlangt durch ein Setzen von BE(n) = B(n) in der obigen Gleichung, und Auslösen nach T(n): TOPT(n) = B(n)/BR(n) n = 0, ..., N – 1; BR(n) ≠ 0.
  • Das Ziel ist es, eine codierte Repräsentation von T(n) zu finden, die ein relevantes Ähnlichkeitsmaß zwischen BE(n) maximiert. Das Kriterium basiert vorteilhafterweise auf der menschlichen Wahrnehmung. Die Auswahl des Formats dieser codierten Repräsentation wird von dem speziellen Primärcodierer abhängen, der zur Erzeugung des primären codierten Signals verwendet wird.
  • Die Implementierungen von den hierin beschriebenen Ausgleichsoperatoren wurden zur Verwendung mit dem LPAS Codierungsparadigma als dem Primärcodierer entwickelt. Wahrnehmungsexperimente zeigen an, dass in diesem Fall eine Manipulation des Phasenspektrums von TOPT(n) die Ausgleichsleistung nicht signifikant beeinflusst. Somit wird nur das Betrags- bzw. Größenspektrum von TOPT(n) in den offenbarten Implementierungen verwendet.
  • Die inverte diskrete Fourier-Transformation des inversen Leistungsspektrums |TOPT(n)|–2 ergibt eine Autokorrelationssequenz, aus der Prädiktorkoeffizienten unter Verwendung herkömmlicher Verfahren, die dem Fachmann wohlbekannt sind, wie beispielsweise dem Levinson-Durbin Algorithmus, berechnet werden. Die Prädiktorkoeffizienten entsprechen einem Allpolfilter mit einer absoluten diskreten Übertragungsfunktion |H(n)|. Das inverse Leistungsspektrum |H(n)|–2 bildet dann eine Annäherung für |TOPT(n)|–2. Der Filter H(n) kann beispielsweise ein Filter zwanzigster Ordnung sein. Ein Vorteil einer Verwendung von |H(n)| zur Annäherung von |T(n)| ist am besten zu verstehen, indem erkannt wird, dass, wenn beispielsweise ein Block von 80 Abtastwerten für jedes Blockbildungssignal B(n) und BR(n) verwendet wird, dann |T(n)| durch 40 Werte definiert sein wird, wohingegen |H(n)| durch nur 20 Werte definiert sein wird (d. h. Prädiktorkoeffizienten) in Entsprechung zum Allpolfilter 20. Ordnung, dargestellt durch H(n).
  • Der Allpolfilter |H(n)|, der letztendlich aus dem inversen Leistungsspektrum |TOPT(n)|–2, oben ausgeführt, erhalten wird, ist zur Reproduktion spektraler Täler wirksam nutzbar, und somit arbeitet er gut, wenn ein Musiksignal codiert wird. Falls es ein Ziel ist, eine Hintergrundrausch-Leistungseigenschaft zu verbessern, sind die spektralen Spitzen wichtiger. In diesem Fall würde das Leistungsspektrum |TOPT(n)|2 dazu verwendet werden, die Autokorrelationssequenz zu bilden, und letztendlich, den erwünschten Allpolfilter.
  • 5 veranschaulicht ein Beispiel des Schätzers 33 von 3. Die Zielsignalblöcke und die primären Codiersignalblöcke werden paarweise bei 56 Fourier transformiert (andere geeignete Frequenzbereichtransformationen können auch verwendet werden), um die Signale B(n) und BR(n) zu erzeugen, die an eine Teilervorrichtung 50 einschließlich eines Teilers 51 und eines Vereinfachers 53 angelegt werden. B(n) wird durch BR(n) am Teiler 51 geteilt, um T(n) zu erzeugen, und die Phaseninformation wird durch den Vereinfacher 53 verworfen, so dass nur die Betragsinformation |T(n)| dem Codierer 35 bereitgestellt wird.
  • Der Codierer 35 empfängt |T(n)| und erzeugt |H(n)|. 6 zeigt ein Beispiel des Codierers 35 von 3. Das Codierer-Beispiel von 6 enthält einen Autokorrelationsfunktions (ACF)-Generator 61 mit |T(n)| als eine Eingabe, und dessen Ausgabe einem Koeffizientengenerator 67 zugeführt wird, dessen Ausgabe einem Frequenztransformator 63 zugeführt wird, dessen Ausgabe einem Quantisierer 65 zugeführt wird.
  • Beispielhafte Operationen des Codierers von 6 sind im Beispiel von 7 veranschaulicht. Bei 71 wird die Autokorrelationsfunktion ACF aus |T(n)| durch den Autokorrelationsfunktionsgenerator 61 auf die oben beschriebene Weise erlangt. Bei 73 wird |H(n)| aus der Autokorrelationsfunktion ACF durch den Koeffizientengenerator 67 auf die oben beschriebene Weise erlangt. Bei 75 wird eine geeignete Frequenztransformation in eine wahrnehmungsrelevante Frequenzskalierung (beispielsweise die wohlbekannte Bark oder ERB Skalierung) auf |H(n)| durch den Frequenztransformator 63 angelegt. Die Koeffizienten der resultierenden frequenztransformierten |H(n)| werden bei 77 durch den Quantisierer 65 quantisiert, und ein Bitstrom, der den quantisierten Koeffizienten entspricht, wird vom Quantisierer bei 36 ausgegeben (s. 3 und 6). Viele mögliche Quantisierungsansätze können verwendet werden, einschließlich konventioneller Ansätze, wie beispielsweise einer Multistufen- und Splitvektorquantisierung, oder einer einfachen Skalierungsquantisierung.
  • 8 veranschaulicht ein Beispiel des Ausgleichsoperators 39 von 3. Das rekonstruierte Signal bei 133 wird bei 81 Fourier-transformiert (andere geeignete Frequenzbereichstransformationen können auch verwendet werden, wie dies für ein Anpassen der bei 56 in 5 verwendeten Transformation geeignet ist), um BR(n) zu erzeugen. Der Decoder 37 empfängt bei 82 das codierte |H(n)| (d. h. den Bitstrom) von dem Übertragungsmedium 31, und kann wohlbekannte konventionelle Decodierungsverfahren anwenden, um |H(n)| als eine Ausgabe zu erzeugen. Der Multiplizierer 83 empfängt |H(n)| und BR(n) als Eingaben, und multipliziert |H(n)| mit BR(n), um BE(n) zu erzeugen. Das Signal wird dann bei 85 invers Fourier-transformiert (andere inverse Frequenzbereichstransformationen können verwendet werden, um die bei 81 verwendete Transformation zu komplementieren), um bei 135 das verbesserte rekonstruierte Signal in dem Zeitbereich zu erzeugen.
  • Falls die Filterkoeffizienten für |H(n)| am Empfänger nicht erfolgreich erlangt werden, kann der Multiplizierer 83 automatisch |H(n)| = 1, n = 0, ..., N – 1 setzen. Das bedeutet, dass der Ausgleichsoperator "transparent" wird, soweit der Multiplizierer 83 lediglich das rekonstruierte Signal BR(n) mit 1 multipliziert. Wenn somit der Kompositbitstrom der 3A und 3B verwendet wird, kann der Bitstrom, der die |H(n)|-Information (36 in 3) verwendet, verworfen werden (falls erwünscht), um die Bitrate zu erniedrigen, ohne die Fähigkeit des Empfängers zu beeinflussen, das primäre codierte Signal zu rekonstruieren.
  • 9 veranschaulicht eine Mehrfachstufenimplementierung der Übertragungsfunktion T(n) von 4. In 9 enthält T(n) Q + 1 Stufen T0(n), T1(n) ... TQ(n).
  • 10 veranschaulicht beispielhafte Operationen des Codierers von 6, um die Mehrfachstufen-Übertragungsfunktion von 9 zu implementieren. Bei 100 in 10 wird ein Indexzähler Q auf 0 eingestellt, und Q wird ein konstanter Wert zugeordnet, der für die finale Stufe der Übertragungsfunktion von 9 repräsentativ ist. Bei 101 wird |Tq(n)| auf gleich dem erwünschten Gesamt |T(n)| eingestellt, wie vom Vereinfacher 53 von 5 empfangen. Bei 102 wird eine Autokorrelationsfunktion ACF aus |Tq(n)| erlangt, wie oben beschrieben. Bei 103 werden die Prädiktorkoeffizienten von |Hq(n)| aus der ACF erlangt, wie oben beschrieben. Bei 105 wird |Hq(n)|-Frequenz transformiert und quantisiert, wie oben beschrieben. Bei 107 ist, falls der Stufenindex q gleich der Konstante Q ist, der Codierungsbetrieb beendet. Andernfalls wird bei 108 |Tq+1(n)| auf gleich zu |Tq(n)|/|Hq(n)| eingestellt. Danach wird der Stufenindex q bei 106 erhöht, die Autokorrelationsfunktion ACF wird aus |Tq(n)| bei 102 erlangt, und die Prozedur wird wiederholt, bis |Hq(n)| erhalten wurde für q = 0 bis q = Q. Nach einer Beendigung der Codiereroperation von 10 ist T(n) durch den unterhalb gezeigten Ausdruck angenähert:
  • Figure 00220001
  • Es wird darauf hingewiesen, dass für jedes |Tq(n)| der Codiererbetrieb von 10 das entsprechende |Hq(n)| ableitet. Somit präsentiert das vorhergehende Produkt eine Annäherung des erwünschten |T(n)|.
  • 11 veranschaulicht eine beispielhafte Modifikation des Ausgleichsoperators von 8, um die Mehrfachstufenübertragungsfunktion von 9 unterzubringen. Die Ausgabe vom Ausgleichsdecoder 37 wird in einen Produktgenerator 111 eingegeben. Der Produktgenerator 111 empfängt vom Decoder 37 die Stufenfaktoren |Hq(n)| im vorhergehenden Produkt, berechnet das Produkt und liefert das Produkt an den Multiplizierer 83, um mit dem rekonstruierten Signal BR(n) multipliziert zu werden. Falls der Empfänger nicht alle Stufenfaktoren des vorhergehenden Produktes erfolgreich erlangt, dann kann der Produktgenerator 111 alle nicht empfangenen Faktoren mit einem Wert von 1 ersetzen, und alle erfolgreich erlangten Faktoren halten, und dann das Produkt erzeugen. Die verschiedenen Stufen von 9 können separat am Transmitter codiert werden, und in eingebetteter Art und Weise übertragen werden, so dass irgendeine, irgendeine Gruppe oder alle Stufen verworfen werden können, um die Bitrate zu reduzieren.
  • 12 zeigt ein Beispiel eines Sprachcodierers in einem Transmitter eines Kommunikationssystems (beispielsweise einem Transmitter innerhalb eines Zellulartelefons), einschließlich des Ausgleichsschätzers 33 von 3 und 5. Die Implementierung von 12 enthält den herkömmlichen ACELP (Algebraic Code Excited Linear Predictive) Codierungsprozess einschließlich eines adaptiven Codebuches und eines algebraischen Codebuches. Das primär codierte Signal 121 wird am Ausgang einer Summierungsschaltung 120 erlangt, zurück zum adaptiven Codebuch geführt (wie dies herkömmlicherweise so ist), und wird auch in den Ausgleichsschätzer zusammen mit dem Zielsignal 30 eingegeben. Das Zielsignal stellt die Anregung dar, die das akustische Signal 125 erzeugt hat, und wird erlangt durch ein Anlegen des akustischen Signals an einen inversen Synthesefilter 123, der die Umkehrung des Synthesefilters 122 ist. Das akustische Signal 125, das dem Eingangssignal der 1 und 3 entspricht, kann beispielsweise Sprache und/oder Musik und/oder Hintergrundrauschen enthalten. Der Ausgleichsschätzer 33 spricht auf das primäre codierte Signal und das Zielsignal an, um die Ausgleichsschätzung |T(n)| zu erzeugen. Die Ausgleichsschätzung stellt eine Information dar, die anzeigt, wie gut das primär codierte Signal 121 mit dem Zielsignal 30 übereinstimmt, und somit, wie gut das primäre codierte Signal das akustische Signal 125 darstellt. Der herkömmliche Suchverfahrensabschnitt 124 von 12 erzeugt die Information (aus der das primäre codierte Signal am Empfänger zu rekonstruieren ist) für den oben beschriebenen Bitstrom 38 auf im Stand der Technik wohlbekannte Weise. Der Suchverfahrensabschnitt 124 kontrolliert auch das Codebuch und dessen zugeordneten Verstärker auf bekannte Art und Weise.
  • Beispiel 13 veranschaulicht ein Beispiel eines Sprachdecoders in einem Empfänger eines Kommunikationssystems (beispielsweise eines Empfängers in einem Zellulartelefon), einschließlich des Ausgleichsoperators der 3, 8 oder 11. Das Beispiel von 13 verwendet den herkömmlichen ACELP Decodierungsprozess einschließlich eines adaptiven Codebuches und eines algebraischen Codebuches. Die Rekonstruktion 133 des primär codierten Signals 121 (s. 3) wird am Ausgang der Summierungsschaltung 131 erlangt, und wird in den Ausgleichsoperator 39 eingegeben. Der Ausgleichsoperator erhält auch |H(n)| von dem Ausgleichsdecoder 37. In Reaktion auf diese Eingaben erzeugt der Ausgleichsoperator bei 135 das verbesserte rekonstruierte Signal der 2 und 3, was dann in den herkömmlichen Synthesefilter 122 eingegeben wird. Die Information im Bitstrom 38 (wie über das Übertragungsmedium 31 empfangen) wird auf konventionelle Art und Weise demultiplext und decodiert (nicht gezeigt), um eine herkömmliche Steuerung für die Codebücher und deren Verstärker bereitzustellen.
  • Obwohl das rekonstruierte Signal bei 133 (das ACELP Anregungssignal), das zurück zum adaptiven Codebuch in 13 geführt wird, nicht durch den Ausgleichsoperator verbessert ist, ist es möglich (s. unterbrochene Linie in 13), das verbesserte Signal 135 vom Ausgleichsoperator zum adaptiven Codebuch zurückzuführen. Eine Möglichkeit, um dies praktisch durchzuführen, ist es, die Codebuchlänge auf die Subrahmenlänge einzustellen, so dass der Transmitter den Ausgleichsoperator für jeden Subrahmen schätzt. Ein weiterer Ansatz ist es, den Ausgleichsoperator auf Subrahmenbasis am Decoder 37 zu interpolieren, so dass der Empfänger effektiv Blöcke mit Subrahmenlänge verarbeitet, ungeachtet der Blocklänge, die durch den Transmitter verwendet wird. Falls das verbesserte Signal 135 zurück zum adaptiven Codebuch geführt wird, kann der Bitstrom mit der |H(n)|-Information nicht verworfen werden, um. die Bitrate zu vermindern, da er zur Erzeugung des rekonstruierten Signals bei 133 verwendet wird.
  • Falls das verbesserte Signals 135 von 3 zurück zum adaptiven Codebuch geführt wird, muss der Ausgleichsoperator 39 in die Rückkopplungsschleife des Sprachcodierers am Transmitter eingeführt sein. Als ein Beispiel kann der Ausgleichsoperator 39 in die Rückkopplungsschleife von 12 eingefügt sein, wie in 12A gezeigt.
  • Der adaptive Codierungsausgleichsoperator, wie oben beschrieben, führt eine lineare oder nicht lineare Filterung oder eine Annäherung einer solchen, mit dem durch einen Primärcodierer codierten Signal durch, so dass das sich ergebende verbesserte Signal in Übereinstimmung mit irgendeinem Kriterium ähnlicher dem Zielsignal ist. Diese Struktur ergibt mehrere Vorteile. Die multiplikative Natur des Codierungsausgleichers erlaubt bei gleicher Bitrate einen viel größeren dynamischen Bereich der Korrekturen, als eine additive Korrektur des durch den Primärcodierer codierten Signals. Dies ist insbesondere vorteilhaft bei der Codierung von akustischen Signalen, da das menschliche Hörsystem einen großen dynamischen Bereich aufweist.
  • Die Übertragungsfunktion der codierten Ausgleichsoperation kann in ein Betrags- und Phasenspektrum zerlegt werden. Das Phasenspektrum bestimmt im wesentlichen die Zeitversetzung von Ereignissen in der Zeit-Frequenzebene. Es wurde experimentell herausgefunden, dass die meisten Codierer, die das optimale Phasenspektrum der Übertragungsfunktion durch ein Nullphasenspektrum (oder irgendein anderes Spektrum mit einer kleinen und glatten Gruppenverzögerung) ersetzen, nur einen geringen Abfall der Leistungseigenschaft ergeben. Somit muss nur das Betragsspektrum codiert werden. Dies steht im Gegensatz zu Systemen, die ein primäres Signal durch ein Hinzuaddieren eines weiteren Signals korrigieren. Die Codierung des addierten Signals kann die Unempfindlichkeit des menschlichen Hörsystems für kleine Zeitversetzungen von Ereignissen in der Zeit-Frequenzebene nicht ausnutzen.
  • Falls der Codierungsausgleichsoperator mit LPAS-Codierung kombiniert wird, kann die inhärente Schwäche des LPAS-Paradigma vermieden werden. Somit erlaubt der Codierungsausgleichsoperator die genaue Beschreibung von spektralen Tälern. Darüber hinaus erlaubt er die genaue Modellierung von nicht harmonischen Spitzen innerhalb einer harmonischen Struktur.
  • Das Codierungsausgleichsverfahren kann dazu verwendet werden, Nachteile in einem Primärcodierer zu kompensieren, und kann dadurch eine höhere Leistung ergeben, durch Fokussierung auf die Probleme in einem Codierungsmodell. Dieses ist insbesondere im CELP-Kontext klar, in dem eine Transformationsbereichscodierungsausgleichung verwendet wird, um eine Leistung für Nicht-Sprachsignale (z. B. Musik und Hintergrundrauschen), die durch das Zeitbereichs-CELP-Modell nicht gut codiert werden, zu verbessern. Sogar eine reine Sprachleistung wird als Ergebnis des neuen Codierungsmodells verbessert.
  • Der Codierungsausgleichsoperator ist von multiplikativer Natur, im Gegensatz zu früheren additiven Verfahren. Dies bedeutet, dass beispielsweise eine Betrags- und Phaseninformation getrennt und unabhängig codiert werden kann. Normalerweise kann die Phaseninformation weggelassen werden, was bei früheren Verfahren nicht möglich ist.
  • Der Codierungsausgleichsoperator kann einfach in einem eingebetteten Modus arbeiten. Die Bits können dann verworfen werden, aufgrund von beispielsweise Kanalfehlern oder einer Notwendigkeit zur Verringerung der Bitrate, woraufhin der Codierungsausgleichsoperator transparent wird und ein ausreichend gut decodiertes Signal immer noch vom primären Decoder erhalten wird.
  • Es ergibt sich für den Fachmann, dass die oben beschriebenen Ausführungsbeispiele mit Bezug auf die 2 bis 13 sofort implementiert werden können, unter Verwendung von beispielsweise einem geeignet programmierten digitalen Signalprozessor oder einem anderen Datenprozessor, und alternativ unter Verwendung von beispielsweise irgendeinem geeignet programmierten Prozessor in Kombination mit zusätzlicher externer, daran angeschlossener Schaltungen implementiert werden können.
  • Obwohl beispielhafte Ausführungsformen der vorliegenden Erfindung oben detailliert beschrieben wurden, beschränkt dies nicht den Umfang der Erfindung, die in einer Reihe von Ausführungsformen verwirklicht werden kann.

Claims (52)

  1. Ein Transmitter zum Codieren eines Eingangssignals, um codierte Information für eine Übertragung über ein Übertragungsmedium zu erzeugen, umfassend: einen Primärcodierer (32), mit einem Eingang, um das Eingangssignal zu empfangen, mit einem ersten Ausgang zum Bereitstellen eines Zielsignals (30) in Reaktion auf das Eingangssignal, mit einem zweiten Ausgang zum Bereitstellen eines primär codierten Signals (121) in Reaktion auf das Eingangssignal, das mit dem Zielsignal (30) übereinstimmen soll, und mit einem dritten Ausgang, der auf das Eingangssignal anspricht, zum Bereitstellen von codierter Information (38), aus der das primär codierte Signal (121) zu rekonstruieren ist; einen Verbesserungsschätzer (33) mit einem mit dem Primärcodierer (32) gekoppelten Eingang, um das primär codierte Signal (121) und das Zielsignal (30) zu empfangen, wobei der Verbesserungsschätzer (33) einen Ausgang aufweist, der auf das primär codierte Signal (21) und das Zielsignal anspricht, zum Bereitstellen von Verbesserungsinformation, die ein multiplikatives Verhältnis zwischen dem Spektrum des primär codierten Signals (121) und dem Spektrum des Zielsignals (30) anzeigt; einen Codierer (35) mit einem mit dem Verbesserungsschätzer (33) gekoppelten Eingang, um die Verbesserungsinformation zu empfangen, und mit einem Ausgang zum Bereitstellen einer codierten Repräsentation der Verbesserungsinformation; und einen mit dem Primärcodierer (32) gekoppelten Ausgang, zum Ausgeben der codierten Information (38), aus der das primär codierte Signal (121) zu rekonstruieren ist, auf das Übertragungsmedium (31), wobei der Ausgang auch mit dem Codierer (35) gekoppelt ist, zum Ausgeben der codierten Repräsentation (36) der Verbesserungsinformation auf das Übertragungsmedium (31).
  2. Der Transmitter nach Anspruch 1, wobei der Transmitter in einem Zellulartelefon bereitgestellt ist.
  3. Der Transmitter nach Anspruch 1, wobei das Eingangssignal ein akustisches Signal ist, und der Primärcodierer (32) einen linear prädiktiven Codiervorgang ausführt.
  4. Der Transmitter nach Anspruch 1, wobei der Verbesserungsschätzer (33) einen Frequenzbereichstransformator (56) umfasst, um jeweilige Frequenzbereichstransformationen des Zielsignals (30) und des primär codierten Signals (121) durchzuführen.
  5. Der Transmitter nach Anspruch 4, wobei der Verbesserungsschätzer (33) eine Dividiervorrichtung (51) umfasst, die mit dem Frequenzbereichstransformator (56) gekoppelt ist, um eines der transformierten Signale durch das andere der transformierten Signale zu teilen, um die Verbesserungsinformation zu erzeugen, einschließlich Information hinsichtlich einer erwünschten Übertragungsfunktion.
  6. Der Transmitter nach Anspruch 5, wobei der Codierer (35) mit der Dividiervorrichtung (51) gekoppelt ist, und auf die Information bezüglich der erwünschten Übertragungsfunktion anspricht, zum Erzeugen einer Approximationsfunktion, die die erwünschte Übertragungsfunktion annähert.
  7. Der Transmitter nach Anspruch 6, wobei der Codierer (35) einen Autokorrelationsfunktionsgenerator (61) umfasst, zum Empfang der Information bezüglich der erwünschten Übertragungsfunktion und zur Erzeugung einer Autokorrelationsfunktion daraus.
  8. Der Transmitter nach Anspruch 7, wobei die Approximationsfunktion eine Filterfunktion ist, und wobei der Codierer (35) einen Koeffizientengenerator (67) enthält, der mit dem Autokorrelationsfunktionsgenerator (61) gekoppelt ist, und auf die Autokorrelationsfunktion anspricht, um Filterkoeffizienten zu erzeugen, die die Approximationsfunktion definieren.
  9. Der Transmitter nach Anspruch 8, wobei der Codierer (35) einen mit dem Koeffizientengenerator (67) gekoppelten Frequenztransformator (63) umfasst, zum Durchführen einer Frequenztransformation der Filterkoeffizienten, um eine frequenztransformierte Approximationsfunktion zu erzeugen.
  10. Der Transmitter nach Anspruch 9, wobei der Codierer (35) einen mit dem Frequenztransformator (63) gekoppelten Quantisierer (65) umfasst, zum Quantisieren der Filterkoeffizienten der frequenztransformierten Approximationsfunktion.
  11. Der Transmitter nach Anspruch 6, wobei der Codierer (35) die Approximationsfunktion bereitstellt, formatiert als eine Serie von aufeinander folgenden Approximationsstufen, die gemeinsam die Approximationsfunktion definieren.
  12. Der Transmitter nach Anspruch 5, wobei die Information bezüglich der erwünschten Übertragungsfunktion nur Betragsinformation bezüglich der erwünschten Übertragungsfunktion umfasst.
  13. Der Transmitter nach Anspruch 1, weiter mit einem Combiner mit einem mit dem Primärcodierer (32) gekoppelten Eingang, zum Empfang der codierten Information bezüglich des primär codierten Signals (121) und mit einem mit dem Codierer (35) gekoppelten Eingang, zum Empfang der codierten Repräsentation der Verbesserungsinformation, wobei der Combiner einen Ausgang aufweist, zum Bereitstellen eines Kompositsignals mit einem Primäranteil entsprechend der codierten Information bezüglich des primär codierten Signals (121), und mit einem Zusatzanteil entsprechend der codierten Repräsentation der Verbesserungsinformation, wobei der Combinerausgang mit dem Ausgang des Transmitters gekoppelt ist.
  14. Ein Empfänger zum Empfang und Decodieren codierter Information von einem Übertragungsmedium (31), umfassend: einen Rekonstruktor (13) mit einem Eingang zum Empfang eines Abschnitts der codierten Information und mit einem Ausgang, um in Reaktion auf die codierte Information ein rekonstruiertes Signal (133) bereitzustellen, welches mit einem Zielsignal (30) übereinstimmen soll; einen Decoder (37) mit einem Eingang zum Empfang eines Abschnitts der codierten Information und mit einem Ausgang zum Bereitstellen von Verbesserungsinformation in Reaktion auf die codierte Information, welche ein multiplikatives Verhältnis zwischen dem Spektrum des rekonstruierten Signals (133) und dem Spektrum des Zielsignals (30) darstellt; einen mit dem Rekonstruktor (13) und dem Decoder (37) gekoppelten Verbesserer (39), um das rekonstruierte Signal und die Verbesserungsinformation zu empfangen, und mit einem auf das rekonstruierte Signal (133) und die Verbesserungsinformation ansprechenden Ausgang, zum Bereitstellen eines verbesserten rekonstruierten Signals (135), das mit dem Zielsignal (30) genauer als das rekonstruierte Signal (133) übereinstimmt.
  15. Der Empfänger nach Anspruch 14, wobei der Verbesserer (39) selektiv betreibbar ist, um es dem rekonstruierten Signal (133) zu ermöglichen, durch den Verbesserer (39) ohne eine Verbesserung hindurchzutreten.
  16. Der Empfänger nach Anspruch 14, wobei der Verbesserer (39) einen mit dem Rekonstruktor (13) gekoppelten Frequenzbereichstransformator (81) umfasst, zum Bilden einer Frequenzbereichstransformierten des rekonstruierten Signals (133).
  17. Der Empfänger nach Anspruch 16, wobei der Verbesserer (39) einen mit dem Frequenzbereichstransformator (81) und dem Decoder (37) gekoppelten Multiplizierer (83) umfasst, zum Multiplizieren des transformierten rekonstruierten Signals mit der Verbesserungsinformation.
  18. Der Empfänger nach Anspruch 17, wobei die Verbesserungsinformation Filterkoeffizienten enthält, die einen Filter definieren.
  19. Der Empfänger nach Anspruch 17, wobei der Verbesserer (39) einen mit dem Multiplizierer gekoppelten Inversfrequenzbereichstransformator (85) umfasst, zum Bildern einer inversen Frequenzbereichstransformierten eines durch den Multiplizierer (83) gebildeten Ausgangssignals.
  20. Der Empfänger nach Anspruch 17, wobei die Verbesserungsinformation einen Multistufenfilter mit einer Vielzahl von Filterstufen beschreibt, der Verbesserer (39) einen mit dem Decoder (37) gekoppelten Produktgenerator (111) umfasst, der auf die Verbesserungsinformation anspricht, um ein Produkt von Filterstufenübertragungsfunktionen, die die jeweiligen Stufen des Multistufenfilters definieren, zu bilden, wobei das Produkt einer Gesamtfilterübertragungsfunktion entspricht, die den Multistufenfilter definiert, wobei der Produktgenerator ein mit dem Multiplizierer gekoppelten Ausgang umfasst, um die Gesamtfilterübertragungsfunktion dem Multiplizierer bereitzustellen.
  21. Der Empfänger nach Anspruch 20, wobei der Produktgenerator (111) selektiv betreibbar ist, irgendeine der Filterstufenübertragungsfunktionen aus dem Produkt auszuschließen.
  22. Der Empfänger nach Anspruch 14, wobei der Empfänger in einem Zelltelefon bereitgestellt ist.
  23. Der Empfänger nach Anspruch 14, wobei das Zielsignal (30) eine Darstellung eines akustischen Signals ist, und der Rekonstruktor (13) einen linear prädiktiven Codiervorgang ausführt.
  24. Ein Verfahren zum Codieren eines Eingangssignals, um codierte Information für eine Übertragung über ein Übertragungsmedium (31) zu erzeugen, umfassend: Erzeugen eines Zielsignals (30) in Reaktion auf das Eingangssignal; Erzeugen eines primär codierten Signals (121) in Reaktion auf das Eingangssignal, das mit dem Zielsignal (30) übereinstimmen soll; Erzeugen von codierter Information in Reaktion auf das Eingangssignal, aus der das primär codierte Signal (121) zu rekonstruieren ist; Erzeugen, in Reaktion auf das primär codierte Signal (121) und das Zielsignal (30), von Verbesserungsinformation, die ein multiplikatives Verhältnis zwischen einem Spektrum des primär codierten Signals (121) und dem Zielsignal (30) darstellt; Erzeugen einer codierten Darstellung der Verbesserungsinformation (34); und Ausgeben der codierten Darstellung der Verbesserungsinformation (34) und der codierten Information (38), aus der das primär codierte Signal (121) zu rekonstruieren ist, auf das Übertragungsmedium (31).
  25. Das Verfahren nach Anspruch 24, wobei der Ausgabeschritt ein Betreiben eines Transmitters in einem Zelltelefon umfasst.
  26. Das Verfahren nach Anspruch 24, wobei das Eingangssignal ein akustisches Signal ist, und wobei der Schritt eines Erzeugens des primär codierten Signals (121) ein Ausführen eines linear prädiktiven Codiervorgangs umfasst.
  27. Das Verfahren nach Anspruch 24, wobei der Schritt eines Erzeugens von Verbesserungsinformation ein Bilden jeweiliger Frequenzbereichstransformierter (56) des Zielsignals (30) und des primär codierten Signals (121) umfasst.
  28. Das Verfahren nach Anspruch 27, wobei der Schritt eines Erzeugens von Verbesserungsinformation ein Teilen (51) eines der transformierten Signale durch das andere der transformierten Signale umfasst, um Information über eine erwünschte Übertragungsfunktion zu erzeugen.
  29. Das Verfahren nach Anspruch 28, wobei der Schritt zum Erzeugen einer codierten Darstellung ein Erzeugen einer Approximationsfunktion umfasst, die die erwünschte Übertragungsfunktion annähert.
  30. Das Verfahren nach Anspruch 29, wobei der Schritt zur Erzeugung einer Approximationsfunktion ein Erzeugen einer Autokorrelationsfunktion (71) aus der Information über die erwünschte Übertragungsfunktion umfasst.
  31. Das Verfahren nach Anspruch 30, wobei die Approximationsfunktion eine Filterfunktion ist, und wobei der Schritt zum Erzeugen der Approximationsfunktion ein Erzeugen von Filterkoeffizienten, die die Approximationsfunktion definieren, in Reaktion auf die Autokorrelationsfunktion umfasst.
  32. Das Verfahren nach Anspruch 31, wobei der Schritt zum Erzeugen einer Approximationsfunktion ein Durchführen einer Frequenztransformation mit den Filterkoeffizienten umfasst, um eine frequenztransformierte Approximationsfunktion zu erzeugen.
  33. Das Verfahren nach Anspruch 32, wobei der Schritt zum Erzeugen einer Approximationsfunktion ein Quantisieren (77) der Filterkoeffizienten der frequenztransformierten Approximationsfunktion umfasst.
  34. Das Verfahren nach Anspruch 29, wobei der Schritt zum Erzeugen einer Approximationsfunktion einschließt, nur Betragsinformation bezüglich der erwünschten Übertragungsfunktion zu verwenden, um die Approximationsfunktion zu erzeugen.
  35. Das Verfahren nach Anspruch 29, wobei der Schritt zum Erzeugen einer Approximationsfunktion ein Formatieren der Approximationsfunktion als eine Serie von aufeinander folgenden Approximationsstufen umfasst, die kollektiv die Approximationsfunktion definieren.
  36. Das Verfahren nach Anspruch 24, wobei der Ausgabeschritt ein Erzeugen eines Kompositsignals umfasst, mit einem Primärabschnitt entsprechend der codierten Information, aus der das primär codierte Signal (121) zu rekonstruieren ist, und mit einem Zusatzabschnitt, der der codierten Repräsentation der Verbesserungsinformation (34) entspricht.
  37. Ein Verfahren zum Decodieren codierter von einem Übertragungsmedium (31) empfangener Information, umfassend: Rekonstruieren (13), aus der codierten Information, eines rekonstruierten Signals (133), das mit einem Zielsignal (30) übereinstimmen soll; Erlangen, aus der codierten Information, von Verbesserungsinformation, die ein multiplikatives Verhältnis zwischen dem Spektrum des rekonstruierten Signals (133) und dem Spektrum des Zielsignals (30) anzeigt; und Erzeugen, in Reaktion auf das rekonstruierte Signal (133) und die Verbesserungsinformation, eines verbesserten rekonstruierten Signals, das mit dem Zielsignal (30) besser als das rekonstruierte Signal (133) übereinstimmt.
  38. Das Verfahren nach Anspruch 37, weiter mit einem selektiven Verzicht auf den Schritt eines Erzeugens eines verbesserten rekonstruierten Signals.
  39. Das Verfahren nach Anspruch 37, wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals ein Bilden einer Frequenzbereichstransformation (81) des rekonstruierten Signals (133) umfasst.
  40. Das Verfahren nach Anspruch 39, wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals (135) ein Multiplizieren (83) des transformierten rekonstruierten Signals mit der Verbesserungsinformation umfasst.
  41. Das Verfahren nach Anspruch 40, wobei die Verbesserungsinformation Filterkoeffizienten umfasst, die einen Filter definieren.
  42. Das Verfahren nach Anspruch 40, wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals (135) ein Produzieren einer inversen Frequenzbereichstransformation (85) eines durch den Multiplikationsschritt erzeugten Multiplikationsergebnisses umfasst.
  43. Das Verfahren nach Anspruch 40, wobei die Verbesserungsinformation einen Multistufenfilter mit einer Vielzahl von Filterstufen beschreibt, und wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals ein Erzeugen eines Produktes von Filterübertragungsfunktionen umfasst, die jeweilige Stufen des Multistufenfilters definieren, wobei das Produkt einer Gesamtfilterübertragungsfunktion entspricht, die den Multistufenfilter definiert.
  44. Das Verfahren nach Anspruch 43, wobei der Schritt zum Erzeugen eines Produkts ein selektives Ausschließen einer beliebigen der Filterstufenübertragungsfunktionen aus dem Produkt umfasst.
  45. Das Verfahren nach Anspruch 37, wobei das Übertragungsmedium (31) ein Kommunikationskanal eines Zellulartelefonnetzwerks ist.
  46. Das Verfahren nach Anspruch 37, wobei das Zielsignal (30) eine Repräsentation eines akustischen Signals ist, und der Rekonstruktionsschritt ein Ausführen eines linear prädiktiven Codiervorgangs umfasst.
  47. Der Transmitter nach Anspruch 4, wobei der Frequenzbereichstransformator (56) einen Fourier-Transformator zum Bilden einer Fouriertransformierten umfasst.
  48. Der Empfänger nach Anspruch 16, wobei der Frequenbereichstransformator (81) einen Fourier-Transformator zum Bilden einer Fouriertransformierten umfasst.
  49. Der Empfänger nach Anspruch 19, wobei der inverse Frequenbereichstransformator (85) einen inversen Fourier-Transformator zum Bilden einer inversen Fouriertransformierten umfasst.
  50. Das Verfahren nach Anspruch 27, wobei der Schritt zum Bilden von Frequenzbereichstransformationen (56) ein Bilden von Fouriertransformationen umfasst.
  51. Das Verfahren nach Anspruch 39, wobei der Schritt zum Bilden einer Frequenzbereichstransformation (81) ein Bilden einer Fouriertransformation umfasst.
  52. Das Verfahren nach Anspruch 42, wobei der Schritt zum Erzeugen einer inversen Frequenzbereichstransformation (85) ein Erzeugen einer inversen Fouriertransformation umfasst.
DE69916321T 1998-12-18 1999-12-07 Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen Expired - Lifetime DE69916321T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/216,339 US6182030B1 (en) 1998-12-18 1998-12-18 Enhanced coding to improve coded communication signals
US216339 1998-12-18
PCT/SE1999/002289 WO2000038178A1 (en) 1998-12-18 1999-12-07 Coded enhancement feature for improved performance in coding communication signals

Publications (2)

Publication Number Publication Date
DE69916321D1 DE69916321D1 (de) 2004-05-13
DE69916321T2 true DE69916321T2 (de) 2005-03-17

Family

ID=22806660

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69916321T Expired - Lifetime DE69916321T2 (de) 1998-12-18 1999-12-07 Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen

Country Status (8)

Country Link
US (1) US6182030B1 (de)
EP (1) EP1141946B1 (de)
JP (1) JP2002533963A (de)
CN (1) CN1334952A (de)
AT (1) ATE263998T1 (de)
AU (1) AU3088200A (de)
DE (1) DE69916321T2 (de)
WO (1) WO2000038178A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008037156A1 (de) * 2008-08-08 2010-02-18 Audi Ag Verfahren und eine Vorrichtung zur Reinigung eines Abgasstroms einer magerlauffähigen Brennkraftmaschine
DE102010006573A1 (de) * 2010-02-02 2011-08-04 Rohde & Schwarz GmbH & Co. KG, 81671 IQ-Datenkompression für Breitbandanwendungen

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW439368B (en) * 1998-05-14 2001-06-07 Koninkl Philips Electronics Nv Transmission system using an improved signal encoder and decoder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
EP1199711A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung von Audiosignalen unter Verwendung von Vergrösserung der Bandbreite
EP1199812A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung der akustischen Signale mit Verbesserung der Wahrnehmung
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
CN101030425A (zh) * 2001-02-19 2007-09-05 皇家菲利浦电子有限公司 嵌入和检测辅助信号的方法和装置及其记录和重放装置
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
CN1989546B (zh) * 2004-07-20 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US7490036B2 (en) 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2246845A1 (de) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Verfahren und akustische Signalverarbeitungsvorrichtung zur Schätzung von linearen prädiktiven Kodierungskoeffizienten
WO2010138309A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
WO2010138311A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
US8565811B2 (en) * 2009-08-04 2013-10-22 Microsoft Corporation Software-defined radio using multi-core processor
US9753884B2 (en) * 2009-09-30 2017-09-05 Microsoft Technology Licensing, Llc Radio-control board for software-defined radio platform
US8627189B2 (en) * 2009-12-03 2014-01-07 Microsoft Corporation High performance digital signal processing in software radios
US20110136439A1 (en) * 2009-12-04 2011-06-09 Microsoft Corporation Analyzing Wireless Technologies Based On Software-Defined Radio
JP5276047B2 (ja) * 2010-04-30 2013-08-28 株式会社エヌ・ティ・ティ・ドコモ 移動端末装置
US8929933B2 (en) 2011-05-04 2015-01-06 Microsoft Corporation Spectrum allocation for base station
KR102058985B1 (ko) 2011-09-14 2020-02-07 브룩스 오토메이션 인코퍼레이티드 로드 스테이션
US8989286B2 (en) 2011-11-10 2015-03-24 Microsoft Corporation Mapping a transmission stream in a virtual baseband to a physical baseband with equalization
US9438652B2 (en) 2013-04-15 2016-09-06 Opentv, Inc. Tiered content streaming

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US5206884A (en) 1990-10-25 1993-04-27 Comsat Transform domain quantization technique for adaptive predictive coding
IT1241358B (it) 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
ATE138238T1 (de) * 1991-01-08 1996-06-15 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
EP1239456A1 (de) 1991-06-11 2002-09-11 QUALCOMM Incorporated Vocoder mit veränderlicher Bitrate
US5495555A (en) 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5327520A (en) 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
DE69526926T2 (de) 1994-02-01 2003-01-02 Qualcomm Inc Lineare vorhersage durch impulsanregung
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH08272395A (ja) 1995-03-31 1996-10-18 Nec Corp 音声符号化装置
DE69732746C5 (de) * 1996-02-15 2020-11-19 Koninklijke Philips N.V. Signalübertragungssystem mit verringerter komplexität

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008037156A1 (de) * 2008-08-08 2010-02-18 Audi Ag Verfahren und eine Vorrichtung zur Reinigung eines Abgasstroms einer magerlauffähigen Brennkraftmaschine
DE102010006573A1 (de) * 2010-02-02 2011-08-04 Rohde & Schwarz GmbH & Co. KG, 81671 IQ-Datenkompression für Breitbandanwendungen

Also Published As

Publication number Publication date
EP1141946A1 (de) 2001-10-10
DE69916321D1 (de) 2004-05-13
WO2000038178A1 (en) 2000-06-29
AU3088200A (en) 2000-07-12
ATE263998T1 (de) 2004-04-15
JP2002533963A (ja) 2002-10-08
US6182030B1 (en) 2001-01-30
EP1141946B1 (de) 2004-04-07
CN1334952A (zh) 2002-02-06

Similar Documents

Publication Publication Date Title
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60011051T2 (de) Celp-transkodierung
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
DE69934608T2 (de) Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums
DE60012760T2 (de) Multimodaler sprachkodierer
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69531642T2 (de) Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69928288T2 (de) Kodierung periodischer sprache
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
KR101039343B1 (ko) 디코딩된 음성의 피치 증대를 위한 방법 및 장치
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
US7490036B2 (en) Adaptive equalizer for a coded speech signal
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition