DE69916321T2

DE69916321T2 - Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen

Info

Publication number: DE69916321T2
Application number: DE69916321T
Authority: DE
Inventors: Roar Hagen; Bastiaan Kleijn
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-12-18
Filing date: 1999-12-07
Publication date: 2005-03-17
Anticipated expiration: 2019-12-08
Also published as: EP1141946A1; DE69916321D1; WO2000038178A1; AU3088200A; ATE263998T1; JP2002533963A; US6182030B1; EP1141946B1; CN1334952A

Description

GEBIET DER ERFINDUNG
Die vorlegende Erfindung betrifft allgemein ein Codieren von Signalen in Kommunikationssystemen und insbesondere ein Merkmal zur Verbesserung codierter Kommunikationssignale.
HINTERGRUND DER ERFINDUNG
Hochqualitatives Codieren akustischer Signale bei niedrigen Bitraten ist von höchster Wichtigkeit bei Kommunikationssystemen, wie beispielsweise Mobiltelefonie, sicherer Telefonie und Sprachspeicherung. In vergangenen Jahren gab es einen starken Trend im Mobiltelefonbereich in Richtung einer verbesserten Qualität des rekonstruierten akustischen Signals und in Richtung einer erhöhten Flexibilität der für eine Übertragung erforderlichen Bitrate. Der Trend in Richtung verbesserter Qualität reflektiert auf der einen Seite die Kundenerwartungen, dass eine Mobiltelefonie eine Qualität bereitstellt, die gleich der des normalen Telefonnetzes ist. Insbesondere ist in dieser Hinsicht die Leistung bei Hintergrundsignalen und Musik wichtig. Der Trend in Richtung einer Flexibilität einer Bitrate reflektiert auf der anderen Seite den Wunsch der Dienstanbieter, nahe an der Netzkapazität zu operieren, ohne das Risiko, dass Rufe abgebrochen werden müssen, und möglicherweise um unterschiedliche Dienstniveaus mit unterschiedlichen Kosten bereitzustellen. Die Möglichkeit eines Entfernens von Bits von einem existierenden Bitstrom, während die Fähigkeit zur Rekonstruktion des Sprachsignals aufrecht erhalten wird (wenn auch mit einer geringeren Genauigkeit), ist eine besonders nützliche Art einer Bitratenflexibilität.
Bei einer existierenden Sprachcodierungstechnologie ist es schwierig, die gleichzeitige Herausforderung verbesserter akustischer Signalqualität und verbesserter Flexibilität bei der Bitrate zu erfüllen. Diese Schwierigkeit ergibt sich direkt aus der Struktur des Paradigma mit auf Linearvorhersage basierter Analyse-mit-Synthese (LPAS, linear-prediction based analysis-by-synthesis), was allgemein im Mobiltelefonbereich verwendet wird. Gegenwärtig arbeiten LPAS-Codierer besser beim Codieren von Sprache bei Raten zwischen 5 und 20 kb/s als andere Technologien. Demzufolge bildet das LPAS-Paradigma die Basis fast jedes digitalen Telefonstandards, einschließlich GSM, D-AMPS und PDC. Während jedoch die Leistungseigenschaft bei Sprache gut ist, arbeiten LPAS-basierte Sprachcodierer nicht so gut bei Musik und Hintergrundrauschsignalen. Darüber hinaus implizierte bis jetzt die Fähigkeit zur Entfernung von Bits von einem existierenden Bitstrom die Verwendung eines Algorithmus mit relativ geringer Effizienz.
Das LPAS-Codierungsparadigma ist bei Nichtsprach-Geräuschen nicht so gut, da es für die Beschreibung von Sprache optimiert ist. Dabei wird die Form des Kurzzeitleistungsspektrums beschrieben als die Multiplikation einer spektralen Hüllkurve, beschrieben durch ein Allpolmodell (mit fast immer 10 Polen), mit der sogenannten spektralen Feinstruktur, welches eine Kombination von zwei Komponenten ist, die harmonischen beziehungsweise rauschartigen Charakter aufweisen. In der Praxis ist festzustellen, dass dieses Modell für viele Musik- und Hintergrundrauschsignale nicht ausreichend ist. Die Modellunzulänglichkeiten manifestieren sich in für die Wahrnehmung ungeeigneten Beschreibungen der spektralen Täler (Nullen), Spitzen, die nicht Teil der harmonischen Struktur in einem anderweitig periodischen Signal sind, und einem sogenannten "Swirling" Effekt beziehungsweise Schwankungseffekt bei stetigen Hintergrundrauschsignalen, möglicherweise bewirkt durch die Zeitvariation des Parameterschätzfehlers.
Die zwei existierenden Hauptansätze zur Entwicklung von LPAS-Algorithmen mit erhöhter Flexibilität bei der Bitrate haben signifikante Nachteile. Beim ersten Ansatz kombiniert man einfach eine Anzahl von Codierern, die mit unterschiedlichen Bitraten arbeiten, und wählt einen Codierer für ein bestimmtes Codierzeitsegment aus (Beispiele dieses ersten Ansatzes sind die TIA IS-95 und der neuere IS-127 Standard). Diese Arten von Codierern werden als "Multiraten" Codierer bezeichnet. Der Nachteil dieses Verfahrens ist es, dass die Signalrekonstruktion die Ankunft des gesamten Bitstroms des ausgewählten Codierers am Empfänger erfordert. Somit kann der Bitstrom nicht verändert werden, nachdem er den Transmitter verlassen hat.
Beim zweiten Ansatz, den eingebetteten Codieren, erzeugt der Codierer einen Kompositbitstrom, der aus zwei oder mehreren getrennten Bitströmen besteht: ein primärer Bitstrom enthält eine grundlegende Beschreibung des Signals, und einer oder mehrere zusätzliche Bitströme enthalten Informationsverbesserung der grundlegenden Signalbeschreibung. Bei der LPAS-Einstellung wird dieser zweite Ansatz implementiert durch eine Zerlegung des Anregungssignals des LPAS-Codierers in eine primäre Anregung und eine oder mehrere zusätzliche Anregungen, die die Anregung verbessern. Um jedoch die Synchronität zwischen dem Codierer und Decoder (fundamental für das LPAS-Paradigma) bei allen Raten aufrechtzuerhalten, kann der Langzeitprädiktor (vorhanden in nahezu allen LPAS-Paradigmen) nur mit der primären Anregung arbeiten. Da der Langzeitprädiktor den höchst signifikanten Teil des Codierungsgewinns im LPAS-Paradigma bereitstellt, beschränkt dies den Vorteil der zusätzlichen Anregungen sehr stark. Somit liefern diese eingebetteten LPAS-Codierungsalgorithmen eine erhöhte Bitratenflexibilität auf Kosten einer signifikant beschränkten Codierungseffizienz.
Für Codierer mit festen Bitraten zwischen 5 und 20 kb/s überwiegt das wohlbekannte LPAS-Paradigma. Überblicke dieses Codierungs-Paradigma sind beispielsweise P. Kroon und Ed. F. Deprettere, "A class of analysis-by-synthesis predictive coders for high quality speech coding at rates between 4,8 und 16 kbit/s", IEEE J. Selected Areas Comm., 6: 353–363, 1999; A. Gersho "Advances in speech and audio compression", Proceedings IEEE, 82: 900–918, 1994; und P. Kroon und W. B. Kleijn "Linear-prediction based analysis-by-synthesis coding", In W. B. Kleijn und K. K. Paliwal, Editors, Speech Coding and Synthesis, Seiten 79–119. Elsevier Science Publishers, Amsterdam, 1995.
Beim LPAS-Paradigma wird das Sprachsignal durch Anregen eines adaptiven Synthesefilters mit einem Anregesignal rekonstruiert. Der adaptive Synthesefilter, der eine Allpolstruktur aufweist, wird durch sogenannte Linearvorhersage-(LP, linear prediction)Koeffizienten bestimmt, die für einen Subrahmen adaptiert sind (ein Subrahmen ist typischer Weise 2 bis 5 ms). Die LP-Koeffizienten werden aus dem ursprünglichen Signal einmal pro Rahmen (10 bis 25 ms) geschätzt, und deren Wert für jeden Subrahmen wird durch Interpolation berechnet. Information über die LP-Koeffizienten wird normaler Weise einmal pro Rahmen übertragen. Die Anregung ist die Summe von zwei Komponenten: dem adaptiven Codebuch (für den vorliegenden Zweck identisch dem Langzeitprädiktor) Beitrag, und dem festen Codebuch Beitrag.
Der adaptive Codebuchbeitrag wird bestimmt, indem aus dem vorliegenden Subrahmen das Segment der letzten Anregung ausgewählt wird, das nach einem Filtern mit dem Synthesefilter ein rekonstruiertes Signal ergibt, das dem ursprünglichen akustischen Signal am ähnlichsten ist. Der feste Codebuchbeitrag ist der Eintrag aus einem Codebuch mit Anregungsvektoren, welcher, mit dem gegebenen adaptiven Codebuchbeitrag, das erhaltene rekonstruierte Signal dem ursprünglichen Signal am ähnlichsten macht. Zusätzlich zu dem obigen Prozess werden der adaptive und der feste Codebuchbeitrag durch einen quantisierten Skalierungsfaktor skaliert.
Die obige Beschreibung des LPAS-Paradigma ist anwendbar auf fast alle Codierer des Standes der Technik. Beispiele solcher Codierer sind der 8 kb/s ITU G.729 (siehe R. Salami, C. Laflamme, J.-P. Adoul und D. Massaloux "A toll quality 8 kb/s speech codec for the personal communications system (PCS)", IEEE Trans. Vehic. Techn., 43(3): 808–816, 1994; und R. Salami et al., "Description of the proposed ITU-T 8 kb/s speech coding standard", Proc. IEEE Speech Coding Workshop, pages 3–4, Annapolis, MD, 1995) and the GSM enhanced full-rate (GSMEFR) 12,2 kb/s coder (siehe European Telecommun. Standard Institute (ETSI), "Enhanced Full Rate (EFR) speech transcoding (GSM 06.60)", ETSI Technical Standard 300 726, 1996). Beide diese Codierer arbeiten gut bei Sprachsignalen. Für Musiksignale enthalten beide Codierer jedoch klar hörbare Artefakte, verstärkt beim Codierer mit niedriger Rate. Für jeden diesen Codierer muss der gesamte Bitstrom durch den Empfänger erfasst werden, um eine Rekonstruktion zu ermöglichen.
Der 16 kb/s ITU G.728 Codierer unterscheidet sich von der obigen Erläuterung des Paradigma darin, dass die LP-Parameter von dem vergangenen rekonstruierten Signal berechnet werden, und somit nicht übermittelt werden müssen. Dieses wird allgemein als Rückwärts-LP-Adaption beschrieben. Nur ein festes Codebuch wird verwendet. Im Gegensatz zu anderen Codierern (die eine lineare Vorhersageordnung von 10 verwenden), wird eine lineare Vorhersageordnung von 50 verwendet. Diese hohe Vorhersageordnung erlaubt eine bessere Leistungseigenscahft für Nichtsprachklänge im Vergleich zum G.729 und GSMEFR Codierer. Da jedoch aufgrund der Rückwärtsadaptivstruktur der Codierer hinsichtlich Kanalfehlern empfindlicher ist als der G.729 und GSMEFR-Codierer, ist dieser für Mobiltelefonieumgebungen weniger attraktiv. Darüber hinaus muss der gesamte Bitstrom durch den G.728 Empfänger erlangt werden, um eine Rekonstruktion zu ermöglichen.
Der IS-127 der TIA ist ein Mehrfachraten-Codierstandard, der auf Mobiltelefonie ausgerichtet ist. Während dieser Standard eine erhöhte Bitratenflexibilität aufweist, erlaubt er nicht, dass der Bitstrom zwischen dem Transmitter und Empfänger modifiziert wird. Somit muss die Entscheidung hinsichtlich der Bitrate im Transmitter vorgenommen werden. Das Codierungs-Paradigma unterscheidet sich etwas von dem oben ausgeführten Paradigma, (siehe z. B. D. Nahumi und W. B. Kleijn "An improved 8 kb/sRCELP coder", Proc. IEEE Speech Coding Workshop, Seiten 39–40, Annapolis, MD, 1995; und W. B. Kleijn, P. Kroon und D. Nahumi "The RCELP speech coding algorithm", European Trans. on Telecomm., 4(5): 573–582, 1994) jedoch beeinflussen diese Unterschiede die Nichtsprachklänge nicht signifikant.
Aufgrund der vorhergehend genannten Leistungsbeschränkungen bei vorliegenden Ansätzen gibt es nur sehr wenige praktische Codiererdesigns, die es erlauben, dass der Bitstrom zwischen Transmitter und Empfänger modifiziert wird. Einige Beispiele dieser Ansätze sind zu finden in: R. Drogo de Iacovo und D. Sereno "CELP coding at 6.55 kbit/s for digital mobile radio communications", Proc. IEEE Global Telecomm. Conf., Seite 405.6, S. Zhang und G. Lockhart "Embedded scheme for regular pulse excited (RPE) linear predictive coding", Proc. IEEE Interrogatory. Conf. Acoust. Speech Sign. Process., Seiten 37–40, Detroit, 1995; A. Le Guyader, C. Lamblin und E. Boursicaut, "Embedded algebraic CELP/VSELP coders for wideband speech coding", Speech Comm., 16(4): 219–328, 1995; und B. Tang, A. Shen, A. Alwan und G. Pottie "A perceptually- based embedded subband speech coder", IEEE Trans. Speech and Audio Process., 5(2): 131–140, 1997. Bei allen diesen Beispielen ist die Codierungseffizienz im Vergleich zu Fixraten-Codierern gering, weil entweder das adaptive Codebuch vollständig ausgelassen wird, oder weil das adaptive Codebuch nur mit dem primären Anregungssignal arbeitet. Die relativ geringe Leistung von LPAS-Codierern bei Verwendung dieses Ansatzes ist durch die Verwendung eines Subbandcodierers veranschaulicht, in kürzlich erschienener Arbeit bezüglich eingebetteter Codierung (siehe B. Tang, A. Shen, A. Alwan und G. Pottie "A perceptually-based embedded subband speech coder", IEEE Trans. Speech and Audio Process., 5(2): 131–140, 1997). Während Subbandcodierer bei einer festen Rate nicht gut arbeiten, ist ihre Leistung scheinbar konkurrenzfähig, wenn eingebettete Codierungssysteme verwendet werden.
Bei Raten über 16 kb/s sind akustische Signalcodierer eher auf eine Decodierung von Musik ausgerichtet. Im Gegensatz zu den vorhergehend genannten LPAS basierten Codierern verwenden diese höherratigen Codierer allgemein höhere Abtastraten als 8 kb/s. Viele dieser Codierer basieren auf den wohlbekannten Subband- und Transformationscodierungsprinzipien. Ein Beispiel eines hybriden Multiraten (16, 24, 24 und 34 kb/s) Codierers des Standes der Technik, der sowohl eine lineare Vorhersage und Transformationscodierung verwendet, ist in J.-H. Chen dargestellt: "A candidate coder for the ITU-T's new wideband speech coding standard", Proc. Interrogatory. Conf. Acoust. Speech Sign. Process., Seiten 1359–1362, Atlanta, 1997. Beispiele für Ratentransformations- und Subbandcodierungsverfahren sind zu finden in: K. Gosse, F. Moreau de Saint-Martin, X. Durot, P. Duhamel, und J. B. Rault "Subband audio coding with synthesis filters minimizing a perceptual distortion", Proc. IEEE Inter. Conf. Acoust. Speech Sign. Process., Seiten 347–350, Munich, 1997; M. Purat und P. Noll "Audio coding with dynamic wavelet packet decomposition based on frequency-varying modulated lapped transforms", Proc. IEEE Interrogatory. Conf. Acoust. Speech Sign. Process., Seiten 1021–1024, Atlanta, 1996, J. Princen und J. Johnston "Audio coding using signal adaptive filterbanks", Proc. IEEE Interogatory. Conf. Acoust. Speech Sign. Process., Seiten 3071–3074, Detroit, 1995; und N. S. Jayant, J. Johnston und R. Safranek "Signal compression based on models of human perception", Proc. IEEE, 81(10): 1385–1421, 1993. Insbesondere bei Raten jenseits 30 kb/s arbeiten diese Codierungsprozeduren gut bei Musik und dieses kann auch für Hintergrundrauschen angenommen werden. Bei niedrigeren Raten leiden die Codierer entweder an tonalem oder Breitbandrauschen. Leider sind die höheren Bitraten zu hoch für die meisten Mobiltelefonieanwendungen.
Bei den Raten, die allgemein für Mobiltelefonie verwendet werden (8–16 kb/s), verschlechtert sich die Leistungseigenschaft des Transformations- und Subbandcodierungsalgorithmus unterhalb dessen, was mittels LPAS-basierter Codierung erzielt werden kann. Aufgrund des Mangels einer Langzeit-Rückkopplung sind diese höherratigen Algorithmen geeigneter für ein eingebettetes Codieren mit konventionellen Verfahren wie dem LPAS-Codierungsparadigma, wie durch die Prozeduren veranschaulicht, die dargestellt sind in B. Tang, A. Shen, A. Alwan und G. Pottie "A perceptually-based embedded subband speech coder", IEEE Trans. Speech and Audio Process., 5(2): 131–140, 1997.
Die vorgehende Diskussion veranschaulicht zwei Probleme. Das erste ist die relativ geringe Leistung von Sprachcodierern, die bei Raten unterhalb 16 kb/s arbeiten, insbesondere für Nichtsprachklänge, wie beispielsweise Musik. Das zweite Problem ist die Schwierigkeit eines Aufbaus eines effizienten Codierers (bei Raten, die für Mobiltelefonie anwendbar sind), welche ein Vermindern der Bitrate zwischen Transmitter und Empfänger erlaubt.
Das erste Problem ergibt sich aus den Beschränkungen des LPAS-Paradigma. Das LPAS-Paradigma ist für Sprachsignale ausgelegt und in seiner gegenwärtigen Form arbeitet es bei anderen Signalen nicht gut. Während der ITU G.728 Codierer für solche Nichtsprachsignale besser arbeitet (aufgrund der Verwendung einer Rückwärts-LP-Adaptierung), ist er empfindlicher bei Kanalfehlern, was ihn für Mobiltelefonieanwendungen weniger attraktiv macht. Höherratige Codierer (Subband- und Transformationscodierer) leiden nicht an den vorhergehend genannten Qualitätsproblemen für nichtsprachliche Klänge, jedoch sind deren Bitraten für Mobiltelefonie zu hoch.
Das zweite Problem ergibt sich aus dem bisher verwendeten Ansatz zur Erzeugung von einem primären und zusätzlichen Bitstrom bei einer LPAS-Codierung. Bei diesem bekannten Ansatz wird das Anregungssignal in eine primäre und eine zusätzliche Anregung aufgetrennt. Unter Verwendung dieses Ansatzes verliert der Langzeit-Rückkopplungsmechanismus im LPAS-Codierer an Effizienz im Vergleich zu nicht eingebetteten Codierungssystemen. Als eine Folge wird eine eingebettete Codierung selten bei LPAS-Codierungssystemen verwendet.
Die Merkmale der vorliegenden Erfindung, wie sie durch die angefügten unabhängigen Ansprüche definiert ist, liefert eine Schätzung von Verbesserungsinformation wie beispielsweise eines adaptiven Ausgleichsoperators, der ein akustisches Signal (das codiert und rekonstruiert wurde mit einem primären Codierungsalgorithmus) dem ursprünglichen Signal ähnlicher macht. Der Ausgleichsoperator modifiziert das Signal mittels einer linearen oder nicht-linearen Filterungsoperation, oder einer blockweisen Annäherung derselben. Die Erfindung stellt weiter ein Codieren des adaptiven Ausgleichsoperators bereit, während einiges an Codierungsfehler erlaubt wird, mittels eines Bitstroms, der vom Bitstrom des primären Codierungsalgorithmus getrennt werden kann. Die Erfindung liefert weiter die Decodierung des adaptiven Ausgleichsoperators durch den Systemempfänger, und die Anwendung, am Empfänger, des decodierten adaptiven Ausgleichsoperators auf das akustische Signal, das mit einem primären Codierungsalgorithmus codiert und rekonstruiert wurde.
Der adaptive Ausgleichsoperator unterscheidet sich von Nachfiltern (siehe V. Ramamoorthy und N. S. Jayant "Enhancement of ADPCM speech by adaptive postfiltering", AT&T Bell Labs. Techn. J., Seiten 1465–1475, 1984; und J.-H. Chen und A. Gersho "Adaptive postfiltering for quality enhancement of coded speech", IEEE Trans. Speech Audio Process., 3(1): 59–71, 1995) darin, dass ein Kriterium optimiert wird und darin, dass Information bezüglich des Operators übertragen wird. Der adaptive Ausgleichsoperator unterscheidet sich von den Verbesserungsverfahren, die bei konventioneller eingebetteter Codierung verwendet werden, darin, dass der Ausgleichsoperator keine Korrektur zum Signal hinzuaddiert. Statt dessen wird der Ausgleichsoperator typischerweise durch Filtern mit einem adaptiven Filter implementiert, oder durch Multiplizieren von Kurzzeitsprektren mit einer Übertragungsfunktion. Somit weist die Korrektur des Signals eher eine multiplikative Natur als eine additive Natur auf.
Die Erfindung erlaubt die Korrektur einer Verzerrung, die sich aus dem primären Codierung/Decodierungsprozess ergibt, für Primärcodierer, die darauf ausgerichtet sind, die Signalwellenform zu modellieren. Die Struktur des adaptiven Ausgleichsoperators wird allgemein für eine Behandlung von Nachteilen der Primärcodiererstruktur gewählt (beispielsweise die Ungeeignetheiten bei einer Modellierung von nichtsprachlichen Klängen durch LPAS-Codierer). Dieses behandelt das erste oben erwähnte Problem.
Die Erfindung erlaubt eine verbesserte Flexibilität der Bitrate. In einem Ausführungsbeispiel ist nur der Bitstrom in Verbindung mit dem Primärcodierer für eine Rekonstruktion des Signals erforderlich. Der zusätzliche Bitstrom in Verbindung mit dem adaptiven Ausgleichsoperator kann irgendwo zwischen dem Transmitter und Empfänger weggelassen werden. Das rekonstruierte Signal wird verbessert, weil immer der zusätzliche Bitstrom den Decoder erreicht. In einem anderen Ausführungsbeispiel ist der Bitstrom in Verbindung mit dem adaptiven Ausgleichsoperator am Empfänger erforderlich und kann daher nicht weggelassen werden.
Das US Patent mit der Nummer 5 206 884 scheint in Verbindung zu stehen mit einem Verfahren bei prädiktiven Sprachcodierern für ein Quantisieren eines Residualsignals, das sich ergibt, nachdem lineare Prädiktionsverfahren verwendet wurden um Redundanzen von einem Eingangssignal zu entfernen. Das Quantisierungsverfahren beinhaltet eine Transformation des Restsignals in den Frequenzbereich und eine Quantisierung der Frequenzbereichskoeffizienten. Die Anzahl von Bits, die für eine Quantisierung eines jeden Frequenzbereichskoeffizienten verwendet werden, wird durch eine Schätzung der Leistung des Eingangssignals bei dieser Frequenz bestimmt. Unter Bezugnahme auf 3 wird das Restsignal r[i] durch einen Frequenzbereichs-Koeffizientenkalkulator 91 und eine Quantisierungsschaltung 93 quantisiert. Das quantisierte Restsignal wird dann über den Übertragungskanal zusammen mit Langzeit- und Kurzzeit-Prädiktionsparametern, jeweilig bei 9 und 3 erzeugt, übertragen. Wie im Decoder von 4 gezeigt, werden die quantisierten Transformationskoeffizienten invers in eine Zeitbereichssequenz transformiert (r'[i], mittels einer Schaltung 96, die einen Betrieb durchführt, der invers zum Betrieb ist, der durch den vorhergehend genannten Frequenzbereichs-Koeffizientenkalkulator durchgeführt wird. Die Zeitbereichssequenz (r'[i]), ausgegeben von der Schaltung 96, wird dann an Synthesefilter bei 25 und 28 angelegt, um eine rekonstruierte Version des Eingangssignals von 3 zu erlangen.
Der Chen-Beitrag mit dem Titel "A candidate coder for the ITU-T's new wideband speech coding standard" scheint in Bezug zu stehen mit einem Codierer für eine Breitbandsprachcodierung bei multiplen Raten mit einer hohen Sprachqualität und geringen Codiererkomplexität. Eine Closed-Loop Pitch Prediction wird mit einer wahrgenommenermaßen gewichteten Sprache durchgeführt, und dann wird das Vorhersageresiduum quantisiert unter Verwendung von auf Wahrnehmung basierenden Transformations-Codierungsverfahren. In 1 und 3 gezeigten Decoder verwenden eine Transformationsvorhersagecodierung (TPC, Transform Predictive Coding) Technik, um Information IC, IG, IT, IP und IL zu erzeugen, aus der die Decoder von 2 bzw. 4 ein Residualsignal dt rekonstruieren. Im Codierer von 1 empfängt ein Pitch Predictor das vorhergehend quantisierte Residualsignal dt, und verwendet ein Codebuchsuchkriterium mit geschlossener Schleife solcherart, dass dann, wenn das vorhergehend quantisierte Residualsignal dt durch einen Pitch-Synthesefilter gefiltert wird und dann durch einen Formungsfilter mit null Speicher, der Pitch Predictor Ausgangsvektor am nächsten am Zielvektor für die Pitchvorhersage, tp, liegt. Der Pitchvorhersage-Ausgangsvektor hd entsprechend dem besten Satz von Pitchabgriffen wird von dem Zielvektor für Pitchvorhersage tp abgezogen, und das sich ergebende Pitchvorhersageresiduum ist der Zielvektor für eine Transformationscodierung aus geschlossener Schleife. In den Decodern von 2 und 4 haben kooperieren ein Langzeitnachfilter, ein LPC-Synthesefilter, und ein Kurzeitnachfilter, um aus dem rekonstruierten Residualsignal dt Sprache zu synthetisieren.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 veranschaulicht einen Abschnitt eines konventionellen Sprachcodierungssystems.
2 veranschaulicht diagrammartig eine Verbesserungsfunktion in Übereinstimmung mit der vorliegenden Erfindung.
3 veranschaulicht diagrammartig ein LPAS Sprachcodierungssystem einschließlich eines Beispiels der Verbesserungsfunktion von 2.
3A veranschaulicht ein Merkmal der 3 detaillierter.
3B veranschaulicht ein Merkmal von 3 detaillierter.
4 zeigt eine Veranschaulichung eines Fourier-Transformationsbereichs der Verbesserungsfunktion von 2.
5 veranschaulicht ein Ausführungsbeispiel des Ausgleichsoperationsschätzers von 3.
6 veranschaulicht den Ausgleichscodierer von 3 detaillierter.
7 veranschaulicht den funktionalen Betrieb des Codierers von 6.
8 veranschaulicht ein Ausführungsbeispiel des Ausgleichsoperators von 3.
9 veranschaulicht eine Multistufenimplementierung der Übertragungsfunktion von 4.
10 veranschaulicht den Betrieb des Codierers von 6, wenn die Mehrfachstufen-Übertragungsfunktion von 9 implementiert wird.
11 veranschaulicht eine Modifikation des Ausgleichsoperators von 8, um die Mehrfachstufen-Übertragungsfunktion von 9 zu verwenden.
12 veranschaulicht einen Code-Excited Linear Prediction (CELP) Codierer (Codeanregungs-Linearvorhersagecodierer) in Übereinstimmung mit vorliegenden Erfindung einschließlich des Ausgleichsschätzers der 3 und 5.
12A veranschaulicht eine alternative Ausführungsform des Codierers von 12.
13 veranschaulicht einen CELP Decoder in Übereinstimmung mit der vorliegenden Erfindung einschließlich des Ausgleichsoperators der 3, 8 und 11.
DETAILLIERTE BESCHREIBUNG
Beispiel 1 zeigt ein allgemeines Blockdiagramm eines herkömmlichen Kommunikationssystems. In 1 wird das Eingangssignal im Transmitter einem Codierungsprozess bei 11 unterzogen. Eine codierte Informationsausgabe von dem Transmitter wird über einen Kommunikationskanal 12 zum Empfänger geführt, der bei 13 versucht, aus der codierten Information ein rekonstruiertes Signal zu erzeugen, das dass Eingangssignal repräsentiert. Wie oben diskutiert, arbeiten jedoch viele herkömmliche Systeme, wie beispielsweise in 1 gezeigt, beispielsweise Sprachcodierungssysteme, die auf Mobiltelephonie angewendet werden, nicht unter allen Bedingungen gut. Wenn beispielsweise Nicht-Sprachsignale in einem LPAS-Systems verarbeitet werden, stellt das rekonstruierte Signal oft keine akzeptable Darstellung des Eingangssignals dar.
Die vorliegende Erfindung liefert in einer Beispielfigur 2 eine Verbesserungsfunktion (Verbesserer 21), die auf das rekonstruierte Signal von 1 angewendet wird, um ein verbessertes rekonstruiertes Signal zu erzeugen, wie in 2 gezeigt. Die verbesserte rekonstruierte Signalausgabe vom Verbesserer von 2 wird typischerweise eine bessere Repräsentation des Eingangssignals bereitstellen, als dies das rekonstruierte Signal von 1 tun wird.
3 veranschaulicht ein Beispiel, wie die Verbesserungsfunktion von 2 als eine codierte Ausgleichsoperation implementiert werden kann. In 3 entspricht das Signal bei 133 dem rekonstruierten Signal von 1 und 2, der Ausgleichsoperator (oder Ausgleicher) 39 entspricht dem Verbesserer von 2, und das Signal bei 135 entspricht dem verbesserten rekonstruierten Signal von 2. Das Übertragungsmedium 31 von 3 entspricht dem Kanal 12 von 1.
Ein Ausgleichsschätzer 33 und ein Ausgleichscodierer 35 sind im Transmitter bereitgestellt, und ein Ausgleichsdecoder 37 und der Ausgleichsoperator 39 sind im Empfänger bereitgestellt. Ein primäres codiertes Signal 121 wird bei 32 durch den herkömmlichen Primär-Codierungsprozess des Transmitters erzeugt. Das primäre codierte Signal ist eine codierte Darstellung des Eingangssignals. Der Primärcodierer bei 32 gibt auch das Zielsignal 30 aus. Das primäre codierte Signal 121 soll soweit wie möglich das Zielsignal 30 annähern. Das primäre codierte Signal 121 und das Zielsignal 30 werden in den Ausgleichsschätzer 33 eingegeben. Die Ausgabe des Schätzers 33 wird dann an den Codierer 35 angelegt.
Ein Bitstrom 38, ausgegeben vom Primärcodierer 32 enthält Information, die der Wiederherstellungsprozess des Empfängers bei 13 verwenden wird, um das primäre codierte Signal bei 133 zu rekonstruieren. Ein von dem Codierer 35 ausgegebener Bitstrom 36 kann mit dem Bitstrom 38 mittels einer herkömmlichen Kombinierungsoperation (s. 3A) kombiniert werden, um einen Kompositbitstrom zu erzeugen, der durch das Übertragungsmedium 31 geführt wird. Der Kompositbitstrom wird am Empfänger empfangen und in seine Signalbestandteile mittels einer herkömmlichen Trennoperation (s. 3B) aufgeteilt. Der die Information zur Rekonstruktion des primären codierten Signals enthaltene Bitstrom wird in den Rekonstruierer 13 eingegeben, und der die Ausgleichsinformation enthaltene Bitstrom wird in den Decoder 37 eingegeben.
Die Bitströme 36 und 38 können auch getrennt über das Übertragungsmedium 31 übertragen werden, wie durch die unterbrochenen Linien in 3 gezeigt.
Die Aufgabe des Decoders 37 wird an den Ausgleichsoperator 39 zusammen mit dem rekonstruierten Signal 133 vom Rekonstruierer 13 angelegt. Der Ausgleichsoperator 39 gibt das verbesserte rekonstruierte Signal 135 aus.
Der Ausgleichsschätzer 33 bestimmt, was die Ausgleichsoperation tun muss, um ein verbessertes rekonstruiertes Signal 135 zu erzeugen, das dem Zielsignal 30 besser entspricht, als dies das rekonstruierte Signal 133 tut. Der Schätzer 33 gibt dann eine Ausgleichsschätzung aus, die ein relatives Ähnlichkeitsmaß zwischen dem Zielsignal 30 und dem verbesserten rekonstruierten Signal 135 maximieren wird. Die Ausgleichsschätzausgabe bei 34 vom Schätzer 33 wird bei 35 codiert, und die sich ergebende codierte Repräsentationsausgabe vom Codierer 35 wird über das Übertragungsmedium 31 geführt, und wird bei 37 decodiert. Die rekonstruierte Ausgleichsschätzausgabe vom Decoder 37 wird durch den Ausgleichsoperator 39 verwendet, um das rekonstruierte Signal 133 zu verbessern, was das verbesserte rekonstruierte Signal 135 ergibt.
Es wird angenommen, dass alle digitalen Signale in den Beispielen hierin mit einer 8000 Hz Abtastrate abzutasten sind. In einer beispielhaften Implementierung der Erfindung werden das Zielsignal und das primäre codierte Signal als eine Sequenz von Signalblöcken verarbeitet, wobei jeder Signalblock eine Vielzahl von Abtastwerten des zugeordneten Signals enthält. Die Blockgröße kann eine Rahmenlänge sein, eine Subrahmenlänge, oder eine beliebige erwünschte Länge dazwischen. Die Signalblöcke sind zeitsynchronisiert für das Ziel- und primäre codierte Signal, und entsprechende Blöcke des Ziel- und primären codierten Signals werden als "Blockbildungssignalpaare" bezeichnet. Die Signalblöcke werden so gewählt, dass eine genaue Rekonstruktion eines beliebigen Signals ermöglicht wird, durch einfaches Positionieren der entsprechenden Signalblöcke in zeitlicher Hinsicht von End-zu-End. Die oben beschriebenen Blockverarbeitungsverfahren sind im Stand der Technik wohlbekannt. Der Ausgleichsschätzer (s. 33 in 3), die Codierung und Decodierung der Schätzung (s. 35 und 37 in 3) und die Verbesserung (z. B. Ausgleichs-)Operation (s. 21 von 2 und 39 von 3) werden vorzugsweise getrennt für jedes Blockbildungssignalpaar durchgeführt.
Eine Blockverarbeitung, wie oben beschrieben, ist möglicherweise in einigen Anwendungen nicht geeignet, aufgrund nachteiliger Blockeffekte. In solchen Fällen können die Signale unter Verwendung konventioneller Fensterbildungsverfahren verarbeitet werden, beispielsweise mit dem wohlbekannten Hann-Fenster der Länge L (beispielsweise 256) Abtastwerte, mit einer Überlappung zwischen Fenstern von L/2 (in diesem Beispiel 128) Abtastwerten, um Blockbildungseffekte zu vermeiden.
Beispiel 4 veranschaulicht schematisch die Blockbildungssignale, nachdem sie in eine Frequenzbereichsdarstellung unter Verwendung der Fourier-Transformation transformiert wurden. B(n) bezeichnet das diskrete komplexe Spektrum des (diskreten und reellen) Zielsignals, und BR(n) bezeichnet das diskrete komplexe Spektrum des (diskreten und realen) rekonstruierten Signals. Die Ausgleichsoperation in diesem Beispiel ist die Multiplikation des rekonstruierten Signals BR(n) mit einem diskreten codierten Spektrum T(n). Somit ist das verbesserte rekonstruierte Signal BE(n) gegeben durch: BE(n) = T(n)BR(n) n = 0, ..., N – 1.
T(n) muss in sowohl dem realen als auch dem imaginären Teil symmetrisch sein, um sicherzustellen, dass BE(n) einem reellen Zeitbereichssignal entspricht. Für die gewöhnliche Situation, in der BR(n) für n = 0, ..., N – 1 nicht verschwindet, wird die optimale Repräsentation von T(n) (unter Bereitstellung einer exakten Rekonstruktion des ursprünglichen Signals B(n)) erlangt durch ein Setzen von BE(n) = B(n) in der obigen Gleichung, und Auslösen nach T(n): TOPT(n) = B(n)/BR(n) n = 0, ..., N – 1; BR(n) ≠ 0.
Das Ziel ist es, eine codierte Repräsentation von T(n) zu finden, die ein relevantes Ähnlichkeitsmaß zwischen BE(n) maximiert. Das Kriterium basiert vorteilhafterweise auf der menschlichen Wahrnehmung. Die Auswahl des Formats dieser codierten Repräsentation wird von dem speziellen Primärcodierer abhängen, der zur Erzeugung des primären codierten Signals verwendet wird.
Die Implementierungen von den hierin beschriebenen Ausgleichsoperatoren wurden zur Verwendung mit dem LPAS Codierungsparadigma als dem Primärcodierer entwickelt. Wahrnehmungsexperimente zeigen an, dass in diesem Fall eine Manipulation des Phasenspektrums von T_OPT(n) die Ausgleichsleistung nicht signifikant beeinflusst. Somit wird nur das Betrags- bzw. Größenspektrum von T_OPT(n) in den offenbarten Implementierungen verwendet.
Die inverte diskrete Fourier-Transformation des inversen Leistungsspektrums |T_OPT(n)|^–2 ergibt eine Autokorrelationssequenz, aus der Prädiktorkoeffizienten unter Verwendung herkömmlicher Verfahren, die dem Fachmann wohlbekannt sind, wie beispielsweise dem Levinson-Durbin Algorithmus, berechnet werden. Die Prädiktorkoeffizienten entsprechen einem Allpolfilter mit einer absoluten diskreten Übertragungsfunktion |H(n)|. Das inverse Leistungsspektrum |H(n)|^–2 bildet dann eine Annäherung für |T_OPT(n)|^–2. Der Filter H(n) kann beispielsweise ein Filter zwanzigster Ordnung sein. Ein Vorteil einer Verwendung von |H(n)| zur Annäherung von |T(n)| ist am besten zu verstehen, indem erkannt wird, dass, wenn beispielsweise ein Block von 80 Abtastwerten für jedes Blockbildungssignal B(n) und BR(n) verwendet wird, dann |T(n)| durch 40 Werte definiert sein wird, wohingegen |H(n)| durch nur 20 Werte definiert sein wird (d. h. Prädiktorkoeffizienten) in Entsprechung zum Allpolfilter 20. Ordnung, dargestellt durch H(n).
Der Allpolfilter |H(n)|, der letztendlich aus dem inversen Leistungsspektrum |T_OPT(n)|^–2, oben ausgeführt, erhalten wird, ist zur Reproduktion spektraler Täler wirksam nutzbar, und somit arbeitet er gut, wenn ein Musiksignal codiert wird. Falls es ein Ziel ist, eine Hintergrundrausch-Leistungseigenschaft zu verbessern, sind die spektralen Spitzen wichtiger. In diesem Fall würde das Leistungsspektrum |T_OPT(n)|² dazu verwendet werden, die Autokorrelationssequenz zu bilden, und letztendlich, den erwünschten Allpolfilter.
5 veranschaulicht ein Beispiel des Schätzers 33 von 3. Die Zielsignalblöcke und die primären Codiersignalblöcke werden paarweise bei 56 Fourier transformiert (andere geeignete Frequenzbereichtransformationen können auch verwendet werden), um die Signale B(n) und BR(n) zu erzeugen, die an eine Teilervorrichtung 50 einschließlich eines Teilers 51 und eines Vereinfachers 53 angelegt werden. B(n) wird durch BR(n) am Teiler 51 geteilt, um T(n) zu erzeugen, und die Phaseninformation wird durch den Vereinfacher 53 verworfen, so dass nur die Betragsinformation |T(n)| dem Codierer 35 bereitgestellt wird.
Der Codierer 35 empfängt |T(n)| und erzeugt |H(n)|. 6 zeigt ein Beispiel des Codierers 35 von 3. Das Codierer-Beispiel von 6 enthält einen Autokorrelationsfunktions (ACF)-Generator 61 mit |T(n)| als eine Eingabe, und dessen Ausgabe einem Koeffizientengenerator 67 zugeführt wird, dessen Ausgabe einem Frequenztransformator 63 zugeführt wird, dessen Ausgabe einem Quantisierer 65 zugeführt wird.
Beispielhafte Operationen des Codierers von 6 sind im Beispiel von 7 veranschaulicht. Bei 71 wird die Autokorrelationsfunktion ACF aus |T(n)| durch den Autokorrelationsfunktionsgenerator 61 auf die oben beschriebene Weise erlangt. Bei 73 wird |H(n)| aus der Autokorrelationsfunktion ACF durch den Koeffizientengenerator 67 auf die oben beschriebene Weise erlangt. Bei 75 wird eine geeignete Frequenztransformation in eine wahrnehmungsrelevante Frequenzskalierung (beispielsweise die wohlbekannte Bark oder ERB Skalierung) auf |H(n)| durch den Frequenztransformator 63 angelegt. Die Koeffizienten der resultierenden frequenztransformierten |H(n)| werden bei 77 durch den Quantisierer 65 quantisiert, und ein Bitstrom, der den quantisierten Koeffizienten entspricht, wird vom Quantisierer bei 36 ausgegeben (s. 3 und 6). Viele mögliche Quantisierungsansätze können verwendet werden, einschließlich konventioneller Ansätze, wie beispielsweise einer Multistufen- und Splitvektorquantisierung, oder einer einfachen Skalierungsquantisierung.
8 veranschaulicht ein Beispiel des Ausgleichsoperators 39 von 3. Das rekonstruierte Signal bei 133 wird bei 81 Fourier-transformiert (andere geeignete Frequenzbereichstransformationen können auch verwendet werden, wie dies für ein Anpassen der bei 56 in 5 verwendeten Transformation geeignet ist), um BR(n) zu erzeugen. Der Decoder 37 empfängt bei 82 das codierte |H(n)| (d. h. den Bitstrom) von dem Übertragungsmedium 31, und kann wohlbekannte konventionelle Decodierungsverfahren anwenden, um |H(n)| als eine Ausgabe zu erzeugen. Der Multiplizierer 83 empfängt |H(n)| und BR(n) als Eingaben, und multipliziert |H(n)| mit BR(n), um BE(n) zu erzeugen. Das Signal wird dann bei 85 invers Fourier-transformiert (andere inverse Frequenzbereichstransformationen können verwendet werden, um die bei 81 verwendete Transformation zu komplementieren), um bei 135 das verbesserte rekonstruierte Signal in dem Zeitbereich zu erzeugen.
Falls die Filterkoeffizienten für |H(n)| am Empfänger nicht erfolgreich erlangt werden, kann der Multiplizierer 83 automatisch |H(n)| = 1, n = 0, ..., N – 1 setzen. Das bedeutet, dass der Ausgleichsoperator "transparent" wird, soweit der Multiplizierer 83 lediglich das rekonstruierte Signal BR(n) mit 1 multipliziert. Wenn somit der Kompositbitstrom der 3A und 3B verwendet wird, kann der Bitstrom, der die |H(n)|-Information (36 in 3) verwendet, verworfen werden (falls erwünscht), um die Bitrate zu erniedrigen, ohne die Fähigkeit des Empfängers zu beeinflussen, das primäre codierte Signal zu rekonstruieren.
9 veranschaulicht eine Mehrfachstufenimplementierung der Übertragungsfunktion T(n) von 4. In 9 enthält T(n) Q + 1 Stufen T₀(n), T₁(n) ... T_Q(n).
10 veranschaulicht beispielhafte Operationen des Codierers von 6, um die Mehrfachstufen-Übertragungsfunktion von 9 zu implementieren. Bei 100 in 10 wird ein Indexzähler Q auf 0 eingestellt, und Q wird ein konstanter Wert zugeordnet, der für die finale Stufe der Übertragungsfunktion von 9 repräsentativ ist. Bei 101 wird |T_q(n)| auf gleich dem erwünschten Gesamt |T(n)| eingestellt, wie vom Vereinfacher 53 von 5 empfangen. Bei 102 wird eine Autokorrelationsfunktion ACF aus |T_q(n)| erlangt, wie oben beschrieben. Bei 103 werden die Prädiktorkoeffizienten von |H_q(n)| aus der ACF erlangt, wie oben beschrieben. Bei 105 wird |H_q(n)|-Frequenz transformiert und quantisiert, wie oben beschrieben. Bei 107 ist, falls der Stufenindex q gleich der Konstante Q ist, der Codierungsbetrieb beendet. Andernfalls wird bei 108 |T_q+1(n)| auf gleich zu |T_q(n)|/|H_q(n)| eingestellt. Danach wird der Stufenindex q bei 106 erhöht, die Autokorrelationsfunktion ACF wird aus |T_q(n)| bei 102 erlangt, und die Prozedur wird wiederholt, bis |H_q(n)| erhalten wurde für q = 0 bis q = Q. Nach einer Beendigung der Codiereroperation von 10 ist T(n) durch den unterhalb gezeigten Ausdruck angenähert:
Es wird darauf hingewiesen, dass für jedes |T_q(n)| der Codiererbetrieb von 10 das entsprechende |H_q(n)| ableitet. Somit präsentiert das vorhergehende Produkt eine Annäherung des erwünschten |T(n)|.
11 veranschaulicht eine beispielhafte Modifikation des Ausgleichsoperators von 8, um die Mehrfachstufenübertragungsfunktion von 9 unterzubringen. Die Ausgabe vom Ausgleichsdecoder 37 wird in einen Produktgenerator 111 eingegeben. Der Produktgenerator 111 empfängt vom Decoder 37 die Stufenfaktoren |H_q(n)| im vorhergehenden Produkt, berechnet das Produkt und liefert das Produkt an den Multiplizierer 83, um mit dem rekonstruierten Signal BR(n) multipliziert zu werden. Falls der Empfänger nicht alle Stufenfaktoren des vorhergehenden Produktes erfolgreich erlangt, dann kann der Produktgenerator 111 alle nicht empfangenen Faktoren mit einem Wert von 1 ersetzen, und alle erfolgreich erlangten Faktoren halten, und dann das Produkt erzeugen. Die verschiedenen Stufen von 9 können separat am Transmitter codiert werden, und in eingebetteter Art und Weise übertragen werden, so dass irgendeine, irgendeine Gruppe oder alle Stufen verworfen werden können, um die Bitrate zu reduzieren.
12 zeigt ein Beispiel eines Sprachcodierers in einem Transmitter eines Kommunikationssystems (beispielsweise einem Transmitter innerhalb eines Zellulartelefons), einschließlich des Ausgleichsschätzers 33 von 3 und 5. Die Implementierung von 12 enthält den herkömmlichen ACELP (Algebraic Code Excited Linear Predictive) Codierungsprozess einschließlich eines adaptiven Codebuches und eines algebraischen Codebuches. Das primär codierte Signal 121 wird am Ausgang einer Summierungsschaltung 120 erlangt, zurück zum adaptiven Codebuch geführt (wie dies herkömmlicherweise so ist), und wird auch in den Ausgleichsschätzer zusammen mit dem Zielsignal 30 eingegeben. Das Zielsignal stellt die Anregung dar, die das akustische Signal 125 erzeugt hat, und wird erlangt durch ein Anlegen des akustischen Signals an einen inversen Synthesefilter 123, der die Umkehrung des Synthesefilters 122 ist. Das akustische Signal 125, das dem Eingangssignal der 1 und 3 entspricht, kann beispielsweise Sprache und/oder Musik und/oder Hintergrundrauschen enthalten. Der Ausgleichsschätzer 33 spricht auf das primäre codierte Signal und das Zielsignal an, um die Ausgleichsschätzung |T(n)| zu erzeugen. Die Ausgleichsschätzung stellt eine Information dar, die anzeigt, wie gut das primär codierte Signal 121 mit dem Zielsignal 30 übereinstimmt, und somit, wie gut das primäre codierte Signal das akustische Signal 125 darstellt. Der herkömmliche Suchverfahrensabschnitt 124 von 12 erzeugt die Information (aus der das primäre codierte Signal am Empfänger zu rekonstruieren ist) für den oben beschriebenen Bitstrom 38 auf im Stand der Technik wohlbekannte Weise. Der Suchverfahrensabschnitt 124 kontrolliert auch das Codebuch und dessen zugeordneten Verstärker auf bekannte Art und Weise.
Beispiel 13 veranschaulicht ein Beispiel eines Sprachdecoders in einem Empfänger eines Kommunikationssystems (beispielsweise eines Empfängers in einem Zellulartelefon), einschließlich des Ausgleichsoperators der 3, 8 oder 11. Das Beispiel von 13 verwendet den herkömmlichen ACELP Decodierungsprozess einschließlich eines adaptiven Codebuches und eines algebraischen Codebuches. Die Rekonstruktion 133 des primär codierten Signals 121 (s. 3) wird am Ausgang der Summierungsschaltung 131 erlangt, und wird in den Ausgleichsoperator 39 eingegeben. Der Ausgleichsoperator erhält auch |H(n)| von dem Ausgleichsdecoder 37. In Reaktion auf diese Eingaben erzeugt der Ausgleichsoperator bei 135 das verbesserte rekonstruierte Signal der 2 und 3, was dann in den herkömmlichen Synthesefilter 122 eingegeben wird. Die Information im Bitstrom 38 (wie über das Übertragungsmedium 31 empfangen) wird auf konventionelle Art und Weise demultiplext und decodiert (nicht gezeigt), um eine herkömmliche Steuerung für die Codebücher und deren Verstärker bereitzustellen.
Obwohl das rekonstruierte Signal bei 133 (das ACELP Anregungssignal), das zurück zum adaptiven Codebuch in 13 geführt wird, nicht durch den Ausgleichsoperator verbessert ist, ist es möglich (s. unterbrochene Linie in 13), das verbesserte Signal 135 vom Ausgleichsoperator zum adaptiven Codebuch zurückzuführen. Eine Möglichkeit, um dies praktisch durchzuführen, ist es, die Codebuchlänge auf die Subrahmenlänge einzustellen, so dass der Transmitter den Ausgleichsoperator für jeden Subrahmen schätzt. Ein weiterer Ansatz ist es, den Ausgleichsoperator auf Subrahmenbasis am Decoder 37 zu interpolieren, so dass der Empfänger effektiv Blöcke mit Subrahmenlänge verarbeitet, ungeachtet der Blocklänge, die durch den Transmitter verwendet wird. Falls das verbesserte Signal 135 zurück zum adaptiven Codebuch geführt wird, kann der Bitstrom mit der |H(n)|-Information nicht verworfen werden, um. die Bitrate zu vermindern, da er zur Erzeugung des rekonstruierten Signals bei 133 verwendet wird.
Falls das verbesserte Signals 135 von 3 zurück zum adaptiven Codebuch geführt wird, muss der Ausgleichsoperator 39 in die Rückkopplungsschleife des Sprachcodierers am Transmitter eingeführt sein. Als ein Beispiel kann der Ausgleichsoperator 39 in die Rückkopplungsschleife von 12 eingefügt sein, wie in 12A gezeigt.
Der adaptive Codierungsausgleichsoperator, wie oben beschrieben, führt eine lineare oder nicht lineare Filterung oder eine Annäherung einer solchen, mit dem durch einen Primärcodierer codierten Signal durch, so dass das sich ergebende verbesserte Signal in Übereinstimmung mit irgendeinem Kriterium ähnlicher dem Zielsignal ist. Diese Struktur ergibt mehrere Vorteile. Die multiplikative Natur des Codierungsausgleichers erlaubt bei gleicher Bitrate einen viel größeren dynamischen Bereich der Korrekturen, als eine additive Korrektur des durch den Primärcodierer codierten Signals. Dies ist insbesondere vorteilhaft bei der Codierung von akustischen Signalen, da das menschliche Hörsystem einen großen dynamischen Bereich aufweist.
Die Übertragungsfunktion der codierten Ausgleichsoperation kann in ein Betrags- und Phasenspektrum zerlegt werden. Das Phasenspektrum bestimmt im wesentlichen die Zeitversetzung von Ereignissen in der Zeit-Frequenzebene. Es wurde experimentell herausgefunden, dass die meisten Codierer, die das optimale Phasenspektrum der Übertragungsfunktion durch ein Nullphasenspektrum (oder irgendein anderes Spektrum mit einer kleinen und glatten Gruppenverzögerung) ersetzen, nur einen geringen Abfall der Leistungseigenschaft ergeben. Somit muss nur das Betragsspektrum codiert werden. Dies steht im Gegensatz zu Systemen, die ein primäres Signal durch ein Hinzuaddieren eines weiteren Signals korrigieren. Die Codierung des addierten Signals kann die Unempfindlichkeit des menschlichen Hörsystems für kleine Zeitversetzungen von Ereignissen in der Zeit-Frequenzebene nicht ausnutzen.
Falls der Codierungsausgleichsoperator mit LPAS-Codierung kombiniert wird, kann die inhärente Schwäche des LPAS-Paradigma vermieden werden. Somit erlaubt der Codierungsausgleichsoperator die genaue Beschreibung von spektralen Tälern. Darüber hinaus erlaubt er die genaue Modellierung von nicht harmonischen Spitzen innerhalb einer harmonischen Struktur.
Das Codierungsausgleichsverfahren kann dazu verwendet werden, Nachteile in einem Primärcodierer zu kompensieren, und kann dadurch eine höhere Leistung ergeben, durch Fokussierung auf die Probleme in einem Codierungsmodell. Dieses ist insbesondere im CELP-Kontext klar, in dem eine Transformationsbereichscodierungsausgleichung verwendet wird, um eine Leistung für Nicht-Sprachsignale (z. B. Musik und Hintergrundrauschen), die durch das Zeitbereichs-CELP-Modell nicht gut codiert werden, zu verbessern. Sogar eine reine Sprachleistung wird als Ergebnis des neuen Codierungsmodells verbessert.
Der Codierungsausgleichsoperator ist von multiplikativer Natur, im Gegensatz zu früheren additiven Verfahren. Dies bedeutet, dass beispielsweise eine Betrags- und Phaseninformation getrennt und unabhängig codiert werden kann. Normalerweise kann die Phaseninformation weggelassen werden, was bei früheren Verfahren nicht möglich ist.
Der Codierungsausgleichsoperator kann einfach in einem eingebetteten Modus arbeiten. Die Bits können dann verworfen werden, aufgrund von beispielsweise Kanalfehlern oder einer Notwendigkeit zur Verringerung der Bitrate, woraufhin der Codierungsausgleichsoperator transparent wird und ein ausreichend gut decodiertes Signal immer noch vom primären Decoder erhalten wird.
Es ergibt sich für den Fachmann, dass die oben beschriebenen Ausführungsbeispiele mit Bezug auf die 2 bis 13 sofort implementiert werden können, unter Verwendung von beispielsweise einem geeignet programmierten digitalen Signalprozessor oder einem anderen Datenprozessor, und alternativ unter Verwendung von beispielsweise irgendeinem geeignet programmierten Prozessor in Kombination mit zusätzlicher externer, daran angeschlossener Schaltungen implementiert werden können.
Obwohl beispielhafte Ausführungsformen der vorliegenden Erfindung oben detailliert beschrieben wurden, beschränkt dies nicht den Umfang der Erfindung, die in einer Reihe von Ausführungsformen verwirklicht werden kann.

Claims

Ein Transmitter zum Codieren eines Eingangssignals, um codierte Information für eine Übertragung über ein Übertragungsmedium zu erzeugen, umfassend: einen Primärcodierer (32), mit einem Eingang, um das Eingangssignal zu empfangen, mit einem ersten Ausgang zum Bereitstellen eines Zielsignals (30) in Reaktion auf das Eingangssignal, mit einem zweiten Ausgang zum Bereitstellen eines primär codierten Signals (121) in Reaktion auf das Eingangssignal, das mit dem Zielsignal (30) übereinstimmen soll, und mit einem dritten Ausgang, der auf das Eingangssignal anspricht, zum Bereitstellen von codierter Information (38), aus der das primär codierte Signal (121) zu rekonstruieren ist; einen Verbesserungsschätzer (33) mit einem mit dem Primärcodierer (32) gekoppelten Eingang, um das primär codierte Signal (121) und das Zielsignal (30) zu empfangen, wobei der Verbesserungsschätzer (33) einen Ausgang aufweist, der auf das primär codierte Signal (21) und das Zielsignal anspricht, zum Bereitstellen von Verbesserungsinformation, die ein multiplikatives Verhältnis zwischen dem Spektrum des primär codierten Signals (121) und dem Spektrum des Zielsignals (30) anzeigt; einen Codierer (35) mit einem mit dem Verbesserungsschätzer (33) gekoppelten Eingang, um die Verbesserungsinformation zu empfangen, und mit einem Ausgang zum Bereitstellen einer codierten Repräsentation der Verbesserungsinformation; und einen mit dem Primärcodierer (32) gekoppelten Ausgang, zum Ausgeben der codierten Information (38), aus der das primär codierte Signal (121) zu rekonstruieren ist, auf das Übertragungsmedium (31), wobei der Ausgang auch mit dem Codierer (35) gekoppelt ist, zum Ausgeben der codierten Repräsentation (36) der Verbesserungsinformation auf das Übertragungsmedium (31).
Der Transmitter nach Anspruch 1, wobei der Transmitter in einem Zellulartelefon bereitgestellt ist.
Der Transmitter nach Anspruch 1, wobei das Eingangssignal ein akustisches Signal ist, und der Primärcodierer (32) einen linear prädiktiven Codiervorgang ausführt.
Der Transmitter nach Anspruch 1, wobei der Verbesserungsschätzer (33) einen Frequenzbereichstransformator (56) umfasst, um jeweilige Frequenzbereichstransformationen des Zielsignals (30) und des primär codierten Signals (121) durchzuführen.
Der Transmitter nach Anspruch 4, wobei der Verbesserungsschätzer (33) eine Dividiervorrichtung (51) umfasst, die mit dem Frequenzbereichstransformator (56) gekoppelt ist, um eines der transformierten Signale durch das andere der transformierten Signale zu teilen, um die Verbesserungsinformation zu erzeugen, einschließlich Information hinsichtlich einer erwünschten Übertragungsfunktion.
Der Transmitter nach Anspruch 5, wobei der Codierer (35) mit der Dividiervorrichtung (51) gekoppelt ist, und auf die Information bezüglich der erwünschten Übertragungsfunktion anspricht, zum Erzeugen einer Approximationsfunktion, die die erwünschte Übertragungsfunktion annähert.
Der Transmitter nach Anspruch 6, wobei der Codierer (35) einen Autokorrelationsfunktionsgenerator (61) umfasst, zum Empfang der Information bezüglich der erwünschten Übertragungsfunktion und zur Erzeugung einer Autokorrelationsfunktion daraus.
Der Transmitter nach Anspruch 7, wobei die Approximationsfunktion eine Filterfunktion ist, und wobei der Codierer (35) einen Koeffizientengenerator (67) enthält, der mit dem Autokorrelationsfunktionsgenerator (61) gekoppelt ist, und auf die Autokorrelationsfunktion anspricht, um Filterkoeffizienten zu erzeugen, die die Approximationsfunktion definieren.
Der Transmitter nach Anspruch 8, wobei der Codierer (35) einen mit dem Koeffizientengenerator (67) gekoppelten Frequenztransformator (63) umfasst, zum Durchführen einer Frequenztransformation der Filterkoeffizienten, um eine frequenztransformierte Approximationsfunktion zu erzeugen.
Der Transmitter nach Anspruch 9, wobei der Codierer (35) einen mit dem Frequenztransformator (63) gekoppelten Quantisierer (65) umfasst, zum Quantisieren der Filterkoeffizienten der frequenztransformierten Approximationsfunktion.
Der Transmitter nach Anspruch 6, wobei der Codierer (35) die Approximationsfunktion bereitstellt, formatiert als eine Serie von aufeinander folgenden Approximationsstufen, die gemeinsam die Approximationsfunktion definieren.
Der Transmitter nach Anspruch 5, wobei die Information bezüglich der erwünschten Übertragungsfunktion nur Betragsinformation bezüglich der erwünschten Übertragungsfunktion umfasst.
Der Transmitter nach Anspruch 1, weiter mit einem Combiner mit einem mit dem Primärcodierer (32) gekoppelten Eingang, zum Empfang der codierten Information bezüglich des primär codierten Signals (121) und mit einem mit dem Codierer (35) gekoppelten Eingang, zum Empfang der codierten Repräsentation der Verbesserungsinformation, wobei der Combiner einen Ausgang aufweist, zum Bereitstellen eines Kompositsignals mit einem Primäranteil entsprechend der codierten Information bezüglich des primär codierten Signals (121), und mit einem Zusatzanteil entsprechend der codierten Repräsentation der Verbesserungsinformation, wobei der Combinerausgang mit dem Ausgang des Transmitters gekoppelt ist.
Ein Empfänger zum Empfang und Decodieren codierter Information von einem Übertragungsmedium (31), umfassend: einen Rekonstruktor (13) mit einem Eingang zum Empfang eines Abschnitts der codierten Information und mit einem Ausgang, um in Reaktion auf die codierte Information ein rekonstruiertes Signal (133) bereitzustellen, welches mit einem Zielsignal (30) übereinstimmen soll; einen Decoder (37) mit einem Eingang zum Empfang eines Abschnitts der codierten Information und mit einem Ausgang zum Bereitstellen von Verbesserungsinformation in Reaktion auf die codierte Information, welche ein multiplikatives Verhältnis zwischen dem Spektrum des rekonstruierten Signals (133) und dem Spektrum des Zielsignals (30) darstellt; einen mit dem Rekonstruktor (13) und dem Decoder (37) gekoppelten Verbesserer (39), um das rekonstruierte Signal und die Verbesserungsinformation zu empfangen, und mit einem auf das rekonstruierte Signal (133) und die Verbesserungsinformation ansprechenden Ausgang, zum Bereitstellen eines verbesserten rekonstruierten Signals (135), das mit dem Zielsignal (30) genauer als das rekonstruierte Signal (133) übereinstimmt.
Der Empfänger nach Anspruch 14, wobei der Verbesserer (39) selektiv betreibbar ist, um es dem rekonstruierten Signal (133) zu ermöglichen, durch den Verbesserer (39) ohne eine Verbesserung hindurchzutreten.
Der Empfänger nach Anspruch 14, wobei der Verbesserer (39) einen mit dem Rekonstruktor (13) gekoppelten Frequenzbereichstransformator (81) umfasst, zum Bilden einer Frequenzbereichstransformierten des rekonstruierten Signals (133).
Der Empfänger nach Anspruch 16, wobei der Verbesserer (39) einen mit dem Frequenzbereichstransformator (81) und dem Decoder (37) gekoppelten Multiplizierer (83) umfasst, zum Multiplizieren des transformierten rekonstruierten Signals mit der Verbesserungsinformation.
Der Empfänger nach Anspruch 17, wobei die Verbesserungsinformation Filterkoeffizienten enthält, die einen Filter definieren.
Der Empfänger nach Anspruch 17, wobei der Verbesserer (39) einen mit dem Multiplizierer gekoppelten Inversfrequenzbereichstransformator (85) umfasst, zum Bildern einer inversen Frequenzbereichstransformierten eines durch den Multiplizierer (83) gebildeten Ausgangssignals.
Der Empfänger nach Anspruch 17, wobei die Verbesserungsinformation einen Multistufenfilter mit einer Vielzahl von Filterstufen beschreibt, der Verbesserer (39) einen mit dem Decoder (37) gekoppelten Produktgenerator (111) umfasst, der auf die Verbesserungsinformation anspricht, um ein Produkt von Filterstufenübertragungsfunktionen, die die jeweiligen Stufen des Multistufenfilters definieren, zu bilden, wobei das Produkt einer Gesamtfilterübertragungsfunktion entspricht, die den Multistufenfilter definiert, wobei der Produktgenerator ein mit dem Multiplizierer gekoppelten Ausgang umfasst, um die Gesamtfilterübertragungsfunktion dem Multiplizierer bereitzustellen.
Der Empfänger nach Anspruch 20, wobei der Produktgenerator (111) selektiv betreibbar ist, irgendeine der Filterstufenübertragungsfunktionen aus dem Produkt auszuschließen.
Der Empfänger nach Anspruch 14, wobei der Empfänger in einem Zelltelefon bereitgestellt ist.
Der Empfänger nach Anspruch 14, wobei das Zielsignal (30) eine Darstellung eines akustischen Signals ist, und der Rekonstruktor (13) einen linear prädiktiven Codiervorgang ausführt.
Ein Verfahren zum Codieren eines Eingangssignals, um codierte Information für eine Übertragung über ein Übertragungsmedium (31) zu erzeugen, umfassend: Erzeugen eines Zielsignals (30) in Reaktion auf das Eingangssignal; Erzeugen eines primär codierten Signals (121) in Reaktion auf das Eingangssignal, das mit dem Zielsignal (30) übereinstimmen soll; Erzeugen von codierter Information in Reaktion auf das Eingangssignal, aus der das primär codierte Signal (121) zu rekonstruieren ist; Erzeugen, in Reaktion auf das primär codierte Signal (121) und das Zielsignal (30), von Verbesserungsinformation, die ein multiplikatives Verhältnis zwischen einem Spektrum des primär codierten Signals (121) und dem Zielsignal (30) darstellt; Erzeugen einer codierten Darstellung der Verbesserungsinformation (34); und Ausgeben der codierten Darstellung der Verbesserungsinformation (34) und der codierten Information (38), aus der das primär codierte Signal (121) zu rekonstruieren ist, auf das Übertragungsmedium (31).
Das Verfahren nach Anspruch 24, wobei der Ausgabeschritt ein Betreiben eines Transmitters in einem Zelltelefon umfasst.
Das Verfahren nach Anspruch 24, wobei das Eingangssignal ein akustisches Signal ist, und wobei der Schritt eines Erzeugens des primär codierten Signals (121) ein Ausführen eines linear prädiktiven Codiervorgangs umfasst.
Das Verfahren nach Anspruch 24, wobei der Schritt eines Erzeugens von Verbesserungsinformation ein Bilden jeweiliger Frequenzbereichstransformierter (56) des Zielsignals (30) und des primär codierten Signals (121) umfasst.
Das Verfahren nach Anspruch 27, wobei der Schritt eines Erzeugens von Verbesserungsinformation ein Teilen (51) eines der transformierten Signale durch das andere der transformierten Signale umfasst, um Information über eine erwünschte Übertragungsfunktion zu erzeugen.
Das Verfahren nach Anspruch 28, wobei der Schritt zum Erzeugen einer codierten Darstellung ein Erzeugen einer Approximationsfunktion umfasst, die die erwünschte Übertragungsfunktion annähert.
Das Verfahren nach Anspruch 29, wobei der Schritt zur Erzeugung einer Approximationsfunktion ein Erzeugen einer Autokorrelationsfunktion (71) aus der Information über die erwünschte Übertragungsfunktion umfasst.
Das Verfahren nach Anspruch 30, wobei die Approximationsfunktion eine Filterfunktion ist, und wobei der Schritt zum Erzeugen der Approximationsfunktion ein Erzeugen von Filterkoeffizienten, die die Approximationsfunktion definieren, in Reaktion auf die Autokorrelationsfunktion umfasst.
Das Verfahren nach Anspruch 31, wobei der Schritt zum Erzeugen einer Approximationsfunktion ein Durchführen einer Frequenztransformation mit den Filterkoeffizienten umfasst, um eine frequenztransformierte Approximationsfunktion zu erzeugen.
Das Verfahren nach Anspruch 32, wobei der Schritt zum Erzeugen einer Approximationsfunktion ein Quantisieren (77) der Filterkoeffizienten der frequenztransformierten Approximationsfunktion umfasst.
Das Verfahren nach Anspruch 29, wobei der Schritt zum Erzeugen einer Approximationsfunktion einschließt, nur Betragsinformation bezüglich der erwünschten Übertragungsfunktion zu verwenden, um die Approximationsfunktion zu erzeugen.
Das Verfahren nach Anspruch 29, wobei der Schritt zum Erzeugen einer Approximationsfunktion ein Formatieren der Approximationsfunktion als eine Serie von aufeinander folgenden Approximationsstufen umfasst, die kollektiv die Approximationsfunktion definieren.
Das Verfahren nach Anspruch 24, wobei der Ausgabeschritt ein Erzeugen eines Kompositsignals umfasst, mit einem Primärabschnitt entsprechend der codierten Information, aus der das primär codierte Signal (121) zu rekonstruieren ist, und mit einem Zusatzabschnitt, der der codierten Repräsentation der Verbesserungsinformation (34) entspricht.
Ein Verfahren zum Decodieren codierter von einem Übertragungsmedium (31) empfangener Information, umfassend: Rekonstruieren (13), aus der codierten Information, eines rekonstruierten Signals (133), das mit einem Zielsignal (30) übereinstimmen soll; Erlangen, aus der codierten Information, von Verbesserungsinformation, die ein multiplikatives Verhältnis zwischen dem Spektrum des rekonstruierten Signals (133) und dem Spektrum des Zielsignals (30) anzeigt; und Erzeugen, in Reaktion auf das rekonstruierte Signal (133) und die Verbesserungsinformation, eines verbesserten rekonstruierten Signals, das mit dem Zielsignal (30) besser als das rekonstruierte Signal (133) übereinstimmt.
Das Verfahren nach Anspruch 37, weiter mit einem selektiven Verzicht auf den Schritt eines Erzeugens eines verbesserten rekonstruierten Signals.
Das Verfahren nach Anspruch 37, wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals ein Bilden einer Frequenzbereichstransformation (81) des rekonstruierten Signals (133) umfasst.
Das Verfahren nach Anspruch 39, wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals (135) ein Multiplizieren (83) des transformierten rekonstruierten Signals mit der Verbesserungsinformation umfasst.
Das Verfahren nach Anspruch 40, wobei die Verbesserungsinformation Filterkoeffizienten umfasst, die einen Filter definieren.
Das Verfahren nach Anspruch 40, wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals (135) ein Produzieren einer inversen Frequenzbereichstransformation (85) eines durch den Multiplikationsschritt erzeugten Multiplikationsergebnisses umfasst.
Das Verfahren nach Anspruch 40, wobei die Verbesserungsinformation einen Multistufenfilter mit einer Vielzahl von Filterstufen beschreibt, und wobei der Schritt zum Erzeugen eines verbesserten rekonstruierten Signals ein Erzeugen eines Produktes von Filterübertragungsfunktionen umfasst, die jeweilige Stufen des Multistufenfilters definieren, wobei das Produkt einer Gesamtfilterübertragungsfunktion entspricht, die den Multistufenfilter definiert.
Das Verfahren nach Anspruch 43, wobei der Schritt zum Erzeugen eines Produkts ein selektives Ausschließen einer beliebigen der Filterstufenübertragungsfunktionen aus dem Produkt umfasst.
Das Verfahren nach Anspruch 37, wobei das Übertragungsmedium (31) ein Kommunikationskanal eines Zellulartelefonnetzwerks ist.
Das Verfahren nach Anspruch 37, wobei das Zielsignal (30) eine Repräsentation eines akustischen Signals ist, und der Rekonstruktionsschritt ein Ausführen eines linear prädiktiven Codiervorgangs umfasst.
Der Transmitter nach Anspruch 4, wobei der Frequenzbereichstransformator (56) einen Fourier-Transformator zum Bilden einer Fouriertransformierten umfasst.
Der Empfänger nach Anspruch 16, wobei der Frequenbereichstransformator (81) einen Fourier-Transformator zum Bilden einer Fouriertransformierten umfasst.
Der Empfänger nach Anspruch 19, wobei der inverse Frequenbereichstransformator (85) einen inversen Fourier-Transformator zum Bilden einer inversen Fouriertransformierten umfasst.
Das Verfahren nach Anspruch 27, wobei der Schritt zum Bilden von Frequenzbereichstransformationen (56) ein Bilden von Fouriertransformationen umfasst.
Das Verfahren nach Anspruch 39, wobei der Schritt zum Bilden einer Frequenzbereichstransformation (81) ein Bilden einer Fouriertransformation umfasst.
Das Verfahren nach Anspruch 42, wobei der Schritt zum Erzeugen einer inversen Frequenzbereichstransformation (85) ein Erzeugen einer inversen Fouriertransformation umfasst.