DE69131776T2 - Verfahren zur sprachanalyse und synthese - Google Patents

Verfahren zur sprachanalyse und synthese Download PDF

Info

Publication number
DE69131776T2
DE69131776T2 DE69131776T DE69131776T DE69131776T2 DE 69131776 T2 DE69131776 T2 DE 69131776T2 DE 69131776 T DE69131776 T DE 69131776T DE 69131776 T DE69131776 T DE 69131776T DE 69131776 T2 DE69131776 T2 DE 69131776T2
Authority
DE
Germany
Prior art keywords
pitch
values
error function
tracking
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69131776T
Other languages
English (en)
Other versions
DE69131776D1 (de
Inventor
John C. Somerville HARDWICK
Jae S. Winchester LIM
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Voice Systems Inc
Original Assignee
Digital Voice Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Voice Systems Inc filed Critical Digital Voice Systems Inc
Application granted granted Critical
Publication of DE69131776D1 publication Critical patent/DE69131776D1/de
Publication of DE69131776T2 publication Critical patent/DE69131776T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

  • Diese Erfindung betrifft Verfahren zum Codieren und Synthetisieren von Sprache.
  • Einschlägige Veröffentlichungen umfassen: Flanagan, Speech Analysis, Synthesis and Perception, Springer-Verlag, 1972, S. 378–386 (erörtert einen Phasenvocoder – ein auf der Frequenz basierendes Sprach-Analyse-/Synthese-System); Quatieri, et al., "Speech Transformations Based on a Sinusoidal Representation", IEEE TASSP, Band ASSP34, Nr. 6, Dez. 1986, S. 1449–1986, (erörtert ein Analyse-Synthese-Verfahren auf der Basis einer sinusförmigen Darstellung); Griffin, et al., "Multiband Excitation Vocoder", Ph.D. Thesis, M.I.T., 1987, (erörtert Mehrbandanregungs-Analyse-Synthese); Griffin, et al., "A New Pitch Detection Algorithm", Int. Conf. on DSP, Florenz, Italien, 5.–8. Sept. 1984 (erörtert Tonhöhenabschätzung); Griffin, et al. "A New Model-Based Speech Analysis/Synthesis System", Proc. ICASSP 85, S. 513–516, Tampa, FL., 26.–29. März 1985 (erörtert alternative Tonhöhen-Wahrscheinlichkeitsfunktionen und Stimmaße); Hardwick, "A 4.8 kbps Multi-Band Excitation Speech Coder, S.M. Thesis, M.I.T., Mai 1988 (erörtert einen Sprachcodierer mit 4,8 kBit/s, der auf dem Mehrbandanregungssprachmodell basiert); McAulay et al., "Mid-Rate Coding Based on a Sinusoidal Representation of Speech", Proc. ICASSP 85, S. 945–948, Tampa, FL., 26.–29. März 1985 (erörtert Sprachcodierung auf der Basis einer sinusförmigen Darstellung); Almieda et al., "Harmonic Coding with Variable Frequency Synthesis", Proc. 1983, Spain Workshop on Sig. Proc. and its Applications", Sitges., Spanien, Sept. 1983 (erörtert Zeitbereichs-Stimmsynthese); Almieda et al., "Variable Frequency Synthesis: An Improved Harmonic Coding Scheme", Proc. ICASSP 84, San Diego, CA, S. 289–292, 1984 (erörtert Zeitbereichs-Stimmsynthese); McAulay et al., "Computationally Efficient Sine-Wave Synthesis and its Application to Sinusoidal Transform Coding", Proc. ICASSP 88, New York, NY, S. 370–373, April 1988 (erörtert Frequenzbereichs-Stimmsynthese); Griffin et al., "Signal Estimation From Modified Short-Time Fourier Transform", IEEE TASSP, Band 32, Nr. 2, S. 236–243, April 1984 (erörtert gewichtete Überlappungs-Additions-Synthese).
  • Das Problem der Analyse und Synthese von Sprache besitzt eine große Anzahl von Anwendungen und hat folglich in der Literatur eine beträchtliche Aufmerksamkeit erlangt. Eine Klasse von Sprach-Analyse-/Synthese-Systemen (Vocodern), die in der Praxis ausgedehnt untersucht und verwendet wurden, basiert auf einem zugrundeliegenden Sprachmodell. Beispiele von Vocodern umfassen Vocoder mit linearer Vorhersage, homomorphe Vocoder, und Kanalvocoder. Bei diesen Vocodern wird die Sprache auf Kurzzeitbasis als Antwort eines linearen Systems, das durch eine periodische Impulsfolge für stimmhafte Laute oder statistisches Rauschen für stimmlose Laute angeregt wird, modelliert. Für diese Klasse von Vocodern wird die Sprache durch zuerst Teilen der Sprache in Abschnitte unter Verwendung eines Fensters, wie z.B. eines Hamming-Fensters, analysiert. Dann werden für jedes Sprachsegment die Anregungsparameter und Systemparameter bestimmt. Die Anregungsparameter bestehen aus der Entscheidung Stimme/keine Stimme und der Tonhöhenperiode. Die Systemparameter bestehen aus der Spektralhüllkurve oder der Impulsantwort des Systems. Um Sprache zu synthetisieren, werden die Anregungsparameter verwendet, um ein Anregungssignal zu synthetisieren, das aus einer periodischen Impulsfolge in stimmhaften Bereichen oder statistischem Rauschen in stimmlosen Bereichen besteht. Dieses Anregungssignal wird dann unter Verwendung der abgeschätzten Systemparameter gefiltert.
  • Obwohl Vocoder, die auf diesem zugrundeliegenden Sprachmodell basieren, bei der Synthetisierung von verständlicher Sprache ziemlich erfolgreich waren, waren sie bei der Synthetisierung von Sprache mit hoher Qualität nicht erfolgreich. Folglich wurden sie in Anwendungen, wie z.B. der Modifikation von Sprache im Zeitmaßstab, der Sprachverstärkung oder Sprachcodierung mit hoher Qualität, nicht umfangreich verwendet. Die schlechte Qualität der synthetisierten Sprache ist teilweise auf die ungenaue Abschätzung der Tonhöhe zurückzuführen, welche einen wichtigen Sprachmodellparameter darstellt.
  • Um die Leistung der Tonhöhenerfassung zu verbessern, wurde 1984 von Griffin und Lim ein neues Verfahren entwickelt. Dieses Verfahren wurde 1988 von Griffin und Lim weiter verfeinert. Dieses Verfahren ist für eine Vielzahl von verschiedenen Vocodern brauchbar und ist besonders nützlich für einen Vocoder mit Mehrbandanregung (MBE).
  • Wir wollen mit s(n) ein Sprachsignal bezeichnen, das durch Abtasten eines analogen Sprachsignals erhalten wird. Die Abtastfrequenz, die typischerweise für Sprachcodieranwendungen verwendet wird, liegt im Bereich zwischen 6 kHz und 10 kHz. Das Verfahren funktioniert gut für eine beliebige Abtastfrequenz mit entsprechender Änderung der bei dem Verfahren verwendeten verschiedenen Parameter.
  • Wir multiplizieren s(n) mit einem Fenster w(n), um ein ausschnittweise dargestelltes Signal sw(n) zu erhalten. Das verwendete Fenster ist typischerweise ein Hamming-Fenster oder ein Kaiser-Fenster. Der Vorgang der Ausschnittdarstellung greift ein kleines Segment von s(n) heraus. Ein Sprachsegment wird auch als Sprachrahmen bezeichnet.
  • Das Ziel bei der Tonhöhenerfassung besteht darin, die dem Segment sw(n) entsprechende Tonhöhe abzuschätzen. Wir beziehen uns auf sw(n) als aktuelles Sprachsegment, und die Tonhöhe, die dem aktuellen Sprachsegment entspricht, wird mit P0 bezeichnet, wobei sich "0" auf das "aktuelle" Sprachsegment bezieht. Der Bequemlichkeit halber verwenden wir auch P, um P0 zu bezeichnen. Wir verschieben dann das Fenster um ein gewisses Ausmaß (typischerweise etwa 20 ms oder dergleichen) und erhalten einen neuen Sprachrahmen und schätzen die Tonhöhe für den neuen Rahmen ab. Wir bezeichnen die Tonhöhe dieses neuen Sprachsegments als P1. In ähnlicher Weise bezieht sich P–1 auf die Tonhöhe des vergangenen Sprachsegments. Die in dieser Beschreibung nützlichen Bezeichnungen sind P0 entsprechend der Tonhöhe des aktuellen Rahmens, P–2 und P–1 entsprechend der Tonhöhe der vergangenen zwei aufeinanderfolgenden Sprachrahmen und P1 und P2 entsprechend der Tonhöhe der zukünftigen Sprachrahmen.
  • Die synthetisierte Sprache am Synthesizer, die sw(n) entspricht, wird mit s ^ w(n) bezeichnet. Die Fouriertransformationen von sw(n) und s ^ w(n) werden mit Sw(ω) und S ^ w(ω) bezeichnet.
  • Das gesamte Verfahren zur Tonhöhenerfassung ist in 1 dargestellt. Die Tonhöhe P wird unter Verwendung eines zweistufigen Verfahrens abgeschätzt. Wir erhalten zuerst eine anfängliche Tonhöhenabschätzung, die mit P ^ I bezeichnet wird. Die anfängliche Abschätzung ist auf ganzzahlige Werte beschränkt. Die anfängliche Abschätzung wird dann verfeinert, um die Endabschätzung P ^ zu erhalten, die ein nicht ganzzahliger Wert sein kann. Das zweistufige Verfahren verringert die Menge an erforderlicher Berechnung.
  • Um die anfängliche Tonhöhenabschätzung zu erhalten, bestimmen wir eine Tonhöhen-Wahrscheinlichkeitsfunktion E(P) als Funktion der Tonhöhe. Diese Wahrscheinlichkeitsfunktion stellt ein Mittel für den numerischen Vergleich von Kandidaten-Tonhöhenwerten bereit. Bei dieser Tonhöhen- Wahrscheinlichkeitsfunktion wird eine Tonhöhenverfolgung verwendet, wie in 2 gezeigt. In allen unseren Erörterungen bei der anfänglichen Tonhöhenabschätzung ist P auf ganzzahlige Werte beschränkt. Die Funktion E(P) wird durch
    Figure 00050001
    erhalten, wobei r(n) eine Autokorrelationsfunktion ist, die durch
    Figure 00050002
    gegeben ist, und wobei gilt
    Figure 00050003
  • Die Gleichungen (1) und (2) können verwendet werden, um E(P) für nur ganzzahlige Werte von P zu bestimmen, da s(n) und w(n) diskrete Signale sind.
  • Die Tonhöhen-Wahrscheinlichkeitsfunktion E(P) kann als Fehlerfunktion betrachtet werden, und typischerweise ist es erwünscht, die Tonhöhenabschätzung derart zu wählen, daß E(P) klein ist. Wir werden bald sehen, warum wir nicht einfach das P wählen, das E(P) minimiert. Man beachte auch, daß E(P) ein Beispiel für eine Tonhöhen-Wahrscheinlichkeitsfunktion ist, die bei der Abschätzung der Tonhöhe verwendet werden kann. Andere angemessene Funktionen können verwendet werden.
  • Die Tonhöhenverfolgung wird verwendet, um die Tonhöhenabschätzung durch den Versuch, das Ausmaß der Tonhöhenänderung zwischen aufeinanderfolgenden Rahmen zu begrenzen, zu verbessern. Wenn die Tonhöhenabschätzung so gewählt wird, daß E(P) streng minimiert wird, dann kann sich die Tonhöhenabschätzung zwischen aufeinanderfolgenden Rahmen abrupt ändern. Diese abrupte Änderung der Tonhöhe kann eine Verschlechterung der synthetisierten Sprache verursachen. Außerdem ändert sich die Tonhöhe typischerweise langsam; daher können die Tonhöhenabschätzungen von benachbarten Rahmen die Abschätzung der Tonhöhe des aktuellen Rahmens unterstützen.
  • Eine Rückblick-Verfolgung wird verwendet, um zu versuchen, eine gewisse Stetigkeit von P gegenüber den vergangenen Rahmen zu bewahren. Auch wenn eine willkürliche Anzahl von vergangenen Rahmen verwendet werden kann, verwenden wir in unserer Erörterung zwei vergangene Rahmen.
  • Wir wollen die anfänglichen Tonhöhenabschätzungen von P–1 und P–2 mit P ^ –1 und P ^ –2 bezeichnen. Bei der Verarbeitung des aktuellen Rahmens sind P ^ –1 und P ^ –2 aus der vorherigen Analyse bereits verfügbar. Wir wollen die Funktionen der Gleichung (1), die aus den vorhergehenden zwei Rahmen erhalten werden, mit E–1(P) und E–2(P) bezeichnen. Dann besitzen E–1(P ^ –1) und E–2(P ^ –2) einige spezielle Werte.
  • Da wir eine Stetigkeit von P wollen, betrachten wir P im Bereich nahe P ^ –1. Der typische verwendete Bereich ist (1 – α)·P ^ –1 ≤ P ≤ (1 + α)·P ^ –1 (4)wobei α irgendeine Konstante ist.
  • Wir wählen nun das P, das innerhalb des durch (4) gegebenen Bereichs von P das minimale E(P) aufweist. Wir bezeichnen dieses P als P*. Wir verwenden nun die folgende Entscheidungsregel. Wenn E–2(P ^ –2) + E–1(P ^ –1) + E(P*) ≤ Schwelle, P ^ I = P*, wobei P ^ I die anfängliche Tonhöhenabschätzung von P ist. (5)
  • Wenn die Bedingung in Gleichung (5) erfüllt ist, haben wir nun die anfängliche Tonhöhenabschätzung P ^ I. Wenn die Bedingung nicht erfüllt ist, dann gehen wir zur Vorschau-Verfolgung über.
  • Die Vorschau-Verfolgung versucht, eine gewisse Stetigkeit von P mit den zukünftigen Rahmen zu bewahren. Auch wenn so viele Rahmen wie erwünscht verwendet werden können, verwenden wir für unsere Erörterung zwei zukünftige Rahmen. Aus dem aktuellen Rahmen haben wir E(P). Wir können diese Funktion auch für die nächsten zwei zukünftigen Rahmen berechnen. Wir bezeichnen diese als E1(P) und E2(P). Dies bedeutet, daß eine Verzögerung bei der Verarbeitung um die Menge vorliegt, die zwei zukünftigen Rahmen entspricht.
  • Wir betrachten einen vernünftigen Bereich von P, der im wesentlichen alle vernünftigen Werte von P einschließt, die der menschlichen Stimme entsprechen. Für eine mit einer Frequenz von 8 kHz abgetastete Sprache ist ein guter Bereich von P zum Betrachten (ausgedrückt als Zahl von Sprachabtastwerten in jeder Tonhöhenperiode) 22 ≤ P < 115.
  • Für jedes P innerhalb dieses Bereichs wählen wir ein P1 und ein P2, so daß CE(P), wie durch (6) gegeben, minimiert wird, CE(P) = E(P) + E1(P1) + E2(P2) (6) unter der Bedingung, daß P1 "nahe" bei P liegt und P2 "nahe" bei P1 liegt. Typischerweise werden diese "Nähe"-Bedingungen als: (1 – α) P ≤ P1 ≤ (1 + α)P (7)und (1 – β) P1 ≤ P2 ≤ (1 + β)P1 (8)ausgedrückt.
  • Dieses Verfahren ist in 3 skizziert. Typische Werte für α und β sind α = β = 0,2.
  • Für jedes P können wir das obige Verfahren verwenden, um CE(P) zu erhalten. Wir haben dann CE(P) als Funktion von P. Wir verwenden die Bezeichnung CE, um den "Summenfehler" zu bezeichnen.
  • Natürlich möchten wir das P wählen, das das minimale CE(P) ergibt. Es besteht jedoch ein Problem, das "Tonhöhenverdoppelungsproblem" genannt wird. Das Tonhöhenverdoppelungsproblem entsteht, da CE(2P) typischerweise klein ist, wenn CE(P) klein ist. Daher kann das Verfahren, das streng auf der Minimierung der Funktion CE(.) basiert, 2P als Tonhöhe wählen, selbst wenn P die korrekte Wahl ist. Wenn das Tonhöhenverdoppelungsproblem auftritt, gibt es eine beträchtliche Verschlechterung der Qualität der synthetisierten Sprache. Das Tonhöhenverdoppelungsproblem wird unter Verwendung des nachstehend beschriebenen Verfahrens vermieden. Wir nehmen an, daß P' der Wert von P ist, der das minimale CE(P) ergibt.
  • Dann betrachten wir
    Figure 00080001
    in dem zulässigen Bereich von P (typischerweise 22 ≤ P < 115). Wenn
    Figure 00090001
    Figure 00090002
    keine ganzen Zahlen sind, wählen wir die zu ihnen am nächsten gelegenen ganzen Zahlen. Wir wollen annehmen, daß
    Figure 00090003
    im zweckmäßigen Bereich liegen. Wir beginnen mit dem kleinsten Wert von P, in diesem Fall
    Figure 00090004
    und verwenden die folgende Regel in der dargestellten Reihenfolge.
  • Wenn
    Figure 00090005
    wobei P ^ F die Abschätzung aus dem Vorwärtsvorschaumerkmal ist.
  • Wenn
    Figure 00090006
  • Einige typische Werte von α1, α2, β1, β2 sind:
    Figure 00090007
  • Wenn
    Figure 00090008
    durch die obige Regel nicht ausgewählt wird, dann gehen wir zum nächstniedrigsten, das in dem obigen Beispiel
    Figure 00090009
    ist. Schließlich wird eines gewählt, oder wir erreichen P = P'. Wenn P = P' ohne irgendeine Wahl erreicht wird, dann ist die Abschätzung P ^ F durch P' gegeben.
  • Der letzte Schritt besteht darin, P ^ F mit der aus der Rückblick-Verfolgung erhaltenen Abschätzung P* zu vergleichen. In Abhängigkeit von dem Ergebnis dieser Entscheidung wird entweder P ^ F oder P* als anfängliche Tonhöhenabschätzung P ^ I gewählt. Ein allgemeiner Satz von Entscheidungsregeln, der zum Vergleichen der zwei Tonhöhenabschätzungen verwendet wird, ist:
  • Wenn CE(P ^ F) < E–2(P ^ –2) + E–1(P ^ –1) + E(P*), dann gilt P ^ I = P ^ F (11)
  • Ansonsten, wenn CE(P ^ F) ≥ E–2(P ^ –2) + E–1(P ^ –1) + E(P*), dann gilt P ^ I = P* (12)
  • Andere Entscheidungsregeln könnten verwendet werden, um die zwei Kandidaten-Tonhöhenwerte zu vergleichen.
  • Das vorstehend erörterte Verfahren der anfänglichen Tonhöhenabschätzung erzeugt einen ganzzahligen Wert für die Tonhöhe. Ein Blockdiagramm dieses Verfahrens ist in 4 gezeigt. Eine Tonhöhenverfeinerung erhöht die Auflösung der Tonhöhenabschätzung auf eine höhere Sub-integer-Auflösung. Typischerweise besitzt die verfeinerte Tonhöhe eine Auflösung von 1/4 einer ganzen Zahl oder 1/8 einer ganzen Zahl.
  • Wir betrachten eine kleine Zahl (typischerweise 4 bis 8) von hohen Auflösungswerten von P nahe P ^ I. Wir werten Er(P) aus, die durch
    Figure 00100001
    gegeben ist, wobei G(ω) eine willkürliche Gewichtungsfunktion ist und wobei gilt
    Figure 00110001
    und
  • Figure 00110002
  • Der Parameter
    Figure 00110003
    ist die Grundfrequenz und Wr(ω) ist die Fouriertransformation des Tonhöhenverfeinerungsfensters wr(n) (siehe 1). Die komplexen Koeffizienten AM in (16) stellen die komplexen Amplituden bei den Oberwellen von ω0 dar. Diese Koeffizienten sind durch
    Figure 00110004
    gegeben, wobei gilt aM = (m – 0,5) ω0 und bM = (m + 0,5)ω0 (17)
  • Die Form von S ^ w(ω), das in (15) gegeben ist, entspricht einem stimmhaften oder periodischen Spektrum.
  • Man beachte, daß andere vernünftige Fehlerfunktionen anstelle von (13) verwendet werden können, beispielsweise
    Figure 00120001
  • Typischerweise ist die Fensterfunktion wr(n) von der in dem Schritt der anfänglichen Tonhöhenabschätzung verwendeten Fensterfunktion verschieden.
  • Ein wichtiger Sprachmodellparameter ist die Information Stimme/keine Stimme. Diese Information bestimmt, ob die Sprache hauptsächlich aus den Oberwellen einer einzigen Grundfrequenz besteht (Stimme), oder ob sie aus einer "rauschartigen" Breitbandenergie besteht (keine Stimme). In vielen früheren Vocodern, wie z.B. Vocodern mit linearer Vorhersage oder homomorphen Vocodern, wird jeder Sprachrahmen entweder vollständig als Stimme oder vollständig als keine Stimme klassifiziert. Im MBE-Vocoder wird das Sprachspektrum Sw(ω) in eine Anzahl von getrennten Frequenzbändern aufgeteilt und eine einzelne Entscheidung Stimme/keine Stimme (V/UV) wird für jedes Band durchgeführt.
  • Die Entscheidungen Stimme/keine Stimme im MBE-Vocoder werden durch Unterteilen des Frequenzbereichs 0 ≤ ω ≤ π in L Bänder bestimmt, wie in 5 gezeigt. Die Konstanten Ω0 = 0, Ω1, . . . ΩL–1, ΩL = π sind die Grenzen zwischen den L Frequenzbändern. Innerhalb jedes Bandes wird durch Vergleichen eines gewissen Stimmaßes mit einer bekannten Schwelle eine V/UV-Entscheidung durchgeführt. Ein allgemeines Stimmaß ist durch
    Figure 00120002
    gegeben, wobei S ^ w(ω) durch die Gleichungen (15) bis (17) gegeben ist. Andere Stimmaße könnten anstelle von (19) verwendet werden. Ein Beispiel eines alternativen Stimmaßes ist durch
    Figure 00130001
    gegeben.
  • Das durch (19) definierte Stimmaß D1 ist die Differenz zwischen Sw(ω) und S ^ w(ω) über das 1-te Frequenzband, das Ω1 < ω < Ω1+1 entspricht. D1 wird mit einer Schwellenfunktion verglichen. Wenn D1 geringer ist als die Schwellenfunktion, dann wird das 1-te Frequenzband als Stimme bestimmt. Ansonsten wird das 1-te Frequenzband als keine Stimme bestimmt. Die Schwellenfunktion hängt typischerweise von der Tonhöhe und der Mittelfrequenz jedes Bandes ab.
  • Bei einer Anzahl von Vocodern, einschließlich des MBE-Vocoders, des Sinustransformationscodierers und des Oberwellencodierers, wird die synthetisierte Sprache insgesamt oder teilweise durch die Summe der Oberwellen einer einzigen Grundfrequenz erzeugt. Beim MBE-Vocoder umfaßt dies den stimmhaften Teil der synthetisierten Sprache, v(n). Der stimmlose Teil der synthetisierten Sprache wird separat erzeugt und dann zum stimmhaften Teil addiert, um das vollständige synthetisierte Sprachsignal zu erzeugen.
  • Es gibt zwei verschiedene Verfahren, die in der Vergangenheit verwendet wurden, um ein stimmhaftes Sprachsignal zu synthetisieren. Das erste Verfahren synthetisiert jede Oberwelle separat im Zeitbereich unter Verwendung einer Reihe von Sinusoszillatoren. Die Phase jedes Oszillators wird aus einem stückweisen Phasenpolynom niedriger Ordnung erzeugt, das gleichförmig zwischen den abgeschätzten Parametern interpoliert. Der Vorteil dieses Verfahrens besteht darin, daß die resultierende Sprachqualität sehr hoch ist. Der Nachteil besteht darin, daß eine große Anzahl von Berechnungen erforderlich ist, um jeden Sinusoszillator zu erzeugen. Diese Rechenkosten dieses Verfahrens können untragbar sein, wenn eine große Anzahl von Oberwellen synthetisiert werden muß.
  • Das zweite Verfahren, das in der Vergangenheit verwendet wurde, um ein stimmhaftes Sprachsignal zu synthetisieren, besteht darin, alle Oberwellen im Frequenzbereich zu synthetisieren und dann eine Schnelle Fouriertransformation (FFT) zu verwenden, um simultan alle synthetisierten Oberwellen in den Zeitbereich umzusetzen. Ein gewichtetes Überlappungs-Additions-Verfahren wird dann verwendet, um die Ausgabe der FFT zwischen den Sprachrahmen gleichförmig zu interpolieren. Da dieses Verfahren nicht die bei der Erzeugung der Sinusoszillatoren nötigen Berechnungen erfordert, ist es rechnerisch viel effizienter als das vorstehend erörterte Zeitbereichsverfahren. Der Nachteil dieses Verfahrens besteht darin, daß für typische Rahmenfrequenzen, die bei der Sprachcodierung verwendet werden (20–30 ms), die Sprachqualität der Stimme im Vergleich zum Zeitbereichsverfahren verringert ist.
  • Wir beschreiben hierin ein verbessertes Verfahren zur Tonhöhenabschätzung, bei dem Tonhöhenwerte mit einer Sub-integer-Auflösung bei der Durchführung der anfänglichen Tonhöhenabschätzung abgeschätzt werden. Bei bevorzugten Ausführungsformen werden die nicht ganzzahligen Werte einer Autokorrelations-Zwischenfunktion, die für Tonhöhenwerte mit einer Sub-integer-Auflösung verwendet wird, durch Interpolieren zwischen ganzzahligen Werten der Autokorrelationsfunktion abgeschätzt.
  • Wir beschreiben hierin auch die Verwendung von Tonhöhenbereichen, um die Menge der bei der Durchführung der anfänglichen Tonhöhenabschätzung erforderlichen Berechnung zu verringern. Der zulässige Tonhöhenbereich wird in eine Vielzahl von Tonhöhenwerten und eine Vielzahl von Bereichen unterteilt. Alle Bereiche enthalten mindestens einen Tonhöhenwert und mindestens ein Bereich enthält eine Vielzahl von Tonhöhenwerten. Für jeden Bereich wird eine Tonhöhen-Wahrscheinlichkeitsfunktion (oder Fehlerfunktion) über alle Tonhöhenwerte innerhalb dieses Bereichs minimiert, und der Tonhöhenwert, der dem Minimum entspricht, und der zugehörige Wert der Fehlerfunktion werden gespeichert. Die Tonhöhe eines aktuellen Segments wird dann unter Verwendung einer Rückblick-Verfolgung ausgewählt, wobei die für ein aktuelles Segment gewählte Tonhöhe der Wert ist, der die Fehlerfunktion minimiert und innerhalb eines ersten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs eines vorherigen Segments liegt. Eine Vorschau-Verfolgung kann ebenfalls allein oder in Verbindung mit der Rückblick-Verfolgung verwendet werden; die für das aktuelle Segment gewählte Tonhöhe ist der Wert, der eine Summenfehlerfunktion minimiert. Die Summenfehlerfunktion stellt eine Abschätzung des Summenfehlers des aktuellen Segments und zukünftiger Segmente bereit, wobei die Tonhöhen von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs des aktuellen Segments eingeschränkt werden. Die Bereiche können eine ungleichmäßige Tonhöhenbreite aufweisen (d.h. der Bereich von Tonhöhen innerhalb der Bereiche weist nicht für alle Bereiche dieselbe Größe auf).
  • Es wird hierin auch ein verbessertes verfahren zur Tonhöhenabschätzung offenbart, bei dem eine von der Tonhöhe abhängige Auflösung bei der Durchführung der anfänglichen Tonhöhenabschätzung verwendet wird, wobei eine höhere Auflösung für gewisse Tonhöhenwerte (typischerweise kleinere Tonhöhenwerte) verwendet wird als für andere Tonhöhenwerte (typischerweise größere Tonhöhenwerte).
  • Wir beschreiben die Verbesserung der Genauigkeit der Entscheidung Stimme/keine Stimme durch Durchführen der Entscheidung in Abhängigkeit von der Energie des aktuellen Segments relativ zur Energie von kurz zurückliegenden Segmenten. Wenn die relative Energie niedrig ist, bevorzugt das aktuelle Segment eine Entscheidung keine Stimme; wenn sie hoch ist, bevorzugt das aktuelle Segment eine Entscheidung Stimme.
  • Wir offenbaren ein verbessertes Verfahren zum Erzeugen der bei der Synthetisierung des stimmhaften Teils von synthetisierter Sprache verwendeten Oberwellen. Einige stimmhaften Oberwellen (typischerweise Oberwellen mit niedriger Frequenz) werden im Zeitbereich erzeugt, wohingegen die restlichen stimmhaften Oberwellen im Frequenzbereich erzeugt werden. Dies bewahrt viel der Recheneinsparungen der Frequenzbereich-Lösungsmethode, während es die Sprachqualität der Zeitbereich-Lösungsmethode bewahrt.
  • Es wird auch ein verbessertes Verfahren zum Erzeugen der stimmhaften Oberwellen im Frequenzbereich beschrieben. Eine lineare Frequenzskalierung wird verwendet, um die Frequenz der stimmhaften Oberwellen zu verschieben, und dann wird eine Inverse Diskrete Fouriertransformation (DFT) verwendet, um die hinsichtlich der Frequenz skalierten Oberwellen in den Zeitbereich umzusetzen. Eine Interpolation und Zeitskalierung werden dann verwendet, um die Wirkung der linearen Frequenzskalierung zu korrigieren. Dieses Verfahren hat den Vorteil einer verbesserten Frequenzgenauigkeit.
  • Gemäß einem ersten Aspekt dieser Erfindung wird ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereitgestellt, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Sub-integer-Auflösung;
    Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
    Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
  • In einem zweiten und alternativen Aspekt dieser Erfindung stellen wir ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereit, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Sub-integer-Auflösung;
    Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
    Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
  • Die Erfindung stellt in einem dritten alternativen Aspekt derselben ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereit, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten;
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält;
    Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt;
    Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und
    Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die die Fehlerfunktion allgemein minimiert und innerhalb eines ersten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs liegt, der die Tonhöhe des vorherigen Segments enthält.
  • In einem vierten alternativen Aspekt derselben stellt die Erfindung ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereit, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten;
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält;
    Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt;
    Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und
    Verwenden einer Vorschau-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die eine Summenfehlerfunktion allgemein minimiert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs, der die Tonhöhe des vorangehenden Segments enthält, eingeschränkt wird.
  • In einem fünften alternativen Aspekt dieser Erfindung wird ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereitgestellt, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung;
    Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
    Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
  • Gemäß einem sechsten alternativen Aspekt dieser Erfindung wird ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereitgestellt, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
    Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung;
    Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
    Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
  • Weitere Merkmale und Vorteile sind aus der folgenden Beschreibung der bevorzugten Ausführungsformen ersichtlich.
  • In den Zeichnungen gilt:
  • 15 sind Diagramme, die Verfahren zur Tonhöhenabschätzung des Standes der Technik zeigen.
  • 6 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der Tonhöhenwerte mit einer Sub-integer-Auflösung abgeschätzt werden.
  • 7 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der Tonhöhenbereiche bei der Durchführung der Tonhöhenabschätzung verwendet werden.
  • 8 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der eine von der Tonhöhe abhängige Auflösung bei der Durchführung der Tonhöhenabschätzung verwendet wird.
  • 9 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der die Entscheidung Stimme/keine Stimme in Abhängigkeit von der relativen Energie des aktuellen Segments und von kurz zurückliegenden Segmenten durchgeführt wird.
  • 10 ist ein Blockdiagramm, das eine bevorzugte Ausführungsform der Erfindung zeigt, bei der ein hybrides Zeit- und Frequenzbereich-Syntheseverfahren verwendet wird.
  • 11 ist ein Blockdiagramm, das eine bevorzugte Ausführungsform der Erfindung zeigt, bei der eine modifizierte Frequenzbereichssynthese verwendet wird.
  • Im Stand der Technik wird die anfängliche Tonhöhenabschätzung mit einer ganzzahligen Auflösung durchgeführt. Die Leistung des Verfahrens kann unter Verwendung einer Sub-integer-Auflösung (z.B. der Auflösung von 1/2 ganzen Zahl) signifikant verbessert werden. Dies erfordert eine Modifikation des Verfahrens. Wenn beispielsweise E(P) in Gleichung (1) als Fehlerkriterium verwendet wird, erfordert die Auswertung von E(P) für ein nicht ganzzahliges P die Auswertung von r(n) in (2) für nicht ganzzahlige Werte von n. Dies kann durch r(n + d) = (1 – d)·r(n) + d·r(n + 1) für 0 ≤ d ≤ 1 (21)durchgeführt werden.
  • Gleichung (21) ist eine einfache lineare Interpolationsgleichung; andere Interpolationsformen könnten jedoch anstelle der linearen Interpolation verwendet werden. Die Absicht besteht darin, zu fordern, daß die anfängliche Tonhöhenabschätzung eine Sub-integer-Auflösung aufweist, und (21) für die Berechnung von E(P) in (1) zu verwenden. Dieses Verfahren ist in 6 skizziert.
  • Bei der anfänglichen Tonhöhenabschätzung betrachten frühere Verfahren typischerweise ungefähr 100 verschiedene Werte (22 ≤ P < 115) von P. Wenn wir eine Sub-integer-Auflösung zulassen, z.B. 1/2 ganze Zahl, dann müssen wir 186 verschiedene Werte von P betrachten. Dies erfordert eine große Menge an Berechnung, insbesondere bei der Vorschau-Verfolgung. Um die Berechnungen zu verringern, können wir den zulässigen Bereich von P in eine kleine Anzahl von ungleichmäßigen Bereichen aufteilen. Eine vernünftige Zahl ist 20. Ein Beispiel von zwanzig ungleichmäßigen Bereichen ist folgendermaßen:
    Bereich 1: 22 ≤ P < 24
    Bereich 2: 24 ≤ P < 26
    Bereich 3: 26 ≤ P < 28
    Bereich 4: 28 ≤ P < 31
    Bereich 5: 31 ≤ P < 34
    Bereich 19: 99 ≤ P < 107
    Bereich 20: 107 ≤ P < 115
  • Innerhalb jedes Bereichs behalten wir den Wert von P, für den E(P) minimal ist, und den entsprechenden Wert von E(P). Alle anderen Informationen hinsichtlich E(P) werden verworfen. Das Verfahren der Tonhöhenverfolgung (Rückblick und Vorschau) verwendet diese Werte, um die anfängliche Tonhöhenabschätzung P ^ I zu bestimmen. Die Bedingungen der Tonhöhenstetigkeit werden derart modifiziert, daß sich die Tonhöhe entweder bei der Rückblick-Verfolgung oder bei der Vorschau-Verfolgung nur um eine feste Anzahl von Bereichen ändern kann.
  • Wenn beispielsweise P_1 = 26 ist, was im Tonhöhenbereich 3 liegt, dann kann P auf den Tonhöhenbereich 2, 3 oder 4 eingeschränkt werden. Dies würde einer zulässigen Tonhöhendifferenz von 1 Bereich bei der "Rückblick"-Tonhöhenverfolgung entsprechen.
  • Wenn P = 26 ist, was im Tonhöhenbereich 3 liegt, dann kann P1 ebenso auf den Tonhöhenbereich 1, 2, 3, 4 oder 5 eingeschränkt werden. Dies würde einer zulässigen Tonhöhendifferenz von 2 Bereichen bei der "Vorschau"-Tonhöhenverfolgung entsprechen. Man beachte, wie die zulässige Tonhöhendifferenz für die "Vorschau"-Verfolgung anders als für die "Rückblick"-Verfolgung sein kann. Die Verringerung von ungefähr 200 Werten von P auf ungefähr 20 Bereiche verringert die Rechenanforderungen für die Vorschau-Tonhöhenverfolgung um Größenordnungen mit geringem Unterschied in der Leistung. Außerdem werden die Speicheranforderungen verringert, da E(P) nur bei 20 verschiedenen Werten von P1 anstatt bei 100–200 gespeichert werden muß.
  • Eine weitere wesentliche Verringerung der Anzahl von Bereichen verringert die Berechnungen, verschlechtert aber auch die Leistung. Wenn beispielsweise zwei Kandidaten-Tonhöhen in denselben Bereich fallen, ist die Wahl zwischen den beiden streng eine Funktion dessen, welche ein niedrigeres E(P) ergibt. In diesem Fall gehen die Vorteile der Tonhöhenverfolgung verloren. 7 zeigt einen Ablaufplan des Verfahrens zur Tonhöhenabschätzung, das Tonhöhenbereiche zum Abschätzen der anfänglichen Tonhöhe verwendet.
  • Bei verschiedenen Vocodern, wie z.B. MBE und LPC, besitzt die abgeschätzte Tonhöhe eine feste Auflösung, beispielsweise eine Auflösung von einem ganzzahligen Abtastwert oder eine Auflösung von 1/2 Abtastwert. Die Grundfrequenz ω0 steht mit der Tonhöhe P invers in Beziehung und daher entspricht eine feste Tonhöhenauflösung einer viel geringeren Grundfrequenzauflösung für kleines P als für großes P. Das Verändern der Auflösung von P als Funktion von P kann durch Entfernen von einigem der Tonhöhenabhängigkeit der Grundfrequenzauflösung die ≤ Systemleistung verbessern. Typischerweise wird dies unter Verwendung einer höheren Tonhöhenauflösung für kleine Werte von P als für größere Werte von P durchgeführt. Beispielsweise kann die Funktion E(P) mit einer Auflösung von einem halben Abtastwert für Tonhöhenwerte im Bereich von 22 ≤ P < 60 und mit einer Auflösung von einem ganzzahligen Abtastwert für Tonhöhenwerte im Bereich von 60 ≤ P < 115 ausgewertet werden. Ein weiteres Beispiel bestünde darin, E(P) mit einer Auflösung eines halben Abtastwerts im Bereich von 22 ≤ P < 40 auszuwerten, E(P) mit einer Auflösung von einem ganzzahligen Abtastwert für den Bereich von 42 ≤ P < 80 auszuwerten, und E(P) mit einer Auflösung von 2 (d.h. nur für geradzahlige Werte von P) für den Bereich von 80 ≤ P < 115 auszuwerten. Die Erfindung besitzt den Vorteil, daß E(P) nur für die Werte von P, die für das Tonhöhenverdoppelungsproblem am empfindlichsten sind, mit einer höheren Auflösung ausgewertet wird, wodurch Berechnung eingespart wird. 8 zeigt einen Ablaufplan des Verfahrens zur Tonhöhenabschätzung, das eine von der Tonhöhe abhängige Auflösung verwendet.
  • Das Verfahren mit einer von der Tonhöhe abhängigen Auflösung kann mit dem Verfahren zur Tonhöhenabschätzung, welches Tonhöhenbereiche verwendet, kombiniert werden. Das Verfahren der Tonhöhenverfolgung, das auf Tonhöhenbereichen basiert, wird modifiziert, um E(P) mit der korrekten Auflösung (d.h. von der Tonhöhe abhängig) auszuwerten, wenn der minimale Wert von E(P) innerhalb jedes Bereichs aufgefunden wird.
  • In früheren Vocoderausführungen wird die V/UV-Entscheidung für jedes Frequenzband durch vergleichen eines gewissen Maßes für die Differenz zwischen Sw(ω) und S ^ w(ω) mit einer gewissen Schwelle durchgeführt. Die Schwelle ist typischerweise eine Funktion der Tonhöhe P und der Frequenzen in dem Band. Die Leistung kann unter Verwendung einer Schwelle, die eine Funktion von nicht nur der Tonhöhe P und den Frequenzen in dem Band, sondern auch der Energie des Signals ist (wie in 9 gezeigt), beachtlich verbessert werden. Durch Verfolgen der Signalenergie können wir die Signalenergie im aktuellen Rahmen relativ zur kurz vorangegangenen Entwicklung abschätzen. Wenn die relative Energie niedrig ist, dann ist das Signal wahrscheinlicher stimmlos, und daher wird die Schwelle so eingestellt, daß sich eine einseitige Entscheidung, die Stimmlosigkeit bevorzugt, ergibt. Wenn die relative Energie hoch ist, ist das Signal wahrscheinlich stimmhaft, und daher wird die Schwelle so eingestellt, daß sich eine einseitige Entscheidung, die Stimmhaftigkeit bevorzugt, ergibt. Die von der Energie abhängige Stimmschwelle wird folgendermaßen implementiert. ξ0 soll ein Energiemaß darstellen, das folgendermaßen berechnet wird
    Figure 00260001
    wobei Sw(ω) in (14) definiert ist und H(ω) eine von der Frequenz abhängige Gewichtungsfunktion ist. Verschiedene andere Energiemaße könnten anstelle von (22) verwendet werden, beispielsweise
    Figure 00260002
  • Die Absicht besteht darin, ein Maß zu verwenden, das die relative Intensität von jedem Sprachsegment registriert. Drei Größen, die grob der mittleren lokalen Energie, der maximalen lokalen Energie und der minimalen lokalen Energie entsprechen, werden bei jedem Sprachrahmen gemäß den folgenden Regeln aktualisiert:
    Figure 00260003
  • Für den ersten Sprachrahmen werden die Werte von ξmitt, ξmax und ξmin auf eine gewisse willkürliche positive Zahl initialisiert. Die Konstanten γ0, γ1, ... γ4 und μ steuern die Anpassungsfähigkeit des Verfahrens. Typische Werte wären:
    γ0 = 0,067
    γ1 = 0,5
    γ2 = 0,01
    γ3 = 0,5
    γ4 = 0,025
    μ = 2,0
  • Die Funktionen in (24), (25) und (26) sind nur Beispiele und andere Funktionen können auch möglich sein. Die Werte von ξ0, ξmitt, ξmin und ξmax wirken sich auf die V/UV-Schwellenfunktion wie folgt aus. T(P,ω) soll eine von der Tonhöhe und der Frequenz abhängige Schwelle sein. Wir definieren die neue von der Energie abhängige Schwelle Tξ(P,W)) durch Tξ(P,ω) = T(P,ω)·M(ξ0, ξmitt, ξmin, ξmax) (27)wobei M(ξ0, ξmitt, ξmin, ξmax) durch
    Figure 00270001
    gegeben ist.
  • Typische Werte der Konstanten λ0, λ1, λ2 und ξStille sind:
    λ0 = 0,5
    λ1 = 2,0
    λ2 = 0,0075
    ξStille = 200,0
  • Die V/UV-Information wird durch Vergleichen von D1, das in (19) definiert ist, mit der von der Energie abhängigen Schwelle
    Figure 00280001
    bestimmt. Wenn D1 geringer ist als die Schwelle, dann wird das 1-te Frequenzband als stimmhaft bestimmt. Ansonsten wird das 1-te Frequenzband als stimmlos bestimmt .
  • T(P,ω) in Gleichung (27) kann so modifiziert werden, daß es eine Abhängigkeit von anderen Variablen als nur der Tonhöhe und Frequenz beinhaltet, ohne diesen Aspekt der Erfindung zu beeinflussen. Außerdem kann die Tonhöhenabhängigkeit und/oder die Frequenzabhängigkeit von T(P,ω) beseitigt werden (in seiner einfachsten Form kann T(P,ω) gleich einer Konstante sein), ohne diesen Aspekt der Erfindung zu beeinflussen.
  • In einem weiteren Aspekt der Erfindung kombiniert ein neues hybrides Stimm-Sprachsyntheseverfahren die Vorteile von sowohl dem Zeitbereichs- als auch dem Frequenzbereichsverfahren, die vorher verwendet wurden. Wir haben entdeckt, daß, wenn das Zeitbereichsverfahren für eine kleine Anzahl von Oberwellen mit niedriger Frequenz verwendet wird, und das Frequenzbereichsverfahren für die restlichen Oberwellen verwendet wird, ein geringer Verlust in der Sprachqualität besteht. Da nur eine kleine Anzahl von Oberwellen mit dem Zeitbereichsverfahren erzeugt wird, bewahrt unser neues Verfahren viel der Recheneinsparungen der gesamten Frequenzbereich-Lösungsmethode. Das hybride Stimm-Sprachsyntheseverfahren ist in 10 gezeigt.
  • Unser neues hybrides Stimm-Sprachsyntheseverfahren arbeitet in der folgenden Weise. Das stimmhafte Sprachsignal v(n) wird gemäß v(n) = v1(n) + v2(n) (29) synthetisiert, wobei v1(n) eine Niederfrequenzkomponente ist, die mit einem Zeitbereich-Stimmsyntheseverfahren erzeugt wird, und v2(n) eine Hochfrequenzkomponente ist, die mit einem Frequenzbereich-Syntheseverfahren erzeugt wird. Typischerweise wird die Niederfrequenzkomponente v1(n) durch
    Figure 00290001
    synthetisiert, wobei ak(n) ein stückweises lineares Polynom ist und Θk(n) ein stückweises Phasenpolynom niedriger Ordnung ist. Der Wert von K in Gleichung (30) steuert die maximale Anzahl von Oberwellen, die im Zeitbereich synthetisiert werden. Wir verwenden typischerweise einen Wert von K im Bereich von 4 ≤ K ≤ 12. Jegliche restlichen stimmhaften Oberwellen mit hoher Frequenz werden unter Verwendung eines Frequenzbereich-Stimmsyntheseverfahrens synthetisiert.
  • In einem weiteren Aspekt der Erfindung haben wir ein neues Frequenzbereich-Syntheseverfahren entwickelt, das effizienter ist und eine bessere Frequenzgenauigkeit aufweist als das Frequenzbereichsverfahren von McAulay und Quatieri. In unserem neuen Verfahren werden die stimmhaften Oberwellen hinsichtlich der Frequenz linear skaliert gemäß der Abbildung
    Figure 00290002
    wobei L eine kleine ganze Zahl ist (typischerweise L < 1000). Diese lineare Frequenzskalierung verschiebt die Frequenz der k-ten Oberwelle von einer Frequenz ωk = k·ω0, wobei ω0 die Grundfrequenz ist, zu einer neuen Frequenz
    Figure 00290003
  • Da die Frequenzen
    Figure 00290004
    den Abtastfrequenzen einer Diskreten L-Punkt-Fouriertransformation (DFT) entsprechen, kann eine Inverse L-Punkt-DFT verwendet werden, um alle abgebildeten Oberwellen simultan in das Zeitbereichssignal v ^ 2(n) zu transformieren. Für die Berechnung der Inversen DFT existiert eine Anzahl von effizienten Algorithmen. Einige Beispiele umfassen die Schnelle Fouriertransformation (FFT), die Winograd-Fouriertransformation und den Primfaktoralgorithmus. Jeder dieser Algorithmen erlegt den zulässigen Werten von L unterschiedliche Bedingungen auf. Beispielsweise erfordert die FFT, daß L eine stark zerlegbare Zahl ist, wie z.B. 27, 35, 24·32 usw.
  • Aufgrund der linearen Frequenzskalierung ist v ^ 2(n) eine zeitlich skalierte Version des gewünschten Signals v2(n). Daher kann v2(n aus v ^ 2(n) durch die Gleichungen (31)–(33), die einer linearen Interpolation und Zeitskalierung von v ^ 2(n) entsprechen, wiedergewonnen werden
    Figure 00300001
  • Andere Interpolationsformen könnten anstelle der linearen Interpolation verwendet werden. Dieses Verfahren ist in 11 skizziert.
  • Weitere Ausführungsformen sind möglich. Der hierin verwendete Begriff "Fehlerfunktion" besitzt eine breite Bedeutung und schließt Tonhöhen-Wahrscheinlichkeitsfunktionen ein.

Claims (32)

  1. Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Rufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Subinteger-Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
  2. Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Subinteger-Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
  3. Verfahren nach Anspruch 1, welches ferner die folgenden Schritte umfaßt: Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird; und Entscheiden, als Tonhöhe des aktuellen Segments entweder die mit der Rückblick-Verfolgung gewählte Tonhöhe oder die mit der Vorschau-Verfolgung gewählte Tonhöhe zu verwenden.
  4. Verfahren nach Anspruch 3, wobei die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als eine vorbestimmte Schwelle; ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als der Summenfehler (abgeleitet von der Summenfehlerfunktion, die für die Vorschau-Verfolgung verwendet wird); ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Vorschau-Verfolgung ausgewählten Tonhöhe ist.
  5. Verfahren nach Anspruch 1, 2 oder 3, wobei die Tonhöhe so ausgewählt wird, daß die Fehlerfunktion oder Summenfehlerfunktion minimiert wird.
  6. Verfahren nach Anspruch 1, 2 oder 3, wobei die Fehlerfunktion oder Summenfehlerfunktion von einer Autokorrelationsfunktion abhängt.
  7. Verfahren nach Anspruch 1, 2 oder 3, wobei die Fehlerfunktion diejenige ist, die in den Gleichungen (1), (2) und (3) gezeigt ist.
  8. Verfahren nach Anspruch 6, wobei die Autokorrelationsfunktion für nicht ganzzahlige Werte durch Interpolieren zwischen ganzzahligen Werten der Autokorrelationsfunktion abgeschätzt wird.
  9. Verfahren nach Anspruch 7, wobei r(n) für nicht ganzzahlige Werte durch Interpolieren zwischen ganzzahligen Werten von r(n) abgeschätzt wird.
  10. Verfahren nach Anspruch 9, wobei die Interpolation unter Verwendung des Ausdrucks von Gleichung (21) durchgeführt wird.
  11. Verfahren nach Anspruch 1, 2 oder 3, welches den weiteren Schritt der Verfeinerung der Tonhöhenabschätzung umfaßt.
  12. Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten; Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die die Fehlerfunktion allgemein minimiert und innerhalb eines ersten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs liegt, der die Tonhöhe des vorherigen Segments enthält.
  13. Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten; Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und Verwenden einer Vorschau-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die eine Summenfehlerfunktion allgemein minimiert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs, der die Tonhöhe des vorangehenden Segments enthält, eingeschränkt wird.
  14. Verfahren nach Anspruch 12, welches ferner die folgenden Schritte umfaßt: Verwenden einer Vorschau-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die eine Summenfehlerfunktion allgemein minimiert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs, der die Tonhöhe des vorangehenden Segments enthält, eingeschränkt wird; und Entscheiden, als Tonhöhe des aktuellen Segments entweder die mit der Rückblick-Verfolgung gewählte Tonhöhe oder die mit der Vorschau-Verfolgung gewählte Tonhöhe zu verwenden.
  15. Verfahren nach Anspruch 14, wobei die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als eine vorbestimmte Schwelle; ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Rückblick- Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als der Summenfehler (abgeleitet von der Summenfehlerfunktion, die für die Vorschau-Verfolgung verwendet wird); ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Vorschau-Verfolgung ausgewählten Tonhöhe ist.
  16. Verfahren nach Anspruch 14 oder 15, wobei sich der erste und der zweite Bereich über eine unterschiedliche Anzahl von Bereichen erstrecken.
  17. Verfahren nach Anspruch 12, 13 oder 14, wobei die Anzahl der Tonhöhenwerte innerhalb jedes Bereichs zwischen den Bereichen variiert.
  18. Verfahren nach Anspruch 12, 13 oder 14, welches den weiteren Schritt der Verfeinerung der Tonhöhenabschätzung umfaßt.
  19. Verfahren nach Anspruch 12, 13 oder 14, wobei der zulässige Bereich der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Subinteger-Auflösung aufgeteilt wird.
  20. Verfahren nach Anspruch 19, wobei die Fehlerfunktion oder Summenfehlerfunktion von einer Autokorrelationsfunktion abhängt; wobei die Autokorrelationsfunktion für nicht ganzzahlige Werte durch Interpolieren zwischen ganzzahligen Werten der Autokorrelationsfunktion abgeschätzt wird.
  21. Verfahren nach Anspruch 12, 13 oder 14, wobei der zulässige Bereich der Tonhöhe unter Verwendung einer von der Tonhöhe abhängigen Auflösung in eine Vielzahl von Tonhöhenwerten aufgeteilt wird.
  22. Verfahren nach Anspruch 21, wobei kleinere Werte der Tonhöhenwerte eine höhere Auflösung besitzen.
  23. Verfahren nach Anspruch 22, wobei kleinere Werte der Tonhöhenwerte eine Subinteger-Auflösung besitzen.
  24. Verfahren nach Anspruch 22, wobei größere Werte der Tonhöhenwerte eine größere als ganzzahlige Auflösung besitzen.
  25. Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
  26. Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
  27. Verfahren nach Anspruch 25, welches ferner die folgenden Schritte umfaßt: Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird; Entscheiden, als Tonhöhe des aktuellen Segments entweder die mit der Rückblick-Verfolgung gewählte Tonhöhe oder die mit der Vorschau-Verfolgung gewählte Tonhöhe zu verwenden.
  28. Verfahren nach Anspruch 27, wobei die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als eine vorbestimmte Schwelle; ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als der Summenfehler (abgeleitet von der Summenfehlerfunktion, die für die Vorschau-Verfolgung verwendet wird); ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Vorschau-Verfolgung ausgewählten Tonhöhe ist.
  29. Verfahren nach Anspruch 25, 26 oder 27, wobei eine Tonhöhe ausgewählt wird, um die Fehlerfunktion oder die Summenfehlerfunktion zu minimieren.
  30. Verfahren nach Anspruch 25, 26 oder 27, wobei für kleinere Tonhöhenwerte eine höhere Auflösung verwendet wird.
  31. Verfahren nach Anspruch 30, wobei kleinere Werte der Tonhöhenwerte eine Subinteger-Auflösung besitzen.
  32. Verfahren nach Anspruch 30, wobei größere Werte der Tonhöhenwerte eine größere als ganzzahlige Auflösung besitzen.
DE69131776T 1990-09-20 1991-09-20 Verfahren zur sprachanalyse und synthese Expired - Lifetime DE69131776T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US585830 1990-09-20
US07/585,830 US5226108A (en) 1990-09-20 1990-09-20 Processing a speech signal with estimated pitch
PCT/US1991/006853 WO1992005539A1 (en) 1990-09-20 1991-09-20 Methods for speech analysis and synthesis

Publications (2)

Publication Number Publication Date
DE69131776D1 DE69131776D1 (de) 1999-12-16
DE69131776T2 true DE69131776T2 (de) 2004-07-01

Family

ID=24343133

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69131776T Expired - Lifetime DE69131776T2 (de) 1990-09-20 1991-09-20 Verfahren zur sprachanalyse und synthese

Country Status (8)

Country Link
US (3) US5226108A (de)
EP (1) EP0549699B1 (de)
JP (1) JP3467269B2 (de)
KR (1) KR100225687B1 (de)
AU (1) AU658835B2 (de)
CA (1) CA2091560C (de)
DE (1) DE69131776T2 (de)
WO (1) WO1992005539A1 (de)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
US6463406B1 (en) * 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
DE69609089T2 (de) * 1995-01-17 2000-11-16 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
JP3680374B2 (ja) * 1995-09-28 2005-08-10 ソニー株式会社 音声合成方法
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5684926A (en) * 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
US5806038A (en) * 1996-02-13 1998-09-08 Motorola, Inc. MBE synthesizer utilizing a nonlinear voicing processor for very low bit rate voice messaging
US6035007A (en) * 1996-03-12 2000-03-07 Ericsson Inc. Effective bypass of error control decoder in a digital radio system
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
JPH10105194A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
CN1231050A (zh) * 1997-07-11 1999-10-06 皇家菲利浦电子有限公司 具有改进谐波语音编码器的发射机
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US5999897A (en) * 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
KR19990065424A (ko) * 1998-01-13 1999-08-05 윤종용 저지연 다중밴드 여기 보코더를 위한 피치 결정방식
US6064955A (en) 1998-04-13 2000-05-16 Motorola Low complexity MBE synthesizer for very low bit rate voice messaging
US6438517B1 (en) * 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6298322B1 (en) 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6470311B1 (en) 1999-10-15 2002-10-22 Fonix Corporation Method and apparatus for determining pitch synchronous frames
US6868377B1 (en) * 1999-11-23 2005-03-15 Creative Technology Ltd. Multiband phase-vocoder for the modification of audio or speech signals
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
US6564182B1 (en) * 2000-05-12 2003-05-13 Conexant Systems, Inc. Look-ahead pitch determination
EP1203369B1 (de) * 2000-06-20 2005-08-31 Koninklijke Philips Electronics N.V. Sinusoidale kodierung
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
ATE353503T1 (de) * 2001-04-24 2007-02-15 Nokia Corp Verfahren zum ändern der grösse eines zitlerpuffers zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder
KR100393899B1 (ko) * 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
JP2004054526A (ja) * 2002-07-18 2004-02-19 Canon Finetech Inc 画像処理システム、印刷装置、制御方法、制御コマンド実行方法、プログラムおよび記録媒体
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7251597B2 (en) * 2002-12-27 2007-07-31 International Business Machines Corporation Method for tracking a pitch signal
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US8310441B2 (en) * 2004-09-27 2012-11-13 Qualcomm Mems Technologies, Inc. Method and system for writing data to MEMS display elements
US7319426B2 (en) * 2005-06-16 2008-01-15 Universal Electronics Controlling device with illuminated user interface
US8036886B2 (en) 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
US20110046957A1 (en) * 2009-08-24 2011-02-24 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
WO2013142726A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
US9583116B1 (en) * 2014-07-21 2017-02-28 Superpowered Inc. High-efficiency digital signal processing of streaming media
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US10431236B2 (en) * 2016-11-15 2019-10-01 Sphero, Inc. Dynamic pitch adjustment of inbound audio to improve speech recognition
EP3447767A1 (de) * 2017-08-22 2019-02-27 Österreichische Akademie der Wissenschaften Verfahren zur phasenkorrektur in einem phasenvocoder und vorrichtung
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706929A (en) * 1971-01-04 1972-12-19 Philco Ford Corp Combined modem and vocoder pipeline processor
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
FR2494017B1 (fr) * 1980-11-07 1985-10-25 Thomson Csf Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
EP0127718B1 (de) * 1983-06-07 1987-03-18 International Business Machines Corporation Verfahren zur Aktivitätsdetektion in einem Sprachübertragungssystem
AU2944684A (en) * 1983-06-17 1984-12-20 University Of Melbourne, The Speech recognition
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
DE3640355A1 (de) * 1986-11-26 1988-06-09 Philips Patentverwaltung Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch

Also Published As

Publication number Publication date
WO1992005539A1 (en) 1992-04-02
EP0549699B1 (de) 1999-11-10
CA2091560A1 (en) 1992-03-21
AU658835B2 (en) 1995-05-04
US5226108A (en) 1993-07-06
JPH06503896A (ja) 1994-04-28
US5581656A (en) 1996-12-03
KR930702743A (ko) 1993-09-09
CA2091560C (en) 2003-01-07
JP3467269B2 (ja) 2003-11-17
US5195166A (en) 1993-03-16
KR100225687B1 (ko) 1999-10-15
EP0549699A4 (de) 1995-04-26
EP0549699A1 (de) 1993-07-07
DE69131776D1 (de) 1999-12-16
AU8629891A (en) 1992-04-15

Similar Documents

Publication Publication Date Title
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE69932786T2 (de) Tonhöhenerkennung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
EP1797552B1 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69531642T2 (de) Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
DE60209861T2 (de) Adaptive Postfilterung zur Sprachdekodierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
WO2006039995A1 (de) Verfahren und vorrichtung zur harmonischen aufbereitung einer melodielinie
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: DIGITAL VOICE SYSTEMS, INC., WESTFORD, MASS., US