DE69131776T2

DE69131776T2 - Verfahren zur sprachanalyse und synthese

Info

Publication number: DE69131776T2
Application number: DE69131776T
Authority: DE
Inventors: John C. Somerville HARDWICK; Jae S. Winchester LIM
Original assignee: Digital Voice Systems Inc
Current assignee: Digital Voice Systems Inc
Priority date: 1990-09-20
Filing date: 1991-09-20
Publication date: 2004-07-01
Anticipated expiration: 2011-09-21
Also published as: WO1992005539A1; EP0549699B1; CA2091560A1; AU658835B2; US5226108A; JPH06503896A; US5581656A; KR930702743A; CA2091560C; JP3467269B2; US5195166A; KR100225687B1; EP0549699A4; EP0549699A1; DE69131776D1; AU8629891A

Description

Diese Erfindung betrifft Verfahren zum Codieren und Synthetisieren von Sprache.
Einschlägige Veröffentlichungen umfassen: Flanagan, Speech Analysis, Synthesis and Perception, Springer-Verlag, 1972, S. 378–386 (erörtert einen Phasenvocoder – ein auf der Frequenz basierendes Sprach-Analyse-/Synthese-System); Quatieri, et al., "Speech Transformations Based on a Sinusoidal Representation", IEEE TASSP, Band ASSP34, Nr. 6, Dez. 1986, S. 1449–1986, (erörtert ein Analyse-Synthese-Verfahren auf der Basis einer sinusförmigen Darstellung); Griffin, et al., "Multiband Excitation Vocoder", Ph.D. Thesis, M.I.T., 1987, (erörtert Mehrbandanregungs-Analyse-Synthese); Griffin, et al., "A New Pitch Detection Algorithm", Int. Conf. on DSP, Florenz, Italien, 5.–8. Sept. 1984 (erörtert Tonhöhenabschätzung); Griffin, et al. "A New Model-Based Speech Analysis/Synthesis System", Proc. ICASSP 85, S. 513–516, Tampa, FL., 26.–29. März 1985 (erörtert alternative Tonhöhen-Wahrscheinlichkeitsfunktionen und Stimmaße); Hardwick, "A 4.8 kbps Multi-Band Excitation Speech Coder, S.M. Thesis, M.I.T., Mai 1988 (erörtert einen Sprachcodierer mit 4,8 kBit/s, der auf dem Mehrbandanregungssprachmodell basiert); McAulay et al., "Mid-Rate Coding Based on a Sinusoidal Representation of Speech", Proc. ICASSP 85, S. 945–948, Tampa, FL., 26.–29. März 1985 (erörtert Sprachcodierung auf der Basis einer sinusförmigen Darstellung); Almieda et al., "Harmonic Coding with Variable Frequency Synthesis", Proc. 1983, Spain Workshop on Sig. Proc. and its Applications", Sitges., Spanien, Sept. 1983 (erörtert Zeitbereichs-Stimmsynthese); Almieda et al., "Variable Frequency Synthesis: An Improved Harmonic Coding Scheme", Proc. ICASSP 84, San Diego, CA, S. 289–292, 1984 (erörtert Zeitbereichs-Stimmsynthese); McAulay et al., "Computationally Efficient Sine-Wave Synthesis and its Application to Sinusoidal Transform Coding", Proc. ICASSP 88, New York, NY, S. 370–373, April 1988 (erörtert Frequenzbereichs-Stimmsynthese); Griffin et al., "Signal Estimation From Modified Short-Time Fourier Transform", IEEE TASSP, Band 32, Nr. 2, S. 236–243, April 1984 (erörtert gewichtete Überlappungs-Additions-Synthese).
Das Problem der Analyse und Synthese von Sprache besitzt eine große Anzahl von Anwendungen und hat folglich in der Literatur eine beträchtliche Aufmerksamkeit erlangt. Eine Klasse von Sprach-Analyse-/Synthese-Systemen (Vocodern), die in der Praxis ausgedehnt untersucht und verwendet wurden, basiert auf einem zugrundeliegenden Sprachmodell. Beispiele von Vocodern umfassen Vocoder mit linearer Vorhersage, homomorphe Vocoder, und Kanalvocoder. Bei diesen Vocodern wird die Sprache auf Kurzzeitbasis als Antwort eines linearen Systems, das durch eine periodische Impulsfolge für stimmhafte Laute oder statistisches Rauschen für stimmlose Laute angeregt wird, modelliert. Für diese Klasse von Vocodern wird die Sprache durch zuerst Teilen der Sprache in Abschnitte unter Verwendung eines Fensters, wie z.B. eines Hamming-Fensters, analysiert. Dann werden für jedes Sprachsegment die Anregungsparameter und Systemparameter bestimmt. Die Anregungsparameter bestehen aus der Entscheidung Stimme/keine Stimme und der Tonhöhenperiode. Die Systemparameter bestehen aus der Spektralhüllkurve oder der Impulsantwort des Systems. Um Sprache zu synthetisieren, werden die Anregungsparameter verwendet, um ein Anregungssignal zu synthetisieren, das aus einer periodischen Impulsfolge in stimmhaften Bereichen oder statistischem Rauschen in stimmlosen Bereichen besteht. Dieses Anregungssignal wird dann unter Verwendung der abgeschätzten Systemparameter gefiltert.
Obwohl Vocoder, die auf diesem zugrundeliegenden Sprachmodell basieren, bei der Synthetisierung von verständlicher Sprache ziemlich erfolgreich waren, waren sie bei der Synthetisierung von Sprache mit hoher Qualität nicht erfolgreich. Folglich wurden sie in Anwendungen, wie z.B. der Modifikation von Sprache im Zeitmaßstab, der Sprachverstärkung oder Sprachcodierung mit hoher Qualität, nicht umfangreich verwendet. Die schlechte Qualität der synthetisierten Sprache ist teilweise auf die ungenaue Abschätzung der Tonhöhe zurückzuführen, welche einen wichtigen Sprachmodellparameter darstellt.
Um die Leistung der Tonhöhenerfassung zu verbessern, wurde 1984 von Griffin und Lim ein neues Verfahren entwickelt. Dieses Verfahren wurde 1988 von Griffin und Lim weiter verfeinert. Dieses Verfahren ist für eine Vielzahl von verschiedenen Vocodern brauchbar und ist besonders nützlich für einen Vocoder mit Mehrbandanregung (MBE).
Wir wollen mit s(n) ein Sprachsignal bezeichnen, das durch Abtasten eines analogen Sprachsignals erhalten wird. Die Abtastfrequenz, die typischerweise für Sprachcodieranwendungen verwendet wird, liegt im Bereich zwischen 6 kHz und 10 kHz. Das Verfahren funktioniert gut für eine beliebige Abtastfrequenz mit entsprechender Änderung der bei dem Verfahren verwendeten verschiedenen Parameter.
Wir multiplizieren s(n) mit einem Fenster w(n), um ein ausschnittweise dargestelltes Signal s_w(n) zu erhalten. Das verwendete Fenster ist typischerweise ein Hamming-Fenster oder ein Kaiser-Fenster. Der Vorgang der Ausschnittdarstellung greift ein kleines Segment von s(n) heraus. Ein Sprachsegment wird auch als Sprachrahmen bezeichnet.
Das Ziel bei der Tonhöhenerfassung besteht darin, die dem Segment s_w(n) entsprechende Tonhöhe abzuschätzen. Wir beziehen uns auf s_w(n) als aktuelles Sprachsegment, und die Tonhöhe, die dem aktuellen Sprachsegment entspricht, wird mit P₀ bezeichnet, wobei sich "0" auf das "aktuelle" Sprachsegment bezieht. Der Bequemlichkeit halber verwenden wir auch P, um P₀ zu bezeichnen. Wir verschieben dann das Fenster um ein gewisses Ausmaß (typischerweise etwa 20 ms oder dergleichen) und erhalten einen neuen Sprachrahmen und schätzen die Tonhöhe für den neuen Rahmen ab. Wir bezeichnen die Tonhöhe dieses neuen Sprachsegments als P₁. In ähnlicher Weise bezieht sich P_–1 auf die Tonhöhe des vergangenen Sprachsegments. Die in dieser Beschreibung nützlichen Bezeichnungen sind P₀ entsprechend der Tonhöhe des aktuellen Rahmens, P_–2 und P_–1 entsprechend der Tonhöhe der vergangenen zwei aufeinanderfolgenden Sprachrahmen und P₁ und P₂ entsprechend der Tonhöhe der zukünftigen Sprachrahmen.
Die synthetisierte Sprache am Synthesizer, die s_w(n) entspricht, wird mit s ^ _w(n) bezeichnet. Die Fouriertransformationen von s_w(n) und s ^ _w(n) werden mit S_w(ω) und S ^ _w(ω) bezeichnet.
Das gesamte Verfahren zur Tonhöhenerfassung ist in 1 dargestellt. Die Tonhöhe P wird unter Verwendung eines zweistufigen Verfahrens abgeschätzt. Wir erhalten zuerst eine anfängliche Tonhöhenabschätzung, die mit P ^ _I bezeichnet wird. Die anfängliche Abschätzung ist auf ganzzahlige Werte beschränkt. Die anfängliche Abschätzung wird dann verfeinert, um die Endabschätzung P ^ zu erhalten, die ein nicht ganzzahliger Wert sein kann. Das zweistufige Verfahren verringert die Menge an erforderlicher Berechnung.
Um die anfängliche Tonhöhenabschätzung zu erhalten, bestimmen wir eine Tonhöhen-Wahrscheinlichkeitsfunktion E(P) als Funktion der Tonhöhe. Diese Wahrscheinlichkeitsfunktion stellt ein Mittel für den numerischen Vergleich von Kandidaten-Tonhöhenwerten bereit. Bei dieser Tonhöhen- Wahrscheinlichkeitsfunktion wird eine Tonhöhenverfolgung verwendet, wie in 2 gezeigt. In allen unseren Erörterungen bei der anfänglichen Tonhöhenabschätzung ist P auf ganzzahlige Werte beschränkt. Die Funktion E(P) wird durch
erhalten, wobei r(n) eine Autokorrelationsfunktion ist, die durch
gegeben ist, und wobei gilt
Die Gleichungen (1) und (2) können verwendet werden, um E(P) für nur ganzzahlige Werte von P zu bestimmen, da s(n) und w(n) diskrete Signale sind.
Die Tonhöhen-Wahrscheinlichkeitsfunktion E(P) kann als Fehlerfunktion betrachtet werden, und typischerweise ist es erwünscht, die Tonhöhenabschätzung derart zu wählen, daß E(P) klein ist. Wir werden bald sehen, warum wir nicht einfach das P wählen, das E(P) minimiert. Man beachte auch, daß E(P) ein Beispiel für eine Tonhöhen-Wahrscheinlichkeitsfunktion ist, die bei der Abschätzung der Tonhöhe verwendet werden kann. Andere angemessene Funktionen können verwendet werden.
Die Tonhöhenverfolgung wird verwendet, um die Tonhöhenabschätzung durch den Versuch, das Ausmaß der Tonhöhenänderung zwischen aufeinanderfolgenden Rahmen zu begrenzen, zu verbessern. Wenn die Tonhöhenabschätzung so gewählt wird, daß E(P) streng minimiert wird, dann kann sich die Tonhöhenabschätzung zwischen aufeinanderfolgenden Rahmen abrupt ändern. Diese abrupte Änderung der Tonhöhe kann eine Verschlechterung der synthetisierten Sprache verursachen. Außerdem ändert sich die Tonhöhe typischerweise langsam; daher können die Tonhöhenabschätzungen von benachbarten Rahmen die Abschätzung der Tonhöhe des aktuellen Rahmens unterstützen.
Eine Rückblick-Verfolgung wird verwendet, um zu versuchen, eine gewisse Stetigkeit von P gegenüber den vergangenen Rahmen zu bewahren. Auch wenn eine willkürliche Anzahl von vergangenen Rahmen verwendet werden kann, verwenden wir in unserer Erörterung zwei vergangene Rahmen.
Wir wollen die anfänglichen Tonhöhenabschätzungen von P_–1 und P_–2 mit P ^ _–1 und P ^ _–2 bezeichnen. Bei der Verarbeitung des aktuellen Rahmens sind P ^ _–1 und P ^ _–2 aus der vorherigen Analyse bereits verfügbar. Wir wollen die Funktionen der Gleichung (1), die aus den vorhergehenden zwei Rahmen erhalten werden, mit E_–1(P) und E_–2(P) bezeichnen. Dann besitzen E_–1(P ^ _–1) und E_–2(P ^ _–2) einige spezielle Werte.
Da wir eine Stetigkeit von P wollen, betrachten wir P im Bereich nahe P ^ _–1. Der typische verwendete Bereich ist (1 – α)·P ^ –1 ≤ P ≤ (1 + α)·P ^ –1 (4)wobei α irgendeine Konstante ist.
Wir wählen nun das P, das innerhalb des durch (4) gegebenen Bereichs von P das minimale E(P) aufweist. Wir bezeichnen dieses P als P*. Wir verwenden nun die folgende Entscheidungsregel. Wenn E–2(P ^ –2) + E–1(P ^ –1) + E(P*) ≤ Schwelle, P ^ I = P*, wobei P ^ I die anfängliche Tonhöhenabschätzung von P ist. (5)
Wenn die Bedingung in Gleichung (5) erfüllt ist, haben wir nun die anfängliche Tonhöhenabschätzung P ^ _I. Wenn die Bedingung nicht erfüllt ist, dann gehen wir zur Vorschau-Verfolgung über.
Die Vorschau-Verfolgung versucht, eine gewisse Stetigkeit von P mit den zukünftigen Rahmen zu bewahren. Auch wenn so viele Rahmen wie erwünscht verwendet werden können, verwenden wir für unsere Erörterung zwei zukünftige Rahmen. Aus dem aktuellen Rahmen haben wir E(P). Wir können diese Funktion auch für die nächsten zwei zukünftigen Rahmen berechnen. Wir bezeichnen diese als E₁(P) und E₂(P). Dies bedeutet, daß eine Verzögerung bei der Verarbeitung um die Menge vorliegt, die zwei zukünftigen Rahmen entspricht.
Wir betrachten einen vernünftigen Bereich von P, der im wesentlichen alle vernünftigen Werte von P einschließt, die der menschlichen Stimme entsprechen. Für eine mit einer Frequenz von 8 kHz abgetastete Sprache ist ein guter Bereich von P zum Betrachten (ausgedrückt als Zahl von Sprachabtastwerten in jeder Tonhöhenperiode) 22 ≤ P < 115.
Für jedes P innerhalb dieses Bereichs wählen wir ein P₁ und ein P₂, so daß CE(P), wie durch (6) gegeben, minimiert wird, CE(P) = E(P) + E1(P1) + E2(P2) (6) unter der Bedingung, daß P₁ "nahe" bei P liegt und P₂ "nahe" bei P₁ liegt. Typischerweise werden diese "Nähe"-Bedingungen als: (1 – α) P ≤ P1 ≤ (1 + α)P (7)und (1 – β) P1 ≤ P2 ≤ (1 + β)P1 (8)ausgedrückt.
Dieses Verfahren ist in 3 skizziert. Typische Werte für α und β sind α = β = 0,2.
Für jedes P können wir das obige Verfahren verwenden, um CE(P) zu erhalten. Wir haben dann CE(P) als Funktion von P. Wir verwenden die Bezeichnung CE, um den "Summenfehler" zu bezeichnen.
Natürlich möchten wir das P wählen, das das minimale CE(P) ergibt. Es besteht jedoch ein Problem, das "Tonhöhenverdoppelungsproblem" genannt wird. Das Tonhöhenverdoppelungsproblem entsteht, da CE(2P) typischerweise klein ist, wenn CE(P) klein ist. Daher kann das Verfahren, das streng auf der Minimierung der Funktion CE(^.) basiert, 2P als Tonhöhe wählen, selbst wenn P die korrekte Wahl ist. Wenn das Tonhöhenverdoppelungsproblem auftritt, gibt es eine beträchtliche Verschlechterung der Qualität der synthetisierten Sprache. Das Tonhöhenverdoppelungsproblem wird unter Verwendung des nachstehend beschriebenen Verfahrens vermieden. Wir nehmen an, daß P' der Wert von P ist, der das minimale CE(P) ergibt.
Dann betrachten wir
in dem zulässigen Bereich von P (typischerweise 22 ≤ P < 115). Wenn

keine ganzen Zahlen sind, wählen wir die zu ihnen am nächsten gelegenen ganzen Zahlen. Wir wollen annehmen, daß
im zweckmäßigen Bereich liegen. Wir beginnen mit dem kleinsten Wert von P, in diesem Fall
und verwenden die folgende Regel in der dargestellten Reihenfolge.
Wenn
wobei P ^ _F die Abschätzung aus dem Vorwärtsvorschaumerkmal ist.
Wenn
Einige typische Werte von α₁, α₂, β₁, β₂ sind:
Wenn
durch die obige Regel nicht ausgewählt wird, dann gehen wir zum nächstniedrigsten, das in dem obigen Beispiel
ist. Schließlich wird eines gewählt, oder wir erreichen P = P'. Wenn P = P' ohne irgendeine Wahl erreicht wird, dann ist die Abschätzung P ^ _F durch P' gegeben.
Der letzte Schritt besteht darin, P ^ _F mit der aus der Rückblick-Verfolgung erhaltenen Abschätzung P* zu vergleichen. In Abhängigkeit von dem Ergebnis dieser Entscheidung wird entweder P ^ _F oder P* als anfängliche Tonhöhenabschätzung P ^ _I gewählt. Ein allgemeiner Satz von Entscheidungsregeln, der zum Vergleichen der zwei Tonhöhenabschätzungen verwendet wird, ist:
Wenn CE(P ^ F) < E–2(P ^ –2) + E–1(P ^ –1) + E(P*), dann gilt P ^ I = P ^ F (11)
Ansonsten, wenn CE(P ^ F) ≥ E–2(P ^ –2) + E–1(P ^ –1) + E(P*), dann gilt P ^ I = P* (12)
Andere Entscheidungsregeln könnten verwendet werden, um die zwei Kandidaten-Tonhöhenwerte zu vergleichen.
Das vorstehend erörterte Verfahren der anfänglichen Tonhöhenabschätzung erzeugt einen ganzzahligen Wert für die Tonhöhe. Ein Blockdiagramm dieses Verfahrens ist in 4 gezeigt. Eine Tonhöhenverfeinerung erhöht die Auflösung der Tonhöhenabschätzung auf eine höhere Sub-integer-Auflösung. Typischerweise besitzt die verfeinerte Tonhöhe eine Auflösung von 1/4 einer ganzen Zahl oder 1/8 einer ganzen Zahl.
Wir betrachten eine kleine Zahl (typischerweise 4 bis 8) von hohen Auflösungswerten von P nahe P ^ _I. Wir werten E_r(P) aus, die durch
gegeben ist, wobei G(ω) eine willkürliche Gewichtungsfunktion ist und wobei gilt
und
Der Parameter
ist die Grundfrequenz und W_r(ω) ist die Fouriertransformation des Tonhöhenverfeinerungsfensters w_r(n) (siehe 1). Die komplexen Koeffizienten A_M in (16) stellen die komplexen Amplituden bei den Oberwellen von ω₀ dar. Diese Koeffizienten sind durch
gegeben, wobei gilt aM = (m – 0,5) ω0 und bM = (m + 0,5)ω0 (17)
Die Form von S ^ _w(ω), das in (15) gegeben ist, entspricht einem stimmhaften oder periodischen Spektrum.
Man beachte, daß andere vernünftige Fehlerfunktionen anstelle von (13) verwendet werden können, beispielsweise
Typischerweise ist die Fensterfunktion w_r(n) von der in dem Schritt der anfänglichen Tonhöhenabschätzung verwendeten Fensterfunktion verschieden.
Ein wichtiger Sprachmodellparameter ist die Information Stimme/keine Stimme. Diese Information bestimmt, ob die Sprache hauptsächlich aus den Oberwellen einer einzigen Grundfrequenz besteht (Stimme), oder ob sie aus einer "rauschartigen" Breitbandenergie besteht (keine Stimme). In vielen früheren Vocodern, wie z.B. Vocodern mit linearer Vorhersage oder homomorphen Vocodern, wird jeder Sprachrahmen entweder vollständig als Stimme oder vollständig als keine Stimme klassifiziert. Im MBE-Vocoder wird das Sprachspektrum S_w(ω) in eine Anzahl von getrennten Frequenzbändern aufgeteilt und eine einzelne Entscheidung Stimme/keine Stimme (V/UV) wird für jedes Band durchgeführt.
Die Entscheidungen Stimme/keine Stimme im MBE-Vocoder werden durch Unterteilen des Frequenzbereichs 0 ≤ ω ≤ π in L Bänder bestimmt, wie in 5 gezeigt. Die Konstanten Ω₀ = 0, Ω₁, . . . Ω_L–1, Ω_L = π sind die Grenzen zwischen den L Frequenzbändern. Innerhalb jedes Bandes wird durch Vergleichen eines gewissen Stimmaßes mit einer bekannten Schwelle eine V/UV-Entscheidung durchgeführt. Ein allgemeines Stimmaß ist durch
gegeben, wobei S ^ _w(ω) durch die Gleichungen (15) bis (17) gegeben ist. Andere Stimmaße könnten anstelle von (19) verwendet werden. Ein Beispiel eines alternativen Stimmaßes ist durch
gegeben.
Das durch (19) definierte Stimmaß D₁ ist die Differenz zwischen S_w(ω) und S ^ _w(ω) über das 1-te Frequenzband, das Ω₁ < ω < Ω₁₊₁ entspricht. D₁ wird mit einer Schwellenfunktion verglichen. Wenn D₁ geringer ist als die Schwellenfunktion, dann wird das 1-te Frequenzband als Stimme bestimmt. Ansonsten wird das 1-te Frequenzband als keine Stimme bestimmt. Die Schwellenfunktion hängt typischerweise von der Tonhöhe und der Mittelfrequenz jedes Bandes ab.
Bei einer Anzahl von Vocodern, einschließlich des MBE-Vocoders, des Sinustransformationscodierers und des Oberwellencodierers, wird die synthetisierte Sprache insgesamt oder teilweise durch die Summe der Oberwellen einer einzigen Grundfrequenz erzeugt. Beim MBE-Vocoder umfaßt dies den stimmhaften Teil der synthetisierten Sprache, v(n). Der stimmlose Teil der synthetisierten Sprache wird separat erzeugt und dann zum stimmhaften Teil addiert, um das vollständige synthetisierte Sprachsignal zu erzeugen.
Es gibt zwei verschiedene Verfahren, die in der Vergangenheit verwendet wurden, um ein stimmhaftes Sprachsignal zu synthetisieren. Das erste Verfahren synthetisiert jede Oberwelle separat im Zeitbereich unter Verwendung einer Reihe von Sinusoszillatoren. Die Phase jedes Oszillators wird aus einem stückweisen Phasenpolynom niedriger Ordnung erzeugt, das gleichförmig zwischen den abgeschätzten Parametern interpoliert. Der Vorteil dieses Verfahrens besteht darin, daß die resultierende Sprachqualität sehr hoch ist. Der Nachteil besteht darin, daß eine große Anzahl von Berechnungen erforderlich ist, um jeden Sinusoszillator zu erzeugen. Diese Rechenkosten dieses Verfahrens können untragbar sein, wenn eine große Anzahl von Oberwellen synthetisiert werden muß.
Das zweite Verfahren, das in der Vergangenheit verwendet wurde, um ein stimmhaftes Sprachsignal zu synthetisieren, besteht darin, alle Oberwellen im Frequenzbereich zu synthetisieren und dann eine Schnelle Fouriertransformation (FFT) zu verwenden, um simultan alle synthetisierten Oberwellen in den Zeitbereich umzusetzen. Ein gewichtetes Überlappungs-Additions-Verfahren wird dann verwendet, um die Ausgabe der FFT zwischen den Sprachrahmen gleichförmig zu interpolieren. Da dieses Verfahren nicht die bei der Erzeugung der Sinusoszillatoren nötigen Berechnungen erfordert, ist es rechnerisch viel effizienter als das vorstehend erörterte Zeitbereichsverfahren. Der Nachteil dieses Verfahrens besteht darin, daß für typische Rahmenfrequenzen, die bei der Sprachcodierung verwendet werden (20–30 ms), die Sprachqualität der Stimme im Vergleich zum Zeitbereichsverfahren verringert ist.
Wir beschreiben hierin ein verbessertes Verfahren zur Tonhöhenabschätzung, bei dem Tonhöhenwerte mit einer Sub-integer-Auflösung bei der Durchführung der anfänglichen Tonhöhenabschätzung abgeschätzt werden. Bei bevorzugten Ausführungsformen werden die nicht ganzzahligen Werte einer Autokorrelations-Zwischenfunktion, die für Tonhöhenwerte mit einer Sub-integer-Auflösung verwendet wird, durch Interpolieren zwischen ganzzahligen Werten der Autokorrelationsfunktion abgeschätzt.
Wir beschreiben hierin auch die Verwendung von Tonhöhenbereichen, um die Menge der bei der Durchführung der anfänglichen Tonhöhenabschätzung erforderlichen Berechnung zu verringern. Der zulässige Tonhöhenbereich wird in eine Vielzahl von Tonhöhenwerten und eine Vielzahl von Bereichen unterteilt. Alle Bereiche enthalten mindestens einen Tonhöhenwert und mindestens ein Bereich enthält eine Vielzahl von Tonhöhenwerten. Für jeden Bereich wird eine Tonhöhen-Wahrscheinlichkeitsfunktion (oder Fehlerfunktion) über alle Tonhöhenwerte innerhalb dieses Bereichs minimiert, und der Tonhöhenwert, der dem Minimum entspricht, und der zugehörige Wert der Fehlerfunktion werden gespeichert. Die Tonhöhe eines aktuellen Segments wird dann unter Verwendung einer Rückblick-Verfolgung ausgewählt, wobei die für ein aktuelles Segment gewählte Tonhöhe der Wert ist, der die Fehlerfunktion minimiert und innerhalb eines ersten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs eines vorherigen Segments liegt. Eine Vorschau-Verfolgung kann ebenfalls allein oder in Verbindung mit der Rückblick-Verfolgung verwendet werden; die für das aktuelle Segment gewählte Tonhöhe ist der Wert, der eine Summenfehlerfunktion minimiert. Die Summenfehlerfunktion stellt eine Abschätzung des Summenfehlers des aktuellen Segments und zukünftiger Segmente bereit, wobei die Tonhöhen von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs des aktuellen Segments eingeschränkt werden. Die Bereiche können eine ungleichmäßige Tonhöhenbreite aufweisen (d.h. der Bereich von Tonhöhen innerhalb der Bereiche weist nicht für alle Bereiche dieselbe Größe auf).
Es wird hierin auch ein verbessertes verfahren zur Tonhöhenabschätzung offenbart, bei dem eine von der Tonhöhe abhängige Auflösung bei der Durchführung der anfänglichen Tonhöhenabschätzung verwendet wird, wobei eine höhere Auflösung für gewisse Tonhöhenwerte (typischerweise kleinere Tonhöhenwerte) verwendet wird als für andere Tonhöhenwerte (typischerweise größere Tonhöhenwerte).
Wir beschreiben die Verbesserung der Genauigkeit der Entscheidung Stimme/keine Stimme durch Durchführen der Entscheidung in Abhängigkeit von der Energie des aktuellen Segments relativ zur Energie von kurz zurückliegenden Segmenten. Wenn die relative Energie niedrig ist, bevorzugt das aktuelle Segment eine Entscheidung keine Stimme; wenn sie hoch ist, bevorzugt das aktuelle Segment eine Entscheidung Stimme.
Wir offenbaren ein verbessertes Verfahren zum Erzeugen der bei der Synthetisierung des stimmhaften Teils von synthetisierter Sprache verwendeten Oberwellen. Einige stimmhaften Oberwellen (typischerweise Oberwellen mit niedriger Frequenz) werden im Zeitbereich erzeugt, wohingegen die restlichen stimmhaften Oberwellen im Frequenzbereich erzeugt werden. Dies bewahrt viel der Recheneinsparungen der Frequenzbereich-Lösungsmethode, während es die Sprachqualität der Zeitbereich-Lösungsmethode bewahrt.
Es wird auch ein verbessertes Verfahren zum Erzeugen der stimmhaften Oberwellen im Frequenzbereich beschrieben. Eine lineare Frequenzskalierung wird verwendet, um die Frequenz der stimmhaften Oberwellen zu verschieben, und dann wird eine Inverse Diskrete Fouriertransformation (DFT) verwendet, um die hinsichtlich der Frequenz skalierten Oberwellen in den Zeitbereich umzusetzen. Eine Interpolation und Zeitskalierung werden dann verwendet, um die Wirkung der linearen Frequenzskalierung zu korrigieren. Dieses Verfahren hat den Vorteil einer verbesserten Frequenzgenauigkeit.
Gemäß einem ersten Aspekt dieser Erfindung wird ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereitgestellt, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Sub-integer-Auflösung;
Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
In einem zweiten und alternativen Aspekt dieser Erfindung stellen wir ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereit, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Sub-integer-Auflösung;
Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
Die Erfindung stellt in einem dritten alternativen Aspekt derselben ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereit, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten;
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält;
Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt;
Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und
Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die die Fehlerfunktion allgemein minimiert und innerhalb eines ersten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs liegt, der die Tonhöhe des vorherigen Segments enthält.
In einem vierten alternativen Aspekt derselben stellt die Erfindung ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereit, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten;
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält;
Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt;
Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und
Verwenden einer Vorschau-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die eine Summenfehlerfunktion allgemein minimiert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs, der die Tonhöhe des vorangehenden Segments enthält, eingeschränkt wird.
In einem fünften alternativen Aspekt dieser Erfindung wird ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereitgestellt, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung;
Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
Gemäß einem sechsten alternativen Aspekt dieser Erfindung wird ein Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten bereitgestellt, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt:
Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung;
Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und
Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
Weitere Merkmale und Vorteile sind aus der folgenden Beschreibung der bevorzugten Ausführungsformen ersichtlich.
In den Zeichnungen gilt:
1–5 sind Diagramme, die Verfahren zur Tonhöhenabschätzung des Standes der Technik zeigen.
6 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der Tonhöhenwerte mit einer Sub-integer-Auflösung abgeschätzt werden.
7 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der Tonhöhenbereiche bei der Durchführung der Tonhöhenabschätzung verwendet werden.
8 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der eine von der Tonhöhe abhängige Auflösung bei der Durchführung der Tonhöhenabschätzung verwendet wird.
9 ist ein Ablaufplan, der eine bevorzugte Ausführungsform der Erfindung zeigt, bei der die Entscheidung Stimme/keine Stimme in Abhängigkeit von der relativen Energie des aktuellen Segments und von kurz zurückliegenden Segmenten durchgeführt wird.
10 ist ein Blockdiagramm, das eine bevorzugte Ausführungsform der Erfindung zeigt, bei der ein hybrides Zeit- und Frequenzbereich-Syntheseverfahren verwendet wird.
11 ist ein Blockdiagramm, das eine bevorzugte Ausführungsform der Erfindung zeigt, bei der eine modifizierte Frequenzbereichssynthese verwendet wird.
Im Stand der Technik wird die anfängliche Tonhöhenabschätzung mit einer ganzzahligen Auflösung durchgeführt. Die Leistung des Verfahrens kann unter Verwendung einer Sub-integer-Auflösung (z.B. der Auflösung von 1/2 ganzen Zahl) signifikant verbessert werden. Dies erfordert eine Modifikation des Verfahrens. Wenn beispielsweise E(P) in Gleichung (1) als Fehlerkriterium verwendet wird, erfordert die Auswertung von E(P) für ein nicht ganzzahliges P die Auswertung von r(n) in (2) für nicht ganzzahlige Werte von n. Dies kann durch r(n + d) = (1 – d)·r(n) + d·r(n + 1) für 0 ≤ d ≤ 1 (21)durchgeführt werden.
Gleichung (21) ist eine einfache lineare Interpolationsgleichung; andere Interpolationsformen könnten jedoch anstelle der linearen Interpolation verwendet werden. Die Absicht besteht darin, zu fordern, daß die anfängliche Tonhöhenabschätzung eine Sub-integer-Auflösung aufweist, und (21) für die Berechnung von E(P) in (1) zu verwenden. Dieses Verfahren ist in 6 skizziert.
Bei der anfänglichen Tonhöhenabschätzung betrachten frühere Verfahren typischerweise ungefähr 100 verschiedene Werte (22 ≤ P < 115) von P. Wenn wir eine Sub-integer-Auflösung zulassen, z.B. 1/2 ganze Zahl, dann müssen wir 186 verschiedene Werte von P betrachten. Dies erfordert eine große Menge an Berechnung, insbesondere bei der Vorschau-Verfolgung. Um die Berechnungen zu verringern, können wir den zulässigen Bereich von P in eine kleine Anzahl von ungleichmäßigen Bereichen aufteilen. Eine vernünftige Zahl ist 20. Ein Beispiel von zwanzig ungleichmäßigen Bereichen ist folgendermaßen:
Bereich 1: 22 ≤ P < 24
Bereich 2: 24 ≤ P < 26
Bereich 3: 26 ≤ P < 28
Bereich 4: 28 ≤ P < 31
Bereich 5: 31 ≤ P < 34
Bereich 19: 99 ≤ P < 107
Bereich 20: 107 ≤ P < 115
Innerhalb jedes Bereichs behalten wir den Wert von P, für den E(P) minimal ist, und den entsprechenden Wert von E(P). Alle anderen Informationen hinsichtlich E(P) werden verworfen. Das Verfahren der Tonhöhenverfolgung (Rückblick und Vorschau) verwendet diese Werte, um die anfängliche Tonhöhenabschätzung P ^ _I zu bestimmen. Die Bedingungen der Tonhöhenstetigkeit werden derart modifiziert, daß sich die Tonhöhe entweder bei der Rückblick-Verfolgung oder bei der Vorschau-Verfolgung nur um eine feste Anzahl von Bereichen ändern kann.
Wenn beispielsweise P_₁ = 26 ist, was im Tonhöhenbereich 3 liegt, dann kann P auf den Tonhöhenbereich 2, 3 oder 4 eingeschränkt werden. Dies würde einer zulässigen Tonhöhendifferenz von 1 Bereich bei der "Rückblick"-Tonhöhenverfolgung entsprechen.
Wenn P = 26 ist, was im Tonhöhenbereich 3 liegt, dann kann P₁ ebenso auf den Tonhöhenbereich 1, 2, 3, 4 oder 5 eingeschränkt werden. Dies würde einer zulässigen Tonhöhendifferenz von 2 Bereichen bei der "Vorschau"-Tonhöhenverfolgung entsprechen. Man beachte, wie die zulässige Tonhöhendifferenz für die "Vorschau"-Verfolgung anders als für die "Rückblick"-Verfolgung sein kann. Die Verringerung von ungefähr 200 Werten von P auf ungefähr 20 Bereiche verringert die Rechenanforderungen für die Vorschau-Tonhöhenverfolgung um Größenordnungen mit geringem Unterschied in der Leistung. Außerdem werden die Speicheranforderungen verringert, da E(P) nur bei 20 verschiedenen Werten von P₁ anstatt bei 100–200 gespeichert werden muß.
Eine weitere wesentliche Verringerung der Anzahl von Bereichen verringert die Berechnungen, verschlechtert aber auch die Leistung. Wenn beispielsweise zwei Kandidaten-Tonhöhen in denselben Bereich fallen, ist die Wahl zwischen den beiden streng eine Funktion dessen, welche ein niedrigeres E(P) ergibt. In diesem Fall gehen die Vorteile der Tonhöhenverfolgung verloren. 7 zeigt einen Ablaufplan des Verfahrens zur Tonhöhenabschätzung, das Tonhöhenbereiche zum Abschätzen der anfänglichen Tonhöhe verwendet.
Bei verschiedenen Vocodern, wie z.B. MBE und LPC, besitzt die abgeschätzte Tonhöhe eine feste Auflösung, beispielsweise eine Auflösung von einem ganzzahligen Abtastwert oder eine Auflösung von 1/2 Abtastwert. Die Grundfrequenz ω₀ steht mit der Tonhöhe P invers in Beziehung und daher entspricht eine feste Tonhöhenauflösung einer viel geringeren Grundfrequenzauflösung für kleines P als für großes P. Das Verändern der Auflösung von P als Funktion von P kann durch Entfernen von einigem der Tonhöhenabhängigkeit der Grundfrequenzauflösung die ≤ Systemleistung verbessern. Typischerweise wird dies unter Verwendung einer höheren Tonhöhenauflösung für kleine Werte von P als für größere Werte von P durchgeführt. Beispielsweise kann die Funktion E(P) mit einer Auflösung von einem halben Abtastwert für Tonhöhenwerte im Bereich von 22 ≤ P < 60 und mit einer Auflösung von einem ganzzahligen Abtastwert für Tonhöhenwerte im Bereich von 60 ≤ P < 115 ausgewertet werden. Ein weiteres Beispiel bestünde darin, E(P) mit einer Auflösung eines halben Abtastwerts im Bereich von 22 ≤ P < 40 auszuwerten, E(P) mit einer Auflösung von einem ganzzahligen Abtastwert für den Bereich von 42 ≤ P < 80 auszuwerten, und E(P) mit einer Auflösung von 2 (d.h. nur für geradzahlige Werte von P) für den Bereich von 80 ≤ P < 115 auszuwerten. Die Erfindung besitzt den Vorteil, daß E(P) nur für die Werte von P, die für das Tonhöhenverdoppelungsproblem am empfindlichsten sind, mit einer höheren Auflösung ausgewertet wird, wodurch Berechnung eingespart wird. 8 zeigt einen Ablaufplan des Verfahrens zur Tonhöhenabschätzung, das eine von der Tonhöhe abhängige Auflösung verwendet.
Das Verfahren mit einer von der Tonhöhe abhängigen Auflösung kann mit dem Verfahren zur Tonhöhenabschätzung, welches Tonhöhenbereiche verwendet, kombiniert werden. Das Verfahren der Tonhöhenverfolgung, das auf Tonhöhenbereichen basiert, wird modifiziert, um E(P) mit der korrekten Auflösung (d.h. von der Tonhöhe abhängig) auszuwerten, wenn der minimale Wert von E(P) innerhalb jedes Bereichs aufgefunden wird.
In früheren Vocoderausführungen wird die V/UV-Entscheidung für jedes Frequenzband durch vergleichen eines gewissen Maßes für die Differenz zwischen S_w(ω) und S ^ _w(ω) mit einer gewissen Schwelle durchgeführt. Die Schwelle ist typischerweise eine Funktion der Tonhöhe P und der Frequenzen in dem Band. Die Leistung kann unter Verwendung einer Schwelle, die eine Funktion von nicht nur der Tonhöhe P und den Frequenzen in dem Band, sondern auch der Energie des Signals ist (wie in 9 gezeigt), beachtlich verbessert werden. Durch Verfolgen der Signalenergie können wir die Signalenergie im aktuellen Rahmen relativ zur kurz vorangegangenen Entwicklung abschätzen. Wenn die relative Energie niedrig ist, dann ist das Signal wahrscheinlicher stimmlos, und daher wird die Schwelle so eingestellt, daß sich eine einseitige Entscheidung, die Stimmlosigkeit bevorzugt, ergibt. Wenn die relative Energie hoch ist, ist das Signal wahrscheinlich stimmhaft, und daher wird die Schwelle so eingestellt, daß sich eine einseitige Entscheidung, die Stimmhaftigkeit bevorzugt, ergibt. Die von der Energie abhängige Stimmschwelle wird folgendermaßen implementiert. ξ₀ soll ein Energiemaß darstellen, das folgendermaßen berechnet wird
wobei S_w(ω) in (14) definiert ist und H(ω) eine von der Frequenz abhängige Gewichtungsfunktion ist. Verschiedene andere Energiemaße könnten anstelle von (22) verwendet werden, beispielsweise
Die Absicht besteht darin, ein Maß zu verwenden, das die relative Intensität von jedem Sprachsegment registriert. Drei Größen, die grob der mittleren lokalen Energie, der maximalen lokalen Energie und der minimalen lokalen Energie entsprechen, werden bei jedem Sprachrahmen gemäß den folgenden Regeln aktualisiert:
Für den ersten Sprachrahmen werden die Werte von ξ_mitt, ξ_max und ξ_min auf eine gewisse willkürliche positive Zahl initialisiert. Die Konstanten γ₀, γ₁, ... γ₄ und μ steuern die Anpassungsfähigkeit des Verfahrens. Typische Werte wären:
γ₀ = 0,067
γ₁ = 0,5
γ₂ = 0,01
γ₃ = 0,5
γ₄ = 0,025
μ = 2,0
Die Funktionen in (24), (25) und (26) sind nur Beispiele und andere Funktionen können auch möglich sein. Die Werte von ξ₀, ξ_mitt, ξ_min und ξ_max wirken sich auf die V/UV-Schwellenfunktion wie folgt aus. T(P,ω) soll eine von der Tonhöhe und der Frequenz abhängige Schwelle sein. Wir definieren die neue von der Energie abhängige Schwelle Tξ(P,W)) durch Tξ(P,ω) = T(P,ω)·M(ξ0, ξmitt, ξmin, ξmax) (27)wobei M(ξ₀, ξ_mitt, ξ_min, ξ_max) durch
gegeben ist.
Typische Werte der Konstanten λ₀, λ₁, λ₂ und ξ_Stille sind:
λ₀ = 0,5
λ₁ = 2,0
λ₂ = 0,0075
ξ_Stille = 200,0
Die V/UV-Information wird durch Vergleichen von D₁, das in (19) definiert ist, mit der von der Energie abhängigen Schwelle
bestimmt. Wenn D₁ geringer ist als die Schwelle, dann wird das 1-te Frequenzband als stimmhaft bestimmt. Ansonsten wird das 1-te Frequenzband als stimmlos bestimmt .
T(P,ω) in Gleichung (27) kann so modifiziert werden, daß es eine Abhängigkeit von anderen Variablen als nur der Tonhöhe und Frequenz beinhaltet, ohne diesen Aspekt der Erfindung zu beeinflussen. Außerdem kann die Tonhöhenabhängigkeit und/oder die Frequenzabhängigkeit von T(P,ω) beseitigt werden (in seiner einfachsten Form kann T(P,ω) gleich einer Konstante sein), ohne diesen Aspekt der Erfindung zu beeinflussen.
In einem weiteren Aspekt der Erfindung kombiniert ein neues hybrides Stimm-Sprachsyntheseverfahren die Vorteile von sowohl dem Zeitbereichs- als auch dem Frequenzbereichsverfahren, die vorher verwendet wurden. Wir haben entdeckt, daß, wenn das Zeitbereichsverfahren für eine kleine Anzahl von Oberwellen mit niedriger Frequenz verwendet wird, und das Frequenzbereichsverfahren für die restlichen Oberwellen verwendet wird, ein geringer Verlust in der Sprachqualität besteht. Da nur eine kleine Anzahl von Oberwellen mit dem Zeitbereichsverfahren erzeugt wird, bewahrt unser neues Verfahren viel der Recheneinsparungen der gesamten Frequenzbereich-Lösungsmethode. Das hybride Stimm-Sprachsyntheseverfahren ist in 10 gezeigt.
Unser neues hybrides Stimm-Sprachsyntheseverfahren arbeitet in der folgenden Weise. Das stimmhafte Sprachsignal v(n) wird gemäß v(n) = v1(n) + v2(n) (29) synthetisiert, wobei v₁(n) eine Niederfrequenzkomponente ist, die mit einem Zeitbereich-Stimmsyntheseverfahren erzeugt wird, und v₂(n) eine Hochfrequenzkomponente ist, die mit einem Frequenzbereich-Syntheseverfahren erzeugt wird. Typischerweise wird die Niederfrequenzkomponente v₁(n) durch
synthetisiert, wobei a_k(n) ein stückweises lineares Polynom ist und Θ_k(n) ein stückweises Phasenpolynom niedriger Ordnung ist. Der Wert von K in Gleichung (30) steuert die maximale Anzahl von Oberwellen, die im Zeitbereich synthetisiert werden. Wir verwenden typischerweise einen Wert von K im Bereich von 4 ≤ K ≤ 12. Jegliche restlichen stimmhaften Oberwellen mit hoher Frequenz werden unter Verwendung eines Frequenzbereich-Stimmsyntheseverfahrens synthetisiert.
In einem weiteren Aspekt der Erfindung haben wir ein neues Frequenzbereich-Syntheseverfahren entwickelt, das effizienter ist und eine bessere Frequenzgenauigkeit aufweist als das Frequenzbereichsverfahren von McAulay und Quatieri. In unserem neuen Verfahren werden die stimmhaften Oberwellen hinsichtlich der Frequenz linear skaliert gemäß der Abbildung
wobei L eine kleine ganze Zahl ist (typischerweise L < 1000). Diese lineare Frequenzskalierung verschiebt die Frequenz der k-ten Oberwelle von einer Frequenz ω_k = k·ω₀, wobei ω₀ die Grundfrequenz ist, zu einer neuen Frequenz
Da die Frequenzen
den Abtastfrequenzen einer Diskreten L-Punkt-Fouriertransformation (DFT) entsprechen, kann eine Inverse L-Punkt-DFT verwendet werden, um alle abgebildeten Oberwellen simultan in das Zeitbereichssignal v ^ ₂(n) zu transformieren. Für die Berechnung der Inversen DFT existiert eine Anzahl von effizienten Algorithmen. Einige Beispiele umfassen die Schnelle Fouriertransformation (FFT), die Winograd-Fouriertransformation und den Primfaktoralgorithmus. Jeder dieser Algorithmen erlegt den zulässigen Werten von L unterschiedliche Bedingungen auf. Beispielsweise erfordert die FFT, daß L eine stark zerlegbare Zahl ist, wie z.B. 2⁷, 3⁵, 2⁴·3² usw.
Aufgrund der linearen Frequenzskalierung ist v ^ ₂(n) eine zeitlich skalierte Version des gewünschten Signals v₂(n). Daher kann v₂(n aus v ^ ₂(n) durch die Gleichungen (31)–(33), die einer linearen Interpolation und Zeitskalierung von v ^ ₂(n) entsprechen, wiedergewonnen werden
Andere Interpolationsformen könnten anstelle der linearen Interpolation verwendet werden. Dieses Verfahren ist in 11 skizziert.
Weitere Ausführungsformen sind möglich. Der hierin verwendete Begriff "Fehlerfunktion" besitzt eine breite Bedeutung und schließt Tonhöhen-Wahrscheinlichkeitsfunktionen ein.

Claims

Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Rufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Subinteger-Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Subinteger-Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
Verfahren nach Anspruch 1, welches ferner die folgenden Schritte umfaßt: Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird; und Entscheiden, als Tonhöhe des aktuellen Segments entweder die mit der Rückblick-Verfolgung gewählte Tonhöhe oder die mit der Vorschau-Verfolgung gewählte Tonhöhe zu verwenden.
Verfahren nach Anspruch 3, wobei die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als eine vorbestimmte Schwelle; ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als der Summenfehler (abgeleitet von der Summenfehlerfunktion, die für die Vorschau-Verfolgung verwendet wird); ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Vorschau-Verfolgung ausgewählten Tonhöhe ist.
Verfahren nach Anspruch 1, 2 oder 3, wobei die Tonhöhe so ausgewählt wird, daß die Fehlerfunktion oder Summenfehlerfunktion minimiert wird.
Verfahren nach Anspruch 1, 2 oder 3, wobei die Fehlerfunktion oder Summenfehlerfunktion von einer Autokorrelationsfunktion abhängt.
Verfahren nach Anspruch 1, 2 oder 3, wobei die Fehlerfunktion diejenige ist, die in den Gleichungen (1), (2) und (3) gezeigt ist.
Verfahren nach Anspruch 6, wobei die Autokorrelationsfunktion für nicht ganzzahlige Werte durch Interpolieren zwischen ganzzahligen Werten der Autokorrelationsfunktion abgeschätzt wird.
Verfahren nach Anspruch 7, wobei r(n) für nicht ganzzahlige Werte durch Interpolieren zwischen ganzzahligen Werten von r(n) abgeschätzt wird.
Verfahren nach Anspruch 9, wobei die Interpolation unter Verwendung des Ausdrucks von Gleichung (21) durchgeführt wird.
Verfahren nach Anspruch 1, 2 oder 3, welches den weiteren Schritt der Verfeinerung der Tonhöhenabschätzung umfaßt.
Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten; Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und Verwenden einer Rückblick-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die die Fehlerfunktion allgemein minimiert und innerhalb eines ersten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs liegt, der die Tonhöhe des vorherigen Segments enthält.
Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten; Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Bereichen, wobei alle Bereiche mindestens einen der Tonhöhenwerte enthalten und mindestens ein Bereich eine Vielzahl der Tonhöhenwerte enthält; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; Finden für jeden Bereich die Tonhöhe, die die Fehlerfunktion über alle Tonhöhenwerte innerhalb dieses Bereichs allgemein minimiert, und Speichern des zugehörigen Werts der Fehlerfunktion innerhalb dieses Bereichs; und Verwenden einer Vorschau-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die eine Summenfehlerfunktion allgemein minimiert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs, der die Tonhöhe des vorangehenden Segments enthält, eingeschränkt wird.
Verfahren nach Anspruch 12, welches ferner die folgenden Schritte umfaßt: Verwenden einer Vorschau-Verfolgung, um für das aktuelle Segment eine Tonhöhe auszuwählen, die eine Summenfehlerfunktion allgemein minimiert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs von Bereichen oberhalb oder unterhalb des Bereichs, der die Tonhöhe des vorangehenden Segments enthält, eingeschränkt wird; und Entscheiden, als Tonhöhe des aktuellen Segments entweder die mit der Rückblick-Verfolgung gewählte Tonhöhe oder die mit der Vorschau-Verfolgung gewählte Tonhöhe zu verwenden.
Verfahren nach Anspruch 14, wobei die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als eine vorbestimmte Schwelle; ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Rückblick- Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als der Summenfehler (abgeleitet von der Summenfehlerfunktion, die für die Vorschau-Verfolgung verwendet wird); ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Vorschau-Verfolgung ausgewählten Tonhöhe ist.
Verfahren nach Anspruch 14 oder 15, wobei sich der erste und der zweite Bereich über eine unterschiedliche Anzahl von Bereichen erstrecken.
Verfahren nach Anspruch 12, 13 oder 14, wobei die Anzahl der Tonhöhenwerte innerhalb jedes Bereichs zwischen den Bereichen variiert.
Verfahren nach Anspruch 12, 13 oder 14, welches den weiteren Schritt der Verfeinerung der Tonhöhenabschätzung umfaßt.
Verfahren nach Anspruch 12, 13 oder 14, wobei der zulässige Bereich der Tonhöhe in eine Vielzahl von Tonhöhenwerten mit einer Subinteger-Auflösung aufgeteilt wird.
Verfahren nach Anspruch 19, wobei die Fehlerfunktion oder Summenfehlerfunktion von einer Autokorrelationsfunktion abhängt; wobei die Autokorrelationsfunktion für nicht ganzzahlige Werte durch Interpolieren zwischen ganzzahligen Werten der Autokorrelationsfunktion abgeschätzt wird.
Verfahren nach Anspruch 12, 13 oder 14, wobei der zulässige Bereich der Tonhöhe unter Verwendung einer von der Tonhöhe abhängigen Auflösung in eine Vielzahl von Tonhöhenwerten aufgeteilt wird.
Verfahren nach Anspruch 21, wobei kleinere Werte der Tonhöhenwerte eine höhere Auflösung besitzen.
Verfahren nach Anspruch 22, wobei kleinere Werte der Tonhöhenwerte eine Subinteger-Auflösung besitzen.
Verfahren nach Anspruch 22, wobei größere Werte der Tonhöhenwerte eine größere als ganzzahlige Auflösung besitzen.
Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Rückblick-Verfolgung, um für das aktuelle Segment einen Tonhöhenwert, der die Fehlerfunktion verringert, innerhalb eines ersten vorbestimmten Bereichs oberhalb oder unterhalb der Tonhöhe eines vorherigen Segments auszuwählen.
Verfahren zum Abschätzen der Tonhöhe von einzelnen Sprachsegmenten, wobei das Verfahren zur Tonhöhenabschätzung die folgenden Schritte umfaßt: Aufteilen des zulässigen Bereichs der Tonhöhe in eine Vielzahl von Tonhöhenwerten unter Verwendung einer von der Tonhöhe abhängigen Auflösung; Auswerten einer Fehlerfunktion für jeden der Tonhöhenwerte, wobei die Fehlerfunktion ein numerisches Mittel zum Vergleichen der Tonhöhenwerte für das aktuelle Segment bereitstellt; und Auswählen für die Tonhöhe des aktuellen Segments eines Tonhöhenwerts, der die Fehlerfunktion verringert, unter Verwendung der Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird.
Verfahren nach Anspruch 25, welches ferner die folgenden Schritte umfaßt: Verwenden einer Vorschau-Verfolgung, um für das aktuelle Sprachsegment einen Tonhöhenwert auszuwählen, der eine Summenfehlerfunktion verringert, wobei die Summenfehlerfunktion eine Abschätzung des Summenfehlers des aktuellen Segments und von zukünftigen Segmenten als Funktion der aktuellen Tonhöhe bereitstellt, wobei die Tonhöhe von zukünftigen Segmenten innerhalb eines zweiten vorbestimmten Bereichs der Tonhöhe des vorangehenden Segments eingeschränkt wird; Entscheiden, als Tonhöhe des aktuellen Segments entweder die mit der Rückblick-Verfolgung gewählte Tonhöhe oder die mit der Vorschau-Verfolgung gewählte Tonhöhe zu verwenden.
Verfahren nach Anspruch 27, wobei die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als eine vorbestimmte Schwelle; ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Rückblick-Verfolgung ausgewählten Tonhöhe ist, wenn die Summe der Fehler (abgeleitet von der Fehlerfunktion, die für die Rückblick-Verfolgung verwendet wird) für das aktuelle Segment und ausgewählte vorherige Segmente geringer ist als der Summenfehler (abgeleitet von der Summenfehlerfunktion, die für die Vorschau-Verfolgung verwendet wird); ansonsten die Tonhöhe des aktuellen Segments gleich der mit der Vorschau-Verfolgung ausgewählten Tonhöhe ist.
Verfahren nach Anspruch 25, 26 oder 27, wobei eine Tonhöhe ausgewählt wird, um die Fehlerfunktion oder die Summenfehlerfunktion zu minimieren.
Verfahren nach Anspruch 25, 26 oder 27, wobei für kleinere Tonhöhenwerte eine höhere Auflösung verwendet wird.
Verfahren nach Anspruch 30, wobei kleinere Werte der Tonhöhenwerte eine Subinteger-Auflösung besitzen.
Verfahren nach Anspruch 30, wobei größere Werte der Tonhöhenwerte eine größere als ganzzahlige Auflösung besitzen.