CN100561574C - 声源装置和声源装置的控制方法 - Google Patents

声源装置和声源装置的控制方法 Download PDF

Info

Publication number
CN100561574C
CN100561574C CNB2004100053293A CN200410005329A CN100561574C CN 100561574 C CN100561574 C CN 100561574C CN B2004100053293 A CNB2004100053293 A CN B2004100053293A CN 200410005329 A CN200410005329 A CN 200410005329A CN 100561574 C CN100561574 C CN 100561574C
Authority
CN
China
Prior art keywords
mentioned
wave data
resonance peak
sound
musical sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100053293A
Other languages
English (en)
Other versions
CN1519815A (zh
Inventor
川原毅彦
中村敦一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2003021683A external-priority patent/JP3915704B2/ja
Priority claimed from JP2003021681A external-priority patent/JP3915703B2/ja
Priority claimed from JP2003021682A external-priority patent/JP3797333B2/ja
Priority claimed from JP2003021680A external-priority patent/JP2004233621A/ja
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of CN1519815A publication Critical patent/CN1519815A/zh
Application granted granted Critical
Publication of CN100561574C publication Critical patent/CN100561574C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M1/00Details of apparatus for conversion
    • H02M1/12Arrangements for reducing harmonics from ac input or output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/08Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
    • G10H7/10Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform using coefficients or parameters stored in a memory, e.g. Fourier coefficients
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02MAPPARATUS FOR CONVERSION BETWEEN AC AND AC, BETWEEN AC AND DC, OR BETWEEN DC AND DC, AND FOR USE WITH MAINS OR SIMILAR POWER SUPPLY SYSTEMS; CONVERSION OF DC OR AC INPUT POWER INTO SURGE OUTPUT POWER; CONTROL OR REGULATION THEREOF
    • H02M7/00Conversion of ac power input into dc power output; Conversion of dc power input into ac power output
    • H02M7/42Conversion of dc power input into ac power output without possibility of reversal
    • H02M7/44Conversion of dc power input into ac power output without possibility of reversal by static converters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech

Abstract

本发明提供一种声源装置和语音合成装置,合成高品质的语音。累加从相位数据发生器(20)输出的相位数据的地址发生器(21),输出有声共振峰或无声共振峰的中心频率的比率的读出地址,通过该读出地址,读出从波形数据存储部(22)形成有声共振峰或无声共振峰的波形数据。读出的波形数据在乘法器(23)中乘以包络线信号,在加法器(25)中在形成无声共振峰的波形数据上加上噪声。通过合成从这种多个WT音频部(10)输出的有声共振峰或无声共振峰而合成语音。

Description

声源装置和声源装置的控制方法
技术领域
本发明涉及一种具有在能够产生乐音的同时可合成语音的语音合成功能的声源装置,以及可合成多个共振峰来合成语音的语音合成装置。
背景技术
原来的声源装置中,为了使其具有合成语音的功能,声源装置不具有发出语音的功能,因此声源装置内需要另外装入语音合成装置。作为原来的语音合成装置的一个例子,原理是将数ms到数十ms的短时间的语音视为恒定,用几个正弦波的和来表现。而已知通过按音调周期将产生正弦波的正弦波发生器的相位复位来形成有声音,通过将正弦波发生器的相位初始化定时(タイミング)随机化而扩展频谱,形成无声音(例如专利文献1)。
专利文献1为特公昭58-53351号公报。
但是,声源装置中另外组装语音合成装置时,声源装置的硬件增大,同时价格也增高,这是一个问题。另外,原来的语音合成装置有可合成的语音的品质低、缺乏真实感的问题。
发明内容
本发明目的是提供一种具有不需要另外装入语音合成装置、同时可合成高品质的语音的语音合成功能的声源装置。
另外,本发明目的是提供一种可合成高品质的语音的语音合成装置。
为达到上述目的,本发明第一方面的声源装置具有多个根据表示波形表声源模式或语音合成模式中的任意一个的模式指定、而输出希望的乐音或希望的共振峰中的任意一个的乐音形成部,在波形表声源模式时,上述多个乐音形成部可分别产生乐音,在语音合成模式时,上述多个乐音形成部具有分别形成共振峰并且从所形成的多个共振峰合成一个语音的语音合成功能。上述多个乐音形成部分别具有:波形形状指定单元,从多种波形形状中指定希望的波形形状;波形数据存储单元,存储与上述多种波形形状对应的多个波形数据;波形数据读出单元,在波形表声源模式时,产生以与应产生乐音的音程对应的比率变化的地址,同时,在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述波形数据存储单元读出与由上述波形形状指定单元指定的波形形状对应的波形数据;包络线提供单元,在波形表声源模式时,生成与发音开始指示连动而上升的同时与发音结束指示连动而衰减的包络线信号,在语音合成模式时,生成在与应合成的语音的音调周期对应的每个定时急剧衰减的同时在衰减后急剧上升的形状的包络线信号,将该生成的包络线信号提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。
本发明的声源装置具有多个根据表示波形表声源模式或语音合成模式中的任意一个的模式指定、而输出希望的乐音或希望的共振峰中的任意一个的乐音形成部,在波形表声源模式时,上述多个乐音形成部可分别产生乐音,在语音合成模式时,上述多个乐音形成部具有分别形成共振峰并且从所形成的多个共振峰合成一个语音的语音合成功能。上述多个乐音形成部分别具有:波形形状指定单元,从多种波形形状中指定希望的波形形状;波形数据存储单元,存储与上述多种波形形状对应的多个波形数据;波形数据读出单元,在波形表声源模式时,产生以与应产生乐音的音程对应的比率变化的地址,同时,在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述波形数据存储单元读出与由上述波形形状指定单元指定的波形形状对应的波形数据;包络线提供单元,生成与发音开始指示连动而上升的同时与发音结束指示连动而衰减的包络线信号,将该生成的包络线信号提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据;噪声提供单元,在语音合成模式时,将噪声提供给由上述包络线提供单元提供了包络线的波形数据。
根据这样的本发明的第一方面,在波形表声源模式时可由多个乐音形成部分别产生乐音,语音合成模式时,可合成由多个乐音形成部分别形成的多个共振峰而合成语音。这样,在产生乐音和语音合成方面可兼用多个乐音形成部,因此声源装置中不需要另外装入语音合成装置就使声源装置具有语音合成功能。语音合成模式时,通过噪声提供单元向共振峰提供噪声可合成高品质的具有真实感的语音。
本发明的第二方面是一种语音合成装置,具备有多个分别形成具有希望的共振峰中心频率和希望的共振峰电平的共振峰的共振峰形成部,通过合成由该多个共振峰形成部形成的多个共振峰而合成语音,上述多个共振峰形成部分别具有:波形数据存储单元,存储与规定的波形形状对应的波形数据;波形数据读出单元,产生以与上述共振峰中心频率对应的比率变化的地址,读出在上述波形数据存储单元中存储的波形数据;噪声提供单元,将噪声提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。
更好是还具有包络线提供单元,形成与发音开始指示连动而上升的同时与发音停止指示连动而衰减的包络线信号,将该形成的包络线信号提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据,或由上述噪声提供单元提供了噪声的波形数据。
另外,还具有乘法单元,在上述共振峰形成部的输出上乘以与上述共振峰电平对应的电平数据。
另外,通过合成从上述多个共振峰形成部输出的具有希望的共振峰中心频率和希望的共振峰电平的多个共振峰而生成无声。
另外,上述波形数据存储单元存储有正弦波形数据。
另外,由上述噪声提供单元提供的噪声是由滤波器对白噪声进行频带限制了的噪声。
根据本发明的第二方面,在多个分别形成具有希望的共振峰中心频率和希望的共振峰电平的共振峰的共振峰形成部包括噪声提供单元,通过合成由该多个共振峰形成部形成的多个共振峰来合成语音。这样,语音合成装置中,通过形成由噪声提供单元提供了噪声的共振峰,可合成高品质的具有真实感的语音。
本发明的第三方面的语音合成装置由多个根据表示有声合成模式或无声合成模式中的任意一个的模式指定、形成希望的有声共振峰或希望的无声共振峰中的任意一个的共振峰形成部构成,该多个共振峰形成部通过合成形成的多个有声共振峰或多个无声共振峰而合成有声或无声,上述多个共振峰形成部分别具有:波形数据存储单元,存储与规定的波形形状对应的波形数据;波形数据读出单元,产生以与上述共振峰中心频率对应的比率变化的地址,读出在上述波形数据存储单元中存储的波形数据;包络线提供单元,有声合成模式时,生成在与音调周期对应的每个定时急剧衰减的同时在衰减后急剧上升的形状的包络线信号,在无声合成模式时,生成与发音开始指示连动而上升的同时与发音结束指示连动而衰减的包络线信号,将该生成的包络线信号提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。更好是上述多个共振峰形成部还具有噪声提供单元,在无声合成模式时,将噪声提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。
本发明的语音合成装置由多个根据表示有声合成模式或无声合成模式中的任意一个的模式指定、形成希望的有声共振峰或希望的无声共振峰中的任意一个的共振峰形成部构成。该多个共振峰形成部通过合成形成的多个有声共振峰或多个无声共振峰而合成有声或无声。上述多个共振峰形成部分别具有:波形数据存储单元,存储与多种波形形状对应的多个波形数据;波形形状指定单元,在有声合成模式时,从上述多种波形形状中指定希望的波形形状,另一方面,在无声合成模式时,指定预先确定的规定的波形形状;波形数据读出单元,产生以与共振峰中心频率对应的比率变化的地址,从上述波形数据存储单元读出与由上述波形形状指定单元指定的波形形状对应的波形数据;包络线提供单元,有声合成模式时,生成在与音调周期对应的每个定时急剧衰减的同时在衰减后急剧上升的形状的包络线信号,在无声合成模式时,生成与发音开始指示连动而上升的同时与发音结束指示连动而衰减的包络线信号,将该生成的包络线信号提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。更好是上述多个共振峰形成部还具有噪声提供单元,在无声合成模式时,将噪声提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。
根据这种本发明的第三方面,由多个共振峰形成部形成希望的有声共振峰或希望的无声共振峰,通过合成形成的多个有声共振峰或多个无声共振峰而合成有声或无声。并且,在形成有声共振峰的波形数据中提供音调周期的包络线信号。由此,使有声共振峰具有音调感,可合成高品质的具有真实感的语音。通过在形成无声共振峰的波形数据中提供噪声,使得可合成更高品质的具有真实感的语音。
本发明的第四方面是一种语音合成装置,具备有多个分别形成具有希望的共振峰中心频率和希望的共振峰电平的共振峰的共振峰形成部,通过合成由该多个共振峰形成部形成的多个共振峰而合成语音,上述多个共振峰形成部分别具有:波形形状指定单元,从多种波形形状中指定希望的波形形状;波形数据存储单元,存储与上述多种波形形状对应的多个波形数据;波形数据读出单元,产生以与上述共振峰中心频率对应的比率变化的地址,从上述波形数据存储单元读出与由上述波形形状指定单元指定的波形形状对应的波形数据;包络线提供单元,形成在与上述音调周期对应的每个定时急剧衰减的同时在衰减后急剧上升的形状的包络线信号,将该形成的包络线信号提供给由上述波形数据读出单元从上述波形数据存储单元读出的波形数据。
更好是通过合成由上述多个共振峰形成部形成的多个共振峰而合成有声。
根据本发明的第四方面,由多个共振峰形成部形成分别具有希望的共振峰中心频率和希望的共振峰电平的共振峰,通过合成形成的多个共振峰来合成语音。并且,对形成共振峰的波形数据提供音调周期的包络线信号。由此,共振峰中可具有音调感,可合成高品质的具有真实感的语音。形成有声共振峰的波形数据中提供音调周期的包络线信号,使得有声共振峰中可具有音调感。
本发明提供一种声源装置的控制方法,该声源装置由多个乐音形成部构成,上述乐音形成部根据用于表示波形表声源模式和语音合成模式中的任意一个的模式指定,输出希望的乐音和希望的共振峰中的任意一个,为了通过控制该声源装置,在波形表声源模式时,使上述多个乐音形成部可分别发出语音,在语音合成模式时,使上述多个乐音形成部能够分别形成共振峰并由所形成的多个共振峰合成一个语音,上述多个乐音形成部分别执行下面的步骤:波形形状指定步骤,从多种波形形状中指定希望的波形形状;波形数据存储步骤,在存储器中存储与上述多种波形形状对应的多个波形数据;波形数据读出步骤,在波形表声源模式时,产生以与应产生的乐音的音程对应的比率变化的地址,并在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述存储器中读出与由上述波形形状指定步骤指定的波形形状对应的波形数据;包络线提供步骤,在波形表声源模式时,生成与发音开始指示连动上升且与发音结束指示连动衰减的包络线信号,在语音合成模式时,生成在与应合成的语音的音调周期对应的每个定时都急剧衰减且在衰减后急剧上升的形状的包络线信号,将所生成的该包络线信号提供给由上述波形数据读出步骤从上述存储器中读出的波形数据。
本发明提供一种声源装置的控制方法,该声源装置具有多个乐音形成部,上述乐音形成部根据用于表示波形表声源模式和语音合成模式中的任意一个的模式指定,输出希望的乐音和希望的共振峰中的任意一个,为了通过控制该声源装置,在波形表声源模式时,使上述多个乐音形成部可分别发出语音,在语音合成模式时,使上述多个乐音形成部分别形成共振峰并由所形成的多个共振峰合成一个语音,上述多个乐音形成部分别执行下面的步骤:波形形状指定步骤,从多种波形形状中指定希望的波形形状;波形数据存储步骤,在存储器中存储与上述多种波形形状对应的多个波形数据;波形数据读出步骤,在波形表声源模式时,产生以与应产生的乐音的音程对应的比率变化的地址,并在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述存储器中读出与由上述波形形状指定步骤指定的波形形状对应的波形数据;包络线提供步骤,生成与发音开始指示连动上升且与发音结束指示连动衰减的包络线信号,将所生成的该包络线信号提供给由上述波形数据读出步骤从上述存储器中读出的波形数据;噪声提供步骤,在语音合成模式时,将噪声提供给由上述包络线提供步骤已提供包络线的波形数据。
附图说明
图1是表示本发明的实施例的兼用作声源装置的语音合成装置的结构的框图;
图2是表示本发明的实施例的兼用作声源装置的语音合成装置的WT音频部的示意结构的框图;
图3是表示本发明的实施例的兼用作声源装置的语音合成装置的相位数据发生器的详细结构的框图;
图4是表示本发明的实施例的兼用作声源装置的语音合成装置的地址发生器的详细结构的框图;
图5是表示本发明的实施例的兼用作声源装置的语音合成装置的地址发生器的ADG输出的一个例子的曲线图;
图6是表示本发明的实施例的兼用作声源装置的语音合成装置的地址发生器的ADG输出的另一个例子的曲线图;
图7是表示本发明的实施例的兼用作声源装置的语音合成装置的地址发生器的有声音调信号的波形的视图;
图8是表示本发明的实施例的兼用作声源装置的语音合成装置的地址发生器的ADG输出的又一个例子的曲线图;
图9是表示本发明的实施例的兼用作声源装置的语音合成装置的包络线发生器的详细结构的框图;
图10是表示本发明的实施例的兼用作声源装置的语音合成装置的包络线发生器的EG输出的一个例子的曲线图;
图11是表示本发明的实施例的兼用作声源装置的语音合成装置的包络线发生器的EG输出的另一个例子的曲线图;
图12是表示本发明的实施例的兼用作声源装置的语音合成装置的包络线发生器的EG输出的又一个例子的曲线图;
图13是表示本发明的实施例的兼用作声源装置的语音合成装置的噪声发生部的详细结构的框图;
图14是表示本发明的实施例的兼用作声源装置的语音合成装置的波形数据存储部中存储的用于形成有声共振峰或无声共振峰的多种波形数据的波形形状的一个例子的视图。
具体实施方式
图1表示出本发明的实施例的兼用作声源装置的语音合成装置的结构的框图。
图1所示的语音合成装置1包括:至少包含存储多种波形形状的波形数据的波形数据存储部和从该波形数据存储部读出规定的波形数据的读出单元的9个波形表音频(WT音频)部10a、10b、10c、10d、10e、10f、10g、10h、10i;混合从WT音频部10a~10i输出的波形数据的混合单元11,输出从混合单元11产生的乐音或合成的语音。此时,向WT音频部10a~10i提供乐音参数和语音参数,作为各种参数,在进行乐音/语音的发生指示的语音模式标记(HVMODE)指示产生乐音(HVMODE=0)时,选择乐音参数,由WT音频部10a~10i使用。而根据选择的乐音参数从WT音频部10a~10i输出所产生的多个乐音的波形数据,从混合单元11输出最大由9个音构成的乐音。
而进行乐音/语音的发生指示的语音模式标记(HVMODE)指示产生语音(HVMODE=1)时,选择语音参数,由WT音频部10a~10i使用。而根据所选择的语音参数从WT音频部10a~10i输出形成有声音调信号、有声共振峰或无声共振峰的波形数据,用混合单元11合成形成有声共振峰和无声共振峰的波形数据来输出一个语音。HVMODE的HV是人类声音(HumanVoice)的简写。U/V是无声(Unvoiced sound)/有声(Voiced sound)的指示标记,供给HVMODE=1和U/N=0时,从WT音频部10b~10i输出形成有声共振峰的波形数据。从供给HVMODE=1和U/V=0的WT音频部10a输出成为有声的音调周期的有声音调信号,不利用波形数据。从WT音频部10a输出的有声音调信号供给WT音频部10b~10i,形成有声共振峰的波形数据的相位按有声音调信号的每个周期复位。有声共振峰的包络线形状对应有声音调信号的周期。由此,可使有声共振峰具有音调感。
并且,向WT音频部10b~10i供给HVMODE=1和U/V=1时,从WT音频部10b~10i输出形成无声共振峰的波形数据。不利用来自供给HVMODE=1和U/V=1的WT音频部10a的输出。这样,HVMODE=1时,通过WT音频部10b~10i可输出最大8个共振峰的有声共振峰或无声共振峰的共振峰。
这里,说明语音时,发出语音的基础是声带的振动,但即便是发出的词语不同,声带的振动也几乎没有变化。由嘴的张开方式和喉的形状等产生的共振和共鸣以及伴随于此的摩擦音、破裂音等附加在声带的振动上来变成各种各样的语音。这样的语音中,在特定的频带中集中频谱的被称为共振峰的部分在频率轴上存在有多处。该共振峰的中央的频率或振幅最大的频率是共振峰中心频率。语音中包含的共振峰数、各共振峰的中心频率和振幅、频带宽等是决定语音性质的要素,根据发出语音的人的性格、体格、年龄等而有很大程度的不同。语音中,按发出的词语的每个种类决定特征共振峰的组合,共振峰的组合与音质无关。共振峰的种类大致区分的话,有用于合成有声的具有音调感的有声共振峰和用于合成无声的不具有音调感的无声共振峰。所谓有声是发音时声带振动的语音,有声中包含元音、半元音、以及バ行、ガ行、マ行、ラ行等使用的有声辅音。所谓无声是指发音时声带不振动的语音,ハ行、カ行、サ行等辅音对应于无声。
图1所示结构的本发明的兼用作声源装置的语音合成装置1中,在产生乐音时,作为HVMODE=0,WT音频部10a~10i分别而发出多个乐音。即可产生最大9个音构成的乐音。
合成语音时,作为HVMODE=1,由WT音频部10b~10i形成与合成的有声或无声的语音对应的有声共振峰或无声共振峰。此时,合成的语音最大是8个共振峰的组合。例如,合成的语音是有声时,向WT音频部10b~10i供给U/V=0,基于供给的语音参数的有声共振峰分别由WT音频部10b~10i形成。此时,向WT音频部10a供给U/V=0,WT音频部10a根据供给的语音参数产生有声音调信号。该有声音调信号供给WT音频部10b~10i,形成输出的有声共振峰的波形数据的相位按有声音调信号的每个周期复位。有声共振峰的包络线形状对应有声音调信号的周期。由此,由WT音频部10b~10i形成具有音调感的有声共振峰。
合成的语音是无声的情况下,向WT音频部10b~10i供给HVMODE=1和U/V=1,基于供给的语音参数的无声共振峰分别由WT音频部10b~10i形成。如后所述,在无声的情况下,成为附加有噪声的无声共振峰。由此,可合成高品质的有真实感的语音。合成无声的情况下不利用WT音频部10a的输出。
语音合成装置1的WT音频部10a~10i的结构是相同结构,下面作为WT音频部10对其结构进行说明。图2是表示WT音频部10的示意结构的框图。图2以后,(WT)、(有声共振峰)、(无声共振峰)的标记表示该参数分别是用于生成乐音、有声共振峰、无声共振峰的参数。
图2中,相位数据发生器(PG:Phase Generator)20产生与应产生的乐音的音调或有声音调信号、有声共振峰中心频率、无声共振峰中心频率中的其中之一对应的相位数据。向PG20供给语音模式标记(HVMODE)、无声/有声指示标记(U/V)的标记(フラグ)信息和作为乐音参数的乐音的8度音程信息BLOCK(WT)、乐音的频率信息FNUM(WT)。另外,作为语音参数,供给有声音调信号的8度音程信息BLOCK(有声音调)、有声音调信号的频率信息FNUM(有声音调)、或有声共振峰的8度音程信息BLOCK(有声共振峰)、有声共振峰的频率信息FNUM(有声共振峰)、无声共振峰的8度音程信息BLOCK(无声共振峰)、无声共振峰的频率信息FNUM(无声共振峰)的各参数。PG20中,供给的各种参数由标记信息选择,根据选择的参数产生与应产生的乐音的音程或有声音调信号、有声共振峰中心频率、无声共振峰中心频率中的其中之一对应的相位数据。
图3表示PG20的详细结构。图3中,选择器30中,对应U/V标记的状态选择有声音调信号或有声共振峰的频率信息FNUM、无声共振峰的频率信息FNUM中的其中之一并输出到选择器31。选择器31中,对应HVMODE标记的状态选择乐音的频率信息FNUM(WT)和从选择器30输出的与语音关联的频率信息FNUM中的其中之一并输出到移动器(シフタ)34,从选择器31输出的频率信息FNUM设定到移动器34中。选择器32中,对应U/V标记的状态选择有声音调信号或有声共振峰的8度音程信息BLOCK、无声共振峰的8度音程信息BLOCK中的其中之一并输出到选择器33。选择器33中,对应HVMODE标记的状态选择乐音的8度音程信息BLOCK(WT)和从选择器32输出的与语音关联的8度音程信息BLOCK中的其中之一并作为移动信息输出到移动器34,移动器34中设定的频率信息FNUM对应8度音程信息BLOCK而移动。由此,添加了用于产生应产生的乐音的音程、有声音调信号、有声共振峰的中心频率、无声共振峰的中心频率中的其中之一的8度音程的相位数据作为PG输出而从PG20输出。
回到图2中,来自PG20的PG输出输入到地址发生器(ADG:AddressGenerator)21,通过累加成为PG输出的相位数据而产生用于从波形数据存储部(WAVE TABLE)22读出希望的波形形状的波形数据的读出地址。向ADG21供给语音模式标记(HVMODE)、无声/有声指示标记(U/V)的标记信息、作为乐音参数的开始地址SA(WT)、循环点LP(WT)、结束点EP(WT),另外,作为语音参数,供给用于选择适合于形成有声共振峰的波形的波形选择(WS)信号和指示乐音和语音共用的发音开始的键通(Key On)信号。
产生乐音时,作为HVMODE=0,按键通信号的开始定时从ADG21输出开始地址SA(WT),从开始地址SA(WT)所示的波形数据存储部22的位置开始读出波形数据。而通过累加来自PG20的相位数据而从ADG21顺序输出到结束点EP(WT)为止的读出地址,使得按对应乐音的音程的比率(レ一ト)变化。由此,按对应乐音的音程的比率顺序读出到结束点EP(WT)所示的波形数据存储部22的位置为止的波形数据的采样。接着,相当于循环点LP(WT)的读出地址从ADG21输出,另外,通过累加来自PG20的相位数据,到结束点EP(WT)为止的读出地址在按对应乐音的音程的比率变化的同时从ADG21顺序读出。从而,从循环点LP(WT)所示的波形数据存储部22的位置到结束点EP(WT)所示的波形数据存储部22的位置为止的波形数据的采样按对应乐音的音程的比率顺序读出。从循环点LP(WT)到结束点EP(WT)的读出地址反复产生,直到根据键通信号而停止发音。这样,可按对应乐音的音程的比率从波形数据存储部22读出从键通信号表示的发音开始到发音停止的希望的波形数据。
合成语音时,作为HVMODE=1,按键通信号的开始定时而从WS(有声共振峰)信号所示的开始地址、或预先确定的无声共振峰用的开始地址所示的波形数据存储部22的位置开始读出波形数据。而通过累加来自PG20的相位数据而成为固定的地址范围的读出地址以按对应有声共振峰或无声共振峰的中心频率的比率变化的方式从ADG21顺序输出。由此,波形数据的采样按对应有声共振峰或无声共振峰的中心频率的比率从波形数据存储部22顺序读出。WT音频部10a中,累加来自PG20的相位数据的累加值达到由有声音调周期预先确定的规定值(常数值),达到常数值时,输出有声音调信号(脉冲信号)。
图4表示这种ADG21的详细结构。图4中,来自PG20的相位数据输入累加器(ACC:Accumulator)41,通过每个时钟(クロツク)累加而生成读出地址的增加值。该读出地址的增加值经选择器46供给加法器47并在加法器47中与开始地址相加,生成读出地址,作为ADG输出而从ADG21输出。
ADG21中,说明设为HVMODE=0而产生乐音时的动作。设为HVMODE=0时,由于与门AND关闭,仅通过或门OR输出的键通信号(KeyOn)把累加器41复位为初始值。开始累加从PG20供给的与应产生的乐音的音程对应的相位数据。该累加按每个时钟进行,其累加值b输出到选择器46和减法器43中。
向减法器43中供给数据a的选择器42由于HVMODE=0而将结束点EP(WT)选择为数据a并输出到减法器43。由此,输出由减法器43运算的减法值(a-b),去除减法值(a-b)的MSB外的振幅值|a-b|供给加法器45。减法值(a-b)为负时,成为“1”的MSB(最高有效位:Most Significant Bit)信号作为选择信号而供给选择器46,同时,作为装载信号供给累加器41。MSB信号由于减法值(a-b)为负时变为“1”,因此选择器46将累加值b输出到加法器47,直到累加值b超过结束点EP(WT)为止。向加法器47供给加法数据的选择器50由于HVMODE=0而选择开始地址SA(WT)并输出到加法器47中。由此,加上了开始地址SA(WT)的累加值b作为ADG输出而输出。累加值b按每个时钟累加相位数据,由于按相位数据的比率变化,因此作为ADG输出的读出地址也对应于相位数据而变化。
而累加值b超过结束点EP(WT)时MSB信号变化为“1”,因此选择器46输出从加法器45输出的数据c。由于HVMODE=0,所以数据c成为在选择器44中选择的循环点LP(WT)上加上在加法器45中去除减法值(a-b)的MSB外的振幅值|a-b|所得的运算值。因此,从加法器47输出的ADG输出是由振幅值|a-b|校正的循环点LP(WT)的读出地址。另外,由于MSB信号变化为“1”,所以向累加器41供给装载信号,将数据c装载到累加器41中。这样,MSB信号返回到“0”,所以从累加器41输出的数据b从选择器46输出。并且,由于从累加器41输出按每个时钟将相位数据加上数据c得到的累加值b,因此ADG输出基本上从循环点LP(WT)的读出地址开始按对应相位数据的比率变化。
若此时的ADG输出用曲线图示说明,则图5示出ADG输出。即,当施加键通信号时,输出开始地址SA(WT),在按对应相位数据的比率变化的同时读出地址上升,从开始地址SA(WT)增加结束点(EP)的大小,此时,返回开始地址SA(WT)上加上循环点(LP)得到的值,以后反复产生在开始地址SA(WT)上加上循环点(LP)得到的值上增加结束点(EP)大小的读出地址。此时的读出地址的变化为对应相位数据的比率。并且,根据键通信号停止发音时,停止ADG输出。通过作为该ADG输出的读出地址而从波形数据存储部22读出的波形数据为对应相位数据的频率。由于可通过开始地址SA(WT)选择从波形数据存储部22读出的波形数据的种类,例如通过按每个音频部10a~10i选择开始地址SA(WT),可使得每个WT音频部10a~10i的音色不同。
接着说明ADG21为WT音频部10a的地址发生器、设HVMODE=1和U/V=0而产生有声音调信号时的动作。设HVMODE=1和U/V=0时,与门AND打开,但不向WT音频部10a供给有声音调信号,因此仅从或门OR输出键通信号。这样,累加器41通过键通信号复位到初始值,开始累加从PG20供给的对应应产生的有声音调信号的相位数据。该累加按每个时钟进行,其累加值b输出到选择器46和减法器43。向减法器43中供给数据a的选择器42由于设为HVMODE=1而将预先确定的常数值作为数据a而选择并输出到减法器43。由此,输出减法器43运算的减法值(a-b),向加法器45供给去除减法值(a-b)的MSB外的振幅值|a-b|。
减法值(a-b)的MSB信号作为选择信号供给选择器46,同时,作为装载信号提供给累加器41。MSB信号在减法值(a-b)为负值时,即累加值达到常数值时为“1”,作为装载信号提供给累加器41。累加器41中装载数据c。由于设为HVMODE=1,所以数据c成为在选择器44中选择的“0”上加上加法器45中去除减法值(a-b)的MSB外的振幅值|a-b|所得的运算值。累加器41在下一时钟将相位数据加到数据c时,MSB信号变为“0”。这样,MSB信号按对应基于从PG20供给的有声音调参数的相位数据的周期、即有声音调的周期产生。因此,供给HVMODE=1和U/V=0的WT音频部10a中,将该MSB信号作为有声音调信号输出。用曲线图表示有声音调信号时,如图7所示,为具有有声音调的周期的脉冲信号。此时,从WT音频部10a也输出ADG输出,但该ADG输出不用作读出地址。
接着说明ADG21中HVMODE=1和U/V=0而产生有声共振峰时的动作。设HVMODE=1和U/V=0时,通过门NOT的作用与门AND打开,因此通过从或门OR输出的有声音调信号和键通信号而将累加器41复位到初始值,开始累加从PG20供给的对应应产生的有声共振峰的中心频率的相位数据。向与门AND供给从WT音频部10a输出的图7所示的有声音调信号。累加器41的累加按每个时钟进行,其累加值输出到选择器46和减法器43中。向减法器43中供给数据a的选择器42由于设为HVMODE=1,所以将预先确定的常数值选择为数据a并输出到减法器43中。设为常数值是由于形成共振峰的波形数据的数据量为固定值。并且,输出减法器43运算的减法值(a-b),向加法器45供给去除减法值(a-b)的MSB外的振幅值|a-b|。
将减法值(a-b)的MS信号作为选择信号供给选择器46的同时,作为装载信号提供给累加器41。MSB信号由于在减法值(a-b)为负值时为“1”,因此选择器46将累加值b输出到加法器47中,直到累加值b超出常数值。向加法器47中供给加法数据的选择器50由于设为HVMODE=1而选择选择器49的输出并输出到加法器47中。选择器49由于设为U/V=0而向选择器49输出从开始地址发生器48输出的形成有声共振峰的所选择的波形数据的开始地址SA(WS)。另外,开始地址发生器48对应为选择适合于形成有声共振峰的波形而输入的波形选择(WS)信号输出为选择波形数据的波形数据存储部22上的开始地址SA。由此,加法器47中在开始地址SA(WS)上加上累加值b,作为ADG输出来输出。累加值b按每个时钟累加相位数据,按对应相位数据的比率变化,因此作为ADG输出的读出形成有声共振峰的波形数据的读出地址也按对应相位数据的比率变化。
进行累加使得累加值达到常数值时,减法值(a-b)为负值,MSB信号为“1”,供给选择器46。这样,从选择器46输出数据c,但由于HVMODE=1,数据c成为在选择器44中选择的“0”上加上加法器45中去除减法值(a-b)的MSB外的振幅值|a-b|得到的运算值。由此,从加法器45输出的ADG输出成为振幅值|a-b|的读出地址。MSB信号作为装载信号提供给累加器41,在累加器41中装载数据c。然后在下一时钟中相位数据加到数据c后,MSB信号返回“0”,因此从累加器41输出的数据b从选择器46输出。累加器41的相位数据的累加按每个时钟进行的ADG输出从开始地址SA(WS)对应相位数据的比率变化时,在仅增加常数值大小时再次返回到开始地址SA(WS),因此ADG输出反复从开始地址SA(WS)增加了常数值大小的读出地址。此时的相位数据是基于有声共振峰的中心频率,因此读出地址按对应有声共振峰的中心频率的比率变化。另外,累加器41根据从WT音频部10a输出的有声音调信号而复位到初始值,因此ADG输出按每个有声音调周期复位,可使在由将ADG信号作为读出地址从波形数据存储部22读出的波形数据而形成的具有规定的中心频率的有声共振峰中具有音调感。
此时的ADG输出若用曲线图表示,则如图6所示。即,当施加键通信号时,输出与选择形成有声共振峰的波形数据的WS信号对应的开始地址SA(WS)。并且,通过累加器41的作用按对应有声共振峰的中心频率的比率变化的读出地址上升时,开始地址SA(WS)增加常数值大小之际,返回开始地址SA(WS),以后反复产生从开始地址SA(WS)增加常数值大小得到的值的读出地址。通过该ADG输出,从波形数据存储部22读出所选择的波形数据时,通过读出的波形数据形成规定的中心频率的有声共振峰。并且,通过键通信号停止发音时,ADG输出停止。可通过开始地址SA(WS)、即WS(有声共振峰)信号选择从波形数据存储部22读出的波形数据的种类,由此可使形成的有声共振峰的共振峰变化。图6中未示出累加器41通过从WT音频部10a输出的有声音调信号而被复位到初始值的情况。
接着,说明ADG21中设HVMODE=1和U/V=1而产生无声共振峰时的动作。当设HVMODE=1和U/V=1时,与门AND通过门NOT的作用关闭,因此仅通过由或门OR输出的键通信号来将累加器41复位到初始值,开始累加从PG20供给的对应应产生的无声共振峰的中心频率的相位数据。该累加按每个时钟进行,其累加值b输出到选择器46和减法器43中。向减法器43中供给数据a的选择器42由于HVMODE=1而将预先确定的常数值选择为数据a并输出到减法器43。设为常数值是由于形成共振峰的波形数据的数据量设为固定值。并且,输出减法器43运算的减法值(a-b),去除减法值(a-b)的MSB外的振幅值|a-b|供给加法器45。
减法值(a-b)的MSB信号作为选择信号供给选择器46,同时,作为装载信号供给累加器41。MSB信号由于减法值(a-b)为负值时变为“1”,因此选择器46将累加值b输出到加法器47,直到累加值b超出常数值。向加法器47供给加法数据的选择器50由于HVMODE=1而选择选择器49的输出并输出到加法器47中。选择器49由于设U/V=1而将预先确定(固定)的正弦波的波形数据的开始地址SA(正弦)输出到选择器49中。这是由于正弦波适合于形成无声共振峰。由此,在加法器47中将累加值b加到开始地址SA(正弦)上,作为ADG输出而输出。累加值b按每个时钟累加相位数据,按对应无声共振峰的中心频率的比率变化,因此读出作为ADG输出的形成无声共振峰的波形数据的读出地址也按对应无声共振峰的中心频率的比率变化。
并且,累加值b超出常数值时MSB信号变化为“1”,因此选择器46输出从加法器45输出的数据c。由于HVMODE=1,数据c成为在选择器44选择的“0”上加上加法器45中去除减法值(a-b)的MSB外的振幅值|a-b|所得的运算值。因此,从加法器45输出的ADG输出成为振幅值|a-b|的读出地址。由于MSB信号作为装载信号供给累加器41,将数据c装载到累加器41中。并且,下一时钟中相位数据加到数据c时,MSB信号返回到“0”,因此从累加器41输出的数据b从选择器46输出。由于累加器41的相位数据的累加按每个时钟进行,ADG输出按对应相位数据的比率从开始地址SA(正弦)变化,在增加常数值大小之际,再次返回开始地址SA(正弦),因此ADG输出反复到从开始地址SA(正弦)增加常数值大小的读出地址。此时的相位数据是基于无声共振峰的中心频率,因此读出地址按对应无声共振峰的中心频率的比率变化。通过将该ADG信号作为读出地址从波形数据存储部22读出的波形数据,形成具有规定中心频率的无声共振峰。
此时的ADG输出若用曲线表示,则如图5所示。即,施加键通信号时,输出形成无声共振峰的正弦波的波形数据的开始地址SA(正弦),通过累加器41的作用按对应无声共振峰的中心频率的比率变化的读出地址上升,开始地址SA(正弦)增加常数值大小,此时,返回开始地址SA(正弦),以后反复产生开始地址SA(正弦)上加上常数值大小的读出地址。通过该AGD输出,从波形数据存储部22读出正弦波的波形数据时,通过读出的波形数据形成规定的中心频率的无声共振峰。并且,通过键通信号停止发音时,停止ADG输出。
这里,图14中表示出波形数据存储部22中存储的用于形成有声共振峰或无声共振峰的多种波形数据的波形形状的一个例子。
图14中,表示出波形数据存储部22中存储32种波形形状的波形数据的例子,设“0”为WS(有声共振峰)信号时,读出0号的正弦波,例如设“16”为WS(有声共振峰)信号时,读出16号的三角波。开始地址SA(正弦)设为0号的正弦波的在波形数据存储部22上的开始地址。这32种波形数据的数据量被固定,上述的常数值对应该数据量。因此,通过从ADG21输出的ADG输出而读出32种波形数据中的其中之一时,直到发音停止之前都反复读出选择的波形形状的波形数据。
回到图2,从波形数据存储部22读出的波形数据供给乘法器23,与包络线发生器(EG)24产生的包络线信号相乘。向EG24中供给语音语音模式标记(HVMODE)、无声/有声只是标记(U/V)的标记信息和作为乐音参数的上升率(アタツクレ一ト)AR(WT)、衰减率(デイケイレ一ト)DR(WT)、维持率(サステインレ一ト)SR(WT)、释放率(リリ一スレ一ト)RR(WT)、维持电平(サステインレベル)SL(WT),另外,供给乐音和语音共用的指示发音开始的键通信号。
图9表示出表示这种包络线发生器(EG)24的详细结构的框图。
产生乐音时,图9所示的EG24中,HVMODE=0,选择器60中选择上升率AR(WT)并输出到选择器61,选择器63中选择衰减率DR(WT)并输出到选择器61,选择器64中选择释放率RR(WT)并输出到选择器61中。此外,向选择器61输入维持率SR(WT)。选择器61由状态控制部66控制,按上升、衰减、维持、释放的各个状态选择该状态的包络线参数并输出。状态控制部66中供给键通信号、语音模式标记(HVMODE)的同时,输入维持电平SL(WT)信号。也供给从WT音频部10a输出的有声音调信号、无声/有声指示标记(U/V),但不使用这些。对应状态从选择器61输出的包络线参数由累加器(ACC)65累加,生成包络线,作为EG输出来输出,同时供给状态控制部66。状态控制部66可从EG输出的电平判断状态。累加器65中按键通信号的开始定时开始累加。
若用曲线表示此时的EG输出,则如图10所示。即,向状态控制部66和累加器65供给的键通信号上升时,状态控制部66判断为发音开始,从选择器61输出作为发音开始时的状态的上升用的上升率AR(WT)的参数。该上升率AR(WT)的参数在累加器65中按每个时钟累加,EG输出如图10所示的AR那样急剧上升。并且,EG输出的电平到达例如0dB时,状态控制部66判断为状态移动到衰减,从选择器61输出衰减率DR(WT)的参数。该衰减率DR(WT)的参数在累加器65中按每个时钟累加,EG输出如图10所示的DR那样急剧下降。
EG输出下降时,EG输出的电平到达维持电平SL(WT)时,状态控制部66检测出该情况,判断为状态移动到维持,从选择器61输出维持率SR(WT)的参数。输出的维持率SR(WT)的参数在累加器65中按每个时钟累加,EG输出如图10所示的SR那样以缓缓的倾斜方式下降。状态控制部66继续维持,直到键通信号下降,这里,键通信号下降,状态控制部66判断为发音停止,从选择器64输出释放率RR(WT)的参数。输出的释放率RR(WT)的参数在累加器65中按每个时钟累加,EG输出如图10所示的RR那样急剧以倾斜方式下降,发音停止。
接着在产生语音的有声共振峰时,图9所示的EG24中,HVMODE=1并且U/V=0,选择器60中选择初始状态用的急剧上升率并输出到选择器61,选择器63中选择由选择器62对应U/V=0选择的中间状态用的常数值并输出到选择器61,选择器64中选择结束状态用的急剧衰减率并输出到选择器61。另外,向选择器61输入维持率SR(WT),但该参数未被使用。选择器61由状态控制部66控制,按初始、中间、结束的各个状态选择对应状态的包络线参数并输出。向状态控制部66供给键通信号、从WT音频部10a输出的有声音调信号、语音模式标记(HVMODE)、无声/有声指示标记(U/V)的标记信息。供给维持电平SL(WT)信号,但本情况下不被使用。从选择器61对应状态输出的包络线参数由累加器(ACC)65按每个时钟累加,生成包络线,作为EG输出来输出,同时供给状态控制部66。状态控制部66可从EG输出的电平判断状态。累加器65中按键通信号的开始定时开始累加。
此时的EG输出用曲线表示的话,则如图11所示。即,向状态控制部66和累加器65供给的键通信号上升时,状态控制部66判断为发音开始,从选择器61输出初始状态用的急剧上升率的参数。该急剧上升率的参数在累加器65中按每个时钟累加,EG输出如图11所示那样急剧上升。并且,EG输出的电平到达规定电平时,状态控制部66判断为状态移动到中间状态,从选择器61输出中间状态用的常数值的参数。该常数值的参数在累加器65中按每个时钟累加,EG输出如图11所示缓缓下降。
这里,向状态控制部66输入图7所示的有声音调信号时,状态控制部66控制选择器61,选择急剧下降率的参数并输出到累加器65中。该急剧下降率的参数在累加器65中按每个时钟累加,EG输出如图11所示急剧下降。并且,EG输出的电平到达规定的最低电平时,状态控制部66控制选择器61,再次选择急剧上升率的参数并输出到累加器65中。该急剧上升率的参数在累加器65中按每个时钟累加,EG输出如图11所示急剧上升。并且,EG输出的电平到达规定的电平时,状态控制部66判断为移动到中间状态,从选择器61输出中间状态用的常数值的参数。以下反复进行同样动作。这样形成具有有声音调的周期的包络线,因此能够向在乘法器23中乘上该包络线的波形数据提供音调感。
键通信号下降、状态控制部66判断为发音停止时,状态控制部66控制选择器61,选择急剧下降率的参数并输出到累加器65中。该急剧下降率的参数在累加器65中按每个时钟累加,EG输出急剧下降,停止发音。
接着在产生语音的无声共振峰时的情况下,在图9所示的EG24中,HVMODE=1以及U/V=1,选择器60中选择初始状态用的急剧上升率并输出到选择器61,选择器63中选择由选择器62对应U/V=1选择的中间状态用的“0”并输出到选择器61,选择器64中选择结束状态用的急剧衰减率并输出到选择器61。另外,向选择器61输入维持率SR(WT),但该参数未被使用。选择器61由状态控制部66控制,按初始、中间、结束的各个状态选择对应状态的包络线参数并输出。向状态控制部66供给键通信号、语音模式标记(HVMODE)、无声/有声指示标记(U/V)的标记信息。供给从WT音频部10a输出的有声音调信号和维持电平SL(WT)信号,但本情况下不被使用。从选择器61对应状态而输出的包络线参数由累加器(ACC)65累加,生成包络线,作为EG输出而输出,同时供给状态控制部66。状态控制部66可从EG输出的电平判断状态。累加器65中按键通信号的开始定时开始累加。
此时的EG输出用曲线表示的话,则如图12所示。即,向状态控制部66和累加器65供给的键通信号上升时,状态控制部66判断为发音开始,从选择器61输出初始状态用的急剧上升率的参数。该急剧上升率的参数在累加器65中按每个时钟累加,EG输出如图12所示那样急剧上升。并且,EG输出的电平到达规定电平时,状态控制部66判断为移动到中间状态,从选择器61输出中间状态用的“0”的参数。由此,从累加器65输出的EG输出如图12所示,维持该值。这里,键通信号下降,状态控制部66判断为发音停止时,状态控制部66控制选择器61,选择急剧下降率的参数并输出到累加器65中。该急剧下降率的参数在累加器65中按每个时钟累加,EG输出如图12所示急剧下降,发音停止。
虽然形成按图10~12所示的EG输出直线变化的包络线,但也可产生曲线变化的包络线。另外,也可以将EG24的输出乘以波形数据的乘法器23可配置在后面所述的加法器25的后段上。
回到图2中,乘法器23中乘以包络线的波形数据供给加法器25,加上由噪声发生部26产生的噪声。噪声例如为白噪声。此时,向噪声发生部26供给语音模式标记(HVMODE)、无声/有声指示标记(U/V)的标记信息,设为HVMODE=1以及U/V=1,仅在产生无声共振峰时产生噪声。因此,加法器25中,仅在形成无声共振峰的乘以包络线的波形数据上加上噪声并输出。
这里,图13表示噪声发生部26的详细结构。如图13所示,从噪声发生部26的白噪声发生器70产生的白噪声由4级的低通滤波器(LPF1,LPF2,LPF3,LPF4)71、72、73、74频带限制。并且,低通滤波器74的输出在乘法器75中调整噪声的电平,输入选择器76中。选择器76通过与门(AND)77的输出来选择,与门77在设为HVMODE=1以及U/V=1、产生无声共振峰时,在选择器76中输出从乘法器75输出的噪声。在HVMODE=1和U/V=1中的其中一个为“0”、产生乐音或有声共振峰时,通过与门77的输出从选择器76中输出0来代替噪声。由此,加法器25中仅在形成无声共振峰的乘以包络线的波形数据上加上噪声并输出。
低通滤波器71~74同样地构成,作为代表在图13中表示低通滤波器71。低通滤波器71中,从白噪声发生器70输入的白噪声由延迟电路70a延迟一个采样时间,在系数乘法器70b中乘以规定系数并输入加法器70d。输入的白噪声在系数乘法器70c中乘以规定系数并输入加法器70d,加到系数乘法器70b的输出。加法器70d的输出为低通滤波器输出。通过由这样构成的例如4级低通滤波器71~74对白噪声进行频带限制,可抑制产生语音贴近耳朵的感觉。另外,不一定进行乘法器75的噪声电平的电平调整,也可省略。
回到图2中,从加法器25输出的波形数据供给乘法器27并调整输出电平。乘法器27中供给语音模式标记(HVMODE)、无声/有声指示标记(U/V)的标记信息、表示乐音的输出电平的电平(WT)、表示有声共振峰的输出电平的电平(有声共振峰)、表示无声共振峰的输出电平的电平(无声共振峰)。并且,设HVMODE=0来产生乐音时,乘法器27中乘以电平(WT),调整乐音的波形数据的输出电平。设HVMODE=1、W/V=0来产生有声共振峰时,乘法器27中乘以电平(有声共振峰),调整形成有声共振峰的波形数据的输出电平。由此,有声共振峰的电平为规定电平。另外,设HVMODE=1、U/V=1来产生无声共振峰时,乘法器27中乘以电平(无声共振峰),调整形成无声共振峰的波形数据的输出电平。由此,无声共振峰的电平为规定电平。
以上说明中,本发明的兼用作声源装置的语音合成装置由具有9个波形数据存储部的WT音频部构成,但不限于此,可以是小于9个或多于9个的WT音频部。若为多于9个的WT音频部时,可同时增加乐音和发音数,同时可增加合成的共振峰数,可合成各种语音。
本发明的兼用作声源装置的语音合成装置通过语音模式标记(HVMODE)指定乐音时,多个WT音频部具有作为乐音形成部的功能,用语音模式标记(HVMODE)指定语音时,多个WT音频部具有作为共振峰形成部的功能。通过将语音模式标记(HVMODE)固定为语音,可用作专用的语音合成装置。
本发明的第一方面如以上说明,在波形表声源模式时,可由多个乐音形成部分别产生乐音,在语音合成模式时,可合成通过多个乐音形成部分别形成的多个共振峰来合成语音。这样,通过乐音产生和语音合成来兼用多个乐音形成部,因此不用在声源装置中另外装入语音合成装置,可使声源装置具有语音合成功能。语音合成模式时,通过噪声提供单元向共振峰提供噪声,使得可合成高品质的具有真实感的语音。
本发明的第二方面如以上说明,在作为分别形成具有希望的共振峰中心频率和希望的共振峰电平的共振峰的波形表音频部的多个共振峰形成部中具备有噪声提供单元,通过合成由该多个共振峰形成部形成的多个共振峰来合成语音。这样,在语音合成装置中通过噪声提供单元而形成提供了噪声的共振峰,从而可合成高品质的具有真实感的语音。此时,为了合成高品质的具有真实感的语音,最好是在形成无声共振峰的波形数据上加上噪声。
本发明的第三方面如以上说明,由多个作为波形表音频部的共振峰形成部形成希望的有声共振峰或希望的无声共振峰,通过合成形成的多个有声共振峰或多个无声共振峰,从而合成有声或无声。并且,形成有声共振峰的波形数据上提供音调周期的包络线信号。由此,可使有声共振峰具有音调感,可合成高品质的具有真实感的语音。通过向形成无声共振峰的上述波形数据提供噪声,可合成更高品质的具有真实感的语音。
本发明的第四方面如以上说明,由多个作为波形表音频部的多个共振峰形成部形成分别具有希望的共振峰中心频率和希望的共振峰电平的共振峰,通过合成形成的多个共振峰,从而合成语音。并且,形成共振峰的波形数据上提供有音调周期的包络线信号。由此,可使共振峰具有音调感,可合成高品质的具有真实感的语音。通过向形成有声共振峰的波形数据提供音调周期的包络线信号,可使有声共振峰具有音调感。
这样,本发明通过混合根据乐音参数从多个波形表音频部输出的波形数据,可产生多个乐音,通过合成根据语音参数从多个波形表音频部输出的形成有声共振峰或无声共振峰的波形数据,可合成语音。这样,由于在乐音产生和语音合成方面可兼用多个波形表音频部,因此本发明的第二方面到第四方面的语音合成装置可兼用作声源装置。

Claims (4)

1.一种声源装置,具有多个乐音形成部,上述乐音形成部根据用于表示波形表声源模式和语音合成模式中的任意一个的模式指定,输出希望的乐音和希望的共振峰中的任意一个,而且,在波形表声源模式时,上述多个乐音形成部可分别产生乐音,在语音合成模式时,上述多个乐音形成部具有分别形成共振峰并由所形成的多个共振峰合成一个语音的语音合成功能,
上述多个乐音形成部分别具有:
波形形状指定单元,从多种波形形状中指定希望的波形形状;
波形数据存储单元,存储与上述多种波形形状对应的多个波形数据;
波形数据读出单元,在波形表声源模式时,产生以与应产生的乐音的音程对应的比率变化的地址,并在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述波形数据存储单元中读出与上述波形形状指定单元所指定的波形形状对应的波形数据;
包络线提供单元,在波形表声源模式时,生成与发音开始指示连动上升且与发音结束指示连动衰减的包络线信号,在语音合成模式时,生成在与应合成的语音的音调周期对应的每个定时都急剧衰减且在衰减后急剧上升的形状的包络线信号,将所生成的该包络线信号提供给上述波形数据读出单元从上述波形数据存储单元中读出的波形数据。
2.一种声源装置,具有多个乐音形成部,上述乐音形成部根据用于表示波形表声源模式和语音合成模式中的任意一个的模式指定,输出希望的乐音和希望的共振峰中的任意一个,而且,在波形表声源模式时,上述多个乐音形成部可分别产生乐音,在语音合成模式时,上述多个乐音形成部具有分别形成共振峰并由所形成的多个共振峰合成一个语音的语音合成功能,
上述多个乐音形成部分别具有:
波形形状指定单元,从多种波形形状中指定希望的波形形状;
波形数据存储单元,存储与上述多种波形形状对应的多个波形数据;
波形数据读出单元,在波形表声源模式时,产生以与应产生的乐音的音程对应的比率变化的地址,并在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述波形数据存储单元中读出与上述波形形状指定单元所指定的波形形状对应的波形数据;
包络线提供单元,生成与发音开始指示连动上升且与发音结束指示连动衰减的包络线信号,将所生成的该包络线信号提供给上述波形数据读出单元从上述波形数据存储单元中读出的波形数据;
噪声提供单元,在语音合成模式时,将噪声提供给上述包络线提供单元已提供包络线的波形数据。
3.一种声源装置的控制方法,该声源装置由多个乐音形成部构成,上述乐音形成部根据用于表示波形表声源模式和语音合成模式中的任意一个的模式指定,输出希望的乐音和希望的共振峰中的任意一个,为了通过控制该声源装置,在波形表声源模式时,使上述多个乐音形成部可分别发出语音,在语音合成模式时,使上述多个乐音形成部能够分别形成共振峰并由所形成的多个共振峰合成一个语音,上述多个乐音形成部分别执行下面的步骤:
波形形状指定步骤,从多种波形形状中指定希望的波形形状;
波形数据存储步骤,在存储器中存储与上述多种波形形状对应的多个波形数据;
波形数据读出步骤,在波形表声源模式时,产生以与应产生的乐音的音程对应的比率变化的地址,并在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述存储器中读出与由上述波形形状指定步骤指定的波形形状对应的波形数据;
包络线提供步骤,在波形表声源模式时,生成与发音开始指示连动上升且与发音结束指示连动衰减的包络线信号,在语音合成模式时,生成在与应合成的语音的音调周期对应的每个定时都急剧衰减且在衰减后急剧上升的形状的包络线信号,将所生成的该包络线信号提供给由上述波形数据读出步骤从上述存储器中读出的波形数据。
4.一种声源装置的控制方法,该声源装置具有多个乐音形成部,上述乐音形成部根据用于表示波形表声源模式和语音合成模式中的任意一个的模式指定,输出希望的乐音和希望的共振峰中的任意一个,为了通过控制该声源装置,在波形表声源模式时,使上述多个乐音形成部可分别发出语音,在语音合成模式时,使上述多个乐音形成部分别形成共振峰并由所形成的多个共振峰合成一个语音,上述多个乐音形成部分别执行下面的步骤:
波形形状指定步骤,从多种波形形状中指定希望的波形形状;
波形数据存储步骤,在存储器中存储与上述多种波形形状对应的多个波形数据;
波形数据读出步骤,在波形表声源模式时,产生以与应产生的乐音的音程对应的比率变化的地址,并在语音合成模式时,产生以与应形成的共振峰的中心频率对应的比率变化的地址,从上述存储器中读出与由上述波形形状指定步骤指定的波形形状对应的波形数据;
包络线提供步骤,生成与发音开始指示连动上升且与发音结束指示连动衰减的包络线信号,将所生成的该包络线信号提供给由上述波形数据读出步骤从上述存储器中读出的波形数据;
噪声提供步骤,在语音合成模式时,将噪声提供给由上述包络线提供步骤已提供包络线的波形数据。
CNB2004100053293A 2003-01-30 2004-01-30 声源装置和声源装置的控制方法 Expired - Fee Related CN100561574C (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2003021681 2003-01-30
JP2003021680 2003-01-30
JP2003021683A JP3915704B2 (ja) 2003-01-30 2003-01-30 音声合成装置
JP2003021682 2003-01-30
JP2003021681A JP3915703B2 (ja) 2003-01-30 2003-01-30 音声合成装置
JP2003021683 2003-01-30
JP2003021682A JP3797333B2 (ja) 2003-01-30 2003-01-30 音声合成機能を有する音源装置
JP2003021680A JP2004233621A (ja) 2003-01-30 2003-01-30 音声合成装置

Publications (2)

Publication Number Publication Date
CN1519815A CN1519815A (zh) 2004-08-11
CN100561574C true CN100561574C (zh) 2009-11-18

Family

ID=32660055

Family Applications (2)

Application Number Title Priority Date Filing Date
CNU2004200023397U Expired - Lifetime CN2706830Y (zh) 2003-01-30 2004-01-30 声源装置
CNB2004100053293A Expired - Fee Related CN100561574C (zh) 2003-01-30 2004-01-30 声源装置和声源装置的控制方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNU2004200023397U Expired - Lifetime CN2706830Y (zh) 2003-01-30 2004-01-30 声源装置

Country Status (5)

Country Link
US (1) US7424430B2 (zh)
EP (1) EP1443493A1 (zh)
KR (1) KR100602979B1 (zh)
CN (2) CN2706830Y (zh)
TW (1) TWI240914B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7424430B2 (en) * 2003-01-30 2008-09-09 Yamaha Corporation Tone generator of wave table type with voice synthesis capability
US20050114136A1 (en) * 2003-11-26 2005-05-26 Hamalainen Matti S. Manipulating wavetable data for wavetable based sound synthesis
TWI252468B (en) * 2004-02-13 2006-04-01 Mediatek Inc Wavetable synthesis system with memory management according to data importance and method of the same
KR100598209B1 (ko) * 2004-10-27 2006-07-07 엘지전자 주식회사 Midi 재생 장치 및 방법
US7470849B2 (en) * 2005-10-04 2008-12-30 Via Telecom Co., Ltd. Waveform generation for FM synthesis
US7847177B2 (en) * 2008-07-24 2010-12-07 Freescale Semiconductor, Inc. Digital complex tone generator and corresponding methods
CN102224541B (zh) * 2008-11-26 2013-09-18 松下电器产业株式会社 声音输出装置
US8389844B2 (en) * 2010-08-03 2013-03-05 Yamaha Corporation Tone generation apparatus
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
DE112012006876B4 (de) * 2012-09-04 2021-06-10 Cerence Operating Company Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
CN109671422B (zh) * 2019-01-09 2022-06-17 浙江工业大学 一种获取纯净语音的录音方法
US11183201B2 (en) 2019-06-10 2021-11-23 John Alexander Angland System and method for transferring a voice from one body of recordings to other recordings

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1132385A (zh) * 1995-03-28 1996-10-02 华邦电子股份有限公司 具音乐旋律的语音合成器
CN1136198A (zh) * 1995-01-13 1996-11-20 雅马哈株式会社 用于声信号处理数字信号处理装置
CN1152776A (zh) * 1995-10-26 1997-06-25 索尼公司 复制语言信号、解码语音、合成语音的方法和装置
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
JP2745865B2 (ja) * 1990-12-15 1998-04-28 ヤマハ株式会社 楽音合成装置
CN2706830Y (zh) * 2003-01-30 2005-06-29 雅马哈株式会社 声源装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5853351B2 (ja) 1979-10-03 1983-11-29 日本電信電話株式会社 音声合成装置
US4833963A (en) * 1986-03-24 1989-05-30 Kurzweil Music Systems, Inc. Electronic musical instrument using addition of independent partials with digital data bit truncation
JP2564641B2 (ja) * 1989-01-31 1996-12-18 キヤノン株式会社 音声合成装置
JP2606006B2 (ja) 1991-05-24 1997-04-30 ヤマハ株式会社 ノイズ音発生装置
JP2812229B2 (ja) 1995-01-13 1998-10-22 ヤマハ株式会社 音声及び楽音合成装置
US6610917B2 (en) * 1998-05-15 2003-08-26 Lester F. Ludwig Activity indication, external source, and processing loop provisions for driven vibrating-element environments
US6689947B2 (en) * 1998-05-15 2004-02-10 Lester Frank Ludwig Real-time floor controller for control of music, signal processing, mixing, video, lighting, and other systems
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
EP1166063A1 (en) * 2000-02-04 2002-01-02 X-Rite, Inc. Handheld color measurement instrument
JP3587167B2 (ja) * 2000-02-24 2004-11-10 ヤマハ株式会社 電子楽器
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2745865B2 (ja) * 1990-12-15 1998-04-28 ヤマハ株式会社 楽音合成装置
CN1136198A (zh) * 1995-01-13 1996-11-20 雅马哈株式会社 用于声信号处理数字信号处理装置
CN1132385A (zh) * 1995-03-28 1996-10-02 华邦电子股份有限公司 具音乐旋律的语音合成器
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
CN1152776A (zh) * 1995-10-26 1997-06-25 索尼公司 复制语言信号、解码语音、合成语音的方法和装置
CN2706830Y (zh) * 2003-01-30 2005-06-29 雅马哈株式会社 声源装置

Also Published As

Publication number Publication date
CN2706830Y (zh) 2005-06-29
TW200421260A (en) 2004-10-16
KR20040070049A (ko) 2004-08-06
KR100602979B1 (ko) 2006-07-20
EP1443493A1 (en) 2004-08-04
US20040158470A1 (en) 2004-08-12
CN1519815A (zh) 2004-08-11
US7424430B2 (en) 2008-09-09
TWI240914B (en) 2005-10-01

Similar Documents

Publication Publication Date Title
US5704007A (en) Utilization of multiple voice sources in a speech synthesizer
US5890115A (en) Speech synthesizer utilizing wavetable synthesis
CN100561574C (zh) 声源装置和声源装置的控制方法
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
US20020138253A1 (en) Speech synthesis method and speech synthesizer
JPH02201500A (ja) 音声合成装置
JP4277697B2 (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
JP3307283B2 (ja) 歌唱音合成装置
JPH05100692A (ja) 音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP3233036B2 (ja) 歌唱音合成装置
JPS58168097A (ja) 音声合成装置
JPH09179576A (ja) 音声合成方法
JP3915704B2 (ja) 音声合成装置
JPS5880699A (ja) 音声合成方式
JP2573586B2 (ja) 規則型音声合成装置
JP2591289B2 (ja) 音声合成装置
JP3515268B2 (ja) 音声合成装置
JP3797333B2 (ja) 音声合成機能を有する音源装置
CA1181859A (en) Variable rate speech synthesizer
JPH04125699A (ja) 残差駆動型音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JPH0594199A (ja) 残差駆動型音声合成装置
JPH06250685A (ja) 音声合成方式および規則合成装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1064491

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1064491

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091118

Termination date: 20160130

EXPY Termination of patent right or utility model