CN1698095A - 信息检测装置、方法和程序 - Google Patents

信息检测装置、方法和程序 Download PDF

Info

Publication number
CN1698095A
CN1698095A CNA200480000194XA CN200480000194A CN1698095A CN 1698095 A CN1698095 A CN 1698095A CN A200480000194X A CNA200480000194X A CN A200480000194XA CN 200480000194 A CN200480000194 A CN 200480000194A CN 1698095 A CN1698095 A CN 1698095A
Authority
CN
China
Prior art keywords
identification
time
frequency
information
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200480000194XA
Other languages
English (en)
Other versions
CN100530354C (zh
Inventor
户栗康裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1698095A publication Critical patent/CN1698095A/zh
Application granted granted Critical
Publication of CN100530354C publication Critical patent/CN100530354C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection

Abstract

在本发明的信息检测装置(1)中,音频类型识别部分(11)将用于预定时段的在信息源中的音频信号识别和划分为诸如音乐和语音的类型,存储器件/存储介质(13)记录所识别的信息。识别频率计算部分(15)对于每个时间单元计算在长于所述时间单元的预定时间间隔中的每种的识别频率,间隔开始/结束判断部分(16)当所述种类的识别频率已经第一次变得等于或大于预定门限值并且等于或大于预定门限值的状态已经持续预定时段的时候检测一个种类的连续间隔的开始,并且当所述种类的识别频率已经第一次变得等于或小于预定门限值并且等于或小于预定门限值的状态已经持续了预定时段的时候检测所述种类的连续间隔的结束。

Description

信息检测装置、方法和程序
技术领域
本发明涉及一种信息检测装置及其方法以及程序,它们被适配来从包括语音、音乐和/或音响(声音)的音频信号或包括这样的音频信号的信息源提取特征数量,以便由此检测诸如语音或音乐的相同种类的连续时段。
本申请要求2003年3月6日提交的日本专利申请第2003-060382号的优先权,其整体内容以引用方式被包含在此。
背景技术
在广播系统和/或多媒体系统等中,重要的是有效地对于诸如图像或语音的大内容执行管理和分类,以容易地允许检索这样的内容。在这种情况下,为了执行这样的操作,不可避免地要识别在内容中的相应部分所具有的信息。
在此,许多多媒体内容和/或广播内容包括音频信号以及视频信号。这样的音频信号是在划分(分类)内容和/或检测场景中很有益的信息。具体上,以可以识别它们的方式来检测在信息中包括的音频信号的语音部分和音乐部分,由此使得有可能执行有效的信息检索和/或信息管理。
同时,作为用于在语音和音乐之间识别的技术,大量的技术已经在传统上被研究。存在使用过零数量、功率的改变(波动)和/或频谱的(改变)波动等来作为特征数量以执行这样的识别的建议技术。
例如,在文献‘J.Saunders,“Real-time discrimination of broadcastspeech/music”,USA,Proc.IEEE Int.Conf.on Acoustics,Speech,SignalProcessing,1996,pp.993-996(‘J.Saunders,“广播语音/音乐的实时识别”,美国,关于音响、语音、信号处理的IEEE(电气和电子工程师协会)国际会议会刊,1996,第993-996页)中,通过使用过零数量来执行语音/音乐的识别。
而且,在文献‘E.Scheire & M.Slaney,“Construction and evaluation of arobust multifeature speech/music discriminator”,USA,Proc.IEEE Int.Conf.onAcoustics,Speech,Signal Processing,1997,pp 1331-1334(‘E.Scheire和M.Slaney,“一种鲁棒的多特征语音/音乐识别器的构造和评估”,美国,关于音响、语音、信号处理的IEEE(电气和电子工程师协会)国际会议会刊,1997,第1331-1334页)中,使用13种特征——包括4Hz调制能量、低能量帧速率、频谱滚降点、频谱矩心、频谱改变(通量)和过零速率等来在语音/音乐之间识别以比较和评估各个性能。
而且,在文献‘M.J.Care,E.S.Parris & H.Lloyd-Thomas,“A comparison offeatures for speech,music discrimination”,USA,Proc.IEEE Int.Conf.onAcoustics,Speech,Signal Processing,1999,March,pp.149-152(M.J.Care、E.S.Parris和H.Lloyd-Thomas,用于语音、音乐识别的特征的比较,美国,关于音响、语音、信号处理的IEEE(电气和电子工程师协会)国际会议会刊,1999,3月,第149-152页)中,使得对数倒频谱系数、德尔塔对数倒频谱系数、德尔塔幅度、音调、德尔塔音调、过零数量和德尔塔过零数量成为特征数量,并且使用混合的正态分布模型来用于相应的特征数量,以由此在语音/音乐之间识别。
除了上述之外,基于下述特征的检测技术也得到研究:音乐的频谱峰值在其稳定时在时间方向上连续以便具有特定的频率。在此,频谱峰值的稳定性也被表示为在频谱图中的时间方向上存在或不存在线性分量。频谱图是这样的图,其中在纵坐标上取频率,在横坐标上取时间,并且在时间方向上布置频谱分量来将频谱表示为图像信息。作为使用这个特征的发明,提到的有例如文献“Minami,Akutsu,Hamada & Sotomura,“Image Indexing Using SoundInformation and its Application”,Electronic Information CommunicationAssociates Collection D-11,1998,J81-th-D-volume 11,No.3,pp.529-537(Minami、Akutsu、Hamada和Sotomura,“使用声音信息的图像索引及其应用”,电子信息通信联合会汇编D-11,1998,第J81 D卷11,第3期、第529-537页)”和日本公开的专利申请第H10-187182号。
这样的每预定时间识别和划分(分类)语音和音乐等的技术被应用以由此能够检测在音频数据中的相同种类或类别的连续时段的开始/结束位置。
但是,在通过直接使用上述识别和划分(分类)语音或音乐等的种类的技术来检测相同种类的连续时段中,存在下列问题。
例如,存在许多情况,其中音乐由许多乐器、打击乐器的振鸣语音、音响效果或节奏等组成。因此,在每隔短时间识别音频数据的情况下,即使在连续的音乐时段期间,也经常包括不仅可以必然被识别为音乐的部分、而且包括当从短时间范围看被判断为语音的部分或应当被划分(分类)为其他种类的部分。而且,在检测会话语音的连续时段的情况下,可能频繁地出现:诸如音乐等的无音部分和/或噪音被类似地瞬间插入,即使在连续的会话时段期间也是如此。另外,即使对应的部分是清楚的音乐或语音的部分,那个部分也可能通过识别错误而被错误地识别为错误种类。这种类似性应用于除了语音和/或音乐之外的种类的情况。
因此,在通过每个短时间直接使用语音/音乐等的种类识别结果来检测连续时段的方法的情况下,出现这样的问题:当从长时间范围看被当作连续时段的部分可能在其中间中断,或者不能从长时间范围看被当作连续时段的暂时噪音部分可能被相反地当作连续时段。
另一方面,如果为了避免这样的问题而延长用于识别的分析时间,则出现这样的问题:在频繁地转换音乐/语音等的情况下,识别的时间分辨率被降低,因此降低了检测速率。
发明内容
本发明考虑到这样的传统实际情况而被提出,本发明的目的是提供一种信息检测装置及其方法,以及一种用于使得计算机可以执行这样的信息检测处理的程序,所述信息检测处理可以正确地检测在检测音频数据中的音乐或语音的连续时段中当从长时间范围看时应当被当作相同种类或类别的连续时段。
为了实现上述目的,在按照本发明的信息检测装置及其方法中,在信息源中包括的音频信号的特征数量被分析以在预定时间的基础上划分和区别音频信号的种类(类别),以向识别信息存储装置记录被分类和识别的识别信息。而且,所述识别信息被从所述识别信息存储装置读入以计算每种音频信号在长于所述时间单元的每个预定时段的识别频率,以使用所述识别频率来检测相同种类的连续时段。
在所述信息检测装置及其方法中,在例如任意种类的识别频率变得等于第一门限值或更大并且其中所述识别频率是第一门限值或更大的状态持续第一时间或更长的情况下,检测所述种类或类别的开始,并且在所述识别频率变得等于第二门限值或更小并且其中所述识别频率的状态是第二门限值或更小的状态持续第二时间或更多时,检测所述种类或类别的结束。
在此,作为所述识别频率,可以使用通过把任意种类的每一时间单元的识别的似然性(概率)除以该时间段和/或除以在任意种类的时段的识别次数后平均而获得的值。
另外,按照本发明的程序用于使得计算机可以执行上述的信息检测处理。
通过下面给出的实施例,本发明的其他目的和通过本发明获得的实际优点变得更为清楚。
附图说明
图1是示出在这个实施例中的信息检测装置的配置的概观的视图。
图2是示出识别信息的记录格式的一个示例的视图。
图3是示出用于计算识别频率的时段的一个示例的视图。
图4是示出索引信息的记录格式的一个示例的视图。
图5是用于说明用于检测音乐连续时段的开始的状态的视图。
图6是用于说明用于检测音乐连续时段的结束的状态的视图。
图7A-7C是示出在上述的信息检测装置中的连续时段检测处理的流程图。
具体实施方式
将参照附图详细说明应用本发明的实际实施例。在所述实施例中,本发明被应用到一种信息检测装置,它适于在预定的时间基础上识别音频数据和将其划分为诸如会话语音和音乐的几个种类(类别),以对于存储单元或记录介质记录时段信息,诸如其中相同种类的数据是连续的连续时段的开始位置和/或结束位置等。
应当注意,虽然传统上研究将音频数据划分和识别为几个种类的大量技术,在本发明中不指定要识别的种类及其识别技术。虽然在音频数据被识别为语音或音乐以检测语音连续时段或音乐连续时段的假定下下面以示例来进行说明,但是可以检测不仅语音时段或音乐时段、而且可检测语音时段或无声时段。此外,可以识别和分类音乐的类型来检测相应的连续时段。
首先,在图1中示出了在这个实施例中的信息检测装置的配置的概观。如图1所示,在这个实施例中的信息检测装置1包括:语音输入单元10,用于在预定的时间基础上向其中读取预定格式的音频数据来作为块数据D10;语音种类识别单元11,用于在预定时间基础上识别块数据D10的种类以产生识别信息D11;识别信息输出单元12,用于将识别信息D11转换为预定格式的信息以向存储单元/记录介质13记录被转换的识别信息D12;识别信息输入单元14,用于向其中读取已经向存储单元/记录介质13记录的识别信息D13;识别频率计算单元15,用于通过使用已经被读入的识别信息D14来计算各个种类或类别(语音/音乐等)的识别频率D15;时段开始/结束判断单元16,用于评估所述识别频率D15以检测相同种类的连续时段的开始位置和结束位置等,以使得如此检测的位置可以成为时段信息D16;时段信息输出单元17,用于将所述时段信息D16转换为预定格式的信息,以向存储单元/记录介质18记录如此获得的信息来作为索引信息D17。
在此。作为存储器单元/记录介质13、18,可以使用诸如存储器或磁盘等的存储单元、诸如半导体存储器(存储卡等)等的存储介质和/或诸如CD-ROM等的记录介质。
在具有如上所述的配置的信息检测装置1中,语音输入单元10每预定时间单元向其读取音频数据来作为块数据D10,以向语音种类识别单元11提供块数据D10。
语音种类识别单元11在预定时间基础上分析语音的特征数量以由此识别和划分块数据D10,以向识别信息输出单元12提供识别信息D11。在此,作为示例,假定块数据D10被识别和划分为语音或音乐。在这种情况下,优选的是,要识别的时间单元是1秒到几秒。
识别信息输出单元12将已经从识别信息D11提供的识别信息D11转换为预定格式的信息以向存储器单元/记录介质13记录被转换的识别信息D12。在此,在图2中示出了识别信息D12的记录格式的一个示例。在图2的格式示例中,指示在音频数据中的位置的‘时间’、指示在那个时间位置的种类的‘种类代码’和指示识别的似然性(概率)的“似然性(概率)”被记录。“似然性”是表示识别结果的可信度的值。例如,可以使用通过诸如后验概率最大化方法的识别技术而获得的似然性和/或通过向量量化技术而获得的向量量化失真的倒数。
识别信息输入单元14向其读取在存储器单元/记录介质13记录的识别信息D13,以向识别频率计算单元15提供已经读入的识别信息D14。应当注意,在执行读取操作的定时,当识别信息输出单元12向存储器单元/记录介质13记录识别信息D12时可以在实时的基础上执行读取操作,或在完成识别信息D12的记录后执行读取操作。
识别频率计算单元15通过使用从识别信息输入单元14提供的识别信息D14来在预定时间基础上计算在预定时段的每个种类的识别频率,以向时段开始/结束判断单元16提供识别频率D15。图3中示出了计算识别频率的时段的一个示例。图3示出了每隔几秒识别是否音频数据是音乐(M)或语音(S),以从在附图中由Len表示的时段的语音(S)和音乐(M)的识别信息(识别次数及其似然性)确定在时间t0的语音识别频率Ps(t0)和音乐识别频率Pm(t0)。在这种情况下,优选的是,时段Len的长度是例如大约几秒到几十秒。
在此,将说明用于计算每个种类的识别频率的实际示例。可以通过诸如识别为对应种类的时间的似然性除以预定时段后平均来确定识别频率。例如,在时间t的语音的识别频率Ps(t)被确定为由下面的公式(1)所示的。在此,在公式(1)中,p(t-K)指示在时间(t-k)的识别似然性。
P s ( t ) = Σ k = 0 Len - 1 p ( t - k ) · S ( t - k ) Len , 其中,
Figure A20048000019400102
而且,假定在公式(1)中似然性全等于1,则有可能仅仅通过使用如下面公式(2)指示的识别次数来计算识别频率Ps(t)。
P s ( t ) = Σ k = 0 Len - 1 S ( t - k ) Len , 其中,
对于音乐和其他种类,有可能完全以相同的方式来计算识别频率。
时段开始/结束判断单元16通过使用从识别频率计算单元15提供的识别频率D15来检测相同种类的连续时段的开始位置/结束位置等,以向时段信息输出单元17提供如此检测的位置来作为时段信息D16。
时段信息输出单元17将从时段开始/结束判断单元16提供的时段信息D16转换为预定格式的信息,以向存储单元/记录介质18记录如此获得的信息来作为索引信息D17。在此,图4示出了索引信息D17的记录格式的一个示例。在图4的格式示例中,记录了指示连续时段的标号或识别符(标识符)的‘时段标号’、指示其连续时段种类的‘种类代码’、和指示其连续时段的开始时间和结束时间的‘开始位置’、‘结束位置’。
在此,参照图5和6来更详细地说明连续时段的开始部分/结束部分的检测方法。
图5是用于说明用以比较音乐的识别频率与门限值以检测音乐连续时段的开始的状态的视图。在所述附图的上面部分,在各个时间的识别种类被表示为M(音乐)和S(语音)。纵坐标是在时间t的音乐的识别频率Pm(t)。在这个示例中,在图3所示的时段Len计算识别频率Pm(t),并且在图5中Len被设置为5。另外,用于开始判断的识别频率Pm(t)的门限值P0被设置为3/5,识别次数的门限值H0被设置为6。
当在预定时间基础上计算识别频率Pm(t)时,在附图中的点A的时段Len中的识别频率Pm(t)变为等于3/5,并且首先变为等于门限值P0或更大。其后,识别频率Pm(t)被连续地保持,以便它等于门限值P0或更大。因此,在所述附图中的点B第一次检测到音乐的开始,其中识别频率Pm(t)是门限值P0或更多的状态被保持连续H0次(秒)。
从图5还可以明白,音乐的实际开始位置略微在其中识别频率Pm(t)第一次变为等于门限值P0或更大的点A的这一侧。当假定识别频率Pm(t)连续增加直到它变得等于门限值P0或更多的时候,在所述附图中的点X可以被估计为开始位置。即,当识别频率Pm(t)的门限值P0被假定为P0=J/Len时,从识别频率Pm(t)第一次变得等于门限值P0或更大的点A通过J返回的点X被检测为所估计的开始位置。在图5的示例中,因为J等于3,因此从点A通过3返回的位置被检测为音乐开始位置。
图6是用于说明用以检测与音乐的识别频率的门限值相比较的音乐连续时段的结束的状态的视图。与图5类似地,M指示识别为音乐,S指示识别为语音。而且,纵坐标是在时间t的音乐的识别频率Pm(t)。在这个示例中,在图3所示的时段Len计算识别频率,并且在图6中Len被设置为5。而且,用于结束判断的识别频率Pm(t)的门限值P1被设置为2/5,并且识别次数的门限值H1被设置为6。应当注意,用于结束检测的门限值P1可以与用于开始检测的门限值P0相同。
当在预定时间基础上计算识别频率时,在所述附图中的点C的时段Len中的识别频率Pm(t)变得等于2/5以便它第一次变得等于门限值P1或更小。而且其后,连续保持识别频率Pm(t)以便它等于门限值P1或更小,并且在附图中的点D第一次检测音乐的结束,其中,识别频率Pm(t)是门限值P1或更小的状态被保持连续H1次(秒)。
同样从图6可以明白,音乐的实际结束位置略微在点C的这一侧,在点C,识别频率Pm(t)第一次变得等于门限值P1或更小。当假定识别频率Pm(t)连续降低直到它变得等于门限值P1或更小的时候,在附图中的点Y可以被估计为结束位置。即,当假定识别频率Pm(t)的门限值P1是P1=K/Len的时候,从识别频率Pm(t)第一次变得等于门限值P1或更小的点C通过Len-k返回的点Y被检测为估计的结束位置。在图6的示例中,因为K等于2,因此从点C通过3返回的位置被检测为音乐结束位置。
在图7A-7C的流程图中示出了上述的连续时段检测处理。首先,在步骤S1,执行初始化处理。具体来说,使得当前时间是零,并且使得用于指示当前时段是特定种类的连续时段的时段标记为FALSE(假),即,使得它是当前时段不是连续时段的事实。而且,对于保持其中识别频率P(t)大于门限值或小于门限值的状态的次数计数的计数器的值被设置为零。
然后,在步骤S2,识别在时间t的种类。应当注意,在已经识别了种类的情况下,读取在时间t的识别信息。
随后,在步骤S3,从已经识别或读取的结果来识别是否到达了数据结尾。在到达了数据结尾的情况下(是),处理完成。另一方面,在未到达数据结尾的情况下(否),处理进行到步骤S4。
在步骤S4,计算其中连续时段被期望检测的种类(例如音乐)在时间t的识别频率P(t)。
在步骤S5,识别是否时段标志为TRUE(真),即,识别连续时段,在时段标志为真(是)的情况下,处理进行到步骤S13。在时段标志不是连续时段(否)、即假的情况下,处理进行到步骤S6。
在随后的步骤S6-S12,执行连续时段的开始检测处理。首先,在步骤S6,识别是否识别频率P(t)是用于开始检测的门限值P0或更大。在此,在识别频率P(t)小于门限值P0(否)的情况下,计数器的值在步骤S20被复位为零。在步骤S21,时间t递增1以返回步骤S2。另一方面,在识别频率P(t)小于门限值P0(是)的情况下,处理进行到步骤S7。
然后,在步骤S7,识别是否计数器的值等于零。在计数器的值是0(是)的情况下,X在步骤S8被存储为开始候选时间,并且进行到步骤S9以将计数器的值递增1。在此,X是如在图5中所示的位置。另一方面,在计数器的值不是零的情况下,处理进行到步骤S9以将计数器的值递增1。
随后,在步骤S10,识别是否计数器的值达到门限值H0。在计数器的值未达到门限值H0(否)的情况下,处理进行到步骤S21以将时间t递增1以返回步骤S2。另一方面,在计数器的值达到门限值H0(是)的情况下,处理进行到步骤S11。
在步骤S11,所存储的开始候选时间X被建立为开始时间。在步骤S12,计数器的值被复位为零,并且时段标志被改变为真以在步骤S21将时间t递增1,然后返回步骤S2。
重复上述的处理,直到检测到连续时段的开始,即直到在步骤S5识别出时段标志为真。
当检测到连续时段的开始时,在随后的步骤S13到S19执行连续时段的结束检测处理。首先,在步骤S13,识别是否识别频率P(t)是用于结束检测的门限值P1或更小。在此,在识别频率P(t)大于门限值P1(否)的情况下,计数器的值在步骤S20被复位为零,并且在步骤S21将时间t递增1,然后返回步骤S2。另一方面,在识别频率P(t)是门限值P1或更小(是)的情况下,处理进行到步骤S14。
然后,在步骤S14,识别是否计数器的值等于零。在计数器的值等于零(是)的情况下,Y在步骤S15被存储为结束候选时间,并且进行到步骤S16以将计数器的值递增1。在此,Y是如图6所示的位置。另一方面,在计数器的值不等于零(否)的情况下,处理进行到步骤S16以将计数器的值递增1。
随后,在步骤S17,识别是否计数器的值达到门限值H1。在计数器的值未达到门限值H1(否)的情况下,处理进行到步骤S21以将时间t递增1,然后返回步骤S2。另一方面,在计数器的值达到门限值H1(是)的情况下,处理进行到步骤S18。
在步骤S18,被存储的结束候选时间Y被建立为结束时间。在步骤S19,计数器的值被复位为0,并且时段标志被改变为假。在步骤S21。时间t被递增1,并且返回步骤S2。
重复上述的处理,直到检测到连续时段,即时段标志在步骤S5被识别为假。
如上所述,按照在本实施例中的信息检测装置1,在信息源中的音频信号每隔预定时间单元被识别为各个种类(类别)。在其中在评估种类的识别频率以检测相同种类的连续时段中、特定种类的识别频率第一次变得等于预定门限值或更大、并且其中识别频率是门限值或更大的状态持续预定时间,检测那个种类的连续时段的开始,并且在识别频率第一次变得等于预定值或更小并且其中识别频率是门限值或更小的状态持续预定时间的情况下,检测所述种类的连续时段的结尾,借此具有能够精确地检测连续时段的开始位置和结束位置的能力,即使在其中在连续时段期间进行诸如噪音等的声音的暂时混合或在一定程度上存在识别误差的情况下也是如此。
应当注意,虽然本发明已经按照在附图中图解的其优选实施例被说明和详细地描述,但是本领域的技术人员应当明白本发明不局限于实施例,在不脱离所附的权利要求所给出的本发明的精神和范围的情况下,可以实现各种修改、替代结构或等同形式。
例如,在上述的实施例中,本发明已经被描述为硬件的配置,但是不局限于这样的实现。也可以通过使得CPU(中央处理单元)可以执行作为计算机程序的任意处理来实现本发明。在这种情况下,所述计算机程序也可以在它被记录到存储介质/记录介质的状态下被提供,或者也可以通过执行通过因特网或其他传输介质的传输而被提供。
产业上的应用
按照上述的本发明,在信息源中包括的音频信号在预定时间基础上被识别和分类为诸如音乐或语音的种类(类别)。在评估那种识别频率以检测相同种类的连续时段中,即使在连续时段期间进行诸如噪音的声音的暂时混合或在一定程度上存在识别误差的情况下,也有可能精确地检测连续时段的开始位置和结束位置。

Claims (15)

1.一种信息检测装置,包括:
语音种类识别部件,用于分析在信息源中包括的语音信号的特征数量,以在预定时间基础上划分和识别语音信号的种类(类别);
识别信息存储部件,用于记录由语音种类识别部件划分和识别的识别信息;
识别频率计算部件,用于从识别信息存储部件向其读取识别信息,对于每种语音信号计算在长于所述时间单元的每个预定时段的识别频率;
连续时段检测部件,用于使用识别频率来检测相同种类(类别)的连续时段。
2.按照权利要求1的信息检测装置,还包括:
时段信息存储部件,用于作为索引存储由连续时段检测部件检测的连续时段的时段信息。
3.按照权利要求1的信息检测装置,
其中,连续时段检测部件工作以便在任意种类(类别)的识别频率变得等于第一门限值或更大并且其中识别频率是第一门限值或更大的状态持续第一时间或更长的情况下,检测所述种类的开始,并且在识别频率变得等于第二门限值或更小并且识别频率是第二门限值或更小的状态持续第二时间或更长的情况下,完成所述种类的结束。
4.按照权利要求1的信息检测装置,
其中语音种类识别部件每隔所述时间单元划分和识别语音信号的种类,并且确定其识别的似然性。
5.按照权利要求4的信息检测装置,
其中识别频率是通过把每个任意种类时间单元的识别似然性除以该时段再平均而获得的值。
6.按照权利要求1的信息检测装置,
其中识别频率是在任意种类的时段中的识别次数。
7.按照权利要求4的信息检测装置,
其中识别信息存储部件作为识别信息记录每隔所述时间单元的语音信号的种类和识别的似然性。
8.一种信息检测方法,包括:
语音种类识别步骤,用于分析在信息源中包括的语音信号的特征数量,以在预定时间基础上划分和识别语音信号的种类(类别);
记录步骤,用于向识别信息存储部件记录已经在语音种类识别步骤划分和识别的识别信息;
识别频率计算步骤,用于从识别信息存储部件向其读取识别信息,以计算对于每个种类语音信号、在长于所述时间单元的每个预定时段的识别频率;
连续时段检测步骤,用于使用识别频率来检测相同类别的连续时段。
9.按照权利要求8的信息检测方法,还包括:
存储步骤,用于向时段信息存储部件存储作为索引的、已经在连续时段检测步骤检测的连续时段的时段信息。
10.按照权利要求8的信息检测方法,
其中,在连续时段检测步骤,在任意种类的识别频率变得等于第一门限值或更大并且其中识别频率是第一门限值或更大的状态持续第一时间或更长的情况下,检测所述种类的开始,并且在识别频率变得等于第二门限值或更小并且识别频率是第二门限值或更小的状态持续第二时间或更长的情况下,检测所述种类的结束。
11.按照权利要求8的信息检测方法,
其中,在语音种类识别步骤,在时间基础上划分和识别语音信号的种类,并且确定其识别的似然性。
12.按照权利要求11的信息检测方法,
其中识别频率是通过把每个任意种类时间单元的识别似然性除以该时段再平均而获得的值。
13.按照权利要求8的信息检测方法,
其中识别频率是在任意种类的时间间隔中的识别次数。
14.按照权利要求11的信息检测方法,
其中,在记录步骤,向识别信息存储部件记录作为识别信息的、每隔所述时间单元的语音信号的种类和识别的似然性。
15.一种程序,用于使得计算机可以执行预定的处理,所述程序包括:
语音种类识别步骤,用于分析在信息源中包括的语音信号的特征数量,以在预定时间基础上划分和识别语音信号的种类(类别);
记录步骤,用于向识别信息存储部件记录已经在语音种类识别步骤划分和识别的识别信息;
识别频率计算步骤,用于从识别信息存储部件向其读取识别信息,以计算每个种类语音信号在长于所述时间单元的每个预定时段的识别频率;
连续时段检测步骤,用于使用识别频率来检测相同类别的连续时段。
CNB200480000194XA 2003-03-06 2004-02-10 信息检测装置、方法和程序 Expired - Fee Related CN100530354C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003060382A JP4348970B2 (ja) 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム
JP060382/2003 2003-03-06

Publications (2)

Publication Number Publication Date
CN1698095A true CN1698095A (zh) 2005-11-16
CN100530354C CN100530354C (zh) 2009-08-19

Family

ID=32958879

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200480000194XA Expired - Fee Related CN100530354C (zh) 2003-03-06 2004-02-10 信息检测装置、方法和程序

Country Status (7)

Country Link
US (1) US8195451B2 (zh)
EP (1) EP1600943B1 (zh)
JP (1) JP4348970B2 (zh)
KR (1) KR101022342B1 (zh)
CN (1) CN100530354C (zh)
DE (1) DE602004023180D1 (zh)
WO (1) WO2004079718A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN102577192A (zh) * 2009-08-14 2012-07-11 苹果公司 缓冲音频数据与实况广播的同步
CN103092854A (zh) * 2011-10-31 2013-05-08 深圳光启高等理工研究院 一种音乐数据分类方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007023660A1 (ja) 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. 音識別装置
JP4931927B2 (ja) * 2005-09-07 2012-05-16 バイループ テクノロジック,エス.エル. マイクロコントローラーを利用した信号認識法
JP5229217B2 (ja) * 2007-02-27 2013-07-03 日本電気株式会社 音声認識システム、方法およびプログラム
JP4572218B2 (ja) * 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009192725A (ja) * 2008-02-13 2009-08-27 Sanyo Electric Co Ltd 楽曲記録装置
MX2011000364A (es) * 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Metodo y discriminador para clasificar distintos segmentos de una señal.
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
WO2011015237A1 (en) * 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
JP5725028B2 (ja) * 2010-08-10 2015-05-27 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
US9160837B2 (en) * 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
JP6171708B2 (ja) * 2013-08-08 2017-08-02 富士通株式会社 仮想マシン管理方法、仮想マシン管理プログラム及び仮想マシン管理装置
US9817379B2 (en) * 2014-07-03 2017-11-14 David Krinkel Musical energy use display
KR102435933B1 (ko) * 2020-10-16 2022-08-24 주식회사 엘지유플러스 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3102385A1 (de) * 1981-01-24 1982-09-02 Blaupunkt-Werke Gmbh, 3200 Hildesheim Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
JP2551050B2 (ja) * 1987-11-13 1996-11-06 ソニー株式会社 有音無音判定回路
KR940001861B1 (ko) 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
EP0517233B1 (en) * 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
JP2910417B2 (ja) * 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
JPH06332492A (ja) 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JPH08335091A (ja) 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3475317B2 (ja) 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102577192A (zh) * 2009-08-14 2012-07-11 苹果公司 缓冲音频数据与实况广播的同步
CN102577192B (zh) * 2009-08-14 2015-06-17 苹果公司 缓冲音频数据与实况广播的同步
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US8438021B2 (en) 2009-10-15 2013-05-07 Huawei Technologies Co., Ltd. Signal classifying method and apparatus
CN103092854A (zh) * 2011-10-31 2013-05-08 深圳光启高等理工研究院 一种音乐数据分类方法
CN103092854B (zh) * 2011-10-31 2017-02-08 深圳光启高等理工研究院 一种音乐数据分类方法

Also Published As

Publication number Publication date
WO2004079718A1 (ja) 2004-09-16
EP1600943A4 (en) 2006-12-06
JP2004271736A (ja) 2004-09-30
KR101022342B1 (ko) 2011-03-22
US8195451B2 (en) 2012-06-05
DE602004023180D1 (de) 2009-10-29
JP4348970B2 (ja) 2009-10-21
EP1600943B1 (en) 2009-09-16
CN100530354C (zh) 2009-08-19
EP1600943A1 (en) 2005-11-30
KR20050109403A (ko) 2005-11-21
US20050177362A1 (en) 2005-08-11

Similar Documents

Publication Publication Date Title
CN1698095A (zh) 信息检测装置、方法和程序
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
US8838452B2 (en) Effective audio segmentation and classification
CN1462427A (zh) 估算压缩声频中的信号功率
CN1922659A (zh) 编码模式选择
CN102714034B (zh) 信号处理的方法、装置和系统
CN1969294A (zh) 搜索用于水印检测的缩放因子
CN107507626A (zh) 一种基于语音频谱融合特征的手机来源识别方法
JP4099576B2 (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
Wu et al. UBM-based real-time speaker segmentation for broadcasting news
Jarina et al. Rhythm detection for speech-music discrimination in mpeg compressed domain
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
JP3607450B2 (ja) オーディオ情報分類装置
CN1540623A (zh) 一种门限自适应的语音检测系统
Liang et al. A Histogram Algorithm for Fast Audio Retrieval.
Zhu et al. Detecting musical sounds in broadcast audio based on pitch tuning analysis
Qian et al. A novel algorithm for audio information retrieval based on audio fingerprint
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
Petridis et al. A multi-class method for detecting audio events in news broadcasts
JPS63281199A (ja) 音声セグメンテ−ション装置
AU2003204588B2 (en) Robust Detection and Classification of Objects in Audio Using Limited Training Data
CN117649843A (zh) 音频处理方法以及装置
CN117079676A (zh) 音频重复片段检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090819

Termination date: 20140210