CN101292238A

CN101292238A - 语义主题的自动化丰富呈现

Info

Publication number: CN101292238A
Application number: CNA200680039211XA
Authority: CN
Inventors: L·鲁; W-Y·马; Z-W·李
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2005-10-21
Filing date: 2006-10-19
Publication date: 2008-10-22
Anticipated expiration: 2026-10-19
Also published as: CN101292238B; US8572088B2; KR20080058356A; EP1941391A4; US20070094251A1; EP1941391A1; WO2007047957A1

Abstract

描述了语义主题的自动化丰富呈现。一方面，评估对应于一语义主题的多模信息的相应各部分以定位与该语义主题相关联的事件。一文档属于一事件的概率基于文档对人物、时间、地点和关键字中的一个或多个的包含以及文档沿关联于该事件的时间线的分布来确定。对于每一事件，标识被客观地确定为充分代表了该事件的一个或多个文档。随后就可以从多模信息中提取与该事件有关的一个或多个其他媒体类型(例如，视频、图像等)。代表性文档和其他媒体是用于在故事板中向用户呈现。

Description

语义主题的自动化丰富呈现

背景

为了理解语义主题，人们通常从(多媒体)数据库或因特网搜索信息。搜索结果通常会导致带有许多重复和/或噪声的大量未经组织的信息。浏览这些未经组织的、重复的和/或有噪声的信息以标识并理解感兴趣的媒体内容可能需要大量的劳动并会消耗大量的时间。

概述

提供本概述是为了用简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定要求保护的主题的范围。

鉴于上述原因，描述了一种语义主题的自动化丰富呈现。一方面，评估对应于一语义主题的多模信息(multimodal information)的相应各部分以定位与该语义主题相关联的事件。一文档属于一事件的概率基于文档对人物、时间、地点和关键字中的一个或多个的包含以及文档沿着与该事件相关联的时间线的分布来确定。对于每一事件，标识被客观地确定为充分代表了该事件的一个或多个文档。随后从多模信息中提取与该事件有关的一个或多个其他类型的媒体(例如，视频、图像等)。代表性的文档和其他媒体用于在故事板(storyboard)中向用户呈现。

附图说明

在附图中，组件参考标号最左边的数字标识了该组件首次出现的特定附图。

图1根据一个实施例示出了用于语义主题的自动化丰富呈现的示例性系统。

图2根据一个实施例示出了用于显著事件数量(salient event number)确定的示例性事件数量的图示。

图3根据一个实施例示出了用于显著峰值检测以确定事件数量的另一示例。

图4根据一个实施例示出了故事板的一个示例性用户界面布局。

图5根据一个实施例示出了一个示例性的音乐开始序列评估过程。

图6根据一个实施例示出了一个示例性的音乐子剪辑与故事板幻灯片图像同步的映射。

图7根据一个实施例示出了用于语义主题的自动化丰富呈现的过程。

图8根据一个实施例示出了其中能够部分或完全实现语义主题的自动化丰富呈现的示例性环境。

详细说明

概览

现将参考图1-8描述用于语义主题的自动化丰富呈现的系统和方法。“语义主题”是任意的。例如，语义主题可以是代表一个或多个事件、人名或任何其他事的一个或多个关键字(例如，由用户作为搜索查询的一部分而输入的，等等)。例如，相应的各语义主题可以分别包括“2002年世界杯”、“美国大选”、“万圣节前夕”、“哈利·波特”等。在某些情况下，语义主题可以代表目标主题和事件。例如，“万圣节前夕”既可以是语义主题又可以是事件。为了丰富地呈现语义主题，本系统和方法分析多媒体内容以标识并提取与该语义主题相关联的多模信息(例如，图像、文本、音频和/或视频)。该多模信息包括各类文档，诸如描述事件和代表性媒体内容(例如，图像、视频等)的新闻文章。本系统和方法客观地标识多模信息中最能代表语义主题的各部分。本系统和方法将这一代表性内容集成到故事板内，用以向用户呈现语义主题的简明且信息丰富的概述。这一有组织的呈现允许用户快速领会和理解感兴趣的语义主题，由此提供与常规多媒体内容分析通常提供给用户的(即，大量未经组织的信息)相反的结果。

现将更为详细地描述用于故事板中语义主题的自动化丰富呈现的这些和其他方面。

示例性系统

虽然没有要求，但是现将在由诸如个人计算机等计算设备执行的计算机程序指令的一般性上下文中描述用于语义主题的自动化丰富呈现的各实施例。程序模块通常包括例程、程序、对象、组件、数据结构等，它们执行特定任务或实现特定抽象数据类型。虽然在前述上下文中描述了本系统和方法，但是其后描述的动作和操作也可以由硬件实现。

图1示出了用于语义主题的自动化丰富呈现的示例性系统100。在这一实现中，系统100包括通用计算设备102。计算设备102表示任何类型的计算设备，诸如个人计算机、膝上型计算机、服务器、手持式或移动计算设备(例如，小形状因子设备)等等。计算设备102包括用于语义主题的自动化丰富呈现的程序模块104和程序数据106。程序模块104包括例如语义主题故事板生成器模块108和其他程序模块110，诸如操作系统、Web爬行器(Web crawler)应用程序等。

语义主题故事板生成器模块108(下文中常称为“故事板生成器108”)从多媒体数据114中生成语义主题故事板112。在一个实现中，多媒体数据114代表来自一个或多个基于Web的多媒体数据库(例如，新闻网站等)的数据。在一个实现中，故事板生成器108或者诸如Web爬行器应用程序等“其他程序模块”110预先评价来自这些网站的各篇文档，以构建由故事板生成器108用于获得与一语义主题相关的文档的全文索引。这些爬行操作使得系统100能够利用一个或多个常规信息检索技术(诸如，搜索查询扩展)来消除查询歧义，并由此标识并索引与该语义主题有更强潜在相关性的文档(多模信息)。

故事板生成器108接收标识感兴趣的语义主题(在此也称其为“目标主题”)的一个或多个关键字。在一个实现中，用户呈现各关键字作为搜索查询。响应于对关键字的接收，故事板生成器108从多媒体数据114中提取与目标主题相关的多模信息118(例如，文本、图像、视频、音频等)。在一个实现中，用户与故事板生成器108交互以提供指示所提取信息的哪些部分是相关的反馈，并提供其他/附加的相关数据(例如，媒体、图像序列、地理信息等)等。

故事板生成器108分析所提取的多模信息118(以及由用户提供的任何其他/附加的相关数据)以标识并群集描述与目标主题相关联的各事件的文档。事件是在特定时间和地点发生的特定的事。对于每一事件都存在许多文档，包括报道与关联于该事件的人、地点、关键字和时间等有关的信息的各类文章。一个语义主题可以与多个事件相关联。例如，语义主题“2002年世界杯”对应于许多事件，例如包括每场比赛或竞赛。与一事件相关联的各篇文章可以包括与该语义主题极为相关的信息。考虑到这些，故事板生成器108将所标识的各文档分组成相应的各事件群集120，其中每一群集都分别代表与该语义主题相关联的各事件。

故事板生成器108随后标识客观上对每一事件群集120更有代表性的一个或多个文档(例如，事件概述)。这些代表性文档被示为代表性内容122的一相应部分。接着，故事板生成器108评估所提取的多模信息118，以标识与每一事件(例如，事件群集120)相关的媒体，诸如图像、视频剪辑等。这一相关媒体也可被示为代表性内容122的一相应部分。故事板生成器108集成代表性内容(例如，文档和其他媒体)以在故事板112中向用户呈现。

在一个实现中，故事板生成器108将音乐或其他音频与故事板呈现相同步。

我们现将描述用于语义主题事件群集和概述、标识与事件相关的媒体、将带相关媒体的事件代表文档集成到故事板112的布局内、以及将音频与集成的内容相同步以呈现给用户的各示例性操作。

多事件群集——多模追溯事件检测

为了将各文档分组成不同的事件，故事板生成器108计算一文档属于一事件的概率，即p(e_j|x_i)，其中x_i是获取的第i个文档，而e_j是第j个事件。为了计算这一概率值，故事板生成器108基于贝叶斯准则确定似然性p(x_i|e_j)。

更具体地，一事件(以及由此的描述该事件的文档)可由四个主要元素表示：谁(人物)、何时(时间)、何处(地点)和什么(关键字)。假设一文档是一事件的结果，并且四个主要元素是独立的，则一文档属于一事件的似然性由以下生成模型表示：

其中name_i、loc_i和key_i、time_i是分别代表第i个文档中的人物、地点、关键字和时间的特征向量。更详细地，name_i是列表<c_i1，c_i2，...，c_iNp>，其中c_in是person_n在文档x_i中出现的频率，person_n是由所获得的全部文档中出现的所有人物组成的人物表(person vocabulary)中的第n个人。从文档中提取这些元素(例如，人物、组织、地点、日期、时间、钱和百分数)的技术是已知的。

在此实现中，将组织实体考虑为人物实体。

假设N_p是人物表的大小，则p(name_i|e_j)被进一步表达为：

p ({name}_{i} | e_{j}) = Π_{n = 1}^{N_{p}} p {({person}_{n} | e_{j})}^{c_{in}} - - - (2)

因为人物、地点和关键字是由文字表示的离散变量，而且地点和关键字的概率也可与(2)中的人物相类似地定义，所以故事板生成器108统一地将概率p(person_n|e_j)(对应地，p(location_n|e_j)和p(keyword_n|e_j))表示为p(w_n|e_j)，以指示文字w_n在事件e_j中出现的概率。

另一方面，事件的时间通常有一个连续的期间。同时观察到，特别是在新闻领域，有关一事件的文档在该事件的开始阶段的数量要多于在事件接近结束时呈下降趋势的文档数量。由此，故事板生成器108利用高斯模型N(u_j，σ_j)粗略地表示概率p(time_i|e_j)，其中u_j和σ_j分别是平均值和标准差。

为了估计概率p(e_j|x_i)，故事板生成器108估计模型参数θ＝{p(w_n|e_j)，u_j，σ_j，1≤j≤K}，假设K是事件的数量(显著事件数)。在此实现中，使用最大似然性来估计模型参数，如下：

θ^{*} = \arg \max_{θ} \log (p (X | θ)) = \arg \max_{θ} \log (Π_{i = 1}^{M} p (x_{i} | θ)) - - - (3)

= \arg \max_{θ} Σ_{i = 1}^{M} \log (Σ_{j = 1}^{K} p (e_{j}) p (x_{i} | e_{j}, θ))

其中X表示所获得的文档的全集；M和K则分别是文档和事件的数量。

通过迭代地运行E步骤和M步骤，故事板生成器108应用期望值最大化(EM)算法来最大化该似然性。这两个步骤的简要概述如下列出。

·在E步骤中，后验概率p(e_j|x_i)被估计为：

{p (e_{j} | x_{i})}^{(t + 1)} = \frac{p {(x_{i} | e_{j})}^{(t)} p {(e_{j})}^{(t)}}{p (x_{i})} - - - (4)

其中上标(t)指示第t次迭代。

·在M步骤中，模型参数被如下更新：

{p (w_{n} | e_{j})}^{(t + 1)} = \frac{1 + Σ_{i = 1}^{M} p {(e_{j} | x_{i})}^{(t + 1)} \cdot tf (i, n)}{N + Σ_{i = 1}^{M} (p {(e_{j} | x_{i})}^{(t + 1)} \cdot Σ_{s = 1}^{N} tf (i, s))} - - - (5)

u_{j}^{(t + 1)} = \frac{Σ_{i = 1}^{M} p {(e_{j} | x_{i})}^{(t + 1)} \cdot {time}_{i}}{Σ_{i = 1}^{M} p {(e_{j} | x_{i})}^{(t + 1)}} - - - (6)

σ_{j}^{2 (t + 1)} = \frac{Σ_{i = 1}^{M} p {(e_{j} | x_{i})}^{(t + 1)} \cdot {({time}_{i} - u_{j}^{(t + 1)})}^{2}}{Σ_{i = 1}^{M} p {(e_{j} | x_{i})}^{(t + 1)}} - - - (7)

其中tf(i，n)是文档x_i中文字w_n的项频率(term frequency)，而N是对应的词表大小。在(5)中，应用拉普拉斯平滑以防止罕见文字的零概率。最后，每一事件的先验被更新为：

p {(e_{j})}^{(t + 1)} = \frac{Σ_{i = 1}^{M} p {(e_{j} | x_{i})}^{(t + 1)}}{M} - - - (8)

这一算法能够与各迭代一致地增加对数似然性；并在随后收敛于局部极大值。一旦估计了参数，故事板生成器108将每个文档分配给一事件，以如下生成事件群集120：

y_i＝arg max_j(p(e_j|x_i)) (9)

其中y_i是文档x_i的事件标签。

这一生成方法不仅考虑了事件的时间连续性，它还解决了两个或多个事件可以在某一持续时间内重叠的问题。在此情况下，事件时间的高斯模型也可以通过这一数据驱动参数估计而重叠。从这一观点，事件群集也类似时间线中的高斯混合模型(GMM)估计。

事件数量(事件数)确定

在上述事件群集的方法中，假设事件数K已知(如(3)-(8)中所示)。然而，事件数可能难以先验地确定。在此实现中，事件数是基于沿时间线的文档分布来估计的。更具体地，假设每一文档都是一事件的结果，并且事件的数量随着事件的发展而改变。根据这一性质，文档分布曲线的每一峰值(或对应周线)可以如图2所示指示无重叠事件情况下的一个事件。

图2根据一个实施例示出了用于显著事件数确定的示例性事件数量的图。如图2所示，假设每一峰值P_i都分别与关联于一给定语义主题的一相应事件相关。考虑到这些，就可以通过对峰值数计数来估计关联于一相应事件的事件数量(事件数)。然而，曲线可能会有噪声。在此实现中，故事板生成器模块108处理任何这样的含噪声的峰，使得只有显著峰才与事件数相关。为了检测显著峰，故事板生成器108用半汉明(升余弦)窗来平滑文档曲线，并在随后参考阈值移除很小的峰。图2示出了一段时间内(例如，四个月的时间段)代表与一特定主题相关联的各文档且带对应阈值的平滑的文档分布。在实验中，阈值被自适应地设置为μ_d-σ_d/2，其中μ_d和σ_d分别是曲线的平均值和标准差。

在平滑并移除微小峰之后，故事板生成器108检测每两个偶然峰之间的最小谷值，以标识事件(与对应峰相关)范围(两谷内的包络)。如图2所示，由L_i+R_i指示的持续时间是与峰P_i相关的粗略范围。假设重要事件通常具有更为关联的文档并且具有更长持续时间的影响，则将每个峰的显著性定义为：

S_{i} = (\frac{P_{i}}{P_{avr}}) (\frac{L_{i} + R_{i}}{D_{avr}}) - - - (10)

其中P_i是第i个峰，L_i和R_i是从第i个峰到前一和下一谷的持续时间；P_avr是平均峰值，而D_avr是曲线中两谷间的平均持续时间。S_i是显著性值。也可以考虑将其作为峰P_i下的归一化区域，于是它就粗略代表了对应事件的文档数。

在此实现中，选择前K个显著峰以如下确定事件数：

K = \arg \max_{k} {Σ_{i = 1}^{k} S_{i}^{'} / Σ_{i = 1}^{N} S_{i}^{'} \leq η} - - - (11)

其中S′_i是从大到小的已排序的显著性值，N是检测到的峰的总数，而η是阈值。在一个实现中，η被设为0.9，这粗略地意味着至少90％的文档将会在(3)-(8)中事件参数的进一步初始化和估计中保留。可选地，用户可以指定K的初始值以及显著峰的位置。

图3根据一个实施例示出了用于显著峰检测以确定事件数量的另一示例。参见图3，左(右)是从当前峰到左(右)边第一个更高峰的距离。在此实现中，如下确定各峰的显著得分：

score(peak)＝left(peak)+right(peak) (12)

该式示出了峰的算子left(左)和right(右)的定义。中间峰的显著得分是左与右之和。左(右)被定义为从当前峰到左(右)手边第一个更高峰的距离。算子left和right返回到最近的相邻更高峰的距离。

在初始化步骤的一个实现中，利用爬山法检测所有的峰，随后为每个检测到的峰计算显著得分。将可配置数量的峰确定为显著峰。例如在一个实现中，前20％的峰用作显著峰，并且显著峰的数量是k(事件数量)的最初估计。可选地，用户能够指定k的初始值(例如，如果用户只对前10个事件感兴趣，则k＝10)。一旦确定了k的初始估计以及显著峰的位置，就对应地初始化了事件参数。此外，可以通过分割/合并初始显著峰来获取若干个不同的初始k值。通常情况下，代表许多新闻文章或带重尾(heavy tail)的峰可能是多个事件的混合。在这种情形下，峰能够被分割以增大k并重新训练各模型。

在一个实现中，利用对数似然函数来选择充分优化的事件数。给定这一指示符，应用最小描述长度(MDL)原则来在各k值中做出选择：

k = \arg \max (\log (p (X; θ)) - \frac{m_{k}}{2} \log (M)) - - - (13)

m_k＝3k-1+k(N_p-1)+k(N_l-1)+k(N_n-1)

其中m_k是模型中使用的自由参数的数量。log(p(X；θ))是联合分布的对数似然函数。联合分布的对数似然函数在上文中参考式(3)来描述。作为这一原则的结果，当带有不同k值的模型同等良好地适合数据时，故事书生成器模块108就选择最简单的模型。

在确定了事件数并生成了初始事件群集120(带有其对应范围的最显著的峰)之后，随后就可以初始化各事件参数并迭代地对其进行更新。这一选择方案被设计为充分确保在生成用于故事板112的呈现时重要信息将不会遗漏。

在一个实现中，并且如上有关同步音乐与故事板内容所述，可以基于用户偏好进一步精练所呈现事件的数量，以将呈现持续时间与音乐持续时间相匹配。

事件概括和代表性媒体的提取

在获取事件之后，为了丰富地呈现与一语义主题相关联的代表性内容，故事板生成器108不仅利用简明的事件概括，而且还提取某些代表性媒体以描述每一事件。为此，在获得事件群集120和对应的文档之后，故事板生成器108生成简明的事件概括(即，一个或多个代表性事件)。在一个实现中，以两种途径概括新闻事件。在一个实例中，新闻事件通过选择带最大概率的某些特征以代表各事件来进行概括。例如，对于事件j，‘主角’是带有最大p(person_p|e_i)的人物。以类似方式选择地点和关键字。然而，这些概括可能难以阅读。于是作为替换，可以选择单个新闻文章作为每一新闻事件的代表性新闻文章。

一旦确定了作为事件条件的人物、地点、关键字和时间的概率分布，新闻文章就如下通过最大后验(MAP)原则分派给各事件：

y_{i} = \underset{j}{\arg \max} (p (e_{j} | x_{i})) - - - (9)

参见式9，y_i是新闻文章x_i的标签。在分派给第j个事件的各新闻文章中带有最大p(x_i|e_j)的文章x_i是事件j的良好代表，或者每一事件的第一篇文章也可以是良好代表。

提取代表性媒体

在描述事件的文档中，通常存在许多插图图像，它们可能会带有flash和视频剪辑。然而，当利用爬行网站操作获得这些文档时，文档通常会包括许多有噪声的多媒体资源，诸如广告。鉴于此，故事板生成器108实现有噪声媒体检测操作以在事件概括中去除与事件相关联的有噪声媒体(所提取的多模信息118的相应各部分)。

在一个实现中，为了在事件概括中去除每一相应事件的任何有噪声的媒体资源，故事板生成器108定位并移除除了那些与被爬行以获取描述该事件的文档的各网站相关联的实体之外的其他实体提供的关联于广告的资源。为此，故事板生成器108从与事件相关联的所有多媒体资源的URL中提取广告主机名，并且移除与一不同主机名相关联的资源。这些操作在事件概括中进一步标识代表各事件的媒体内容。

另外，对于事件概括内的每一事件，当多个文档与该事件相关联时，这多个文档就可能包括描述该事件的重复图像。为了解决任何这类重复图像问题，故事板生成器108检测并移除事件概括内来自于与事件相关联的媒体(所提取的多模信息118的相应各部分)的任何重复图像。在此实现中，故事板生成器108实现图像签名方案以检测并移除图像重复件。例如，在一个实现中，故事书生成器108将每幅图像转换成灰度，并且将经转换的图像降采样至8×8，以获取每幅图像的64字节签名。随后，该64字节签名的欧几里得距离可用作相异性测度。例如，展示出彼此之间的可配置距离(例如，较小距离)阈值的带64字节签名的的图像是重复图像。对于每对重复图像而言，故事书生成器108可以从代表性内容中移除这些图像之一。

在移除有噪声的资源和重复图像之后，故事板生成器108就为与目标主题相关联的每一事件从代表性最高的文档(例如，具有最大p(xi|ej)的文档)中选择大型图像的子集(例如，1-4个大型图像)或者其他媒体(例如，视频等)。故事板生成器108将该子集分类为事件的代表(例如，代表性媒体122)。所选图像的精确数量是基于对该事件重要性的客观判定以及与该事件相关联的图像的总数。以上参考文档数量描述了用以确定事件重要性的示例性操作。

故事板的生成

在这一点上，故事板生成器108集成/熔合来自事件概括120和代表性媒体122的信息以生成简明且信息丰富的故事板112，由此连同代表性多模信息一起呈现与目标主题相关联的每一事件。出于示例性说明的目的，将熔合的事件概括和代表性内容示为代表性媒体122。

图4根据一个实施例示出了故事板112的一个示例性用户界面(UI)布局400。如图所示，布局400的部分402示出了按时间顺序排列的代表性媒体(与事件相关联的媒体)122(即，各事件按其各自的时间戳排序)。在部分402，一个或多个图像的一相应群集代表与一主题目标相关联的每一事件。这样就能够让用户对一事件序列的过去和将来各方面有一个快速的纵览。在此实现中，UI 400突出显示了当前事件。例如，图像群集404被圈起，它代表在UI的部分406中正示出的当前事件。

UI 400的部分406呈现当前事件的代表性图像。在此实现中，UI 400呈现从中提取了一相应代表性图像的每个文档的标题和日期。对于与部分406相关联的每一文档而言，部分408呈现与该文档对应的事件概括。在一个实现中，部分408还呈现与一个或多个经概括的事件相关联的地理信息(例如，地图)。这些地图可以通过将事件地点作为查询提交给常规在线地图服务来获取。

示例性音乐同步

在一个实现中，故事板生成器108还可以将故事板112内的代表性媒体122与附带的音频(诸如，音乐)相同步，从而改善代表性内容的呈现。故事板生成器108将各事件幻灯片(例如，在图4的部分406中示出的幻灯片)之间的过渡与音乐节拍对齐。可以认识到，音乐或其他音频也可以是与目标主题相关的。用来与经概括的内容进行同步的音乐或其他音频可以是自动标识的，由用户提供的等等，并且由一个或多个多媒体数据114和其他数据116来表示。

为此，故事板生成器108检测所选音乐的开始序列，而非精确的节拍系列来代表音乐旋律。这是因为节拍信息有时候不太明显，特别是对轻音乐而言。在一个实现中，将在可配置时间窗内检测到的最强开始确定为音乐节拍。这样做是合理的，因为在时间窗(例如，5秒)内存在一些节拍部分；于是，最可能的节拍部分就是由最强开始的部分。

图5根据一个实施例示出了音乐开始序列估计的一个示例性过程500。如图所示，在对16ms长的每一帧执行FFT(快速傅立叶变换)之后，使用八阶滤波器组将频域分成6个子带，包括[0，ω₀/2⁶]，[ω₀/2⁶，ω₀/2⁵]，...，[ω₀/2²，ω₀/2]，其中ω₀指采样频率。

在通过使用半汉明(升余弦)窗提取每个子带的幅度包络之后，通过估计Canny算子的差函数而将其用于开始序列检测，

D_{i} (n) = A_{i} (n) &CircleTimes; C (n) - - - (14)

其中D_i(n)是第i个子带中的差函数，A_i(n)是第i个子带的幅度包络，而C(n)是带有高斯内核的Canny算子，

C (n) = \frac{i}{σ^{2}} e^{- i^{2} / 2 σ^{2}}, n &Element; [- L_{c}, L_{c}] - - - (15)

其中L_c是Canny算子的长度，σ用于控制该算子的形状，在这一具体实现中，它们分别被设置为十二(12)和四(4)。

最后，这六个子带的差曲线之和用于提取开始序列。考虑将每个峰作为开始，并且考虑将峰值作为开始强度。

基于所获取的开始，将配乐进一步分段成音乐子剪辑，其中将强开始作为音乐子剪辑的边界。故事书生成器108利用这些音乐子剪辑作为时间线来同步故事板内的事件幻灯片过渡。于是，为了满足故事板的事件幻灯片过渡应该在音乐节拍处出现的要求，故事板生成器108对齐故事板幻灯片的边界与音乐子剪辑的边界。

在此实现中，故事板生成器108维护音乐子剪辑，使其不太短也不太长，并且其长度变化(即，并不总是相同长度)。在此实现中，音乐子剪辑的长度可以在[t_min，t_max]秒范围内随机选择。于是，故事板生成器就能如下提取音乐子剪辑：给定前一边界，在窗中选择离前一边界[t_min，t_max]秒的下一边界作为最强开始。在此实现中，用户可以手动指定音乐子剪辑的长度范围。在此实现中，系统内的默认范围被设置为可配置的[10，15]秒，以便为用户提供足够的时间来阅读每一事件幻灯片上的全部信息。

图6根据一个实施例示出了一个示例性的音乐子剪辑与故事板幻灯片图像同步的映射。为了在不同事件幻灯片的过渡和配乐节拍之间进行同步，如前所述，故事板生成器108对齐幻灯片边界和音乐子剪辑边界。实现这一对齐的一种方法是将每一事件幻灯片的长度设置为与子音乐剪辑的对应长度相等。然而，如图5所示，事件幻灯片的数量通常不等于音乐子剪辑的数量。在此实现中，故事板生成器108使用一种或多种方案来解决这一问题。

例如，在一个实现中，故事板生成器108基于音乐子剪辑将音乐子剪辑映射至故事板幻灯片图像。更具体地，故事板生成器108自适应地只选择目标主题的前N个重要事件用于丰富呈现，其中N是对应配乐中的音乐子剪辑的数量(例如，请见图5)。在此实现中，假设事件越重要，对应文档越多，则事件的重要性得分简单地通过报道它的文档数量来测得。

在另一示例中，故事板生成器108基于指定的事件数将音乐子剪辑映射至故事板幻灯片图像。更具体地，用户指定要查看的事件数。例如，用户可以选择显示前30个重要事件、全部事件，或者使用某一其他准则来确定要查看的事件数量。为了在音乐持续时间内容纳所有的事件，故事板生成器108将在必要时重复配乐，并在事件呈现序列结束时逐渐减弱音乐。

在一个实现中，在故事板生成器108将故事板的代表性内容与配乐对齐之后，故事板生成器108就应用一个或多个幻灯片到幻灯片过渡效果，诸如平滑转换、擦去并溶解等。在一个实现中，故事板生成器108随机选择一种或多种过渡效果来连接各事件幻灯片。

示例性过程

图7根据一个实施例示出了用于语义主题的自动化丰富呈现的过程700。出于示例性的说明的目的，参考图1中系统100的各组件描述该过程的操作。在框702，故事板生成器模块108确定语义主题。在一个实现中，语义主题由提交的搜索查询的一个或多个关键字来标识。在框704，故事板生成器模块108分析多媒体数据114来检索与语义主题相关的多模信息。在框706，故事板生成器模块108生成事件群集120以群集与语义主题相关联的事件及对应的文档。每个事件群集120代表与语义主题相关联的、如来自所检索的多模信息的一个或多个文档中的相应各文档(例如，新闻文章)所描述的相应事件。在框708，故事板生成器模块108确定与语义主题相关联的事件数量以在故事板112中呈现给用户。在一个实现中，基于文档沿对应时间线的分布评估事件数量。

在框710，故事板生成器模块108概括事件群集120。在框712，故事板生成器模块108为每个经概括的事件标识客观上更能代表与对应事件群集120相关联的事件的一个或多个文档。在框714，故事板生成器模块108标识来自所检索的多模信息的其他媒体(例如，图像、视频等)。这些其他媒体被客观地确定为所概括事件的代表。在框716，故事板生成器模块108集成代表性文档和其他媒体(即，代表性内容122)用于在故事板112的布局中向用户呈现。在框718，故事板生成器模块108对齐音乐与集成内容用以向用户呈现。在框720，故事板生成器模块108将故事板112呈现给用户。这一经组织的呈现能让用户快速领会并理解语义主题。

示例性操作环境

图8示出了在其中可以完全或部分实现语义主题的自动化丰富呈现的合适计算环境的示例。示例性计算环境800仅仅是用于图1中的示例性系统100的合适计算环境的一个示例，并非对在此描述的系统和方法的使用范围或功能性提出任何局限。也不应该把计算环境800解释为对计算环境800中示出的任一组件或其组合有任何依赖性或要求。

在此描述的方法和系统可运行于多种其它通用或专用计算系统环境或配置。适合使用的公知的计算系统、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、多处理器系统、基于微处理器的系统、网络PC、小型机、大型机、包括上述系统或设备中的任一个的分布式计算机环境等。框架的紧凑或子集版本也可以在有限资源的客户内实现，诸如在手持式计算机或其他计算设备内实现。本发明还能在联网的计算环境中实现，其中任务由通过通信网络链接的远程处理设备完成。

参考图8，提供语义主题的自动化丰富呈现体系结构的示例性系统包括以计算机810形式来实现例如与图1的计算设备102相关联的故事板生成操作的通用计算设备。计算机810的组件可以包括，但不限于，处理单元818、系统存储器830和将包括系统存储器在内的各种系统组件耦合至处理单元818的系统总线821。系统总线821可以是几种类型的总线结构中的任何一种，包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。作为示例，而非限制，这样的体系结构可以包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为小背板(Mezzanine)总线)。

计算机810通常包括各种计算机可读介质。计算机可读介质可以是能由计算机810访问的任何可用介质，包含易失性/非易失性介质以及可移动/不可移动介质。作为示例，而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括易失性和非易失性、可移动和不可移动介质，它们以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机810访问的任何其它介质。

通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，且包含任何信息传递介质。术语“已调制数据信号”是指以在该信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为示例，而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。上述中的任意组合也应包括在计算机可读介质的范围之内。

系统存储器830包括形式为易失性和/或非易失性存储器的计算机存储介质，譬如只读存储器(ROM)831和随机存取存储器(RAM)832。基本输入/输出系统833(BIOS)包含有助于诸如启动时在计算机810中的元件之间传递信息的基本例程，它通常存储在ROM 831中。RAM 832通常包含处理单元818可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非局限，图8示出了操作系统834、应用程序835、其它程序模块836和程序数据837。

计算机810也可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图8示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器841，从可移动、非易失性磁盘852中读取或向其写入的磁盘驱动器851，以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘856中读取或向其写入的光盘驱动器855。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括，但不限于，盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器841通常由不可移动存储器接口，诸如接口840连接至系统总线821，磁盘驱动器851和光盘驱动器855通常由可移动存储器接口，诸如接口850连接至系统总线821。

以上描述并在图8中示出的驱动器及其相关联的计算机存储介质为计算机810提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图8中，硬盘驱动器841被示为存储操作系统844、应用程序845、其它程序模块846和程序数据847。注意，这些组件可以与操作系统834、应用程序835、其它程序模块836和程序数据837相同或不同。操作系统844、应用程序845、其它程序模块846和程序数据847在这里被标注了不同的标号是为了说明至少它们是不同的副本。

用户可以通过输入设备，诸如键盘862和定点设备861(通常指鼠标、跟踪球或触摸垫)向计算机810输入命令和信息。其它输入设备(未示出)可以包括话筒、操纵杆、图形笔和垫、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线821的用户输入接口860连接到处理单元818，但是也可由诸如并行端口、游戏端口或通用串行总线(USB)之类的其它接口和总线结构连接。在此实现中，监视器891或其它类型的显示设备也经由接口，诸如视频接口890连接至系统总线821。监视器891用于将图1中用于语义主题的丰富呈现的故事板112呈现给用户。

计算机810使用至一个或多个远程计算机，诸如远程计算机880的逻辑连接在网络化环境中操作。远程计算机880可以是个人计算机、服务器、路由器、网络PC、对等设备或其它常见网络节点，且取决于其具体实现，可以包括上文相对于计算机810描述的许多或所有元件，尽管在图8中只示出存储器存储设备881。图8中所示的逻辑连接包括局域网(LAN)871和广域网(WAN)873，但也可以包括其它网络。这样的网络环境常见于办公室、企业范围计算机网络、内联网和因特网。

当在LAN网络环境中使用时，计算机810通过网络接口或适配器871连接至局域网870。当在WAN网络环境中使用时，计算机810通常包括调制解调器872，或用于通过WAN 873，如因特网建立通信的其它装置。调制解调器872可以是内置或外置的，它可以通过用户输入接口860或其它合适的机制连接至系统总线821。在网络化环境中，相对于计算机810所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例，而非限制，图8示出了远程应用程序885驻留在存储器设备881上。所示的这些网络连接起示例性的作用，并且可以使用在计算机之间建立通信链路的其他手段。

结论

虽然以上各部分用专用于结构化特征和/或方法性操作或动作的语言描述了语义主题的自动化丰富呈现，但是在所附权利要求中定义的各实现不必限于所描述的具体特征或动作。相反地，语义主题的自动化丰富呈现的具体特征和操作是作为实现所要求保护的主题的示例性形式来公开的。例如，在一个实现中，使用贝叶斯信息准则(BIC)或者最小描述长度(MDL)来估计充分优化的事件数量。这可以通过搜索事件数量的范围从而找出最大化式(3)中的似然性的事件数来实现。

Claims

1.一种计算机实现的方法，包括：

确定语义主题；

评估对应于所述语义主题的多模信息的相应各部分以标识各事件，每一事件与人物、时间、地点和关键字中的一个或多个相关联；

对于所述相应各部分内的每篇文档，基于关联于所述事件的生成模型以及文档沿时间线的分布计算该文档属于所述各事件中的一事件的概率；

对于在所述各事件的至少一子集内的每一事件：

客观地标识相比于其他文档与该事件更为相关的一个或多个代表性文档；

从所述多模信息中提取对应于所述代表性文档的其他媒体，所述代表性文档和所述其他媒体客观上最能代表所述语义主题；以及

其中所述一篇或多篇代表性文档和所述其他媒体用于在故事板中向用户呈现。

2.如权利要求1所述的方法，其特征在于，所述各事件的至少一子集是事件概括。

3.如权利要求1所述的方法，其特征在于，计算所述概率还包括：

标识对应于所述语义主题的显著事件数量，所述显著事件数量要小于所述事件的总数；以及

使用所述显著事件数量计算所述概率。

4.如权利要求1所述的方法，其特征在于，计算所述概率还包括根据所述文档的日期相对于事件持续时间位于何处来表示与时间相关联的概率。

5.如权利要求1所述的方法，其特征在于，计算所述概率还包括：

通过迭代的期望值和最大化操作，对相应的人物、地点和关键字模型，独立地估计模型参数；以及

考虑所述事件的时间连续性以及两个或多个所述事件的任何重叠，使用所述模型计算所述概率。

6.如权利要求1所述的方法，其特征在于，还包括对所述各代表性文档中的每篇文档，移除与由一实体提供的广告相关联的任何资源，所述实体是除了与从中获取所述文档的网站相关联的实体之外的其他实体。

7.如权利要求1所述的方法，其特征在于，还包括对于在所述各事件的至少一子集中的每一事件，如果所述代表性文档包括多篇文档，就从所述多篇文档中移除任何重复的图像。

8.如权利要求1所述的方法，其特征在于，所述一篇或多篇代表性文档和所述其他媒体是代表性内容，并且其中所述方法还包括将所述代表性内容集成到所述故事板中以便向用户呈现，所述故事板提供显著事件的简明纵览以及与所述语义主题有关的关联多模信息。

9.如权利要求1所述的方法，其特征在于，还包括将所述故事板布局的代表性内容与音乐进行同步。

10.如权利要求9所述的方法，其特征在于，所述同步还包括：

标识音乐子剪辑和对应的时间线；以及

使用所述时间线将事件幻灯片过渡和所述故事板布局与所述音乐子剪辑进行同步。

11.如权利要求9所述的方法，其特征在于，所述同步还包括：

标识音乐子剪辑和对应的时间线；

使用所述时间线将事件幻灯片过渡和所述故事板布局与所述音乐子剪辑进行同步；以及

其中一事件幻灯片的长度等于相应音乐子剪辑的对应长度。

12.如权利要求9所述的方法，其特征在于，所述同步还包括：

标识音乐子剪辑和对应的时间线；

其中与所述事件幻灯片过渡相关联的每一事件被客观地确定为属于所述至少一事件子集中的一组事件，该组事件比所述至少一事件子集中的其他事件更为重要。

13.一种计算机实现的方法，包括：

确定语义主题；

从多媒体数据中提取与所述语义主题相关的多模信息；

评估所述多模信息的相应各部分以标识各事件，每一事件与人物、时间、地点和关键字中的一个或多个相关联；

生成概括所述各事件的事件概括；

对于所述事件概括中的每一事件：

客观地标识相比于其他文档与该事件更为相关的一篇或多篇代表性

文档；以及

从所述多模信息中提取对应于所述代表性文档的其他媒体，所述代

表性文档和其他媒体是代表性内容；

将所述代表性内容集成到故事板布局中用以向用户呈现，所述故事板布局提供显著事件的简明纵览以及关于所述语义主题的关联多模信息。

14.如权利要求13所述的方法，其特征在于，计算所述概率还包括：

使用所述显著事件数量计算所述概率。

15.如权利要求13所述的方法，其特征在于，计算所述概率还包括：

16.如权利要求13所述的方法，其特征在于，还包括从所述一篇或多篇代表性文档的一篇文档中移除一个或多个重复图像以及与一实体相关联的广告，所述实体是除了与从中获得所述文档的网站相关联的实体之外的任何其他实体。

17.如权利要求13所述的方法，其特征在于，还包括将所述故事板布局的代表性内容与音乐进行同步。

18.一种计算设备，包括用于执行以下动作的处理装置：

从多模数据源标识语义主题的代表性多模内容，所述代表性多模内容包括对应于与所述语义主题相关联的一个或多个显著事件的图像、新闻文章概括、视频和地点中的一种或多种；以及

将所述代表性内容集成到故事板布局中用以向用户呈现；以及

向用户呈现所述故事板布局以便进行对所述代表性内容的审阅和导航中的一个或多个。

19.如权利要求18所述的计算设备，其特征在于，标识所述代表性多模内容还包括根据一文档的日期相对于事件持续时间位于何处来计算该文档包括代表一事件的内容的概率。

20.如权利要求18所述的计算设备，其特征在于，将所述代表性内容集成到所述故事板布局中还包括将所述代表性多模内容与配乐相集成用以向用户呈现。