DE60300374T2

DE60300374T2 - Sprachaktiviertes Musikwiedergabesystem

Info

Publication number: DE60300374T2
Application number: DE60300374T
Authority: DE
Inventors: Peter P. Winchester Wolf; Michael A. Casey
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-09-30
Filing date: 2003-09-25
Publication date: 2006-02-09
Anticipated expiration: 2023-09-26
Also published as: DE60300374D1; EP1403852B1; EP1403852A1; JP2004265376A; US20040064306A1

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die vorliegende Erfindung betrifft allgemein das Durchsuchen und Wiederauffinden eines Audioinhalts und spezieller das Wiederauffinden von aufgezeichneter Musik in einer Datenbank unter Verwendung von gesprochenen Abfragen.
2. Beschreibung des Standes der Technik
Mit dem Erscheinen fortgeschrittener, digitaler Kompressionstechniken und hochleistungsfähiger Speicher ist es jetzt möglich, sehr große Musikbibliotheken in sehr kleinen Geräten zu speichern. Wiedergabegeräte für Medien können Tausende moderner Musikstücke speichern.
Traditionelle Schnittstellen, bei denen der Benutzer sowohl die gewünschten Aufzeichnungsmedien als auch spezielle „Spuren" per Hand auswählen muss, funktionieren für solche Geräte nicht, insbesondere wenn der Benutzer beim Zuhören mit anderen Aktivitäten in Anspruch genommen ist. Außerdem kann die moderne Musikbibliothek in einer Weise eigens zu diesem Zweck gesammelt werden, die es einem Benutzer auch unmöglich machen kann genau zu wissen, was in der Bibliothek gespeichert ist.
Einige Verfahren im Stand der Technik, die es einem Benutzer ermöglichen, auf Musik in einer Datenbank zuzugreifen, enthalten eine Spracherkennungstechnologie, wobei jedoch die Ergebnisse nur auf spezielle Soundtracks oder Dateien beschränkt sind, die von dem Benutzer manuell geordnete Soundtracks enthalten, siehe z.B. „Wie Sie Ihr MXP 100 nutzen und sich daran erfreuen" e.Digital Corporation, 2001.
Deshalb müssen neue Einrichtungen zum Organisieren und Zugreifen von in einer großen Musikbibliothek gespeicherten Aufzeichnungen zur Verfügung gestellt werden.
ABRISS DER ERFINDUNG
Die Erfindung stellt ein Verfahren und System zum Auswählen von in einer Datenbank gespeicherten Aufzeichnungen bereit.
Eine gesprochene Abfrage wird als ein phonetisches Gitter dargestellt, wobei Pfade durch das phonetische Gitter zu einem Satz von Textabfragen umgewandelt werden. Die Datenbank wird aufgesucht, um eine Wiedergabeliste von Aufzeichnungen, die auf den Satz von Textabfragen abgestimmt ist, zu erzeugen und anschließend werden Klangproben der Aufzeichnungen in der Wiedergabeliste abgespielt. Eine spezielle Klangprobe wird als akustische Abfrage zum Aufsuchen der Datenbank ausgewählt, um die Wiedergabeliste mit einer Aufzeichnung, die mit der akustischen Abfrage abgestimmt ist, zu aktualisieren. Klangproben der Aufzeichnungen in der aktualisierten Wiedergabeliste werden abgespielt und eine spezielle Klangprobe der aktualisierten Wiedergabeliste wird ausgewählt. Dann wird eine der Klangprobe zugeordnete spezielle Aufzeichnung abgespielt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Es werden bevorzugte Ausführungen der vorliegenden Erfindung auf Basis der folgenden Figuren ausführlich beschrieben, in denen zeigen:
1 ein sprachaktiviertes Musikwiedergabesystem gemäß der Erfindung; und
2 ein Ablaufdiagramm zum Durchsuchen und Wiederauffinden von Tonaufzeichnungen gemäß der Erfindung.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGEN
Systemstruktur
1 zeigt das erfindungsgemäße Musikwiedergabesystem 100. Das System umfasst einen Prozessor 110, einen Speicher 120, ein Mikrofon 130, einen Schalter 140 und einen oder mehrere miteinander verbundene Lautsprecher 150.
Der Prozessor 110 ist im Wesentlichen herkömmlich und führt Softwareprogramme aus, die im Speicher 120 gespeichert sind. Der Prozessor 110 enthält eine Audiokarte, die digitale Daten in Audiosignale umwandeln kann. Der Speicher 120 kann verschiedene Formen einschließlich RAM, ROM, Plattenspeicher und blockweise löschbarer Speicher aufweisen. Der Schalter 140 kann auf verschiedene Weise z.B. zum Drücken, Kippen, Schieben usw. ausgeführt sein, um den nachstehend ausführlich dargestellten Funktionen zu entsprechen. Das System 100 kann tragbar oder in einem Fahrzeug befestigt sein. Die Verbindungen können drahtlos sein.
2 zeigt zusätzliche Einzelheiten des Systems 100, die einen Spracherkenner 210, einen Textabfrage-Generator 220, eine Textsuchmaschine 230, einen Scanner 240 und eine akustische Suchmaschine 250 enthalten. Diese werden durch Softwaremodule realisiert, die in dem Speicher 120 gespeichert sind und durch den Prozessor 110 ausgeführt werden.
Der Speicher 120 speichert außerdem einen Datenbank 260 von Aufzeichnungen 270. Jede Aufzeichnung 270 enthält zugeordnete Textdeskriptoren 271, eine Audioaufzeichnung 272 und eine Klangprobe 273 der Aufzeichnung 272. Der Schalter 140 und das Mikrofon 130 stellen eine Eingabe für den Spracherkenner 210 und den Scanner 240 bereit. Der Lautsprecher 150 spielt Klangproben und Aufzeichnungen so ab, wie sie durch den Benutzer ausgewählt wurden. Der Lautsprecher 150 kann außerdem verwendet werden, um dem System Statusinformationen zu liefern.
Systembetrieb
Die Erfindung wird nachstehend gemäß den Ansprüchen 1 und 10 weiter erläutert.
Wie in einem Verfahren 200 in 2 dargestellt ist, empfängt der Spracherkenner 210 über das Mikrofon 130 eine gesprochene Benutzerabfrage. Der Schalter 140 kann verwendet werden, um das Mikrofon zu betätigen. Der Spracherkenner 210 stellt die gesprochene Abfrage als ein phonetisches Gitter 211 dar. Knoten in dem Gitter stellen phonetische Primitive (Darstellungselemente) wie Wörter, Silben oder Phoneme dar, und Kanten zeigen mögliche Sequenzen der Primitiven an.
Der Textabfrage-Generator 220 wandelt das Gitter 211 um in einen Satz von Textabfragen 221, die die Pfade durch das Gitter wie wahrscheinliche textliche Darstellungen der gesprochenen Abfrage darstellen, siehe Wolf et al. „The MERL spoken query information retrieval system. A system for retrieving pertinent documents from a spoken query" ("Das MERL-Informationswiedergewinnungssystem mit gesprochener Abfrage. Ein System zur Wiedergewinnung von sachbezogenen Dokumenten aus einer gesprochenen Abfrage"), in IEEE International Conference on Multimedia and EXPO (ICME), 26. August 2002. Als weiteres Beispiel wird in dem am 28. Mai 2002 veröffentlichten US-Patent 6 397 181 eine Wiedergewinnung des Inhalts digitaler Medien erreicht, indem eine Sprechabfrage zu einem Wortgitter umgewandelt und daraus eine engere Wahl erzeugt wird. Die engere Wahl wird anschließend genutzt, um das Suchergebnis zu erzeugen.
Die Textsuchmaschine 230 sucht die Aufzeichnungen 270 in der Datenbank 260 auf, um eine Wiedergabeliste 231 zu generieren, indem die Textabfragen 221 mit den Textdeskriptoren 271 von jeder Aufzeichnung 270 verglichen werden. Die Wiedergabeliste zeigt Aufzeichnungen mit Textdeskriptoren an, die mit der Textabfrage 221 abgestimmt sind. Die Wiedergabeliste kann entsprechend Textdeskriptoren, einer Bestimmtheit der Textabfrage oder einer zufälligen Reihenfolge geordnet werden.
Der Scanner 240 spielt die Klangprobe 273 jeder Aufzeichnung 270 in der Reihenfolge der Wiedergabeliste 231 mittels Lautsprecher 150 ab. Der Benutzer kann eine Klangprobe aus der Wiedergabeliste auswählen, indem er einen Befehl 242 unter Verwendung des Mikrofons 130 oder des Schalters 140 eingibt. Der Befehl spielt entweder die entsprechende Aufzeichnung 272 ab oder aktualisiert die Wiedergabeliste.
Zum Aktualisieren der Wiedergabeliste bildet die ausgewählte Klangprobe eine akustische Abfrage 241. Die akustische Suchmaschine 250 sucht die Aufzeichnungen 270 auf und aktualisiert die Wiedergabeliste mit Aufzeichnungen 270, die mit der akustischen Abfrage 241 abgestimmt sind, siehe Casey „MPEG-7 Sound Recognition Tools" („MPEG-7 Tonerkennung-Software") in IEEE Transactions on Circuits and Systems for Video Technology, Juni 2001. Wiederum kann die Wiedergabeliste 231 geordnet oder zufällig sein.
Der Scanner 240 kann dann die Klangproben der Aufzeichnungen in der aktualisierten Wiedergabeliste 231 abspielen. Als andere Möglichkeit kann der Benutzer an den Scanner einen Befehl ausgeben, indem das Mikrofon oder der Schalter verwendet wird, um eine beliebige oder jede Aufzeichnung, die durch die aktualisierte Wiedergabeliste angegeben ist, in beliebiger Reihenfolge abzuspielen.
Obwohl die Erfindung durch Beispiele bevorzugter Ausführungen beschrieben worden ist, soll verständlich werden, dass verschiedene andere Anpassungen und Modifizierungen innerhalb von Geist und Umfang der Erfindung vorgenommen werden können.

Claims

Verfahren zur Auswahl von Aufzeichnungen aus einer in einem Speicher (120) gespeicherten Datenbank (260), welches aufweist: Darstellen (210) einer gesprochenen Frage als ein phonetisches Gitter (211); Umwandeln (220) von Pfaden durch das phonetische Gitter (211) in einen Satz von Textfragen (221); Durchsuchen (230) der Datenbank (260) zur Erzeugung einer Wiedergabeliste (231) von Aufzeichnungen (271), die mit dem Satz von Textfragen (221) abgestimmt sind; Wiedergeben (240) von Mustern der Aufzeichnungen (273) auf der Wiedergabeliste; und Auswählen (240) eines besonderen Musters als eine akustische Frage (241); Durchsuchen (250) der Datenbank (260) zur Aktualisierung der Wiedergabeliste (231) mit Aufzeichnungen (272), die auf die akustische Frage (241) abgestimmt sind; Wiedergeben (240) von Mustern der Aufzeichnungen (273) auf der aktualisierten Wiedergabeliste (231); und Auswählen (242) eines besonderen Musters der aktualisierten Wiedergabeliste (231), um eine besondere assoziierte Aufzeichnung wiederzugeben.
Verfahren nach Anspruch 1, weiterhin aufweisend: Aufrechterhalten von Verzeichnissen (270) in der Datenbank (260), wobei jedes Verzeichnis (270) eine Aufzeichnung (272), ein Muster der Auf zeichnung (273) und assoziierte Textbeschreibungssätze (271) enthält.
Verfahren nach Anspruch 2, bei dem der Schritt des Durchsuchens (230) der Datenbank (260) zum Erzeugen der Wiedergabeliste (231) weiterhin aufweist: Vergleichen des Satzes von Textfragen (221) mit den assoziierten Textbeschreibungssätzen (271) in jedem Verzeichnis (270); und Identifizieren von Verzeichnissen (270) mit assoziierten Textbeschreibungssätzen (271), die mit dem Satz von Textfragen (221) abgestimmt sind.
Verfahren nach Anspruch 2, weiterhin aufweisend: Ordnen (230) der Wiedergabeliste (231) entsprechend den Textbeschreibungssätzen (271).
Verfahren nach Anspruch 2 weiterhin aufweisend: Ordnen (230) der Wiedergabeliste (231) entsprechend einer Bestimmtheit der Textfrage (221).
Verfahren nach Anspruch 2 weiterhin aufweisen: Ordnen (230) der Wiedergabeliste (231) entsprechend einer zufälligen Reihenfolge.
Verfahren nach Anspruch 1, bei dem die Schritte des Auswählens als Antwort auf einen Befehl (241) initiiert werden.
Verfahren nach Anspruch 7, bei der Befehl (242) ein gesprochener Befehl (130) ist.
Verfahren nach Anspruch 7, bei dem der Befehl mechanisch (140) eingegeben wird.
Vorrichtung zum Auswählen von Aufzeichnungen aus einer in einem Speicher (120) gespeicherten Da tenbank (26), welche aufweist: einen Spracherkenner (210) zum Darstellen einer gesprochenen Frage als ein phonetisches Gitter (211); Mittel (220) zum Umwandeln von Pfaden durch das phonetische Gitter (211) in einen Satz von Textfragen (221); Mittel (230) zum Durchsuchen der Datenbank (260) für die Erzeugung einer Wiedergabeliste (231) von Aufzeichnungen (272), die mit dem Satz von Textfragen (221) abgestimmt sind; einen Abtaster (241) zum Wiedergeben von Mustern der Aufzeichnungen (273) in der Wiedergabeliste (231), wobei der Abtaster (240) einen Lautsprecher (150) enthält; Mittel (250) zum Aktualisieren der Wiedergabeliste (231) mit Aufzeichnungen (272) in der Datenbank (260), die mit einer akustischen Frage (241) abgestimmt sind; und Mittel (242) zum Auswählen eines besonderen Musters aus der Wiedergabeliste (231), mit zwei Moden, wobei in einem ersten Modus die Mittel in der Lage sind, ein besonderes Muster als die akustische Frage (241) auszuwählen, und in einem zweiten Modus die Mittel in der Lage sind, ein besonderes Muster, das mit einer Aufzeichnung in der Datenbank (260) assoziiert ist, die mit der akustischen Frage (241) abgestimmt ist, auszuwählen.
Vorrichtung nach Anspruch 10, bei der eine Verbindung mit dem Speicher (120) drahtlos ist.