DE60129652T2

DE60129652T2 - Bildwiederauffindungssystem und Methode mit semantischer und eigenschaftenbasierter Relevanzrückmeldung

Info

Publication number: DE60129652T2
Application number: DE60129652T
Authority: DE
Inventors: Wen-Yin Ba Gou Nan Lu Beijing 010 Liu; Hong-Jiang Beijing Zhang; Ye Lu
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-10-30
Filing date: 2001-10-18
Publication date: 2007-11-22
Anticipated expiration: 2021-10-19
Also published as: EP1202187A3; ATE368897T1; EP1202187B1; US7499916B2; US7099860B1; US20040267740A1; US20050055344A1; JP2007242065A; JP2002197117A; DE60129652D1; JP4210311B2; US7529732B2; EP1202187A2; JP4108961B2

Description

Die Erfindung betrifft Bildrecherchesysteme.
Digitalisierte Bilder erfreuen sich immer größerer Beliebtheit auf Grund verbesserter Verarbeitungstechnologien für digitalisierte Bilder und einfacher Verfügbarkeit, die durch das Internet erleichtert wird. Täglich stehen immer mehr digitalisierte Bilder zur Verfügung.
Automatische Bildrecherchesysteme bieten den Benutzern effiziente Möglichkeiten, durch die wachsende Anzahl von verfügbaren Bildern zu navigieren. Herkömmliche Bildrecherchesysteme gestatten es den Benutzern, Bilder auf eine von zwei Arten abzufragen: (1) stichwortbasierte Bildrecherche oder (2) inhaltsbasierte Bildrecherche. Die stichwortbasierte Bildrecherche sucht Bilder durch Abgleichen von Stichwörtern aus einer Benutzerabfrage mit Stichwörtern, die den Bildern manuell hinzugefügt worden sind. Eine der bekannteren Sammlungen von kommentierten Bildern ist Corel Gallery, eine Bilddatenbank von Corel Corporation, die über eine Million kommentierter Bilder enthält.
Ein Problem bei stichwortbasierten Bildrecherchesystemen ist, dass es für einen Benutzer schwierig oder unmöglich sein kann, die inhärente Komplexität gewisser Bilder präzise zu beschreiben. Als Ergebnis dessen kann die Recherchegenauigkeit stark eingeschränkt sein, weil Bilder, die nicht beschrieben werden können, oder die nur uneindeutig beschrieben werden können, nicht erfolgreich abgefragt werden. Außerdem gibt es auf Grund der enormen Last von manuellen Kommentaren wenige Datenbanken mit kommentierten Bildern, obwohl sich dies ändert.
Die inhaltsbasierte Bildrecherche (CBIR) sucht Bilder, die Grundmerkmalen eines Beispiels ähnlich sind, wie beispielsweise Farbhistogramm, Struktur, Form und so weiter. Obwohl die CBIR das Problem von stichwortbasierter Bildrecherche löst, weist sie auch starke Defizite auf. Ein Nachteil der CBIR ist, dass Suchvorgänge vollkommen irrelevante Bilder zurückgeben können, die zufälligerweise ähnliche Merkmale besitzen. Außerdem enthalten einzelne Objekte in Bildern eine große Bandbreite von Grundmerkmalen.
Daher beschreibt die Verwendung der Grundmerkmale allein nicht zufriedenstellend, was abgefragt werden soll.
Um die in der CBIR zurückgegebenen irrelevanten Bilder auszusondern, setzen einige CBIR-basierte Bildrecherchesysteme ein Benutzer-Feedback ein, um hinsichtlich der Relevanz gewisser Bilder zu einem Verständnis zu gelangen. Nach einer Erstabfrage schätzen solche Systeme die ideale Abfrage des Benutzers, indem sie die vom Benutzer eingegebenen positiven und negativen Antworten auf die von der Abfrage zurückgegebenen Bilder überwachen. Dieser Ansatz reduziert für einen Benutzer die Notwendigkeit, akkurate Erstabfragen bereitzustellen.
Ein Typ eines Ansatzes eines Relevanz-Feedbacks besteht darin, ideale Abfrageparameter zu schätzen, wobei nur die Grundbildmerkmale verwendet werden. Dieser Ansatz funktioniert gut, wenn die Merkmalsvektoren das Wesentliche der Abfrage erfassen können. Wenn der Benutzer zum Beispiel nach einem Bild mit komplexen Strukturen sucht, die eine bestimmte Farbkombination aufweisen, wäre diese Abfrage extrem schwierig zu beschreiben, kann aber durch eine Kombination von Farb- und Strukturmerkmalen einigermaßen dargestellt werden. Daher kann der Prozess des Relevanz-Feedbacks mit einigen positiven und negativen Beispielen einigermaßen akkurate Ergebnisse zurückgeben. Wenn der Benutzer andererseits nach einem spezifischen Objekt sucht, das durch Kombinationen von verfügbaren Merkmalsvektoren nicht ausreichend dargestellt werden kann, geben diese Relevanz-Feedback-Systeme nicht viele relevante Ergebnisse zurück, auch nicht mit einer großen Anzahl von Benutzer-Feedbacks.
Einige Forscher haben versucht, Modelle auf die Bildrecherche anzuwenden, die in der Textinformationsrecherche verwendet werden. Eines der beliebtesten Modelle, das in der Textinformationsrecherche verwendet wird, ist das Vektormodell. Das Vektormodell wird in solchen Schriften beschrieben, wie von Buckley und Salton, "Optimization of Relevance Feedback Weights", in Proc. Of SIGIR '95; Salton und McGill, "Introduction to Modern Information Retrieval", McGraw-Hill Book Company, 1983; und W.M. Shaw, "Term-Relevance Computation and Perfect Retrieval Performance", Information Processing and Management. Verschiedene effektive Recherche-Techniken wurden für dieses Modell entwickelt, und viele setzen Relevanz-Feedback ein.
Die meisten der bisherigen Relevanz-Feedback-Recherchen können in zwei Ansätze klassifiziert werden: Abfragepunktverschiebung (query point movement) und Neugewichtung (re-weighting). Das Verfahren der Abfragepunktverschiebung versucht im Wesentlichen, die Schätzung eines "idealen Abfragepunkts" zu verbessern, indem es ihn zu guten Beispielpunkten hin und von schlechten Beispielpunkten weg verschiebt. Die häufig verwendete Technik zum iterativen Verbessern dieser Schätzung ist die im Folgenden angegebene Rocchio-Formel für Gruppen von relevanten Dokumenten D'_R und nicht-relevanten Dokumenten D'_N, die vom Benutzer zur Kenntnis genommen worden sind:
wobei α, β und γ geeignete Konstanten sind, und N_R' und N_N' jeweils die Anzahl von Dokumenten D'_R und D'_N sind. Diese Technik ist zum Beispiel in dem MARS-System implementiert, wie von Rui, Y., Huang, T.S. und Mehrotra, S. in "Content-Based Image Retrieval with Relevance Feedback in MARS" in Proc. IEEE Int. Conf. On Image Proc., 1997 beschrieben.
Das Hauptkonzept hinter dem Neugewichtungs-Verfahren ist sehr einfach und intuitiv. Da jedes Bild durch einen N-dimensionalen Merkmalsvektor dargestellt wird, kann das Bild als ein Punkt in einem N-dimensionalen Raum betrachtet werden. Wenn daher die Abweichung der guten Beispiele entlang einer Hauptachse j hoch ist, sind die Werte auf dieser Achse sehr wahrscheinlich für die eingegebene Abfrage nicht sehr relevant, und der Achse kann eine niedrige Gewichtung w_j zugewiesen werden. Daher wird die Umkehrung der Standardabweichung der j-ten Merkmalswerte in der Merkmalsmatrix als das Grundkonzept zum Aktualisieren der Gewichtung w_j verwendet. Das oben erwähnte MARS-System implementiert eine leichte Verfeinerung in dem Neugewichtungsverfahren, das als Standardabweichungsverfahren bezeichnet wird.
In letzter Zeit sind rechnerisch robustere Verfahren für die Durchführung einer globalen Optimierung vorgeschlagen worden. Ein solcher Vorschlag ist das MindReader-Recher chesystem, das in Ishikawa, Y., Subramanya R. und Faloutsos, C., "Mindreader: Query Databases Through Multiple Examples", in Proc. der 24. VLDB Conference, (New York), 1998 beschrieben wird. Es formuliert ein Minimierungsproblem im Parameterschätzungsprozess. Im Gegensatz zu herkömmlichen Recherchesystemen mit einer Abstandsfunktion, die durch Ellipsen dargestellt werden kann, die auf die Koordinatenachse ausgerichtet sind, schlug das MindReader-System eine Abstandsfunktion vor, die nicht notwendigerweise auf die Koordinatenachse ausgerichtet ist. Daher ermöglicht es Korrelationen zwischen Attributen zusätzlich zu verschiedenen Gewichtungen auf jeder Komponente.
Eine weitere Verbesserung hinsichtlich dieses Ansatzes wird in Rui, Y., Huang, T.S., "A Novel Relevance Feedback Technique in Image Retrieval", ACM Multimedia, 1999 beschrieben. Ihr CBIR-System formuliert nicht nur das Optimierungsproblem, sondern berücksichtigt auch das mehrstufige Bildmodell.
Alle oben beschriebenen Ansätze führen ein Relevanz-Feedback auf der Grundmerkmalsvektor-Ebene in der Bildrecherche durch, berücksichtigen aber keinerlei Semantik für die Bilder selbst. Das inhärente Problem bei diesen Ansätzen besteht darin, dass die Einführung des in der Textinformationsrecherche verwendeten Relevanz-Feedbacks in die Bildrecherche sich als nicht so erfolgreich erweist wie erhofft. Dies ist primär darauf zurückzuführen, dass Grundmerkmale oft nicht so leistungsstark bei der Darstellung eines vollständigen semantischen Inhalts von Bildern sind.
Als Ergebnis dessen bemühte man sich, Semantik in das Relevanz-Feedback für die Bildrecherche zu integrieren. In Lee, Ma und Zhang, "Information Embedding Based on User's Relevance Feedback for Image Retrieval", Technical Report HP Labs, 1998, schlagen die Autoren ein Bezugssystem vor, das versucht, semantische Informationen unter Verwendung einer Korrelationsmatrix in einen grundmerkmalsbasierten Bildrechercheprozess einzubetten. In diesem Rahmen ergibt sich die semantische Relevanz zwischen Bild-Clustern aus dem Feedback eines Benutzers und wird zum Verbessern der Rechercheleistung verwendet.
Es bleibt jedoch ein Bedarf in Bezug auf Verbesserungen in den Bildrecherchesystemen und den Verfahren bestehen, die mit Relevanz-Feedback arbeiten. Die Erfinder schlagen ein System vor, das sowohl Semantik als auch Grundmerkmale auf eine neue Art und Weise in den Relevanz-Feedback-Prozess integriert. Nur wenn die Semantikinformationen nicht zur Verfügung stehen, wird die Technik im speziellen Fall auf einen der vorher beschriebenen Ansätze des Grund-Feedbacks reduziert.
US-A-5 899 999 offenbart ein iteratives Faltungsfilter (convolution filter), das besonders für den Einsatz in einem Bildklassifizierungs- und Recherchesystem geeignet ist. Ein Benutzer stellt eine textbasierte Abfrage bereit, die zu einem Datenbank-Manager weitergeleitet wird. Der Datenbank-Manager greift dann auf alle Einträge in der Datenbank zu, die einen oder mehrere Begriffe in der Abfrage enthalten. Der Benutzer kann alle oder einige Bilder auswählen, die als eine Vorschau dargestellt sind. Im Block 430 werden der Durchschnitt und Abweichungsvektoren für Signaturen der Abfragebilder berechnet. Diejenigen Bilder, die die höchsten Ähnlichkeitsmaße besitzen, werden für den Benutzer dargestellt.
US-A-5 020 019 offenbart ein Dokumentrecherchesystem einschließlich eines Lernkontrollabschnitts, der dazu dient, die Quote (rate) jeder Stichwortverbindung zu modifizieren.
US-A-6 076 088 offenbart ein System und ein Verfahren zur Informationsextraktion unter Verwendung einer Dreiergruppe Konzept-Relation-Konzept (CRC) (Concept Relation Concept).
US-A-5 297 042 offenbart ein Stichwortverbindungs-Dokumentrecherchesystem, das eine Gruppe von Dokumenten abfragen kann, die von einem Benutzer angefordert werden. Eine Eingabe-Analyseeinheit 1 führt die Stichwortdaten und Quotendaten (rate data) Q_k für alle Stichwortdaten, die durch die Analyse der Recherchebedingung erhalten wurden, der inhaltsorientierten (associative) Rechercheeinheit 2 zu. Bei den Quotendaten Q wird davon ausgegangen, dass sie in einem Bereich zwischen 0 und 1 liegen. Beziehungswerte und Gewichtungswerte werden in der inhaltsorientierten Rechercheeinheit 2 eingestellt. Jeder der Beziehungswerte wird als der Grad der Beziehung zwischen den Stichwörtern definiert, und jeder der Gewichtungswerte wird als der Grad der Gewichtung des Stichworts in jedem Dokument definiert. Der Relevanzwert jedes Dokuments stellt den Grad der Relevanz bezüglich der Zufriedenstellung der Anforderung des Benutzers dar. Der Ausgabe-Controller 3 sortiert alle Dokumente in einer absteigenden Reihenfolge des Reievanzwerts und erstellt eine Dokumentenliste, in der die Dokumente in dieser Reihenfolge angeordnet werden. Der Benutzer bestimmt, ob das auf der Anzeigeeinheit angezeigte Rechercheergebnis für den Benutzer zufriedenstellend ist oder nicht. Eine Lerneinheit 4 ändert die Beziehungswerte und die Gewichtungswerte auf der Basis der vom Benutzer bereitgestellten Lehrdaten (teacher data).
Es ist die Aufgabe der vorliegenden Erfindung, verbesserte Verfahren, Bildrecherchesysteme, Datenbankstrukturen und entsprechende computerlesbare Medien bereitzustellen, um auf eine Benutzerabfrage hin Bilder in einer Datenbank zu suchen.
Diese Aufgabe wird durch den Gegenstand der selbstständigen Ansprüche gelöst.
Bevorzugte Ausführungsformen werden durch den Gegenstand der Unteransprüche definiert.
Ein Bildrecherchesystem führt sowohl eine stichwortbasierte als auch eine inhaltsbasierte Bildrecherche durch. Eine Benutzerschnittstelle ermöglicht es einem Benutzer, eine Abfrage unter Verwendung einer Kombination von Stichwörtern und Beispielbildern zu spezifizieren. Abhängig von der Eingabeabfrage sucht das Bildrecherchesystem Bilder mit Stichwörtern, die mit den Stichwörtern in der Abfrage und/oder Bildern mit ähnlichen Grundmerkmalen, wie beispielsweise Farbe, Struktur und Form übereinstimmen. Das System sortiert die Bilder der Rangfolge nach und gibt sie an den Benutzer zurück.
Die Benutzerschnittstelle ermöglicht es dem Benutzer, sowohl Bilder zu identifizieren, die für die Abfrage relevanter sind, als auch Bilder, die weniger oder nicht relevant sind. Das Bildrecherchesystem überwacht das Benutzer-Feedback und verwendet es zum Verfeinern aller Suchbemühungen und um sich selbst für künftige Suchabfragen zu schulen.
In der beschriebenen Implementierung nimmt das Bildrecherchesystem eine nahtlose Integration von merkmalsbasiertem Relevanz-Feedback und semantikbasiertem Relevanz-Feedback vor. Mit merkmalsbasiertem Relevanz-Feedback lernt das System, wel che Grundmerkmale zu relevanten Bildern führen, und gruppiert solche Merkmale zusammen, um künftige Suchvorgänge zu unterstützen.
Mit semantikbasiertem Relevanz-Feedback lernt das Bildrecherchesystem, welche Stichwörter mit den relevanten Bildern identifiziert werden, und verstärkt die Verbindungen zwischen den Stichwörtern und Bildern. Insbesondere werden die Bilder und Stichwörter in einer Datenbank verwaltet, und um Verbindungen zwischen den Stichwörtern und Bildern zu definieren, wird auf der Bilddatenbank ein semantisches Netzwerk aufgebaut und aktualisiert, wenn Benutzer-Feedbacks bereitgestellt werden. Den Stichwort-Bild-Verbindungen werden Gewichtungen zugewiesen, um anzugeben, wie relevant das Stichwort für das Bild ist. Die Gewichtungen werden dem Benutzer-Feedback entsprechend angepasst, wodurch die Verbindungen zwischen Stichwörtern und Bildern, die als relevanter identifiziert worden sind, verstärkt werden, und die Verbindungen zwischen Stichwörtern und Bildern, die als weniger relevant identifiziert worden sind, abgeschwächt werden.
1 ist ein Blockschaltbild eines beispielhaften Computer-Netzwerks, in dem ein Server-Computer ein Bildrecherchesystem implementiert, auf das über ein Netzwerk von einem oder mehreren Client-Computern zugegriffen werden kann.
2 ist ein Blockschaltbild der Architektur des Bildrecherchesystems.
3 veranschaulicht ein Semantik-Netzwerk, das Beziehungen zwischen Stichwörtern und Bildern darstellt.
4 ist ein Ablaufdiagramm eines Erstabfrage-Verarbeitungsprozesses, in dem ein Benutzer erstmals eine Stichwortabfrage für ein Bild vorlegt.
5 ist ein Ablaufdiagramm eines Verfeinerungs- und Lernprozesses, in dem das Bildrecherchesystem aus dem dazugehörigen Benutzer-Feedback lernt, wie relevant die Bilder für die Erstabfrage sind.
6 veranschaulicht eine erste Bildschirmansicht einer Benutzerschnittstelle für das Bildrecherchesystem.
7 veranschaulicht eine zweite Bildschirmansicht der Benutzerschnittstelle für das Bildrecherchesystem.
Diese Offenbarung beschreibt ein Bildrecherchesystem, das sowohl eine stichwortbasierte als auch inhaltsbasierte Bildrecherche durchführt. Das System nimmt eine nahtlose Integration von merkmalsbasiertem Relevanz-Feedback und semantikbasiertem Relevanz-Feedback vor. Das Bildrecherchesystem unterstützt auch ein Semantik-Netzwerk, das auf einer Bilddatenbank aufgebaut ist, um Stichwörter mit Bildern zu verbinden, und arbeitet mit Maschinenlernen (machine learning), um das Semantik-Netzwerk basierend auf dem Benutzer-Feedback anzupassen.
Die Bildrecherche-Architektur wird im Kontext eines internetbasierten Systems beschrieben, in dem ein Server das Bildrecherchesystem betreibt, und Clients Benutzerabfragen an den Server weiterleiten. Die Architektur kann jedoch in anderen Umgebungen implementiert werden. Zum Beispiel kann die Bildrecherche-Architektur in nicht-internetbasierten Client-Server-Systemen oder auf einem nicht-vernetzten Computersystem implementiert werden.
Beispielhafte Rechenumgebung
1 zeigt ein beispielhaftes Computer-Netzwerksystem 100, in welches das Bildrecherchesystem implementiert werden kann. Das Netzwerksystem 100 umfasst einen Client-Computer 102, der Abfragen an einen Server-Computer 104 über ein Netzwerk 106, wie beispielsweise das Internet, weiterleitet. Obwohl das Bildrecherchesystem unter Verwendung anderer Netzwerke implementiert werden kann, (z.B. Weitverkehrsnetz oder lokales Netzwerk), und nicht auf das Internet begrenzt werden soll, wird das System im Kontext des Internets als eine geeignete Implementierung beschrieben. Das webbasierte Recherchesystem ermöglicht es mehreren Benutzern, Rechercheaufgaben jederzeit gleichzeitig durchzuführen.
Der Client 102 ist repräsentativ für viele verschiedene Computer, (z.B. Desktop-Computer, Laptop-Computer usw.), Netzwerkgeräte, (z.B. Set-Top-Box (STB), Spielkonsole usw.) und dergleichen. Der Client 102 umfasst einen Prozessor 110, einen flüchtigen Speicher 112 (z.B. RAM) und einen nicht-flüchtigen Speicher 114 (z.B. ROM. Flash, Festplatte, Bildplatte usw.). Der Client 102 weist auch eine oder mehrere Eingabevorrichtungen 116 (z.B. Tastatur, Tastenfeld, Maus, Fernbedienung, Schreibnadel, Mikrofon usw.) und eine Anzeigevorrichtung 118 zum Anzeigen von Bildern auf, die von dem Bildrecherchesystem zurückgegeben werden.
Der Client 102 ist mit einem Browser 120 ausgestattet, der im nicht-flüchtigen Speicher 114 gespeichert ist und im Prozessor 110 ausgeführt wird. Der Browser leitet über das Netzwerk 106 Abfragen an den Server 104 weiter und empfängt Antworten von diesem. Zu Diskussionszwecken kann der Browser 120 als ein herkömmlicher Internet-Browser konfiguriert werden, der Dokumente empfangen und wiedergeben kann, die in einer Auszeichnungssprache geschrieben sind, wie beispielsweise HTML (Hypertext Markup Language). Der Browser kann des Weiteren zum Darstellen der Bilder auf der Anzeigevorrichtung 118 verwendet werden.
Der Server 104 ist repräsentativ für viele verschiedene Server-Umgebungen, einschließlich eines Servers für ein lokales Netzwerk oder ein Weltverkehrsnetz, ein Backend für einen derartigen Server oder einen Web-Server. In dieser letzteren Umgebung eines Web-Servers kann der Server 104 als einer oder mehrere Computer implementiert werden, die mit einer Server-Software konfiguriert sind, um eine Site im Internet 106, wie beispielsweise eine Web-Site, zum Suchen zu betreiben.
Der Server 104 weist einen Prozessor 130, einen flüchtigen Speicher 132 (z.B. RAM) und einen nicht-flüchtigen Speicher 134 (z.B. ROM, Flash, Festplatte, Bildplatte, RAID-Speicher usw.) auf. Der Server 104 betreibt ein Betriebssystem 136 und ein Bildrecherchesystem 140. Zu Veranschaulichungszwecken sind das Betriebssystem 136 und das Bildrecherchesystem 140 als diskrete Blöcke dargestellt, die in dem nicht-flüchtigen Speicher 134 gespeichert sind, obwohl anerkannt wird, dass solche Programme und Komponenten zu verschiedenen Zeiten in verschiedenen Speicherkomponenten des Servers 104 resident sind und von dem Prozessor 130 ausgeführt werden. Im Allgemeinen sind diese Software-Komponenten im nicht-flüchtigen Speicher 134 gespeichert und werden von da aus für die Ausführung auf dem Prozessor 130 wenigstens teilweise in den flüchtigen Hauptspeicher 132 geladen.
Das Bildrecherchesystem 140 sucht nach Bildern, die in der Bilddatenbank 142 gespeichert sind. Das Bildrecherchesystem 140 umfasst einen Abfrage-Handler 150, eine Merkmals- und Semantik-Abgleicheinrichtung 152 und eine Feedback-Analysiereinrichtung 154.
Der Abfrage-Handler 150 bearbeitet Abfragen, die vom Client 102 empfangen werden. Die Abfragen können in Form von Abfragen in natürlicher Sprache, Einzelwortabfragen oder Bildabfragen vorliegen, die Grundmerkmale eines Beispielbilds enthaften, das die Grundlage der Suche bildet. Abhängig vom Abfragetyp initiiert der Abfrage-Handler 150 eine stichwort- oder merkmalsbasierte Suche in der Bilddatenbank 142.
Die Merkmals- und Semantik-Abgleicheinrichtung 152 versucht Bilder in der Datenbank 142 zu finden, die Grundmerkmale enthalten, die dem Beispielbild ähnlich sind und/oder zugehörige Stichwörter aufweisen, die mit Stichwörtern in der Benutzerabfrage übereinstimmen. Die Merkmals- und Semantik-Abgleicheinrichtung 152 verwendet ein Semantik-Netzwerk, um Bilder mit ähnlichen Stichwörtern ausfindig zu machen. Das Semantik-Netzwerk definiert Verbindungen zwischen den Stichwörtern und Bildern. Den Verbindungen werden Gewichtungen zugewiesen, um anzugeben, wie relevant gewisse Stichwörter für die Bilder sind. Ein beispielhaftes Semantik-Netzwerk wird im Folgenden ausführlicher unter Bezugnahme auf 3 beschreiben.
Die Merkmals- und Semantik-Abgleicheinrichtung 152 ordnet die Bilder ihrer Relevanz für die Abfrage entsprechend nach ihrem Rang ein und gibt die Bilder in der Rangreihenfolge zur Überprüfung durch den Benutzer zurück. Über eine Benutzerschnittstelle kann der Benutzer einzelne Bilder als für die Abfrage relevanter oder als weniger oder nicht relevant für die Abfrage kennzeichnen oder andennreitig identifizieren.
Die Feedback-Analysiereinrichtung 154 überwacht das Benutzer-Feedback und analysiert, welche Bilder als für die Suche relevant erachtet werden und welche nicht. Die Feedback-Analysiereinrichtung 154 verwendet das Relevanz-Feedback, um das Semantik-Netzwerk in der Bilddatenbank zu schulen. Zum Beispiel kann die Feedback-Analysiereinrichtung 154 die Kommentare zu relevanten Bilden modifizieren, damit sie den Stichwörtern in der Suchabfrage besser entsprechen. Die Analysiereinrichtung 154 kann auch die Gewichtungen des Semantik-Netzwerks durch Verstärken der Verbindun gen zwischen Stichwörtern der Suchabfrage und relevanten Bildern und Abschwächen der Verbindungen zwischen Stichwörtern und nicht-relevanten Bildern anpassen.
Dementsprechend nimmt das Bildrecherchesystem eine nahtlose lntegration von inhaltsbasierter Bildrecherche (CBIR) und semantikbasierter Bildrecherche vor. Das System integriert auch semantik- und merkmalsbasiertes Relevanz-Feedback. Das System weist enorme Vorteile hinsichtlich Recherchegenauigkeit und Benutzerfreundlichkeit auf.
Architektur des Bildrecherchesystems
2 veranschaulicht die Architektur des Bildrecherchesystems 140 ausführlicher. Sie weist eine Benutzerschnittstelle (UI) 200 auf, die sowohl textbasierte Stichwortabfragen oder Abfragen in natürlicher Sprache und die Auswahl von Beispielbildern akzeptiert. Somit kann ein Benutzer wählen, ob er Wörter eingibt oder ein Beispielbild auswählt, das als erste Suchabfrage verwendet werden soll. Die UI 200 stellt auch Navigationswerkzeuge bereit, um es dem Benutzer zu ermöglichen, mehrere Bilder zu durchsuchen. Im Netzwerksystem von 1 kann die UI 200 als HTML-Dokument bedient und auf der Client-Anzeige wiedergegeben werden. Eine beispielhafte Implementierung der Benutzerschnittstelle 200 wird im Folgenden ausführlicher unter der Überschrift "Benutzerschnittstelle" beschrieben.
Die Abfrage wird an den Abfrage-Handler 150 übergeben. In der veranschaulichten Implementierung umfasst der Abfrage-Handler 150 einen Parser 202 für natürliche Sprache zum Parsen von textbasierten Abfragen, wie beispielsweise Stichwörter, Phrasen und Sätze. Der Parser 202 ist so konfiguriert, dass er Stichwörter aus der Abfrage extrahiert und syntaktische und semantische Informationen aus Abfragen in natürlicher Sprache verwenden kann, um Stichwörter besser zu verstehen und zu identifizieren. Die analysierten Ergebnisse werden als Eingabe in das Semantik-Netzwerk verwendet, das Stichwörter mit Bilder in der Datenbank 142 verbindet.
3 stellt ein Semantik-Netzwerk 300 bildlich dar. Das Netzwerk definiert Stichwort-Bild-Verknüpfungen, die Stichwörter 302(1), 203(2), ..., 302(N) mit Bildern 304(1), 304(2), 304(3), ..., 304(M) in der Datenbank 142 verbinden. Die Stichwort-Bild-Verknüpfungen sind als Pfeile dargestellt. Gewichtungen w sind jeder einzelnen Verknüp fung zugewiesen, um den Grad an Relevanz darzustellen, mit dem ein Stichwort den semantischen Inhalt des verknüpften Bildes beschreibt. Zum Beispiel ist das erste Stichwort 302(1) mit drei Bildern 304(1) – 304(3) verbunden, und der Verbindung mit dem ersten Bild 304(1) ist eine Gewichtung w₁₁ zugewiesen, der Verbindung mit dem zweiten Bild 304(2) ist eine Gewichtung w₁₂ zugewiesen, und der Verbindung mit dem dritten Bild 304(3) ist eine Gewichtung w₁₃ zugewiesen.
Es kann sein, dass Stichwort-Bild-Verbindungen zu Beginn nicht verfügbar sind. Es gibt jedoch mehrere Möglichkeiten, solche Verbindungen zu erhalten. Das erste Verfahren ist, Bilder einfach manuell zu kennzeichnen und der Stichwort-Bild-Verknüpfung eine starke Gewichtung zuzuweisen. Dieses Verfahren kann teuer und zeitaufwändig sein.
Um die Kosten der manuellen Kennzeichnung zu reduzieren, kann ein automatischer Ansatz verwendet werden. Ein möglicher Ansatz ist, das Internet und seine zahllosen Nutzer wirkungsvoll einzusetzen, indem ein Crawler implementiert wird, der verschiedene Web-Sites besucht und Bilder herunterlädt. Die zu dem Bild zugehörigen Daten, wie beispielsweise der Dateiname und die ALT-Tag-Zeichenfolge innerhalb der IMAGE-Tags der HTML-Dateien werden als Stichwörter gespeichert und dem heruntergeladenen Bild zugeordnet. Außerdem können die Verknüpfungszeichenfolge und der Titel der Seite irgendwie mit dem Bild in Beziehung stehen und daher als mögliche Stichwörter verwendet werden. Diesen Stichwort-Bild-Verknüpfungen werden dann ihrer Relevanz entsprechend Gewichtungen zugewiesen. Diese Informationen werden heuristisch in absteigender Rangfolge der Relevanz aufgelistet: (1) Verknüpfungszeichenfolge, (2) ALT-Tag-Zeichenfolge; (3) Dateiname und (4) Titel der Seite.
Ein weiterer Ansatz zum Integrieren von zusätzlichen Stichwörtern in das System besteht darin, die vom Benutzer eingegebenen Abfragen zu verwenden. Sobald der Benutzer für eine Gruppe von Bildern, die als für die Abfrage relevant gekennzeichnet sind, ein Feedback abgibt, werden die eingegebenen Stichwörter im System hinzugefügt und mit den Bildern in der Gruppe verknüpft. Da der Benutzer außerdem angibt, dass diese Bilder relevant sind, kann jeder der neu erstellten Verknüpfungen eine große Gewichtung zugewiesen werden. Dieser letztere Ansatz wird im Folgenden ausführlicher unter Bezugnahme auf 5 beschrieben.
Unter erneuter Bezugnahme auf 2 kann eine Situation eintreten, in der der Benutzer keine Textabfrage eingeben möchte. Stattdessen ist der Benutzer daran interessiert, ein Beispielbild auszuwählen und nach ähnlichen Bildern zu suchen. Um dieses Szenario aufzunehmen, gibt die Benutzerschnittstelle 200 eine Gruppe von Bildkategorien an, aus denen der Benutzer auswählen kann. Nach dem Auswählen einer Kategorie gibt das Bildrecherchesystem eine Beispielgruppe von Bildern zurück, die zu der Kategorie gehören.
Das Bildrecherchesystem nimmt dieses Szenario mit einer vordefinierten Konzepthierarchie 204 im Abfrage-Handler 150 auf. Die ausgewählte Kategorie wird an die Konzepthierarchie 204 übergeben, die Bilder der ersten Ebene, die der Kategorie entsprechen, aus der Bilddatenbank 142 identifiziert. Aus den Beispielbildern kann der Benutzer ein Bild als das Beispielbild identifizieren, Die Grundmerkmale des Beispielbilds werden dann verwendet, um eine inhaltsbasierte Bildrechercheoperation zu initiieren.
Die Merkmals- und Semantik-Abgleicheinrichtung 152 identifiziert Bilder in der Bilddatenbank 142, die mit der Benutzerabfrage verbundene Stichwörter aufweisen und/oder Grundmerkmale enthalten, die dem Beispielbild ähnlich sind. Die Merkmals- und Semantik-Abgleicheinrichtung 152 enthält eine Bildmerkmals-Extraktionseinrichtung 210, die Grundmerkmale aus den Kandidatenbildern in der Bilddatenbank 142 extrahiert. Solche Grundmerkmale umfassen Farbhistogramm. Struktur, Form und so weiter. Die Merkmals-Extraktionseinrichtung 210 übergibt Merkmale an eine Bildmerkmals-Abgleicheinrichtung 212, um die Grundmerkmale der Kandidatenbilder mit den Grundmerkmalen des Beispielbilds abzugleichen, das vom Benutzer weitergeleitet wurde. Kandidatenbilder mit ähnlicheren Merkmalen wird ein höherer Rang zugewiesen.
Für Textabfragen weist die Merkmals- und Semantik-Abgleicheinrichtung 152 eine Semantik-Abgleicheinrichtung 212 auf, um Bilder mit dazugehörigen Stichwörtern zu identifizieren, die mit den Stichwörtern aus der Abfrage übereinstimmen. Die Semantik-Abgleicheinrichtung 214 verwendet das Semantik-Netzwerk, um diese Bilder mit Verknüpfungen zu den Such-Stichwörtern ausfindig zu machen. Kandidatenbilder mit höher gewichteten Verknüpfungen wird ein höherer Rang zugewiesen.
Ein Ranking-Modul 216 weist den Bildern Rangfolgen so zu, dass die Bilder mit dem höchsten Rang als die bevorzugte Ergebnisse-Gruppe an den Benutzer zurückgegeben werden. Das Ranking berücksichtigt die Gewichtungen, die den Stichwort-Bild-Verknüpfungen zugewiesen worden sind, sowie die Merkmalsnähe zwischen zwei Bildern. Die Gruppe der Bilder mit dem höchsten Rang wird zur Benutzerschnittstelle 200 zurückgegeben und für den Benutzer zur Ansicht dargestellt.
Die Benutzerschnittstelle 200 gestattet es dem Benutzer, Bilder als mehr oder weniger relevant oder völlig irrelevant zu kennzeichnen. Die Feedback-Analysiereinrichtung 154 überwacht dieses Benutzer-Feedback. Eine Relevanz-Feedback-Überwachung 220 verfolgt das Feedback und führt sowohl semantikbasiertes Relevanz-Feedback als auch grundmerkmalsbasiertes Relevanz-Feedback integriert durch. Im Allgemeinen gleicht die Relevanz-Feedback-Überwachung 220 die Gewichtungen ab, die den Stichwort-Bild-Verknüpfungen zugewiesen sind, um das semantikbasierte Recherchemodell zu schulen, und verwendet Abfragepunktverschiebungs- oder Neugewichtungs-Techniken, um das merkmalsbasierte Recherchemodell zu verbessern. Die Feedback-Analysiereinrichtung 154 implementiert einen Maschinenlernalgorithmus 222 (machine learning algorithm), um das Semantik-Netzwerk und/oder Bilder in der Datenbank gemäß dem Relevanz-Feedback abzugleichen. Eine besondere Implementierung eines integrierten Bezugssystems für semantikbasiertes Relevanz-Feedback und merkmalsbasiertes Relevanz-Feedback wird im Folgenden ausführlicher unter der Überschrift "Integriertes Bezugssystem für Relevanz-Feedback" beschrieben.
Das Bildrecherchesystem 140 bietet viele Vorteile gegenüber herkömmlichen Systemen. Erstens macht es Bilder unter Verwendung von Stichwörtern und Grundmerkmalen ausfindig, wobei eine Integration von stichwortbasierter Bildrecherche und inhaltsbasierter Bildrecherche vorgenommen wird. Zusätzlich werden sowohl semantikbasiertes Relevanz-Feedback als auch merkmalsbasiertes Relevanz-Feedback integriert.
Bildrechercheprozess
4 und 5 zeigen einen Bildrechercheprozess, der von dem Bildrecherchesystem 140 von 2 implementiert wird. Der Prozess erfordert eine erste Phase zum Produzieren einer Bildergebnisgruppe aus einer Erstabfrage (4) und eine zweite Phase zum Ver feinern der Ergebnisgruppe und Lernen aus den Ergebnissen und dem Benutzer-Feedback (5). In einer Implementierung wird der Bildrechercheprozess als computerausführbare Anweisungen implementiert, die, wenn sie ausgeführt werden, die Operationen durchführen, die als Blöcke in 4 und 5 veranschaulicht sind.
In einer Implementierung setzt der Prozess voraus, dass eine grobe Konzepthierarchie der verfügbaren Bilder vorhanden ist, obwohl diese Voraussetzung nicht notwendig ist. Zum Beispiel können Bilder von Personen grob als "Leute" und spezifischer als "Männer" und "Frauen" kommentiert werden. Außerdem können die Grundmerkmale der Bilder in der Bilddatenbank 142 offline berechnet und mit den Bildern über eine Datenstruktur korreliert werden. Damit wird jede potenzielle Verlangsamung beseitigt, die durch Berechnen von Grundmerkmalen während des Bildrechercheprozesses verursacht wird.
Am Block 402 empfängt das Bildrecherchesystem 140 eine Erstabfrage, die von einem Benutzer über die Benutzerschnittstelle 200 weitergeleitet wird. Angenommen, der Benutzer gibt eine Suchabfrage ein, um Bilder von "Tigern" ausfindig zu machen. Der Benutzer kann irgendeine der folgenden Abfragen eingeben:
"Tiger"
"Tigerfotos"
"Fotos von Tigern suchen"
"Ich suche nach Bildern von Tigern."
Am Block 404 analysiert der Abfrage-Handler 150 die Benutzerabfrage, um ein oder mehrere Stichwörter zu extrahieren. In unserem Beispiel kann das Stichwort "Tiger" aus jeder der Abfragen extrahiert werden. Andere Wörter, wie beispielsweise "Fotos" oder "Bilder" können ebenfalls extrahiert werden, aber zu Veranschaulichungszwecken konzentrieren wir uns auf das Stichwort "Tiger".
Am Block 406 durchsucht das Bildrecherchesystem 140 die Bilddatenbank 142, um Bilder zu identifizieren, die mit dem Stichwort "Tiger" kommentiert sind. Das System kann gleichzeitig auch nach ähnlichen Wörtern suchen (z.B. Katze, Tier usw.). Wenn irgendwelche Bilder in der Datenbank eine Zuordnungsverknüpfung mit dem Stichwort aufwei sen, (d.h. die Abzweigung "Ja" vom Block 408), werden solche Bilder in einen Ergebnisblock gestellt (Block 410). Die Bilder in der Ergebnisgruppe werden dann der Reihenfolge nach entsprechend den Gewichtungen sortiert, die den Stichwort-Bild-Verknüpfungen in dem Semantik-Netzwerk zugewiesen worden sind (Block 410). Wenn eine Gruppe von Bildern identifiziert worden ist, die mit dem Stichwort übereinstimmen, kann die Merkmals- und Semantik-Abgleicheinrichtung 152 auch versuchen, andere Bilder mit ähnlichen Grundmerkmalen wie denjenigen in der Ergebnisgruppe zu suchen (Block 414). Alle solchen Bilder werden dann der Ergebnisgruppe hinzugefügt. Die erweiterte Ergebnisgruppe wird dem Benutzer dann über die Benutzerschnittelle 200 angezeigt (Block 416).
Zu bemerken ist, dass, obwohl solche zusätzlichen Bilder anderen Bildern in der ursprünglichen Ergebnisgruppe ähnlich sein können, gewisse, über den Vergleich der Grundmerkmale entdeckte Bilder nichts mit dem Such-Stichwort zu tun haben können. Das heißt, die Operation 414 kann Bilder zurückgeben, die der Farbe oder Struktur eines anderen Bilds mit einem Tiger ähnlich sind, aber nirgendwo in dem Bild eine Spur von einem Tiger aufweisen.
Wenn mit der ersten Stichwort-Suche keine Bilder ausfindig gemacht werden können, (d.h. die Abzweigung "Nein" vom Block 408), kehrt das Bildrecherchesystem 140 zum Block 408 zurück und ruft Bilder in einer ersten Ebene der Konzepthierarchie ab (Block 420). Diese Bilder können zufällig aus einer oder mehreren Kategorien in der Hierarchie ausgewählt werden. Die Bilder werden dem Benutzer angezeigt, um mögliche Beispielbilder vorzuschlagen (Block 422).
Nach der Erstabfrage kann das Bildrecherchesystem 140 die Ergebnisse und das Benutzer-Feedback verwenden, um die Suche zu verfeinern und das Recherchemodell zu schulen. Der Verfeinerungs- und Lernprozess ist in 5 veranschaulicht.
Am Block 502 überwacht die Feedback-Analysiereinrichtung 154 das Benutzer-Feedback auf die Bilder in der Ergebnisgruppe. Der Benutzer kann eines oder mehrere Bilder als für die Suchabfrage relevant kennzeichnen oder anderweitig angeben. Dies kann zum Beispiel über einen Benutzerschnittstellen-Mechanismus erfolgen, in dem der Benutzer jedes Bild bewertet und (z.B. durch eine Mausklick-Operation) eine positive Mar kierung oder eine negative Markierung aktiviert, die mit dem Bild verbunden ist. Die positive Markierung gibt an, dass das Bild für die Suche relevanter ist, wogegen die negative Markierung angibt, dass das Bild weniger oder nicht relevant für die Suche ist.
Aus den Ergebnissen kann der Benutzer gewisse Bilder ersehen, die er als für die Suche relevant erachtet, und die Bilder auswählen, um eine gewünschte Gruppe zu produzieren (d.h. die Abzweigung "Ja" vom Block 504). In dieser Situation sind die Stichwörter in der ursprünglichen Abfrage mit den benutzergewählten Bildern verbunden, und der Zuordnungsverknüpfung wird eine große Gewichtung zugewiesen (Block 506). Der Verknüpfung wird eine große Gewichtung zugewiesen, weil eine höhere Konfidenz besteht, dass die Suche akkurat ist, wenn Stichwörter höchster Ebene zum Identifizieren von Bildern verwendet werden. In einer Implementierung sind die Gewichtungen zusätzlich. Somit Kann einer ersten Verknüpfung ein Wert von "1" zugewiesen werden, um eine Verbindung anzugeben. Wenn das Stichwort anschließend über Suchen mit dem Bild verbunden wird, kann die Gewichtung um "1" inkrementiert werden, so dass die Gewichtung mit der Zeit an Stärke zunimmt.
Am Block 508 werden ähnliche Grundmerkmale, die mit diesen Bildern korreliert sind, umstrukturiert, um im Merkmalsraum näher beieinander zu liegen. Für anschließende Suchvorgänge versteht das System dann die Absicht des Benutzers in Bezug auf gewisse Bilder bei Vorgabe des gleichen Stichworts besser.
Wenn der Benutzer keine Gruppe von Bildern sieht, die für die Suchabfrage relevant sind, (d.h. die Abzweigung "Nein" vom Block 504), kann der Benutzer ein Beispielbild wählen und die Suche verfeinern, um andere Bilder ausfindig zu machen, die ähnliche Merkmale wie diejenigen des gewählten Bilds aufweisen (Block 510). Wenn ein Beispielbild gewählt wird, (d.h. die Abzweigung "Ja" vom Block 510), werden die Stichwörter in der ursprünglichen Abfrage mit den benutzergewählten Bildern verbunden, und der Zuordnungsverknüpfung wird eine kleine Gewichtung zugewiesen (Block 512). Eine kleine Gewichtung wird der Verknüpfung zugewiesen, weil eine geringere Konfidenz besteht, dass Bildähnlichkeiten auf unterer Ebene ein ebenso akkurates Ergebnis produzieren wie das Ergebnis, das durch Stichwort-Übereinstimmungen produziert wird.
In Reaktion auf die Benutzerauswahl eines Beispielbilds zur Verfeinerung versucht der Abfrage-Handler 150, andere repräsentative Bilder in der nächsten Ebene der Konzepthierarchie zu finden (Block 514). Die Merkmals- und Semantik-Abgleicheinrichtung 152 versucht ebenfalls, Bilder ausfindig zu machen, die ähnliche Grundmerkmale wie das vom Benutzer gewählte Bild aufweisen (Block 516). Die sich daraus ergebende Gruppe von Bildern wird dem Benutzer dann angezeigt (Block 518).
Der Block 520 berücksichtigt die Situation, in der weder die ursprüngliche Abfrage irgendwelche relevanten Bilder zurückgegeben noch der Benutzer ein Bild zum Verfeinern der Suche gefunden hat. In dieser Situation gibt das Bildrecherchesystem Bilder in der Datenbank einfach seitenweise aus, um dem Benutzer ein Durchsuchen und Auswählen der relevanten Bilder für ein Feedback in das System zu gestatten.
Benutzerschnittstelle
Das Bildrecherchesystem 140 unterstützt drei Modi von Benutzer-Interaktion: stichwortbasierte Suche, Suche nach Beispielbildern und Durchsuchen der Bilddatenbank unter Verwendung einer vordefinierten Konzepthierarchie. Die Benutzerschnittstelle 200 nimmt diese drei Modi auf.
6 zeigt ein Beispiel einer Abfrage-Bildschirmanzeige 600, die von der Benutzerschnittstelle 200 für die Eingabe einer Erstabfrage angezeigt wird. Die Bildschirmanzeige 600 zeigt einen Texteingabebereich für natürliche Sprache 602 an, der dem Benutzer das Eingeben von Stichwörtern oder Phrasen ermöglicht. Nach der Eingabe von einem oder mehreren Stichwörtern betätigt der Benutzer eine Schaltfläche 604, mit der die Suche nach relevanten Bildern initiiert wird. Alternativ kann der Benutzer eine vordefinierte Konzepthierarchie durchsuchen, indem er eine der im Abschnitt 606 der Abfrage-Bildschirmanzeige 600 aufgelisteten Kategorien wählt. Der Benutzer aktiviert die Kategorieverknüpfung, um eine Suche nach Bildern innerhalb der Kategorie zu initiieren.
Die Ergebnisse der stichwort- oder inhaltsbasierten Bildrecherche werden in einer nächsten Bildschirmanzeige dargestellt. Zu Diskussionszwecken wird angenommen, dass der Benutzer das Stichwort "Tiger" in den Texteingabebereich 602 der Abfrage-Bildschirmanzeige 600 eingibt.
7 zeigt eine Beispielergebnis-Bildschirmanzeige 700, die in Reaktion auf die Eingabe des Stichworts "Tiger" dargestellt wird. Abhängig von der Anzeigegröße werden ein oder mehrere Bilder in der Ergebnis-Bildschirmanzeige 700 angezeigt. Hier werden sechs Bilder 702(1) – 702(6) gleichzeitig angezeigt. Wenn mehr Bilder vorhanden sind als gleichzeitig angezeigt werden können, werden die Navigationsschaltflächen "Weiter" und "Zurück" 704 angezeigt, um ein Durchsuchen der anderen Bilder in der Ergebnisgruppe zu ermöglichen.
Die Benutzerschnittstelle ermöglicht dem Benutzer ein Feedback von Relevanzinformationen beim Durchsuchen der Bilder. Für jedes Bild gibt es mehrere Feedback-Optionen. Zum Beispiel weist jedes Bild eine "Ansicht"-Verknüpfung 706 auf, die es dem Benutzer ermöglicht, das Bild zur besseren Ansicht zu vergrößern. Die Aktivierung der Verknüpfung "Ähnliche" 708 initiiert eine anschließende Abfrage von Bildern mit ähnlichem semantischen Inhalt und ähnlichen Grundmerkmalen wie das entsprechende Bild. Diese verfeinerte Suche wird in der nächsten Bildschirmanzeige dargestellt.
Des Weiteren weist jedes Bild sowohl positive als auch negative Relevanz-Markierungen auf, die vom Benutzer einzeln gewählt werden können. Die Relevanz-Markierungen ermöglichen es dem Benutzer, auf bildweiser Basis anzugeben, welche Bilder für die Suchabfrage relevanter sind und welche weniger relevant sind. Beispiele für solche Markierungen umfassen eine Kombination von "+" und "-' oder von "Daumen nach oben" und "Daumen nach unten" oder einen Wechsel der Hintergrundfarbe (z.B. bedeutet rot weniger relevant, blau bedeutet relevanter).
In 7 sind die Bilder 702(1), 702(2) und 702(5) mit einem blauen Hintergrund markiert, der eine positive Übereinstimmung angibt, dass diese Bilder tatsächlich Tiger darstellen. Die Bilder 702(4) und 702(6) haben einen roten Hintergrund, wodurch angegeben wird, dass sie mit der Abfrage "Tiger" nicht übereinstimmen. Bei genauem Hinsehen ist zu bemerken, dass diese Bilder Leoparden und keine Tiger enthalten. Das Bild 702(3) weist schließlich einen gradienten Hintergrund (weder positiv noch negativ auf) und wird im Relevanz-Feedback nicht berücksichtigt. Dieses Bild stellt einen Wolf dar, der tatsächlich keine Relevanz zu Tigern hat.
Nach der Bereitstellung eines relevanten Feedbacks aktiviert der Benutzer die Schaltfläche "Feedback" 701, um das Feedback zur Feedback-Analysiereinrichtung 154 weiterzuleiten. Der Lernvorgang beginnt an diesem Punkt, um den Bildrechercheprozess für künftige Abfragen zu verbessern.
Integrierter Relevanz-Feedback-Rahmen
In diesem Abschnitt wird eine beispielhafte Implementierung zum Integrieren von semantikbasiertem Relevanz-Feedback in grundmerkmalsbasiertes Relevanz-Feedback beschrieben. Semantikbasiertes Relevanz-Feedback kann relativ einfach durchgeführt werden im Vergleich zur grundmerkmalsbasierten Entsprechung. Zuerst wird eine beispielhafte Implementierung eines semantikbasierten Relevanz-Feedbacks beschrieben, gefolgt von der Art und Weise, wie dieses Feedback in das grundmerkmalsbasierte Relevanz-Feedback integriert werden kann.
Für ein semantikbasiertes Relevanz-Feedback wird ein Abstimmungsschema verwendet, um die Gewichtungen w_ij zu aktualisieren, die mit jeder Verknüpfung in dem Semantik-Netzwerk 300 verbunden sind (3). Der Gewichtungs-Aktualisierungsprozess wird im Folgenden beschrieben.

Schritt 1:: Alle Gewichtungen w_ij auf 1 initialisieren. Das bedeutet, jedem Stichwort wird anfänglich die gleiche Wichtigkeit verliehen.
Schritt 2:: Benutzerabfrage und die positiven und negativen Feedback-Beispiele sammeln.
Schritt 3:: Für jedes Stichwort in der eingegebenen Abfrage prüfen, ob irgendeines davon sich nicht in der Stichwort-Datenbank befindet. Ist dies der Fall, das bzw. die Stichwörter der Datenbank hinzufügen, ohne irgendwelchen Verknüpfungen zu erstellen.
Schritt 4:: Für jedes positive Beispiel prüfen, ob irgendein Abfrage-Stichwort nicht damit verknüpft ist. Ist dies der Fall, eine Verknüpfung mit der Gewichtung "1" aus jedem fehlenden Stichwort für dieses Bild erstellen. Für alle anderen Stich wörter, die bereits mit diesem Bild verknüpft sind, die Gewichtung um "1" inkrementieren.
Schritt 5:: Für jedes negative Beispiel prüfen, ob irgendein Abfrage-Stichwort damit verknüpft ist. Ist dies der Fall, die neue Gewichtung auf w_ij = w_ij/4 setzen. Wenn die Gewichtung w_ij auf irgendeiner Verknüpfung kleiner als 1 ist, diese Verknüpfung löschen.

Es ist leicht erkennbar, dass das System mit zunehmender Eingabe von Abfragen sein Vokabular erweitern kann. Durch diesen Abstimmungsprozess werden Stichwörtern, die den tatsächlichen semantischen Inhalt jedes Bilds darstellen, des Weiteren größere Gewichtungen zugewiesen. Es sollte jedoch angemerkt werden, dass das oben genannte Gewichtungs-Aktualisierungsschema nur eines von vielen sinnvollen ist.
Wie vorher angemerkt, stellt die Gewichtung w_ij, die mit jeder Stichwort-Bild-Verknüpfung verbunden ist, den Grad der Relevanz dar, in der dieses Stichwort den semantischen Inhalt des verknüpften Bilds beschreibt. Zu Recherchezwecken besteht eine andere Überlegung darin, gewisse Stichwörter zu vermeiden, die mit einer großen Anzahl von Bildern in der Datenbank verbunden sind. Die Stichwörter mit vielen Verknüpfungen zu vielen Bildern sollen benachteiligt werden. Daher lässt sich ein Relevanzfaktor r_k der k-ten Stichwort-Verbindung wie folgt berechnen:
wobei M die Gesamtanzahl von Bildern in der Datenbank ist, w_k = w_mn ist, wenn m = i und anderenfalls 0 ist, und d_i die Anzahl von Verknüpfungen ist, die das i-te Stichwort aufweist.
Jetzt muss das oben genannte semantikbasierte Relevanz-Feedback in das merkmalsbasierte Relevanz-Feedback integriert werden. Aus früheren Forschungen ist bekannt, (siehe Rui, Y., Huang, T.S., "A Novel Relevance Feedback Technique in Image Retrieval", ACM Multimedia, 1999), dass der ideale Abfragevektor q_i* für das Merkmal i der gewichtete Mittelwert der Schulungsbeispiele für das Merkmal i ist, angegeben durch:
wobei X_i die NxK_i Schulungsbeispiel-Matrix für das Merkmal i ist, das durch Stapeln der N Schulungsvektoren x_ni in eine Matrix erhalten wird, und wobei N ein Elementvektor π = [π₁, ..., π_N] ist, der den Grad der Relevanz für jedes der N eingegebenen Schulungsbeispiele ist. Die optimale Gewichtungsmatrix W_i* wird angegeben durch:
wobei C_i die gewichtete Kovarianz-Matrix von X_i ist. Das heißt:
Die kritischen Eingaben in das System sind x_ni und π. Zuerst gibt der Benutzer diese Daten in das System ein. Der erste Schritt kann jedoch vermieden werden, indem diese ersten Daten automatisch für das System bereitgestellt werden. Dies erfolgt, indem das Semantik-Netzwerk nach Stichwörtern durchsucht wird, die in der eingegebenen Abfrage erscheinen. Von diesen Stichwörtern aus folgt das System den Verknüpfungen, um die Gruppe von Schulungsbildern zu erhalten (doppelte Bilder werden entfernt). Die Vektoren x_ni können leicht aus der Schulungsgruppe berechnet werden. Der Grad des Relevanzvektors π wird wie folgt berechnet:
wobei M die Anzahl der Abfrage-Stichwörter ist, die mit dem Schulungsbild i verknüpft sind, r_jk der Relevanzfaktor des j-ten Stichworts ist, das mit dem Bild i verbunden ist, und α > 1 eine geeignet Konstante ist. Der Grad der Relevanz des i-ten Bilds erhöht sich ex ponenziell zu der Anzahl von damit verknüpften Stichwörtern. In der einen Implementierung ergab eine experimentell bestimmte Einstellung von α = 2,5 die besten Ergebnisse.
Zum Integrieren des grundmerkmalsbasierten Feedbacks und der Ranking-Ergebnisse in das Semantik-Feedback und Ranking der höchsten Ebene wird eine vereinheitlichte metrische Abstandsfunktion G_j definiert, um die Relevanz jedes Bilds j innerhalb der Datenbank hinsichtlich des Semantik- und Grundmerkmal-Inhalts zu messen. Die Funktion G; wird unter Verwendung einer modifizierten Form der Rocchio-Formel (siehe Allgemeiner Stand der Technik) wie folgt modifiziert:
wobei D; ein Abstands-Score ist, das durch der Grund-Feedback berechnet wird, N_R und N_N jeweils die Anzahl von positiven und negativen Feedbacks sind, I₁ die Anzahl der eindeutigen Stichwörter ist, die das Bild j und alle Bilder mit positivem Feedback gemeinsam haben, I₂ die Anzahl der eindeutigen Stichwörter ist, die das Bild j und alle Bilder mit negativem Feedback gemeinsam haben, A₁ und A₂ die Gesamtanzahl von eindeutigen Stichwörtern sind, die jeweils mit allen Bildern mit positivem und negativem Feedback verbunden sind, und schließlich S_ij der euklidische Abstand der Grundmerkmale zwischen den Bildern i und j ist.
Der erste Parameter α in der Rocchio-Formel wird durch den Logarithmus des Grads der Relevanz des j-ten Bilds ersetzt. Den zwei anderen Parametern β und γ kann der Einfachheit halber ein Wert von 1,0 zugewiesen werden. Es können jedoch auch andere Werte zugewiesen werden, um die Gewichtungsdifferenz zwischen den letzten zwei Ausdrücken hervorzuheben.
Unter Verwendung des oben beschriebenen Verfahrens wird das kombinierte Relevanz-Feedback wie folgt bereitgestellt.

Schritt 1:: Die Benutzer-Abfragestichwörter sammeln.
Schritt 2:: Das obige Verfahren zum Berechnen von x_ni und π verwenden und diese in die Komponente für Grundmerkmals-Relevanz-Feedback eingeben, um die ersten Abfrageergebnisse zu erhalten.
Schritt 3:: Positive und negative Feedbacks vom Benutzer sammeln.
Schritt 4:: Gewichtung in dem Semantik-Netzwerk gemäß dem 5-Schritte-Prozess aktualisieren, der vorher in diesem Abschnitt beschrieben worden ist.
Schritt 5:: Gewichtungen der grundmerkmalsbasierten Komponente aktualisieren.
Schritt 6:: x_ni und π berechnen und in die Komponente für Grund-Feedback eingeben. Die Werte von x_ni können vorher in einem Vorverarbeitungsschritt berechnet werden.
Schritt 7:: Ranking-Score für jedes Bild unter Verwendung der Gleichung 7 berechnen und Ergebnisse sortieren.
Schritt 8:: Neue Ergebnisse anzeigen und zu Schritt 3 zurückkehren.

Das Bildrecherchesystem weist insofern Verteile gegenüber Systemen des bisherigen Stands der Technik auf, als es aus dem Feedback des Benutzers sowohl in semantischer als auch merkmalsbasierter Weise lernt. Wenn keine Semantikinformationen verfügbar sind, kehrt der Prozess außerdem zum herkömmlichen merkmalsbasierten Relevanz-Feedback wie demjenigen zurück, das von Rui und Huang in dem oben zitierten "A Novel Relevance Feedback Technique in Image Retrieval" beschrieben worden ist.
Registrierung des neuen Bilds
Das Hinzufügen neuer Bilder in die Datenbank ist unter vielen Umständen ein sehr allgemeiner Vorgang. Bei Recherchesystemen, die nur auf Grund-Bildmerkmalen basieren, umfasst das Hinzufügen neuer Bilder einfach das Extrahieren verschiedener Merkmalsvektoren für die Gruppe neuer Bilder. Da das Recherchesystem jedoch Stichwörter zum Darstellen des semantischen Inhalts der Bilder verwendet, muss der Semantikinhalt der neuen Bilder entweder manuell oder automatisch gekennzeichnet werden. In diesem Abschnitt wird eine automatische Kennzeichnungstechnik beschrieben.
Die automatische Kenzeichnungstechnik umfasst das Schätzen des semantischen Inhalts der neuen Bilder unter Verwendung von Grundmerkmalen. Folgendes ist ein beispielhafter Prozess:

Schritt 1:: Für jede Kategorie in der Datenbank die repräsentativen Merkmalsvektoren berechnen, indem der Schwerpunkt aller Bilder in dieser Kategorie bestimmt wird.
Schritt 2:: Für jede Kategorie in der Datenbank die Gruppe der repräsentativen Stichwörter suchen, indem die Stichwort-Verbindung jedes Bilds in dieser Kategorie geprüft wird. Die N Spitzen-Stichwörter mit der größten Gewichtung, deren kombinierte Gewichtung einen vorher bestimmten Schwellenwert τ nicht überschreitet, werden ausgewählt und der Liste der repräsentativen Stichwörter hinzugefügt. Der Wert des Schwellenwerts τ wird auf 40% der Gesamtgewichtung gesetzt.
Schritt 3:: Für jedes neue Bild seinen Grundmerkmalsvektor mit den repräsentativen Merkmalsvektoren jeder Kategorie vergleichen. Die Bilder werden mit der Gruppe von repräsentativen Stichwörtern aus der am meisten übereinstimmenden Kategorie mit einer ersten Gewichtung von 1,0 auf jedem Stichwort gekennzeichnet.

Weil die Grundmerkmale nicht ausreichend sind, um die Semantik der Bilder darzustellen, ist es unvermeidlich, dass einige oder sogar alle der automatisch gekennzeichneten Stichwörter ungenau sind. Durch Benutzerabfragen und -Feedbacks bilden sich jedoch akkurate Stichwörter heraus, wogegen semantisch ungenaue Stichwörter langsam beseitigt werden.
Ein weiteres Problem in Bezug auf die automatische Kennzeichnung von neuen Bildern ist die automatische Klassifizierung dieser Bilder in vordefinierte Kategorien. Diese Problem wird durch den folgenden Prozess behandelt:

Schritt 1:: Automatisch gekennzeichnete neue Bilder in eine spezielle "unbekannte" Kategorie setzen.
Schritt 2:: Jedes Bild in dieser Kategorie in regelmäßigen Intervallen prüfen, um zu sehen, ob irgendeine Stichwort-Verbindung eine größere Gewichtung als einen Schwellenwert ξ empfangen hat. Ist dies der Fall, die N Spitzen-Stichwörter extrahieren, deren kombinierte Gewichtung den Schwellenwert τ nicht überschreitet.
Schritt 3:: Für jedes Bild mit extrahierten Stichwörtern die extrahierten Stichwörter mit der Liste der repäsentativen Stichwörter aus jeder Kategorie vergleichen. Jedem Bild die am meisten übereinstimmende Kategorie zuweisen. Wenn keine der verfügbaren Kategorien zu einer sinnvollen Übereinstimmung führt, dieses Bild in der "unbekannten" Kategorie belassen.

Die Stichwortlisten-Vergleichsfunktion, die in Schritt 3 des obigen Algorithmus verwendet wird, kann mehrere Formen annehmen. Eine ideale Funktion würde die semantische Beziehung von Stichwörtern in einer Liste zu denjenigen der anderen Liste berücksichtigen. Aus Gründen der Einfachheit prüft eine Schnellfunktion jedoch nur, ob Stichwörter aus der Liste der extrahierten Stichwörter in der Liste repräsentativer Stichwörter vorhanden sind.

Claims

Verfahren, das umfasst: Auslösen einer Suche nach Bildern auf Basis wenigstens eines Abfrage-Stichwortes in einer Abfrage; während der Suche Identifizieren erster Bilder (304) mit damit verbundenen Stichwörtern (302), die dem wenigstens einen Abfrage-Stichwort entsprechen, und zweiter Bilder (304), die Grundmerkmale enthalten, die denen der ersten Bilder (304) gleichen; integriertes Durchführen eines Relevanz-Feedback auf Basis von Semantik und eines Relevanz-Feedback auf Basis von Grundmerkmalen; Aktualisieren von Gewichtungen, die den Grundmerkmalen zugewiesen sind, gemäß dem Benutzer-Feedback, gekennzeichnet durch Aktualisieren von Gewichtungen, die Verknüpfungen zwischen den ersten Bildern (304) und den damit verbundenen Abfrage-Stichwörtern (302) zugewiesen sind, gemäß dem Benutzer-Feedback; und Berechnen eines Ranking-Score unter Verwendung einer vereinheitlichten metrischen Abstandsfunktion (unified distance metric function), um die Relevanz jedes beliebigen Bildes innerhalb einer Bild-Datenbank hinsichtlich des Inhalts sowohl bezüglich der Semantik als auch der Grundmerkmale zu messen.
Verfahren nach Anspruch 1, das des Weiteren Zeigen der ersten und der zweiten Bilder (304) umfasst.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Zeigen (416, 422) der ersten und der zweiten Bilder (304) für einen Benutzer; und Überwachen von Feedback (503) von dem Benutzer dahingehend, welche der ersten und der zweiten Bilder (304) für die Abfrage relevant sind.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Zeigen (416, 422) der ersten und der zweiten Bilder (304) für einen Benutzer; Empfangen von Feedback von dem Benutzer dahingehend, ob die ersten und die zweiten Bilder (304) für die Abfrage relevant sind; und auf Basis des Feedbacks von dem Benutzer Erkennen, welche Grundmerkmale zu relevanten Bildern führen und welche Stichwörter mit den relevanten Bildern identifiziert werden.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Zeigen (416, 422) der ersten und zweiten Bilder (304) für einen Benutzer; Empfangen von Feedback von dem Benutzer dahingehend, welche der ersten und zweiten Bilder (304) für die Abfrage relevant sind; und Verfeinern der Suche, um zusätzliche Bilder zu identifizieren, die Grundmerkmale enthalten, die ähnlich denen der Bilder sind, die durch den Benutzer als für die Abfrage relevant angezeigt werden.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Zeigen (416, 422) der ersten und zweiten Bilder für einen Benutzer; Empfangen von Feedback von dem Benutzer dahingehend, welche der ersten und zweiten Bilder (304) für die Abfrage relevant sind; und wenn der Benutzer wenigstens ein Bild als für die Abfrage relevant auswählt, Zuweisen (506) einer ersten Gewichtung zu einer Verbindung zwischen dem Abfrage-Stichwort und dem wenigstens einen Bild, das von dem Benutzer als relevant betrachtet wird, wobei die erste Gewichtung größer ist als die Gewichtungen, die einer zweiten Stichwort-Bild-Verbindung zugewiesen werden, die ausgebildet wird, indem das Stichwort in der Abfrage mit einem Beispielbild verbunden wird, das der Benutzer zur Verfeinerung der Suche identifiziert hat.
Verfahren nach Anspruch 6, das des Weiteren Gruppieren der Grundmerkmale der Bilder umfasst, die von dem Benutzer als relevant betrachtet werden.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Zeigen (416, 422) der ersten und zweiten Bilder für einen Benutzer; wenn der Benutzer wenigstens ein Bild als für die Abfrage relevant auswählt, Verbinden des Stichworts in der Abfrage mit dem ausgewählten Bild, um eine erste Stichwort-Bild-Verbindung auszubilden, und Zuweisen einer ersten Gewichtung zu der ersten Stichwort-Bild-Verbindung; Empfangen von Feedback von dem Benutzer, das ein Beispielbild als weniger relevant oder irrelevant für die Abfrage zur Verfeinerung der Suche identifiziert; Verbinden des Stichworts in der Abfrage mit dem Beispielbild, um eine zweite Stichwort-Bild-Verbindung auszubilden, und Zuweisen einer zweiten Gewichtung zu der zweiten Stichwort-Bild-Verbindung, wobei die erste Gewichtung vergleichsweise größer ist als das zweite Gewichtung; und wobei das Verfahren des Weiteren einen Schritt des Zuweisens des zweiten Gewichtes zu einer Verbindung zwischen dem Abfrage-Stichwort und dem Beispielbild umfasst.
Verfahren nach Anspruch 8, das des Weiteren Identifizieren zusätzlicher Bilder mit Grundmerkmalen umfasst, die denen des Beispielbildes gleichen.
Verfahren nach Anspruch 1, das umfasst: Zulassen des Eingangs sowohl stichwortbasierter Abfragen als auch inhaltsbasier ter Abfragen; Finden von Bildern (304) unter Verwendung sowohl von Bildrecherche auf Basis von Semantik als auch von Bildrecherche auf Basis von Grundmerkmalen; und Zeigen (412, 422) der Bilder für einen Benutzer, so dass der Benutzer anzeigen kann, ob die Bilder relevant sind.
Verfahren nach Anspruch 1, wobei die vereinheitliche metrische Abstandsfunktion durch G_j gemäß
definiert ist, wobei D_j ein Abstands-Score ist, das durch Grund-Feedback berechnet wird; N_R und N_N die Anzahl positiver bzw. negativer Feedbacks sind; I₁ die Anzahl verschiedener Stichwörter ist, die Bild j und alle Bilder mit positivem Feedback gemeinsam haben; I₂ die Anzahl verschiedener Stichwörter ist, die Bild j und alle Bilder mit negativem Feedback gemeinsam haben; π ein Grad eines Relevanz-Vektors ist; A₁ und A₂ die Gesamtzahl verschiedener Stichwörter sind, die mit allen Bildern mit positivem bzw. negativem Feedback verbunden sind; π_i ein Grad des Relevanz-Vektors ist und S_jk der euklidische Abstand der Grundmerkmale zwischen den Bildern j und k ist.
Verfahren nach Anspruch 1, das des Weiteren umfasst: Verbinden der Stichwörter (302) mit den Bildern (304), um die Stichwort-Bild-Verknüpfungen auszubilden; Zuweisen der Gewichtungen zu den Stichwort-Bild-Verknüpfungen; Zeigen eines Ergebnis-Satzes von Bildern, der anhand einer Bild-Recherchesuche auf Basis einer Abfrage gewonnen wird; Empfangen des Feedback von einem Benutzer dahingehend, ob die Bilder in dem Ergebnis-Satz für die Abfrage relevant sind; und Integrieren von Feedback auf Basis von Grundmerkmalen und von Ranking-Ergebnissen in semantisches Feedback höherer Ebene und Ranking; wobei der Schritt des Aktualisierens Multiplizieren der Gewichte gemäß dem Benutzer-Feedback umfasst.
Verfahren nach Anspruch 12, wobei das Integrieren Definieren einer vereinheitlichten metrischen Abstandsfunktion zum Messen von Relevanz jedes beliebigen Bildes innerhalb einer Bild-Datenbank hinsichtlich des Inhaltes sowohl bezüglich Semantik als auch der Grundmerkmale umfasst.
Verfahren nach Anspruch 12, wobei das Integrieren Definieren einer vereinheitlichten metrischen Abstandsfunktion G_j zum Messen von Relevanz jedes beliebigen Bildes innerhalb einer Bild-Datenbank hinsichtlich des Inhaltes bezüglich sowohl der Semantik als auch der Grundmerkmale umfasst, wobei G_j gemäß
definiert ist und D_j ein Abstands-Score ist, das durch Grund-Feedback berechnet wird; N_R und N_N die Anzahl positiver bzw. negativer Feedbacks sind; I₁ die Anzahl einzelner Stichwörter ist, die Bild j und alle Bilder mit positivem Feedback gemeinsam haben; I₂ die Anzahl einzelner Stichwörter ist, die Bild j und alle Bilder mit negativem Feedback gemeinsam haben; π ein Grad eines Relevanz-Vektors ist; A₁ und A₂ die Gesamtzahl einzelner Stichwörter sind, die mit allen Bildern mit positivem bzw. negativem Feedback verbunden sind; π_j ein Grad eines Relevanz-Vektors ist und S_jk der euklidische Abstand der Grundmerkmale zwischen den Bildern j und k ist.
Verfahren nach einem der Ansprüche 12 bis 14, wobei: der Schritt des Empfangens von Feedback Überwachen von Feedback von einem Benutzer dahingehend umfasst, ob die Bilder in dem Ergebnis-Satz für die Abfrage relevant sind; und der Schritt des Modifizierens umfasst: wenn der Benutzer wenigstens ein Bild als für die Abfrage relevant auswählt, Verbinden des Stichworts in der Abfrage mit dem ausgewählten Bild, um eine erste Stichwort-Bild-Verbindung auszubilden, und Zuweisen einer ersten Gewichtung zu der ersten Stichwort-Bild-Verbindung; und wenn der Benutzer ein Beispiel-Bild zur Verfeinerung der Suche identifiziert, Verbinden des Stichworts in der Abfrage mit dem Beispielbild, um eine zweite Stichwort-Bild-Verbindung auszubilden, und Zuweisen einer zweiten Gewichtung zu der Stichwort-Bild-Verbindung; wobei die erste Gewichtung vergleichsweise größer ist als die zweite Gewichtung.
Verfahren nach Anspruch 15, das des Weiteren Durchführen sowohl von inhaltsbasierter Bildrecherche also auch semantisch basierter Bildrecherche umfasst.
Verfahren nach Anspruch 15 oder 16, das des Weiteren Zeigen des resultierenden Satzes von Bildern in einer Benutzerschnittstelle umfasst, wobei die Benutzerschnittstelle das Benutzer-Feedback ermöglicht, indem sie es dem Benutzer erlaubt, anzuzeigen, welche Bilder relevanter sind und welche Bilder weniger relevant sind.
Computerlesbares Medium, das durch Computer ausführbare Befehle aufweist, die, wenn sie ausgeführt werden, einen Computer anweisen: Bilder (304) unter Verwendung sowohl von Bildrecherche auf Basis von Semantik als auch Bildrecherche auf Basis von Grundmerkmalen zu finden; die Bilder (304) einem Benutzer zu zeigen, so dass der Benutzer anzeigen kann, ob die Bilder relevant sind; und Relevanz-Feedback auf Basis von Semantik und Relevanz-Feedback auf Basis von Grundmerkmalen integriert durchzuführen; Gewichtungen, die den Grundmerkmalen zugewiesen sind, gemäß dem Benutzer-Feedback zu aktualisieren; dadurch gekennzeichnet, dass die Befehle, wenn sie ausgeführt werden, den Computer anweisen, Gewichtungen, die Verknüpfungen zwischen den Bildern (304) und damit verbundenen Abfrage-Stichwörtern (302) zugewiesen sind, gemäß dem Benutzer-Feedback zu aktualisieren; und ein Ranking weiterer Bilder unter Verwendung einer vereinheitlichten metrischen Abstandsfunktion durchzuführen, um die Relevanz jedes beliebigen Bildes innerhalb einer Bild-Datenbank hinsichtlich des Inhaltes sowohl bezüglich der Semantik als auch der Grundmerkmale zu messen.
Computerlesbares Medium nach Anspruch 18, das des Weiteren durch Computer ausführbare Befehle aufweist, die, wenn sie auf einem Prozessor ausgeführt werden, das Verfahren nach einem der Ansprüche 1 bis 11 durchführen.
Computerlesbares Medium nach Anspruch 18, das des Weiteren durch Computer ausführbare Befehle aufweist, die, wenn sie auf einem Prozessor ausgeführt werden, das Verfahren nach einem der Ansprüche 12 bis 17 durchführen.
Bildrecherchesystem, das umfasst: einen Abfrage-Abwickler (150), der so eingerichtet ist, dass er sowohl stichwortbasierte Abfragen mit einem oder mehreren Such-Stichwörtern als auch inhaltsbasierte Abfragen mit einem oder mehreren Grundmerkmalen eines Bildes abwickelt; eine Merkmal-und-Semantik-Abgleicheinrichtung (152), die so eingerichtet ist, dass sie 1. erste Bilder mit Stichwörtern, die den Such-Stichwörtern aus einer stichwortbasierten Abfrage entsprechen, und 2. zweite Bilder identifiziert, die Grundmerkmale aufweisen, die den Grundmerkmalen einer inhaltsbasierten Abfrage gleichen; und eine Feedback-Analysiereinrichtung (154), die so eingerichtet ist, dass sie das Bildrecherchesystem trainiert, indem sie ein Relevanz-Feedback auf Basis von Semantik und ein Relevanz-Feedback auf Basis von Grundmerkmalen integriert durchführt, wobei das Bildrecherchesystem des Weiteren so eingerichtet ist, dass es Gewichtungen, die den Grundmerkmalen zugewiesen sind, gemäß dem Benutzer-Feedback aktualisiert; dadurch gekennzeichnet, dass das Bildrecherchesystem so eingerichtet ist, dass es Gewichte, die Verknüpfungen zwischen den ersten Bildern (304) und den dazugehörigen Abfrage-Stichwörtern (302) zugewiesen sind, gemäß dem Benutzer-Feedback aktualisiert; wobei die Merkmal-und-Semantik-Abgleicheinrichtung (152) des Weiteren so eingerichtet ist, dass sie Ranking weiterer Bilder unter Verwendung einer vereinheitlichten metrischen Abstandsfunktion durchführt, um die Relevanz jedes beliebigen Bildes innerhalb einer Bild-Datenbank hinsichtlich des Inhaltes sowohl bezüglich der Semantik als auch der Grundmerkmale zu messen.
Bildrecherchesystem nach Anspruch 21, wobei der Abfrage-Abwickler (150) einen Parser (202) für natürliche Sprache umfasst.
Bildrecherchesystem nach Anspruch 21, wobei der Abfrage-Abwickler (150) umfasst: einen Parser (202), der so eingerichtet ist, dass er Parsing textbasierter Abfragen durchführt; und eine Konzept-Hierarchie (204), die so eingerichtet ist, dass sie verschiedene Kategorien von Bildern definiert.
Bildrecherchesystem nach einem der Ansprüche 21 bis 23, das des Weiteren eine Benutzerschnittstelle (200) umfasst, die so eingerichtet ist, dass sie durch die Merkmal-und-Semantik-Abgleicheinrichtung (152) identifizierte erste und zweite Bilder zeigt.
Bildrecherchesystem nach einem der Ansprüche 21 bis 23, das des Weiteren umfasst: eine Benutzerschnittstelle (200), die so eingerichtet ist, dass sie einem Benutzer die durch die Merkmal-und-Semantik-Abgleicheinrichtung identifizierten ersten und zweiten Bilder zeigt, wobei es die Benutzerschnittstelle dem Benutzer gestattet, anzuzeigen, ob die ersten und zweiten Bilder für die Abfrage relevant sind.
Bildrecherchesystem nach einem der Ansprüche 21 bis 23, das des Weiteren umfasst: eine Benutzerschnittstelle (200), die so eingerichtet ist, dass sie einem Benutzer die durch die Merkmal-und-Semantik-Abgleicheinrichtung identifizierten ersten und zweiten Bilder zeigt, wobei es die Benutzerschnittstelle dem Benutzer gestattet, ein Beispielbild zu identifizieren; und wobei die Merkmal-und-Semantik-Abgleicheinrichtung (152) so konfiguriert ist, dass sie zusätzliche Bilder identifiziert, die Grundmerkmale enthalten, die denen des Beispielbildes gleichen.
Bildrecherchesystem nach einem der Ansprüche 21 bis 23, das des Weiteren umfasst: eine Benutzerschnittstelle (200), die so eingerichtet ist, dass sie einem Benutzer die durch die Merkmal-und-Semantik-Abgleicheinrichtung identifizierten ersten und zweiten Bilder zeigt, wobei es die Benutzerschnittstelle dem Benutzer gestattet, zo identifizieren, welche Bilder für eine spezielle Suchabfrage relevant sind; und wobei die Feedback-Analysiereinrichtung (154) des Weiteren so eingerichtet ist, dass sie einer Verbindung zwischen den Such-Stichwörtern und den durch den Benutzer als relevant identifizierten Bildern eine erste Gewichtung zuweist, wobei, wenn der Benutzer ein Beispielbild zur Verfeinerung der Suche identifiziert, die Such-Stichwörter in der Abfrage mit dem Beispielbild verbunden werden und so zweite Stichwort-Bild-Verbindungen ausgebildet werden, und den zweiten Stichwort-Bild-Verbindungen eine zweite Gewichtung zugewiesen wird, wobei die erste Gewichtung vergleichsweise größer ist als die zweite Gewichtung.
Bildrecherchesystem nach Anspruch 27, wobei die Feedback-Analysiereinrichtung (154) so eingerichtet ist, dass sie die Grundmerkmale der ersten und der zweiten Bilder, die durch den Benutzer als relevant identifiziert werden, gruppiert.
Bildrecherchesystem nach Anspruch 27 oder 28, wobei es die Benutzerschnittstelle dem Benutzer gestattet, das Beispielbild als weniger relevant oder irrelevant für die Abfrage zu identifizieren; und die Feedback-Analysiereinrichtung (154) des Weiteren so eingerichtet ist, dass sie die zweite Gewichtung einer Verbindung zwischen den Such-Stichwörtern und dem Beispielbild zuweist.
Bildrecherchesystem nach einem der Anspruche 21 bis 29, wobei die Merkmal-und-Semantik-Abgleicheinrichtung (152) so eingerichtet ist, dass sie zusätzliche Bilder mit Grundmerkmalen identifiziert, die denen des Beispielbildes gleichen.
Bildrecherchesystem nach einem der Anspruche 21 bis 30, das des Weiteren eine Datenbankstruktur umfasst, die auf einem oder mehreren computerlesbaren Medien gespeichert ist, wobei sie umfasst: mehrere Bilddateien (304); mehrere Stichwörter (302); und ein semantisches Netzwerk (300), das so eingerichtet ist, dass es die Stichwörter mit den Bilddateien verbindet, wobei das semantische Netzwerk des Weiteren so eingerichtet ist, dass es einzelne Stichwort-Bild-Verknüpfungen definiert, die ein bestimmtes Stichwort mit einer bestimmten Bilddatei verbinden, wobei jede Stich wort-Bild-Verknüpfung eine Gewichtung hat, das anzeigt, wie relevant das bestimmte Stichwort für die bestimmte Bilddatei ist.