DE60017727T2

DE60017727T2 - Suchwerkzeug und Prozess zum Suchen unter Benutzung von Kategorien und Schlüsselwörtern

Info

Publication number: DE60017727T2
Application number: DE60017727T
Authority: DE
Inventors: Patrice Bertin; Francois Bourdoncle
Original assignee: Exalead SA
Current assignee: Exalead SA
Priority date: 2000-08-18
Filing date: 2000-08-18
Publication date: 2005-12-29
Anticipated expiration: 2020-08-19
Also published as: US7152064B2; EP1182581A1; DE60017727D1; EP1182581B1; US20020052894A1; ATE288108T1

Description

Die Erfindung betrifft das Gebiet des Abrufens von Information und insbesondere des Anzeigens von Ergebnissen einer Suchanfrage, sowie des Navigierens in Datenbanken und des Eingebens von Anfragen in Datenbanken. Sie betrifft insbesondere Suchen im Internet.
In der vorliegenden Beschreibung bezeichnet das Wort "Site" oder "Internet Site" eine Anzahl von Dokumenten die durch Links verbunden sind, mit einem vorgegebenen Eintrittspunkt. Ein Verzeichnis ist das Ergebnis eines Indizierens einer Anzahl von Sites oder Dokumenten und des Klassifizieren in Kategorien; wobei Kategorien deshalb Untermengen der Verzeichnisse sind, die normalerweise durch eine manuelle Handlung definiert werden, wobei solche Kategorien häufig in einem Baum organisiert sind, um ein Navigieren innerhalb von Kategorien zu vereinfachen, wobei man auch Kategorien verwenden kann, die in einem gerichteten azyklischen Graph organisiert sind, der ein Graph mit einer Vielzahl von Pfaden zu der gleichen Kategorie ist. Eine Suchmaschine ist ein Werkzeug zum Suchen innerhalb von Dokumenten, das normalerweise ein automatisches Indizieren der Dokumente realisiert.
Eine Anzahl von Suchwerkzeugen existiert zum Suchen und Abrufen von Information im Internet. Die Alta Vista Company schlägt eine Internet-Such-Site vor mit einer Anfragebox, in die der Benutzer Schlüsselwörter zum Abrufen von Information eingeben kann. Die Sprache der Suche kann eingeschränkt werden. Es wird eine Box bereitgestellt, die es dem Benutzer erlaubt, verwandte Suchen auszuwählen, wobei die verwandten Suchen tatsächlich Sätze oder Wortfolgen anzeigen, die die gegenwärtige Anfrage als einen Teilstring umfassen. Falls z. B. die Anfrage, die durch den Benutzer eingegeben wurde, /greenhouse effect/(Treibhauseffekt) ist (im Rest dieser Beschreibung wird die Anfrage durch//markiert), können verwandte Suchen, die folgenden Wahlmöglichkeiten anbieten:

– „the greenhouse effect" (der Treibhauseffekt),
– „what is the greenhouse effect" (was ist der Treibhauseffekt),
– „enhanced greenhouse effect" (fortgeschrittener Treibhauseffekt).

Es wird ebenso eine Suche innerhalb von Site-Kategorien vorgeschlagen, wobei diese Suche tatsächlich eine unabhängige Kategoriensuche in einer separaten Datenbank ist.
Die Ergebnisse der Suche werden dem Benutzer unter der Liste der verwandten Suchen angezeigt. Die Ergebnisse werden als eine Liste von Dokumenten oder Sites angezeigt.
Eine andere Internet-Such-Site wird von Yahoo! Inc. vorgeschlagen. Es wird wieder eine Anfragebox bereitgestellt. Ergebnisse einer Suche, die in die Anfragebox eingegeben wurde, werden in mehreren Abschnitten angezeigt. Der erste Abschnitt zeigt die Übereinstimmungen von Kategorien zusammen mit dem Pfad zu den Übereinstimmungen in dem Kategorienbaum an, während der zweite Abschnitt Übereinstimmungen von Sites anzeigt. Der dritte Abschnitt zeigt Web-Seiten an.
Mit dem gleichen Beispiel/greenhouse effect/(Treibhauseffekt), ist die erste Kategorie-Übereinstimmung „global warming" (Erderwärmung). Der Pfad zu "global warming" (Erderwärmung) in dem Kategorienbaum ist Home > Society and Culture > Environment and Nature (Home > Gesellschaft und Kultur > Umwelt und Natur). Es können mehrere Pfade zu der gleichen Kategorie bereitgestellt werden; wobei in dem Beispiel/greenhouse effect/(Treibhauseffekt), die mit „global warming" (Erderwärmung) bezeichnete Kategorie in fünf verschiedenen Pfaden auftaucht. Ein Auswählen einer Kategorie im ersten Abschnitt erlaubt es dem Benutzer, auf den Inhalt der Kategorie zuzugreifen.
Der zweite Abschnitt zeigt Site-Übereinstimmungen, wobei Übereinstimmungen gemäß ihrer Kategorien gruppiert werden. Der dritte Abschnitt zeigt Web-Seiten, zusammen mit einer Zusammenfassung und einer Adresse.
Google Inc. stellt ebenso eine Internet-Site zum Suchen innerhalb von Sites und Kategorien bereit. Die Ergebnisse einer Suche umfassen einen Hinweis auf die Klassifikation von Sites und Kategorien. Wenn das Schlüsselwort für eine Suche eingegeben wird, können einige Wörter ausgeschlossen werden. Ein Auswählen der Kategoriesuche stattet den Benutzer mit einer Liste von Kategorien aus, die mit der Suche verwandt sein können; wobei auf den Inhalt jeder Kategorie später zugegriffen werden kann. In dem Beispiel der Suche nach/greenhouse effect/(Treibhauseffekt), umfassen die Kategorien/Issues/Environment/Climate Change (Gesellschaft/Themen/Umwelt/Klimaveränderung).
A.V. Leouski und W. Bruce Croft,„An Evaluation of Techniques for Clustering Search Results", CIIR Technical Report IR-76, National Center for Intelligent Information Retrieval, University of Masachussetts Amherst, MA, U.S.A., Frühjahr 1996, vergleichen Klassifikationsverfahren des Information-Retrieval und des Maschinenlernens zum Clustern von Suchergebnissen in einer Suchmaschine. Abgesehen von Cluster-Techniken diskutiert dieses Dokument Cluster-Beschreibung. Ein erstes Verfahren zum Beschreiben eines Clusters umfasst ein Auswählen einer Anzahl der wichtigsten Begriffe aus Dokumenten, die in dem Cluster enthalten sind und ihr dem Benutzer Präsentieren. Ein zweites bevorzugtes Verfahren ist, die wichtigen Begriffe durch wichtige Phrasen zu ersetzen – wobei eine Phrase als eine Folge von einem oder mehreren Wörtern definiert wird. Dieses Dokument bietet eine Lösung des Problems des dynamischen Clusterns von Dokumenten, die aus einer Datenbank durch eine Suchmaschine abgerufen wurden.
US-A-5 463 773 offenbart das Aufbauen eines Dokument-Klassifikationsbaums durch rekursive Optimierung einer Schlüsselwort-Auswahlfunktion. Es werden Retrieval-Mittel zum Extrahieren von Schlüsselwörtern bereitgestellt, wenn Dokumentdaten eingegeben werden, und zum Ausgeben einer Klassifikation für die Dokumentdaten, wobei die Klassifikation aus dem Klassifikations-Entscheidungsbaum ausgewählt wird. Zum Extrahieren von Schlüsselwörtern schlägt dieses Dokument vor, Schlüsselwörter zu extrahieren, die durch Wortfolgen definiert werden. Ein Lernprozess wird zum automatischen Aufbauen eines Dokument-Klassifikationsbaums auf der Basis der extrahierten Schlüsselwörter vorgeschlagen.
US-A-5 924 090 schlägt ein Suchen innerhalb von Dokumenten vor und ein Abbilden der Schlüsselwörter der Dokumente innerhalb statischer Kategorien. Kategorien werden deshalb in einem manuellen Prozess vordefiniert. Die Verwendung von Kategorien macht es möglich, auf Dokumente zuzugreifen, die in den Kategorien enthalten sind, die auf die Kategorien abgebildet sind. In diesem Dokument bietet eine Suchmaschine die Ergebnisse einer Anfrage, wobei die Ergebnisse auf die statischen Kategorien abgebildet werden und relevante Kategorien dem Benutzer als Suchmappen angezeigt werden. Wenn eine Suchmappe von dem Benutzer ausgewählt wird, werden dem Benutzer die Dokumente angezeigt, die in der Suchmappe enthalten sind – d. h., die Dokumente, die auf korrespondierende Kategorien abgebildet werden. Es wird eine Reihe von Suchmappen jedesmal angezeigt, wenn eine Suche ausgeführt wird, wobei die Suchmappen jene statischen Kategorien sind, auf die eine Anzahl von abgerufenen Dokumenten abgebildet wurde.
US-A-5 963 965 offenbart ein Verfahren, bei dem relevante Mengen von Phrasen automatisch aus textbasierten Dokumenten extrahiert werden, um einen Index für diese Dokumente aufzubauen. Diese Phrasen werden dann in Clustern zusammengefasst, um eine Vielzahl von Abbildungen zu bilden, die hierarchische Beziehungen zwischen den Clustern graphisch beschreiben, und die verwendet werden können, um relevante Anteile der Dokumente als Antwort auf den Benutzer anzuzeigen, der einen dieser Cluster auswählt.
US-A-5 991 756 beschreibt ein Verfahren, gemäß dem Suchanfragen auf eine Menge von Dokumenten angewandt werden können, die in einer Hierarchie aus Kategorien organisiert sind und bei dem dem Benutzer eine Untermenge dieser Kategorien als Antwort präsentiert wird, die die Dokumente umfasst, die für die Anfrage relevant sind.
WO-A-98 49637 schlägt vor, Ergebnisse einer Suche in einer Menge der relevantesten Kategorien zu organisieren. Als Antwort auf eine Suche wird die Suchergebnisliste verarbeitet, um dynamisch eine Menge von Suchergebniskategorien zu erzeugen. Jede dieser Suchergebniskategorien ist mit einer Untermenge der Datensätze innerhalb der Suchergebnisliste mit herkömmlichen Charakteristiken assoziiert. Kategorien werden dann als Mappen angezeigt.
Weiss R. et al, „Hypersuit: a hierarchical network search engine that exploits content-link hypertext clustering", Hypertext'96, 7^th ACM Conference on Hypertext, Washington, 16.–20. März 1996, diskutiert dynamisches Clustern von Hypertext-Dokumenten, um einen gegebenen Informationsraum zum Browsen und für Suchaktivitäten zu strukturieren. Die Hierarchie der Cluster wird verwendet, um dem Benutzer beim Navigieren mittels Browsen der Cluster und Untercluster und ihres Inhalts, der aus dem dynamischen Clustern der Ergebnismenge resultiert (siehe S. 187, Abs. 2), zu helfen. Es gibt keine Anregung, Cluster-Hierarchien zum Verfeinern von Anfragen zu verwenden. Anfragen können nur durch Verwenden einer Volltext-Anfrage verfeinert werden.
„Taxonomized Web Search"; IBM Technical Disclosure Bulletin, Vol. 40, Nr. 5, Seiten 195 – 196, schlägt vor, eine vordefinierte Menge von Schlüsselwörtern zum automatischen Klassifizieren von Seiten zu verwenden. Die Suchschnittstelle erlaubt Anfragen, kontextfreie syntaktische Suche mit kontextsensitiver Suche zu kombinieren, die von Schlüsselwörtern geleitet wird. Es gibt keine Anregung einer Suchverfeinerung in diesem Dokument. Zusätzlich gibt es keine Kategorien, auf die die Eintragungen abgebildet werden würden. Es gibt keine dynamisch ausgewählten Schlüsselwörter gemäß der Ergebnisse der Anfrage.
Eguchi K. et al, "Adaptative and incremental query expansion for cluster-based browsing"; Proceedings of the 6^th International Conference on Database Systems for Advanced Applications, Hsinchu, Taiwan, Seiten 25–34, offenbaren das Clustern von Einträgen als Antwort auf eine Anfrage. Der Benutzer kann dann innerhalb der Cluster navigieren. Cluster werden als Antwort auf Anfragen gebildet, wobei es also kein Abbilden von Datenbankeinträgen auf die Cluster gibt. Die Anfrage kann unter Verwendung von Clustern zu einer Volltextsuche erweitert werden.
Hearst M. A. et al., "Cat-A-Cone: an Interactive Interface for Specifying Searched and Viewing Retrieval Results using a Large Category Hierarchy", Proceedings of the 20^th annual international ACM-SIGIR Conference on Research and Development in Information Retrieval, Philadelphia, PA, 27.–31. Juli 1997, Seiten 246 – 255, diskutieren Browsen, schlagen jedoch keine Anfrageverfeinerung vor. Keine Schlüsselwörter werden offenbart.
WO-A-98 09229 lehrt ein Verfahren zum Speichern von Zusammenfassungen von Dokumenten. Zusammenfassungen werden durch Identifizieren von Schlüsselsätzen aus Dokumenten extrahiert. Diese können danach verwendet werden, um innerhalb von Dokumenten zu suchen. Diese Referenz diskutiert kein Navigieren innerhalb von Dokumenten, Kategorien oder Schlüsselwörtern.
US-A-5 933 827 diskutiert ein Klassifizieren von Web-Seiten. Das System interagiert mit dem Benutzer, um beim Klassifizieren von Web-Seiten zu helfen. Es gibt keinen Hinweis auf irgendeine Navigation innerhalb von klassifizierten Ergebnissen.
Die Verfahren und Prozesse zum Information-Retrieval des Standes der Technik haben eine Anzahl von Nachteilen. Festgelegte oder statische Kategorien bieten tatsächlich eine Repräsentation der Welt – eine Menge von Dokumenten – zu einem gegebenen Zeitpunkt und für ein gegebenes Wissensgebiet. Sie können ein Aktualisieren oder Anpassen an neue Typen von Dokumenten benötigen, wenn und falls die Menge der Dokumente durch neue Dokumente vervollständigt wird, insbesondere durch Dokumente in einem neuen Wissensgebiet. Während statische Kategorien deshalb exakt die Expertise des Menschen repräsentieren, der sie definiert hat, sind sie tatsächlich auf diese Expertise eingeschränkt. Zusätzlich ist jede Menge von Kategorien durch den Aufwand an menschlicher Arbeit eingeschränkt, der zum Vervollständigen von Kategorien und Abbilden von Einträgen der Datenbank auf die Kategorien benötigt wird.
Aus Schlüsselwörtern gebildet Cluster können eine dynamische Sicht der Welt bieten. Jedoch stellen sie kein einfach zu „durchbrowsendes" Werkzeug dar und erlauben dem Benutzer nicht, leicht und frei innerhalb der Dokumente zu navigieren.
Eine Kategoriesuche wird angepasst an ein Suchen innerhalb von Sites. Schlüsselwortsuchen sind besser angepasst an ein Suchen innerhalb von separaten textuellen Dokumenten.
Deshalb gibt es einen Bedarf nach einem Prozess und Werkzeug zum Information-Retrieval, der/das einen Benutzer in die Lage versetzt, nicht nur innerhalb festgelegter Kategorien zu navigieren, sondern auch innerhalb von Schlüsselwörtern. Die Erfindung bietet also ein Suchwerkzeug und einen Suchprozess, der seinen Benutzer in die Lage versetzt, innerhalb von Kategorien und Schlüsselwörtern in einer freundlichen und transparenten Weise frei zu navigieren. Die Erfindung kombiniert die Vorteile einer Menge von durch den Menschen angefertigten Kategorien – nämlich der Expertise in einem gegebenen Gebiet – zusammen mit den Vorteilen einer Schlüsselwortsuche – nämlich der Fähigkeit, Dokumente außerhalb des gegebenen Gebiets zu verarbeiten und zu handhaben. Die Erfindung bietet ein Werkzeug, das auf ein Suchen innerhalb einer Datenbank aus Sites und separaten Dokumenten oder Seiten gut angepasst ist.
Insbesondere bietet die Erfindung ein Verfahren zum Durchsuchen einer Datenbank mit Einträgen, umfassend die Schritte:

– Bereitstellen einer Datenbank aus Einträgen, wobei wenigstens ein Teil der Einträge auf eine Kategorienmenge abgebildet ist, und wobei wenigstens einem Teil der Einträge Schlüsselwörtern zugeordnet sind;
– Auswählen von Kategorien aus der Kategorienmenge gemäß der von der Anfrage zurückgegebenen Einträge, in Reaktion auf eine Anfrage des Benutzers;
– dynamisches Auswählen von den Einträgen, die Schlüsselwörtern zugeordnet sind und die durch die Anfrage zurückgegeben wurden; und
– dem Benutzer Anzeigen der ausgewählten Kategorien und der ausgewählten Schlüsselwörter.

Bei einer speziellen Ausführungsform des Prozesses sind die Kategorien in einem Baum oder in einer gerichteten azyklischen Graph-Struktur organisiert. Ein Schlüsselwort kann vorzugsweise eine Folge von Wörtern oder eine Folge von Wortstämmen sein.
Ausgewählte Kategorien und Schlüsselwörter können ähnlich oder getrennt angezeigt werden.
Bei einer speziellen Ausführungsform des Prozesses wird eine neue Anfrage gestartet, wenn ein Benutzer eine der angezeigten Kategorien oder Schlüsselwörter aktiviert. Dieser Schritt des Aktivierens kann ein Verfeinern der Anfrage des Benutzers auf die Kategorie oder das Schlüsselwort umfassen. Dieser Schritt des Aktivierens kann ebenso ein Ausschließen einer angezeigten Kategorie oder eines Schlüsselworts aus der Anfrage des Benutzers umfassen.
In einer anderen Ausführungsform des Prozesses wird dem Benutzer eine Liste von Einträgen angezeigt, die durch die Anfrage zurückgegeben werden. Man kann dann in der Liste eine Kategorie anzeigen, auf die wenigstens ein Eintrag der Liste abgebildet wird. Wenn der Benutzer diese Kategorie in der Liste auswählt, können die Einträge angezeigt werden, die in der ausgewählten Kategorie enthalten sind. In diesem Fall kann aus den Einträgen, die in der Kategorie enthalten sind, eine Rangfolge gebildet werden, bevor sie angezeigt werden.
Zusätzlich kann der Schritt des Anzeigens ein Anzeigen von Kategorien aus verschiedenen hierarchischen Ebenen umfassen, wenn Kategorien hierarchisch organisiert sind.
Die Erfindung stellt auch ein Suchwerkzeug bereit, umfassend einen Such-Server zum Empfangen von Anfragen von Benutzern und Übertragen von Ergebnissen an Benutzer, eine Datenbank aus Einträgen, wobei wenigstens ein Teil der Einträge auf eine Kategorienmenge abgebildet ist, wobei einem Teil der Einträge Schlüsselwörter zugeordnet sind, wobei der Such-Server umfasst:

– Mittel zum Durchsuchen der Datenbank und zum Auswählen von Kategorien aus der Kategorienmenge gemäß der durch eine Anfrage zurückgegebenen Einträge;
– Mittel zum dynamischen Auswählen von den Einträgen zugeordneten Schlüsselwörtern, die durch die Anfrage zurückgegeben werden;
– und wobei die an den Benutzer übertragenen Ergebnisse die ausgewählten Kategorien und die ausgewählten Schlüsselwörter umfassen.

Der Such-Server ist vorzugsweise ein HTTP-Server. Wenn die Einträge textuelle Einträge sind, kann die Datenbank einen invertierten Index umfassen, wobei die Kategorien Einträge des invertierten Index sind.
Ein Suchwerkzeug, das die Erfindung verkörpert, wird nun im Wege des Beispiels und mit Bezug auf die beiliegenden Zeichnungen beschrieben, in welchen:
1 eine Ansicht eines Suchwerkzeugs gemäß der Erfindung ist;
2 eine weitere Ansicht der Darstellung des Suchwerkzeuges der 1 ist, nachdem die Suche auf eine Kategorie beschränkt wurde;
3 eine weitere Ansicht der Darstellung des Suchwerkzeugs der 1 ist, nachdem die Suche auf ein Schlüsselwort beschränkt wurde;
4 eine weitere Ansicht der Darstellung des Suchwerkzeugs der 2 ist, nachdem die Suche auf ein Schlüsselwort beschränkt wurde;
5 eine weitere Ansicht der Darstellung des Suchwerkzeugs der 1 ist, nachdem die Suche auf eine Kategorie aus der Liste der Ergebnisse beschränkt wurde;
6 ein Flussdiagramm eines Verfahrens gemäß der Erfindung ist; und
7 ein Diagramm eines Suchwerkzeugs gemäß der Erfindung ist.
In Beantwortung einer Anfrage schlägt die Erfindung vor, dem Benutzer eine Folge von Verfeinerungsstrategien anzuzeigen; wobei die Verfeinerungsstrategien relevante Kategorien umfassen, die aus einer Menge von statischen Kategorien ausgewählt werden. Zusätzlich umfasst die Folge Schlüsselwörter, die aus den in Beantwortung der Anfrage bereitgestellten Dokumenten dynamisch erhalten wurden. Die Erfindung ermöglicht dem Benutzer, die Suche unter Benutzung vordefinierter Kategorien zu verfeinern; wobei zusätzlich das Anzeigen von Schlüsselwörtern dem Benutzer ermöglicht, einfacher innerhalb der Ergebnisse der Anfrage zu navigieren, ohne auf feste Kategorien beschränkt zu sein.
Im Rest der Beschreibung wird die Erfindung in Bezug auf ihre bevorzugte Ausführungsform offenbart, wobei die Datenbank das World Wide Web umfasst und Internet-Sites sowie Web-Dokumente umfasst. Das Werkzeug gemäß der Erfindung ermöglicht, die Datenbank dank eines HTTP-Servers zu durchsuchen.
Grundsätzlich kann die Erfindung auf jede Datenbank angewendet werden, bei der Einträge wenigstens teilweise auf vorgegebene Kategorien abgebildet werden und mit Schlüsselwörtern assoziiert werden können. Abbilden ist üblicherweise eine manuelle Handlung, obwohl es möglich ist, jeden automatischen Prozess zu verwenden. Textuelle Einträge können einfach mit Schlüsselwörtern assoziiert werden, z. B. durch automatisches Indizieren der Einträge und Auswählen von Schlüsselwörtern. In diesem Fall kann ein automatisches Abbilden auf Kategorien basierend auf Schlüsselwörtern ausgeführt werden.
1 ist eine Anzeige eines Suchwerkzeugs gemäß der Erfindung. Eine Anfragebox 1 wird dem Benutzer zum Eingeben einer Anzahl von Schlüsselwörtern für eine Suche oder eine Anfrage angezeigt, wobei in dem Beispiel der 1 die eingegebene Suche wieder/greenhouse effect/(Treibhauseffekt) ist. In einer per se bekannten Art und Weise kann die Suche auf einen Teil der Datenbank eingeschränkt werden, in dem Beispiel der 1 aufgrund der Zeile 3. In dem Beispiel der 1 ist die Suche nicht beschränkt und die "World Wide Web"-Auswahl erscheint fettgedruckt in Zeile 3. Ein "OK"-Knopf 5 ermöglich dem Benutzer, die Suche oder Anfrage zu starten. Ein aktueller Suchpfad wird dem Benutzer unter der Anfragebox angezeigt, wobei die Benutzung des Suchpfads mit Bezug auf 2 und 3 erklärt werden wird.
In Beantwortung der Suche wird eine Anzahl von Dokumenten und Sites zurückgegeben. Ein Abrufen von Dokumenten – Auswahl von Sites oder Dokumenten innerhalb einer Datenbank von indizierten oder teilweise indizierten Dokumenten oder Sites – kann in jeder beliebigen, per se bekannten Art und Weise durchgeführt werden. Es ist insbesondere möglich, einen invertierten Index zu verwenden, so wie das AltaVista Search Developer's Kit, das von der AltaVista Company verkauft wird. Insbesondere wird eine Anfrage, die in die Anfragebox von einem Benutzer eingegeben wird, in eine interne Repräsentation „geparsed", die dann in eine Anfrage übersetzt wird, die auf den invertierten Index angewandt wird. Diese Anfrage wird gemäß der Merkmale formuliert, die von dem invertierten Index unterstützt werden, wobei üblicherweise unterstützte Merkmale ein Rangfolgenbilden, Bool'sche Suche, Phrasensuche, Stammbildung, Ähnlichkeitssuche, etc. umfassen.
Eine Anzahl dieser Dokumente oder Sites, die von dem invertierten Index zurückgeliefert werden, werden dem Benutzer in Beantwortung der Anfrage angezeigt. In dem Beispiel der 1 stattet der rechte Teil des untersten Abschnitts der Anzeige den Benutzer mit einer Liste 7 von Dokumenten und Sites aus. Zusammen mit jedem Dokument ist es möglich, eine Zusammenfassung des Dokuments oder der Site anzuzeigen, so wie es in 1 in der Zeile unmittelbar unter jedem Dokument oder jeder Site gezeigt ist. Eine ikonische Repräsentation des Wesens der Antwort kann auch angezeigt werden: In dem Beispiel der 1 ist Icon 9 eine Repräsentation des Dokuments, während Icon 11 anzeigt, dass die Antwort tatsächlich eine Site ist. Die Adresse zum Zugreifen auf ein Dokument kann auch angezeigt werden, so wie in 1 in der Zeile unter der Zusammenfassung jedes Dokuments oder jeder Site gezeigt ist. Wenn ein Dokument Teil einer vorgegebenen Kategorie ist, kann diese Kategorie auch angezeigt werden. In dem Beispiel der 1 ist das sechste Dokument der Liste 7 der Ergebnisse, die durch die Anfrage zurückgeliefert werden, mit „Many scientists believe runaway greenhouse effect possibel" (viele Wissenschaftler glauben, dass ein Verschwinden des Treibhauseffekts möglich ist) bezeichnet, wobei dieses Dokument gegenwärtig in der Kategorie „Climate Change" (Klimaveränderung) mit dem Zugriffspfad „Society : ... :Environment : Climate Change"(Gesellschaft : ... : Umwelt Klimaveränderung) in dem Kategoriebaum referenziert wird. Das achte Dokument ist auch in einer Kategorie referenziert. Wie in 1 gezeigt, ist es dem Benutzer möglich, die Kategorie, die unter einem Ergebnis angezeigt wird, auszuwählen. Die Effekte des Auswählens einer Kategorie in der Liste der Ergebnisse werden mit Bezug auf 5 erläutert.
Es sollte an diesem Punkt der Beschreibung verstanden werden, dass das Verzeichnis der Kategorien in dieser Ausführungsform der Erfindung als ein Beispiel einer vorgegebenen oder statischen Menge von Kategorien gegeben ist. In dieser Beschreibung und in den beiliegenden Ansprüchen sollten die Wörter "vorgegeben" oder "statisch", im Gegensatz zu "dynamisch", so verstanden werden, dass die Menge der Kategorien nicht jedes mal verändert wird, wenn ein Benutzer eine Anfrage eingibt. Dennoch kann sie natürlich verändert werden, um Kategorien hinzuzufügen oder zu entfernen.
Zusätzlich zum Bereitstellen einer Liste von Dokumenten oder Sites, die von einer Anfrage zurückgeliefert werden, schlägt die Erfindung vor, dem Benutzer eine Folge 13 von Verfeinerungsstrategien anzuzeigen. Diese Verfeinerungsstrategien umfassen Kategorien, die aus der vorgegebenen Menge von Kategorien ausgewählt werden. In dem Beispiel der 1 werden Kategorien und Schlüsselwörter als zwei separate Listen 15 und 17 unter der Eingabebox und dem Suchpfad angezeigt. Die Verfeinerungsstrategien „Society" (Gesellschaft) und „Science" (Wissenschaft) in dem Beispiel der 1 sind also tatsächlich vorgegebene Kategorien.
Die vorgegebenen Kategorien können durch jedes Verfahren, das per se bekannt ist, ausgewählt werden. Man kann z. B. diejenigen Kategorien auswählen, die am häufigsten mit den Dokumenten oder Sites, die von der Anfrage zurückgeliefert werden, assoziiert werden. In der einen oder anderen Weise wird eine Anzahl von Kategorien ausgewählt und dem Benutzer in Beantwortung der Anfrage angezeigt.
So wie in 1 gezeigt, kann man verschiedene Ebenen von Kategorien anzeigen. In dem Beispiel ist die Kategorie „Society" (Gesellschaft) mit verschiedenen Unterkategorien angezeigt, nämlich „Issues" (Themen), „Religion and Spirituality" (Religion und Spiritualität). Die Anzahl der Ebenen der angezeigten Kategorien kann wie oben diskutiert ausgewählt werden, gemäß der Anzahl der Dokumente oder Sites die durch die Anfrage zurückgeliefert werden und die in einer Kategorie zu finden sind. Das Interesse dies zu tun, ist den Benutzer durch Ausblenden von Zwischenkategorien in der Hierarchie der Kategorien schneller in eine relevante Verfeinerung zu geleiten.
Zusätzlich zu ausgewählten vordefinierten Kategorien umfassen die Verfeinerungsstrategien, die dem Benutzer angezeigt werden, eine Anzahl von dynamisch abgeleiteten Schlüsselwörtern. In dem Beispiel der 1 erscheinen diese Schlüsselwörter in einer Liste, die separat von der Liste der Kategorien ist. Im Gegensatz zu dieser Ausführungsform könnten Verfeinerungsstrategien angezeigt werden, ohne vorgegebene Kategorien und dynamisch abgeleitete Schlüsselwörter zu identifizieren. In diesem Fall würde der Benutzer nicht zwischen vorgegebene Kategorien und Schlüsselwörtern unterscheiden.
Die Schlüsselwörter unterscheiden sich fundamental von vorgegebenen Kategorien.
Erstens sind Kategorien in ihrer Anzahl beschränkt und sind eine Repräsentation der Welt zu dem Zeitpunkt, zu dem die Datenbank aufgebaut wurde. Im Gegensatz dazu bilden Schlüsselwörter, wie auch immer sie gebildet wurden, keine Repräsentation der Welt, sondern einfach eine Weise, Dokumente abzurufen. In gewisser Weise haben sie per se keine Bedeutung und sind auf einer viel geringeren Ebene als Kategorien.
Zweitens ist im Hinblick auf diesen Unterschied die Anzahl der Kategorien viel geringer als die Anzahl der Schlüsselwörter. Die Anzahl der Kategorien ist typischerweise ungefähr Tausende oder Zehntausende, wobei die Anzahl der Schlüsselwörter größer als die Anzahl der einfachen Wörter in der Sprache sein kann. Typischerweise kann die Anzahl der Schlüsselwörter einige Millionen oder zehn Millionen sein.
Drittens können Kategorien nicht manipuliert werden und die Abbildung von Einträgen auf Kategorien verändert sich nicht, wenn eine Anfrage verarbeitet wird. Demzufolge werden alle Dokumente einer Kategorie ausgewählt, wenn eine Kategorie ausgewählt wird – da die Kategorie per se eine Menge von Dokumenten ist, selbst wenn sie einen Namen zu dem Zweck hat, sie dem Benutzer anzuzeigen. Andererseits sind Schlüsselwörter Objekte ohne Bedeutung, die während eines Formulierens oder Verfeinerns einer Anfrage manipuliert werden können. Insbesondere wenn eine Anfrage durch eine Kategorie verfeinert wird, sind die resultierenden Dokumente eine Untermenge der Kategorie. Wenn eine Anfrage durch ein Schlüsselwort verfeinert wird, müssen die resultierenden Dokumente nicht statisch mit dem Schlüsselwort assoziiert sein.
Der Unterschied zwischen Schlüsselwörtern und Kategorien zeigt sich in den 1 bis 5. Während der Suche verschwinden Kategorien der höheren Ebene, wenn der Benutzer in der Hierarchie der Kategorien nach unten navigiert. Dies ist der Fall, wenn Kategorien hierarchisch organisiert sind, z. B. in einem Baum oder einen gerichteten azyklischen Graph.
Für den Fall, dass die Erfindung auf eine Datenbank aus textuellen Einträgen angewandt wird, wird ein invertierter Index zum Abrufen von Einträgen bereitgestellt. Kategorien werden dann notwendigerweise Einträge des invertierten Index, während Schlüsselwörter nicht notwendigerweise Einträge des invertierten Index sind.
Angenommen zum Beispiel, dass Schlüsselwörter Folgen von Wörtern sind. Das Schlüsselwort „fossil fuels" (fossile Brennstoffe) könnte dann mit jedem Dokument assoziiert werden, das die exakte Folge der Wörter „fossil fuels" (fossile Brennstoffe) zu dem Zeitpunkt umfasst, zu dem die Datenbank aufgebaut wurde. Wenn das Schlüsselwort „fossil fuels" (fossile Brennstoffe) durch einen Benutzer als eine Verfeinerungsstrategie ausgewählt wird, kann die Anfrage nicht nur Dokumente zurückliefern, die „fossil fuels" (fossile Brennstoffe) umfassen, sondern auch Dokumente, die ein separates Auftreten der Wörter „fossil" (fossile) und „fuels" (Brennstoffe) umfassen. Beispiele von Algorithmen zum Verarbeiten von Schlüsselwörtern – z. B. aufgrund von Wortstämmen oder Synonymen – werden unten angegeben.
Zum dynamischen Ableiten der Schlüsselwörter aus den Einträgen, die von der Anfrage zurückgeliefert werden, kann man jedes Verfahren benutzen, das per se bekannt ist. In diesem Zusammenhang können die Schlüsselwörter Wörter oder Folgen von Wörtern umfassen. Wie in 1 angezeigt wird, wird bevorzugt, dass die Schlüsselwörter Folgen von Wörtern umfassen. Man kann z. B. in einer ersten Operationsphrase, die vor den Anfragen ausgeführt wird, aus allen Dokumenten in der Datenbank eine Menge von relevanten Folgen von Wörtern ableiten, z. B. unter Verwendung des Algorithmus, der von Y. Choueka in "Looking for Needles in a Haystack or Locating Interesting Collocational Expressions in Large Textual Databases" (Conference on User-Oriented Content-Based Text an Image Handling, MIT, Cambridge, MA, USA, Seiten 609–623, 1988) beschrieben wurde. Dieser Schritt bildet eine Datenbank von Schlüsselwörtern. Dann in einer zweiten Operationsphase, die in Beantwortung der Benutzeranfrage ausgeführt wird, kann man aus dieser Schlüsselwort-Datenbank die Schlüsselwörter dynamisch extrahieren, die mit der Menge der Dokumente assoziiert werden, die durch die Anfrage ausgewählt werden, und diejenigen auswählen, die am häufigsten auftreten, wenn die Menge der Schlüsselwörter dem Benutzer angezeigt wird.
Um die Abruf-Effektivität der Suchmaschine zu verbessern, können Schlüsselwörter auch Wortstämme (oder Präfixe) anstelle von Wörtern umfassen, oder Folgen von Wortstämmen oder Präfixen. Zum Beispiel deckt ein Wortstamm wie „telephon*" (Telefon*) Wörter wie „telephone" (Telefon), „telephones" (Telefone), „telephony" (Telefonie) und dergleichen ab. Der Wortstamm „mobil*" (Mobil*) deckt die Wörter „mobile" (Mobil), „mobiles" (Mobile), „mobility" (Mobilität), etc. ab. In dem Beispiel „mobile telephone" (mobiles Telefon), liefert eine Verwendung der Folge der Wortstämme „mobil * telephon*" (mobil* Telefon*) als Schlüsselwörter eine effektivere Verwendung von Schlüsselwörtern. Bei einem solchen Aufbau wird ein gegebenes Schlüsselwort K mit einer Menge S(K) von Folgen von Wörtern assoziiert. Z. B. umfasst bei dem Schlüsselwort „mobil* telephon*" (mobil* Telefon*) die Menge S("mobil* telephon*") „mobile telephone" (mobiles Telefon), aber auch „mobile telephony" (mobile Telefonie), „mobile telephones" (mobile Telefone), „mobility telephoning" (Mobilität Telefonieren) und dergleichen. Jedes Wort kann automatisch mit seinem Wortstamm assoziiert werden unter Verwendung des Algorithmus, der in M.F. Porter, „An algorithm for suffix stripping", Programs, Vol. 14 Nr. 3, Seiten 130–137, Juli 1980 offenbart ist.
Wenn Schlüsselwörter Wortstämme umfassen, kann ein Dokument mit einem Schlüsselwort K assoziiert werden, falls das Dokument ein beliebiges Wort oder eine Folge von Wörtern in der Menge S(K) der Schlüsselwörter K enthält.
An diesem Punkt sollte berücksichtigt werden, dass die angezeigten Schlüsselwörter nicht notwendigerweise alle relevanten Dokumente oder Sites abdecken, im Gegensatz zu dem Vorschlag der WO-A-98 49637.
Die Erfindung schlägt also vor, dem Benutzer in Beantwortung der Anfrage ausgewählte Kategorien sowie dynamisch ausgewählte Schlüsselwörter anzuzeigen. Beide können zum Verfeinern der Suchstrategie verwendet werden, so wie es nun beschrieben wird.
Der Benutzer kann eine oder mehrere der angezeigten Kategorien und Schlüsselwörter zum Verfeinern der Suchstrategie auswählen. Ein Auswählen einer angezeigten Kategorie oder eines Schlüsselworts liefert eine neue Anfrage, die durch die neuerlich ausgewählte Kategorie oder durch das neuerlich ausgewählte Schlüsselwort verfeinert wird. Z. B. würde ein Auswählen der Unterkategorie „Issues" (Themen) in dem Beispiel der 1 die Dokumente und Sites zurückliefern, die einen „greenhouse effect" (Treibhauseffekt) betreffen und in der vorgegebenen Unterkategorie „Issues" (Themen) der Kategorie „Society" (Gesellschaft) sind. 2 ist die zugehörige Anzeige. Sie ist ähnlich der Anzeige der 1 und stellt die Tatsache sicher, dass der Suchpfad anzeigt, dass die Suche auf die Kategorie „Issues" (Themen) beschränkt ist. Zusätzlich sind die Dokumente und Sites, die durch die Anfrage zurückgeliefert werden, von denjenigen der 1 verschieden. Bemerkenswerterweise ist die Anzahl der Treffer oder Ergebnisse 26 anstelle von 839. Schließlich zeigt 2, dass die Schlüsselwörter und Kategorien gemäß der Ergebnisse aktualisiert werden, die von der Anfrage zurückgeliefert werden. Einschränkungen durch Kategorien, so wie beispielhaft in 2 dargestellt, liefern normalerweise eine Untermenge der Menge von Treffern oder Ergebnissen zurück, die von der ersten Anfrage bereitgestellt wurde.
Durch Auswählen und Anzeigen von Kategorien und es einem Benutzer zu ermöglichen, eine Anfrage aufgrund dieser Kategorien zu verfeinern, ermöglicht die Erfindung dem Benutzer, von der Expertise, die durch die vorgegebenen Kategorien verkörpert wird, zu profitieren. Zusätzlich vermeidet die Erfindung durch Auswählen von Schlüsselwörtern und Anzeigen dieser Schlüsselwörter die Einschränkungen, die für jedes System aus vorgegebenen Kategorien inhärent sind. Kategorien und Schlüsselwörter werden für den Benutzer transparent bereitgestellt, wobei eine Navigation innerhalb von Dokumenten dadurch einfach und effektiv bleibt und keine speziellen Fähigkeiten des Benutzers erfordert.
In der Ausführungsform der 1 ist vor jedem der Schlüsselwörter ein Minuszeichen vorgesehen. In einer speziellen Ausführungsform der Erfindung wird dieses Zeichen verwendet, um das entsprechende Schlüsselwort von der Anfrage auszuschließen. Z. B. in dem Beispiel der 1 kann ein Auswählen des Minuszeichens vor „greenhouse gases" (Treibhausgase) von der Anfrage alle Dokumente ausschließen, die das Schlüsselwort „greenhouse gases" (Treibhausgase) umfassen. Dieses Merkmal der Erfindung macht es möglich, die Anzahl der Antworten durch Ausschließen derjenigen Antworten, die bestimmte Schlüsselwörter enthalten, einfacher zu reduzieren. Ein Auswählen des Links zu einem Schlüsselwort generiert eine neue Anfrage mit dem Schlüsselwort. 3 zeigt die Anzeige, die durch das Schlüsselwort „fossil fuels" (fossile Brennstoffe) in dem Beispiel der 1 erhalten wird. Sie ist wieder ähnlich zu den Anzeigen der 1 und 2. Jedoch ist der Suchpfad sowie die Liste der Schlüsselwörter und Kategorien aktualisiert. Die Liste der Ergebnisse ist auch unterschiedlich. An diesem Punkt sollte berücksichtigt werden, dass die Ergebnisse, die bei einer solchen Verfeinerung der Suche nach einem speziellen Schlüsselwort erhalten werden, nicht notwendigerweise eine Untermenge der Ergebnisse der Originalanfrage sind: In der Tat kann dies von dem Algorithmus abhängen, der für die Suche verwendet wird, und insbesondere von der Art und Weise, wie Folgen von Wörtern in diesem Algorithmus behandelt werden.
Angenommen z. B., dass der Benutzer ursprünglich das Wort/climate/(Klima) in die Anfragebox eingibt. Die erste Anfrage würde dann Dokumente zurückliefern, die exakt das Wort „climate" (Klima) umfassen. Angenommen der Benutzer wählt dann eine Verfeinerungsstrategie aus, z. B. das Schlüsselwort „fossil fuels" (fossile Brennstoffe) aus der Liste der Schlüsselwörter: Die neuformulierte Anfrage kann dann /climat* fossil* fuel*/(Klima* fossil* Brennstoff*) sein, wobei „climat*" (Klima*) der Wortstamm von „climate" (Klima), „fossil*" (fossil*) der Wortstamm von „fossil" (fossile) und „fuel*" (Brennstoff*) der Wortstamm von „fuels" (Brennstoffe) ist. Im Gegensatz zu der ursprünglichen Anfrage, die nur Dokumente zurückliefert, die das exakte Wort „climate" (Klima) umfassen, kann die verfeinerte Anfrage Dokumente zurückliefern, die z. B. „climatic" (klimatisch) umfassen, aber nicht das exakte Wort „climate" (Klima). In diesem Beispiel werden Wörter, die von dem Benutzer eingegeben werden, nur durch ihre Wortstämme ersetzt, wenn die Anfrage verfeinert wird. Das Interesse dies zu tun ist, dass ein Ersetzen von Wörtern durch ihre Wortstämme in Benutzeranfragen – was eine Form der Anfragengeneralisierung oder Anfragenerweiterung ist – die Anzahl der Ergebnisse erhöht. Falls dies zu einem Zeitpunkt ausgeführt wird, zu dem die Anfrage nicht genau genug ist, kann die Suchmaschine zu viele irrelevante Dokumente zurückliefern; wobei die Erfindung deshalb vorschlägt, eine Wortstammbildung nur an einigen Punkten des Verfeinerungsprozesses durchzuführen. Mann kann nach einer bestimmten Anzahl von Verfeinerungen entscheiden, dies zu tun.
Es ist beachtenswert, dass das gleiche Argument das Verfeinern durch Kategorien betrifft, wobei ein Verfeinern durch eine Kategorie in der Tat mehr Dokumente zurückliefern kann als die ursprüngliche Anfrage, insoweit wie diese Anfrage durch Wortstammbildung erweitert wurde. Das Verfeinern durch Kategorien stellt jedoch eine Untermenge der Wortstammbildung der Anfrage bereit.
In diesem Beispiel wird deutlich, dass die Dokumente, die zurückgeliefert werden, nachdem die Anfrage verfeinert wurde, nicht notwendigerweise mit dem Schlüsselwort „fossil fuels" (fossile Brennstoffe) assoziiert werden. Die genaue Weise, in der Schlüsselwörter behandelt werden, hängt von dem invertierten Index ab, der verwendet wird, um Dokumente abzurufen.
Es ist auch möglich, dem Benutzer zu ermöglichen, mehr als eine Kategorie oder ein Schlüsselwort als Verfeinerungsstrategie auszuwählen. Ein Auswählen von mehreren Verfeinerungsstrategien zur gleichen Zeit kann dem Benutzer ermöglichen, die Anzahl von Dokumenten einfacher und schneller zu beschränken.
4 ist eine Anzeige, die durch Verfeinern der Suche nach dem Schlüsselwort "CO2 emissions" (CO2-Emissionen) in der Anzeige der 2 erhalten wird. Die Anzahl der zurückgelieferten Ergebnisse ist niedrig – 6 in dem Beispiel. In diesem Fall ist es möglich, wie in 4 beispielhaft gezeigt wird, die Liste der Dokumente oder Sites ohne weitere Kategorien oder Schlüsselwörter anzuzeigen. Dies trifft insbesondere zu, wo, unter der Annahme, dass der Benutzer durch all die Antworten einfach „browsen" kann und die Anzahl der Treffer nicht einschränken muss, die Anzahl der Ergebnisse geringer als 10 ist.
In den 3, 4 und 5 stellt der Suchpfad Links zu vorhergehenden Schlüsselwörtern oder Suchen bereit. In 4 oder 5 kann der Benutzer z. B. „Issues" (Themen) in dem Suchpfad auswählen und zu der Anzeige der 2 zurückgelangen.
5 ist eine weitere Ansicht der Anzeige des Suchwerkzeugs der 1, nachdem die Suche auf eine Kategorie der Liste von Ergebnissen beschränkt wurde; wobei die Anzeige der 5 insbesondere dann erhalten wird, wenn der Benutzer die Kategorie „Climate Change" (Klimaveränderung) in dem sechsten Ergebnis der Liste der Ergebnisse auswählt. Wie in Bezug auf 1 erläutert, können als Antwort auf eine Benutzeranfrage Dokumente, die mit der Anfrage übereinstimmen, an den Benutzer zurückgeliefert werden, zusammen mit einer Beschreibung und, wenn vorhanden, den Kategorien, in welchen dieses Dokument klassifiziert ist. Wenn der Benutzer eine dieser Kategorien in der Liste auswählt, beginnt die Suchmaschine eine neue Suche und zeigt alle Dokumente an, die in der Kategorie enthalten sind. Vorzugsweise wird von den Dokumenten gemäß der Anfragebox eine Rangfolge erstellt oder sie werden sortiert. In dem Beispiel der 5 umfasst die Kategorie „Climate Change" (Klimaveränderung) 122 Dokumente, die alle in der Liste von Ergebnissen angezeigt werden. Der Suchpfad zeigt den Pfad zu der Kategorie. Unterkategorien – das sind Kategorien die in der „Climate Change"-Kategorie referenziert werden – werden angezeigt.
Ein Auswählen einer Kategorie in der Liste der Ergebnisse ermöglicht also dem Benutzer in allen Dokumenten der Kategorie zu navigieren, während der Fokus auf seine anfängliche Anfrage beibehalten wird – im Hinblick auf die Anfrage, die in der Anzeigebox angezeigt wird und möglicherweise zum Bewerten von Dokumenten verwendet wird. Diese Fähigkeit ermöglicht dem Benutzer, seine Suche auszuweiten auf Dokumente, die mit dem einen, das gefunden wurde, verwandt sind, ohne den Fokus seiner Suche zu verlieren; wobei zusätzlich die gleichen Navigationswerkzeuge wie vorher verwendet werden, nämlich Unterkategorien und Schlüsselwörter. Diese Ausführungsform kann ausgeführt werden durch Verwendung eines reinen Rangfolgenmechanismus für Anfragen: Kein Bool'scher Filter wird verwendet, außer zum Auswählen der Kategorie, die besucht wird, während in einer Kategorie navigiert wird.
6 ist ein Flussdiagramm eines Prozesses gemäß der Erfindung. In dem ersten Schritt 20 wird eine Datenbank bereitgestellt, die eine Menge von Einträgen ist – z. B. Dokumente oder Sites. Jeder Eintrag wird mit keinem, einem oder mehreren Schlüsselwörtern assoziiert.
Bei bereitgestellter Datenbank wird in Schritt 22 eine Menge von Kategorien bereitgestellt. Wie oben diskutiert, ist die Menge der Kategorien eine "statische" Menge. Es ist vorteilhaft, dass die Kategorien in einer Baumstruktur organisiert sind, um eine Navigation innerhalb der Kategorien zu vereinfachen; wobei dies jedoch in keinem Fall eine Anforderung an die Erfindung ist. Ein gerichteter azyklischer Graph kann verwendet werden, oder sogar jeder Typ von Graph. Einträge werden dann auf Kategorien abgebildet.
In Schritt 24 gibt der Benutzer eine Anfrage ein – „greenhouse effect" (Treibhauseffekt) in der Ausführungsform der 1.
In Schritt 26 werden die Ergebnisse der Anfrage durch die Suchmaschine zurückgeliefert. Sie können dem Benutzer angezeigt werden.
In Schritt 28 werden die Ergebnisse der Anfrage analysiert, um wenigstens eine Kategorie auszuwählen. Die Kategorien werden dann dem Benutzer angezeigt.
In Schritt 30 werden die Ergebnisse der Anfrage analysiert und Schlüsselwörter werden dynamisch abgerufen. Diese Schlüsselwörter werden dann dem Benutzer angezeigt.
In Schritt 32 werden dem Benutzer ausgewählte Kategorien und Schlüsselwörter angezeigt, so wie es bei 13 in 1 gezeigt wird.
In Schritt 34 wählt der Benutzer eine oder mehrere der angezeigten Kategorien und Schlüsselwörter aus. Eine neue Anfrage wird in Schritt 36 definiert. Die Anfrage wird auf die Datenbank angewandt und der Prozess kann tatsächlich zurück zu Schritt 26 gehen. In dieser Weise können neue Ergebnisse angezeigt werden, zusammen mit neuerlich ausgewählten Verfeinerungsstrategien. Verfeinerungsstrategien bieten nicht nur Einschränkungen der Ergebnisse, die bei einer vorhergehenden Anfrage erhalten wurden, sondern können auch neue Ergebnisse bieten. Die Suche kann also auf andere relevantere Schlüsselwörter ausgeweitet werden und relevantere Dokumente oder Sites abrufen.
Die Erfindung kann in dem Beispiel einer Datenbank aus textuellen Einträgen unter Verwendung von Folgen von Wörtern oder Wortstämmen als Schlüsselwörter wie folgt ausgeführt werden. Die Einträge können Dokumente oder Sites umfassen.
Vier Datenbanken werden eingerichtet, um jeweils den invertierten Index der Dokumentwörter, die Schlüsselwörter, die mit dem Dokument assoziiert sind, die Kategorien, die mit dem Dokument assoziiert sind, und eine Zusammenfassung von jedem Dokument, die z. B. die Adresse des Dokuments im Internet und einige seiner ersten Zeilen umfasst, zu speichern. Alle vier dieser Datenbanken können z. B. unter Verwendung des AltaVista Search Developer's Kit realisiert werden, das um ein Treiberprogramm erweitert ist, das in der Sprache C realisiert ist.
Es ist zu berücksichtigen, dass die Implementierer sich entscheiden können, alle vier Datenbanken in einer einzigen Datenbank zu integrieren, oder dass es auch einen invertierten Index und eine andere Datenbank geben kann, die sowohl die Kategorien, die Schlüsselwörter als auch die Zusammenfassungen vorhalten kann, wobei diese Datenbank ein sehr einfaches Feld von Datensätzen ist, die durch die Dokumentidentifizierer indiziert sind, die von dem invertierten Index zurückgeliefert werden.
Eine Indizierphase wird zuerst ausgeführt: Jedes der Dokumente wird nacheinander in eine Folge von Wörtern „geparsed", wobei für den Fall, dass Wortstämme verwendet werden, jedes Wort mit seinem Wortstamm durch den oben beschriebenen Algorithmus assoziiert wird. Bei Verwendung einer Hash-Tabellen-Datenstruktur wird jedes Wort/Wortstamm-Paar dann in zwei ganze Zahlen umgewandelt, einen Wortidentifizierer und einen Wordstammidentifizierer. Angenommen, dass Schlüsselwörter K spezifiziert werden, z. B. als Folgen von Wortstämmen "S1 ... Sn" wie oben beschrieben unter Verwendung einer anderen Hash-Tabelle, dann wird das Dokument mit den Schlüsselwörtern K assoziiert, so dass die Folge "S1 ... Sn" in dem Dokument auftritt. Wenn dies getan ist, werden Wörter, Wortstämme und Schlüsselwörter verwendet, um die vier Datenbanken unter Verwendung der oben beschriebenen Verfahren zu füllen, wobei die Wörter, die das Dokument bilden, dem invertierten Index zusammen mit ihren Stämmen hinzugefügt werden, wobei die Kategorien, die möglicherweise mit dem Dokument assoziiert werden, der Kategoriendatenbank und dem invertierten Index hinzugefügt werden, wobei die Schlüsselwörter, die mit dem Dokument assoziiert werden, der Schlüsselwort-Datenbank hinzugefügt werden (vollständig oder teilweise), und es wird für die Dokumente eine Zusammenfassung aufgebaut und der Zusammenfassungsdatenbank hinzugefügt. Es ist zu beachten, dass die Klassifikation eines Dokuments in eine Kategorie manuell einmal und für alle durchgeführt wird, wobei die Extraktion von Schlüsselwörtern aus den Dokumenten vollständig automatisch ist. Ebenso ist anzumerken, dass es keine Notwendigkeit gibt, Schlüsselwörter dem invertierten Index hinzuzufügen, aufgrund der unterschiedlichen Behandlung von Kategorien und Schlüsselwörtern, wie oben beschrieben. Angenommen, dass die Verfeinerung z. B. darin besteht, nur Dokumente zurückzuliefern, die das exakte Schlüsselwort „fossil fuels" (fossile Brennstoffe) umfassen, dann kann man dies mittels des invertierten Index tun, der nur Einträge zurückliefert, die das Wort „fossil" (fossile) unmittelbar gefolgt von dem Wort „fuels" (Brennstoffe) umfasst; wobei diese Art von Merkmal typischerweise von modernen invertierten Indizes bereitgestellt wird, wie z. B. den oben vorgeschlagenen. In diesem Fall muss „fossil fuels" (fossile Brennstoffe) dem invertierten Index nicht als ein separater oder atomarer Eintrag hinzugefügt werden.
Ein HTTP-Server wird dann eingerichtet, um Benutzeranfragen über das Internet zu bedienen. Man kann z. B. den Apache-HTTP-Server verwenden.
Ein spezialisiertes Erweiterungsmodul wird dem HTTP-Server hinzugefügt, um die Verarbeitung auszuführen, die mit den Anfragen des Benutzers verbunden sind. Dieses Erweiterungsmodul kann z. B. mittels der Sprache C und der Apache-API realisiert werden, oder mittels der Sprache Perl und des mod_perl Apaache-Moduls oder mittels der Sprache Java und des Jserv Apache-Moduls. Die spezialisierten Module führen den Prozess der Erfindung aus. Als Antwort auf eine Benutzeranfrage kontaktiert das Modul zuerst die invertierte Indexdatenbank um eine Menge von mit einem Rang versehenen Dokumenten abzurufen, die die Anfrage beantworten. Das Modul kontaktiert dann alle drei anderen Datenbanken, um die Kategorien, Schlüsselwörter und Zusammenfassungen abzurufen, die mit diesen Dokumenten assoziiert sind.
Das Modul ist dann in der Lage, den Schlüsselwörter- und Kategorien-Auswahlprozess auszuführen, der oben beschrieben wurde; wobei sobald die relevanten Kategorien und Schlüsselwörter ausgewählt wurden, diese mit den resultierenden Dokumenten zum Aufbauen der HTML-Antwortseite kombiniert werden, die dem Benutzer durch den HTTP-Server zurückgeliefert wird.
7 ist ein Diagramm, das ein Suchwerkzeug gemäß der Erfindung zeigt. Es zeigt einen Computer 40, der einen Benutzerzugriff auf das Werkzeug repräsentiert. In dem Beispiel wird auf das Werkzeug durch das Internet 42 zugegriffen. Das Suchwerkzeug umfasst einen HTTP-Server 44; wobei dieser Server, wie oben beschrieben, die Anfragen der Benutzer empfängt und die Antworten als HTML-Dokumente zurückliefert. Das Suchwerkzeug umfasst auch eine Datenbank 46, wobei die Datenbank, wie oben beschrieben, vier Teile umfasst, nämlich einen invertierten Index 48, eine Kategoriendatenbank 50, eine Schlüsselwort-Datenbank 52 und eine Zusammenfassungsdatenbank 54. Wie oben beschrieben kontaktiert in Beantwortung einer Benutzeranfrage das HTTP-Server-Suchmodul erst die Datenbank des invertierten Index, um eine Menge von mit einem Rang versehenen Dokumenten abzurufen, die die Anfrage beantworten, wobei die Dokumente einfach als eine Liste von Dokument-IDs zurückgeliefert werden können, wie in 7 gezeigt. Das Modul kontaktiert dann alle drei anderen Datenbanken, um die Kategorien, Schlüsselwörter und Zusammenfassungen, die mit diesem Dokument assoziiert sind, abzurufen, wobei das Modul, wie in 7 gezeigt, einfach die Dokument-ID senden kann, um die notwendige Information abzurufen.
7 zeigt des weiteren einen Crawler 56, der zum Referenzieren von Web-Servern 58 verwendet wird. Der Crawler sucht nach neuer Information, die im Internet verfügbar ist und aktualisiert die Datenbank.
Die Erfindung wurde in der vorliegenden Beschreibung mit Bezug auf Internet-Suchen offenbart, wobei die Ergebnisse der Suche Dokumente und Web-Sites des World Wide Web sind. Die Erfindung betrifft grundsätzlich Suchen innerhalb jedes Typs von indizierten oder nicht-indizierten Datenbanken, vorausgesetzt eine Anzahl von Schlüsselwörtern kann mit Einträgen der Datenbank assoziiert werden. Zusätzlich können die Einträge der Datenbank wenigstens teilweise auf Kategorien abgebildet werden, um Kategorien zurückzuliefern und dem Benutzer zu ermöglichen, die Suche zu verfeinern. In diesem Zusammenhang ist das World Wide Web ein Paradigma für eine Datenbank, während indizierte Dokumente oder Web-Sites Paradigmen für Datenbankeinträge sind. In der Ausführungsform der Erfindung, die in den 1 bis 5 offenbart ist, wird vorgeschlagen, eine Liste von Einträgen anzuzeigen, die durch die Anfrage zurückgeliefert werden, wobei die Erfindung tatsächlich ohne Anzeigen dieser Liste ausgeführt werden kann, sondern einfach durch dem Benutzer Anzeigen von Verfeinerungsstrategien.
Schließlich wird die Erfindung nicht durch die obige Beschreibung eingeschränkt. Andere Arten zum Füllen von Datenbanken können verwendet werden.

Claims

Verfahren zum Durchsuchen einer Datenbank mit Einträgen, umfassend die Schritte: – Bereitstellen einer Datenbank mit Einträgen, wobei wenigstens ein Teil der Einträge auf eine Kategorienmenge abgebildet ist und wenigstens einem Teil der Einträge Schlüsselwörter zugeordnet sind; – als Reaktion auf eine erste Anfrage eines Benutzers: – Durchsuchen der Datenbank mit Einträgen und Zurückgeben von Einträgen in Reaktion auf die Anfrage; – Auswählen von Kategorieren aus der Kategorienmenge gemäß der von der Anfrage zurückgegeben Einträge; – dynamisches Auswählen von den Einträgen zugeordneten Schlüsselwörtern, die durch die Anfrage zurückgegeben werden; und – dem Benutzer Anzeigen der ausgewählten Kategorien und der ausgewählten Schlüsselwörter; – Starten einer die erste Anfrage verfeinernden zweiten Anfrage, als Reaktion auf den Benutzer, der eine der angezeigten Kategorien und eines der angezeigten Schlüsselwörter aktiviert.
Verfahren nach Anspruch 1, wobei die Kategorien in einem Baum oder einer gerichteten azyklischen Graph-Struktur organisiert sind.
Verfahren nach Anspruch 1 oder 2, wobei ein Schlüsselwort eine Folge von Wörtern oder eine Folge von Wortstämmen ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die ausgewählten Kategorien und die ausgewählten Schlüsselwörter ähnlich angezeigt werden.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die ausgewählten Kategorien getrennt von den ausgewählten Schlüsselwörtern dargestellt werden.
Verfahren nach einem der Ansprüche 1 bis 5, desweiteren umfassend einen Schritt des Startens einer neuen Anfrage, wenn ein Benutzer eine der angezeigten Kategorien und eines der angezeigten Schlüsselwörter aktiviert.
Verfahren nach Anspruch 6, wobei der Schritt des Aktivierens ein Ausschließen einer angezeigten Kategorie oder eines angezeigten Schlüsselwortes von der Anfrage eines Benutzers umfaßt.
Verfahren nach Anspruch 6, wobei der Schritt des Aktivierens ein Verfeinern der Anfrage des Benutzers auf die Kategorie oder das Schlüsselwort umfaßt.
Verfahren nach einem der Ansprüche 1 bis 8, desweiteren umfassend ein dem Benutzer Anzeigen einer Liste von durch die Anfrage zurückgegebenen Einträgen.
Verfahren nach Anspruch 9, desweiteren umfassend ein Anzeigen einer Kategorie, auf die wenigstens ein Eintrag der Liste abgebildet wird, in der Liste.
Verfahren nach Anspruch 10, desweiteren umfassend ein Anzeigen der Einträge, die in einer Kategorie enthalten sind, wenn der Benutzer die Kategorie in der Liste auswählt.
Verfahren nach Anspruch 11, desweiteren umfassend ein Bilden einer Rangfolge der Einträge, die in der Kategorie enthalten sind, bevor sie angezeigt werden.
Verfahren nach einem der Ansprüche 1 bis 12, wobei Kategorien hierarchisch organisiert werden, und wobei der Schritt des Anzeigens ein Anzeigen von Kategorien verschiedener hierarchischer Ebenen umfaßt.
Eine Sucheinrichtung, umfassend einen Such-Server (44) zum Empfangen von Anfragen von Benutzern und Übertragen von Ergebnissen an Benutzer, eine Datenbank (46) mit Einträgen, wobei wenigstens ein Teil der Einträge auf eine Kategorienmenge abgebildet ist und einem Teil der Einträge Schlüsselwörtern zugeordnet sind, wobei der Such-Server umfaßt: – Mittel zum Durchsuchen der Datenbank, zum Zurückgeben von Einträgen in Reaktion auf eine Anfrage und zum Auswählen von Kategorien aus der Kategorienmenge gemäß der durch eine Anfrage zurückgegebenen Einträge; – Mittel zum dynamischen Auswählen von den Einträgen zugeordneten Schlüsselwörtern, die durch die Anfrage zurückgegeben werden; wobei die an den Benutzer in Reaktion auf eine erste Anfrage übertragen Ergebnisse die ausgewählten Kategorien und die ausgewählten Schlüsselwörter umfassen, und wobei der Such-Server eingerichtet ist, eine zweite die erste Anfrage verfeinernde Anfrage zu starten, in Reaktion auf ein Aktivieren einer der in Reaktion auf eine erste Anfrage angezeigten Kategorien und Schlüsselwörter durch den Benutzer:
Einrichtung nach Anspruch 14, wobei der Such-Server ein HTTP-Server ist.
Einrichtung nach Anspruch 14 oder 15, wobei die Einträge textuelle Einträge sind, und wobei die Datenbank (46) einen invertierten Index (48) umfaßt, wobei die Kategorien Einträge des invertierten Index sind.