-
Die
Erfindung betrifft das Gebiet des Abrufens von Information und insbesondere
des Anzeigens von Ergebnissen einer Suchanfrage, sowie des Navigierens
in Datenbanken und des Eingebens von Anfragen in Datenbanken. Sie
betrifft insbesondere Suchen im Internet.
-
In
der vorliegenden Beschreibung bezeichnet das Wort "Site" oder "Internet Site" eine Anzahl von
Dokumenten die durch Links verbunden sind, mit einem vorgegebenen
Eintrittspunkt. Ein Verzeichnis ist das Ergebnis eines Indizierens
einer Anzahl von Sites oder Dokumenten und des Klassifizieren in
Kategorien; wobei Kategorien deshalb Untermengen der Verzeichnisse
sind, die normalerweise durch eine manuelle Handlung definiert werden,
wobei solche Kategorien häufig
in einem Baum organisiert sind, um ein Navigieren innerhalb von
Kategorien zu vereinfachen, wobei man auch Kategorien verwenden kann,
die in einem gerichteten azyklischen Graph organisiert sind, der
ein Graph mit einer Vielzahl von Pfaden zu der gleichen Kategorie
ist. Eine Suchmaschine ist ein Werkzeug zum Suchen innerhalb von Dokumenten,
das normalerweise ein automatisches Indizieren der Dokumente realisiert.
-
Eine
Anzahl von Suchwerkzeugen existiert zum Suchen und Abrufen von Information
im Internet. Die Alta Vista Company schlägt eine Internet-Such-Site vor mit einer
Anfragebox, in die der Benutzer Schlüsselwörter zum Abrufen von Information eingeben
kann. Die Sprache der Suche kann eingeschränkt werden. Es wird eine Box
bereitgestellt, die es dem Benutzer erlaubt, verwandte Suchen auszuwählen, wobei
die verwandten Suchen tatsächlich Sätze oder
Wortfolgen anzeigen, die die gegenwärtige Anfrage als einen Teilstring
umfassen. Falls z. B. die Anfrage, die durch den Benutzer eingegeben
wurde, /greenhouse effect/(Treibhauseffekt) ist (im Rest dieser
Beschreibung wird die Anfrage durch//markiert), können verwandte
Suchen, die folgenden Wahlmöglichkeiten
anbieten:
- – „the greenhouse
effect" (der Treibhauseffekt),
- – „what is
the greenhouse effect" (was
ist der Treibhauseffekt),
- – „enhanced
greenhouse effect" (fortgeschrittener Treibhauseffekt).
-
Es
wird ebenso eine Suche innerhalb von Site-Kategorien vorgeschlagen,
wobei diese Suche tatsächlich
eine unabhängige
Kategoriensuche in einer separaten Datenbank ist.
-
Die
Ergebnisse der Suche werden dem Benutzer unter der Liste der verwandten
Suchen angezeigt. Die Ergebnisse werden als eine Liste von Dokumenten
oder Sites angezeigt.
-
Eine
andere Internet-Such-Site wird von Yahoo! Inc. vorgeschlagen. Es
wird wieder eine Anfragebox bereitgestellt. Ergebnisse einer Suche,
die in die Anfragebox eingegeben wurde, werden in mehreren Abschnitten
angezeigt. Der erste Abschnitt zeigt die Übereinstimmungen von Kategorien
zusammen mit dem Pfad zu den Übereinstimmungen
in dem Kategorienbaum an, während
der zweite Abschnitt Übereinstimmungen
von Sites anzeigt. Der dritte Abschnitt zeigt Web-Seiten an.
-
Mit
dem gleichen Beispiel/greenhouse effect/(Treibhauseffekt), ist die
erste Kategorie-Übereinstimmung „global
warming" (Erderwärmung).
Der Pfad zu "global
warming" (Erderwärmung) in
dem Kategorienbaum ist Home > Society
and Culture > Environment
and Nature (Home > Gesellschaft
und Kultur > Umwelt
und Natur). Es können
mehrere Pfade zu der gleichen Kategorie bereitgestellt werden; wobei
in dem Beispiel/greenhouse effect/(Treibhauseffekt), die mit „global
warming" (Erderwärmung) bezeichnete
Kategorie in fünf
verschiedenen Pfaden auftaucht. Ein Auswählen einer Kategorie im ersten Abschnitt
erlaubt es dem Benutzer, auf den Inhalt der Kategorie zuzugreifen.
-
Der
zweite Abschnitt zeigt Site-Übereinstimmungen,
wobei Übereinstimmungen
gemäß ihrer
Kategorien gruppiert werden. Der dritte Abschnitt zeigt Web-Seiten,
zusammen mit einer Zusammenfassung und einer Adresse.
-
Google
Inc. stellt ebenso eine Internet-Site zum Suchen innerhalb von Sites
und Kategorien bereit. Die Ergebnisse einer Suche umfassen einen Hinweis
auf die Klassifikation von Sites und Kategorien. Wenn das Schlüsselwort
für eine
Suche eingegeben wird, können
einige Wörter
ausgeschlossen werden. Ein Auswählen
der Kategoriesuche stattet den Benutzer mit einer Liste von Kategorien
aus, die mit der Suche verwandt sein können; wobei auf den Inhalt
jeder Kategorie später
zugegriffen werden kann. In dem Beispiel der Suche nach/greenhouse effect/(Treibhauseffekt),
umfassen die Kategorien/Issues/Environment/Climate Change (Gesellschaft/Themen/Umwelt/Klimaveränderung).
-
A.V.
Leouski und W. Bruce Croft,„An
Evaluation of Techniques for Clustering Search Results", CIIR Technical
Report IR-76, National Center for Intelligent Information Retrieval,
University of Masachussetts Amherst, MA, U.S.A., Frühjahr 1996, vergleichen
Klassifikationsverfahren des Information-Retrieval und des Maschinenlernens
zum Clustern von Suchergebnissen in einer Suchmaschine. Abgesehen
von Cluster-Techniken diskutiert dieses Dokument Cluster-Beschreibung.
Ein erstes Verfahren zum Beschreiben eines Clusters umfasst ein Auswählen einer
Anzahl der wichtigsten Begriffe aus Dokumenten, die in dem Cluster
enthalten sind und ihr dem Benutzer Präsentieren. Ein zweites bevorzugtes
Verfahren ist, die wichtigen Begriffe durch wichtige Phrasen zu
ersetzen – wobei
eine Phrase als eine Folge von einem oder mehreren Wörtern definiert
wird. Dieses Dokument bietet eine Lösung des Problems des dynamischen
Clusterns von Dokumenten, die aus einer Datenbank durch eine Suchmaschine
abgerufen wurden.
-
US-A-5
463 773 offenbart das Aufbauen eines Dokument-Klassifikationsbaums durch rekursive Optimierung
einer Schlüsselwort-Auswahlfunktion. Es
werden Retrieval-Mittel zum Extrahieren von Schlüsselwörtern bereitgestellt, wenn
Dokumentdaten eingegeben werden, und zum Ausgeben einer Klassifikation
für die
Dokumentdaten, wobei die Klassifikation aus dem Klassifikations-Entscheidungsbaum
ausgewählt
wird. Zum Extrahieren von Schlüsselwörtern schlägt dieses
Dokument vor, Schlüsselwörter zu
extrahieren, die durch Wortfolgen definiert werden. Ein Lernprozess
wird zum automatischen Aufbauen eines Dokument-Klassifikationsbaums auf der Basis der
extrahierten Schlüsselwörter vorgeschlagen.
-
US-A-5
924 090 schlägt
ein Suchen innerhalb von Dokumenten vor und ein Abbilden der Schlüsselwörter der
Dokumente innerhalb statischer Kategorien. Kategorien werden deshalb
in einem manuellen Prozess vordefiniert. Die Verwendung von Kategorien
macht es möglich,
auf Dokumente zuzugreifen, die in den Kategorien enthalten sind,
die auf die Kategorien abgebildet sind. In diesem Dokument bietet
eine Suchmaschine die Ergebnisse einer Anfrage, wobei die Ergebnisse
auf die statischen Kategorien abgebildet werden und relevante Kategorien dem
Benutzer als Suchmappen angezeigt werden. Wenn eine Suchmappe von
dem Benutzer ausgewählt
wird, werden dem Benutzer die Dokumente angezeigt, die in der Suchmappe
enthalten sind – d.
h., die Dokumente, die auf korrespondierende Kategorien abgebildet
werden. Es wird eine Reihe von Suchmappen jedesmal angezeigt, wenn
eine Suche ausgeführt
wird, wobei die Suchmappen jene statischen Kategorien sind, auf
die eine Anzahl von abgerufenen Dokumenten abgebildet wurde.
-
US-A-5
963 965 offenbart ein Verfahren, bei dem relevante Mengen von Phrasen
automatisch aus textbasierten Dokumenten extrahiert werden, um einen
Index für
diese Dokumente aufzubauen. Diese Phrasen werden dann in Clustern
zusammengefasst, um eine Vielzahl von Abbildungen zu bilden, die
hierarchische Beziehungen zwischen den Clustern graphisch beschreiben,
und die verwendet werden können,
um relevante Anteile der Dokumente als Antwort auf den Benutzer
anzuzeigen, der einen dieser Cluster auswählt.
-
US-A-5
991 756 beschreibt ein Verfahren, gemäß dem Suchanfragen auf eine
Menge von Dokumenten angewandt werden können, die in einer Hierarchie
aus Kategorien organisiert sind und bei dem dem Benutzer eine Untermenge
dieser Kategorien als Antwort präsentiert
wird, die die Dokumente umfasst, die für die Anfrage relevant sind.
-
WO-A-98
49637 schlägt
vor, Ergebnisse einer Suche in einer Menge der relevantesten Kategorien
zu organisieren. Als Antwort auf eine Suche wird die Suchergebnisliste
verarbeitet, um dynamisch eine Menge von Suchergebniskategorien
zu erzeugen. Jede dieser Suchergebniskategorien ist mit einer Untermenge
der Datensätze
innerhalb der Suchergebnisliste mit herkömmlichen Charakteristiken assoziiert.
Kategorien werden dann als Mappen angezeigt.
-
Weiss
R. et al, „Hypersuit:
a hierarchical network search engine that exploits content-link
hypertext clustering",
Hypertext'96, 7th ACM Conference on Hypertext, Washington,
16.–20.
März 1996,
diskutiert dynamisches Clustern von Hypertext-Dokumenten, um einen
gegebenen Informationsraum zum Browsen und für Suchaktivitäten zu strukturieren.
Die Hierarchie der Cluster wird verwendet, um dem Benutzer beim
Navigieren mittels Browsen der Cluster und Untercluster und ihres
Inhalts, der aus dem dynamischen Clustern der Ergebnismenge resultiert
(siehe S. 187, Abs. 2), zu helfen. Es gibt keine Anregung, Cluster-Hierarchien
zum Verfeinern von Anfragen zu verwenden. Anfragen können nur
durch Verwenden einer Volltext-Anfrage verfeinert werden.
-
„Taxonomized
Web Search"; IBM
Technical Disclosure Bulletin, Vol. 40, Nr. 5, Seiten 195 – 196, schlägt vor,
eine vordefinierte Menge von Schlüsselwörtern zum automatischen Klassifizieren
von Seiten zu verwenden. Die Suchschnittstelle erlaubt Anfragen,
kontextfreie syntaktische Suche mit kontextsensitiver Suche zu kombinieren,
die von Schlüsselwörtern geleitet
wird. Es gibt keine Anregung einer Suchverfeinerung in diesem Dokument.
Zusätzlich
gibt es keine Kategorien, auf die die Eintragungen abgebildet werden
würden.
Es gibt keine dynamisch ausgewählten
Schlüsselwörter gemäß der Ergebnisse
der Anfrage.
-
Eguchi
K. et al, "Adaptative
and incremental query expansion for cluster-based browsing"; Proceedings of
the 6th International Conference on Database
Systems for Advanced Applications, Hsinchu, Taiwan, Seiten 25–34, offenbaren
das Clustern von Einträgen
als Antwort auf eine Anfrage. Der Benutzer kann dann innerhalb der
Cluster navigieren. Cluster werden als Antwort auf Anfragen gebildet,
wobei es also kein Abbilden von Datenbankeinträgen auf die Cluster gibt. Die
Anfrage kann unter Verwendung von Clustern zu einer Volltextsuche
erweitert werden.
-
Hearst
M. A. et al., "Cat-A-Cone:
an Interactive Interface for Specifying Searched and Viewing Retrieval
Results using a Large Category Hierarchy", Proceedings of the 20th annual
international ACM-SIGIR Conference on Research and Development in Information
Retrieval, Philadelphia, PA, 27.–31. Juli 1997, Seiten 246 – 255, diskutieren
Browsen, schlagen jedoch keine Anfrageverfeinerung vor. Keine Schlüsselwörter werden
offenbart.
-
WO-A-98
09229 lehrt ein Verfahren zum Speichern von Zusammenfassungen von
Dokumenten. Zusammenfassungen werden durch Identifizieren von Schlüsselsätzen aus
Dokumenten extrahiert. Diese können
danach verwendet werden, um innerhalb von Dokumenten zu suchen.
Diese Referenz diskutiert kein Navigieren innerhalb von Dokumenten,
Kategorien oder Schlüsselwörtern.
-
US-A-5
933 827 diskutiert ein Klassifizieren von Web-Seiten. Das System
interagiert mit dem Benutzer, um beim Klassifizieren von Web-Seiten
zu helfen. Es gibt keinen Hinweis auf irgendeine Navigation innerhalb
von klassifizierten Ergebnissen.
-
Die
Verfahren und Prozesse zum Information-Retrieval des Standes der
Technik haben eine Anzahl von Nachteilen. Festgelegte oder statische
Kategorien bieten tatsächlich
eine Repräsentation
der Welt – eine
Menge von Dokumenten – zu
einem gegebenen Zeitpunkt und für
ein gegebenes Wissensgebiet. Sie können ein Aktualisieren oder
Anpassen an neue Typen von Dokumenten benötigen, wenn und falls die Menge
der Dokumente durch neue Dokumente vervollständigt wird, insbesondere durch Dokumente
in einem neuen Wissensgebiet. Während
statische Kategorien deshalb exakt die Expertise des Menschen repräsentieren,
der sie definiert hat, sind sie tatsächlich auf diese Expertise
eingeschränkt.
Zusätzlich
ist jede Menge von Kategorien durch den Aufwand an menschlicher
Arbeit eingeschränkt,
der zum Vervollständigen
von Kategorien und Abbilden von Einträgen der Datenbank auf die Kategorien
benötigt
wird.
-
Aus
Schlüsselwörtern gebildet
Cluster können
eine dynamische Sicht der Welt bieten. Jedoch stellen sie kein einfach
zu „durchbrowsendes" Werkzeug dar und
erlauben dem Benutzer nicht, leicht und frei innerhalb der Dokumente
zu navigieren.
-
Eine
Kategoriesuche wird angepasst an ein Suchen innerhalb von Sites.
Schlüsselwortsuchen sind
besser angepasst an ein Suchen innerhalb von separaten textuellen
Dokumenten.
-
Deshalb
gibt es einen Bedarf nach einem Prozess und Werkzeug zum Information-Retrieval, der/das
einen Benutzer in die Lage versetzt, nicht nur innerhalb festgelegter
Kategorien zu navigieren, sondern auch innerhalb von Schlüsselwörtern. Die
Erfindung bietet also ein Suchwerkzeug und einen Suchprozess, der
seinen Benutzer in die Lage versetzt, innerhalb von Kategorien und
Schlüsselwörtern in
einer freundlichen und transparenten Weise frei zu navigieren. Die
Erfindung kombiniert die Vorteile einer Menge von durch den Menschen
angefertigten Kategorien – nämlich der
Expertise in einem gegebenen Gebiet – zusammen mit den Vorteilen
einer Schlüsselwortsuche – nämlich der
Fähigkeit,
Dokumente außerhalb
des gegebenen Gebiets zu verarbeiten und zu handhaben. Die Erfindung
bietet ein Werkzeug, das auf ein Suchen innerhalb einer Datenbank aus
Sites und separaten Dokumenten oder Seiten gut angepasst ist.
-
Insbesondere
bietet die Erfindung ein Verfahren zum Durchsuchen einer Datenbank
mit Einträgen,
umfassend die Schritte:
- – Bereitstellen einer Datenbank
aus Einträgen, wobei
wenigstens ein Teil der Einträge
auf eine Kategorienmenge abgebildet ist, und wobei wenigstens einem
Teil der Einträge
Schlüsselwörtern zugeordnet
sind;
- – Auswählen von
Kategorien aus der Kategorienmenge gemäß der von der Anfrage zurückgegebenen
Einträge,
in Reaktion auf eine Anfrage des Benutzers;
- – dynamisches
Auswählen
von den Einträgen,
die Schlüsselwörtern zugeordnet
sind und die durch die Anfrage zurückgegeben wurden; und
- – dem
Benutzer Anzeigen der ausgewählten
Kategorien und der ausgewählten
Schlüsselwörter.
-
Bei
einer speziellen Ausführungsform
des Prozesses sind die Kategorien in einem Baum oder in einer gerichteten
azyklischen Graph-Struktur organisiert. Ein Schlüsselwort kann vorzugsweise
eine Folge von Wörtern
oder eine Folge von Wortstämmen sein.
-
Ausgewählte Kategorien
und Schlüsselwörter können ähnlich oder
getrennt angezeigt werden.
-
Bei
einer speziellen Ausführungsform
des Prozesses wird eine neue Anfrage gestartet, wenn ein Benutzer
eine der angezeigten Kategorien oder Schlüsselwörter aktiviert. Dieser Schritt
des Aktivierens kann ein Verfeinern der Anfrage des Benutzers auf
die Kategorie oder das Schlüsselwort
umfassen. Dieser Schritt des Aktivierens kann ebenso ein Ausschließen einer
angezeigten Kategorie oder eines Schlüsselworts aus der Anfrage des
Benutzers umfassen.
-
In
einer anderen Ausführungsform
des Prozesses wird dem Benutzer eine Liste von Einträgen angezeigt,
die durch die Anfrage zurückgegeben werden.
Man kann dann in der Liste eine Kategorie anzeigen, auf die wenigstens
ein Eintrag der Liste abgebildet wird. Wenn der Benutzer diese Kategorie
in der Liste auswählt,
können
die Einträge
angezeigt werden, die in der ausgewählten Kategorie enthalten sind.
In diesem Fall kann aus den Einträgen, die in der Kategorie enthalten
sind, eine Rangfolge gebildet werden, bevor sie angezeigt werden.
-
Zusätzlich kann
der Schritt des Anzeigens ein Anzeigen von Kategorien aus verschiedenen
hierarchischen Ebenen umfassen, wenn Kategorien hierarchisch organisiert
sind.
-
Die
Erfindung stellt auch ein Suchwerkzeug bereit, umfassend einen Such-Server zum Empfangen
von Anfragen von Benutzern und Übertragen
von Ergebnissen an Benutzer, eine Datenbank aus Einträgen, wobei
wenigstens ein Teil der Einträge
auf eine Kategorienmenge abgebildet ist, wobei einem Teil der Einträge Schlüsselwörter zugeordnet
sind, wobei der Such-Server umfasst:
- – Mittel
zum Durchsuchen der Datenbank und zum Auswählen von Kategorien aus der
Kategorienmenge gemäß der durch
eine Anfrage zurückgegebenen
Einträge;
- – Mittel
zum dynamischen Auswählen
von den Einträgen
zugeordneten Schlüsselwörtern, die durch
die Anfrage zurückgegeben
werden;
- – und
wobei die an den Benutzer übertragenen Ergebnisse
die ausgewählten
Kategorien und die ausgewählten
Schlüsselwörter umfassen.
-
Der
Such-Server ist vorzugsweise ein HTTP-Server. Wenn die Einträge textuelle
Einträge sind,
kann die Datenbank einen invertierten Index umfassen, wobei die
Kategorien Einträge
des invertierten Index sind.
-
Ein
Suchwerkzeug, das die Erfindung verkörpert, wird nun im Wege des
Beispiels und mit Bezug auf die beiliegenden Zeichnungen beschrieben, in
welchen:
-
1 eine
Ansicht eines Suchwerkzeugs gemäß der Erfindung
ist;
-
2 eine
weitere Ansicht der Darstellung des Suchwerkzeuges der 1 ist,
nachdem die Suche auf eine Kategorie beschränkt wurde;
-
3 eine
weitere Ansicht der Darstellung des Suchwerkzeugs der 1 ist,
nachdem die Suche auf ein Schlüsselwort
beschränkt
wurde;
-
4 eine
weitere Ansicht der Darstellung des Suchwerkzeugs der 2 ist,
nachdem die Suche auf ein Schlüsselwort
beschränkt
wurde;
-
5 eine
weitere Ansicht der Darstellung des Suchwerkzeugs der 1 ist,
nachdem die Suche auf eine Kategorie aus der Liste der Ergebnisse beschränkt wurde;
-
6 ein
Flussdiagramm eines Verfahrens gemäß der Erfindung ist; und
-
7 ein
Diagramm eines Suchwerkzeugs gemäß der Erfindung
ist.
-
In
Beantwortung einer Anfrage schlägt
die Erfindung vor, dem Benutzer eine Folge von Verfeinerungsstrategien
anzuzeigen; wobei die Verfeinerungsstrategien relevante Kategorien
umfassen, die aus einer Menge von statischen Kategorien ausgewählt werden.
Zusätzlich
umfasst die Folge Schlüsselwörter, die
aus den in Beantwortung der Anfrage bereitgestellten Dokumenten
dynamisch erhalten wurden. Die Erfindung ermöglicht dem Benutzer, die Suche
unter Benutzung vordefinierter Kategorien zu verfeinern; wobei zusätzlich das
Anzeigen von Schlüsselwörtern dem
Benutzer ermöglicht,
einfacher innerhalb der Ergebnisse der Anfrage zu navigieren, ohne
auf feste Kategorien beschränkt
zu sein.
-
Im
Rest der Beschreibung wird die Erfindung in Bezug auf ihre bevorzugte
Ausführungsform
offenbart, wobei die Datenbank das World Wide Web umfasst und Internet-Sites
sowie Web-Dokumente umfasst. Das Werkzeug gemäß der Erfindung ermöglicht,
die Datenbank dank eines HTTP-Servers zu durchsuchen.
-
Grundsätzlich kann
die Erfindung auf jede Datenbank angewendet werden, bei der Einträge wenigstens
teilweise auf vorgegebene Kategorien abgebildet werden und mit Schlüsselwörtern assoziiert werden
können.
Abbilden ist üblicherweise
eine manuelle Handlung, obwohl es möglich ist, jeden automatischen
Prozess zu verwenden. Textuelle Einträge können einfach mit Schlüsselwörtern assoziiert
werden, z. B. durch automatisches Indizieren der Einträge und Auswählen von
Schlüsselwörtern. In
diesem Fall kann ein automatisches Abbilden auf Kategorien basierend
auf Schlüsselwörtern ausgeführt werden.
-
1 ist
eine Anzeige eines Suchwerkzeugs gemäß der Erfindung. Eine Anfragebox 1 wird
dem Benutzer zum Eingeben einer Anzahl von Schlüsselwörtern für eine Suche oder eine Anfrage
angezeigt, wobei in dem Beispiel der 1 die eingegebene
Suche wieder/greenhouse effect/(Treibhauseffekt) ist. In einer per
se bekannten Art und Weise kann die Suche auf einen Teil der Datenbank
eingeschränkt
werden, in dem Beispiel der 1 aufgrund
der Zeile 3. In dem Beispiel der 1 ist die
Suche nicht beschränkt
und die "World Wide
Web"-Auswahl erscheint
fettgedruckt in Zeile 3. Ein "OK"-Knopf 5 ermöglich dem
Benutzer, die Suche oder Anfrage zu starten. Ein aktueller Suchpfad
wird dem Benutzer unter der Anfragebox angezeigt, wobei die Benutzung
des Suchpfads mit Bezug auf 2 und 3 erklärt werden
wird.
-
In
Beantwortung der Suche wird eine Anzahl von Dokumenten und Sites
zurückgegeben.
Ein Abrufen von Dokumenten – Auswahl
von Sites oder Dokumenten innerhalb einer Datenbank von indizierten oder
teilweise indizierten Dokumenten oder Sites – kann in jeder beliebigen,
per se bekannten Art und Weise durchgeführt werden. Es ist insbesondere möglich, einen
invertierten Index zu verwenden, so wie das AltaVista Search Developer's Kit, das von der AltaVista
Company verkauft wird. Insbesondere wird eine Anfrage, die in die
Anfragebox von einem Benutzer eingegeben wird, in eine interne Repräsentation „geparsed", die dann in eine
Anfrage übersetzt
wird, die auf den invertierten Index angewandt wird. Diese Anfrage
wird gemäß der Merkmale
formuliert, die von dem invertierten Index unterstützt werden,
wobei üblicherweise
unterstützte
Merkmale ein Rangfolgenbilden, Bool'sche Suche, Phrasensuche, Stammbildung, Ähnlichkeitssuche,
etc. umfassen.
-
Eine
Anzahl dieser Dokumente oder Sites, die von dem invertierten Index
zurückgeliefert
werden, werden dem Benutzer in Beantwortung der Anfrage angezeigt.
In dem Beispiel der 1 stattet der rechte Teil des
untersten Abschnitts der Anzeige den Benutzer mit einer Liste 7 von
Dokumenten und Sites aus. Zusammen mit jedem Dokument ist es möglich, eine
Zusammenfassung des Dokuments oder der Site anzuzeigen, so wie es
in 1 in der Zeile unmittelbar unter jedem Dokument
oder jeder Site gezeigt ist. Eine ikonische Repräsentation des Wesens der Antwort
kann auch angezeigt werden: In dem Beispiel der 1 ist
Icon 9 eine Repräsentation
des Dokuments, während
Icon 11 anzeigt, dass die Antwort tatsächlich eine Site ist. Die Adresse
zum Zugreifen auf ein Dokument kann auch angezeigt werden, so wie
in 1 in der Zeile unter der Zusammenfassung jedes
Dokuments oder jeder Site gezeigt ist. Wenn ein Dokument Teil einer
vorgegebenen Kategorie ist, kann diese Kategorie auch angezeigt
werden. In dem Beispiel der 1 ist das sechste
Dokument der Liste 7 der Ergebnisse, die durch die Anfrage
zurückgeliefert
werden, mit „Many scientists
believe runaway greenhouse effect possibel" (viele Wissenschaftler glauben, dass
ein Verschwinden des Treibhauseffekts möglich ist) bezeichnet, wobei
dieses Dokument gegenwärtig
in der Kategorie „Climate
Change" (Klimaveränderung)
mit dem Zugriffspfad „Society
: ... :Environment : Climate Change"(Gesellschaft : ... : Umwelt Klimaveränderung)
in dem Kategoriebaum referenziert wird. Das achte Dokument ist auch
in einer Kategorie referenziert. Wie in 1 gezeigt,
ist es dem Benutzer möglich,
die Kategorie, die unter einem Ergebnis angezeigt wird, auszuwählen. Die
Effekte des Auswählens einer
Kategorie in der Liste der Ergebnisse werden mit Bezug auf 5 erläutert.
-
Es
sollte an diesem Punkt der Beschreibung verstanden werden, dass
das Verzeichnis der Kategorien in dieser Ausführungsform der Erfindung als ein
Beispiel einer vorgegebenen oder statischen Menge von Kategorien
gegeben ist. In dieser Beschreibung und in den beiliegenden Ansprüchen sollten
die Wörter "vorgegeben" oder "statisch", im Gegensatz zu "dynamisch", so verstanden werden,
dass die Menge der Kategorien nicht jedes mal verändert wird,
wenn ein Benutzer eine Anfrage eingibt. Dennoch kann sie natürlich verändert werden,
um Kategorien hinzuzufügen
oder zu entfernen.
-
Zusätzlich zum
Bereitstellen einer Liste von Dokumenten oder Sites, die von einer
Anfrage zurückgeliefert
werden, schlägt
die Erfindung vor, dem Benutzer eine Folge 13 von Verfeinerungsstrategien anzuzeigen.
Diese Verfeinerungsstrategien umfassen Kategorien, die aus der vorgegebenen
Menge von Kategorien ausgewählt
werden. In dem Beispiel der 1 werden
Kategorien und Schlüsselwörter als
zwei separate Listen 15 und 17 unter der Eingabebox
und dem Suchpfad angezeigt. Die Verfeinerungsstrategien „Society" (Gesellschaft) und „Science" (Wissenschaft) in
dem Beispiel der 1 sind also tatsächlich vorgegebene
Kategorien.
-
Die
vorgegebenen Kategorien können
durch jedes Verfahren, das per se bekannt ist, ausgewählt werden.
Man kann z. B. diejenigen Kategorien auswählen, die am häufigsten
mit den Dokumenten oder Sites, die von der Anfrage zurückgeliefert
werden, assoziiert werden. In der einen oder anderen Weise wird
eine Anzahl von Kategorien ausgewählt und dem Benutzer in Beantwortung
der Anfrage angezeigt.
-
So
wie in 1 gezeigt, kann man verschiedene Ebenen von Kategorien
anzeigen. In dem Beispiel ist die Kategorie „Society" (Gesellschaft) mit verschiedenen Unterkategorien
angezeigt, nämlich „Issues" (Themen), „Religion
and Spirituality" (Religion
und Spiritualität).
Die Anzahl der Ebenen der angezeigten Kategorien kann wie oben diskutiert
ausgewählt
werden, gemäß der Anzahl
der Dokumente oder Sites die durch die Anfrage zurückgeliefert
werden und die in einer Kategorie zu finden sind. Das Interesse
dies zu tun, ist den Benutzer durch Ausblenden von Zwischenkategorien
in der Hierarchie der Kategorien schneller in eine relevante Verfeinerung zu
geleiten.
-
Zusätzlich zu
ausgewählten
vordefinierten Kategorien umfassen die Verfeinerungsstrategien, die
dem Benutzer angezeigt werden, eine Anzahl von dynamisch abgeleiteten
Schlüsselwörtern. In
dem Beispiel der 1 erscheinen diese Schlüsselwörter in
einer Liste, die separat von der Liste der Kategorien ist. Im Gegensatz
zu dieser Ausführungsform könnten Verfeinerungsstrategien
angezeigt werden, ohne vorgegebene Kategorien und dynamisch abgeleitete
Schlüsselwörter zu
identifizieren. In diesem Fall würde
der Benutzer nicht zwischen vorgegebene Kategorien und Schlüsselwörtern unterscheiden.
-
Die
Schlüsselwörter unterscheiden
sich fundamental von vorgegebenen Kategorien.
-
Erstens
sind Kategorien in ihrer Anzahl beschränkt und sind eine Repräsentation
der Welt zu dem Zeitpunkt, zu dem die Datenbank aufgebaut wurde.
Im Gegensatz dazu bilden Schlüsselwörter, wie
auch immer sie gebildet wurden, keine Repräsentation der Welt, sondern
einfach eine Weise, Dokumente abzurufen. In gewisser Weise haben
sie per se keine Bedeutung und sind auf einer viel geringeren Ebene
als Kategorien.
-
Zweitens
ist im Hinblick auf diesen Unterschied die Anzahl der Kategorien
viel geringer als die Anzahl der Schlüsselwörter. Die Anzahl der Kategorien
ist typischerweise ungefähr
Tausende oder Zehntausende, wobei die Anzahl der Schlüsselwörter größer als
die Anzahl der einfachen Wörter
in der Sprache sein kann. Typischerweise kann die Anzahl der Schlüsselwörter einige
Millionen oder zehn Millionen sein.
-
Drittens
können
Kategorien nicht manipuliert werden und die Abbildung von Einträgen auf
Kategorien verändert
sich nicht, wenn eine Anfrage verarbeitet wird. Demzufolge werden
alle Dokumente einer Kategorie ausgewählt, wenn eine Kategorie ausgewählt wird – da die
Kategorie per se eine Menge von Dokumenten ist, selbst wenn sie
einen Namen zu dem Zweck hat, sie dem Benutzer anzuzeigen. Andererseits
sind Schlüsselwörter Objekte
ohne Bedeutung, die während
eines Formulierens oder Verfeinerns einer Anfrage manipuliert werden
können.
Insbesondere wenn eine Anfrage durch eine Kategorie verfeinert wird,
sind die resultierenden Dokumente eine Untermenge der Kategorie.
Wenn eine Anfrage durch ein Schlüsselwort
verfeinert wird, müssen
die resultierenden Dokumente nicht statisch mit dem Schlüsselwort
assoziiert sein.
-
Der
Unterschied zwischen Schlüsselwörtern und
Kategorien zeigt sich in den 1 bis 5. Während der
Suche verschwinden Kategorien der höheren Ebene, wenn der Benutzer
in der Hierarchie der Kategorien nach unten navigiert. Dies ist
der Fall, wenn Kategorien hierarchisch organisiert sind, z. B. in
einem Baum oder einen gerichteten azyklischen Graph.
-
Für den Fall,
dass die Erfindung auf eine Datenbank aus textuellen Einträgen angewandt
wird, wird ein invertierter Index zum Abrufen von Einträgen bereitgestellt.
Kategorien werden dann notwendigerweise Einträge des invertierten Index,
während Schlüsselwörter nicht
notwendigerweise Einträge des
invertierten Index sind.
-
Angenommen
zum Beispiel, dass Schlüsselwörter Folgen
von Wörtern
sind. Das Schlüsselwort „fossil
fuels" (fossile
Brennstoffe) könnte
dann mit jedem Dokument assoziiert werden, das die exakte Folge
der Wörter „fossil
fuels" (fossile
Brennstoffe) zu dem Zeitpunkt umfasst, zu dem die Datenbank aufgebaut
wurde. Wenn das Schlüsselwort „fossil
fuels" (fossile
Brennstoffe) durch einen Benutzer als eine Verfeinerungsstrategie
ausgewählt
wird, kann die Anfrage nicht nur Dokumente zurückliefern, die „fossil
fuels" (fossile
Brennstoffe) umfassen, sondern auch Dokumente, die ein separates
Auftreten der Wörter „fossil" (fossile) und „fuels" (Brennstoffe) umfassen.
Beispiele von Algorithmen zum Verarbeiten von Schlüsselwörtern – z. B.
aufgrund von Wortstämmen
oder Synonymen – werden
unten angegeben.
-
Zum
dynamischen Ableiten der Schlüsselwörter aus
den Einträgen,
die von der Anfrage zurückgeliefert
werden, kann man jedes Verfahren benutzen, das per se bekannt ist.
In diesem Zusammenhang können
die Schlüsselwörter Wörter oder Folgen
von Wörtern
umfassen. Wie in 1 angezeigt wird, wird bevorzugt,
dass die Schlüsselwörter Folgen
von Wörtern
umfassen. Man kann z. B. in einer ersten Operationsphrase, die vor
den Anfragen ausgeführt
wird, aus allen Dokumenten in der Datenbank eine Menge von relevanten
Folgen von Wörtern ableiten,
z. B. unter Verwendung des Algorithmus, der von Y. Choueka in "Looking for Needles
in a Haystack or Locating Interesting Collocational Expressions
in Large Textual Databases" (Conference on
User-Oriented Content-Based Text an Image Handling, MIT, Cambridge,
MA, USA, Seiten 609–623,
1988) beschrieben wurde. Dieser Schritt bildet eine Datenbank von
Schlüsselwörtern. Dann
in einer zweiten Operationsphase, die in Beantwortung der Benutzeranfrage
ausgeführt
wird, kann man aus dieser Schlüsselwort-Datenbank die Schlüsselwörter dynamisch
extrahieren, die mit der Menge der Dokumente assoziiert werden,
die durch die Anfrage ausgewählt
werden, und diejenigen auswählen,
die am häufigsten
auftreten, wenn die Menge der Schlüsselwörter dem Benutzer angezeigt
wird.
-
Um
die Abruf-Effektivität
der Suchmaschine zu verbessern, können Schlüsselwörter auch Wortstämme (oder
Präfixe)
anstelle von Wörtern
umfassen, oder Folgen von Wortstämmen
oder Präfixen. Zum
Beispiel deckt ein Wortstamm wie „telephon*" (Telefon*) Wörter wie „telephone" (Telefon), „telephones" (Telefone), „telephony" (Telefonie) und
dergleichen ab. Der Wortstamm „mobil*" (Mobil*) deckt die Wörter „mobile" (Mobil), „mobiles" (Mobile), „mobility" (Mobilität), etc.
ab. In dem Beispiel „mobile
telephone" (mobiles
Telefon), liefert eine Verwendung der Folge der Wortstämme „mobil
* telephon*" (mobil*
Telefon*) als Schlüsselwörter eine
effektivere Verwendung von Schlüsselwörtern. Bei
einem solchen Aufbau wird ein gegebenes Schlüsselwort K mit einer Menge
S(K) von Folgen von Wörtern
assoziiert. Z. B. umfasst bei dem Schlüsselwort „mobil* telephon*" (mobil* Telefon*)
die Menge S("mobil*
telephon*") „mobile
telephone" (mobiles
Telefon), aber auch „mobile
telephony" (mobile
Telefonie), „mobile
telephones" (mobile
Telefone), „mobility
telephoning" (Mobilität Telefonieren)
und dergleichen. Jedes Wort kann automatisch mit seinem Wortstamm
assoziiert werden unter Verwendung des Algorithmus, der in M.F. Porter, „An algorithm
for suffix stripping",
Programs, Vol. 14 Nr. 3, Seiten 130–137, Juli 1980 offenbart ist.
-
Wenn
Schlüsselwörter Wortstämme umfassen,
kann ein Dokument mit einem Schlüsselwort
K assoziiert werden, falls das Dokument ein beliebiges Wort oder
eine Folge von Wörtern
in der Menge S(K) der Schlüsselwörter K enthält.
-
An
diesem Punkt sollte berücksichtigt
werden, dass die angezeigten Schlüsselwörter nicht notwendigerweise
alle relevanten Dokumente oder Sites abdecken, im Gegensatz zu dem
Vorschlag der WO-A-98 49637.
-
Die
Erfindung schlägt
also vor, dem Benutzer in Beantwortung der Anfrage ausgewählte Kategorien
sowie dynamisch ausgewählte
Schlüsselwörter anzuzeigen.
Beide können
zum Verfeinern der Suchstrategie verwendet werden, so wie es nun
beschrieben wird.
-
Der
Benutzer kann eine oder mehrere der angezeigten Kategorien und Schlüsselwörter zum Verfeinern
der Suchstrategie auswählen.
Ein Auswählen
einer angezeigten Kategorie oder eines Schlüsselworts liefert eine neue
Anfrage, die durch die neuerlich ausgewählte Kategorie oder durch das neuerlich
ausgewählte
Schlüsselwort
verfeinert wird. Z. B. würde
ein Auswählen
der Unterkategorie „Issues" (Themen) in dem
Beispiel der 1 die Dokumente und Sites zurückliefern,
die einen „greenhouse
effect" (Treibhauseffekt)
betreffen und in der vorgegebenen Unterkategorie „Issues" (Themen) der Kategorie „Society" (Gesellschaft) sind. 2 ist
die zugehörige
Anzeige. Sie ist ähnlich
der Anzeige der 1 und stellt die Tatsache sicher,
dass der Suchpfad anzeigt, dass die Suche auf die Kategorie „Issues" (Themen) beschränkt ist.
Zusätzlich
sind die Dokumente und Sites, die durch die Anfrage zurückgeliefert
werden, von denjenigen der 1 verschieden.
Bemerkenswerterweise ist die Anzahl der Treffer oder Ergebnisse 26 anstelle
von 839. Schließlich zeigt 2,
dass die Schlüsselwörter und
Kategorien gemäß der Ergebnisse
aktualisiert werden, die von der Anfrage zurückgeliefert werden. Einschränkungen
durch Kategorien, so wie beispielhaft in 2 dargestellt,
liefern normalerweise eine Untermenge der Menge von Treffern oder
Ergebnissen zurück,
die von der ersten Anfrage bereitgestellt wurde.
-
Durch
Auswählen
und Anzeigen von Kategorien und es einem Benutzer zu ermöglichen,
eine Anfrage aufgrund dieser Kategorien zu verfeinern, ermöglicht die
Erfindung dem Benutzer, von der Expertise, die durch die vorgegebenen
Kategorien verkörpert
wird, zu profitieren. Zusätzlich
vermeidet die Erfindung durch Auswählen von Schlüsselwörtern und Anzeigen
dieser Schlüsselwörter die
Einschränkungen,
die für
jedes System aus vorgegebenen Kategorien inhärent sind. Kategorien und Schlüsselwörter werden
für den
Benutzer transparent bereitgestellt, wobei eine Navigation innerhalb
von Dokumenten dadurch einfach und effektiv bleibt und keine speziellen
Fähigkeiten
des Benutzers erfordert.
-
In
der Ausführungsform
der 1 ist vor jedem der Schlüsselwörter ein Minuszeichen vorgesehen.
In einer speziellen Ausführungsform
der Erfindung wird dieses Zeichen verwendet, um das entsprechende
Schlüsselwort
von der Anfrage auszuschließen.
Z. B. in dem Beispiel der 1 kann ein Auswählen des
Minuszeichens vor „greenhouse
gases" (Treibhausgase)
von der Anfrage alle Dokumente ausschließen, die das Schlüsselwort „greenhouse gases" (Treibhausgase)
umfassen. Dieses Merkmal der Erfindung macht es möglich, die
Anzahl der Antworten durch Ausschließen derjenigen Antworten, die
bestimmte Schlüsselwörter enthalten,
einfacher zu reduzieren. Ein Auswählen des Links zu einem Schlüsselwort
generiert eine neue Anfrage mit dem Schlüsselwort. 3 zeigt
die Anzeige, die durch das Schlüsselwort „fossil
fuels" (fossile
Brennstoffe) in dem Beispiel der 1 erhalten
wird. Sie ist wieder ähnlich
zu den Anzeigen der 1 und 2. Jedoch
ist der Suchpfad sowie die Liste der Schlüsselwörter und Kategorien aktualisiert.
Die Liste der Ergebnisse ist auch unterschiedlich. An diesem Punkt
sollte berücksichtigt
werden, dass die Ergebnisse, die bei einer solchen Verfeinerung
der Suche nach einem speziellen Schlüsselwort erhalten werden, nicht
notwendigerweise eine Untermenge der Ergebnisse der Originalanfrage
sind: In der Tat kann dies von dem Algorithmus abhängen, der
für die
Suche verwendet wird, und insbesondere von der Art und Weise, wie
Folgen von Wörtern
in diesem Algorithmus behandelt werden.
-
Angenommen
z. B., dass der Benutzer ursprünglich
das Wort/climate/(Klima) in die Anfragebox eingibt. Die erste Anfrage
würde dann
Dokumente zurückliefern,
die exakt das Wort „climate" (Klima) umfassen.
Angenommen der Benutzer wählt
dann eine Verfeinerungsstrategie aus, z. B. das Schlüsselwort „fossil
fuels" (fossile
Brennstoffe) aus der Liste der Schlüsselwörter: Die neuformulierte Anfrage kann
dann /climat* fossil* fuel*/(Klima* fossil* Brennstoff*) sein, wobei „climat*" (Klima*) der Wortstamm von „climate" (Klima), „fossil*" (fossil*) der Wortstamm
von „fossil" (fossile) und „fuel*" (Brennstoff*) der
Wortstamm von „fuels" (Brennstoffe) ist.
Im Gegensatz zu der ursprünglichen
Anfrage, die nur Dokumente zurückliefert,
die das exakte Wort „climate" (Klima) umfassen,
kann die verfeinerte Anfrage Dokumente zurückliefern, die z. B. „climatic" (klimatisch) umfassen,
aber nicht das exakte Wort „climate" (Klima). In diesem
Beispiel werden Wörter,
die von dem Benutzer eingegeben werden, nur durch ihre Wortstämme ersetzt,
wenn die Anfrage verfeinert wird. Das Interesse dies zu tun ist,
dass ein Ersetzen von Wörtern
durch ihre Wortstämme
in Benutzeranfragen – was
eine Form der Anfragengeneralisierung oder Anfragenerweiterung ist – die Anzahl
der Ergebnisse erhöht.
Falls dies zu einem Zeitpunkt ausgeführt wird, zu dem die Anfrage
nicht genau genug ist, kann die Suchmaschine zu viele irrelevante
Dokumente zurückliefern;
wobei die Erfindung deshalb vorschlägt, eine Wortstammbildung nur
an einigen Punkten des Verfeinerungsprozesses durchzuführen. Mann
kann nach einer bestimmten Anzahl von Verfeinerungen entscheiden,
dies zu tun.
-
Es
ist beachtenswert, dass das gleiche Argument das Verfeinern durch
Kategorien betrifft, wobei ein Verfeinern durch eine Kategorie in
der Tat mehr Dokumente zurückliefern
kann als die ursprüngliche Anfrage,
insoweit wie diese Anfrage durch Wortstammbildung erweitert wurde.
Das Verfeinern durch Kategorien stellt jedoch eine Untermenge der
Wortstammbildung der Anfrage bereit.
-
In
diesem Beispiel wird deutlich, dass die Dokumente, die zurückgeliefert
werden, nachdem die Anfrage verfeinert wurde, nicht notwendigerweise
mit dem Schlüsselwort „fossil
fuels" (fossile
Brennstoffe) assoziiert werden. Die genaue Weise, in der Schlüsselwörter behandelt
werden, hängt
von dem invertierten Index ab, der verwendet wird, um Dokumente
abzurufen.
-
Es
ist auch möglich,
dem Benutzer zu ermöglichen,
mehr als eine Kategorie oder ein Schlüsselwort als Verfeinerungsstrategie
auszuwählen.
Ein Auswählen
von mehreren Verfeinerungsstrategien zur gleichen Zeit kann dem
Benutzer ermöglichen, die
Anzahl von Dokumenten einfacher und schneller zu beschränken.
-
4 ist
eine Anzeige, die durch Verfeinern der Suche nach dem Schlüsselwort "CO2 emissions" (CO2-Emissionen)
in der Anzeige der 2 erhalten wird. Die Anzahl
der zurückgelieferten
Ergebnisse ist niedrig – 6
in dem Beispiel. In diesem Fall ist es möglich, wie in 4 beispielhaft
gezeigt wird, die Liste der Dokumente oder Sites ohne weitere Kategorien oder
Schlüsselwörter anzuzeigen.
Dies trifft insbesondere zu, wo, unter der Annahme, dass der Benutzer
durch all die Antworten einfach „browsen" kann und die Anzahl der Treffer nicht
einschränken
muss, die Anzahl der Ergebnisse geringer als 10 ist.
-
In
den 3, 4 und 5 stellt
der Suchpfad Links zu vorhergehenden Schlüsselwörtern oder Suchen bereit. In 4 oder 5 kann der
Benutzer z. B. „Issues" (Themen) in dem
Suchpfad auswählen
und zu der Anzeige der 2 zurückgelangen.
-
5 ist
eine weitere Ansicht der Anzeige des Suchwerkzeugs der 1, nachdem
die Suche auf eine Kategorie der Liste von Ergebnissen beschränkt wurde;
wobei die Anzeige der 5 insbesondere dann erhalten
wird, wenn der Benutzer die Kategorie „Climate Change" (Klimaveränderung)
in dem sechsten Ergebnis der Liste der Ergebnisse auswählt. Wie
in Bezug auf 1 erläutert, können als Antwort auf eine Benutzeranfrage
Dokumente, die mit der Anfrage übereinstimmen,
an den Benutzer zurückgeliefert
werden, zusammen mit einer Beschreibung und, wenn vorhanden, den
Kategorien, in welchen dieses Dokument klassifiziert ist. Wenn der Benutzer
eine dieser Kategorien in der Liste auswählt, beginnt die Suchmaschine
eine neue Suche und zeigt alle Dokumente an, die in der Kategorie enthalten
sind. Vorzugsweise wird von den Dokumenten gemäß der Anfragebox eine Rangfolge
erstellt oder sie werden sortiert. In dem Beispiel der 5 umfasst
die Kategorie „Climate
Change" (Klimaveränderung) 122 Dokumente,
die alle in der Liste von Ergebnissen angezeigt werden. Der Suchpfad zeigt
den Pfad zu der Kategorie. Unterkategorien – das sind Kategorien die in
der „Climate
Change"-Kategorie
referenziert werden – werden
angezeigt.
-
Ein
Auswählen
einer Kategorie in der Liste der Ergebnisse ermöglicht also dem Benutzer in
allen Dokumenten der Kategorie zu navigieren, während der Fokus auf seine anfängliche
Anfrage beibehalten wird – im
Hinblick auf die Anfrage, die in der Anzeigebox angezeigt wird und
möglicherweise
zum Bewerten von Dokumenten verwendet wird. Diese Fähigkeit
ermöglicht
dem Benutzer, seine Suche auszuweiten auf Dokumente, die mit dem
einen, das gefunden wurde, verwandt sind, ohne den Fokus seiner Suche
zu verlieren; wobei zusätzlich
die gleichen Navigationswerkzeuge wie vorher verwendet werden, nämlich Unterkategorien
und Schlüsselwörter. Diese Ausführungsform
kann ausgeführt
werden durch Verwendung eines reinen Rangfolgenmechanismus für Anfragen:
Kein Bool'scher
Filter wird verwendet, außer
zum Auswählen
der Kategorie, die besucht wird, während in einer Kategorie navigiert
wird.
-
6 ist
ein Flussdiagramm eines Prozesses gemäß der Erfindung. In dem ersten
Schritt 20 wird eine Datenbank bereitgestellt, die eine
Menge von Einträgen
ist – z.
B. Dokumente oder Sites. Jeder Eintrag wird mit keinem, einem oder
mehreren Schlüsselwörtern assoziiert.
-
Bei
bereitgestellter Datenbank wird in Schritt 22 eine Menge
von Kategorien bereitgestellt. Wie oben diskutiert, ist die Menge
der Kategorien eine "statische" Menge. Es ist vorteilhaft,
dass die Kategorien in einer Baumstruktur organisiert sind, um eine Navigation
innerhalb der Kategorien zu vereinfachen; wobei dies jedoch in keinem
Fall eine Anforderung an die Erfindung ist. Ein gerichteter azyklischer
Graph kann verwendet werden, oder sogar jeder Typ von Graph. Einträge werden
dann auf Kategorien abgebildet.
-
In
Schritt 24 gibt der Benutzer eine Anfrage ein – „greenhouse
effect" (Treibhauseffekt)
in der Ausführungsform
der 1.
-
In
Schritt 26 werden die Ergebnisse der Anfrage durch die
Suchmaschine zurückgeliefert.
Sie können
dem Benutzer angezeigt werden.
-
In
Schritt 28 werden die Ergebnisse der Anfrage analysiert,
um wenigstens eine Kategorie auszuwählen. Die Kategorien werden
dann dem Benutzer angezeigt.
-
In
Schritt 30 werden die Ergebnisse der Anfrage analysiert
und Schlüsselwörter werden
dynamisch abgerufen. Diese Schlüsselwörter werden dann
dem Benutzer angezeigt.
-
In
Schritt 32 werden dem Benutzer ausgewählte Kategorien und Schlüsselwörter angezeigt,
so wie es bei 13 in 1 gezeigt
wird.
-
In
Schritt 34 wählt
der Benutzer eine oder mehrere der angezeigten Kategorien und Schlüsselwörter aus.
Eine neue Anfrage wird in Schritt 36 definiert. Die Anfrage
wird auf die Datenbank angewandt und der Prozess kann tatsächlich zurück zu Schritt 26 gehen.
In dieser Weise können
neue Ergebnisse angezeigt werden, zusammen mit neuerlich ausgewählten Verfeinerungsstrategien.
Verfeinerungsstrategien bieten nicht nur Einschränkungen der Ergebnisse, die
bei einer vorhergehenden Anfrage erhalten wurden, sondern können auch
neue Ergebnisse bieten. Die Suche kann also auf andere relevantere
Schlüsselwörter ausgeweitet
werden und relevantere Dokumente oder Sites abrufen.
-
Die
Erfindung kann in dem Beispiel einer Datenbank aus textuellen Einträgen unter
Verwendung von Folgen von Wörtern
oder Wortstämmen
als Schlüsselwörter wie
folgt ausgeführt
werden. Die Einträge
können
Dokumente oder Sites umfassen.
-
Vier
Datenbanken werden eingerichtet, um jeweils den invertierten Index
der Dokumentwörter, die
Schlüsselwörter, die
mit dem Dokument assoziiert sind, die Kategorien, die mit dem Dokument
assoziiert sind, und eine Zusammenfassung von jedem Dokument, die
z. B. die Adresse des Dokuments im Internet und einige seiner ersten
Zeilen umfasst, zu speichern. Alle vier dieser Datenbanken können z.
B. unter Verwendung des AltaVista Search Developer's Kit realisiert
werden, das um ein Treiberprogramm erweitert ist, das in der Sprache
C realisiert ist.
-
Es
ist zu berücksichtigen,
dass die Implementierer sich entscheiden können, alle vier Datenbanken
in einer einzigen Datenbank zu integrieren, oder dass es auch einen
invertierten Index und eine andere Datenbank geben kann, die sowohl
die Kategorien, die Schlüsselwörter als
auch die Zusammenfassungen vorhalten kann, wobei diese Datenbank ein
sehr einfaches Feld von Datensätzen
ist, die durch die Dokumentidentifizierer indiziert sind, die von
dem invertierten Index zurückgeliefert
werden.
-
Eine
Indizierphase wird zuerst ausgeführt: Jedes
der Dokumente wird nacheinander in eine Folge von Wörtern „geparsed", wobei für den Fall,
dass Wortstämme
verwendet werden, jedes Wort mit seinem Wortstamm durch den oben
beschriebenen Algorithmus assoziiert wird. Bei Verwendung einer Hash-Tabellen-Datenstruktur
wird jedes Wort/Wortstamm-Paar dann in zwei ganze Zahlen umgewandelt,
einen Wortidentifizierer und einen Wordstammidentifizierer. Angenommen,
dass Schlüsselwörter K spezifiziert
werden, z. B. als Folgen von Wortstämmen "S1 ... Sn" wie oben beschrieben unter Verwendung
einer anderen Hash-Tabelle, dann wird das Dokument mit den Schlüsselwörtern K
assoziiert, so dass die Folge "S1
... Sn" in dem Dokument
auftritt. Wenn dies getan ist, werden Wörter, Wortstämme und
Schlüsselwörter verwendet,
um die vier Datenbanken unter Verwendung der oben beschriebenen Verfahren
zu füllen,
wobei die Wörter,
die das Dokument bilden, dem invertierten Index zusammen mit ihren
Stämmen
hinzugefügt
werden, wobei die Kategorien, die möglicherweise mit dem Dokument
assoziiert werden, der Kategoriendatenbank und dem invertierten
Index hinzugefügt
werden, wobei die Schlüsselwörter, die
mit dem Dokument assoziiert werden, der Schlüsselwort-Datenbank hinzugefügt werden
(vollständig
oder teilweise), und es wird für die
Dokumente eine Zusammenfassung aufgebaut und der Zusammenfassungsdatenbank
hinzugefügt. Es
ist zu beachten, dass die Klassifikation eines Dokuments in eine
Kategorie manuell einmal und für
alle durchgeführt
wird, wobei die Extraktion von Schlüsselwörtern aus den Dokumenten vollständig automatisch
ist. Ebenso ist anzumerken, dass es keine Notwendigkeit gibt, Schlüsselwörter dem
invertierten Index hinzuzufügen,
aufgrund der unterschiedlichen Behandlung von Kategorien und Schlüsselwörtern, wie
oben beschrieben. Angenommen, dass die Verfeinerung z. B. darin
besteht, nur Dokumente zurückzuliefern,
die das exakte Schlüsselwort „fossil
fuels" (fossile
Brennstoffe) umfassen, dann kann man dies mittels des invertierten
Index tun, der nur Einträge
zurückliefert, die
das Wort „fossil" (fossile) unmittelbar gefolgt
von dem Wort „fuels" (Brennstoffe) umfasst; wobei
diese Art von Merkmal typischerweise von modernen invertierten Indizes
bereitgestellt wird, wie z. B. den oben vorgeschlagenen. In diesem
Fall muss „fossil
fuels" (fossile
Brennstoffe) dem invertierten Index nicht als ein separater oder
atomarer Eintrag hinzugefügt
werden.
-
Ein
HTTP-Server wird dann eingerichtet, um Benutzeranfragen über das
Internet zu bedienen. Man kann z. B. den Apache-HTTP-Server verwenden.
-
Ein
spezialisiertes Erweiterungsmodul wird dem HTTP-Server hinzugefügt, um die
Verarbeitung auszuführen,
die mit den Anfragen des Benutzers verbunden sind. Dieses Erweiterungsmodul
kann z. B. mittels der Sprache C und der Apache-API realisiert werden,
oder mittels der Sprache Perl und des mod_perl Apaache-Moduls oder
mittels der Sprache Java und des Jserv Apache-Moduls. Die spezialisierten Module führen den
Prozess der Erfindung aus. Als Antwort auf eine Benutzeranfrage
kontaktiert das Modul zuerst die invertierte Indexdatenbank um eine Menge
von mit einem Rang versehenen Dokumenten abzurufen, die die Anfrage
beantworten. Das Modul kontaktiert dann alle drei anderen Datenbanken, um
die Kategorien, Schlüsselwörter und
Zusammenfassungen abzurufen, die mit diesen Dokumenten assoziiert
sind.
-
Das
Modul ist dann in der Lage, den Schlüsselwörter- und Kategorien-Auswahlprozess auszuführen, der
oben beschrieben wurde; wobei sobald die relevanten Kategorien und
Schlüsselwörter ausgewählt wurden,
diese mit den resultierenden Dokumenten zum Aufbauen der HTML-Antwortseite
kombiniert werden, die dem Benutzer durch den HTTP-Server zurückgeliefert
wird.
-
7 ist
ein Diagramm, das ein Suchwerkzeug gemäß der Erfindung zeigt. Es zeigt
einen Computer 40, der einen Benutzerzugriff auf das Werkzeug repräsentiert.
In dem Beispiel wird auf das Werkzeug durch das Internet 42 zugegriffen.
Das Suchwerkzeug umfasst einen HTTP-Server 44; wobei dieser Server,
wie oben beschrieben, die Anfragen der Benutzer empfängt und
die Antworten als HTML-Dokumente zurückliefert. Das Suchwerkzeug
umfasst auch eine Datenbank 46, wobei die Datenbank, wie oben
beschrieben, vier Teile umfasst, nämlich einen invertierten Index 48,
eine Kategoriendatenbank 50, eine Schlüsselwort-Datenbank 52 und
eine Zusammenfassungsdatenbank 54. Wie oben beschrieben kontaktiert
in Beantwortung einer Benutzeranfrage das HTTP-Server-Suchmodul
erst die Datenbank des invertierten Index, um eine Menge von mit
einem Rang versehenen Dokumenten abzurufen, die die Anfrage beantworten,
wobei die Dokumente einfach als eine Liste von Dokument-IDs zurückgeliefert
werden können,
wie in 7 gezeigt. Das Modul kontaktiert dann alle drei
anderen Datenbanken, um die Kategorien, Schlüsselwörter und Zusammenfassungen, die
mit diesem Dokument assoziiert sind, abzurufen, wobei das Modul,
wie in 7 gezeigt, einfach die Dokument-ID senden kann,
um die notwendige Information abzurufen.
-
7 zeigt
des weiteren einen Crawler 56, der zum Referenzieren von
Web-Servern 58 verwendet
wird. Der Crawler sucht nach neuer Information, die im Internet
verfügbar
ist und aktualisiert die Datenbank.
-
Die
Erfindung wurde in der vorliegenden Beschreibung mit Bezug auf Internet-Suchen offenbart, wobei
die Ergebnisse der Suche Dokumente und Web-Sites des World Wide
Web sind. Die Erfindung betrifft grundsätzlich Suchen innerhalb jedes
Typs von indizierten oder nicht-indizierten Datenbanken, vorausgesetzt
eine Anzahl von Schlüsselwörtern kann
mit Einträgen
der Datenbank assoziiert werden. Zusätzlich können die Einträge der Datenbank
wenigstens teilweise auf Kategorien abgebildet werden, um Kategorien
zurückzuliefern
und dem Benutzer zu ermöglichen,
die Suche zu verfeinern. In diesem Zusammenhang ist das World Wide
Web ein Paradigma für
eine Datenbank, während
indizierte Dokumente oder Web-Sites Paradigmen für Datenbankeinträge sind.
In der Ausführungsform
der Erfindung, die in den 1 bis 5 offenbart
ist, wird vorgeschlagen, eine Liste von Einträgen anzuzeigen, die durch die
Anfrage zurückgeliefert
werden, wobei die Erfindung tatsächlich
ohne Anzeigen dieser Liste ausgeführt werden kann, sondern einfach
durch dem Benutzer Anzeigen von Verfeinerungsstrategien.
-
Schließlich wird
die Erfindung nicht durch die obige Beschreibung eingeschränkt. Andere
Arten zum Füllen
von Datenbanken können
verwendet werden.