DE69433165T2

DE69433165T2 - Assoziatives textsuch- und wiederauffindungssystem

Info

Publication number: DE69433165T2
Application number: DE69433165T
Authority: DE
Inventors: John Holt; James David MILLER; X. Allan Lu; Ray Daley; Minh Doan; G. Richard GRAHAM; Catherine Leininger; W. Darin McBEATH; Thomas Pease; M. Stephen SEVER; Dale Waddell; Franz Weckesser
Original assignee: LexisNexis Inc
Current assignee: LexisNexis Inc
Priority date: 1993-11-22
Filing date: 1994-11-22
Publication date: 2006-02-16
Anticipated expiration: 2014-11-23
Also published as: US5692176A; ATE250244T1; US5761497A; CA2170251A1; EP0730765A4; PT730765E; CA2170251C; DK0730765T3; JPH10508960A; DE69433165D1; JP2001117946A; EP0730765A1; ES2204938T3; US5771378A; WO1995014973A1; EP0730765B1

Description

Technisches Fachgebiet
Die vorliegende Erfindung betrifft als Fachgebiet das Durchsuchen und das Auslesen von Textdokumenten und hat insbesondere den Einsatz von einem oder mehreren Rechnern zum Gegenstand, um eine Vielzahl von Textdokumenten zu durchsuchen und bestimmte Begriffe und Wortverbindungen (Sätze) enthaltende Dokumente auszulesen bzw. abzurufen.
Stand der Technik
Es ist bekannt, dass eine grosse Sammlung von Textdokumenten nach bestimmten Schlüsselwörtern oder Wortverbindungen durchsucht werden kann. Ein Benutzer kann ein einzelnes Wort oder eine einzelne Wortverbindung oder mehrere Wörter oder mehrere Wortverbindungen festlegen, die durch Boolesche Verknüpfungen wie beispielsweise "UND" oder "ODER" miteinander verbunden sind. In vielen Fällen jedoch muss ein Benutzer ziemlich geschickt sein, um relativ komplizierte Suchen durchzuführen und die vom Benutzer gewünschte genaue Kategorie von Dokumenten abzurufen, ohne eine übermässig grosse Anzahl von Suchvorgängen durchführen zu müssen.
Assoziatives Retrieval, eine in den 60er Jahren von Gerard Salton entwickelte Technik zur Informationswiedergewinnung, spricht einige der Nachteile an, mit denen die Boolesche Suche behaftet ist. Das Fachbuch Automatic Text Processing [Automatische Textverarbeitung] (Verfasser Gerard Salton, herausgegeben von Addison Wesley, New York, New York 1988) enthält eine Beschreibung des assoziativen Such- und Retrievalverfahrens. Zu der beim assoziativen Retrieval angewandten Grundformel gehören das Errechnen einer Wertigkeit für jeden Begriff innerhalb einer Suchabfrage und das Auswerten von Dokumenten in einer Sammlung auf der Grundlage der Summe der Wertigkeiten für die innerhalb eines Dokuments vorkommenden Suchabfragebegriffe. Die beiden grundlegenden Wertigkeitsfaktoren sind bekannt als Begriffshäufigkeit -tf- und umgekehrte Dokumentenhäufigkeit -idf.
Die Begriffshäufigkeit ist als die Anzahl von Malen definiert, in welcher der Begriff innerhalb eines bestimmten Dokuments vorkommt. Somit muss die Begriffshäufigkeit für jedes Dokument innerhalb der Sammlung errechnet werden.
Die umgekehrte Dokumentenhäufigkeit ist als die umgekehrte Anzahl von Dokumenten innerhalb der kompletten Sammlung definiert, in denen der Begriff enthalten ist. Kommt also in df Dokumenten innerhalb einer Sammlung von N Dokumenten ein bestimmter Begriff vor, so wäre die idf gleich 1/df.
Durch Setzen von log(N/df) kann die idf hinsichtlich der Anzahl von Dokumenten normiert werden. Die idf wird für jeden Suchabfragebegriff errechnet, ist jedoch für die Sammlung konstant und variiert nicht nach Dokumenten. Die Auswertung für ein gegebenes Dokument wird errechnet durch Summieren des Produkts von tf und idfs für jeden im Dokument vorkommenden Suchabfragebegriff.
Das von Salton beschriebene assoziative Retrieval weist jedoch viele Aspekte auf, durch die eine weitreichende kommerzielle Nutzung zum Suchen nach und Auffinden von Dokumenten in grossen Datenbänken unzweckmässig oder ungeeignet ist. Darüber hinaus ist es bei den meisten Arbeiten auf dem Gebiet des assoziativen Retrievals nicht gelungen, die Aspekte im Hinblick auf den Dialog mit dem Menschen und die Rückmeldung seitens des Menschen auf geeignete Weise anzusprechen. Es ist demgemäss wünschenswert, ein assoziatives Textsuch- und -retrievalsystem zu schaffen, mit dem die Mängel bekannter Systeme abgestellt werden können.
Zusammenfassung der Erfindung
Erfindungsgemäss gibt der Benutzer eine Suchbeschreibung mit einem oder mehreren Suchbegriffen an ein assoziatives Textsuch- und -retrievalsystem, von dem eine Dokumentendatenbank nach Dokumenten durchsucht wird, die mindestens einen der vorgegebenen Suchbegriffe enthalten, und das dann die Rangfolge eines jeden Dokuments nach einer Formel festlegt, die in Abhängigkeit vom Quadrat der Häufigkeit eines jeden Suchbegriffs im jeweiligen Dokument variiert. Die Formel zur Festlegung der Rangfolge kann ebenfalls in Abhängigkeit von der umgekehrten Dokumentenhäufigkeit eines jeden Suchbegriffs veränderlich sein. Die Formel kann darüber hinaus mit einer maximalen Begriffshäufigkeit zum Abschätzen der Grösse eines Dokuments und der maximalen Dokumentenhäufigkeit zum Abschätzen der Anzahl von Dokumenten in einer Dokumentensammlung benutzt werden, so dass der zur Bestimmung der Dokumentengrösse und der Anzahl der Dokumente in einer Sammlung erforderliche Verarbeitungsumfang verringert wird. Der Benutzer kann obligatorische Begriffe vorgeben, durch welche im Rahmen der Suche nur Dokumente zurückgemeldet werden, in denen diese Begriffe enthalten sind.
Das System kann einen Thesaurus umfassen, um sowohl Synonyme als auch morphologische Variationen von Wörtern einzugeben. Wortverbindungen in der Suchbeschreibung werden anhand einer Tabelle mit einer Bitmap, die mögliche Stellen eines Worts in einer Wortverbindung angibt, und unter Benutzung eines Baums mit Knoten erfasst, die Wörtern in einer Wortverbindung zugeordneten Kennungen entsprechen, wobei die Knoten in der Reihenfolge miteinander verbunden sind, in welcher die Wörter in einer Wortverbindung vorkommen können. Das System optimiert die Suche durch Unterscheidung zwischen Störwörtern, die in einem Index zu den Dokumenten nicht enthalten sind, und häufig benutzten Begriffen, die im Index zu finden sind, bei der Suche jedoch nicht benutzt werden.
Das System kann Anzeigeoptionen für die im Rahmen der Suche abgerufenenen Dokumente umfassen einschliesslich der Anzeige eines Textfensters, in dem die grösste Anzahl und Unterschiedlichkeit von Suchbegriffen und obligatorischen Begriffen zu sehen ist. Das System kann ebenfalls eine Bildschirmmaske zur Anzeige bringen, aus der hervorgeht, welche Suchbegriffe in welchen der abgerufenen Dokumente vorkommen, und eine Bildschirmmaske zur Verfügung stellen, um die Bedeutung eines jeden Begriffs anzuzeigen, wobei die Maske entsprechend der umgekehrten Dokumentenhäufigkeit eines jeden Begriffs variiert. Die Dokumente können entsprechend ihrer Rangfolge oder nach einer vorbestimmten Standardmethode wie zum Beispiel in umgekehrter chronologischer Reihenfolge sortiert werden.
Das System kann eine Vielzahl miteinander verbundener Prozessoren und entsprechender zugehöriger Daten umfassen, wobei einige der Prozessoren die Suche durchführen und andere wiederum die Suchdaten abgleichen und mit dem Benutzer Dialoge führen.
Kurzbeschreibung der Zeichnungen
1 = eine schematische Darstellung eines erfindungsgemässen Dokumentensuchsystems.
2 = Darstellung von in einer physikalischen Dokumentensammlung gespeicherten Daten.
3 = Darstellung von in einem Index zu einer physikalischen Dokumentensammlung gespeicherten Daten.
4 = Darstellung einer aus einer Anzahl von physikalischen Dokumentensammlungen bestehenden logischen Dokumentensammlung.
5 = Darstellung einer aus einer Anzahl von Teilmengen physikalischer Dokumentensammlungen bestehenden logischen Dokumentensammlung.
6 = eine Bildschirmmaske mit Darstellung der Eingabe einer Suchbeschreibung.
7 = eine Bildschirmmaske mit Darstellung der Eingabe von Suchoptionen.
8 = eine Bildschirmmaske mit Darstellung der Eingabe von obligatorischen Begriffen.
9 = eine Bildschirmmaske mit Darstellung der Eingabe von Einschränkungen.
10 = eine Bildschirmmaske mit Darstellung von Einschränkungen.
11 = eine Bildschirmmaske mit Darstellung der Eingabe von sowohl obligatorischen Begriffen als auch Einschränkungen.
12 = eine Bildschirmmaske mit Darstellung einer Thesaurusfunktion.
13 = eine Bildschirmmaske mit Darstellung der Wahl von Synonymen bzw. morphologischen Variationen eines Begriffs unter Benutzung der Thesaurusfunktion.
14 = eine Bildschirmmaske mit Darstellung von obligatorischen Begriffen, Einschränkungen und Thesaurus-Eingaben.
15 = eine Bildschirmmaske mit Darstellung der Optionen zur Einsichtnahme in nach einer Suche abgerufene Dokumente.
16 = eine Bildschirmmaske mit Darstellung einer "Warum"-Funktion.
17 = eine Bildschirmmaske mit Darstellung einer "Wo"-Funktion.
18 = ein Ablaufdiagramm mit Darstellung der Gesamtarbeitsweise des erfindungsgemässen Systems.
19 = eine zur Erfassung von Wortverbindungen benutzte Tabelle.
20 = eine zur Erfassung von Wortverbindungen benutzte Datenbaumstruktur.
21 = eine Anzahl zusammenhängender Wörter aus einer Suchbeschreibung.
22 = ein Ablaufdiagramm mit Darstellung der Operation eines Suchalgorithmus.
Beste Ausführungsform(en) der Erfindung
Gemäss der 1 bietet ein Dokumentensuch- und -retrievalsystem 30 einem Benutzer die Möglichkeit, eine Teilmenge einer Anzahl von Dokumenten nach bestimmten Schlüsselwörtern oder Wortverbindungen zu durchsuchen, wobei das System der Suchabfrage entsprechende Dokumente abruft, damit diese vom Benutzer eingesehen werden können. Das System 30 besteht aus einer Anzahl von Search and Retrieval [Such- und Retrieval-](SR)-Computern 32–35, die über eine Hochgeschwindigkeitsverbindung 38 mit einer Anzahl von Session Administrator (SA)-Computern 42–44 verbunden sind. Jeder der SR-Computer 32–35 ist an eine oder mehrere Dokumentensammlungen 46–49 angeschlossen, die jeweils aus einer Anzahl von Dokumenten, entsprechenden Indizes und sonstigen Zusatzdaten bestehen. Der Zugriff auf eine einzelne Dokumentensammlung ist für mehr als nur einen SR-Computer möglich. Ebenso kann durch einen einzelnen SR-Computer der Zugriff auf mehr als nur eine Dokumentensammlung erfolgen. Für die Implementierung der SR-Computer 32–35 können eine Vielzahl von handelsüblichen und dem Fachmann allgemein bekannten Rechnern wie zum Beispiel das von Hitachi Data Systems, Santa Clara, California, hergestellte Modell EX100 eingesetzt werden.
Jeder der SA-Computer 42–44 hat Zugriff auf Daten, die Wortverbindungs- und Thesaurusverzeichnisse 52–54 repräsentieren. Für die Implementierung der SA-Computer 42–44 ist ebenfalls der Einsatz einer Vielzahl von handelsüblichen Rechnern wie zum Beispiel der von der Amdahl Corporation, Sunnyvale, California, hergestellten Modelle 5990 und 5995 möglich. Bei der Verbindung 38 zwischen den SR-Computern und den SA-Computern kann es sich um irgendeine Verbindung aus einer Reihe von dem Fachmann allgemein bekannten wechselseitigen Hochleistungs-Computerdatenverbindungen handeln wie beispielsweise das von Network Systems Corporation, Minneapolis, Minnesota, hergestellte Modell 7200-DX.
Jeder der SA-Computer 42–44 ist mit einer Anzahl von Datenübertragungsvorrechnern 56–58 verbunden. Die Datenübertragungsvorrechner 56–58 stellen eine Verbindung des Systems 30 zu einem oder mehreren allgemein verfügbaren Netzwerken 62 wie zum Beispiel ein Netz X.25, Telefonfernleitungen und SprintNet zum Zugriff auf digitale Daten her. Mit dem Netzwerk 62 verbunden ist eine Anzahl von Benutzerstationen 64–66, die dem Benutzer den Zugriff zum System 30 ermöglichen. Bei den Benutzerstationen 64–66 kann es sich um nicht programmierbare Datenstationen, mit denen einfach Dateneingaben und -ausgaben verarbeitet und angezeigt werden, oder um einen aus einer Vielzahl leicht zu beschaffender Einzelplatzrechner wie zum Beispiel einen IBM oder einen IBM-kompatiblen Personal Computer handeln. Für die Implementierung der Datenübertragungsvorrechner 56–58 können eine Vielzahl handelsüblicher Einrichtungen wie zum Beispiel die von der Amdahl Corporation, Sunnyvale, California, hertgestellten Modelle 4745 und 4705 eingesetzt werden. Es sei darauf hingewiesen, dass die in 1 gezeigte Anzahl von Komponenten lediglich als Anschauungsbeispiel dienen und dass das hierin beschriebene System 30 jede beliebige Anzahl von SA-Computern, SR-Computern, Datenübertragungsvorrechnern, usw. umfassen kann. Auch kann die hierin beschriebene Aufteilung der Verarbeitung geändert werden, wobei die Verarbeitung sogar mit einem einzigen Computer erfolgen kann, ohne dass hierdurch der Rahmen der Erfindung verlassen wird.
Ein Benutzer, der Zugriff zum System 30 über eine der Benutzerstationen 64–66 erlangen möchte, wird sich eines Netzwerks 62 bedienen, um über dem Fachmann bekannte Einrichtungen eine Verbindung zu einem der Datenübertragungsvorrechner 52–58 herzustellen. Bei den Datenübertragungsvorrechnern 52–58 erfolgt die Kommunikation mit den Benutzerstationen 64–66 durch Bereitstellung von Ausgangsdaten zur Anzeige durch die Benutzerstationen 64–66 und durch Verarbeitung vom Benutzer über die Tastatur der Benutzerstation vorgenommener Eingaben. Zu den Ausgangsdaten von den Datenübertragungsvorrechnern 56–58 gehören Text- und Bildschirmmaskenbefehle. Die Datenübertragungsvorrechner 56–58 unterstützen Befehle zur Steuerung von Bildschirmmasken wie zum Beispiel die allgemein bekannten Befehle VT100, welche an den Benutzerstationen 64–66 die Funktionalität der Bildschirmmasken zum Beispiel durch Löschen der Maske und Bewegen des Cursors zum Einfügungspunkt gewährleisten. Über entsprechende Befehle können die Datenrückübertragungsvorrechner 56–58 anderen bekannten Arten von Benutzerstationen bzw. Einzelplatzrechnern zugeordnet werden.
Jeder der Datenübertragungsvorrechner 56–58 kommuniziert über dem Fachmann allgemein bekannte Einrichtungen bidirektional mit dem jeweils an ihn angeschlossenen speziellen SA-Computer 42–44. Auch kann das System auf eine dem Fachmann allgemein bekannte Weise so konfiguriert werden, dass einer oder mehrere der Datenrückübertragungsvorrechner mit mehr als nur einem der SA-Computer 42–44 kommunizieren kann. Die Datenrückübertragungsvorrechner 56–58 können so konfiguriert werden, dass ein "Lastausgleich" der SA-Computer 42–44 in Abhängigkeit von den Datenflussmustern vorgenommen wird. Das Konzept des Lastausgleichs ist dem Fachmann allgemein bekannt.
Jeder der SA-Computer 42–44 umfasst ein nachstehend noch ausführlicher zu beschreibendes Anwendungsprogramm, bei dem Suchabfrageeingänge durch einen Benutzer an einem der Benutzerstationen 64–66 verarbeitet werden, die Suchabfrageinformationen an einen oder mehrere die Suche durchführenden SR-Computer 32–35 weitergegeben werden und die Ergebnisse einschliesslich des Textes der Dokumente an die SA-Computer 42–44 zurückgehen. Von den SA-Computern 42–44 werden dem Benutzer den Suchergebnissen entsprechende Textdokumente über die Benutzerstationen 64–66 zur Verfügung gestellt. Bei einer Session für einen bestimmten Benutzer (d.h. einen einzelnen Benutzer mit Zugriff auf das System über eine der Benutzerstationen 64–66) führt nur einer der SA-Computer 42–44 einen Dialog mit dem Benutzer über einen entsprechend zugeordneten Datenübertragungsvorrechner 56–58.
Gemäss 2 bestehen die in jeder der physikalischen Dokumentensammlungen 46–49 gespeicherten Daten 70 aus Dokumententext 72, einem Index 74 und Dokumentenzusatzinformationen 76. Die Daten 70 können sich in einer Datei oder mehreren Dateien einer Computer-Festplattenspeichereinrichtung befinden. Der Dokumententext 72 als Teil der Daten 70 besteht aus den Text repräsentierenden Zeichendaten (wie zum Beispiel ASCII oder EBCDIC) für eine Anzahl von Dokumenten. Auf jedes der Dokumente, die Teil des Dokumententextes 72 sind, kann einzeln zugegriffen werden. Der Index 74 enthält eine Liste von Begriffen (Wörtern und Wortverbindungen), die in allen Dokumenten des Dokumententextes 72 vorkommen, und gibt an, wo sich diese Begriffe in den Dokumenten befinden. Die nachstehend ausführlicher beschriebenen Dokumentenzusatzinformationen 76 umfassen weitere Informationen über die Dokumente wie zum Beispiel die zu den Dokumenten gehörigen Datumsangaben, Herkunft der Dokumente usw.
Gemäss 3 umfasst der Index 74 für eine Dokumentensammlung eine Vielzahl von Eingaben, durch die bestimmte Begriffe (Begriff 1 – Begriff n) einer Vielzahl von Stellen (Loc A – Loc I) zugeordnet werden. Die Tabelle links in 3 bringt jeden Begriff mit einem Paar Zeiger in Verbindung, so dass Begriff 1 den Zeigern P1 und P2, Begriff 2 den Zeigern P3 und P4 und Begriff n den Zeigern Pr und PS zugeordnet ist. Der rechte Teil der 3 ist eine Liste aller Stellen, an denen alle Begriffe in der physikalischen Dokumentensammlung zu finden sind. Die jedem Begriff zugeordneten Zeiger weisen auf die jeweils erste und letzte Stelle in der Liste hin, um die Begriffe im Text der Dokumente der physikalischen Sammlung mit den Stellen korrelieren zu können, an denen die Begriffe vorkommen. So ist zum Beispiel aus 3 ersichtlich, dass Begriff 1 in der Liste an den Stellen Loc A (angezeigt durch P1) bis Loc C (angezeigt durch P2) zu finden ist. Alle Stellen in der Liste zwischen der Eingabe für Loc A und der Eingabe für Loc C zeigen getrennte Stellen für Begriff 1 in der Dokumentensammlung an. Wörter und Wortverbindungen, die so allgemein sind, dass sie beim Durchsuchen der Dokumente nur von geringem Wert wären, wie zum Beispiel das Wort "of" (von, aus), gelten als "Störwörter" und sind im Index nicht enthalten. Eine Liste von Störwörtern für jede physikalische Dokumentensammlung wird unter den Dokumentenzusatzinformationen 76 gespeichert.
Die SR-Computer 32–34 durchsuchen die Dokumente in einer physikalischen Sammlung nach bestimmten Begriffen durch Zugriff auf den Index 74. Begriffe in der Suchabfrage werden mit Begriffen im Index 74 abgeglichen, um bestimmte Dokumente im Dokumententext 72 ausfindig zu machen, in denen die in der Suchabfrage enthaltenen Begriffe vorkommen. Begriffe in der Mehrzahl werden depluralisiert und in ihrer Singularform gespeichert. Für eine Suche vorgegebene Begriffe werden ebenfalls depluralisiert. Die Depluralisierung ist für den Fachmannn allgemein bekannt und in Program, Band 1, Nr. 3, Seiten 130–137, Juli 1980, beschrieben.
In der Regel durchsucht ein Benutzer nicht alle Dokumente des Systems. Statt dessen legt er vor dem Starten der Suche eine zu durchsuchende Teilmenge der Dokumente fest. Die Teilmenge, die als logische Dokumentensammlung angesehen wird, entspricht einer bestimmten Klasse oder Gruppe von Dokumenten mit einem oder mehreren gemeinsamen Attribut(en). So können zum Beispiel alle schriftlichen Gutachten des Obersten Gerichtshofes der USA eine logische Sammlung sein. Wie dies im Nachstehenden noch näher zu beschreiben sein wird, kann eine logische Sammlung einer physikalischen Sammlung entsprechen, eine Teilmenge einer physikalischen Sammlung sein, aus einer Vielzahl von physikalischen Sammlungen bestehen oder sich aus einer Vielzahl von Teilmengen physikalischer Sammlungen zusammensetzen.
Gemäss 4 besteht eine logische Dokumentensammlung 80 schriftlicher Gutachten des Obersten Gerichtshofes der USA aus vier physikalischen Sammlungen 82–85: Gutachten von 1700 bis 1900, Gutachten von 1901 bis 1960, Gutachten von 1961 bis 1992 und Gutachten ab 1993. Wie im Vorstehenden beschrieben, besteht jede der physikalischen Sammlungen 82–85 aus einem Textteil und einem Index. Durchsucht ein Benutzer alle Fälle des Obersten Gerichtshofes der USA, so bedient sich der betreffende SA-Computer, der den Dialog mit dem Benutzer führt, einer Nachschlag- oder Verweistabelle, um festzustellen, welche physikalischen Dokumentensammlungen der gewählten logischen Dokumentensammlung entsprechen. Mit der Nachschlag- oder Verweistabelle werden logische Dokumentensammlungen mit physikalischen Dokumentensammlungen korreliert. Der SA-Computer gibt dann Befehle an den/die zugehörigen SR-Computer zum Durchführen der Suche in der/den entsprechenden physikalischen Dokumentensammlungen) und zum Rückmelden der Ergebnisse.
Gemäss 5 beinhaltet eine logische Dokumentensammlung 90 schriftliche Gutachten des Obersten Gerichtshofes der USA, die sich mit dem Thema Steuergesetzgebung befassen. Die logische Dokumentensammlung 90 selbst besteht an keiner Stelle als physikalische Dokumentensammlung. Vielmehr setzt sich die logische Dokumentensammlung 90 als einer Vielzahl von Teilmengen 92–95 der physikalischen Sammlungen 82–85 zusammen. Die Teilmenge 92 entspricht in der physikalischen Sammlung 82 enthaltenen schriftlichen Gutachten in vom Obersten Gerichtshof der USA verhandelten Fällen zum Thema Steuergesetzgebung. Auf ähnliche Weise repräsentieren die Teilmengen 93–95 Teile der physikalischen Sammlungen 83–85, die sich mit Fragen der Steuergesetzgebung befassen.
Wählt ein Benutzer die logische Sammlung 90 für die Suche an, so bestimmt der den Dialog mit dem Benutzer führende SA-Computer die zu durchsuchenden physikalischen Sammlungen 82–85, wie dies vorstehend erläutert wurde, wobei ebenfalls Anweisungen an den/die SR-Computer zum Aufbau eines Filters gehen, der gewährleistet, dass nur Dokumente abgerufen werden, die Bestandteil der logischen Sammlung sind. Bei einem Filter handelt es sich um eine Bitmap oder eine Liste von Dokumenten, die einem SR-Computer anzeigt, welche Dokumente zu durchsuchen und welche Dokumente zu ignorieren sind. Die Filter werden von dem/den SR-Computern benutzt, um nur Ergebnisse zurückzumelden, die Dokumenten entsprechen, welche Teil der logischen Sammlung sind. Filter können von den SR-Computern unter Verwendung von Tabellen oder durch Einsichtnahme in die Dokumentenzusatzinformationen 76 aufgebaut werden. Bei der logischen Sammlung 90 bewirken die Filter, dass bei der Suche nur Dokumente zurückgemeldet werden, die den Teilmengen 92–95 der physikalischen Sammlungen 82–85 entsprechen.
Gemäss 6 ist die Eingabe einer Suchabfrage in einer Benutzerbildschirmmaske 100 dargestellt. Die Bildschirmmaske 100 wird an einer Benutzerstation angezeigt. Eine Aufforderung 102 in der Bildschirmmaske 100 weist den Benutzer an, eine Suchbeschreibung einzugeben. Der Benutzer tippt mittels der Tastatur an der Benutzerstation eine Suchbeschreibung in einen Bereich 104 in der Bildschirmmaske 100 ein. Die Beschreibung kann um zur Bildung von Wortverbindungen benutzten Gruppen von Wörtern herum Anführungszeichen umfassen. Die Anführungszeichen weisen darauf hin, dass die Wortverbindungen als ein einzelner Begriff, und nicht die Wörter des Satzes einzeln durchsucht werden sollten. Einzelvorkommnisse der Wörter passen nicht in die Suche. Ein Benutzer drückt die Taste <ENTER> an der Benutzerstation, um anzuzeigen, dass die Eingabe der Suchbeschreibung durch ihn beendet ist.
Die SA-Computer 42–44 verarbeiten die Suchbeschreibung durch Anweisung an den/die SR-Computer, die vom Benutzer gewählte logische Sammlung nach jedem in der Beschreibung enthaltenen Wort (abgesehen von einigen Ausnahmen, auf die später noch einzugehen sein wird) zu suchen. Nach jedem der in der Suchbeschreibung enthaltenen Begriff, sofern es sich nicht um Störbegriffe handelt, wird von dem/den SR-Computer(n) getrennt gesucht. Ein Dokument, in dem mindestens einer der Begriffe vorkommt, passt in die Suche. Jedes passende Dokument wird sodann bewertet, wie dies nachstehend noch näher zu beschreiben sein wird, und zur Einsichtnahme durch den Benutzer abgerufen.
Gemäss 7 wird nach Eingabe einer Suchbeschreibung und Drücken der Taste <ENTER> durch den Benutzer eine Bildschirmmaske 110 zur Verfügung gestellt. Die Bildschirmmaske umfasst eine Suchbeschreibung 112a und eine Anzahl von Optionen 114–118. Die erste Option 114 bietet dem Benutzer die Möglichkeit, obligatorische Begriffe einzugeben/zu editieren. Mit der zweiten Option 115 kann der Benutzer Einschränkungen im Hinblick auf Eingabe/Editierung festlegen. Mit der dritten Option 116 ist es dem Benutzer möglich, einen Thesaurus zu benutzen. Mittels der vierten Option 117 kann der Benutzer die Suchbeschreibung editieren. Mit der fünften Option 118 besteht für den Benutzer die Möglichkeit, die Anzahl der abgerufenen Dokumente zu ändern. Es sei darauf hingewiesen, dass die Reihenfolge, in welcher die Optionen 114–118 in der Bildschirmmaske erscheinen, von der Konfiguration abhängig ist, und dass die Optionen in jeder beliebigen Reihenfolge vorgestellt werden können, ohne dass hierdurch der Erfindungsgedanke verlassen wird.
Die Optionen 114–118 bieten dem Benutzer die Möglichkeit, die Merkmale der durch die Suchabfrage gefundenen Dokumente zu modifizieren. Ein Benutzer kann Optionen wiederholt anwählen, um die Suchkriterien zu ändern, bevor das System den Befehl erhält, die Suche durchzuführen. Die erste, zweite und dritte Option 114–116 sind nachstehend ausführlicher beschrieben. Mit der vierten Option 117 kann der Benutzer den Wortlaut der Suchbeschreibung 112a ändern. Durch die fünfte Option 118 ist es dem Benutzer möglich, die Anzahl der durch die Suche abgerufenen Dokumente einzustellen. Die Anzahl der bei der Suche abgerufenen Dokumente ist ausschlaggebend für die maximale Anzahl von Dokumenten, in welche der Benutzer nach Abschluss der Suche Einsicht nehmen kann. Die abgerufenen Dokumente sind die mit den höchsten Bewertungen, so dass zum Beispiel bei einer Einstellung von fünfundzwanzig die fünfundzwanzig Dokumente mit der höchsten Bewertung an den Benutzer zurückgemeldet werden. Die Bewertung der Dokumente ist nachstehend ausführlicher beschrieben. Es sollte beachtet wurden, dass die Möglichkeit besteht, dass bei der Suche eine geringere Anzahl von Dokumenten (einschliesslich Null Dokumente) zurückgemeldet werden kann als die mittels der fünften Option 118 eingestellte Anzahl von abgerufenen Dokumente, wenn die Anzahl der Dokumente, welche die Suchvorgaben erfüllen, geringer ist, als die mittels der fünften Option 118 eingestellte Anzahl.
Gemäss der 8 wird die Bildschirmmaske 110 zur Anzeige gebracht, nachdem der Benutzer die erste Option 114 zum Eingeben von obligatorischen Begriffen angewählt hat. Ein obligatorischer Begriff ist ein Begriff, der im Dokument vorkommen muss, wenn das Dokument im Rahmen der Suche abgerufen werden soll. Erfolgt keine Eingabe von einem oder mehreren obligatorischen Begriff(en), so werden bei der Suche Dokumente zurückgemeldet, die mindestens einen Begriff der Suchbeschreibung umfassen. Wünscht der Benutzer, dass in allen im Rahmen der Suche abgerufenen Dokumenten ein bestimmter Begriff oder Begriffe mindestens einmal vorkommen, so wählt er die erste Option 114 an und gibt er die obligatorischen Begriffe über die Tastatur der Benutzerstation ein. In der Bildschirmmaske 110 gemäss 8 hat der Benutzer in einer Zeile 122 angegeben, dass die Begriffe "TQM" und "Usability testing" (Brauchbarkeitsprüfung) als obligatorische Begriffe anzusehen sind. Somit enthalten alle im Rahmen der Suche zurückgemeldeten Dokumente sowohl den Begriff "TQM" als auch den Begriff "Usability testing". Die Implementierung obligatorischer Begriffe erfolgt mittels Filtern ähnlich den zum Aufbau von logischen Dokumentensammlungen benutzten Filtern, wie dies vorstehend beschrieben ist.
Ein obligatorischer Begriff braucht nicht Bestandteil der Suchbeschreibung zu sein. Vom Benutzer können obligatorische Begriffe vorgegeben werden, die nicht zu der Suchbeschreibung gehören. Nicht zur Suchbeschreibung gehörige obligatorische Begriffe finden bei der Dokumentenbewertung (wie diese im Nachstehenden ausführlich zu beschreiben sein wird) keine Berücksichtigung, werden jedoch für andere, hierin noch zu erörternde Besonderheiten herangezogen.
Gemäss der 9 wird eine Bildschirmmaske 130 zur Verfügung gestellt, nachdem der Benutzer die zweite Option 115 zur Eingabe von Einschränkungen angewählt hat. Die Bildschirmmaske 130 zeigt eine Vielzahl von Einschränkungen 132–136, die vom Benutzer angewählt werden können. Eine Einschränkung stellt eine Randbedingung für die im Rahmen der Suche abgerufenen Dokumente dar. So ist zum Beispiel die erste Einschränkung 132 eine Datumseinschränkung, die angibt, dass das Datum der Dokumente, die im Rahmen der Suche abgerufen werden, vor oder hinter einem bestimmten Datum liegt. Es ist zu beachten, dass die für die Bildschirmmaske 130 dargestellten Einschränkungen für eine bestimmte Art von logischer Sammlung (schriftliche Gerichtsgutachten) gelten. Für andere Arten von logischen Sammlungen oder sonstige Arten von Dokumenten kann es für den Benutzer zweckmässig sein, andere Arten von Einschränkungen zu wählen.
In 10 ist die Bildschirmmaske 110 nach Eingabe von Einschränkungen dargestellt. Eine Zeile 142 in der Bildschirmmaske 110 zeigt, dass es sich bei diesem Beispiel bei den im Rahmen der Suche abgerufenen Dokumenten um schriftliche Gutachten nur des Sechsten Gerichtsbezirks handelt und dass alle Dokumente später als 01.10.92 datiert sind. Der SA-Computer benutzt die Einschränkungen, um die SR-Computer anzuweisen, Filter aufzubauen (wie dies vorstehend beschrieben ist). Die Filter bieten die Gewähr, dass nur Dokumente im Rahmen der Suche abgerufen werden, die den durch die Einschränkungen vorgegebenen Anforderungen genügen.
Die 11 zeigt die Bildschirmmaske 110 mit sowohl der Zeile 122 für obligatorische Begriffe als auch der Zeile 142 für Einschränkungen, um so zu veranschaulichen, dass ein Benutzer zum Zwecke einer Suche sowohl Einschränkungen als auch obligatorische Begriffe eingeben kann. Hier sei darauf hingewiesen, dass in diesem Fall vom SA-Computer an den SR-Computer die Anweisung gegeben wird, Filter für sowohl die obligatorischen Begriffe als auch die Einschränkungen aufzubauen.
Gemäss 12 ist eine Bildschirmmaske 150 zu sehen, die dem Benutzer nach Wahl der dritten Option 116 (Thesaurus) aus der in 7 gezeigten Bildschirmmaske 110 zur Verfügung steht. Begriffe 152 aus der Suchbeschreibung sind in der Bildschirmmaske 150 aufgelistet. Der Benutzer sieht die Begriffe 152 aus der Suchbeschreibung durch und wählt die Begriffenummern 154, zu denen äquivalente Begriffe gewünscht werden.
Gemäss 13 ist eine Bildschirmmaske 160 zu sehen, die einem Benutzer zur Verfügung steht, nachdem von ihm die Begriffe aus der Suchbeschreibung gewählt wurden, zu denen äquivalente Begriffe gewünscht werden. Ein Teil 162 der Bildschirmmaske 160 zeigt den Begriff aus der Suchbeschreibung. In einem weiteren Teil 164 der Bildschirmmaske 160 sind morphologische Variationen des Begriffs zu sehen. Eine morphologische Variation eines Wortes ist eine andere Form des gleichen Wortes. So sind zum Beispiel "condition", "conditioner", "conditioning" und "conditioned" jeweils relativ zueinander morphologische Variationen. In einem weiteren Teil 166 der Bildschirmmaske 160 finden sich Synonyme für den aus der Suchbeschreibung stammenden Begriff. Der Benutzer kann jede beliebige Anzahl und Kombination von morphologischen Variationen und Synonymen aus der Bildschirmmaske 160 wählen. Die Implementierung der Thesaurusfunktion erfolgt unter Benutzung einer sowohl Synonyme als auch morphologische Variationen umfassenden Nachschlag- oder Verweistabelle, die gemäss der Darstellung in 1 (Elemente 52–54) auf vorstehende Weise gespeichert wird.
14 zeigt die Bildschirmmaske mit der Zeile 122 für obligatorische Begriffe, der Zeile 142 für Einschränkungen und einer Suchbeschreibung 112b, die Äquivalente (in Klammern angegeben) für einige der Begriffe in der Suchbeschreibung 112b enthält. Die Äquivalente werden vom Benutzer bestimmt, nachdem von ihm die dritte Option 116 (Thesaurus) angewählt worden und die Wahl der äquivalenten Begriffe für bestimmte Begriffe in der Suchbeschreibung 112b erfolgt ist.
Gemäss 15 erscheint eine Bildschirmmaske 170 nach Abschluss der Suche. Es sollte beachtet werden, dass die Zeile 122 für obligatorische Begriffe und die Zeile 142 für Einschränkungen Bestandteil der Bildschirmmaske 170 sind.
Eine Zeile 170 für Begriffe zeigt Begriffe der Suchbeschreibung in der Reihenfolge der ihnen zukommenden Bedeutung. Die Bedeutung von Begriffen wird im Nachstehend noch näher zu beschreiben sein. Auch sei darauf hingewiesen, dass die Zeile 172 ein Sternchen umfasst, dem zwei Begriffe 173 "FIRST" und "CASE" (ERSTER FALL) nachfolgen. Das Sternchen bedeutet, dass es sich bei den nachfolgenden Begriffen um "häufig benutzte Begriffe" handelt. Alle als häufig benutzte Begriffe angesehenen Begriffe werden aus der weiteren Verarbeitung zum Zwecke der Suche herausgenommen, da ihr Wert bei der Ermittlung der gewünschten Dokumente als minimal angesehen wird.
Für die in der Bildschirmmaske 170 dargestellte Suche wurden die zwei Begriffe 173 "FIRST" und "CASE" als häufig benutzte Begriffe eingestuft und somit bei der Suche nicht berücksichtigt. Die in Verbindung mit 3 gezeigten Zusatzdaten 76 enthalten eine Tabelle häufig benutzter Begriffe für jede physikalische Dokumentensammlung. Die Entscheidung darüber, welche Begriffe in die Tabelle einfliessen, basiert auf einer Anzahl von dem Fachmann allgemein bekannten Funktionsfaktoren, zu denen im nicht einschränkenden Sinne die Häufigkeit des Vorkommens eines Begriffes in der physikalischen Sammlung und das Verhältnis zwischen der Bedeutung eines Begriffs und der Art der Dokumentensammlung gehören. Es sollte beachtet werden, dass sich dieser Mechanismus von den vorstehend erörterten "Störwörtern" unterscheidet, da Störwörter noch nicht einmal im Index für die physikalische Dokumentensammlung aufgelistet sind. Häufig benutzte Begriffe sind im Index zu finden. Darüber hinaus werden Störwörter vollständig aus der Suchbeschreibung gestrichen, wobei sie ausserdem in der Bildschirmmaske nach Abschluss der Suche nicht zu sehen sind. Auch sei darauf hingewiesen, dass für den Fall, dass ein häufig benutzter Begriff ein Wort ist, er als Teil einer Wortverbindung nicht in Fortfall gebracht wird. Auf Wortverbindungen wird im Nachstehenden noch näher einzugehen sein.
Die Bildschirmmaske 170 umfasst ebenfalls eine Anzahl von Optionen 174–177 zur Einsichtnahme. Es sollte beachtet werden, dass die Reihenfolge, in der die Optionen 174–177 in der Bildschirmmaske 170 erscheinen, bei der Konfiguration wählbar ist und dass die Optionen in jeder beliebigen Reihenfolge dargestellt werden können, ohne dass hierdurch der Rahmen der Erfindung verlassen wird. Auch stehen dem Benutzer durch Eintippen des entsprechenden Befehls zur Ausführung der Option auch andere Optionen zur Einsichtnahme zur Verfügung, die nicht durch eine der Aufforderungen als Option 174–177 dargestellt sind; so zum Beispiel eine Option zum Anführen der abgerufenen Dokumente. Mit der ersten Option 174 hat der Benutzer die Möglichkeit, sich ein "SuperKWIC"-Fenster des Dokuments anzusehen. Die zweite Option 175 stellt eine Bildschirmmaske zur Verfügung, die dem Benutzer die Stelle der Suchbegriffe in den Dokumenten anzeigt. Bei der dritten Option 176 erscheint eine Bildschirmmaske, die dem Benutzer angibt, warum bestimmte Dokumente gewählt wurden. Mit der vierten Option 177 hat der Benutzer eine Möglichkeit, die Reihenfolge zu ändern, in welcher die abgerufenen Dokumente präsentiert werden. Standardmässig werden die abgerufenen Dokumente in der Reihenfolge ihrer Bewertung angezeigt (auf die Bewertung/Einstufung von Dokumenten wird im Nachstehenden noch näher einzugehen sein).
Durch Wahl der vierten Option 177 kann der Benutzer vorgeben, dass die Dokumente in einer anderen Reihenfolge präsentiert werden wie zum Beispiel chronologisch bzw. bei schriftlichen Gerichtsgutachten in der Reihenfolge von den höchsten zu den niedrigsten Gerichtsinstanzen. Jeder physikalischen Dokumentensammlung sind dabei in den Zusatzinformationsdaten 76 vorbestimmte Informationen zugeordnet, aus denen ersichtlich ist, wie die Dokumente präsentiert werden können. Die vorbestimmten Informationen basieren auf einer Vielzahl von dem Fachmann allgemein bekannten Funktionsfaktoren und variieren in Abhängigkeit von der Art einer bestimmten Dokumentensammlung.
Das "SuperKWIC"-Fenster ist ein Textfenster, in dem sich der Benutzer den aussagefähigsten Teil des Dokuments auf der Grundlage der Häufigkeit und Vielseitigkeit obligatorischer Begriffe und Suchbegriffe anschauen kann. Ein Textfenster ist ein einsehbarer zusammenhängender Abschnitt eines Dokuments mit einer bestimmten Länge von zum Beispiel fünfzehn Zeilen. Für jedes Textfenster wird eine SuperKWIC-Auswertung errechnet, wobei das Fenster mit der höchsten Auswertung zum SuperKWIC-Fenster wird. Die Auswertung eines Fensters errechnet sich wie folgt: Für jeden Suchbegriff bzw. obligatorischen Begriff im Fenster wird die Auswertung um eins erhöht. (Hierbei sollte beachtet werden, dass ein obligatorischer Begriff nicht zwangsläufig ein Begriff der Suchbeschreibung ist, wie dies vorstehend erläutert wurde.) Für jeden Suchbegriff bzw. obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff bzw. obligatorischer Begriff vorausgeht, erhöht sich die Auswertung um zwei. Für jeden Suchbegriff bzw. obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff bzw. obligatorischer Begriff vorhergeht, dem seinerseits ein noch anderer Suchbegriff bzw. obligatorischer Begriff vorhergeht, wird die Auswertung erneut um zwei erhöht.
Gemäss 16 zeigt eine Bildschirmmaske 180 das Ergebnis der Anwahl der in 15 dargestellten dritten (Warum)-Option 176. In einer ersten Spalte 182 der Bildschirmmaske 180 sind die Begriffe der Suchbeschreibung aufgelistet. Die Auflistung der Begriffe erfolgt in der Reihenfolge der Begriffsbedeutung (wie diese nachstehend noch näher zu erläutern sein wird). Eine zweite Spalte 184 zeigt die Anzahl der gefundenen (im Rahmen der Suche abgefragten) Dokumente, die jeden Begriff aus der Spalte 182 enthalten. Eine Spalte 186 zeigt die Gesamtanzahl der durchsuchten Dokumente, die jeweils jeden in der Spalte 182 aufgeführten Begriffe enthalten. Eine Spalte 188 zeigt die Begriffsbedeutung eines jeden der in Spalte 182 aufgelisteten Begriffe. Auf die Errechnung der Begriffsbedeutung wird nachstehend noch näher einzugehen sein.
Die in der Spalte 182 enthaltenen Begriffe sind in der Reihenfolge der Begriffsbedeutung aufgelistet. An erster Stelle der Spalte 182 stehen obligatorische Begriffe (in diesem Fall der Begriff "DEFAMATION" (DIFFAMIERUNG, VERLEUMDUNG). An die obligatorischen Begriffe schliessen sich Begriffe in der Reihenfolge ihrer abnehmenden Bedeutung an, wie dies aus der Spalte 188 ersichtlich ist. Am unteren Ende der Liste finden sich häufig benutzte Begriffe, die nicht Bestandteil der Suche sind, wie dies vorstehend erläutert wurde. Es sei darauf hingewiesen, dass der häufig benutzte Begriff "A" (EIN, EINER, EINES) in Spalte 182 in den Spalten 184, 186, 188 als "––" erscheint.
Gemäss 17 wird nach Anwahl der in 15 gezeigten zweiten (Wo)-Option 175 durch den Benutzer eine Bildschirmmaske 190 sichtbar. Die Bildschirmmaske enthält eine Spalte 192, in der alle Suchbegriffe aufgelistet sind. In einer Zeile 194 sind die abgerufenen Dokumentennummern angegeben (in diesem Beispiel das erste bis fünfundzwanzigste Dokument). Für jedes Dokument, das im Rahmen der Suche zurückgemeldet wird, gibt die Bildschirmmaske 190 an, welche Begriffe in welchen Dokumenten vorgekommen sind, indem in der einem bestimmten Dokument entsprechenden Spalte und der einem bestimmten Begriff entsprechenden Reihe ein Sternchen gesetzt wird. Das Fehlen eines Sternchens in einer bestimmten Reihen- und Spaltenkombination bedeutet, dass das der bestimmten Spalte entsprechende Dokument nicht den einer bestimmten Reihe entsprechenden Begriff enthält.
18 zeigt ein Ablaufdiagramm 200 für den Hochpegeldatenfluss der Software. In einem ersten Schritt 202 gibt der Benutzer eine Suchbeschreibung ein. An den ersten Schritt 202 schliesst sich ein zweiter Schritt 203 zur Bestimmung von Wortverbindungen an. Mit Schritt 203 werden in der Suchbeschreibung enthaltene Wortverbindungen erfasst. Wortverbindungen sind Gruppen von Wörtern, die am aussagefähigsten sind, wenn nach ihnen als Gruppe und nicht einzeln gesucht wird; so zum Beispiel die Wortverbindung "product liability" (Produkthaftung). Die anschliessende Suche wird nur auf der Basis der erfassten Wortverbindungen und nicht der sie bildenden einzelnen Wörter durchgeführt. Die Erfassung von Wortverbindungen wird im Nachstehenden noch näher zu beschreiben sein.
Nach dem Schritt 203 folgt ein Prüfschritt 204, wo festgestellt wird, ob vom Benutzer eine Suchoption (d.h. eine oder mehrere Einschränkungen, obligatorische Begriffe, usw.) angewählt wurde, wie dies vorstehend beschrieben ist. Ist vom Benutzer eine Suchoption nicht angewählt worden, so geht die Steuerung von Schritt 204 zu einem weiteren Prüfschritt 205 über, um festzustellen, ob vom Benutzer die Durchführung der Suche verlangt worden ist. Bei der hierin dargestellten erfindungsgemässen Ausführungsform zeigt der Benutzer den Wunsch zur Durchführung einer Suche an, indem er ohne Vorgabe einer Suchoption die Taste <ENTER> drückt. Ist vom Benutzer die Durchführung einer Suche nicht verlangt worden, so kehrt die Steuerung von Schritt 205 zurück zu Schritt 204.
Ist vom Benutzer unter Schritt 204 eine Suchoption angewählt worden, so geht die Steuerung von Schritt 204 zu einem Schritt 207 über, wo die gewählte Benutzeroption verarbeitet wird, wie dies im Vorstehenden ausführlich beschrieben ist. Auf den Schritt 207 folgt ein Prüfschritt 208, um festzustellen, ob es sich bei der vom Benutzer eingegebenen Option um eine Änderung der Suchbeschreibung handelt oder nicht die erste Eingabe eines obligatorischen Begriffs ist. Ist dies der Fall, so kehrt die Steuerung von Schritt 208 zu Schritt 204 zurück, um weitere Benutzereingaben zu verarbeiten. Anderenfalls kehrt die Steuerung von Schritt 208 zu Schritt 203 zurück, um vom Benutzer etwaige zusätzliche Wortverbindungen zu erfassen, bevor weitere Eingaben unter Schritt 204 verarbeitet werden. Wortverbindungen werden nach dem Editieren der Beschreibung oder nach dem Eingeben von obligatorischen Begriffen (ausser beim ersten Mal) nicht erfasst, nachdem der Benutzer möglicherweise diese Optionen wählt, um die automatische Erfassung von Wortverbindungen zu umgehen.
Hat der Benutzer unter Schritt 205 einen Wunsch zur Durchführung der Suche bekundet, so geht die Steuerung von Schritt 205 zu einem Schritt 210 über, unter dem die Suche erfolgt. Der Ablauf der Suche wir nachstehend noch näher zu beschreiben sein. An den Schritt 210 schliesst sich ein Schritt 212 an, bei dem die Suchergebnisse angezeigt werden, wie dies vorstehend beschrieben ist.
Gemäss 19 wird eine Tabelle 220 zur Erfassung von Wortbildungen benutzt. Die Tabelle 220 enthält Eintragungen für jedes Wort 222, das Teil einer Wortbildung sein könnte, wobei eine Bitmap 223 die möglichen Stellen angibt, an denen die zugehörigen Worteintragungen 222 in einer Wortverbindung vorkommen könnten, und wobei eine Kennung ID 224 benutzt wird, um die Darstellungen für jedes der Wörter zu komprimieren, indem eine unverwechselbare beliebige Nummer zur Darstellung eines jeden Wortes zugeordnet wird. Die Tabelle 220 ist durch die Worteintragungen 222 indiziert.
Die Bitmap-Eintragungen 223 für jedes Wort zeigen an, an welchen Stellen das Wort in einer Wortverbindung vorkommen könnte. Jede Bitmap-Eintragung 223 hat eine Länge von einem Byte (acht Bits). Ein Wert von eins in einer bestimmten Bitposition in der Bitmap-Eintragung 223 zeigt an, dass das der Bitmap 223 zugeordnete Wort 222 an der entsprechenden Stelle in einer Wortverbindung zu finden sein könnte. Demgegenüber bedeuet ein Wert Null in einer bestimmten Position, dass das Wort 222 an der gleichen Stelle in einer Wortverbindung nicht vorkommen könnte. Umfasst zum Beispiel eine Bitmap-Eintragung 223 für ein Wort 222 ein Bit in der ersten, dritten und sechsten Bitposition und Null Bits in allen anderen Positionen, so könnte das zugeordnete Wort 222 nur dann Teil einer Wortverbindung sein, wenn das Wort als erstes, drittes oder sechstes Wort der Wortverbindung vorkommen würde.
Gemäss 20 zeigt ein Diagramm einer Baumstruktur 230 einen Stammknoten 232, eine Anzahl von Knoten 234–236 der Ebene 1, eine Anzahl von Knoten 237–239 der Ebene 2, eine Anzahl von Knoten 240–242 der Ebene 3 und eine Anzahl von Knoten 243–245 der Ebene 8. Die Unterbrechung zwischen Ebene 3 und Ebene 8 stellt eine Anzahl von Knoten der Ebene 4, Ebene 5, der Ebene 6 und der Ebene 7 dar, die Teil der Baumstruktur 230, in 20 jedoch nicht gezeigt sind. Jeder der Knoten entspricht einer der Kennungen ID 224 aus der Tabelle 220 in 19.
Jeder der Knoten 234–236 der Ebene 1 steht für das erste Wort einer Wortverbindung. Jeder der Knoten 237–239 der Ebene 2 repräsentiert das zweite Wort einer Wortverbindung. Allgemein steht jeder Knoten der Ebene N für das Nte Wort einer Wortverbindung. Die Verbindungen zwischen den Knoten stellen den Durchgang aufeinanderfolgender Wörter in einer Wortverbindung dar. Ein Endknoten steht für das letzte Wort in einer Wortverbindung. Bei der hier dargestellten Ausführungsform sollte beachtet werden, dass es sich bei allen Knoten der Ebene 8 um Endknoten handelt, so dass die Bitmap-Eintragungen (wie vorstehend beschrieben) eine Länge von nur einem Byte zu haben brauchen. Um Speicherplatz zu sparen, wird die Baumstruktur 230 anstelle der Benutzung tatsächlicher Wörter unter Benutzung der in 19 genannten Kennungen ID 224 gespeichert.
Gemäss 21 kann eine aufeinanderfolgende Gruppe von Wörtern aus der vom Benutzer vorgegebenen Suchbeschreibung auf Wortverbindungen überprüft werden. Zunächst wird das Wort A zuerst so überprüft, dass Wort A in der Tabelle 220 der 19 nachgeschlagen wird, um die dazugehörige Bitmap-Eintragung zu erhalten. Ergibt die Bitmap-Eintragung zu Wort A, dass Wort A niemals das erste Wort einer Wortverbindung sein könnte (da in der ersten Bitposition eine Null steht), so wird Wort A nicht als Bestandteil einer Wortverbindung angesehen. Ansonsten wird die dem Wort A entsprechende Kennung ID benutzt, um den dem Wort A entsprechenden Knoten der Ebene 1 in der Baumstruktur 230 zu lokalisieren.
Als nächstes wird das Wort B geprüft. Gehört Wort A nicht zu einer Wortverbindung, so erfolgt die Überprüfung von Wort B in der gleichen Weise wie bei Wort A. Ansonsten wird Wort B in der Weise untersucht, dass zuerst die entsprechende Bitmap-Eintragung überprüft wird, um festzustellen, ob Wort B das zweite Wort einer Wortverbindung sein könnte. Ist dies nicht der Fall, so wird Wort A nicht als Teil einer Wortverbindung angesehen und wird Wort B in der gleichen Weise untersucht wie zuvor das Wort A. Könnte andererseits das Wort B das zweite Wort einer Wortverbindung sein, so wird der dem Wort A entsprechende Knoten der Ebene 1 untersucht, um festzustellen, ob er mit einem dem Wort B entsprechenden Knoten der Ebene 2 verbunden ist. Ist dies nicht der Fall, so wird Wort B nicht als Teil einer Wortverbindung angesehen und wird Wort B in der gleichen Weise wie zuvor Wort A überprüft. Anderenfalls werden Wort A und Wort B als die ersten beiden Wörter einer Wortverbindung angesehen und wird die Verarbeitung mit Wort C fortgesetzt.
Stellt sich heraus, dass das Wort C nicht Bestandteil der Wortverbindung ist, so besteht die Wortverbindung aus Wort A und dem anschliessenden Wort B und wird die Verarbeitung dadurch fortgesetzt, dass geprüft wird, ob Wort C das erste Wort einer neuen Wortverbindung ist. Wird andererseits festgestellt, dass Wort C das dritte Wort der mit Wort A und Wort B beginnenden Wortverbindung ist, so wird die Verarbeitung so fortgesetzt, dass geprüft wird, ob Wort D das vierte Wort der Wortverbindung sein könnte. Nach Beendigung einer jeden Wortverbindung wird das hinter der erfassten Wortverbindung stehende Wort dahingehend überprüft, ob das Wort hinter der erfassten Wortverbindung das erste Wort einer neuen Wortverbindung sein könnte.
Wie im Zusammenhang mit 2 und 3 erörtert, können die Indizes für die physikalischen Dokumentensammlungen Wortverbindungen enthalten, die als ein einzelner Begriff gespeichert werden. Für nicht als einzelner Begriff gespeicherte Wortverbindungen besteht die Möglichkeit, nach Wörtern der Wortverbindung getrennt zu suchen. So kann zum Beispiel nach der Wortverbindung "personal injury" (Personenschaden) gesucht werden, indem eine Suche nach dem Begriff "personal" und eine Suche nach dem Begriff "injury" gestartet werden, wobei dann festgestellt wird, wo der Begriff "personal" dem Begriff "injury" um eine Stelle in jedem der Dokumente vorausgeht.
Gemäss 22 ist der Suchprozess durch ein Ablaufdiagramm 260 dargestellt. Die links zu sehenden Schritte des Ablaufdiagramms 260 sind Schritte, die vom SA-Computer ausgeführt werden, während die Schritte auf der rechten Seite des Ablaufdiagramms 260 Schritte repräsentieren, für die ein oder mehrere SR-Computer zuständig ist/sind, der/die mit der tatsächlichen Suche und dem Retrieval befasst ist/sind. Die gestrichelten Linien, welche Schritte auf der linken Seite mit Schritten auf der rechten Seite verbinden, sind ein Hinweis auf das temporale Verhältnis zwischen den vom SA-Computer ausgeführten Schritten und den von dem/den SR-Computer(n) ausgeführten Schritten. Das Ablaufdiagramm 260 zeigt nicht den Datenfluss zwischen den SA-Computern und den SR-Computern.
Die Verarbeitung beginnt mit einem ersten Schritt 262, bei dem der SA-Computer Suchbegriffe vorgibt und Anweisungen für die Filter an die SR-Computer erteilt. Wie vorstehend erwähnt, sollte beachtet werden, dass der SA-Computer eine vom Benutzer angewählte logische Dokumentensammlung bildet, indem die entsprechenden physikalischen Sammlungen bestimmt und Anweisungen zum Aufbau der entsprechenden Filter erteilt werden. Weitere Filteranweisungen sind möglich, wenn der Benutzer obligatorische Begriffe oder Einschränkungen eingibt.
Auf den Schritt 262 folgt ein Schritt 263, bei dem die SR-Computer, die mit der Suche befasst sind, jeweils die Suche auf der unteren Ebene durchführen, indem auf die Indizes der physikalischen Sammlungen zugegriffen wird, welche die gewählten logischen Sammlungen umfassen, wie dies vorstehend erörtert wurde. Nach dem Schritt 263 erhalten die SA-Computer von den SR-Computern in einem Schritt 264 die Dokumentenzählungen. Dokumentenzählungen sind die Anzahl von Dokumenten, in denen jeder der Begriffe enthalten ist. Wird also nach einer Gesamtanzahl von N Begriffen gesucht, so ergeben sich N Dokumentenzählungswerte. Auch erfolgt bei Schritt 263 die Rückmeldung eines Indikators durch den/die SR-Computer für etwaige häufig benutzte Begriffe (vorstehend beschrieben), die von einer weiteren Berücksichtigung ausgeschlossen werden.
An den Schritt 264 schliesst sich ein Schritt 265 an, bei dem für jeden Suchbegriff vom SA-Computer dfi und maxdfi errechnet werden. Die Menge dfi stellt die Anzahl von Dokumenten dar, in denen Begriff i enthalten ist. Die Menge maxdfi bezeichnet die maximale Anzahl von Dokumenten, in denen irgendwelche Begriffe der Suche vorkommen. Demgemäss gibt es bei jeder Suche nur einen einzigen Wert für maxdfi. Es sei darauf hingewissen, dass der SA-Computer dfi und maxdfi errechnet, da die logische Dokumentensammlung eines Benutzers eine Vielzahl physikalischer Sammlungen in verschiedenen SR-Computern umfassen kann. dfi und maxdfi könnten von einem einzelnen SR-Computer nicht errechnet werden, ohne dass ihm die Dokumentenzählungen der anderen SR-Computer bekannt sind.
An den Schritt 265 schliesst sich ein Optimierungsschritt 266 an, bei dem SR-Computer, die kein einziges, zu irgendeinem Suchbegriff passendes Dokument enthalten, nicht weiter berücksichtigt werden. Dies bedeutet, dass ein SR-Computer, der Teil einer physikalischen Dokumentensammlung ist, welche die vom Benutzer gewählte logische Sammlung umfasst, aus der weiteren Verarbeitung herausgenommen wird, wenn der SR-Computer keine einschlägigen Dokumente enthält.
Auf den Schritt 266 folgt ein Schritt 267, bei dem die vom SA-Computer in Schritt 264 errechneten dfi und maxdfi an die SR-Computer gehen. Dem Schritt 267 schliesst sich ein Schritt 268 an, bei dem von jedem der SR-Computer die Rangfolge eines jeden in Schritt 263 der Suche gefundenes Dokuments errechnet werden. Die Errechnung der Rangfolge eines jeden Dokuments erfolgt nach der nachstehenden Summationsformel:
Formel
wobei nt = die Gesamtanzahl der Suchbegriffe, ut = die Anzahl der Suchbegriffe, die im zu ordnenden Dokument vorkommen (jeder einzelne Begriff wird einmal gezählt) und tfi = die Häufigkeit, mit der Suchbegriff i im zu ordnenden Dokument enthalten ist. Die Menge oc repräsentiert das prozentuale Vorkommen von Suchbegriffen in einem Fliestextfenster mit einer maximalen Anzahl von Suchbegriffen und wird durch Teilen der Häufigkeit von Suchbegriffen im Fenster durch eine Gesamthäufigkeit von Suchbegriffen im Dokument und durch anschliessendes Multiplizieren des Ergebnisses mit 100 errechnet. Die Mengen dfi und maxdfi sind bereits vorstehend beschrieben. Für alle Logarithmen gilt die Zahlenbasis 2. Es sollte beachtet werden, dass die Menge log(tfi + 1) in der Formel potenziert ist, so dass die Rangfolge zu Gunsten der Dokumente gewichtet wird, in denen die grösste Begriffshäufigkeit zu verzeichnen ist.
Mit Schritt 268 gibt jeder der SR-Computer die Rangfolge für die hocheingestuften N Dokumente an den SA-Computer zurück, wobei N die Anzahl der Dokumente ist, die der Benutzer im Rahmen der Suche zurückgemeldet haben möchte. Die Anzahl der gefundenen Dokumente wird vom Benutzer in der vorstehend ausführlicher beschriebenen Weise eingestellt.
Nach dem Schritt 268 führt der SA-Computer den Schritt 269 aus, bei dem alle von den SR-Computern zurückgegebenen Dokumentenbewertungen zusammengefasst und der Rangfolge nach sortiert werden. Alle Dokumente, bis auf die mit den höchsten Bewertungen oder Einstufungen N, wobei N die vom Benutzer gewünschte Anzahl von Dokumenten ist, werden nicht weiter berücksichtigt. Der SA-Computer fordert dann die restlichen Dokumente von den jeweiligen SR-Computern an. Werden zum Beispiel vom Benutzer fünfundzwanzig Dokumente gewünscht, und umfasst die logische Dokumentensammlung drei SR-Computer, so würden von jedem der drei SR-Computer fünfundzwanzig Dokumentenbewertungen zurückgemeldet. Der SA-Computer würde die drei Satz von jeweils fünfundzwanzig Dokumentenbewertungen zusammenfassen, der Bewertung nach sortieren und dann alle Dokumente bis auf die mit den fünfundzwanzig höchsten Bewertungen in Fortfall bringen. Seitens des SA-Computers würde dann die Aufforderung ergehen, dass von dem/den entsprechenden SR-Computer(n) die Dokumente mit der höchsten Bewertung zurückgegeben werden.
An den Schritt 269 schliesst sich ein vom SR-Computer ausgeführter Schritt 270 an, bei dem der/die SR-Computer die vom SA-Computer unter Schritt 269 angeforderten Dokumente mit der höchsten Bewertung abrufen und an den SA-Computer zurückgeben.
Auf den Schritt 270 schliesst sich ein vom SA-Computer ausgeführter Schritt 271 an, bei dem die Begriffsbedeutung für jeden der Begriffe errechnet wird. Die Begriffsbedeutung, die vorstehend im Zusammenhang mit der Spalte 188 in 16 erläutert ist, entspricht einem standardisierten log₂(maxdfi/dfi), so dass sich für die Werte für die Begriffsbedeutung ein Bereich von 1 bis 100 ergibt.
An den Schritt 271 schliesst sich ein Schritt 272 an, bei dem die Dokumente zur Anzeige gebracht werden, wie dies im Vorstehenden ausführlich beschrieben ist.

Claims

Assoziatives Textsuch- und -retrievalsystem mit: Datenübertragungsvorrechnern (56, 57, 58) zum Dialog mit einem Netz mit einer oder mehreren angeschlossenen Benutzerstationen, um Informationen in das System einzugeben und Informationen aus dem System abzurufen; Speichereinrichtungen (46, 47, 48, 49) zur Speicherung einer Anzahl von Textdokumenten; und mit den Datenübertragungsvorrechnern und den Speichereinrichtungen gekoppelter Prozessoreinrichtung (32, 33, 34, 42, 43, 44) zum Durchsuchen der Textdokumente unter Benutzung einer Anzahl von vom Benutzer festgelegten Suchbegriffen, zum Errechnen einer Auswertung für jedes der Textdokumente, in denen mindestens einer der Suchbegriffe enthalten ist, zum Festlegen einer Rangfolge der Textdokumente auf der Grundlage ihrer Auswertungen und zum Bereitstellen einer vorbestimmten Anzahl von abgerufenen Dokumenten als Teilmenge der Textdokumente auf der Basis der Rangfolge der Dokumente an die Datenübertragungsvorrechner, wobei die abgerufenen Dokumente mit höherer Rangfolge als die Textdokumente den Datenübertragungsvorrechnern nicht zur Verfügung gestellt werden, wobei die Auswertungen anhand einer Formel errechnet werden, die in Abhängigkeit vom Quadrat der Häufigkeit eines jeden Suchbegriffs in jedem der Textdokumente variiert, und wobei die Dokumentenhäufigkeit als die Anzahl der Dokumente innerhalb einer durchsuchten Sammlung definiert wird, in denen der Suchbegriff enthalten ist.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 1, wobei die Formel in Abhängigkeit von einer umgekehrten Dokumentenhäufigkeit bei jedem der Suchbegriffe ebenfalls veränderlich ist.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 2, wobei die Formel wie folgt lautet: Formel wobei nt = die Gesamtanzahl der Suchbegriffe, ut = eine Anzahl eindeutiger Suchbegriffe, die in einem bestimmten Textdokument vorkommen, tfi = eine Häufigkeit, mit der Suchbegriff i im Textdokument enthalten ist, oc = ein prozentuales Vorkommen von Suchbegriffen in einem Fliestextfenster mit einer maximalen Anzahl von Suchbegriffen, wobei oc durch Teilen der Häufigkeit von uchbegriffen im Fenster durch eine Gesamthäufigkeit von Suchbegriffen im Dokument und durch anschliessendes Multiplizieren des Ergebnisses mit 100 errechnet wird, dfi = eine Anzahl der Textdokumente, in denen der Begriff i enthalten ist, maxdfi = eine maximale Anzahl von Textdokumenten, in denen irgendwelche Suchbegriffe vorkommen, und wobei für alle Logarithmen die Zahlenbasis 2 gilt.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, wobei die Prozessoreinrichtung umfasst: mindestens einen mit den Datenübertragungsvorrechnern gekoppelten Session Administrator (SA)-Computer (42, 43, 44); und mindestens einen mit dem SA-Computer und den Dokumentenspeichereinrichtungen verbundenen Search and Retrieval [Such- und Retrieval-](SR)-Computer (32, 33, 34), wobei der SR-Computer die Suche in den Dokumentenspeichereinrichtungen durchführt und die abgerufenen Dokumente an den SA-Computer zurückgibt und wobei der SA-Computer den Benutzer auffordert, Suchbegriffe und Suchoptionen einzugeben, die Suchanforderung an den entsprechenden SR-Computer gibt und dem Benutzer die Möglichkeit bietet, die vom SR-Computer an den SA-Computer zurückgegebenen abgerufenen Dokumente einzusehen.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 4, wobei die Suchanforderung vom SA-Computer an mehr als nur einen SR-Computer gegeben wird, wobei die SR-Computer die Dokumentenauswertung für die während der Suche gefundenen Textdokumente errechnen und wobei der SA-Computer die Auswertungen abgleicht und die Reihenfolge der Dokumente in Abhängigkeit von ihrer Auswertung bestimmt und die SR-Computer veranlasst, eine Teilmenge der Textdokumente mit den höchsten Gesamtauswertungen zurückzugeben.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: einem Thesaurus (52, 53, 54) mit Eintragungen für eine Anzahl von Wörtern zur Korrelation eines jeden Worts mit sowohl Synonymen als auch morphologischen Variationen.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen, um dem Benutzer unabhängig von den vom ihm vorgegebenen Suchbegriffen die Eingabe obligatorischer Begriffe zu ermöglichen, die in jedem der abgerufenen Dokumente vorkommen müssen, wobei die Prozessoreinrichtung Auswertungen nur für solche Dokumente vornimmt, in denen die obligatorischen Begriffe ggf. enthalten sind.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: einer Tabelle zur Erfassung von Sätzen, wobei die Tabelle Eintragungen umfasst, die für jedes Wort, das Teil eines Satzes sein kann, eine Position angibt, die das Wort in einem Satz einnehmen kann.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 8, wobei in der Tabelle einer jeden Eintragung eine Bitmap zugeordnet ist, welche mögliche Stellungen in einem Satz der zuge hörigen Eintragung angibt.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 9, wobei die Tabelle desweiteren eine Kennung besitzt, um die Darstellungen eines jeden Wortes durch Zuordnung einer unverwechselbaren beliebigen Nummer zum Darstellen eines jeden Wortes zu komprimieren.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 9 oder Anspruch 10, wobei jede Bitmap-Eintragung eine Länge von einem Byte hat, wobei ein Wert 1 einer bestimmten Bitposition in der Bitmap-Eintragung anzeigt, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz vorkommen könnte, und wobei ein Wert 0 einer bestimmten Bitposition in der Bitmap-Eintragung bedeutet, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz nicht vorkommen könnte.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 10, wobei die Tabelle einen Baum mit Knoten benutzt, die den Wörtern in einem Satz zugeordneten Kennungen entsprechen, wobei die Knoten in der Reihenfolge miteinander verbunden sind, in welcher die Wörter in einem Satz vorkommen können.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen, die dem Benutzer die Möglichkeit zum Eingeben obligatorischer Begriffe bieten, die unabhängig von den vom Benutzer vorgegebenen Suchbegriffen in jedem der abgerufenen Dokumente vorkommen müssen, wobei die Prozessoreinrichtung eine Auswertung für jedes der Textdokumente errechnet, in denen die etwaigen obligatorischen Suchbegriffe und mindestens einer der Suchbegriffe enthalten sind.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: einem den Textdokumenten zugeordneten Index zur Anzeige der Positionen potentieller Suchbegriffe innerhalb der Textdokumente; Einrichtungen, um bei der Suche Störbegriffe auszuschliessen, indem keine Störbegriffe in den Index aufgenommen werden; und Einrichtungen, um bei der Suche häufig gebrauchte Begriffe auszuschliessen, wobei die häufig benutzten Begriffe im Index enthalten und in einer Liste häufig benutzter Begriffe aufgelistet sind und wobei die häufig benutzten Begriffe dadurch von der Suche ausgeschlossen bleiben, dass bei der Suche keine in der Liste enthaltene Begriffe benutzt werden.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen, um dem Benutzer eine Bildschirmmaske zur Verfügung zu stellen, die für jedes abgerufene Dokument anzeigt, welche Suchbegriffe in welchen abgerufenen Dokumenten vorkommen.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 2, desweiteren mit: Einrichtungen, um dem Benutzer eine Bildschirmmaske zur Verfügung zu stellen, die für jeden der Suchbegriffe eine Bedeutung angibt, wobei die Bedeutung der Begriffe in Abhängigkeit von der umgekehrten Dokumentenhäufigkeit des Suchbegriffs variiert.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 16, wobei die Bedeutung der Begriffe in Abhängigkeit von log(maxdfi/dfi) variiert, wobei für den Logarithmus die Basiszahl 2 gilt, dfi = eine Anzahl der abgerufenen Dokumente, in denen der Suchbegriff i enthalten ist, und maxdfi = eine maximale Anzahl der abgerufenen Dokumente, in denen irgendwelche Suchbegriffe vorkommen.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, wobei die Speichereinrichtungen zur Speicherung von mindestens einer Dokumentensammlung mit einer Anzahl von Textdokumenten und vorbestimmten Informationen dienen, aus denen hervorgeht, wie die Dokumente in der Dokumentensammlung präsentiert werden können, wobei das System Einrichtungen umfasst, die dem Benutzer die Möglichkeit bieten, einen von vielen möglichen Befehlen zur Darstellung der abgerufenen Dokumente auf der Grundlage der vorbestimmten und in der Dokumentensammlung enthaltenen Informationen anzuwählen.
Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen zur Anzeige des Textes eines der abgerufenen Dokumente in einem Fenster, wobei das Fenster die höchste Fensterauswertung aller möglichen Fenster des abgerufenen Dokuments hat, wobei die Fensterauswertung auf der Häufigkeit und Unterschiedlichkeit der Suchbegriffe im Fenster basiert und wobei die Vielseitigkeit der Suchbegriffe im Fenster ausgehend von der Anzahl der Suchbegriffe im Fenster errechnet wird, denen ein anderer Suchbegriff im Fenster vorausgeht.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 19, wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster, dem ein anderer Suchbegriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster errechnet wird, dem ein anderer Suchbegriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff steht.
Assoziatives Textsuch- und -retrievalsystem nach Anspruch 19, desweiteren mit Einrichtungen, um dem Benutzer die Eingabe von obligatorischen Begriffen zu ermöglichen, die in jedem der abgerufenen Dokumente vorkommen müssen, wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe und obligatorischen Begriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster errechnet wird, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff oder obligatorischer Begriff steht.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems, zu dem die folgenden Verfahrensschritte gehören: Durchsuchen von Textdokumenten (263) unter Benutzung einer Anzahl von Suchbegriffen, die von einem Benutzer festgelegt werden; Errechnen einer Auswertung für jedes der Textdokumente, in denen mindestens einer der Suchbegriffe enthalten ist, nach einer Formel, die in Abhängigkeit vom Quadrat der Häufigkeit eines jeden Suchbegriffs (268) in jedem der Textdokumente variiert, wobei die Dokumentenhäufigkeit als die Anzahl der Dokumente innerhalb einer durchsuchten Sammlung definiert wird, in denen der Suchbegriff enthalten ist; Festlegen einer Rangfolge der Textdokumente auf der Grundlage ihrer Auswertungen (269); und Bereitstellen einer vorbestimmten Anzahl von abgerufenen Dokumenten (272) als Teilmenge der Textdokumente auf der Basis der Rangfolge der Dokumente an den Benutzer, wobei die abgerufenen Dokumente mit höherer Rangfolge als die Textdokumente nicht zur Verfügung gestellt werden.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 22, wobei die Formel in Abhängigkeit von einer umgekehrten Dokumentenhäufigkeit bei jedem der Suchbegriffe ebenfalls veränderlich ist.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 23, wobei die Formel wie folgt lautet: Formel wobei nt = die Gesamtanzahl der Suchbegriffe, ut = eine Anzahl eindeutiger Suchbegriffe, die in einem bestimmten Textdokument vorkommen, tfi = eine Häufigkeit, mit der Suchbegriff i im Textdokument enthalten ist, oc = ein prozentuales Vorkommen von Suchbegriffen in einem Fliestextfenster mit einer maximalen Anzahl von Suchbegriffen, wobei oc durch Teilen der Häufigkeit von Suchbegriffen im Fenster durch eine Gesamthäufigkeit von Suchbegriffen im Dokument und durch anschliessendes Multiplizieren des Ergebnisses mit 100 errechnet wird, dfi = eine Anzahl der Textdo kumente, in denen der Begriff i enthalten ist, maxdfi = eine maximale Anzahl von Textdokumenten, in denen irgendwelche Suchbegriffe vorkommen, und wobei für alle Logarithmen die Zahlenbasis 2 gilt.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 24, zu dem desweiteren der folgende Verfahrensschritt gehört: Benutzung eines Thesaurus mit Eintragungen für eine Anzahl von Wörtern zur Korrelation eines jeden Worts mit sowohl Synonymen als auch morphologischen Variationen.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 25, mit desweiteren den folgenden Verfahrensschritten: Schaffung der Möglichkeit für einen Benutzer, eine Anzahl von Suchbegriffen einzugeben; Benutzung einer Tabelle zur Erfassung von Sätzen innerhalb der vom Benutzer vorgegebenen Suchbegriffe, wobei die Tabelle Eintragungen umfasst, die für jedes Wort, das Teil eines Satzes sein kann, eine Position angibt, die das Wort in einem Satz einnehmen kann; wobei das Durchsuchen der Textdokumente unter Benutzung der vom Benutzer vorgegebenen Anzahl von Suchbegriffen und der ggf. mittels der Tabelle erfassten Sätze erfolgt.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 26, wobei in der Tabelle einer jeden Eintragung eine Bitmap zugeordnet ist, welche mögliche Stellungen in einem Satz der zugehörigen Eintragung angibt.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 27, wobei die Tabelle desweiteren eine Kennung besitzt, um die Darstellungen eines jeden Wortes durch Zuordnung einer unverwechselbaren beliebigen Nummer zum Darstellen eines jeden Wortes zu komprimieren.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 27 oder Anspruch 28, wobei jede Bitmap-Eintragung eine Länge von einem Byte hat, wobei ein Wert 1 einer bestimmten Bitposition in der Bitmap-Eintragung anzeigt, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz zu finden sein könnte, und wobei ein Wert 0 einer bestimmten Bitposition in der Bitmap-Eintragung bedeutet, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz nicht vorkommen könnte.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 28, wobei die Tabelle einen Baum mit Knoten benutzt, die den Wörtern in einem Satz zugeordneten Kennungen entsprechen, wobei die Knoten in der Reihenfolge miteinander verbunden sind, in welcher die Wörter in einem Satz vorkommen können.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 30, zu dem desweiteren die folgenden Verfahrensschritte gehören: Schaffung der Möglichkeit für den Benutzer zum Eingeben obligatorischer Begriffe, die unabhängig von den vom Benutzer vorgegebenen Suchbegriffen in jedem der abgerufenen Dokumente vorkommen müssen; wobei eine Auswertung für jedes der Textdokumente errechnet wird, in denen die etwaigen obligatorischen Suchbegriffe und mindestens einer der Suchbegriffe enthalten sind.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 31, zu dem desweiteren die folgenden Verfahrensschritte gehören: Anzeige der Positionen potentieller Suchbegriffe innerhalb der in einer Dokumentensammlung enthaltenen Textdokumente mittels eines den Textdokumenten zugeordneten Indexes; Ausschluss von Störbegriffen bei der Suche, indem keine Störbegriffe in den Index aufgenommen werden; Nichtberücksichtigung häufig gebrauchter Begriffe bei der Suche, wobei die häufig benutzten Begriffe im Index enthalten und in der Dokumentensammlung in einer Liste häufig benutzter Begriffe aufgelistet sind, wobei die Liste häufig benutzter Begriffe auf der Grundlage einer Vielzahl von Funktionsfaktoren einschliesslich der Häufigkeit eines Begriffs in der Dokumentensammlung und der Art der Dokumentensammlung dynamisch ist und wobei die häufig benutzten Begriffe dadurch von der Suche ausgeschlossen bleiben, dass bei der Suche keine in der Liste enthaltene Begriffe benutzt werden; wobei für jedes der Textdokumente, die mit Ausnahme der nach vorgenannten Verfahrensschritten ausgeschlossenen Störbegriffe und häufig benutzten Begriffe mindestens einen Suchbegriff enthalten, eine Auswertung errechnet wird.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 32, zu dem desweiteren der folgende Verfahrensschritt gehört: Anzeige für jedes abgerufene Dokument, welche Suchbegriffe in welchen abgerufenen Dokumenten vorkommen.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 33, wobei das Vorkommen eines jeden Suchbegriffs innerhalb der abgerufenen Dokumente in ablesbarer Form angezeigt wird.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 34, zu dem desweiteren der folgende Verfahrensschritt gehört: Angabe der Bedeutung für jeden der Suchbegriffe, wobei die Bedeutung der Begriffe in Abhängigkeit von der umgekehrten Dokumentenhäufigkeit des Suchbegriffs variiert.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 35, wobei die Bedeutung des Begriffs in ablesbarer Form angezeigt wird.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 35 oder Anspruch 36, wobei die Bedeutung der Begriffe in Abhängigkeit von log(maxdfi/dfi) variiert, wobei für den Logarithmus die Basiszahl 2 gilt, dfi = eine Anzahl der abgerufenen Dokumente, in denen der Suchbegriff i enthalten ist, und maxdfi = eine maximale Anzahl der abgerufenen Dokumente, in denen irgendwelche Suchbegriffe vorkommen.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 37, wobei die Textdokumente in einer Dokumentensammlung enthalten sind und zu dem desweiteren der folgende Verfahrensschritt gehört: Schaffung der Möglichkeit für den Benutzer, einen von vielen möglichen Befehlen zur Darstellung der abgerufenen Dokumente auf der Grundlage der vorbestimmten und in der Dokumentensammlung enthaltenen Informationen anzuwählen, die zeigen, wie die Dokumente in der Dokumentensammlung präsentiert werden können.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 38, zu dem desweiteren die folgenden Verfahrensschritte gehören: für ein bestimmtes abgerufenes Dokument Errechnen einer Fensterauswertung für jedes aller möglichen Fenster des abgerufenen Dokuments auf der Grundlage der Häufigkeit und Unterschiedlichkeit der Suchbegriffe im Fenster, wobei die Vielseitigkeit der Suchbegriffe im Fenster ausgehend von der Anzahl der Suchbegriffe im Fenster errechnet wird, denen ein anderer Suchbegriff im Fenster vorausgeht; und Anzeige des Textes des jeweils gewählten abgerufenen Dokuments in einem Fenster, das die höchste Fensterauswertung aller möglichen Fenster des gewählten abgerufenen Dokuments hat.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 39, wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster, dem ein anderer Suchbegriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster errechnet wird, dem ein anderer Suchbegriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff steht.
Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 39, zu dem desweiteren der Verfahrensschritt gehört, dass dem Benutzer die Eingabe von obligatorischen Begriffen ermöglicht wird, die in jedem der abgerufenen Dokumente vorkommen müssen; und wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe und obligatorischen Begriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster errechnet wird, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff oder obligatorischer Begriff steht.