DE69433165T2 - Assoziatives textsuch- und wiederauffindungssystem - Google Patents
Assoziatives textsuch- und wiederauffindungssystem Download PDFInfo
- Publication number
- DE69433165T2 DE69433165T2 DE69433165T DE69433165T DE69433165T2 DE 69433165 T2 DE69433165 T2 DE 69433165T2 DE 69433165 T DE69433165 T DE 69433165T DE 69433165 T DE69433165 T DE 69433165T DE 69433165 T2 DE69433165 T2 DE 69433165T2
- Authority
- DE
- Germany
- Prior art keywords
- search
- terms
- documents
- text
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Description
- Technisches Fachgebiet
- Die vorliegende Erfindung betrifft als Fachgebiet das Durchsuchen und das Auslesen von Textdokumenten und hat insbesondere den Einsatz von einem oder mehreren Rechnern zum Gegenstand, um eine Vielzahl von Textdokumenten zu durchsuchen und bestimmte Begriffe und Wortverbindungen (Sätze) enthaltende Dokumente auszulesen bzw. abzurufen.
- Stand der Technik
- Es ist bekannt, dass eine grosse Sammlung von Textdokumenten nach bestimmten Schlüsselwörtern oder Wortverbindungen durchsucht werden kann. Ein Benutzer kann ein einzelnes Wort oder eine einzelne Wortverbindung oder mehrere Wörter oder mehrere Wortverbindungen festlegen, die durch Boolesche Verknüpfungen wie beispielsweise "UND" oder "ODER" miteinander verbunden sind. In vielen Fällen jedoch muss ein Benutzer ziemlich geschickt sein, um relativ komplizierte Suchen durchzuführen und die vom Benutzer gewünschte genaue Kategorie von Dokumenten abzurufen, ohne eine übermässig grosse Anzahl von Suchvorgängen durchführen zu müssen.
- Assoziatives Retrieval, eine in den 60er Jahren von Gerard Salton entwickelte Technik zur Informationswiedergewinnung, spricht einige der Nachteile an, mit denen die Boolesche Suche behaftet ist. Das Fachbuch Automatic Text Processing [Automatische Textverarbeitung] (Verfasser Gerard Salton, herausgegeben von Addison Wesley, New York, New York 1988) enthält eine Beschreibung des assoziativen Such- und Retrievalverfahrens. Zu der beim assoziativen Retrieval angewandten Grundformel gehören das Errechnen einer Wertigkeit für jeden Begriff innerhalb einer Suchabfrage und das Auswerten von Dokumenten in einer Sammlung auf der Grundlage der Summe der Wertigkeiten für die innerhalb eines Dokuments vorkommenden Suchabfragebegriffe. Die beiden grundlegenden Wertigkeitsfaktoren sind bekannt als Begriffshäufigkeit -tf- und umgekehrte Dokumentenhäufigkeit -idf.
- Die Begriffshäufigkeit ist als die Anzahl von Malen definiert, in welcher der Begriff innerhalb eines bestimmten Dokuments vorkommt. Somit muss die Begriffshäufigkeit für jedes Dokument innerhalb der Sammlung errechnet werden.
- Die umgekehrte Dokumentenhäufigkeit ist als die umgekehrte Anzahl von Dokumenten innerhalb der kompletten Sammlung definiert, in denen der Begriff enthalten ist. Kommt also in df Dokumenten innerhalb einer Sammlung von N Dokumenten ein bestimmter Begriff vor, so wäre die idf gleich 1/df.
- Durch Setzen von log(N/df) kann die idf hinsichtlich der Anzahl von Dokumenten normiert werden. Die idf wird für jeden Suchabfragebegriff errechnet, ist jedoch für die Sammlung konstant und variiert nicht nach Dokumenten. Die Auswertung für ein gegebenes Dokument wird errechnet durch Summieren des Produkts von tf und idfs für jeden im Dokument vorkommenden Suchabfragebegriff.
- Das von Salton beschriebene assoziative Retrieval weist jedoch viele Aspekte auf, durch die eine weitreichende kommerzielle Nutzung zum Suchen nach und Auffinden von Dokumenten in grossen Datenbänken unzweckmässig oder ungeeignet ist. Darüber hinaus ist es bei den meisten Arbeiten auf dem Gebiet des assoziativen Retrievals nicht gelungen, die Aspekte im Hinblick auf den Dialog mit dem Menschen und die Rückmeldung seitens des Menschen auf geeignete Weise anzusprechen. Es ist demgemäss wünschenswert, ein assoziatives Textsuch- und -retrievalsystem zu schaffen, mit dem die Mängel bekannter Systeme abgestellt werden können.
- Zusammenfassung der Erfindung
- Erfindungsgemäss gibt der Benutzer eine Suchbeschreibung mit einem oder mehreren Suchbegriffen an ein assoziatives Textsuch- und -retrievalsystem, von dem eine Dokumentendatenbank nach Dokumenten durchsucht wird, die mindestens einen der vorgegebenen Suchbegriffe enthalten, und das dann die Rangfolge eines jeden Dokuments nach einer Formel festlegt, die in Abhängigkeit vom Quadrat der Häufigkeit eines jeden Suchbegriffs im jeweiligen Dokument variiert. Die Formel zur Festlegung der Rangfolge kann ebenfalls in Abhängigkeit von der umgekehrten Dokumentenhäufigkeit eines jeden Suchbegriffs veränderlich sein. Die Formel kann darüber hinaus mit einer maximalen Begriffshäufigkeit zum Abschätzen der Grösse eines Dokuments und der maximalen Dokumentenhäufigkeit zum Abschätzen der Anzahl von Dokumenten in einer Dokumentensammlung benutzt werden, so dass der zur Bestimmung der Dokumentengrösse und der Anzahl der Dokumente in einer Sammlung erforderliche Verarbeitungsumfang verringert wird. Der Benutzer kann obligatorische Begriffe vorgeben, durch welche im Rahmen der Suche nur Dokumente zurückgemeldet werden, in denen diese Begriffe enthalten sind.
- Das System kann einen Thesaurus umfassen, um sowohl Synonyme als auch morphologische Variationen von Wörtern einzugeben. Wortverbindungen in der Suchbeschreibung werden anhand einer Tabelle mit einer Bitmap, die mögliche Stellen eines Worts in einer Wortverbindung angibt, und unter Benutzung eines Baums mit Knoten erfasst, die Wörtern in einer Wortverbindung zugeordneten Kennungen entsprechen, wobei die Knoten in der Reihenfolge miteinander verbunden sind, in welcher die Wörter in einer Wortverbindung vorkommen können. Das System optimiert die Suche durch Unterscheidung zwischen Störwörtern, die in einem Index zu den Dokumenten nicht enthalten sind, und häufig benutzten Begriffen, die im Index zu finden sind, bei der Suche jedoch nicht benutzt werden.
- Das System kann Anzeigeoptionen für die im Rahmen der Suche abgerufenenen Dokumente umfassen einschliesslich der Anzeige eines Textfensters, in dem die grösste Anzahl und Unterschiedlichkeit von Suchbegriffen und obligatorischen Begriffen zu sehen ist. Das System kann ebenfalls eine Bildschirmmaske zur Anzeige bringen, aus der hervorgeht, welche Suchbegriffe in welchen der abgerufenen Dokumente vorkommen, und eine Bildschirmmaske zur Verfügung stellen, um die Bedeutung eines jeden Begriffs anzuzeigen, wobei die Maske entsprechend der umgekehrten Dokumentenhäufigkeit eines jeden Begriffs variiert. Die Dokumente können entsprechend ihrer Rangfolge oder nach einer vorbestimmten Standardmethode wie zum Beispiel in umgekehrter chronologischer Reihenfolge sortiert werden.
- Das System kann eine Vielzahl miteinander verbundener Prozessoren und entsprechender zugehöriger Daten umfassen, wobei einige der Prozessoren die Suche durchführen und andere wiederum die Suchdaten abgleichen und mit dem Benutzer Dialoge führen.
- Kurzbeschreibung der Zeichnungen
-
1 = eine schematische Darstellung eines erfindungsgemässen Dokumentensuchsystems. -
2 = Darstellung von in einer physikalischen Dokumentensammlung gespeicherten Daten. -
3 = Darstellung von in einem Index zu einer physikalischen Dokumentensammlung gespeicherten Daten. -
4 = Darstellung einer aus einer Anzahl von physikalischen Dokumentensammlungen bestehenden logischen Dokumentensammlung. -
5 = Darstellung einer aus einer Anzahl von Teilmengen physikalischer Dokumentensammlungen bestehenden logischen Dokumentensammlung. -
6 = eine Bildschirmmaske mit Darstellung der Eingabe einer Suchbeschreibung. -
7 = eine Bildschirmmaske mit Darstellung der Eingabe von Suchoptionen. -
8 = eine Bildschirmmaske mit Darstellung der Eingabe von obligatorischen Begriffen. -
9 = eine Bildschirmmaske mit Darstellung der Eingabe von Einschränkungen. -
10 = eine Bildschirmmaske mit Darstellung von Einschränkungen. -
11 = eine Bildschirmmaske mit Darstellung der Eingabe von sowohl obligatorischen Begriffen als auch Einschränkungen. -
12 = eine Bildschirmmaske mit Darstellung einer Thesaurusfunktion. -
13 = eine Bildschirmmaske mit Darstellung der Wahl von Synonymen bzw. morphologischen Variationen eines Begriffs unter Benutzung der Thesaurusfunktion. -
14 = eine Bildschirmmaske mit Darstellung von obligatorischen Begriffen, Einschränkungen und Thesaurus-Eingaben. -
15 = eine Bildschirmmaske mit Darstellung der Optionen zur Einsichtnahme in nach einer Suche abgerufene Dokumente. -
16 = eine Bildschirmmaske mit Darstellung einer "Warum"-Funktion. -
17 = eine Bildschirmmaske mit Darstellung einer "Wo"-Funktion. -
18 = ein Ablaufdiagramm mit Darstellung der Gesamtarbeitsweise des erfindungsgemässen Systems. -
19 = eine zur Erfassung von Wortverbindungen benutzte Tabelle. -
20 = eine zur Erfassung von Wortverbindungen benutzte Datenbaumstruktur. -
21 = eine Anzahl zusammenhängender Wörter aus einer Suchbeschreibung. -
22 = ein Ablaufdiagramm mit Darstellung der Operation eines Suchalgorithmus. - Beste Ausführungsform(en) der Erfindung
- Gemäss der
1 bietet ein Dokumentensuch- und -retrievalsystem30 einem Benutzer die Möglichkeit, eine Teilmenge einer Anzahl von Dokumenten nach bestimmten Schlüsselwörtern oder Wortverbindungen zu durchsuchen, wobei das System der Suchabfrage entsprechende Dokumente abruft, damit diese vom Benutzer eingesehen werden können. Das System30 besteht aus einer Anzahl von Search and Retrieval [Such- und Retrieval-](SR)-Computern32 –35 , die über eine Hochgeschwindigkeitsverbindung38 mit einer Anzahl von Session Administrator (SA)-Computern42 –44 verbunden sind. Jeder der SR-Computer32 –35 ist an eine oder mehrere Dokumentensammlungen46 –49 angeschlossen, die jeweils aus einer Anzahl von Dokumenten, entsprechenden Indizes und sonstigen Zusatzdaten bestehen. Der Zugriff auf eine einzelne Dokumentensammlung ist für mehr als nur einen SR-Computer möglich. Ebenso kann durch einen einzelnen SR-Computer der Zugriff auf mehr als nur eine Dokumentensammlung erfolgen. Für die Implementierung der SR-Computer32 –35 können eine Vielzahl von handelsüblichen und dem Fachmann allgemein bekannten Rechnern wie zum Beispiel das von Hitachi Data Systems, Santa Clara, California, hergestellte Modell EX100 eingesetzt werden. - Jeder der SA-Computer
42 –44 hat Zugriff auf Daten, die Wortverbindungs- und Thesaurusverzeichnisse52 –54 repräsentieren. Für die Implementierung der SA-Computer42 –44 ist ebenfalls der Einsatz einer Vielzahl von handelsüblichen Rechnern wie zum Beispiel der von der Amdahl Corporation, Sunnyvale, California, hergestellten Modelle 5990 und 5995 möglich. Bei der Verbindung38 zwischen den SR-Computern und den SA-Computern kann es sich um irgendeine Verbindung aus einer Reihe von dem Fachmann allgemein bekannten wechselseitigen Hochleistungs-Computerdatenverbindungen handeln wie beispielsweise das von Network Systems Corporation, Minneapolis, Minnesota, hergestellte Modell 7200-DX. - Jeder der SA-Computer
42 –44 ist mit einer Anzahl von Datenübertragungsvorrechnern56 –58 verbunden. Die Datenübertragungsvorrechner56 –58 stellen eine Verbindung des Systems30 zu einem oder mehreren allgemein verfügbaren Netzwerken62 wie zum Beispiel ein Netz X.25, Telefonfernleitungen und SprintNet zum Zugriff auf digitale Daten her. Mit dem Netzwerk62 verbunden ist eine Anzahl von Benutzerstationen64 –66 , die dem Benutzer den Zugriff zum System30 ermöglichen. Bei den Benutzerstationen64 –66 kann es sich um nicht programmierbare Datenstationen, mit denen einfach Dateneingaben und -ausgaben verarbeitet und angezeigt werden, oder um einen aus einer Vielzahl leicht zu beschaffender Einzelplatzrechner wie zum Beispiel einen IBM oder einen IBM-kompatiblen Personal Computer handeln. Für die Implementierung der Datenübertragungsvorrechner56 –58 können eine Vielzahl handelsüblicher Einrichtungen wie zum Beispiel die von der Amdahl Corporation, Sunnyvale, California, hertgestellten Modelle 4745 und 4705 eingesetzt werden. Es sei darauf hingewiesen, dass die in1 gezeigte Anzahl von Komponenten lediglich als Anschauungsbeispiel dienen und dass das hierin beschriebene System30 jede beliebige Anzahl von SA-Computern, SR-Computern, Datenübertragungsvorrechnern, usw. umfassen kann. Auch kann die hierin beschriebene Aufteilung der Verarbeitung geändert werden, wobei die Verarbeitung sogar mit einem einzigen Computer erfolgen kann, ohne dass hierdurch der Rahmen der Erfindung verlassen wird. - Ein Benutzer, der Zugriff zum System
30 über eine der Benutzerstationen64 –66 erlangen möchte, wird sich eines Netzwerks62 bedienen, um über dem Fachmann bekannte Einrichtungen eine Verbindung zu einem der Datenübertragungsvorrechner52 –58 herzustellen. Bei den Datenübertragungsvorrechnern52 –58 erfolgt die Kommunikation mit den Benutzerstationen64 –66 durch Bereitstellung von Ausgangsdaten zur Anzeige durch die Benutzerstationen64 –66 und durch Verarbeitung vom Benutzer über die Tastatur der Benutzerstation vorgenommener Eingaben. Zu den Ausgangsdaten von den Datenübertragungsvorrechnern56 –58 gehören Text- und Bildschirmmaskenbefehle. Die Datenübertragungsvorrechner56 –58 unterstützen Befehle zur Steuerung von Bildschirmmasken wie zum Beispiel die allgemein bekannten Befehle VT100, welche an den Benutzerstationen64 –66 die Funktionalität der Bildschirmmasken zum Beispiel durch Löschen der Maske und Bewegen des Cursors zum Einfügungspunkt gewährleisten. Über entsprechende Befehle können die Datenrückübertragungsvorrechner56 –58 anderen bekannten Arten von Benutzerstationen bzw. Einzelplatzrechnern zugeordnet werden. - Jeder der Datenübertragungsvorrechner
56 –58 kommuniziert über dem Fachmann allgemein bekannte Einrichtungen bidirektional mit dem jeweils an ihn angeschlossenen speziellen SA-Computer42 –44 . Auch kann das System auf eine dem Fachmann allgemein bekannte Weise so konfiguriert werden, dass einer oder mehrere der Datenrückübertragungsvorrechner mit mehr als nur einem der SA-Computer42 –44 kommunizieren kann. Die Datenrückübertragungsvorrechner56 –58 können so konfiguriert werden, dass ein "Lastausgleich" der SA-Computer42 –44 in Abhängigkeit von den Datenflussmustern vorgenommen wird. Das Konzept des Lastausgleichs ist dem Fachmann allgemein bekannt. - Jeder der SA-Computer
42 –44 umfasst ein nachstehend noch ausführlicher zu beschreibendes Anwendungsprogramm, bei dem Suchabfrageeingänge durch einen Benutzer an einem der Benutzerstationen64 –66 verarbeitet werden, die Suchabfrageinformationen an einen oder mehrere die Suche durchführenden SR-Computer32 –35 weitergegeben werden und die Ergebnisse einschliesslich des Textes der Dokumente an die SA-Computer42 –44 zurückgehen. Von den SA-Computern42 –44 werden dem Benutzer den Suchergebnissen entsprechende Textdokumente über die Benutzerstationen64 –66 zur Verfügung gestellt. Bei einer Session für einen bestimmten Benutzer (d.h. einen einzelnen Benutzer mit Zugriff auf das System über eine der Benutzerstationen64 –66 ) führt nur einer der SA-Computer42 –44 einen Dialog mit dem Benutzer über einen entsprechend zugeordneten Datenübertragungsvorrechner56 –58 . - Gemäss
2 bestehen die in jeder der physikalischen Dokumentensammlungen46 –49 gespeicherten Daten70 aus Dokumententext72 , einem Index74 und Dokumentenzusatzinformationen76 . Die Daten70 können sich in einer Datei oder mehreren Dateien einer Computer-Festplattenspeichereinrichtung befinden. Der Dokumententext72 als Teil der Daten70 besteht aus den Text repräsentierenden Zeichendaten (wie zum Beispiel ASCII oder EBCDIC) für eine Anzahl von Dokumenten. Auf jedes der Dokumente, die Teil des Dokumententextes72 sind, kann einzeln zugegriffen werden. Der Index74 enthält eine Liste von Begriffen (Wörtern und Wortverbindungen), die in allen Dokumenten des Dokumententextes72 vorkommen, und gibt an, wo sich diese Begriffe in den Dokumenten befinden. Die nachstehend ausführlicher beschriebenen Dokumentenzusatzinformationen76 umfassen weitere Informationen über die Dokumente wie zum Beispiel die zu den Dokumenten gehörigen Datumsangaben, Herkunft der Dokumente usw. - Gemäss
3 umfasst der Index74 für eine Dokumentensammlung eine Vielzahl von Eingaben, durch die bestimmte Begriffe (Begriff1 – Begriff n) einer Vielzahl von Stellen (Loc A – Loc I) zugeordnet werden. Die Tabelle links in3 bringt jeden Begriff mit einem Paar Zeiger in Verbindung, so dass Begriff1 den Zeigern P1 und P2, Begriff2 den Zeigern P3 und P4 und Begriff n den Zeigern Pr und PS zugeordnet ist. Der rechte Teil der3 ist eine Liste aller Stellen, an denen alle Begriffe in der physikalischen Dokumentensammlung zu finden sind. Die jedem Begriff zugeordneten Zeiger weisen auf die jeweils erste und letzte Stelle in der Liste hin, um die Begriffe im Text der Dokumente der physikalischen Sammlung mit den Stellen korrelieren zu können, an denen die Begriffe vorkommen. So ist zum Beispiel aus3 ersichtlich, dass Begriff1 in der Liste an den Stellen Loc A (angezeigt durch P1) bis Loc C (angezeigt durch P2) zu finden ist. Alle Stellen in der Liste zwischen der Eingabe für Loc A und der Eingabe für Loc C zeigen getrennte Stellen für Begriff1 in der Dokumentensammlung an. Wörter und Wortverbindungen, die so allgemein sind, dass sie beim Durchsuchen der Dokumente nur von geringem Wert wären, wie zum Beispiel das Wort "of" (von, aus), gelten als "Störwörter" und sind im Index nicht enthalten. Eine Liste von Störwörtern für jede physikalische Dokumentensammlung wird unter den Dokumentenzusatzinformationen76 gespeichert. - Die SR-Computer
32 –34 durchsuchen die Dokumente in einer physikalischen Sammlung nach bestimmten Begriffen durch Zugriff auf den Index74 . Begriffe in der Suchabfrage werden mit Begriffen im Index74 abgeglichen, um bestimmte Dokumente im Dokumententext72 ausfindig zu machen, in denen die in der Suchabfrage enthaltenen Begriffe vorkommen. Begriffe in der Mehrzahl werden depluralisiert und in ihrer Singularform gespeichert. Für eine Suche vorgegebene Begriffe werden ebenfalls depluralisiert. Die Depluralisierung ist für den Fachmannn allgemein bekannt und in Program, Band 1, Nr. 3, Seiten 130–137, Juli 1980, beschrieben. - In der Regel durchsucht ein Benutzer nicht alle Dokumente des Systems. Statt dessen legt er vor dem Starten der Suche eine zu durchsuchende Teilmenge der Dokumente fest. Die Teilmenge, die als logische Dokumentensammlung angesehen wird, entspricht einer bestimmten Klasse oder Gruppe von Dokumenten mit einem oder mehreren gemeinsamen Attribut(en). So können zum Beispiel alle schriftlichen Gutachten des Obersten Gerichtshofes der USA eine logische Sammlung sein. Wie dies im Nachstehenden noch näher zu beschreiben sein wird, kann eine logische Sammlung einer physikalischen Sammlung entsprechen, eine Teilmenge einer physikalischen Sammlung sein, aus einer Vielzahl von physikalischen Sammlungen bestehen oder sich aus einer Vielzahl von Teilmengen physikalischer Sammlungen zusammensetzen.
- Gemäss
4 besteht eine logische Dokumentensammlung80 schriftlicher Gutachten des Obersten Gerichtshofes der USA aus vier physikalischen Sammlungen82 –85 : Gutachten von 1700 bis 1900, Gutachten von 1901 bis 1960, Gutachten von 1961 bis 1992 und Gutachten ab 1993. Wie im Vorstehenden beschrieben, besteht jede der physikalischen Sammlungen82 –85 aus einem Textteil und einem Index. Durchsucht ein Benutzer alle Fälle des Obersten Gerichtshofes der USA, so bedient sich der betreffende SA-Computer, der den Dialog mit dem Benutzer führt, einer Nachschlag- oder Verweistabelle, um festzustellen, welche physikalischen Dokumentensammlungen der gewählten logischen Dokumentensammlung entsprechen. Mit der Nachschlag- oder Verweistabelle werden logische Dokumentensammlungen mit physikalischen Dokumentensammlungen korreliert. Der SA-Computer gibt dann Befehle an den/die zugehörigen SR-Computer zum Durchführen der Suche in der/den entsprechenden physikalischen Dokumentensammlungen) und zum Rückmelden der Ergebnisse. - Gemäss
5 beinhaltet eine logische Dokumentensammlung90 schriftliche Gutachten des Obersten Gerichtshofes der USA, die sich mit dem Thema Steuergesetzgebung befassen. Die logische Dokumentensammlung90 selbst besteht an keiner Stelle als physikalische Dokumentensammlung. Vielmehr setzt sich die logische Dokumentensammlung90 als einer Vielzahl von Teilmengen92 –95 der physikalischen Sammlungen82 –85 zusammen. Die Teilmenge92 entspricht in der physikalischen Sammlung82 enthaltenen schriftlichen Gutachten in vom Obersten Gerichtshof der USA verhandelten Fällen zum Thema Steuergesetzgebung. Auf ähnliche Weise repräsentieren die Teilmengen93 –95 Teile der physikalischen Sammlungen83 –85 , die sich mit Fragen der Steuergesetzgebung befassen. - Wählt ein Benutzer die logische Sammlung
90 für die Suche an, so bestimmt der den Dialog mit dem Benutzer führende SA-Computer die zu durchsuchenden physikalischen Sammlungen82 –85 , wie dies vorstehend erläutert wurde, wobei ebenfalls Anweisungen an den/die SR-Computer zum Aufbau eines Filters gehen, der gewährleistet, dass nur Dokumente abgerufen werden, die Bestandteil der logischen Sammlung sind. Bei einem Filter handelt es sich um eine Bitmap oder eine Liste von Dokumenten, die einem SR-Computer anzeigt, welche Dokumente zu durchsuchen und welche Dokumente zu ignorieren sind. Die Filter werden von dem/den SR-Computern benutzt, um nur Ergebnisse zurückzumelden, die Dokumenten entsprechen, welche Teil der logischen Sammlung sind. Filter können von den SR-Computern unter Verwendung von Tabellen oder durch Einsichtnahme in die Dokumentenzusatzinformationen76 aufgebaut werden. Bei der logischen Sammlung90 bewirken die Filter, dass bei der Suche nur Dokumente zurückgemeldet werden, die den Teilmengen92 –95 der physikalischen Sammlungen82 –85 entsprechen. - Gemäss
6 ist die Eingabe einer Suchabfrage in einer Benutzerbildschirmmaske100 dargestellt. Die Bildschirmmaske100 wird an einer Benutzerstation angezeigt. Eine Aufforderung102 in der Bildschirmmaske100 weist den Benutzer an, eine Suchbeschreibung einzugeben. Der Benutzer tippt mittels der Tastatur an der Benutzerstation eine Suchbeschreibung in einen Bereich104 in der Bildschirmmaske100 ein. Die Beschreibung kann um zur Bildung von Wortverbindungen benutzten Gruppen von Wörtern herum Anführungszeichen umfassen. Die Anführungszeichen weisen darauf hin, dass die Wortverbindungen als ein einzelner Begriff, und nicht die Wörter des Satzes einzeln durchsucht werden sollten. Einzelvorkommnisse der Wörter passen nicht in die Suche. Ein Benutzer drückt die Taste <ENTER> an der Benutzerstation, um anzuzeigen, dass die Eingabe der Suchbeschreibung durch ihn beendet ist. - Die SA-Computer
42 –44 verarbeiten die Suchbeschreibung durch Anweisung an den/die SR-Computer, die vom Benutzer gewählte logische Sammlung nach jedem in der Beschreibung enthaltenen Wort (abgesehen von einigen Ausnahmen, auf die später noch einzugehen sein wird) zu suchen. Nach jedem der in der Suchbeschreibung enthaltenen Begriff, sofern es sich nicht um Störbegriffe handelt, wird von dem/den SR-Computer(n) getrennt gesucht. Ein Dokument, in dem mindestens einer der Begriffe vorkommt, passt in die Suche. Jedes passende Dokument wird sodann bewertet, wie dies nachstehend noch näher zu beschreiben sein wird, und zur Einsichtnahme durch den Benutzer abgerufen. - Gemäss
7 wird nach Eingabe einer Suchbeschreibung und Drücken der Taste <ENTER> durch den Benutzer eine Bildschirmmaske110 zur Verfügung gestellt. Die Bildschirmmaske umfasst eine Suchbeschreibung112a und eine Anzahl von Optionen114 –118 . Die erste Option114 bietet dem Benutzer die Möglichkeit, obligatorische Begriffe einzugeben/zu editieren. Mit der zweiten Option115 kann der Benutzer Einschränkungen im Hinblick auf Eingabe/Editierung festlegen. Mit der dritten Option116 ist es dem Benutzer möglich, einen Thesaurus zu benutzen. Mittels der vierten Option117 kann der Benutzer die Suchbeschreibung editieren. Mit der fünften Option118 besteht für den Benutzer die Möglichkeit, die Anzahl der abgerufenen Dokumente zu ändern. Es sei darauf hingewiesen, dass die Reihenfolge, in welcher die Optionen114 –118 in der Bildschirmmaske erscheinen, von der Konfiguration abhängig ist, und dass die Optionen in jeder beliebigen Reihenfolge vorgestellt werden können, ohne dass hierdurch der Erfindungsgedanke verlassen wird. - Die Optionen
114 –118 bieten dem Benutzer die Möglichkeit, die Merkmale der durch die Suchabfrage gefundenen Dokumente zu modifizieren. Ein Benutzer kann Optionen wiederholt anwählen, um die Suchkriterien zu ändern, bevor das System den Befehl erhält, die Suche durchzuführen. Die erste, zweite und dritte Option114 –116 sind nachstehend ausführlicher beschrieben. Mit der vierten Option117 kann der Benutzer den Wortlaut der Suchbeschreibung112a ändern. Durch die fünfte Option118 ist es dem Benutzer möglich, die Anzahl der durch die Suche abgerufenen Dokumente einzustellen. Die Anzahl der bei der Suche abgerufenen Dokumente ist ausschlaggebend für die maximale Anzahl von Dokumenten, in welche der Benutzer nach Abschluss der Suche Einsicht nehmen kann. Die abgerufenen Dokumente sind die mit den höchsten Bewertungen, so dass zum Beispiel bei einer Einstellung von fünfundzwanzig die fünfundzwanzig Dokumente mit der höchsten Bewertung an den Benutzer zurückgemeldet werden. Die Bewertung der Dokumente ist nachstehend ausführlicher beschrieben. Es sollte beachtet wurden, dass die Möglichkeit besteht, dass bei der Suche eine geringere Anzahl von Dokumenten (einschliesslich Null Dokumente) zurückgemeldet werden kann als die mittels der fünften Option118 eingestellte Anzahl von abgerufenen Dokumente, wenn die Anzahl der Dokumente, welche die Suchvorgaben erfüllen, geringer ist, als die mittels der fünften Option118 eingestellte Anzahl. - Gemäss der
8 wird die Bildschirmmaske110 zur Anzeige gebracht, nachdem der Benutzer die erste Option114 zum Eingeben von obligatorischen Begriffen angewählt hat. Ein obligatorischer Begriff ist ein Begriff, der im Dokument vorkommen muss, wenn das Dokument im Rahmen der Suche abgerufen werden soll. Erfolgt keine Eingabe von einem oder mehreren obligatorischen Begriff(en), so werden bei der Suche Dokumente zurückgemeldet, die mindestens einen Begriff der Suchbeschreibung umfassen. Wünscht der Benutzer, dass in allen im Rahmen der Suche abgerufenen Dokumenten ein bestimmter Begriff oder Begriffe mindestens einmal vorkommen, so wählt er die erste Option114 an und gibt er die obligatorischen Begriffe über die Tastatur der Benutzerstation ein. In der Bildschirmmaske110 gemäss8 hat der Benutzer in einer Zeile122 angegeben, dass die Begriffe "TQM" und "Usability testing" (Brauchbarkeitsprüfung) als obligatorische Begriffe anzusehen sind. Somit enthalten alle im Rahmen der Suche zurückgemeldeten Dokumente sowohl den Begriff "TQM" als auch den Begriff "Usability testing". Die Implementierung obligatorischer Begriffe erfolgt mittels Filtern ähnlich den zum Aufbau von logischen Dokumentensammlungen benutzten Filtern, wie dies vorstehend beschrieben ist. - Ein obligatorischer Begriff braucht nicht Bestandteil der Suchbeschreibung zu sein. Vom Benutzer können obligatorische Begriffe vorgegeben werden, die nicht zu der Suchbeschreibung gehören. Nicht zur Suchbeschreibung gehörige obligatorische Begriffe finden bei der Dokumentenbewertung (wie diese im Nachstehenden ausführlich zu beschreiben sein wird) keine Berücksichtigung, werden jedoch für andere, hierin noch zu erörternde Besonderheiten herangezogen.
- Gemäss der
9 wird eine Bildschirmmaske130 zur Verfügung gestellt, nachdem der Benutzer die zweite Option115 zur Eingabe von Einschränkungen angewählt hat. Die Bildschirmmaske130 zeigt eine Vielzahl von Einschränkungen132 –136 , die vom Benutzer angewählt werden können. Eine Einschränkung stellt eine Randbedingung für die im Rahmen der Suche abgerufenen Dokumente dar. So ist zum Beispiel die erste Einschränkung132 eine Datumseinschränkung, die angibt, dass das Datum der Dokumente, die im Rahmen der Suche abgerufen werden, vor oder hinter einem bestimmten Datum liegt. Es ist zu beachten, dass die für die Bildschirmmaske130 dargestellten Einschränkungen für eine bestimmte Art von logischer Sammlung (schriftliche Gerichtsgutachten) gelten. Für andere Arten von logischen Sammlungen oder sonstige Arten von Dokumenten kann es für den Benutzer zweckmässig sein, andere Arten von Einschränkungen zu wählen. - In
10 ist die Bildschirmmaske110 nach Eingabe von Einschränkungen dargestellt. Eine Zeile142 in der Bildschirmmaske110 zeigt, dass es sich bei diesem Beispiel bei den im Rahmen der Suche abgerufenen Dokumenten um schriftliche Gutachten nur des Sechsten Gerichtsbezirks handelt und dass alle Dokumente später als 01.10.92 datiert sind. Der SA-Computer benutzt die Einschränkungen, um die SR-Computer anzuweisen, Filter aufzubauen (wie dies vorstehend beschrieben ist). Die Filter bieten die Gewähr, dass nur Dokumente im Rahmen der Suche abgerufen werden, die den durch die Einschränkungen vorgegebenen Anforderungen genügen. - Die
11 zeigt die Bildschirmmaske110 mit sowohl der Zeile122 für obligatorische Begriffe als auch der Zeile142 für Einschränkungen, um so zu veranschaulichen, dass ein Benutzer zum Zwecke einer Suche sowohl Einschränkungen als auch obligatorische Begriffe eingeben kann. Hier sei darauf hingewiesen, dass in diesem Fall vom SA-Computer an den SR-Computer die Anweisung gegeben wird, Filter für sowohl die obligatorischen Begriffe als auch die Einschränkungen aufzubauen. - Gemäss
12 ist eine Bildschirmmaske150 zu sehen, die dem Benutzer nach Wahl der dritten Option116 (Thesaurus) aus der in7 gezeigten Bildschirmmaske110 zur Verfügung steht. Begriffe152 aus der Suchbeschreibung sind in der Bildschirmmaske150 aufgelistet. Der Benutzer sieht die Begriffe152 aus der Suchbeschreibung durch und wählt die Begriffenummern154 , zu denen äquivalente Begriffe gewünscht werden. - Gemäss
13 ist eine Bildschirmmaske160 zu sehen, die einem Benutzer zur Verfügung steht, nachdem von ihm die Begriffe aus der Suchbeschreibung gewählt wurden, zu denen äquivalente Begriffe gewünscht werden. Ein Teil162 der Bildschirmmaske160 zeigt den Begriff aus der Suchbeschreibung. In einem weiteren Teil164 der Bildschirmmaske160 sind morphologische Variationen des Begriffs zu sehen. Eine morphologische Variation eines Wortes ist eine andere Form des gleichen Wortes. So sind zum Beispiel "condition", "conditioner", "conditioning" und "conditioned" jeweils relativ zueinander morphologische Variationen. In einem weiteren Teil166 der Bildschirmmaske160 finden sich Synonyme für den aus der Suchbeschreibung stammenden Begriff. Der Benutzer kann jede beliebige Anzahl und Kombination von morphologischen Variationen und Synonymen aus der Bildschirmmaske160 wählen. Die Implementierung der Thesaurusfunktion erfolgt unter Benutzung einer sowohl Synonyme als auch morphologische Variationen umfassenden Nachschlag- oder Verweistabelle, die gemäss der Darstellung in1 (Elemente52 –54 ) auf vorstehende Weise gespeichert wird. -
14 zeigt die Bildschirmmaske mit der Zeile122 für obligatorische Begriffe, der Zeile142 für Einschränkungen und einer Suchbeschreibung112b , die Äquivalente (in Klammern angegeben) für einige der Begriffe in der Suchbeschreibung112b enthält. Die Äquivalente werden vom Benutzer bestimmt, nachdem von ihm die dritte Option116 (Thesaurus) angewählt worden und die Wahl der äquivalenten Begriffe für bestimmte Begriffe in der Suchbeschreibung112b erfolgt ist. - Gemäss
15 erscheint eine Bildschirmmaske170 nach Abschluss der Suche. Es sollte beachtet werden, dass die Zeile122 für obligatorische Begriffe und die Zeile142 für Einschränkungen Bestandteil der Bildschirmmaske170 sind. - Eine Zeile
170 für Begriffe zeigt Begriffe der Suchbeschreibung in der Reihenfolge der ihnen zukommenden Bedeutung. Die Bedeutung von Begriffen wird im Nachstehend noch näher zu beschreiben sein. Auch sei darauf hingewiesen, dass die Zeile172 ein Sternchen umfasst, dem zwei Begriffe173 "FIRST" und "CASE" (ERSTER FALL) nachfolgen. Das Sternchen bedeutet, dass es sich bei den nachfolgenden Begriffen um "häufig benutzte Begriffe" handelt. Alle als häufig benutzte Begriffe angesehenen Begriffe werden aus der weiteren Verarbeitung zum Zwecke der Suche herausgenommen, da ihr Wert bei der Ermittlung der gewünschten Dokumente als minimal angesehen wird. - Für die in der Bildschirmmaske
170 dargestellte Suche wurden die zwei Begriffe173 "FIRST" und "CASE" als häufig benutzte Begriffe eingestuft und somit bei der Suche nicht berücksichtigt. Die in Verbindung mit3 gezeigten Zusatzdaten76 enthalten eine Tabelle häufig benutzter Begriffe für jede physikalische Dokumentensammlung. Die Entscheidung darüber, welche Begriffe in die Tabelle einfliessen, basiert auf einer Anzahl von dem Fachmann allgemein bekannten Funktionsfaktoren, zu denen im nicht einschränkenden Sinne die Häufigkeit des Vorkommens eines Begriffes in der physikalischen Sammlung und das Verhältnis zwischen der Bedeutung eines Begriffs und der Art der Dokumentensammlung gehören. Es sollte beachtet werden, dass sich dieser Mechanismus von den vorstehend erörterten "Störwörtern" unterscheidet, da Störwörter noch nicht einmal im Index für die physikalische Dokumentensammlung aufgelistet sind. Häufig benutzte Begriffe sind im Index zu finden. Darüber hinaus werden Störwörter vollständig aus der Suchbeschreibung gestrichen, wobei sie ausserdem in der Bildschirmmaske nach Abschluss der Suche nicht zu sehen sind. Auch sei darauf hingewiesen, dass für den Fall, dass ein häufig benutzter Begriff ein Wort ist, er als Teil einer Wortverbindung nicht in Fortfall gebracht wird. Auf Wortverbindungen wird im Nachstehenden noch näher einzugehen sein. - Die Bildschirmmaske
170 umfasst ebenfalls eine Anzahl von Optionen174 –177 zur Einsichtnahme. Es sollte beachtet werden, dass die Reihenfolge, in der die Optionen174 –177 in der Bildschirmmaske170 erscheinen, bei der Konfiguration wählbar ist und dass die Optionen in jeder beliebigen Reihenfolge dargestellt werden können, ohne dass hierdurch der Rahmen der Erfindung verlassen wird. Auch stehen dem Benutzer durch Eintippen des entsprechenden Befehls zur Ausführung der Option auch andere Optionen zur Einsichtnahme zur Verfügung, die nicht durch eine der Aufforderungen als Option174 –177 dargestellt sind; so zum Beispiel eine Option zum Anführen der abgerufenen Dokumente. Mit der ersten Option174 hat der Benutzer die Möglichkeit, sich ein "SuperKWIC"-Fenster des Dokuments anzusehen. Die zweite Option175 stellt eine Bildschirmmaske zur Verfügung, die dem Benutzer die Stelle der Suchbegriffe in den Dokumenten anzeigt. Bei der dritten Option176 erscheint eine Bildschirmmaske, die dem Benutzer angibt, warum bestimmte Dokumente gewählt wurden. Mit der vierten Option177 hat der Benutzer eine Möglichkeit, die Reihenfolge zu ändern, in welcher die abgerufenen Dokumente präsentiert werden. Standardmässig werden die abgerufenen Dokumente in der Reihenfolge ihrer Bewertung angezeigt (auf die Bewertung/Einstufung von Dokumenten wird im Nachstehenden noch näher einzugehen sein). - Durch Wahl der vierten Option
177 kann der Benutzer vorgeben, dass die Dokumente in einer anderen Reihenfolge präsentiert werden wie zum Beispiel chronologisch bzw. bei schriftlichen Gerichtsgutachten in der Reihenfolge von den höchsten zu den niedrigsten Gerichtsinstanzen. Jeder physikalischen Dokumentensammlung sind dabei in den Zusatzinformationsdaten76 vorbestimmte Informationen zugeordnet, aus denen ersichtlich ist, wie die Dokumente präsentiert werden können. Die vorbestimmten Informationen basieren auf einer Vielzahl von dem Fachmann allgemein bekannten Funktionsfaktoren und variieren in Abhängigkeit von der Art einer bestimmten Dokumentensammlung. - Das "SuperKWIC"-Fenster ist ein Textfenster, in dem sich der Benutzer den aussagefähigsten Teil des Dokuments auf der Grundlage der Häufigkeit und Vielseitigkeit obligatorischer Begriffe und Suchbegriffe anschauen kann. Ein Textfenster ist ein einsehbarer zusammenhängender Abschnitt eines Dokuments mit einer bestimmten Länge von zum Beispiel fünfzehn Zeilen. Für jedes Textfenster wird eine SuperKWIC-Auswertung errechnet, wobei das Fenster mit der höchsten Auswertung zum SuperKWIC-Fenster wird. Die Auswertung eines Fensters errechnet sich wie folgt: Für jeden Suchbegriff bzw. obligatorischen Begriff im Fenster wird die Auswertung um eins erhöht. (Hierbei sollte beachtet werden, dass ein obligatorischer Begriff nicht zwangsläufig ein Begriff der Suchbeschreibung ist, wie dies vorstehend erläutert wurde.) Für jeden Suchbegriff bzw. obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff bzw. obligatorischer Begriff vorausgeht, erhöht sich die Auswertung um zwei. Für jeden Suchbegriff bzw. obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff bzw. obligatorischer Begriff vorhergeht, dem seinerseits ein noch anderer Suchbegriff bzw. obligatorischer Begriff vorhergeht, wird die Auswertung erneut um zwei erhöht.
- Gemäss
16 zeigt eine Bildschirmmaske180 das Ergebnis der Anwahl der in15 dargestellten dritten (Warum)-Option176 . In einer ersten Spalte182 der Bildschirmmaske180 sind die Begriffe der Suchbeschreibung aufgelistet. Die Auflistung der Begriffe erfolgt in der Reihenfolge der Begriffsbedeutung (wie diese nachstehend noch näher zu erläutern sein wird). Eine zweite Spalte184 zeigt die Anzahl der gefundenen (im Rahmen der Suche abgefragten) Dokumente, die jeden Begriff aus der Spalte182 enthalten. Eine Spalte186 zeigt die Gesamtanzahl der durchsuchten Dokumente, die jeweils jeden in der Spalte182 aufgeführten Begriffe enthalten. Eine Spalte188 zeigt die Begriffsbedeutung eines jeden der in Spalte182 aufgelisteten Begriffe. Auf die Errechnung der Begriffsbedeutung wird nachstehend noch näher einzugehen sein. - Die in der Spalte
182 enthaltenen Begriffe sind in der Reihenfolge der Begriffsbedeutung aufgelistet. An erster Stelle der Spalte182 stehen obligatorische Begriffe (in diesem Fall der Begriff "DEFAMATION" (DIFFAMIERUNG, VERLEUMDUNG). An die obligatorischen Begriffe schliessen sich Begriffe in der Reihenfolge ihrer abnehmenden Bedeutung an, wie dies aus der Spalte188 ersichtlich ist. Am unteren Ende der Liste finden sich häufig benutzte Begriffe, die nicht Bestandteil der Suche sind, wie dies vorstehend erläutert wurde. Es sei darauf hingewiesen, dass der häufig benutzte Begriff "A" (EIN, EINER, EINES) in Spalte182 in den Spalten184 ,186 ,188 als "––" erscheint. - Gemäss
17 wird nach Anwahl der in15 gezeigten zweiten (Wo)-Option175 durch den Benutzer eine Bildschirmmaske190 sichtbar. Die Bildschirmmaske enthält eine Spalte192 , in der alle Suchbegriffe aufgelistet sind. In einer Zeile194 sind die abgerufenen Dokumentennummern angegeben (in diesem Beispiel das erste bis fünfundzwanzigste Dokument). Für jedes Dokument, das im Rahmen der Suche zurückgemeldet wird, gibt die Bildschirmmaske190 an, welche Begriffe in welchen Dokumenten vorgekommen sind, indem in der einem bestimmten Dokument entsprechenden Spalte und der einem bestimmten Begriff entsprechenden Reihe ein Sternchen gesetzt wird. Das Fehlen eines Sternchens in einer bestimmten Reihen- und Spaltenkombination bedeutet, dass das der bestimmten Spalte entsprechende Dokument nicht den einer bestimmten Reihe entsprechenden Begriff enthält. -
18 zeigt ein Ablaufdiagramm200 für den Hochpegeldatenfluss der Software. In einem ersten Schritt202 gibt der Benutzer eine Suchbeschreibung ein. An den ersten Schritt202 schliesst sich ein zweiter Schritt203 zur Bestimmung von Wortverbindungen an. Mit Schritt203 werden in der Suchbeschreibung enthaltene Wortverbindungen erfasst. Wortverbindungen sind Gruppen von Wörtern, die am aussagefähigsten sind, wenn nach ihnen als Gruppe und nicht einzeln gesucht wird; so zum Beispiel die Wortverbindung "product liability" (Produkthaftung). Die anschliessende Suche wird nur auf der Basis der erfassten Wortverbindungen und nicht der sie bildenden einzelnen Wörter durchgeführt. Die Erfassung von Wortverbindungen wird im Nachstehenden noch näher zu beschreiben sein. - Nach dem Schritt
203 folgt ein Prüfschritt204 , wo festgestellt wird, ob vom Benutzer eine Suchoption (d.h. eine oder mehrere Einschränkungen, obligatorische Begriffe, usw.) angewählt wurde, wie dies vorstehend beschrieben ist. Ist vom Benutzer eine Suchoption nicht angewählt worden, so geht die Steuerung von Schritt204 zu einem weiteren Prüfschritt205 über, um festzustellen, ob vom Benutzer die Durchführung der Suche verlangt worden ist. Bei der hierin dargestellten erfindungsgemässen Ausführungsform zeigt der Benutzer den Wunsch zur Durchführung einer Suche an, indem er ohne Vorgabe einer Suchoption die Taste <ENTER> drückt. Ist vom Benutzer die Durchführung einer Suche nicht verlangt worden, so kehrt die Steuerung von Schritt205 zurück zu Schritt204 . - Ist vom Benutzer unter Schritt
204 eine Suchoption angewählt worden, so geht die Steuerung von Schritt204 zu einem Schritt207 über, wo die gewählte Benutzeroption verarbeitet wird, wie dies im Vorstehenden ausführlich beschrieben ist. Auf den Schritt207 folgt ein Prüfschritt208 , um festzustellen, ob es sich bei der vom Benutzer eingegebenen Option um eine Änderung der Suchbeschreibung handelt oder nicht die erste Eingabe eines obligatorischen Begriffs ist. Ist dies der Fall, so kehrt die Steuerung von Schritt208 zu Schritt204 zurück, um weitere Benutzereingaben zu verarbeiten. Anderenfalls kehrt die Steuerung von Schritt208 zu Schritt203 zurück, um vom Benutzer etwaige zusätzliche Wortverbindungen zu erfassen, bevor weitere Eingaben unter Schritt204 verarbeitet werden. Wortverbindungen werden nach dem Editieren der Beschreibung oder nach dem Eingeben von obligatorischen Begriffen (ausser beim ersten Mal) nicht erfasst, nachdem der Benutzer möglicherweise diese Optionen wählt, um die automatische Erfassung von Wortverbindungen zu umgehen. - Hat der Benutzer unter Schritt
205 einen Wunsch zur Durchführung der Suche bekundet, so geht die Steuerung von Schritt205 zu einem Schritt210 über, unter dem die Suche erfolgt. Der Ablauf der Suche wir nachstehend noch näher zu beschreiben sein. An den Schritt210 schliesst sich ein Schritt212 an, bei dem die Suchergebnisse angezeigt werden, wie dies vorstehend beschrieben ist. - Gemäss
19 wird eine Tabelle220 zur Erfassung von Wortbildungen benutzt. Die Tabelle220 enthält Eintragungen für jedes Wort222 , das Teil einer Wortbildung sein könnte, wobei eine Bitmap223 die möglichen Stellen angibt, an denen die zugehörigen Worteintragungen222 in einer Wortverbindung vorkommen könnten, und wobei eine Kennung ID224 benutzt wird, um die Darstellungen für jedes der Wörter zu komprimieren, indem eine unverwechselbare beliebige Nummer zur Darstellung eines jeden Wortes zugeordnet wird. Die Tabelle220 ist durch die Worteintragungen222 indiziert. - Die Bitmap-Eintragungen
223 für jedes Wort zeigen an, an welchen Stellen das Wort in einer Wortverbindung vorkommen könnte. Jede Bitmap-Eintragung223 hat eine Länge von einem Byte (acht Bits). Ein Wert von eins in einer bestimmten Bitposition in der Bitmap-Eintragung223 zeigt an, dass das der Bitmap223 zugeordnete Wort222 an der entsprechenden Stelle in einer Wortverbindung zu finden sein könnte. Demgegenüber bedeuet ein Wert Null in einer bestimmten Position, dass das Wort222 an der gleichen Stelle in einer Wortverbindung nicht vorkommen könnte. Umfasst zum Beispiel eine Bitmap-Eintragung223 für ein Wort222 ein Bit in der ersten, dritten und sechsten Bitposition und Null Bits in allen anderen Positionen, so könnte das zugeordnete Wort222 nur dann Teil einer Wortverbindung sein, wenn das Wort als erstes, drittes oder sechstes Wort der Wortverbindung vorkommen würde. - Gemäss
20 zeigt ein Diagramm einer Baumstruktur230 einen Stammknoten232 , eine Anzahl von Knoten234 –236 der Ebene1 , eine Anzahl von Knoten237 –239 der Ebene2 , eine Anzahl von Knoten240 –242 der Ebene3 und eine Anzahl von Knoten243 –245 der Ebene8 . Die Unterbrechung zwischen Ebene3 und Ebene8 stellt eine Anzahl von Knoten der Ebene4 , Ebene5 , der Ebene6 und der Ebene7 dar, die Teil der Baumstruktur230 , in20 jedoch nicht gezeigt sind. Jeder der Knoten entspricht einer der Kennungen ID224 aus der Tabelle220 in19 . - Jeder der Knoten
234 –236 der Ebene1 steht für das erste Wort einer Wortverbindung. Jeder der Knoten237 –239 der Ebene2 repräsentiert das zweite Wort einer Wortverbindung. Allgemein steht jeder Knoten der Ebene N für das Nte Wort einer Wortverbindung. Die Verbindungen zwischen den Knoten stellen den Durchgang aufeinanderfolgender Wörter in einer Wortverbindung dar. Ein Endknoten steht für das letzte Wort in einer Wortverbindung. Bei der hier dargestellten Ausführungsform sollte beachtet werden, dass es sich bei allen Knoten der Ebene8 um Endknoten handelt, so dass die Bitmap-Eintragungen (wie vorstehend beschrieben) eine Länge von nur einem Byte zu haben brauchen. Um Speicherplatz zu sparen, wird die Baumstruktur230 anstelle der Benutzung tatsächlicher Wörter unter Benutzung der in19 genannten Kennungen ID224 gespeichert. - Gemäss
21 kann eine aufeinanderfolgende Gruppe von Wörtern aus der vom Benutzer vorgegebenen Suchbeschreibung auf Wortverbindungen überprüft werden. Zunächst wird das Wort A zuerst so überprüft, dass Wort A in der Tabelle220 der19 nachgeschlagen wird, um die dazugehörige Bitmap-Eintragung zu erhalten. Ergibt die Bitmap-Eintragung zu Wort A, dass Wort A niemals das erste Wort einer Wortverbindung sein könnte (da in der ersten Bitposition eine Null steht), so wird Wort A nicht als Bestandteil einer Wortverbindung angesehen. Ansonsten wird die dem Wort A entsprechende Kennung ID benutzt, um den dem Wort A entsprechenden Knoten der Ebene1 in der Baumstruktur230 zu lokalisieren. - Als nächstes wird das Wort B geprüft. Gehört Wort A nicht zu einer Wortverbindung, so erfolgt die Überprüfung von Wort B in der gleichen Weise wie bei Wort A. Ansonsten wird Wort B in der Weise untersucht, dass zuerst die entsprechende Bitmap-Eintragung überprüft wird, um festzustellen, ob Wort B das zweite Wort einer Wortverbindung sein könnte. Ist dies nicht der Fall, so wird Wort A nicht als Teil einer Wortverbindung angesehen und wird Wort B in der gleichen Weise untersucht wie zuvor das Wort A. Könnte andererseits das Wort B das zweite Wort einer Wortverbindung sein, so wird der dem Wort A entsprechende Knoten der Ebene
1 untersucht, um festzustellen, ob er mit einem dem Wort B entsprechenden Knoten der Ebene2 verbunden ist. Ist dies nicht der Fall, so wird Wort B nicht als Teil einer Wortverbindung angesehen und wird Wort B in der gleichen Weise wie zuvor Wort A überprüft. Anderenfalls werden Wort A und Wort B als die ersten beiden Wörter einer Wortverbindung angesehen und wird die Verarbeitung mit Wort C fortgesetzt. - Stellt sich heraus, dass das Wort C nicht Bestandteil der Wortverbindung ist, so besteht die Wortverbindung aus Wort A und dem anschliessenden Wort B und wird die Verarbeitung dadurch fortgesetzt, dass geprüft wird, ob Wort C das erste Wort einer neuen Wortverbindung ist. Wird andererseits festgestellt, dass Wort C das dritte Wort der mit Wort A und Wort B beginnenden Wortverbindung ist, so wird die Verarbeitung so fortgesetzt, dass geprüft wird, ob Wort D das vierte Wort der Wortverbindung sein könnte. Nach Beendigung einer jeden Wortverbindung wird das hinter der erfassten Wortverbindung stehende Wort dahingehend überprüft, ob das Wort hinter der erfassten Wortverbindung das erste Wort einer neuen Wortverbindung sein könnte.
- Wie im Zusammenhang mit
2 und3 erörtert, können die Indizes für die physikalischen Dokumentensammlungen Wortverbindungen enthalten, die als ein einzelner Begriff gespeichert werden. Für nicht als einzelner Begriff gespeicherte Wortverbindungen besteht die Möglichkeit, nach Wörtern der Wortverbindung getrennt zu suchen. So kann zum Beispiel nach der Wortverbindung "personal injury" (Personenschaden) gesucht werden, indem eine Suche nach dem Begriff "personal" und eine Suche nach dem Begriff "injury" gestartet werden, wobei dann festgestellt wird, wo der Begriff "personal" dem Begriff "injury" um eine Stelle in jedem der Dokumente vorausgeht. - Gemäss
22 ist der Suchprozess durch ein Ablaufdiagramm260 dargestellt. Die links zu sehenden Schritte des Ablaufdiagramms260 sind Schritte, die vom SA-Computer ausgeführt werden, während die Schritte auf der rechten Seite des Ablaufdiagramms260 Schritte repräsentieren, für die ein oder mehrere SR-Computer zuständig ist/sind, der/die mit der tatsächlichen Suche und dem Retrieval befasst ist/sind. Die gestrichelten Linien, welche Schritte auf der linken Seite mit Schritten auf der rechten Seite verbinden, sind ein Hinweis auf das temporale Verhältnis zwischen den vom SA-Computer ausgeführten Schritten und den von dem/den SR-Computer(n) ausgeführten Schritten. Das Ablaufdiagramm260 zeigt nicht den Datenfluss zwischen den SA-Computern und den SR-Computern. - Die Verarbeitung beginnt mit einem ersten Schritt
262 , bei dem der SA-Computer Suchbegriffe vorgibt und Anweisungen für die Filter an die SR-Computer erteilt. Wie vorstehend erwähnt, sollte beachtet werden, dass der SA-Computer eine vom Benutzer angewählte logische Dokumentensammlung bildet, indem die entsprechenden physikalischen Sammlungen bestimmt und Anweisungen zum Aufbau der entsprechenden Filter erteilt werden. Weitere Filteranweisungen sind möglich, wenn der Benutzer obligatorische Begriffe oder Einschränkungen eingibt. - Auf den Schritt
262 folgt ein Schritt263 , bei dem die SR-Computer, die mit der Suche befasst sind, jeweils die Suche auf der unteren Ebene durchführen, indem auf die Indizes der physikalischen Sammlungen zugegriffen wird, welche die gewählten logischen Sammlungen umfassen, wie dies vorstehend erörtert wurde. Nach dem Schritt263 erhalten die SA-Computer von den SR-Computern in einem Schritt264 die Dokumentenzählungen. Dokumentenzählungen sind die Anzahl von Dokumenten, in denen jeder der Begriffe enthalten ist. Wird also nach einer Gesamtanzahl von N Begriffen gesucht, so ergeben sich N Dokumentenzählungswerte. Auch erfolgt bei Schritt263 die Rückmeldung eines Indikators durch den/die SR-Computer für etwaige häufig benutzte Begriffe (vorstehend beschrieben), die von einer weiteren Berücksichtigung ausgeschlossen werden. - An den Schritt
264 schliesst sich ein Schritt265 an, bei dem für jeden Suchbegriff vom SA-Computer dfi und maxdfi errechnet werden. Die Menge dfi stellt die Anzahl von Dokumenten dar, in denen Begriff i enthalten ist. Die Menge maxdfi bezeichnet die maximale Anzahl von Dokumenten, in denen irgendwelche Begriffe der Suche vorkommen. Demgemäss gibt es bei jeder Suche nur einen einzigen Wert für maxdfi. Es sei darauf hingewissen, dass der SA-Computer dfi und maxdfi errechnet, da die logische Dokumentensammlung eines Benutzers eine Vielzahl physikalischer Sammlungen in verschiedenen SR-Computern umfassen kann. dfi und maxdfi könnten von einem einzelnen SR-Computer nicht errechnet werden, ohne dass ihm die Dokumentenzählungen der anderen SR-Computer bekannt sind. - An den Schritt
265 schliesst sich ein Optimierungsschritt266 an, bei dem SR-Computer, die kein einziges, zu irgendeinem Suchbegriff passendes Dokument enthalten, nicht weiter berücksichtigt werden. Dies bedeutet, dass ein SR-Computer, der Teil einer physikalischen Dokumentensammlung ist, welche die vom Benutzer gewählte logische Sammlung umfasst, aus der weiteren Verarbeitung herausgenommen wird, wenn der SR-Computer keine einschlägigen Dokumente enthält. - Auf den Schritt
266 folgt ein Schritt267 , bei dem die vom SA-Computer in Schritt264 errechneten dfi und maxdfi an die SR-Computer gehen. Dem Schritt267 schliesst sich ein Schritt268 an, bei dem von jedem der SR-Computer die Rangfolge eines jeden in Schritt263 der Suche gefundenes Dokuments errechnet werden. Die Errechnung der Rangfolge eines jeden Dokuments erfolgt nach der nachstehenden Summationsformel:
Formel
wobei nt = die Gesamtanzahl der Suchbegriffe, ut = die Anzahl der Suchbegriffe, die im zu ordnenden Dokument vorkommen (jeder einzelne Begriff wird einmal gezählt) und tfi = die Häufigkeit, mit der Suchbegriff i im zu ordnenden Dokument enthalten ist. Die Menge oc repräsentiert das prozentuale Vorkommen von Suchbegriffen in einem Fliestextfenster mit einer maximalen Anzahl von Suchbegriffen und wird durch Teilen der Häufigkeit von Suchbegriffen im Fenster durch eine Gesamthäufigkeit von Suchbegriffen im Dokument und durch anschliessendes Multiplizieren des Ergebnisses mit 100 errechnet. Die Mengen dfi und maxdfi sind bereits vorstehend beschrieben. Für alle Logarithmen gilt die Zahlenbasis2 . Es sollte beachtet werden, dass die Menge log(tfi + 1) in der Formel potenziert ist, so dass die Rangfolge zu Gunsten der Dokumente gewichtet wird, in denen die grösste Begriffshäufigkeit zu verzeichnen ist. - Mit Schritt
268 gibt jeder der SR-Computer die Rangfolge für die hocheingestuften N Dokumente an den SA-Computer zurück, wobei N die Anzahl der Dokumente ist, die der Benutzer im Rahmen der Suche zurückgemeldet haben möchte. Die Anzahl der gefundenen Dokumente wird vom Benutzer in der vorstehend ausführlicher beschriebenen Weise eingestellt. - Nach dem Schritt
268 führt der SA-Computer den Schritt269 aus, bei dem alle von den SR-Computern zurückgegebenen Dokumentenbewertungen zusammengefasst und der Rangfolge nach sortiert werden. Alle Dokumente, bis auf die mit den höchsten Bewertungen oder Einstufungen N, wobei N die vom Benutzer gewünschte Anzahl von Dokumenten ist, werden nicht weiter berücksichtigt. Der SA-Computer fordert dann die restlichen Dokumente von den jeweiligen SR-Computern an. Werden zum Beispiel vom Benutzer fünfundzwanzig Dokumente gewünscht, und umfasst die logische Dokumentensammlung drei SR-Computer, so würden von jedem der drei SR-Computer fünfundzwanzig Dokumentenbewertungen zurückgemeldet. Der SA-Computer würde die drei Satz von jeweils fünfundzwanzig Dokumentenbewertungen zusammenfassen, der Bewertung nach sortieren und dann alle Dokumente bis auf die mit den fünfundzwanzig höchsten Bewertungen in Fortfall bringen. Seitens des SA-Computers würde dann die Aufforderung ergehen, dass von dem/den entsprechenden SR-Computer(n) die Dokumente mit der höchsten Bewertung zurückgegeben werden. - An den Schritt
269 schliesst sich ein vom SR-Computer ausgeführter Schritt270 an, bei dem der/die SR-Computer die vom SA-Computer unter Schritt269 angeforderten Dokumente mit der höchsten Bewertung abrufen und an den SA-Computer zurückgeben. - Auf den Schritt
270 schliesst sich ein vom SA-Computer ausgeführter Schritt271 an, bei dem die Begriffsbedeutung für jeden der Begriffe errechnet wird. Die Begriffsbedeutung, die vorstehend im Zusammenhang mit der Spalte188 in16 erläutert ist, entspricht einem standardisierten log2(maxdfi/dfi), so dass sich für die Werte für die Begriffsbedeutung ein Bereich von 1 bis 100 ergibt. - An den Schritt
271 schliesst sich ein Schritt272 an, bei dem die Dokumente zur Anzeige gebracht werden, wie dies im Vorstehenden ausführlich beschrieben ist.
Claims (41)
- Assoziatives Textsuch- und -retrievalsystem mit: Datenübertragungsvorrechnern (
56 ,57 ,58 ) zum Dialog mit einem Netz mit einer oder mehreren angeschlossenen Benutzerstationen, um Informationen in das System einzugeben und Informationen aus dem System abzurufen; Speichereinrichtungen (46 ,47 ,48 ,49 ) zur Speicherung einer Anzahl von Textdokumenten; und mit den Datenübertragungsvorrechnern und den Speichereinrichtungen gekoppelter Prozessoreinrichtung (32 ,33 ,34 ,42 ,43 ,44 ) zum Durchsuchen der Textdokumente unter Benutzung einer Anzahl von vom Benutzer festgelegten Suchbegriffen, zum Errechnen einer Auswertung für jedes der Textdokumente, in denen mindestens einer der Suchbegriffe enthalten ist, zum Festlegen einer Rangfolge der Textdokumente auf der Grundlage ihrer Auswertungen und zum Bereitstellen einer vorbestimmten Anzahl von abgerufenen Dokumenten als Teilmenge der Textdokumente auf der Basis der Rangfolge der Dokumente an die Datenübertragungsvorrechner, wobei die abgerufenen Dokumente mit höherer Rangfolge als die Textdokumente den Datenübertragungsvorrechnern nicht zur Verfügung gestellt werden, wobei die Auswertungen anhand einer Formel errechnet werden, die in Abhängigkeit vom Quadrat der Häufigkeit eines jeden Suchbegriffs in jedem der Textdokumente variiert, und wobei die Dokumentenhäufigkeit als die Anzahl der Dokumente innerhalb einer durchsuchten Sammlung definiert wird, in denen der Suchbegriff enthalten ist. - Assoziatives Textsuch- und -retrievalsystem nach Anspruch 1, wobei die Formel in Abhängigkeit von einer umgekehrten Dokumentenhäufigkeit bei jedem der Suchbegriffe ebenfalls veränderlich ist.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 2, wobei die Formel wie folgt lautet: Formel wobei nt = die Gesamtanzahl der Suchbegriffe, ut = eine Anzahl eindeutiger Suchbegriffe, die in einem bestimmten Textdokument vorkommen, tfi = eine Häufigkeit, mit der Suchbegriff i im Textdokument enthalten ist, oc = ein prozentuales Vorkommen von Suchbegriffen in einem Fliestextfenster mit einer maximalen Anzahl von Suchbegriffen, wobei oc durch Teilen der Häufigkeit von uchbegriffen im Fenster durch eine Gesamthäufigkeit von Suchbegriffen im Dokument und durch anschliessendes Multiplizieren des Ergebnisses mit 100 errechnet wird, dfi = eine Anzahl der Textdokumente, in denen der Begriff i enthalten ist, maxdfi = eine maximale Anzahl von Textdokumenten, in denen irgendwelche Suchbegriffe vorkommen, und wobei für alle Logarithmen die Zahlenbasis 2 gilt.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, wobei die Prozessoreinrichtung umfasst: mindestens einen mit den Datenübertragungsvorrechnern gekoppelten Session Administrator (SA)-Computer (
42 ,43 ,44 ); und mindestens einen mit dem SA-Computer und den Dokumentenspeichereinrichtungen verbundenen Search and Retrieval [Such- und Retrieval-](SR)-Computer (32 ,33 ,34 ), wobei der SR-Computer die Suche in den Dokumentenspeichereinrichtungen durchführt und die abgerufenen Dokumente an den SA-Computer zurückgibt und wobei der SA-Computer den Benutzer auffordert, Suchbegriffe und Suchoptionen einzugeben, die Suchanforderung an den entsprechenden SR-Computer gibt und dem Benutzer die Möglichkeit bietet, die vom SR-Computer an den SA-Computer zurückgegebenen abgerufenen Dokumente einzusehen. - Assoziatives Textsuch- und -retrievalsystem nach Anspruch 4, wobei die Suchanforderung vom SA-Computer an mehr als nur einen SR-Computer gegeben wird, wobei die SR-Computer die Dokumentenauswertung für die während der Suche gefundenen Textdokumente errechnen und wobei der SA-Computer die Auswertungen abgleicht und die Reihenfolge der Dokumente in Abhängigkeit von ihrer Auswertung bestimmt und die SR-Computer veranlasst, eine Teilmenge der Textdokumente mit den höchsten Gesamtauswertungen zurückzugeben.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: einem Thesaurus (
52 ,53 ,54 ) mit Eintragungen für eine Anzahl von Wörtern zur Korrelation eines jeden Worts mit sowohl Synonymen als auch morphologischen Variationen. - Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen, um dem Benutzer unabhängig von den vom ihm vorgegebenen Suchbegriffen die Eingabe obligatorischer Begriffe zu ermöglichen, die in jedem der abgerufenen Dokumente vorkommen müssen, wobei die Prozessoreinrichtung Auswertungen nur für solche Dokumente vornimmt, in denen die obligatorischen Begriffe ggf. enthalten sind.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: einer Tabelle zur Erfassung von Sätzen, wobei die Tabelle Eintragungen umfasst, die für jedes Wort, das Teil eines Satzes sein kann, eine Position angibt, die das Wort in einem Satz einnehmen kann.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 8, wobei in der Tabelle einer jeden Eintragung eine Bitmap zugeordnet ist, welche mögliche Stellungen in einem Satz der zuge hörigen Eintragung angibt.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 9, wobei die Tabelle desweiteren eine Kennung besitzt, um die Darstellungen eines jeden Wortes durch Zuordnung einer unverwechselbaren beliebigen Nummer zum Darstellen eines jeden Wortes zu komprimieren.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 9 oder Anspruch 10, wobei jede Bitmap-Eintragung eine Länge von einem Byte hat, wobei ein Wert 1 einer bestimmten Bitposition in der Bitmap-Eintragung anzeigt, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz vorkommen könnte, und wobei ein Wert 0 einer bestimmten Bitposition in der Bitmap-Eintragung bedeutet, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz nicht vorkommen könnte.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 10, wobei die Tabelle einen Baum mit Knoten benutzt, die den Wörtern in einem Satz zugeordneten Kennungen entsprechen, wobei die Knoten in der Reihenfolge miteinander verbunden sind, in welcher die Wörter in einem Satz vorkommen können.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen, die dem Benutzer die Möglichkeit zum Eingeben obligatorischer Begriffe bieten, die unabhängig von den vom Benutzer vorgegebenen Suchbegriffen in jedem der abgerufenen Dokumente vorkommen müssen, wobei die Prozessoreinrichtung eine Auswertung für jedes der Textdokumente errechnet, in denen die etwaigen obligatorischen Suchbegriffe und mindestens einer der Suchbegriffe enthalten sind.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: einem den Textdokumenten zugeordneten Index zur Anzeige der Positionen potentieller Suchbegriffe innerhalb der Textdokumente; Einrichtungen, um bei der Suche Störbegriffe auszuschliessen, indem keine Störbegriffe in den Index aufgenommen werden; und Einrichtungen, um bei der Suche häufig gebrauchte Begriffe auszuschliessen, wobei die häufig benutzten Begriffe im Index enthalten und in einer Liste häufig benutzter Begriffe aufgelistet sind und wobei die häufig benutzten Begriffe dadurch von der Suche ausgeschlossen bleiben, dass bei der Suche keine in der Liste enthaltene Begriffe benutzt werden.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen, um dem Benutzer eine Bildschirmmaske zur Verfügung zu stellen, die für jedes abgerufene Dokument anzeigt, welche Suchbegriffe in welchen abgerufenen Dokumenten vorkommen.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 2, desweiteren mit: Einrichtungen, um dem Benutzer eine Bildschirmmaske zur Verfügung zu stellen, die für jeden der Suchbegriffe eine Bedeutung angibt, wobei die Bedeutung der Begriffe in Abhängigkeit von der umgekehrten Dokumentenhäufigkeit des Suchbegriffs variiert.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 16, wobei die Bedeutung der Begriffe in Abhängigkeit von log(maxdfi/dfi) variiert, wobei für den Logarithmus die Basiszahl 2 gilt, dfi = eine Anzahl der abgerufenen Dokumente, in denen der Suchbegriff i enthalten ist, und maxdfi = eine maximale Anzahl der abgerufenen Dokumente, in denen irgendwelche Suchbegriffe vorkommen.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, wobei die Speichereinrichtungen zur Speicherung von mindestens einer Dokumentensammlung mit einer Anzahl von Textdokumenten und vorbestimmten Informationen dienen, aus denen hervorgeht, wie die Dokumente in der Dokumentensammlung präsentiert werden können, wobei das System Einrichtungen umfasst, die dem Benutzer die Möglichkeit bieten, einen von vielen möglichen Befehlen zur Darstellung der abgerufenen Dokumente auf der Grundlage der vorbestimmten und in der Dokumentensammlung enthaltenen Informationen anzuwählen.
- Assoziatives Textsuch- und -retrievalsystem nach irgendeinem der vorstehenden Ansprüche, desweiteren mit: Einrichtungen zur Anzeige des Textes eines der abgerufenen Dokumente in einem Fenster, wobei das Fenster die höchste Fensterauswertung aller möglichen Fenster des abgerufenen Dokuments hat, wobei die Fensterauswertung auf der Häufigkeit und Unterschiedlichkeit der Suchbegriffe im Fenster basiert und wobei die Vielseitigkeit der Suchbegriffe im Fenster ausgehend von der Anzahl der Suchbegriffe im Fenster errechnet wird, denen ein anderer Suchbegriff im Fenster vorausgeht.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 19, wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster, dem ein anderer Suchbegriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster errechnet wird, dem ein anderer Suchbegriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff steht.
- Assoziatives Textsuch- und -retrievalsystem nach Anspruch 19, desweiteren mit Einrichtungen, um dem Benutzer die Eingabe von obligatorischen Begriffen zu ermöglichen, die in jedem der abgerufenen Dokumente vorkommen müssen, wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe und obligatorischen Begriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster errechnet wird, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff oder obligatorischer Begriff steht.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems, zu dem die folgenden Verfahrensschritte gehören: Durchsuchen von Textdokumenten (
263 ) unter Benutzung einer Anzahl von Suchbegriffen, die von einem Benutzer festgelegt werden; Errechnen einer Auswertung für jedes der Textdokumente, in denen mindestens einer der Suchbegriffe enthalten ist, nach einer Formel, die in Abhängigkeit vom Quadrat der Häufigkeit eines jeden Suchbegriffs (268 ) in jedem der Textdokumente variiert, wobei die Dokumentenhäufigkeit als die Anzahl der Dokumente innerhalb einer durchsuchten Sammlung definiert wird, in denen der Suchbegriff enthalten ist; Festlegen einer Rangfolge der Textdokumente auf der Grundlage ihrer Auswertungen (269 ); und Bereitstellen einer vorbestimmten Anzahl von abgerufenen Dokumenten (272 ) als Teilmenge der Textdokumente auf der Basis der Rangfolge der Dokumente an den Benutzer, wobei die abgerufenen Dokumente mit höherer Rangfolge als die Textdokumente nicht zur Verfügung gestellt werden. - Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 22, wobei die Formel in Abhängigkeit von einer umgekehrten Dokumentenhäufigkeit bei jedem der Suchbegriffe ebenfalls veränderlich ist.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 23, wobei die Formel wie folgt lautet: Formel wobei nt = die Gesamtanzahl der Suchbegriffe, ut = eine Anzahl eindeutiger Suchbegriffe, die in einem bestimmten Textdokument vorkommen, tfi = eine Häufigkeit, mit der Suchbegriff i im Textdokument enthalten ist, oc = ein prozentuales Vorkommen von Suchbegriffen in einem Fliestextfenster mit einer maximalen Anzahl von Suchbegriffen, wobei oc durch Teilen der Häufigkeit von Suchbegriffen im Fenster durch eine Gesamthäufigkeit von Suchbegriffen im Dokument und durch anschliessendes Multiplizieren des Ergebnisses mit 100 errechnet wird, dfi = eine Anzahl der Textdo kumente, in denen der Begriff i enthalten ist, maxdfi = eine maximale Anzahl von Textdokumenten, in denen irgendwelche Suchbegriffe vorkommen, und wobei für alle Logarithmen die Zahlenbasis
2 gilt. - Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 24, zu dem desweiteren der folgende Verfahrensschritt gehört: Benutzung eines Thesaurus mit Eintragungen für eine Anzahl von Wörtern zur Korrelation eines jeden Worts mit sowohl Synonymen als auch morphologischen Variationen.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 25, mit desweiteren den folgenden Verfahrensschritten: Schaffung der Möglichkeit für einen Benutzer, eine Anzahl von Suchbegriffen einzugeben; Benutzung einer Tabelle zur Erfassung von Sätzen innerhalb der vom Benutzer vorgegebenen Suchbegriffe, wobei die Tabelle Eintragungen umfasst, die für jedes Wort, das Teil eines Satzes sein kann, eine Position angibt, die das Wort in einem Satz einnehmen kann; wobei das Durchsuchen der Textdokumente unter Benutzung der vom Benutzer vorgegebenen Anzahl von Suchbegriffen und der ggf. mittels der Tabelle erfassten Sätze erfolgt.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 26, wobei in der Tabelle einer jeden Eintragung eine Bitmap zugeordnet ist, welche mögliche Stellungen in einem Satz der zugehörigen Eintragung angibt.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 27, wobei die Tabelle desweiteren eine Kennung besitzt, um die Darstellungen eines jeden Wortes durch Zuordnung einer unverwechselbaren beliebigen Nummer zum Darstellen eines jeden Wortes zu komprimieren.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 27 oder Anspruch 28, wobei jede Bitmap-Eintragung eine Länge von einem Byte hat, wobei ein Wert 1 einer bestimmten Bitposition in der Bitmap-Eintragung anzeigt, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz zu finden sein könnte, und wobei ein Wert 0 einer bestimmten Bitposition in der Bitmap-Eintragung bedeutet, dass das der Bitmap zugeordnete Wort an der entsprechenden Stelle in einem Satz nicht vorkommen könnte.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 28, wobei die Tabelle einen Baum mit Knoten benutzt, die den Wörtern in einem Satz zugeordneten Kennungen entsprechen, wobei die Knoten in der Reihenfolge miteinander verbunden sind, in welcher die Wörter in einem Satz vorkommen können.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 30, zu dem desweiteren die folgenden Verfahrensschritte gehören: Schaffung der Möglichkeit für den Benutzer zum Eingeben obligatorischer Begriffe, die unabhängig von den vom Benutzer vorgegebenen Suchbegriffen in jedem der abgerufenen Dokumente vorkommen müssen; wobei eine Auswertung für jedes der Textdokumente errechnet wird, in denen die etwaigen obligatorischen Suchbegriffe und mindestens einer der Suchbegriffe enthalten sind.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 31, zu dem desweiteren die folgenden Verfahrensschritte gehören: Anzeige der Positionen potentieller Suchbegriffe innerhalb der in einer Dokumentensammlung enthaltenen Textdokumente mittels eines den Textdokumenten zugeordneten Indexes; Ausschluss von Störbegriffen bei der Suche, indem keine Störbegriffe in den Index aufgenommen werden; Nichtberücksichtigung häufig gebrauchter Begriffe bei der Suche, wobei die häufig benutzten Begriffe im Index enthalten und in der Dokumentensammlung in einer Liste häufig benutzter Begriffe aufgelistet sind, wobei die Liste häufig benutzter Begriffe auf der Grundlage einer Vielzahl von Funktionsfaktoren einschliesslich der Häufigkeit eines Begriffs in der Dokumentensammlung und der Art der Dokumentensammlung dynamisch ist und wobei die häufig benutzten Begriffe dadurch von der Suche ausgeschlossen bleiben, dass bei der Suche keine in der Liste enthaltene Begriffe benutzt werden; wobei für jedes der Textdokumente, die mit Ausnahme der nach vorgenannten Verfahrensschritten ausgeschlossenen Störbegriffe und häufig benutzten Begriffe mindestens einen Suchbegriff enthalten, eine Auswertung errechnet wird.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 32, zu dem desweiteren der folgende Verfahrensschritt gehört: Anzeige für jedes abgerufene Dokument, welche Suchbegriffe in welchen abgerufenen Dokumenten vorkommen.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 33, wobei das Vorkommen eines jeden Suchbegriffs innerhalb der abgerufenen Dokumente in ablesbarer Form angezeigt wird.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 34, zu dem desweiteren der folgende Verfahrensschritt gehört: Angabe der Bedeutung für jeden der Suchbegriffe, wobei die Bedeutung der Begriffe in Abhängigkeit von der umgekehrten Dokumentenhäufigkeit des Suchbegriffs variiert.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 35, wobei die Bedeutung des Begriffs in ablesbarer Form angezeigt wird.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 35 oder Anspruch 36, wobei die Bedeutung der Begriffe in Abhängigkeit von log(maxdfi/dfi) variiert, wobei für den Logarithmus die Basiszahl 2 gilt, dfi = eine Anzahl der abgerufenen Dokumente, in denen der Suchbegriff i enthalten ist, und maxdfi = eine maximale Anzahl der abgerufenen Dokumente, in denen irgendwelche Suchbegriffe vorkommen.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 37, wobei die Textdokumente in einer Dokumentensammlung enthalten sind und zu dem desweiteren der folgende Verfahrensschritt gehört: Schaffung der Möglichkeit für den Benutzer, einen von vielen möglichen Befehlen zur Darstellung der abgerufenen Dokumente auf der Grundlage der vorbestimmten und in der Dokumentensammlung enthaltenen Informationen anzuwählen, die zeigen, wie die Dokumente in der Dokumentensammlung präsentiert werden können.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach irgendeinem der Ansprüche 22 bis 38, zu dem desweiteren die folgenden Verfahrensschritte gehören: für ein bestimmtes abgerufenes Dokument Errechnen einer Fensterauswertung für jedes aller möglichen Fenster des abgerufenen Dokuments auf der Grundlage der Häufigkeit und Unterschiedlichkeit der Suchbegriffe im Fenster, wobei die Vielseitigkeit der Suchbegriffe im Fenster ausgehend von der Anzahl der Suchbegriffe im Fenster errechnet wird, denen ein anderer Suchbegriff im Fenster vorausgeht; und Anzeige des Textes des jeweils gewählten abgerufenen Dokuments in einem Fenster, das die höchste Fensterauswertung aller möglichen Fenster des gewählten abgerufenen Dokuments hat.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 39, wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster, dem ein anderer Suchbegriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff im Fenster errechnet wird, dem ein anderer Suchbegriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff steht.
- Verfahren zum Betrieb eines assoziativen Textsuch- und -retrievalsystems nach Anspruch 39, zu dem desweiteren der Verfahrensschritt gehört, dass dem Benutzer die Eingabe von obligatorischen Begriffen ermöglicht wird, die in jedem der abgerufenen Dokumente vorkommen müssen; und wobei die Fensterauswertung durch Hinzurechnen von 1 zur Fensterauswertung für die Anzahl der Suchbegriffe und obligatorischen Begriffe im Fenster, durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, und durch Hinzurechnen von 2 zur Fensterauswertung für jeden Suchbegriff und obligatorischen Begriff im Fenster errechnet wird, dem ein anderer Suchbegriff oder obligatorischer Begriff vorausgeht, vor dem seinerseits wiederum ein anderer Suchbegriff oder obligatorischer Begriff steht.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US155304 | 1993-11-22 | ||
US08/155,304 US5692176A (en) | 1993-11-22 | 1993-11-22 | Associative text search and retrieval system |
PCT/US1994/013272 WO1995014973A1 (en) | 1993-11-22 | 1994-11-22 | Associative text search and retrieval system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69433165D1 DE69433165D1 (de) | 2003-10-23 |
DE69433165T2 true DE69433165T2 (de) | 2006-02-16 |
Family
ID=22554883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69433165T Expired - Lifetime DE69433165T2 (de) | 1993-11-22 | 1994-11-22 | Assoziatives textsuch- und wiederauffindungssystem |
Country Status (10)
Country | Link |
---|---|
US (3) | US5692176A (de) |
EP (1) | EP0730765B1 (de) |
JP (2) | JPH10508960A (de) |
AT (1) | ATE250244T1 (de) |
CA (1) | CA2170251C (de) |
DE (1) | DE69433165T2 (de) |
DK (1) | DK0730765T3 (de) |
ES (1) | ES2204938T3 (de) |
PT (1) | PT730765E (de) |
WO (1) | WO1995014973A1 (de) |
Families Citing this family (169)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6339767B1 (en) | 1997-06-02 | 2002-01-15 | Aurigin Systems, Inc. | Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US6076082A (en) * | 1995-09-04 | 2000-06-13 | Matsushita Electric Industrial Co., Ltd. | Information filtering method and apparatus for preferentially taking out information having a high necessity |
US6901392B1 (en) | 1995-09-04 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | Information filtering method and apparatus for preferentially taking out information having a high necessity |
US7051024B2 (en) * | 1999-04-08 | 2006-05-23 | Microsoft Corporation | Document summarizer for word processors |
US5924108A (en) * | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
US5745894A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for generating and searching a range-based index of word-locations |
US5870740A (en) * | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5956740A (en) * | 1996-10-23 | 1999-09-21 | Iti, Inc. | Document searching system for multilingual documents |
US6041331A (en) * | 1997-04-01 | 2000-03-21 | Manning And Napier Information Services, Llc | Automatic extraction and graphic visualization system and method |
US6098066A (en) * | 1997-06-13 | 2000-08-01 | Sun Microsystems, Inc. | Method and apparatus for searching for documents stored within a document directory hierarchy |
US6185550B1 (en) * | 1997-06-13 | 2001-02-06 | Sun Microsystems, Inc. | Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking |
US5999925A (en) | 1997-07-25 | 1999-12-07 | Claritech Corporation | Information retrieval based on use of sub-documents |
US5926808A (en) * | 1997-07-25 | 1999-07-20 | Claritech Corporation | Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network |
US6556713B2 (en) * | 1997-07-31 | 2003-04-29 | Canon Kabushiki Kaisha | Image processing apparatus and method and storage medium |
US5983216A (en) * | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
JP3177593B2 (ja) * | 1997-09-18 | 2001-06-18 | 株式会社ジャストシステム | 語句の絞込検索方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6163782A (en) * | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
US6172685B1 (en) * | 1997-11-24 | 2001-01-09 | Intel Corporation | Method and apparatus for increasing the amount and utility of displayed information |
US6128634A (en) * | 1998-01-06 | 2000-10-03 | Fuji Xerox Co., Ltd. | Method and apparatus for facilitating skimming of text |
GB2333871A (en) * | 1998-01-29 | 1999-08-04 | Sharp Kk | Ranking of text units |
US6457028B1 (en) * | 1998-03-18 | 2002-09-24 | Xerox Corporation | Method and apparatus for finding related collections of linked documents using co-citation analysis |
JP3664874B2 (ja) * | 1998-03-28 | 2005-06-29 | 松下電器産業株式会社 | 文書検索装置 |
US8543372B1 (en) | 1998-05-18 | 2013-09-24 | Dennis S. Fernandez | System design rights management |
US6275820B1 (en) | 1998-07-16 | 2001-08-14 | Perot Systems Corporation | System and method for integrating search results from heterogeneous information resources |
US6490579B1 (en) | 1998-07-16 | 2002-12-03 | Perot Systems Corporation | Search engine system and method utilizing context of heterogeneous information resources |
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6892183B1 (en) * | 1998-12-21 | 2005-05-10 | Ncr Corporation | Method and apparatus for generating an item menu for use during operation of a self-service checkout terminal |
US6564200B1 (en) | 1999-01-19 | 2003-05-13 | International Business Machines Corporation | Apparatus for cross referencing routines and method therefor |
US7716060B2 (en) | 1999-03-02 | 2010-05-11 | Germeraad Paul B | Patent-related tools and methodology for use in the merger and acquisition process |
US7966328B2 (en) | 1999-03-02 | 2011-06-21 | Rose Blush Software Llc | Patent-related tools and methodology for use in research and development projects |
US7072888B1 (en) * | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
KR20010004404A (ko) * | 1999-06-28 | 2001-01-15 | 정선종 | 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 |
AU5637000A (en) * | 1999-06-30 | 2001-01-31 | Invention Machine Corporation, Inc. | Semantic processor and method with knowledge analysis of and extraction from natural language documents |
US6598047B1 (en) | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
US6772149B1 (en) | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
US7711738B1 (en) * | 1999-11-15 | 2010-05-04 | West Services, Inc. | Method, system and computer-readable medium for accessing and retrieving court records, items and documents |
JP2001222525A (ja) * | 1999-11-30 | 2001-08-17 | Canon Inc | 文書管理装置、文書管理システム、文書管理方法及び記憶媒体 |
US6845369B1 (en) * | 2000-01-14 | 2005-01-18 | Relevant Software Inc. | System, apparatus and method for using and managing digital information |
US7099859B2 (en) * | 2000-01-20 | 2006-08-29 | International Business Machines Corporation | System and method for integrating off-line ratings of businesses with search engines |
US6952806B1 (en) * | 2000-01-21 | 2005-10-04 | Xerox Corporation | Medium containing information gathered from material including a source and interface for graphically displaying the information |
AU2001251123A1 (en) * | 2000-03-30 | 2001-10-15 | Iqbal A. Talib | Methods and systems for enabling efficient retrieval of data from data collections |
US7428500B1 (en) * | 2000-03-30 | 2008-09-23 | Amazon. Com, Inc. | Automatically identifying similar purchasing opportunities |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
US6633868B1 (en) * | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US7603319B2 (en) * | 2000-08-28 | 2009-10-13 | Contentguard Holdings, Inc. | Method and apparatus for preserving customer identity in on-line transactions |
DE10048479A1 (de) | 2000-09-29 | 2002-04-25 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit, in der Vermerkfolgen gespeichert sind, zugehörige Speichereinheit und zugehöriges Programm |
US20020059240A1 (en) * | 2000-10-25 | 2002-05-16 | Edave, Inc. | System for presenting consumer data |
US6978419B1 (en) * | 2000-11-15 | 2005-12-20 | Justsystem Corporation | Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments |
US7069518B2 (en) | 2000-12-21 | 2006-06-27 | Xerox Corporation | Indexing methods, systems, and computer program products for virtual three-dimensional books |
US7139982B2 (en) * | 2000-12-21 | 2006-11-21 | Xerox Corporation | Navigation methods, systems, and computer program products for virtual three-dimensional books |
US7240291B2 (en) * | 2000-12-21 | 2007-07-03 | Xerox Corporation | Methods, systems, and computer program products for display of information relating to a virtual three-dimensional book |
US7015910B2 (en) | 2000-12-21 | 2006-03-21 | Xerox Corporation | Methods, systems, and computer program products for the display and operation of virtual three-dimensional books |
US6924822B2 (en) * | 2000-12-21 | 2005-08-02 | Xerox Corporation | Magnification methods, systems, and computer program products for virtual three-dimensional books |
US7099872B2 (en) * | 2001-02-05 | 2006-08-29 | Employon Nj, Llc | Method for providing access to online employment information |
US6741981B2 (en) | 2001-03-02 | 2004-05-25 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) | System, method and apparatus for conducting a phrase search |
US6697793B2 (en) | 2001-03-02 | 2004-02-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for generating phrases from a database |
US6721728B2 (en) | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
US6823333B2 (en) | 2001-03-02 | 2004-11-23 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for conducting a keyterm search |
US7464072B1 (en) | 2001-06-18 | 2008-12-09 | Siebel Systems, Inc. | Method, apparatus, and system for searching based on search visibility rules |
US7146409B1 (en) * | 2001-07-24 | 2006-12-05 | Brightplanet Corporation | System and method for efficient control and capture of dynamic database content |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US6963869B2 (en) * | 2002-01-07 | 2005-11-08 | Hewlett-Packard Development Company, L.P. | System and method for search, index, parsing document database including subject document having nested fields associated start and end meta words where each meta word identify location and nesting level |
US20040205660A1 (en) * | 2002-04-23 | 2004-10-14 | Joe Acton | System and method for generating and displaying attribute-enhanced documents |
JP2004094916A (ja) * | 2002-07-08 | 2004-03-25 | Cannac:Kk | 問題解決支援システム、問題解決支援方法、及びプログラム |
US7743061B2 (en) * | 2002-11-12 | 2010-06-22 | Proximate Technologies, Llc | Document search method with interactively employed distance graphics display |
US7111000B2 (en) * | 2003-01-06 | 2006-09-19 | Microsoft Corporation | Retrieval of structured documents |
JP2004280661A (ja) * | 2003-03-18 | 2004-10-07 | Fujitsu Ltd | 検索方法及びプログラム |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US20040193557A1 (en) * | 2003-03-25 | 2004-09-30 | Olsen Jesse Dale | Systems and methods for reducing ambiguity of communications |
US7313573B2 (en) * | 2003-09-17 | 2007-12-25 | International Business Machines Corporation | Diagnosis of equipment failures using an integrated approach of case based reasoning and reliability analysis |
US9288000B2 (en) | 2003-12-17 | 2016-03-15 | International Business Machines Corporation | Monitoring a communication and retrieving information relevant to the communication |
US20050210042A1 (en) * | 2004-03-22 | 2005-09-22 | Goedken James F | Methods and apparatus to search and analyze prior art |
US7246117B2 (en) * | 2004-03-31 | 2007-07-17 | Sap Ag | Algorithm for fast disk based text mining |
US7996419B2 (en) * | 2004-03-31 | 2011-08-09 | Google Inc. | Query rewriting with entity detection |
US7536382B2 (en) | 2004-03-31 | 2009-05-19 | Google Inc. | Query rewriting with entity detection |
US7836408B1 (en) * | 2004-04-14 | 2010-11-16 | Apple Inc. | Methods and apparatus for displaying relative emphasis in a file |
US7584175B2 (en) | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
US7580921B2 (en) | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7536408B2 (en) | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7567959B2 (en) * | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7599914B2 (en) | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
US7711679B2 (en) * | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US20070106657A1 (en) * | 2005-11-10 | 2007-05-10 | Brzeski Vadim V | Word sense disambiguation |
US7856441B1 (en) | 2005-01-10 | 2010-12-21 | Yahoo! Inc. | Search systems and methods using enhanced contextual queries |
US7409402B1 (en) | 2005-09-20 | 2008-08-05 | Yahoo! Inc. | Systems and methods for presenting advertising content based on publisher-selected labels |
US7958115B2 (en) * | 2004-07-29 | 2011-06-07 | Yahoo! Inc. | Search systems and methods using in-line contextual queries |
US7421441B1 (en) | 2005-09-20 | 2008-09-02 | Yahoo! Inc. | Systems and methods for presenting information based on publisher-selected labels |
US8972856B2 (en) * | 2004-07-29 | 2015-03-03 | Yahoo! Inc. | Document modification by a client-side application |
US7603349B1 (en) | 2004-07-29 | 2009-10-13 | Yahoo! Inc. | User interfaces for search systems using in-line contextual queries |
JP4814238B2 (ja) | 2004-08-23 | 2011-11-16 | レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド | 法律上の要点をサーチするシステム及び方法 |
CA2577450C (en) | 2004-08-23 | 2014-10-07 | Lexisnexis, A Division Of Reed Elsevier Inc. | Landmark case identification system and method |
US7853574B2 (en) * | 2004-08-26 | 2010-12-14 | International Business Machines Corporation | Method of generating a context-inferenced search query and of sorting a result of the query |
JP4639734B2 (ja) * | 2004-09-30 | 2011-02-23 | 富士ゼロックス株式会社 | スライドコンテンツ処理装置およびプログラム |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US7496750B2 (en) * | 2004-12-07 | 2009-02-24 | Cisco Technology, Inc. | Performing security functions on a message payload in a network element |
US7895193B2 (en) * | 2005-09-30 | 2011-02-22 | Microsoft Corporation | Arbitration of specialized content using search results |
US7814102B2 (en) * | 2005-12-07 | 2010-10-12 | Lexisnexis, A Division Of Reed Elsevier Inc. | Method and system for linking documents with multiple topics to related documents |
DE102006001840B4 (de) * | 2006-01-13 | 2007-10-11 | Universität Konstanz | Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt |
US7747598B2 (en) * | 2006-01-27 | 2010-06-29 | Google Inc. | Geographic coding for location search queries |
US8725729B2 (en) | 2006-04-03 | 2014-05-13 | Steven G. Lisa | System, methods and applications for embedded internet searching and result display |
WO2007149623A2 (en) * | 2006-04-25 | 2007-12-27 | Infovell, Inc. | Full text query and search systems and method of use |
JP4761460B2 (ja) * | 2006-05-01 | 2011-08-31 | コニカミノルタビジネステクノロジーズ株式会社 | 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム |
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
US8403756B2 (en) * | 2006-07-28 | 2013-03-26 | Yahoo! Inc. | Fantasy sports alert generator |
US8568236B2 (en) * | 2006-07-28 | 2013-10-29 | Yahoo! Inc. | Fantasy sports agent |
US20080102911A1 (en) * | 2006-10-27 | 2008-05-01 | Yahoo! Inc. | Integration of personalized fantasy data with general sports content |
US7792883B2 (en) * | 2006-12-11 | 2010-09-07 | Google Inc. | Viewport-relative scoring for location search queries |
US8671354B2 (en) * | 2006-12-22 | 2014-03-11 | Yahoo! Inc. | Player streaks and game data visualization |
US20080153589A1 (en) * | 2006-12-22 | 2008-06-26 | Yahoo! Inc. | Rotisserie fantasy league visualization tools |
US7908260B1 (en) | 2006-12-29 | 2011-03-15 | BrightPlanet Corporation II, Inc. | Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems |
US20080183691A1 (en) * | 2007-01-30 | 2008-07-31 | International Business Machines Corporation | Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
US7809714B1 (en) | 2007-04-30 | 2010-10-05 | Lawrence Richard Smith | Process for enhancing queries for information retrieval |
JP5033724B2 (ja) * | 2007-07-12 | 2012-09-26 | 株式会社沖データ | 文書検索装置及び画像形成装置、文書検索システム |
US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8799308B2 (en) * | 2007-10-19 | 2014-08-05 | Oracle International Corporation | Enhance search experience using logical collections |
US20090144266A1 (en) * | 2007-12-04 | 2009-06-04 | Eclipsys Corporation | Search method for entries in a database |
US9706345B2 (en) | 2008-01-04 | 2017-07-11 | Excalibur Ip, Llc | Interest mapping system |
US20090228811A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for processing a plurality of documents |
US20090228817A1 (en) * | 2008-03-10 | 2009-09-10 | Randy Adams | Systems and methods for displaying a search result |
US7974974B2 (en) * | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
US8306987B2 (en) * | 2008-04-03 | 2012-11-06 | Ofer Ber | System and method for matching search requests and relevant data |
US7987195B1 (en) | 2008-04-08 | 2011-07-26 | Google Inc. | Dynamic determination of location-identifying search phrases |
US8051080B2 (en) * | 2008-04-16 | 2011-11-01 | Yahoo! Inc. | Contextual ranking of keywords using click data |
US8463774B1 (en) | 2008-07-15 | 2013-06-11 | Google Inc. | Universal scores for location search queries |
US7853459B2 (en) * | 2008-08-14 | 2010-12-14 | Qtc Management, Inc. | Automated processing of electronic medical data for insurance and disability determinations |
US8768852B2 (en) * | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
US9569770B1 (en) | 2009-01-13 | 2017-02-14 | Amazon Technologies, Inc. | Generating constructed phrases |
US8666730B2 (en) * | 2009-03-13 | 2014-03-04 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
US9298700B1 (en) * | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
US10007712B1 (en) | 2009-08-20 | 2018-06-26 | Amazon Technologies, Inc. | Enforcing user-specified rules |
US9348913B2 (en) * | 2009-09-09 | 2016-05-24 | Yahoo! Inc. | Selecting sporting events based on event status |
US8271435B2 (en) * | 2010-01-29 | 2012-09-18 | Oracle International Corporation | Predictive categorization |
US9009135B2 (en) * | 2010-01-29 | 2015-04-14 | Oracle International Corporation | Method and apparatus for satisfying a search request using multiple search engines |
US10156954B2 (en) * | 2010-01-29 | 2018-12-18 | Oracle International Corporation | Collapsible search results |
US20110191333A1 (en) * | 2010-01-29 | 2011-08-04 | Oracle International Corporation | Subsequent Search Results |
US9110971B2 (en) * | 2010-02-03 | 2015-08-18 | Thomson Reuters Global Resources | Method and system for ranking intellectual property documents using claim analysis |
US8799658B1 (en) | 2010-03-02 | 2014-08-05 | Amazon Technologies, Inc. | Sharing media items with pass phrases |
US10956475B2 (en) | 2010-04-06 | 2021-03-23 | Imagescan, Inc. | Visual presentation of search results |
US8326861B1 (en) * | 2010-06-23 | 2012-12-04 | Google Inc. | Personalized term importance evaluation in queries |
US9582575B2 (en) | 2010-07-09 | 2017-02-28 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for linking items to a matter |
US9779168B2 (en) | 2010-10-04 | 2017-10-03 | Excalibur Ip, Llc | Contextual quick-picks |
US20120095997A1 (en) * | 2010-10-18 | 2012-04-19 | Microsoft Corporation | Providing contextual hints associated with a user session |
US9245056B2 (en) * | 2011-02-23 | 2016-01-26 | Novell, Inc. | Structured relevance—a mechanism to reveal why data is related |
US9251289B2 (en) * | 2011-09-09 | 2016-02-02 | Microsoft Technology Licensing, Llc | Matching target strings to known strings |
US9772999B2 (en) | 2011-10-24 | 2017-09-26 | Imagescan, Inc. | Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition |
US11010432B2 (en) | 2011-10-24 | 2021-05-18 | Imagescan, Inc. | Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition |
US10467273B2 (en) | 2011-10-24 | 2019-11-05 | Image Scan, Inc. | Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within |
JP5743938B2 (ja) * | 2012-03-26 | 2015-07-01 | 株式会社日立製作所 | 連想検索システム、連想検索サーバ及びプログラム |
US9461897B1 (en) | 2012-07-31 | 2016-10-04 | United Services Automobile Association (Usaa) | Monitoring and analysis of social network traffic |
US9569535B2 (en) * | 2012-09-24 | 2017-02-14 | Rainmaker Digital Llc | Systems and methods for keyword research and content analysis |
US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
CN103177122B (zh) * | 2013-04-15 | 2017-04-26 | 天津理工大学 | 一种基于同义词的个人桌面文件搜索方法 |
US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
US10331782B2 (en) | 2014-11-19 | 2019-06-25 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
US10977284B2 (en) * | 2016-01-29 | 2021-04-13 | Micro Focus Llc | Text search of database with one-pass indexing including filtering |
US10224026B2 (en) * | 2016-03-15 | 2019-03-05 | Sony Corporation | Electronic device, system, method and computer program |
US10540439B2 (en) * | 2016-04-15 | 2020-01-21 | Marca Research & Development International, Llc | Systems and methods for identifying evidentiary information |
US11645295B2 (en) | 2019-03-26 | 2023-05-09 | Imagescan, Inc. | Pattern search box |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4706212A (en) * | 1971-08-31 | 1987-11-10 | Toma Peter P | Method using a programmed digital computer system for translation between natural languages |
US4270182A (en) * | 1974-12-30 | 1981-05-26 | Asija Satya P | Automated information input, storage, and retrieval system |
US4241402A (en) * | 1978-10-12 | 1980-12-23 | Operating Systems, Inc. | Finite state automaton with multiple state types |
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
US4384329A (en) * | 1980-12-19 | 1983-05-17 | International Business Machines Corporation | Retrieval of related linked linguistic expressions including synonyms and antonyms |
US4464650A (en) * | 1981-08-10 | 1984-08-07 | Sperry Corporation | Apparatus and method for compressing data signals and restoring the compressed data signals |
US4471459A (en) * | 1981-09-30 | 1984-09-11 | System Development Corp. | Digital data processing method and means for word classification by pattern analysis |
US4499553A (en) * | 1981-09-30 | 1985-02-12 | Dickinson Robert V | Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
JPS61105671A (ja) * | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
JPS61223941A (ja) * | 1985-03-29 | 1986-10-04 | Kagaku Joho Kyokai | 化学構造の検索方法 |
US4760528A (en) * | 1985-09-18 | 1988-07-26 | Levin Leonid D | Method for entering text using abbreviated word forms |
US4787035A (en) * | 1985-10-17 | 1988-11-22 | Westinghouse Electric Corp. | Meta-interpreter |
US4819156A (en) * | 1986-06-13 | 1989-04-04 | International Business Machines Corporation | Database index journaling for enhanced recovery |
US5123103A (en) * | 1986-10-17 | 1992-06-16 | Hitachi, Ltd. | Method and system of retrieving program specification and linking the specification by concept to retrieval request for reusing program parts |
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
US4918588A (en) * | 1986-12-31 | 1990-04-17 | Wang Laboratories, Inc. | Office automation system with integrated image management |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4862408A (en) * | 1987-03-20 | 1989-08-29 | International Business Machines Corporation | Paradigm-based morphological text analysis for natural languages |
JPS6410300A (en) * | 1987-07-03 | 1989-01-13 | Hitachi Ltd | User's interface system for searching |
US4974191A (en) * | 1987-07-31 | 1990-11-27 | Syntellect Software Inc. | Adaptive natural language computer interface system |
US4823306A (en) * | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
GB8719572D0 (en) * | 1987-08-19 | 1987-09-23 | Krebs M S | Sigscan text retrieval system |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5005127A (en) * | 1987-10-26 | 1991-04-02 | Sharp Kabushiki Kaisha | System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules |
US4852003A (en) * | 1987-11-18 | 1989-07-25 | International Business Machines Corporation | Method for removing enclitic endings from verbs in romance languages |
US4914590A (en) * | 1988-05-18 | 1990-04-03 | Emhart Industries, Inc. | Natural language understanding system |
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
JPH02159674A (ja) * | 1988-12-13 | 1990-06-19 | Matsushita Electric Ind Co Ltd | 意味解析装置と構文解析装置 |
US5303361A (en) * | 1989-01-18 | 1994-04-12 | Lotus Development Corporation | Search and retrieval system |
US4991094A (en) * | 1989-04-26 | 1991-02-05 | International Business Machines Corporation | Method for language-independent text tokenization using a character categorization |
US5241671C1 (en) * | 1989-10-26 | 2002-07-02 | Encyclopaedia Britannica Educa | Multimedia search system using a plurality of entry path means which indicate interrelatedness of information |
US5117349A (en) * | 1990-03-27 | 1992-05-26 | Sun Microsystems, Inc. | User extensible, language sensitive database system |
US5321833A (en) * | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
US5323316A (en) * | 1991-02-01 | 1994-06-21 | Wang Laboratories, Inc. | Morphological analyzer |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
-
1993
- 1993-11-22 US US08/155,304 patent/US5692176A/en not_active Expired - Lifetime
-
1994
- 1994-11-22 EP EP95902589A patent/EP0730765B1/de not_active Expired - Lifetime
- 1994-11-22 WO PCT/US1994/013272 patent/WO1995014973A1/en active IP Right Grant
- 1994-11-22 ES ES95902589T patent/ES2204938T3/es not_active Expired - Lifetime
- 1994-11-22 CA CA002170251A patent/CA2170251C/en not_active Expired - Lifetime
- 1994-11-22 JP JP7515137A patent/JPH10508960A/ja active Pending
- 1994-11-22 AT AT95902589T patent/ATE250244T1/de active
- 1994-11-22 DE DE69433165T patent/DE69433165T2/de not_active Expired - Lifetime
- 1994-11-22 DK DK95902589T patent/DK0730765T3/da active
- 1994-11-22 PT PT95902589T patent/PT730765E/pt unknown
-
1995
- 1995-06-07 US US08/474,007 patent/US5761497A/en not_active Expired - Lifetime
- 1995-06-07 US US08/473,824 patent/US5771378A/en not_active Expired - Lifetime
-
2000
- 2000-08-24 JP JP2000254299A patent/JP2001117946A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US5692176A (en) | 1997-11-25 |
ATE250244T1 (de) | 2003-10-15 |
US5761497A (en) | 1998-06-02 |
CA2170251A1 (en) | 1995-06-01 |
EP0730765A4 (de) | 1997-09-17 |
PT730765E (pt) | 2004-02-27 |
CA2170251C (en) | 2004-02-24 |
DK0730765T3 (da) | 2003-10-20 |
JPH10508960A (ja) | 1998-09-02 |
DE69433165D1 (de) | 2003-10-23 |
JP2001117946A (ja) | 2001-04-27 |
EP0730765A1 (de) | 1996-09-11 |
ES2204938T3 (es) | 2004-05-01 |
US5771378A (en) | 1998-06-23 |
WO1995014973A1 (en) | 1995-06-01 |
EP0730765B1 (de) | 2003-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69433165T2 (de) | Assoziatives textsuch- und wiederauffindungssystem | |
DE69917250T2 (de) | Merkmalübertragung über hyperlinks | |
DE69833238T2 (de) | System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung | |
DE60004687T2 (de) | Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine | |
DE19624696C2 (de) | Verfahren zum Suchen von Datenbankeinträgen in einer Vielzahl von Datenbanken | |
DE69932344T2 (de) | Zugriff zu hierarchischem datenspeicher via sql-eingabe | |
DE69731142T2 (de) | System zum Wiederauffinden von Dokumenten | |
DE69533193T2 (de) | Paralleles verarbeitungssystem zum durchlaufen einer datenbank | |
DE19842688B4 (de) | Verfahren zum Filtern von Daten, die von einem Datenanbieter stammen | |
DE69933187T2 (de) | Dokumentensuchverfahren und Dienst | |
DE10028688B4 (de) | Methode, System und Programm für eine Verbindungsoperation in einer mehrspaltigen Tabelle sowie in Satellitentabellen mit doppelten Werten | |
DE10231161A1 (de) | Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben | |
DE69838158T2 (de) | Auf die Anzahl von in den Tabellen gespeicherten Datensätzen basiertes Ordnen von Verbindungen | |
DE60118973T2 (de) | Verfahren zum abfragen einer struktur komprimierter daten | |
DE112012000280B4 (de) | Organisation von Tabellen mit reduzierten Indizes | |
DE69719641T2 (de) | Ein Verfahren, um Informationen auf Bildschirmgeräten in verschiedenen Grössen zu präsentieren | |
DE102005051429A1 (de) | Verfahren und Software zur Analyse von Forschungsveröffentlichungen | |
DE10103574A1 (de) | Aggregierte Prädikate und Suche in einem Datenbankverwaltungssystem | |
DE10205081A1 (de) | Dokumentenauskunftszensor | |
DE60300984T2 (de) | Methode und Computersystem für die Optimierung eines Boolschen Ausdrucks für Anfragebearbeitung | |
DE10056763A1 (de) | Generieren von Einschränkungsabfragen mit Hilfe von Tensordarstellungen | |
DE10034694B4 (de) | Verfahren zum Vergleichen von Suchprofilen sowie dessen Verwendung | |
EP1276056A1 (de) | Verfahren zum Verwalten einer Datenbank | |
DE60037681T2 (de) | Verfahren zum automatischen und gesicherten suchen von daten mit hilfe eines datenübertragungsnetzwerks | |
DE69636028T2 (de) | Gruppenverwaltungsgerät für Dateneinheiten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8332 | No legal effect for de | ||
8370 | Indication related to discontinuation of the patent is to be deleted | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: HUEBNER NEUMANN RADWER RECHTSANWALT UND PATENTANWAELTE |