DE69820343T2 - Linguistisches Suchsystem - Google Patents
Linguistisches Suchsystem Download PDFInfo
- Publication number
- DE69820343T2 DE69820343T2 DE69820343T DE69820343T DE69820343T2 DE 69820343 T2 DE69820343 T2 DE 69820343T2 DE 69820343 T DE69820343 T DE 69820343T DE 69820343 T DE69820343 T DE 69820343T DE 69820343 T2 DE69820343 T2 DE 69820343T2
- Authority
- DE
- Germany
- Prior art keywords
- natural language
- expression
- language expression
- word
- labeled form
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Description
- Die vorliegende Erfindung bezieht sich auf die Datenverarbeitung und insbesondere auf Techniken zum Suche nach Information in einer Textdatenbank oder einem Textkörper.
- Die meisten verwendeten Techniken zum Auffinden eines Informationsstücks in einem Textkörper basieren auf einer Unterstrang-Suche (auch als Volltextsuche bekannt). Weil dieser grundlegende Strangsuchmechanismus schwach ist, wenn der Benutzer wünscht, mehr eine einfache Zeichenfolge zu erfassen, sind zahlreiche Techniken von Datenanbietern entwickelt worden, um das Abgleichen des Unterstrangs zu verbessern. Solche Beispiele sind Wildcards, regelmäßige Ausdrücke, Boole'sche Operatoren, Nähe-Faktoren (z. B. müssen Wörter im gleichen Satz sein oder nicht mehr als n Wörter zwischen zwei Wörtern) und Anstauung.
- Vorhandene Techniken versuchen häufig, die gleichen Ziele zu erreichen: es dem Benutzer zu ermöglichen, die Variabilität der natürlichen Sprache besser auszudrücken, in der der Strangausdruck zu suchen ist, um keinen Platz auszulassen, wo dieser Ausdruck erscheint.
- "A French Text Recognition Model for Information Retrieval System" von Antoniadis et al. (Proceedings of the International Conference on Research and Development in Information Retrieval (SIGIR), Grenoble, 13. bis 15. Juni 1988, Nr. Conf. 11, 13. Juni 1988, Seiten 67 bis 84) beschreibt ein Lehrbucherkennungsmodell, das die Dokumente einer Sammlung mit Anforderungen eines Benutzers abgleicht. Hauptwortphrasenstrukturen werden aus ihrer Anforderung in der gleichen Weise extrahiert, wie die Hauptwortphrasen aus den Dokumenten extrahiert werden. Insbesondere bringt die ermittelte Phrase ad hoc Umschreibungen ins Spiel, die mit der Anwendung verbunden sind und somit mit dem Gebiet, das durch die Dokumentensammlung erfasst ist. Diese Umschreibungen sind mit den linguistischen Umschreibungen verwandt. Das Umschreiben kann auch das Zuordnen der gleichen Art Komplemente zu präpositionalen Phrasen enthalten, denen verschiedene Präpositionen vorangehen, des Übergangs von der morphologischen Basis eines Worts zu seiner Wurzel oder des Übergangs von einer adjektivischen Phrase zu einer Präpositionsphrase.
- Es ist die Aufgabe dieser Erfindung, ein benutzerfreundliches Verfahren und eine programmierbare Datenverarbeitungsvorrichtung zum Suchen von Information in einer Textdatenbank anzugeben.
- Diese Aufgabe wird durch die Gegenstände der Ansprüche 1 und 5 gelöst.
- Bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.
- Ausführungsformen der Erfindung werden nun beispielhaft unter Bezugnahme auf die begleitenden Zeichnungen erläutert. In diesen ist:
-
1 ein schematisches Blockschaltbild eines Rechners, der dazu verwendet werden kann, die Techniken gemäß einer Ausführungsform der vorliegenden Erfindung auszuführen; und -
2 ein schematisches Flussdiagramm der Schritte zur Ausführung einer linguistischen Suche gemäß einer Ausführungsform der vorliegenden Erfindung. - Man wird erkennen, dass die vorliegende Erfindung unter Verwendung üblicher Rechnertechnologie ausgeführt werden kann. Die Erfindung ist in einer Workstation vom Typ Perl & C++ on a Sun, die mit SunOS läuft, ausgeführt worden. Man erkennt, dass die Erfindung unter Verwendung eines PC ausgeführt werden kann, die mit Windows® läuft, einem Mac, der mit MacOS läuft, oder einem Mikrocomputer, der mit UNIX läuft, die sämtlich im Stand der Technik bekannt sind. Beispielsweise ist die PC-Hardwarekonfiguration im Detail in The Art of Electronics, 2. Ausgabe, Kapitel
10 , P. Horowitz und W. Hill, Cambridge University Press, 1989, im Detail diskutiert und in1 dargestellt. Kurz gesagt, das System enthält, angeschlossen an einen gemeinsamen Bus30 , eine zentrale Prozessoreinheit32 , Speichervorrichtungen einschließlich eines Arbeitsspeichers (RAM)34 , eines Festspeichers (ROM)36 und eines Disketten-, Bandoder CD-ROM-Laufwerks38 , eine Tastatur12 (nicht gezeigt), Maus14 (nicht gezeigt), DruckerPlotter- oder Scannervorrichtungen40 und A/D-, D/A-Vorrichtungen42 und digitale Eingabe/Ausgabe-Vorrichtungen44 , die eine Schnittstelle zu äußeren Vorrichtungen46 bieten, wie beispielsweise dem Rest eines LAN (nicht gezeigt). -
2 ist ein schematisches Flussdiagramm der Schritte, die bei einer linguistischen Suche gemäß einer Ausführungsform der vorliegenden Erfindung durchgeführt werden. - Der Fachmann erkennt, dass wo hier auf Schritte, Vorgänge oder Manipulationen Bezug genommen wird, die Zeichen, Wörter, Textpassagen usw. betreffen, diese, wo geeignet, mittels Software-gesteuerten Rechneroperationen an maschinenlesbaren (z. B. ASCII-Code) Darstellungen solcher Zeichen, Wörter und Textes ausgeführt werden.
- Zum Zecke der Darstellung der Techniken gemäß der Erfindung ist der Fall betrachtet, bei dem der französische Ausdruck "systeme distribue" (äquivalent zu "distributed system" in englisch) in einem französischen Textkörper vom Benutzer gesucht werden soll.
- Zu Anfang (Schritt S1) gibt der Benutzer den Mehrwortausdruck an, nach dem er sucht, beispielsweise indem er den Typ graphischer Benutzerschnittstelle verwendet, die in der einschlägigen Technik bekannt ist. Man braucht dabei nicht auf die Formulierung dieses Ausdrucks Acht zu geben: Hauptwörter und/oder Adjektive können im Plural oder Singular sein, Verben können konjugiert sein, usw..
- Als nächstes wird im Schritt S2 der Ausdruck in den Etikettierer (oder Eindeutigmacher) gesandt, wie er beispielsweise von Xerox Corp. erhältlich ist. Etikettierer sind detaillierter in McEnery T. und Wilson A., Corpus Linguistics, Kapitel 5, Abschnitt 3 und Anhang B diskutiert. Der Etikettierer (oder Eindeutigmacher) tut zwei Dinge
- (1) jedes Wort auf seine Wurzelform reduzieren (z. B. distribue wird distribuer- Infinitiv des Verbs), und
- (2) den Sprachteil jedes Worts bestimmen (z. B. systeme ist ein Hauptwort im Singular-NOUN_SG- und distribue ist ein Adjektiv im Singular – ADJ_SG. NOUN_SG und ADJ_SG sind sog. Etiketten. Jedes Etikett besteht aus zwei Teilen: der syntaktischen Kategorie (oder Sprachteil wie NOUN, ADJ, VERB usw.) und dem morphologischen Merkmal (wie SG, PL, usw.), das die Beugung des Wortes reflektiert.
- Sobald die etikettierte Form
50 erhalten worden ist, wird sie dann im Schritt S3 vereinfacht: weil es erwünscht ist, dass der linguistische Suchvorgang alle möglichen Flexionen eines Worts findet, wird jedes Etikett zunächst auf seine syntaktische Kategorie reduziert. Das Geschlecht, Zahl oder Person eines Wortes ist für die linguistische Suche nutzlos und wird entfernt. Vorzugsweise umfasst dies den Ersatz jedes "SG", "PL" usw. durch ein neutrales Symbol (*), um alle Möglichkeiten des morphologischen Merkmals zu umfassen. - Der Vorgang geht zu dem Schritt S4 über, bei dem die vereinfachte, etikettierte Form
51 bearbeitet wird. Bei gegebener Grammatik einer Sprache ist es möglich zu ermitteln, welche Art Variationen ein Mehrwortausdruck erfahren kann, ohne seine ursprüngliche Bedeutung zu ändern. Die folgende Diskussion gibt einige der Regeln an, die für Französisch verwendet worden sind, um Variationen um nominale Phrasen zu erzeugen: - (1) Man kann zwischen ein Hauptwort und ein
Adjektiv Adjektive, Adverbien oder Partizipe einfügen, die
möglicherweise
mit einer koordinierenden Konjunktion wie et (und), ou (oder) usw.
verbunden sind.
2 zeigt die Anwendung dieser Regel auf dem Ausdruck systémes distribués und zeigt eine vereinfachte Version des sich ergebenden regulären Ausdrucks (das Symbol ☸ stellt das im Etikett vorangehende Wort dar). Als ein Beispiel folgenden einige linguistische Variationen, die von diesem regulären Ausdruck erfasst sind: - – systémes distribués (verteilte Systeme – Pluralform)
- – systémes relationnels distribués (verteilte relationale Systeme – eingefügtes Adjektiv)
- – systeme redondant et totalement distribue (voll reduntantes und verteiltes System – eingefügtes Adjektiv und Adverb, die durch eine koordinierende Konjuktion verbunden sind)
- (2) Zwischen ein Hauptwort und eine Präposition oder zwischen eines Präposition und ein Hauptwort können zusätzliche Adjektive eingefügt werden.
- (3) Zwischen zwei Hauptwörtern können zusätzliche Adjektive eingefügt werden.
- Die oben aufgeführten Regeln gelten für französische Hauptwortphrasen. Sie können auf jede andere Art Phrasen einschließlich solcher, die Verben enthalten, und auch auf jede andere Sprache ausgedehnt werden.
- Es ist anzumerken, dass diese Regeln fast so komplex wie gewünscht sein können, wenn daran gedacht ist, dass eine gute Chance besteht, dass der gewählte Teil des Textes sich noch immer auf die ursprüngliche Abfrage bezieht. Beispielsweise könnte man die Einfügung einer neuen Hauptwortphrase zwischen das Hauptwort und das Adjektiv erlauben, wie beispielsweise in "systéme á tolerance de Panne distrubué" (verteiltes fehlertolerantes System), oder noch komplexer ist die Einfügung einer Relativklausel, wie in "un systeme qui, par nature, est totalement distribue" (ein System, das von Hause aus vollständig verteilt ist).
- Die im Schritt S4 ausgedrückten Grammatikregeln werden in einem regulären Ausdruck kodiert und mit der vereinfachten etikettierten Form
51 der Benutzerabfrage abgeglichen. Wenn eine jener Regeln passt, dann setzt sich die vereinfachte etikettierte Form51 der Benutzerabfrage in einen komplexen regulären Ausdruck um, der die grammatischen Variationen darstellt. - Jede Regel wird in Folge und nur einmal angewendet, um die rekursive Anwendung einer Grammatikregel auf sich selbst oder auf andere zu vermeiden.
- Der passende reguläre Ausdruck
52 wird dann weiter im Schritt S5 verarbeitet. Sobald der endgültige reguläre Ausdruck52 erzeugt worden ist, wird er mit der etikettierten Version des Körpers abgeglichen. Bezüglich dieses Schrittes ist es wichtig, das Folgende zu berücksichtigen. - (1) Wie oben angegeben, muss der Abgleichprozess an einer etikettierten Version des Textkörpers ausgeführt werden. Dies kann unter Verwendung eines Etiketts geschehen, wie beispielsweise jenes, das von Xerox Corp. erhältlich ist, wie oben erwähnt. Die Etikettierphase kann entweder im Flge, wenn sich der Text häufig ändert, oder einmal für alle, wenn er stabil ist, ausgeführt erden.
- (2) Wenn der Körper groß ist, braucht eine einfache sequentielle Suche an Hand des etikettierten Textes zu viel Zeit. Um diese Phase zu beschleunigen, kann eine Volltext-Indexiermaschine verwendet werden. Anstatt einer Indexierung des ursprünglichen Textes, wie es die meisten Volltext-Suchmaschinen tun, wird der Indexiermechanismus an der etikettierten Version des Textkörpers angewendet.
- (3) Die meisten vorhandenen Volltext-Indexiermaschinen können keine Suchabfragen handhaben, die durch komplexe reguläre Ausdrücke ausgedrückt sind. Als Folge kann der durch das linguistische Suchsystem gemäß der vorliegenden Erfindung erzeugte Ausdruck nicht so, wie er ist, in die Suchmaschine eingegeben werden. Tatsächlich wird eine Voraussuche anhand der Einzelwörter des vereinfachten etikettierten Ausdrucks ausgeführt (siehe Schritt S2). In Abhängigkeit davon, wie kompliziert die Indexiermaschine ist, kann sie den Benutzer mit einer wahren Basisinformation, wie dem Namen der Dateien, in denen solche Wörter gefunden worden sind, versorgen (wie die flüchtige Suchmaschine tut), oder mit genauerer Information versorgen, wie die Position des Satzes, in dem jene Wörter gefunden wurden (wie die Xerox Textdatenbank (TDB) PARC tut). Dieser Vorausschritt reduziert den Umfang an relevanten (Teil von) Dokumenten und vermindert die Zeit, die für den Abgleichprozess mit regulären Ausdrücken erforderlich ist.
- (4) Die gegenwärtige Realisierung einer Ausführungsform des linguistischen Suchsystems nach dieser Erfindung basiert auf den regulären Ausdruckskonventionen von Perl (oder jedem Beigeschmack von awk). Der Fachmann erkennt, dass sie leicht auf reguläre Ausdrucksformalismen übertragen werden könnten, die von den Finite State Transducers verwendet werden, die von Xerox Corp. entwickelt worden (siehe EP-A-583 083). Der Abgleichmechanismus basiert auf den regulären Ausdrücken von Perl anstelle den Finite State Transducers, die von Xerox entwickelt wurden, weil Perl (und awk) dem Benutzer nicht nur mitteilt, welcher Teil des Textes stimmt, sondern auch, wo er im Körper liegt. Diese Information ist speziell nützlich, um die Stellen zu beleuchten, wo eine Übereinstimmung auftrat. Dieses Merkmal hat zwei Vorteile:
- (1) das Blättern durch lange Dokumente zum Auffinden von Stellen, wo Übereinstimmungen auftraten, entfällt (siehe Schritt S6, der unten erläutert wird);
- (2) der gesamte passende Mehrwortausdruck, der sich von jenem, der vom Benutzer eingetippt wurde, wird gezeigt, wenn die durch die Grammatikregeln zulässigen linguistischen Variationen komplex sind.
- Schritt S6 wird ausgeführt, nachdem der reguläre Ausdruck mit der etikettierten Version des Körpers abgeglichen worden ist. Wie oben erwähnt, kann der reguläre Ausdrücke-Mechanismus von Perl (oder awk) dem Benutzer mitteilen, welcher Strang übereinstimmt, aber auch wo dieser Strang im Text liegt. Weil jedoch gemäß dieser Erfindung der Abgleich des regulären Ausdrucks anhand der etikettierten Version des Körpers gemacht wird, ist die Positionsinformation nicht für den ursprünglichen Text geeignet. Wenn es gewünscht wird, die Übereinstimmungen hervorzuheben, muss daher ein Weg angegeben werden, wie man von dem Versatz im etikettierten Text in den wirklichen Versatz im ursprünglichen Text gelangt. Gegenwärtig erfolgt dieses über eine einfache Versatztabelle, die während der Etikettierung des Körpers aufgebaut wird.
- Man erkennt, dass zahlreiche Modifikationen bei der Realisierung der Techniken nach der Erfindung vorgenommen werden können.
- Die linguistische Suche könnte an WEB-Suchmaschinen angewendet werden. Obgleich ihre Abfragesprachen die Tendenz haben, mehr und mehr kompliziert zu werden, liegt eine linguistische Suche noch nicht nahe.
- Der oben erläuterte Prozess nimmt an, dass der zu suchende Körper zunächst eineindeutig gemacht (oder etikettiert) wird. Es ist jedoch anzumerken, dass es möglich wäre, die Techniken nach dieser Erfindung als vorderes Ende beispielsweise der WEB-Suchmaschine zu verwenden. Hier ist es erforderlich, alle möglichen Formen eines Wortes zu erzeugen und nach allen von ihnen mit einer konventionellen Suchmaschine zu suchen (oder wenigstens den Unterstrang, der allen von einem Wort abgeleiteten Formen gemeinsam ist). Die ausgewählten Dokumente müssen dann für die weitere Verarbeitung (Etikettierung) ermittelt werden, bevor die linguistische Suche angewendet werden kann.
Claims (5)
- Verfahren zum Suchen nach Information in einer Textdatenbank, enthaltend: a) Aufnehmen wenigstens einer Benutzereingabe, die einen Ausdruck in natürlicher Sprache (
49 ) einschließlich eines oder mehrerer Wörter bestimmt, gekennzeichnet durch die Schritte: b) Umwandeln des Ausdrucks natürlicher Sprache in eine etikettierte Form (50 ,51 ) des Ausdrucks natürlicher Sprache, wobei die etikettierte Form des Ausdrucks natürlicher Sprache einen oder mehrere Wörter und ein Teilredeetikett enthält, das jedem Wort des Ausdrucks natürlicher Sprache zugeordnet ist; c) Anwenden an der etikettierten Form (51 ) des Ausdrucks natürlicher Sprache einer oder mehrerer Grammatikregeln der Sprache des Ausdrucks natürlicher Sprache (49 ), um einen regulären Ausdruck (52 ) abzuleiten auf der Grundlage des einen oder der mehreren Wörter und des Teilredeetiketts; und (d) Analysieren der etikettierten Form der Textdatenbank, um zu ermitteln, ob eine Übereinstimmung zwischen dem regulären Ausdruck (52 ) und einem Teil der Textdatenbank besteht. - Verfahren nach Anspruch 1, bei dem der Schritt b) weiterhin die folgenden Schritte umfasst: Etikettieren des Ausdrucks natürlicher Sprache, umfassend für jedes Wort in dem Ausdruck natürliche Sprache b1), das Umwandeln dieses Worts in seine Stammform und b2) das Anwenden des Teilredeetiketts an der Stammform jenes Worts, um eine komplexe etikettierte Form (
50 ) zu erzeugen. - Verfahren nach Anspruch 2, bei dem das Teilredeetikett einen Syntaxkategoriemarkierer und einen Morphologikmerkmalmarkierer enthält und der Schritt b) weiterhin b3) der Vereinfachung der komplexen markierten Form (
50 ) durch Entfernen jedes Morphologikmerkmalmarkierers zur Erzeugung einer vereinfachten markierten Form (51 ) enthält. - Verfahren nach Anspruch 1, 2 oder 3, weiterhin enthaltend den Schritt e): Bestimmen des Orts der Übereinstimmung mit dem regulären Ausdruck (
52 ) in der Textdatenbank. - Programmierbares Datenverarbeitungsgerät, enthaltend eine Programmspeichervorrichtung, die mit einer Benutzerschnittstelle wirkungsmäßig verbunden ist, um ein Vertahren zum Suchen auszuführen, wobei das Vertahren enthält: a) Aufnehmen wenigstens einer Benutzereingabe, die ein Ausdruck in natürlicher Sprache ist, der wenigstens ein Wort enthält; gekennzeichnet durch die Schritte: b) Umwandeln des Ausdrucks natürlicher Sprache in eine etikettierte Form des Ausdrucks natürlicher Sprache, wobei die etikettierte Form des Ausdrucks natürlicher Sprache einen oder mehrere Wörter und ein Teilredeetikett enthält, das jedem Wort des Ausdrucks natürlicher Sprache zugeordnet ist; c) Anwenden an der etikettierten Form des Ausdrucks natürlicher Sprache einer oder mehrerer Grammatikregeln der Sprache des Ausdrucks natürlicher Sprache, um einen regulären Ausdruck (
52 ) abzuleiten, auf der Grundlage des einen oder der mehreren Wörter und des Teilredekennzeichens; und (d) Analysieren der etikettierten Form der Textdatenbank, um zu ermitteln, ob eine Übereinstimmung zwischen dem regulären Ausdruck und einem Teil der Textdatenbank besteht.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9713019 | 1997-06-20 | ||
GBGB9713019.9A GB9713019D0 (en) | 1997-06-20 | 1997-06-20 | Linguistic search system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69820343D1 DE69820343D1 (de) | 2004-01-22 |
DE69820343T2 true DE69820343T2 (de) | 2004-06-03 |
Family
ID=10814626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69820343T Expired - Lifetime DE69820343T2 (de) | 1997-06-20 | 1998-06-19 | Linguistisches Suchsystem |
Country Status (5)
Country | Link |
---|---|
US (1) | US6202064B1 (de) |
EP (1) | EP0886226B1 (de) |
JP (1) | JPH1125129A (de) |
DE (1) | DE69820343T2 (de) |
GB (1) | GB9713019D0 (de) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US6912523B2 (en) * | 1998-08-18 | 2005-06-28 | Mitsubishi Denki Kabushiki Kaisha | Object data retrieving device, object data retrieving method, and computer-readable recording medium containing recorder data |
US6405199B1 (en) * | 1998-10-30 | 2002-06-11 | Novell, Inc. | Method and apparatus for semantic token generation based on marked phrases in a content stream |
JP3817378B2 (ja) * | 1998-12-15 | 2006-09-06 | 富士通株式会社 | 情報入力装置 |
US6768997B2 (en) * | 1999-05-24 | 2004-07-27 | International Business Machines Corporation | System and method for creating a search query using movable elements in a graphical user interface |
US20010032112A1 (en) * | 1999-12-30 | 2001-10-18 | Linz Aaron M. | Method and system for improved matching and scheduling |
US6341959B1 (en) * | 2000-03-23 | 2002-01-29 | Inventec Besta Co. Ltd. | Method and system for learning a language |
US20020123994A1 (en) * | 2000-04-26 | 2002-09-05 | Yves Schabes | System for fulfilling an information need using extended matching techniques |
AU2001257446A1 (en) * | 2000-04-28 | 2001-11-12 | Global Information Research And Technologies, Llc | System for answering natural language questions |
SE517496C2 (sv) | 2000-06-22 | 2002-06-11 | Hapax Information Systems Ab | Metod och system för informationsextrahering |
US20020194223A1 (en) * | 2000-10-16 | 2002-12-19 | Text Analysis International, Inc. | Computer programming language, system and method for building text analyzers |
US6983240B2 (en) * | 2000-12-18 | 2006-01-03 | Xerox Corporation | Method and apparatus for generating normalized representations of strings |
US6910004B2 (en) | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
SE0101127D0 (sv) * | 2001-03-30 | 2001-03-30 | Hapax Information Systems Ab | Method of finding answers to questions |
US6697798B2 (en) * | 2001-04-24 | 2004-02-24 | Takahiro Nakamura | Retrieval system of secondary data added documents in database, and program |
US6754650B2 (en) * | 2001-05-08 | 2004-06-22 | International Business Machines Corporation | System and method for regular expression matching using index |
US7526425B2 (en) * | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
US7283951B2 (en) * | 2001-08-14 | 2007-10-16 | Insightful Corporation | Method and system for enhanced data searching |
US7398201B2 (en) * | 2001-08-14 | 2008-07-08 | Evri Inc. | Method and system for enhanced data searching |
US6778995B1 (en) * | 2001-08-31 | 2004-08-17 | Attenex Corporation | System and method for efficiently generating cluster groupings in a multi-dimensional concept space |
US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
US6888548B1 (en) * | 2001-08-31 | 2005-05-03 | Attenex Corporation | System and method for generating a visualized data representation preserving independent variable geometric relationships |
US20030105622A1 (en) * | 2001-12-03 | 2003-06-05 | Netbytel, Inc. | Retrieval of records using phrase chunking |
US7271804B2 (en) * | 2002-02-25 | 2007-09-18 | Attenex Corporation | System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area |
US20030187843A1 (en) * | 2002-04-02 | 2003-10-02 | Seward Robert Y. | Method and system for searching for a list of values matching a user defined search expression |
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
US20050171948A1 (en) * | 2002-12-11 | 2005-08-04 | Knight William C. | System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
US20050273450A1 (en) * | 2004-05-21 | 2005-12-08 | Mcmillen Robert J | Regular expression acceleration engine and processing model |
US7404151B2 (en) | 2005-01-26 | 2008-07-22 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US7356777B2 (en) | 2005-01-26 | 2008-04-08 | Attenex Corporation | System and method for providing a dynamic user interface for a dense three-dimensional scene |
US20060224566A1 (en) * | 2005-03-31 | 2006-10-05 | Flowers John S | Natural language based search engine and methods of use therefor |
US20060224569A1 (en) * | 2005-03-31 | 2006-10-05 | Desanto John A | Natural language based search engine and methods of use therefor |
US7447683B2 (en) * | 2005-03-31 | 2008-11-04 | Jiles, Inc. | Natural language based search engine and methods of use therefor |
US7555475B2 (en) * | 2005-03-31 | 2009-06-30 | Jiles, Inc. | Natural language based search engine for handling pronouns and methods of use therefor |
US8055608B1 (en) | 2005-06-10 | 2011-11-08 | NetBase Solutions, Inc. | Method and apparatus for concept-based classification of natural language discourse |
US7574675B1 (en) * | 2005-06-14 | 2009-08-11 | Adobe Systems Incorporated | Methods and apparatus to display content selections |
EP1949273A1 (de) | 2005-11-16 | 2008-07-30 | Evri Inc. | Erweiterung einer schlüsselwortsuche auf syntaktisch und semantisch annotierte daten |
EP1963995A2 (de) | 2005-12-22 | 2008-09-03 | International Business Machines Corporation | Verfahren und system zum editieren von text mit find-and-replace-funktion zum wirksamen einsetzen von ableitungen der find-and-replace-eingabe |
US20070179940A1 (en) * | 2006-01-27 | 2007-08-02 | Robinson Eric M | System and method for formulating data search queries |
US8060357B2 (en) * | 2006-01-27 | 2011-11-15 | Xerox Corporation | Linguistic user interface |
US7958164B2 (en) * | 2006-02-16 | 2011-06-07 | Microsoft Corporation | Visual design of annotated regular expression |
US7860881B2 (en) * | 2006-03-09 | 2010-12-28 | Microsoft Corporation | Data parsing with annotated patterns |
US7512634B2 (en) * | 2006-06-05 | 2009-03-31 | Tarari, Inc. | Systems and methods for processing regular expressions |
US8954469B2 (en) | 2007-03-14 | 2015-02-10 | Vcvciii Llc | Query templates and labeled search tip system, methods, and techniques |
US7899904B2 (en) * | 2007-04-30 | 2011-03-01 | Lsi Corporation | Hardware processing of regular expressions |
US20090077180A1 (en) * | 2007-09-14 | 2009-03-19 | Flowers John S | Novel systems and methods for transmitting syntactically accurate messages over a network |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
CA2702937C (en) * | 2007-10-17 | 2014-10-07 | Neil S. Roseman | Nlp-based content recommender |
US20090234638A1 (en) * | 2008-03-14 | 2009-09-17 | Microsoft Corporation | Use of a Speech Grammar to Recognize Instant Message Input |
US9047285B1 (en) * | 2008-07-21 | 2015-06-02 | NetBase Solutions, Inc. | Method and apparatus for frame-based search |
US8935152B1 (en) | 2008-07-21 | 2015-01-13 | NetBase Solutions, Inc. | Method and apparatus for frame-based analysis of search results |
US9569770B1 (en) | 2009-01-13 | 2017-02-14 | Amazon Technologies, Inc. | Generating constructed phrases |
US8768852B2 (en) * | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
US20100268600A1 (en) * | 2009-04-16 | 2010-10-21 | Evri Inc. | Enhanced advertisement targeting |
US9298700B1 (en) * | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
US8713018B2 (en) | 2009-07-28 | 2014-04-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion |
US10007712B1 (en) | 2009-08-20 | 2018-06-26 | Amazon Technologies, Inc. | Enforcing user-specified rules |
US8612446B2 (en) | 2009-08-24 | 2013-12-17 | Fti Consulting, Inc. | System and method for generating a reference set for use during document review |
US9201965B1 (en) | 2009-09-30 | 2015-12-01 | Cisco Technology, Inc. | System and method for providing speech recognition using personal vocabulary in a network environment |
US20110099052A1 (en) * | 2009-10-28 | 2011-04-28 | Xerox Corporation | Automatic checking of expectation-fulfillment schemes |
US8645372B2 (en) * | 2009-10-30 | 2014-02-04 | Evri, Inc. | Keyword-based search engine results using enhanced query strategies |
US9710556B2 (en) | 2010-03-01 | 2017-07-18 | Vcvc Iii Llc | Content recommendation based on collections of entities |
US8799658B1 (en) | 2010-03-02 | 2014-08-05 | Amazon Technologies, Inc. | Sharing media items with pass phrases |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US9026529B1 (en) | 2010-04-22 | 2015-05-05 | NetBase Solutions, Inc. | Method and apparatus for determining search result demographics |
US8935274B1 (en) * | 2010-05-12 | 2015-01-13 | Cisco Technology, Inc | System and method for deriving user expertise based on data propagating in a network environment |
US9507880B2 (en) * | 2010-06-30 | 2016-11-29 | Oracle International Corporation | Regular expression optimizer |
JP5573457B2 (ja) * | 2010-07-23 | 2014-08-20 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US8838633B2 (en) | 2010-08-11 | 2014-09-16 | Vcvc Iii Llc | NLP-based sentiment analysis |
US9405848B2 (en) | 2010-09-15 | 2016-08-02 | Vcvc Iii Llc | Recommending mobile device activities |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US9465795B2 (en) | 2010-12-17 | 2016-10-11 | Cisco Technology, Inc. | System and method for providing feeds based on activity in a network environment |
US9116995B2 (en) | 2011-03-30 | 2015-08-25 | Vcvc Iii Llc | Cluster-based identification of news stories |
US8909624B2 (en) | 2011-05-31 | 2014-12-09 | Cisco Technology, Inc. | System and method for evaluating results of a search query in a network environment |
US10643355B1 (en) | 2011-07-05 | 2020-05-05 | NetBase Solutions, Inc. | Graphical representation of frame instances and co-occurrences |
US9390525B1 (en) | 2011-07-05 | 2016-07-12 | NetBase Solutions, Inc. | Graphical representation of frame instances |
US9075799B1 (en) | 2011-10-24 | 2015-07-07 | NetBase Solutions, Inc. | Methods and apparatus for query formulation |
US10872082B1 (en) | 2011-10-24 | 2020-12-22 | NetBase Solutions, Inc. | Methods and apparatuses for clustered storage of information |
US9934218B2 (en) * | 2011-12-05 | 2018-04-03 | Infosys Limited | Systems and methods for extracting attributes from text content |
US8949263B1 (en) | 2012-05-14 | 2015-02-03 | NetBase Solutions, Inc. | Methods and apparatus for sentiment analysis |
US9135243B1 (en) | 2013-03-15 | 2015-09-15 | NetBase Solutions, Inc. | Methods and apparatus for identification and analysis of temporally differing corpora |
US10380203B1 (en) | 2014-05-10 | 2019-08-13 | NetBase Solutions, Inc. | Methods and apparatus for author identification of search results |
US11068546B2 (en) | 2016-06-02 | 2021-07-20 | Nuix North America Inc. | Computer-implemented system and method for analyzing clusters of coded documents |
CN110895961A (zh) * | 2019-10-29 | 2020-03-20 | 泰康保险集团股份有限公司 | 医疗数据中的文本匹配方法及装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
CA1265871A (en) | 1986-11-18 | 1990-02-13 | Yawar Bakht Ali | Domain-independent natural language database interface |
JP2830097B2 (ja) * | 1989-07-06 | 1998-12-02 | 日本電気株式会社 | 文章検索方式 |
US5418716A (en) | 1990-07-26 | 1995-05-23 | Nec Corporation | System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases |
US5559693A (en) * | 1991-06-28 | 1996-09-24 | Digital Equipment Corporation | Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms |
US5442780A (en) | 1991-07-11 | 1995-08-15 | Mitsubishi Denki Kabushiki Kaisha | Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5625554A (en) | 1992-07-20 | 1997-04-29 | Xerox Corporation | Finite-state transduction of related word forms for text indexing and retrieval |
IL107482A (en) | 1992-11-04 | 1998-10-30 | Conquest Software Inc | A method for solving questions in natural language from databases of full texts |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US5995922A (en) * | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US5983221A (en) * | 1998-01-13 | 1999-11-09 | Wordstream, Inc. | Method and apparatus for improved document searching |
-
1997
- 1997-06-20 GB GBGB9713019.9A patent/GB9713019D0/en not_active Ceased
-
1998
- 1998-06-18 US US09/099,909 patent/US6202064B1/en not_active Expired - Lifetime
- 1998-06-19 DE DE69820343T patent/DE69820343T2/de not_active Expired - Lifetime
- 1998-06-19 JP JP10172467A patent/JPH1125129A/ja not_active Abandoned
- 1998-06-19 EP EP98304842A patent/EP0886226B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
GB9713019D0 (en) | 1997-08-27 |
US6202064B1 (en) | 2001-03-13 |
DE69820343D1 (de) | 2004-01-22 |
JPH1125129A (ja) | 1999-01-29 |
EP0886226B1 (de) | 2003-12-10 |
EP0886226A1 (de) | 1998-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69820343T2 (de) | Linguistisches Suchsystem | |
DE60029845T2 (de) | System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung | |
DE69725883T2 (de) | Parser für natürliche sprache mit wörterbuch-basierten teilwahrscheinlichkeiten | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE60029732T2 (de) | Phrasenübersetzungsverfahren und -system | |
DE69925831T2 (de) | Maschinenunterstützte übersetzungswerkzeuge | |
DE60304331T2 (de) | Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE69432575T2 (de) | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung | |
EP1779271B1 (de) | Sprach- und textanalysevorrichtung und entsprechendes verfahren | |
DE69911842T2 (de) | Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium | |
DE3032664C2 (de) | Elektronisches Sprachübersetzungsgerät. | |
DE69930690T2 (de) | Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium | |
EP1157500B1 (de) | Vorrichtung und verfahren zum verbergen von informationen und vorrichtung und verfahren zum extrahieren von informationen | |
DE19952769B4 (de) | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache | |
Yngve et al. | Mechanical translation | |
DE202005022113U1 (de) | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet | |
DE69934195T2 (de) | Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind | |
DE60101668T2 (de) | Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument | |
EP1941404A2 (de) | Automatisches, computerbasiertes ähnlichkeitsberechnungssystem zur quantifizierung der ähnlichkeit von textausdrücken | |
DE69933123T2 (de) | Zugriff auf eine semi-strukturierte datenbank | |
DE10029644A1 (de) | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine | |
Fragos et al. | Word sense disambiguation using wordnet relations | |
Vallez et al. | Natural language processing in textual information retrieval and related topics | |
Junker et al. | An experimental evaluation of OCR text representations for learning document classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |