WO2011039322A1 - Method for creating and using ontology, and data processing system - Google Patents

Method for creating and using ontology, and data processing system Download PDF

Info

Publication number
WO2011039322A1
WO2011039322A1 PCT/EP2010/064590 EP2010064590W WO2011039322A1 WO 2011039322 A1 WO2011039322 A1 WO 2011039322A1 EP 2010064590 W EP2010064590 W EP 2010064590W WO 2011039322 A1 WO2011039322 A1 WO 2011039322A1
Authority
WO
WIPO (PCT)
Prior art keywords
ontology
client
term
server
text
Prior art date
Application number
PCT/EP2010/064590
Other languages
German (de)
French (fr)
Inventor
Michael Schroeder
Andreas Doms
Heiko Dietze
Thomas WÄCHTER
Original Assignee
Technische Universität Dresden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universität Dresden filed Critical Technische Universität Dresden
Publication of WO2011039322A1 publication Critical patent/WO2011039322A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Definitions

  • the invention relates to a method for partially
  • Keywording also indexing of texts.
  • the invention equally relates to a
  • Storage medium on which a program is stored, which, executed with a data processing system, enables the implementation of the described methods. It is well known knowledge to one or more
  • Ontologies are formal specifications of term systems, i. a standardizing terminology used in the texts. With their help, as well as with formally defined relations between these concepts, a knowledge area is described and structured, so that the information is machine-processable for the purpose of digital and formalized exchange of knowledge between application programs and services.
  • the terms deposited in an ontology are subject to a structure with classes, relations, also hierarchical, with
  • the invention is therefore the object of a
  • a method for generating an ontology and a data processing system arranged therefor are described, as well as a machine-readable storage unit with a
  • Network access is optimally linked to the complex knowledge of a domain expert. To achieve such interactivity between
  • the server environment allows the use of dedicated caches, caching buffer storage, and indices for individual processing steps.
  • access to the global frequencies of terms is possible via the server.
  • an index exists which contains the values for all words of the global reference text corpus.
  • caching is used to the
  • the controlled software environment of a server is particularly necessary for the direct use and coupling of different programs
  • Noun phrase tagging is known as tagging, which is applied to terms with a specific composition of words, to terms with a noun or pronoun as a constituent and other defining and modifying additions, such as articles, adjectives or adverbs.
  • Web services are used.
  • the client web service an interface of the client via which the data entered from the client to the application programs of the ontology module for processing, in this case for implementation in the term collection determined from texts, already during the process for term generation, the inputs of the operator for the Ranking of term suggestions considered.
  • term suggestions become relevant in the first place, which were statistically disregarded with the known methods because of their low frequency.
  • Structures of this term should be represented by a single term proposal, can be determined manually by the algorithms used both of the ontology module as well as by the operator. Such intervention is also possible through the interactivity throughout the procedure.
  • the grouping with the shortened suggestion list is also the basis for a more compact presentation and
  • Relations that are regularly formulated as a definition may be e.g. Search algorithms for patterns and text modules are used.
  • interactivity of the method can also be used for these method steps, e.g. when, during the generation of relations, the operator recognizes that they must be adapted to specific term variants.
  • Domain knowledge of an expert on the client allows in addition to the use of templates documents from the network via a corresponding web service at least one text corpora with search functionality and the input of the template documents on the client, so that alternatively templates documents also via the client web service the ontology module for further processing and supplementing the documents from databases in the network as described above.
  • requests between the client and the server are transmitted as asynchronous requests and alternatively also processed using the so-called lazy evaluation.
  • the interactivity between client and server can be further improved by making such requests
  • resulting tasks can be performed in the background.
  • Asynchronous requests are understood to be requests to the server whose signals are outside the clock rate
  • the lazy evaluation known from software technology, calculates an expression only as far as is strictly necessary for the specific requirements. Further calculations are aborted to computational and
  • the search queries are based on patterns that were previously determined by phrase recognition.
  • Probability distribution is determined aborted if the probability of occurrence is a limit
  • the mentioned limit value is that value of
  • Occurrence probability no longer changes to the extent that the change is outside a predefined accuracy of the calculation, i. a predefined error interval lies. Because if the change is smaller than this interval, it is no longer possible to separate between one and the other
  • the accuracy is based on the number of terms in the global text corpus. It has to be chosen in such a way that even with small term numbers a ranking is possible in comparison to the other terms or term suggestions.
  • Probability distribution is a hypergeometric distribution. The full calculation of the
  • Occurrence probabilities based on the distribution are too computationally intensive.
  • the implemented approximation makes use of the monotonic properties of the distribution. This means that the iterative calculation can be aborted prematurely if the other components do not or only slightly change the result. For this case, an upper limit is determined and defined.
  • Composite word probabilities also require optimizing the accuracy of floating point numbers.
  • the term frequencies are also used for its composite words.
  • the messages between the server and the client are strictly adhered to by encoding and escaping
  • the ontology According to a first use of the ontology, a given text or several of them are then analyzed at which specific places in the text terms of the ontology are called, wherein the consideration of variants of terms for the creation of the ontology makes it possible to specify even those references in which the terms used in the text do not exactly match those of the ontology.
  • the concepts of the ontology in accordance with a further embodiment of the method, are complementarily also the relations by analogy with interactive term generation
  • Sequence alignments in the text determines sequences of words or phrases that render the templates of such
  • sequence alignment can also be done automatically or semi-automatically with the involvement of an expert. Texts that have been tagged with this method can be searched semantically, not only using different spellings but also
  • Synonyms and more specific, more general or otherwise related terms can be integrated into a search query.
  • Keyword Search generates candidate texts. Text phrases in the candidate texts which closely relate to the requested terms from the input are grouped together. The groups are represented by appropriate data and automated statistical analyzes rank the groups according to the likelihood of a good response to the group
  • the user can view the source texts and search groups of answers.
  • the answers are not grouped lexically, but content by means of the background knowledge stored in the ontology. If helpful, a suitable ontology can help you beforehand
  • the proposed ontology-based question-and-answer system is also able to accommodate large amounts of text and also use multiple ontologies.
  • One or more ontologies generated as described above are for each due to the knowledge stored therein
  • each term includes, according to a further embodiment of the invention also for automated
  • Trend analysis usable For this purpose, a trend analysis of the concept is automatically performed for one or more selected concepts and their associated variants of terms by means of Bibliometric and / or citation analysis. Both methods of analysis are known for the evaluation of scientific achievements and in the application described here represent a quantitative evaluation of the concept or concepts on the basis of the available publications on the basis of statistical investigations. Where appropriate, several concepts can be combined with each other
  • FIG. 1 shows a data processing system for carrying out the method according to the invention
  • FIGS. 2A, 2B are flowcharts of various components
  • FIGS. 3A-3C are flowcharts of uses of one of
  • Fig. 2A or Fig. 2B generated ontology.
  • a data processing system is shown, which is configured to create an ontology.
  • the data processing system comprises a server SRV connected via a network NW, e.g. the World Wide Web or a LAN communicates with a Client CL.
  • NW e.g. the World Wide Web or a LAN communicates with a Client CL.
  • NW e.g. the World Wide Web or a LAN communicates with a Client CL.
  • NW e.g. the World Wide Web or a LAN
  • connectionless running processes and the directions of data exchange during the process are also connectionless running processes and the directions of data exchange during the process.
  • the communication is bidirectional using web services SWS, CWS, of which both the server SRV and the server
  • Client CL has one.
  • the function of the server web service SWS and also the client web service CWS go over the
  • the web services support the exchange of data such that application programs, here e.g. those of
  • Ontology module can interact directly to edit the data and this on different platforms of the communicating machines.
  • the web services CWS and SWS also implement the encoding and escaping of the transmitted data and texts.
  • the server SRV comprises a central processing unit ZRE, which in turn comprises, among other things, an ontology module OM.
  • the ontology module OM is with various functional
  • Components equipped for generating a Ontology are essential. This includes in particular a component for term generation TG and a for
  • Text extraction TE for phrase recognition PE and for phrase recognition PE
  • Embodiment uses term frequency component TF back to a buffer memory CA, wherein in alternative
  • buffer memory CA may be used for temporarily storing intermediate results and their quick access.
  • Provision of data obtained and stored from text analysis and / or statistical analysis is under the control of the ontology module OM.
  • the ontology module OM also includes components of the text search TS, which are configured so that different data formats are searchable, such. Web documents in HTML or XML format,
  • the server SRV also comprises a memory unit SM for storing documents, e.g. Template documents VD obtained from the network NW or transmitted by the client CL and data of the ontology.
  • documents e.g. Template documents VD obtained from the network NW or transmitted by the client CL and data of the ontology.
  • server web service SWS over the network also on
  • Databases eDB are stored.
  • a computer-readable storage medium MM After the program stored thereon has been loaded into its memory units CM, SM, the described method for generating an ontology and, optionally, the same
  • the client CL also includes CWS in addition to the client web service
  • Embodiment A graphical user interface GUI, via which an operator who interacts with the data processing system to create an ontology, receives data such as e.g.
  • Relational proposals of the ontology module OM results of statistical calculations or variant comparisons, can display and output generated relations R.
  • the client CL includes a
  • FIG. 2A is a flow chart for the essential
  • the method according to FIG. 2A is to be based on template documents VD, which are both researched from one or more global text corpora of the WWW for the relevant subject area and also transmitted by the operator from the client CL to the server SRV.
  • VD template documents
  • Server SRV takes place via the web services CWS, SWS of the client CL and the server SRV via the network NW, in
  • Embodiment WWW The request data A are processed by the ontology module OM in the usual way and as search queries
  • the template documents VD are structured lexically and syntactically by the ontology module OM by means of text analysis methods.
  • the keywords thus determined are statistically evaluated in order to generate term suggestions TV from them and output to the client CL and its output means, in the exemplary embodiment, a graphical user interface GUI.
  • the output term suggestions TV are
  • Text modules are to be included in the ontology.
  • the supplemented term suggestions TV are transmitted to the ontology module OM and included in the local collection of term suggestions TV, so that their
  • Occurrence probability interactively changes.
  • the definitions generated are also subjected to a ranking and, according to their significance, relations R are proposed. Interacting with the client CL and the operator or automated, relations R are generated from these proposals. Again, the above is the interactivity between client CL and server SRV for relevance and
  • FIG. 2B shows a portion of the method according to FIG. 2A in an alternative embodiment.
  • the generation of an ontology can in this way take place in a much shorter time and be more complete, since due to the interactivity, all possible keywords and definitions are considered and none can be overlooked.
  • FIG. 2B shows a portion of the method according to FIG. 2A in an alternative embodiment. Here is the
  • Occurrence probability of the terms T determined by means of a monotone probability distribution. Due to the monotonic properties of the distribution, it is possible, as described above, the probability of occurrence in the interval from 1 to the frequency considered
  • FIG. 3A One embodiment of the specified method (FIG. 3A) is configured to use an existing ontology that has been very extensively constructed as described above, to be used with a given text that is not structurally subject to any particular requirements, referred to herein as free text Concepts too
  • FIG. 3A shows the continuation of the invention described here

Abstract

The invention relates to a method for the partially automated creation of ontology from existing texts and for using ontology for keyword-indexing texts. The invention further relates to a data processing system and to a storage medium comprising a program for carrying out the method. A method is described, wherein by means of a client and a server with a data processing system comprising an ontology module terms T are generated from a plurality of source documents VD and grouped into term suggestions TV, which are supplemented by an operator with variants after transmission from the server SRV to the client CL over the web services SWS, CWS. The ontology module OM carries out a ranking for the supplemented term suggestions TV, on the basis of which ranking a tagging process, the extraction of concepts, and the generation of definitions and relations R for completing the ontology are carried out.

Description

Verfahren zur Erzeugung und Verwendung einer Ontologie,  Method for generating and using an ontology,
DatenverarbeitungsSystem Die Erfindung betrifft ein Verfahren zur teilweise  Data processing system The invention relates to a method for partially
automatisierten Erzeugung einer Ontologie aus vorliegenden Texten und zur Verwendung einer Ontologie für eine automated generation of an ontology from existing texts and the use of an ontology for a
Verschlagwortung, auch Indexierung von Texten. Keywording, also indexing of texts.
Die Erfindung betrifft gleichermaßen ein The invention equally relates to a
Datenverarbeitungssystem welches konfiguriert ist zur Data processing system which is configured for
Ausführung des Verfahrens sowie ein maschinenlesbares Execution of the method and a machine-readable
Speichermedium, auf dem ein Programm gespeichert ist, welches, ausgeführt mit einem Datenverarbeitungssystem, die Durchführung der beschriebenen Verfahren ermöglicht. Es ist allgemein bekannt Wissen zu einem oder mehreren Storage medium on which a program is stored, which, executed with a data processing system, enables the implementation of the described methods. It is well known knowledge to one or more
Sachgebieten, welches als Text vorliegt, mittels Ontologien abzubilden. Ontologien sind formale Spezifikationen von BegriffSystemen, d.h. einer standardisierenden Terminologie, die in den Texten verwendet wird. Mit deren Hilfe sowie mit formal festgelegten Relationen zwischen diesen Begriffen wird ein Wissensbereich beschrieben und strukturiert, so dass die Informationen maschinen-prozessierbar sind zum Zweck des digitalen und formalisierten Austausche von Wissen zwischen Anwendungsprogrammen und Diensten. Die in einer Ontologie hinterlegten Begriffe unterliegen einer Struktur mit Klassen, Relationen, auch hierarchischen, mit  Subjects, which exists as text, to map by means of ontologies. Ontologies are formal specifications of term systems, i. a standardizing terminology used in the texts. With their help, as well as with formally defined relations between these concepts, a knowledge area is described and structured, so that the information is machine-processable for the purpose of digital and formalized exchange of knowledge between application programs and services. The terms deposited in an ontology are subject to a structure with classes, relations, also hierarchical, with
Attributen, Definitionen und Funktionen. Attributes, definitions and functions.
Anstelle der Bezeichnung „Begriff" für die Grundelemente einer Ontologie wird als Fachterminus meist das Instead of the term "term" for the basic elements of an ontology as a specialist term is usually the
englischsprachige Wort „Concept" verwendet. Da nicht nur einzelne Worte, sondern auch Wortgruppen oder Satzsequenzen darunter zu rechnen sind, soll hier in Abgrenzung zur allgemeinen deutschsprachigen und enger gefassten Verwendung von „Begriff" der Ausdruck „Concept" in Verbindung mit seiner entsprechenden englischen Morphologie verwendet werden. Allgemein sind Concepts die Summe aller Since not only single words, but also word groups or sentence sequences are to be counted among them, here in the demarcation to the general German-language and narrowly used use of "term" the term "concept" in connection with its corresponding English morphology should be used In general, concepts are the sum of all
lexikalischen Entsprechungen und Definitionen eines Objekts der realen Welt in Form von Termen (regelmäßig Wörter oder Symbole) oder einer Gruppe von Termen, die mit einer lexical equivalents and definitions of an object of the real world in terms of terms (regular words or words) Symbols) or a group of terms with a
Bedeutung hinterlegt sind. Concepts sind somit losgelöst von den ursprünglichen, das Objekt bezeichnenden Wörtern und können selbst wieder ein Concept umfassen. Ontologien werden üblicherweise entwickelt, indem ein Meaning are deposited. Concepts are thus detached from the original, the object indicative words and can even include a concept again. Ontologies are usually developed by a
Experte des jeweiligen Wissensbereichs versucht, sein Wissen zu formalisieren . Zu diesem Zweck wurden Systeme entwickelt, die automatisiert aus großen Textmengen, für die regelmäßig Textkorpora des World Wide Web (WWW) als Datenquellen dient, die entsprechend einer statistischen Auswertung wichtigsten, den Text am besten beschreibenden Schlagwörter finden. Für die Verwendung der unterschiedlichsten Datenformate, deren Erkennung und syntaktischen und statistischen Verarbeitung erfordern diese Systeme eine umfassende Softwareumgebung, wie sie von speziell eingerichteten Servern bereitgestellt wird .  Expert of the respective knowledge area tries to formalize his knowledge. For this purpose, systems have been developed that are automated from large volumes of text, which are regularly text corpora of the World Wide Web (WWW) as data sources that find according to a statistical analysis most important, the text best descriptive keywords. For the use of a wide variety of data formats, their recognition and syntactic and statistical processing, these systems require a comprehensive software environment, as provided by dedicated servers.
So werden nach einer automatisierten Ermittlung von Concepts durch Erkennung und Gruppierung von Termen, Anpassung semantisch vergleichbarer Terme und weiterer Schritte, z.B. dem so genannten Tagging, bei dem den ermittelten Termen Deskriptoren, d.h. Schlag- oder Schlüsselwörter oder Tags zur Erschließung des Sachverhalts des Textes zugeordnet werden, manuell Relationen zwischen den Concepts Thus, after an automated determination of concepts by means of recognition and grouping of terms, adaptation of semantically comparable terms and further steps, e.g. so-called tagging, in which the determined terms are descriptors, i. Phrases or keywords or tags associated with tapping into the subject matter of the text, manually relations between the concepts
hergestellt . Für die Verlinkung der Concepts stehen dem Bearbeiter zwar Werkzeuge zur Verfügung, wie graphische Oberflächen und spezielle Ontologie-Sprachen, jedoch ist insbesondere die Art und Umfang der Relationen der Concepts maßgeblich für Qualität der Ontologie und der manuelle Aufwand dafür sehr groß. produced . For the linking of Concepts tools are available to the editor, such as graphical interfaces and special ontology languages, but in particular the nature and extent of the relations of Concepts is crucial for quality of ontology and the manual effort for it very large.
Zudem steigt der Aufwand zur Erstellung und Pflege von In addition, the effort to create and maintain
Ontologien unverhältnismäßig mit der Größe des zu Ontologies disproportionate with the size of the
beschreibenden Sachgebiets. Insbesondere in der Medizin und Biologie werden geeignete Ontologien aus sehr großen descriptive subject area. Especially in medicine and biology, suitable ontologies will be very large
Textbeständen benötigt. Darüber wurden durch diese Systeme bisher keine unterschiedlichen Schreibweisen, Abkürzungen, Definitionen und Relationen berücksichtig und deshalb auch nicht dem Experten zur Berücksichtigung für die Entwicklung einer Ontologie vorgeschlagen. Auch Textbausteine für die in der Ontologie hinterlegten Definitionen der Begriffe sind nicht auffindbar. Text stocks needed. In addition, these systems have so far no different spellings, abbreviations, definitions and relations considered and therefore not the expert to account for the development an ontology suggested. Even text modules for the definitions of terms stored in ontology can not be found.
Für die Anwendung einer erzeugten Ontologie auf Texte zu deren Verschlagwortung, bereitet es zudem häufig Probleme, dass die Textautoren die Begriffe nicht exakt wie in der Ontologie definiert verwenden, so dass diese statistisch keine Berücksichtigung finden oder eine manuelle Erstellung von Algorithmen notwendig wäre, um auch diese in die For the application of a generated ontology to texts for their keywording, it also often causes problems that the text authors do not use the terms exactly as defined in the ontology, so that they are statistically disregarded or a manual creation of algorithms would be necessary these in the
Indizierung einbeziehen zu können. Insbesondere müssen Include indexing. In particular, need
Regeln manuell erstellt werden, um mit einer neuen Ontologie zu arbeiten.  Rules are created manually to work with a new ontology.
Der Erfindung liegt folglich die Aufgabe zugrunde, ein The invention is therefore the object of a
Verfahren zur Erzeugung von Ontologien und ein dafür Method of generating ontologies and one for it
geeignetes Datenverarbeitungssystem anzugeben, mit dem die beschriebenen Nachteile überwunden werden können. specify appropriate data processing system with which the disadvantages described can be overcome.
Es wird ein Verfahren zur Erzeugung einer Ontologie und ein dazu eingerichtetes Datenverarbeitungssystem beschrieben, sowie eine maschinenlesbare Speichereinheit mit einer A method for generating an ontology and a data processing system arranged therefor are described, as well as a machine-readable storage unit with a
Software zur Ausführung des Verfahrens auf einem Computer angegeben, mit dem eine Ontologie aus vorliegenden Texten halbautomatisch zu erzeugen. Software for executing the method indicated on a computer, with which to generate an ontology from existing texts semiautomatically.
Die Anforderungen für das System zur Strukturierung von Texten aus den unterschiedlichsten Datenquellen und zur Generierung von Termen, die auch lexikalische, syntaktische und fremdsprachliche Varianten umfassen, werden durch The requirements for the system for structuring texts from the most diverse data sources and for generating terms, which also include lexical, syntactic and foreign language variants, are implemented by
Interaktivität zwischen einem hoch konfigurierten Interactivity between a highly configured
Datenverarbeitungssystem und einem Domainexperten erfüllt. Die Möglichkeit, dass der Domainexperte bereits bei der Termgenerierung ohne Zeitverzögerung die Vorschläge aus den Daten- und Textquellen bearbeiten kann, führt dazu, dass das rechentechnische Potenzial eines Servers und dessen Data processing system and a domain expert. The possibility that the domain expert can process the suggestions from the data and text sources already during the term generation without a time delay leads to the fact that the computational potential of a server and its
Netzzugang mit dem komplexen Wissen eines Domainexperten optimal verknüpft wird. Zum Erreichen einer solchen Interaktivität zwischen Network access is optimally linked to the complex knowledge of a domain expert. To achieve such interactivity between
Domainexperten und dem Datenverarbeitungssystem werden verschiedene Techniken angewendet. Dazu zählt zum einen ein Client-Server-Konzept. Durch das Teilen der Anwendung in einen Operator-Client-Teil und einen serverbasierten Teil, wird es möglich die Ausführung der rechenintensiven Domain experts and the data processing system use various techniques. This includes on the one hand Client-server concept. By dividing the application into an operator client part and a server-based part, it becomes possible to execute the computationally intensive part
Berechnungsschritten auf angemessener Computer-Hardware in einer kontrollierten Softwareumgebung auszuführen. Perform computing steps on appropriate computer hardware in a controlled software environment.
Die Serverumgebung ermöglicht die Nutzung von dedizierten Caches, Puffer-Speicher zur Zwischenspeicherung, und von Indizes für einzelne Schritte der Verarbeitung. Zudem ist über den Server auch der Zugriff für die globalen Frequenzen von Termen möglich. Hierzu existiert ein Index der die Werte für alle Wörter des globalen Referenztextkorpus beinhaltet. Zudem wird das so genannte Caching verwendet, um die The server environment allows the use of dedicated caches, caching buffer storage, and indices for individual processing steps. In addition, access to the global frequencies of terms is possible via the server. For this an index exists which contains the values for all words of the global reference text corpus. In addition, the so-called caching is used to the
Suchanfrage und somit die Antwortzeit zu minimieren. Query and thus to minimize the response time.
Die kontrollierte Softwareumgebung eines Servers ist insbesondere auch notwendig für die direkte Nutzung und Koppelung von verschiedenen Programmen, The controlled software environment of a server is particularly necessary for the direct use and coupling of different programs,
Programmierschnittstellen und Programmiersprachen ohne zusätzliche Indirektionen oder Middleware. Dies wird genutzt um das Noun-Phrase-Tagging, einem grundlegenden und sehr rechenintensiven Schritt, ohne oder minimalen Beschränkungen hinsichtlich der Datenquellen auszuführen und dessen verschiedene und heterogene Teilschritte effizient zu verbinden. Als Noun-Phrase-Tagging ist ein Tagging bekannt, welches auf Terme mit einer bestimmten Zusammensetzung von Wörtern angewendet wird, und zwar auf Terme mit einem Nomen oder Pronomen als prägenden Bestandteil und weiteren definierenden und modifizierenden Ergänzungen, wie Artikel, Adjektive oder Adverbien.  Programming interfaces and programming languages without additional indirections or middleware. This is used to perform noun phrase tagging, a basic and very computationally intensive step, with no or minimal constraints on data sources, and efficiently linking its various and heterogeneous substeps. Noun phrase tagging is known as tagging, which is applied to terms with a specific composition of words, to terms with a noun or pronoun as a constituent and other defining and modifying additions, such as articles, adjectives or adverbs.
Wichtiger Bestandteil der Client-Server-Kommunikation ist der zuverlässige Austausch von Nachrichten. Dabei kommen Standardtechniken zum Aufruf und Kommunikation für An important part of client-server communication is the reliable exchange of messages. Standard techniques are used for calling and communication for
Webservices zum Einsatz. Über den Client-Webservice, einer Schnittstelle des Clients, über die die eingegebenen Daten vom Client den Anwendungsprogrammen des Ontologiemoduls zur Verarbeitung, hier zur Implementierung in die aus Texten ermittelten Termsammlung, werden bereits im Verlauf des Prozesses zur Termgenerierung die Eingaben des Operators laufend für das Ranking der Termvorschläge berücksichtigt. Somit werden Termvorschläge überhaupt erst relevant, die mit den bekannten Verfahren wegen ihrer geringen Frequenz statistisch unberücksichtigt blieben. Web services are used. The client web service, an interface of the client via which the data entered from the client to the application programs of the ontology module for processing, in this case for implementation in the term collection determined from texts, already during the process for term generation, the inputs of the operator for the Ranking of term suggestions considered. Thus, term suggestions become relevant in the first place, which were statistically disregarded with the known methods because of their low frequency.
Auf der Grundlage einer solchen interaktiven Termgenerierung erfolgt daraufhin die Fertigstellung der Ontologie nach den bekannten Verfahren, das insbesondere das Tagging der On the basis of such an interactive term generation, the completion of the ontology according to the known methods, which in particular the tagging of the
Termvorschläge, die Extraktion von den Termvorschlägen zugeordneten Concepts und Generierung von Relationen zwischen den Concepts umfasst. Wichtiger Bestandteil des Verfahrens zur Ontologieerzeugung ist das Ranking der Termvorschläge. Ein Detail zur Term suggestions that include extraction of concepts associated with the term suggestions and generation of relations between the concepts. An important part of the ontology generation process is the ranking of term suggestions. A detail about
Steigerung der Qualität der Termgenerierung ist die Increasing the quality of term generation is the
Gruppierung von mehreren einzelnen syntaktischen Varianten und verschiedenen Varianten von Abkürzungen zu gemeinsamen Termen. Terme mit ähnlichen Phrasen, die sich nur durch lexikalische Varianten oder häufige Wörter (Stop-words) unterscheiden, werden zu einem Vorschlag zusammengefasst . Zusätzlich werden dabei Varianten mit Mustern generiert. Potentiell wichtige Nominalphrasen als Bestandteil von längeren Termen werden ebenfalls als Vorschläge in der entsprechenden Gruppe hinzugefügt. Inwieweit die Grouping of several individual syntactic variants and different variants of abbreviations to common terms. Terms with similar phrases that differ only by lexical variants or frequent words (stop-words) are combined into one suggestion. In addition, variants with patterns are generated. Potentially important noun phrases as part of longer terms are also added as suggestions in the corresponding group. To what extent the
verschiedenen Varianten eines Terms und verschiedene different variants of a term and different
Strukturen dieses Terms durch einen einzigen Termvorschlag repräsentiert werden soll, kann sowohl durch die verwendeten Algorithmen des Ontologiemoduls auch als durch den Operator manuell bestimmt werden. Auch ein solcher Eingriff ist durch die Interaktivität im Verlauf des gesamten Verfahrens möglich . Structures of this term should be represented by a single term proposal, can be determined manually by the algorithms used both of the ontology module as well as by the operator. Such intervention is also possible through the interactivity throughout the procedure.
Für das Ranking wird dann der kumulative Wert der For the ranking then the cumulative value of
Gruppierung, d.h. des Termvorschlags verwendet. Dadurch werden einzelne seltene Varianten aus dem Text zu einem Term mit größerer lokaler Frequenz zusammengefasst , was zu einem höheren Wert in der Auftrittswahrscheinlichkeit führt. Grouping, i. of the term proposal. As a result, individual rare variants from the text are combined into a term with a higher local frequency, which leads to a higher value in the occurrence probability.
Die Gruppierung mit der so verkürzten Vorschlagsliste ist auch Grundlage für eine kompaktere Darstellung und The grouping with the shortened suggestion list is also the basis for a more compact presentation and
schnellere Bearbeitung durch den Operator. faster processing by the operator.
Unter Nutzung der Serverkapazitäten kann für diese Verfahrensschritte anspruchsvolle statistische Konzepte angewendet werden, z.B. die Ermittlung der Inversen Taking advantage of the server capacity can for this Procedural steps demanding statistical concepts are applied, such as the determination of the inverse
Dokumenthäufigkeit (IDF - Inverse Document Frequency) , bei der die Trennfähigkeit der Terme aus dem Kontext und - in Verbindung mit der Termfrequenz (TF) für die einbezogenen Dokumente - die Gewichtung der separierten Terme anhand einer Funktion ermittelt wird. Für die Generierung der Document Frequency (IDF - Inverse Document Frequency), which determines the separability of the terms from the context and - in conjunction with the term frequency (TF) for the documents involved - the weighting of the separated terms by means of a function. For the generation of
Relationen, die regelmäßig als Definition formuliert sind, können z.B. Suchalgorithmen für Muster und Textbausteine eingesetzt werden. Relations that are regularly formulated as a definition may be e.g. Search algorithms for patterns and text modules are used.
Die Interaktivität des Verfahrens kann selbstverständlich auch für diese Verfahrensschritte genutzt werden, z.B. wenn der Operator während der Generierung von Relationen erkennt, dass diese an bestimmte Termvarianten angepasst werden müssen. Of course, the interactivity of the method can also be used for these method steps, e.g. when, during the generation of relations, the operator recognizes that they must be adapted to specific term variants.
Die Ergänzung der Kapazität eines Servers mit dem Complementing the capacity of a server with the
Domainwissen eines Experten über den Client gestattet neben der Verwendung von Vorlagedokumenten aus dem Netz über einen entsprechenden Webservice zumindest eines Textkorpora mit Such-Funktionalität auch die Eingabe der Vorlagedokumente über den Client, so dass alternativ Vorlagedokumente auch über den Client-Webservice dem Ontologiemodul zur weiteren Verarbeitung und Ergänzung der Dokumente aus Datenbanken im Netz wie oben beschrieben nutzbar sind. Zur Optimierung der Rechenleistung in Verbindung mit den manuellen Eingaben werden entsprechend einer Ausgestaltung des Verfahrens Anfragen zwischen Client und Server als asynchrone Anfragen übermittelt und alternativ auch unter Verwendung der so genannten Lazy-Evaluation bearbeitet. Damit kann die Interaktivität zwischen Client und Server weiter verbessert werden, indem aus solchen Anfragen Domain knowledge of an expert on the client allows in addition to the use of templates documents from the network via a corresponding web service at least one text corpora with search functionality and the input of the template documents on the client, so that alternatively templates documents also via the client web service the ontology module for further processing and supplementing the documents from databases in the network as described above. In order to optimize the computing power in connection with the manual inputs, according to an embodiment of the method, requests between the client and the server are transmitted as asynchronous requests and alternatively also processed using the so-called lazy evaluation. Thus, the interactivity between client and server can be further improved by making such requests
resultierende Aufgaben im Hintergrund ausgeführt werden können . resulting tasks can be performed in the background.
Als asynchrone Anfragen werden solche Anfragen an den Server verstanden, deren Signale außerhalb der Taktung zur Asynchronous requests are understood to be requests to the server whose signals are outside the clock rate
Steuerung der Kommunikation zwischen Komponenten des Control of communication between components of the
Datenverarbeitungssystems übertragen werden und Zeit- oder Datenslots nutzen. Data processing system and time or Use data slots.
Die Lazy-Evaluation, die aus der Softwaretechnologie bekannt ist, berechnet einen Ausdruck nur so weit, wie es für die speziellen Anforderungen unbedingt notwendig ist. Weitere Berechnungen werden abgebrochen, um Rechenzeit- und The lazy evaluation, known from software technology, calculates an expression only as far as is strictly necessary for the specific requirements. Further calculations are aborted to computational and
Kapazität einzusparen. To save capacity.
Die Verwendung asynchroner Anfragen ermöglicht es Using asynchronous requests allows it
insbesondere in Kombination mit dem Konzept der Lazy- Evaluation infolge der Optimierung der benötigten especially in combination with the concept of lazy evaluation as a result of optimizing the required
Rechnerleistung frühzeitig insbesondere im laufenden Computer performance early, especially in the current
Termgenierungsprozess erste Ergebnisse von Nutzer Termination process first results from users
einzubeziehen . Dies wird verwendet, um z. B. die Vorschläge für die Definitionen von Termen zu bearbeiten, die zuvor mittels Phrasenerkennung aus den Vorlagedokumenten involve. This is used to For example, the suggestions for the definitions of terms to be edited, previously using phrase recognition from the template documents
extrahiert wurden. Um aus diesen Definitionsvorschlagen Definitionen zu generieren, werden parallel vom Server mehrere z.B. 20-40 musterbasierte Suchanfragen an were extracted. In order to generate definitions from these definition proposals, a plurality of e.g. 20-40 pattern based queries on
verschiedenste Webservices von Textkorpora mit Such- Funktionalität gestellt. Die Latenzen der einzelnen Anfragen und Services werden durch das asynchrone Ausfüllen der Various web services provided by Textkorpora with search functionality. The latencies of each request and service are determined by the asynchronous completion of the
Definitionsvorschläge maskiert. Den Suchanfragen werden dabei solche Muster zugrunde gelegt, die die zuvor durch die Phrasenerkennung ermittelt wurden. Masked definition proposals. The search queries are based on patterns that were previously determined by phrase recognition.
In einer weiteren Ausgestaltung des Verfahrens werden während der Bearbeitung der Anfragen des Clients an denIn a further embodiment of the method during the processing of the client's requests to the
Server durch das Ontologiemodul algorithmische Optimierungen zur Minimierung der zur Bearbeitung benötigten Rechenzeit durchgeführt. Dabei wird die Berechnung der Server through the ontology module algorithmic optimizations to minimize the processing time required for processing performed. The calculation of the
Auftrittswahrscheinlichkeit eines Terms, die zur Generierung und Evaluation der Termvorschläge benötigt und entsprechend der Verfahrensausgestaltung aus einer monotonen  Probability of occurrence of a term needed for the generation and evaluation of the term proposals and according to the process design of a monotonous
Wahrscheinlichkeitsverteilung ermittelt wird, abgebrochen, wenn die Auftrittswahrscheinlichkeit einen Grenzwert Probability distribution is determined aborted if the probability of occurrence is a limit
erreicht. Dies beinhaltet die Berechnung der reached. This includes the calculation of the
Auftrittswahrscheinlichkeiten durch Abschätzen im Intervall. Appearance probabilities by estimating in the interval.
Der genannte Grenzwert ist jener Wert der The mentioned limit value is that value of
Auftrittswahrscheinlichkeit eines Terms, ab dem sich bei Fortsetzung der Berechnung anhand der Wahrscheinlichkeitsverteilung dessen Probability of occurrence of a term from which the calculation continues on the basis of the Probability distribution of this
Auftrittswahrscheinlichkeit nicht mehr in dem Maße ändert, dass die Änderung außerhalb einer vordefinierten Genauigkeit der Berechnung, d.h. eines vordefinierten Fehlerintervalls liegt. Denn ist die Änderung kleiner als dieses Intervall, ist es nicht mehr möglich zu trennen zwischen einer  Occurrence probability no longer changes to the extent that the change is outside a predefined accuracy of the calculation, i. a predefined error interval lies. Because if the change is smaller than this interval, it is no longer possible to separate between one and the other
tatsächlichen Änderung und dem Vorliegen eines Fehlers. Im Ergebnis hat die Berücksichtigung der weiteren Verteilung ab dem Grenzwert keinen Einfluss mehr auf das Ranking der actual change and the presence of an error. As a result, the consideration of the further distribution from the limit has no influence on the ranking of the
Terme. Terme.
Der Genauigkeit wird neben der Berechnungsmethodik die im globalen Textkorpus aufgefundene Anzahl des betreffenden Terms zugrunde gelegt. Sie muss so gewählt werden, dass auch bei kleinen Termzahlen noch ein Ranking im Vergleich zu den anderen Termen bzw. Termvorschlägen möglich ist. In addition to the calculation methodology, the accuracy is based on the number of terms in the global text corpus. It has to be chosen in such a way that even with small term numbers a ranking is possible in comparison to the other terms or term suggestions.
Die regelmäßig zu Grunde liegende The regularly underlying
Wahrscheinlichkeitsverteilung ist eine hypergeometrische Verteilung. Die vollständige Berechnung der  Probability distribution is a hypergeometric distribution. The full calculation of the
Auftrittswahrscheinlichkeiten basierend auf der Verteilung ist zu rechenintensiv. Die implementierte Approximation macht sich die Monotonie-Eigenschaften der Verteilung zu nutze. Damit kann die iterative Berechnung vorzeitig abgebrochen werden, wenn sich die weiteren Bestandteile das Ergebnis nicht oder nur minimal verändern. Für diesen Fall wird ein oberer Grenzwert ermittelt und definiert.  Occurrence probabilities based on the distribution are too computationally intensive. The implemented approximation makes use of the monotonic properties of the distribution. This means that the iterative calculation can be aborted prematurely if the other components do not or only slightly change the result. For this case, an upper limit is determined and defined.
Durch die Eigenschaft, dass die Wahrscheinlichkeiten sehr geringe Werte annehmen können (deutlich kleiner als 1CT10) ist es notwendig die Genauigkeit von Fließkommazahlen zu berücksichtigen. Wenn die Werte zu klein sind, wird nur noch der Exponent der Verteilung verwendet, um ein Runden auf Null zu verhindern. Für die Berechnung der Due to the property that the probabilities can assume very low values (significantly smaller than 1CT 10 ) it is necessary to consider the accuracy of floating-point numbers. If the values are too small, only the exponent of the distribution is used to prevent rounding to zero. For the calculation of
Wahrscheinlichkeiten für zusammengesetzte Wörter ist die Optimierung der Genauigkeit bezüglich der Fließkommazahlen ebenfalls notwendig. Ergänzend werden zur Ermittlung der Relevanz eines Terms, d.h. dessen Auftretens im Textkorpus auch die Termfrequenzen für dessen zusammengesetzte Wörter verwendet. Entsprechend einer weiteren Ausgestaltung des Verfahrens wird bei den Nachrichten zwischen Server und Client auf eine strenge Einhaltung von Encoding und Escaping von Composite word probabilities also require optimizing the accuracy of floating point numbers. In addition, to determine the relevance of a term, ie its occurrence in the text corpus, the term frequencies are also used for its composite words. According to another embodiment of the method, the messages between the server and the client are strictly adhered to by encoding and escaping
reservierten Sonderzeichen geachtet. Dies ist notwendig, um beliebige Varianten von Termen, auch solche, die Symbole umfassen, über die manuelle Eingabe in die Termgenerierung einzubeziehen und dennoch damit möglicherweise verbundene Ungenauigkeiten in den Standards und Fehlern in den respected reserved special characters. This is necessary in order to include any variants of terms, including those that include symbols, via the manual input in the term generation and yet possibly associated inaccuracies in the standards and errors in the terms
Standardimplementierungen als Fehlerquelle zu minimieren. Dies findet insbesondere Anwendung bei der Verarbeitung von unbekannten Texten und Dokumenten, die vom Nutzer Minimize default implementations as a source of error. This applies in particular to the processing of unknown texts and documents by the user
bereitgestellt werden. to be provided.
Eine mit dem angegebenen Verfahren erzeugte Ontologie, gestattet aufgrund der oben beschriebenen Eigenschaften, insbesondere aufgrund der eingebundenen Termvarianten neue Verwendungsmöglichkeiten . An ontology generated by the specified method, due to the properties described above, in particular due to the incorporated Termvarianten new uses.
Entsprechend einer ersten Verwendung der Ontologie wird ein gegebener Text oder mehrere davon daraufhin analysiert, an welchen konkreten Stellen im Text Begriffe der Ontologie genannt sind, wobei die Berücksichtigung von Varianten von Termen zur Erstellung der Ontologie es ermöglicht, auch solche Fundstellen exakt anzugeben, bei denen die im Text verwendeten Begriffe nicht exakt mit denen der Ontologie übereinstimmen . Dazu werden in Analogie zur interaktiven Termgenerierung neben dem zu verschlagwortendem Text auch die Concepts der Ontologie, entsprechend einer weiteren Ausgestaltung des Verfahrens ergänzend auch die Relationen mittels According to a first use of the ontology, a given text or several of them are then analyzed at which specific places in the text terms of the ontology are called, wherein the consideration of variants of terms for the creation of the ontology makes it possible to specify even those references in which the terms used in the text do not exactly match those of the ontology. For this purpose, in addition to the text to be tagged, the concepts of the ontology, in accordance with a further embodiment of the method, are complementarily also the relations by analogy with interactive term generation
statistischer Textanalyseverfahren semantisch und statistical text analysis method semantic and
syntaktisch strukturiert. Dann werden durch Methoden desstructured syntactically. Then by methods of
Sequenzalignments im Text Sequenzen von Wörtern oder Phrasen ermittelt, die den Vorlagen der derart aufbereiteten Sequence alignments in the text determines sequences of words or phrases that render the templates of such
Concepts und/oder Relationen innerhalb vordefinierter Concepts and / or relations within predefined
Maßgaben entsprechen. Zum Sequenzalignment werden bekannte und geeignete Methoden, z.B. aus der Bioinformatik, angewendet, um Symbolsequenzen, d.h. Zeichenketten oder so genannte Strings nach definierten Algorithmen zu vergleichen und so Kandidaten zu ermitteln, welche die Nennungen der Concepts im Text repräsentieren können. Die besten Kandidaten werden herausgefiltert und einer weiteren Filterung unterzogen, die wiederum Comply with the requirements. For sequence alignment, known and suitable methods, for example from bioinformatics, are used to compare symbol sequences, ie strings or so-called strings, according to defined algorithms and thus to identify candidates. which can represent the mentions of the concepts in the text. The best candidates are filtered out and subjected to further filtering, which in turn
Mehrdeutigkeiten herausfiltert. Das Sequenzalignment kann auch automatisch oder halbautomatisch unter Einbeziehung eines Experten erfolgen. Texte, die mit dieser Methode verschlagwortet wurden, können semantisch durchsucht werden, wobei nicht nur abweichende Schreibweisen sondern auch Filter out ambiguities. The sequence alignment can also be done automatically or semi-automatically with the involvement of an expert. Texts that have been tagged with this method can be searched semantically, not only using different spellings but also
Synonyme und speziellere, allgemeinere oder anders verwandte Begriffe in einer Suchanfrage integriert werden können. Synonyms and more specific, more general or otherwise related terms can be integrated into a search query.
Ein so ontologisch verschlagworteter Text kann detailliert zur Beantwortung von konkreten Fragen genutzt werden. Auch Kombinationen semantischer Anfragen sind möglich. Z.B. ist es mit einer solchen Kombination der erfindungsgemäßen Such ontologically tagged text can be used in detail to answer specific questions. Combinations of semantic requests are also possible. For example, it is with such a combination of the invention
Ontologieerzeugung mit Sequenzalignmentmethoden für dieOntology generation with sequence alignment methods for the
Verschlagwortung möglich, konkrete Fragen von Biologen exakt zu beantwortet. Als Antwort werden automatisiert eine Liste von konkreten Textstellen erzeugt, die direkt als Antwort aufgefasst werden können. Im Vergleich dazu nutzen bekannte Fragen-Antwort-Systeme nach dem Stand der Technik Ontologien nur als solche, ohne gleichzeitigen Bezug zum Text. Vielmehr stützen sich solche Frage-Antwort-Systeme auf die linguistische Analyse von natürlich-sprachlichen Texten. Diese sich jedoch sehr aufwändig, langsam und fehlerbehaftet. Tagging possible, concrete questions from biologists to answer exactly. In response, a list of concrete text passages is generated automatically, which can be understood directly as an answer. In comparison, known prior art question-answer systems use ontologies only as such, without simultaneous reference to the text. Rather, such question-answer systems are based on the linguistic analysis of natural linguistic texts. However, these are very complex, slow and error-prone.
In einer weiteren Ausgestaltung der Erfindung für die automatisierte, ontologiebasierte Verschlagwortung von In a further embodiment of the invention for the automated, ontology-based keywording of
Texten für die automatisierte Fragenbeantwortung wird die gegebene Frage mittels des Datenverarbeitungssystems Texts for the automated answering of questions becomes the given question by means of the data processing system
sinnvoll in Schlüsselwörter zerlegt. Eine tolerante meaningfully broken down into keywords. A tolerant
Schlüsselwortsuche erzeugt Kandidatentexte. Textphrasen in den Kandidatentexten, die die gefragten Begriffe aus der Eingabe in engem Zusammenhang nennen, werden gruppiert. Die Gruppen werden durch geeignete Daten repräsentiert und automatisierte statistische Analysen ordnen die Gruppen nach der Wahrscheinlichkeit für eine gute Antwort auf die  Keyword Search generates candidate texts. Text phrases in the candidate texts which closely relate to the requested terms from the input are grouped together. The groups are represented by appropriate data and automated statistical analyzes rank the groups according to the likelihood of a good response to the group
gestellte Frage. Der Nutzer kann die Quelltexte einsehen und Gruppen von Antworten durchsuchen. Dabei bieten die einsehbaren konkreten Textstellen mehr Aufschluss über die Relevanz der konkreten Antworten. Die Antworten werden dabei nicht lexikalisch gruppiert sondern inhaltlich mit Hilfe des in der Ontologie gespeicherten Hintergrundwissens. Sofern hilfreich kann eine geeignete Ontologie zuvor asked question. The user can view the source texts and search groups of answers. The offer more concrete information about the relevance of concrete answers. The answers are not grouped lexically, but content by means of the background knowledge stored in the ontology. If helpful, a suitable ontology can help you beforehand
aufbereitet werden, z.B. durch die oben beschriebene treated, e.g. through the above
Strukturierung von Concepts und/oder Relationen. Structuring Concepts and / or Relations.
Das vorgeschlagene ontologiebasierte Fragen-Antwort-System ist auch in der Lage große Textmengen zu berücksichtigen und auch mehrere Ontologien zu verwenden. The proposed ontology-based question-and-answer system is also able to accommodate large amounts of text and also use multiple ontologies.
Eine oder mehrere wie oben beschrieben erzeugte Ontologien sind aufgrund des darin gespeicherten Wissens zu jedem One or more ontologies generated as described above are for each due to the knowledge stored therein
Begriff, das wie oben dargelegt auch Synonyme, abweichende Schreibweisen und sich wandelnde Terminologien des Term which, as stated above, also includes synonyms, deviant spellings and changing terminologies of
jeweiligen Begriffs einschließt, entsprechend einer weiteren Ausgestaltung der Erfindung auch für automatisierte each term includes, according to a further embodiment of the invention also for automated
Trendanalysen verwendbar. Dazu wird zu einem oder mehreren ausgewählten Concepts und dessen zugeordneter Varianten von Termen mittels bibliometrischer und/oder Zitations-Analyse eine Trendanalyse zu dem Concept automatisiert durchgeführt wird. Beide Analyseverfahren sind für die Beurteilung von wissenschaftlichen Leistungen bekannt und stellen in der hier beschriebenen Anwendung eine quantitative Evaluation des oder der Concepts anhand der verfügbaren Publikationen aufgrund statistischer Untersuchungen dar. Gegebenenfalls können mehrere Concepts in Kombination miteinander Trend analysis usable. For this purpose, a trend analysis of the concept is automatically performed for one or more selected concepts and their associated variants of terms by means of bibliometric and / or citation analysis. Both methods of analysis are known for the evaluation of scientific achievements and in the application described here represent a quantitative evaluation of the concept or concepts on the basis of the available publications on the basis of statistical investigations. Where appropriate, several concepts can be combined with each other
untersucht und/oder die herangezogenen Publikationen examined and / or the publications used
thematischen und zeitlichen Beschränkungen unterworfen sein, um so spezielle Fragestellungen zu evaluieren. Alle in der Ontologie hinterlegten Informationen zu den interessierenden Begriffen werden in die Analyse einbezogen und ermöglichen, angewendet auf die umfänglich und zeitlich interessierenden Publikationen die Erzeugung von subject to thematic and temporal constraints in order to evaluate specific issues. All information on the terms of interest stored in ontology will be included in the analysis and will allow the generation of data, applied to the extensive and temporally interesting publications
Statistiken, die unabhängig von der Zeit und den Orten das Publikationsaufkommens jedes Ontologiebegriffs erfassen.Statistics that capture the volume of publication of each ontology term, regardless of time and location.
Dafür werden die Begriffsstrukturen der Ontologie genutzt, um die Texte inhaltlich zu vergleichen, so dass abweichende z.B. fremdsprachliche Verwendungen in den Texten dem einen Begriff für die Erstellung der Statistik gleichgesetzt werden . For this purpose, the conceptual structures of ontology are used to compare the texts in terms of content, so that deviant eg foreign language uses in the texts are the one thing Term equated to the creation of statistics.
Die Erfindung soll nachfolgend anhand eines The invention will be described below with reference to a
Ausführungsbeispieles näher erläutert werden. In der Embodiments will be explained in more detail. In the
zugehörigen Zeichnung zeigt accompanying drawing shows
Fig. 1 ein Datenverarbeitungssystem zur Ausführung des erfindungsgemäßen Verfahrens, 1 shows a data processing system for carrying out the method according to the invention,
Fig. 2A, 2B Flussdiagramme von verschiedenen FIGS. 2A, 2B are flowcharts of various
Ausgestaltungen des Verfahrens und Fig. 3A - 3C Flussdiagramme von Verwendungen einer gemäß  Embodiments of the method and FIGS. 3A-3C are flowcharts of uses of one of
Fig. 2A oder Fig. 2B erzeugten Ontologie.  Fig. 2A or Fig. 2B generated ontology.
In Fig. 1 ist ein Datenverarbeitungssystem dargestellt, welches zur Erstellung einer Ontologie konfiguriert ist. Das Datenverarbeitungssystem umfasst einen Server SRV, der über ein Netzwerk NW, z.B. dem World Wide Web oder einem LAN mit einem Client CL kommuniziert. Die ohne Bezugszeichen in Fig. 1 dargestellten Richtungspfeile veranschaulichen die In Fig. 1, a data processing system is shown, which is configured to create an ontology. The data processing system comprises a server SRV connected via a network NW, e.g. the World Wide Web or a LAN communicates with a Client CL. The directional arrows shown without reference numerals in Fig. 1 illustrate the
zwischen den Komponenten des Datenverarbeitungssystems auch verbindungslos ablaufenden Prozesse und die Richtungen des Datenaustausche während des Verfahrens. between the components of the data processing system also connectionless running processes and the directions of data exchange during the process.
Die Kommunikation erfolgt bidirektional mittels Webservices SWS, CWS, von denen sowohl der Server SRV als auch der The communication is bidirectional using web services SWS, CWS, of which both the server SRV and the server
Client CL eines aufweist. Die Funktion des Serverwebservice SWS und auch des Clientwebservice CWS gehen über die Client CL has one. The function of the server web service SWS and also the client web service CWS go over the
einfache Übermittlung von Daten hinaus. Die Webservices unterstützen insbesondere den Datenaustausch in der Weise, dass auch Anwendungsprogramme, hier z.B. jenen des simple transmission of data. In particular, the web services support the exchange of data such that application programs, here e.g. those of
Ontologiemoduls zu Bearbeitung der Daten direkt interagieren können und dies auch auf unterschiedlichen Plattformen der kommunizierenden Maschinen. Die Webservices CWS und SWS realisieren auch das Encoding und Escaping der übermittelten Daten und Texte. Ontology module can interact directly to edit the data and this on different platforms of the communicating machines. The web services CWS and SWS also implement the encoding and escaping of the transmitted data and texts.
Der Server SRV umfasst eine zentrale Recheneinheit ZRE, die wiederum unter anderem ein Ontologiemodul OM umfasst. Das Ontologiemodul OM ist mit verschiedenen funktionalen The server SRV comprises a central processing unit ZRE, which in turn comprises, among other things, an ontology module OM. The ontology module OM is with various functional
Komponenten ausgestattet, die für die Erzeugung einer Ontologie essentiell sind. Dazu gehört insbesondere eine Komponente zur Termgenerierung TG und eine zur Components equipped for generating a Ontology are essential. This includes in particular a component for term generation TG and a for
Definitionsgenerierung DG, die über geeignete Mittel zur Textanalyse und zur statistischen Analyse von aufgefundenen Wörtern, Phrasen und Zeichensequenzen verfügen. Generation of definitions DG with appropriate means for text analysis and statistical analysis of found words, phrases and sequences of characters.
Beide Komponenten arbeiten mit Komponenten zur Both components work with components for
Textextraktion TE, zur Phrasenerkennung PE und zur Text extraction TE, for phrase recognition PE and for
Ermittlung von Termfrequenzen TF . Im dargestellten Determination of term frequencies TF. In the illustrated
Ausführungsbeispiel greift Termfrequenzkomponente TF auf einen Puffer-Speicher CA zurück, wobei in alternativen Embodiment uses term frequency component TF back to a buffer memory CA, wherein in alternative
Ausgestaltungen auch andere Komponenten den Puffer-Speicher CA zur Zwischenspeicherung von Zwischenergebnissen und deren schnellen Zugriff nutzen können.  Other components may use the buffer memory CA for temporarily storing intermediate results and their quick access.
Die beschriebene hardware- und softwaremäßige Konfiguration des Ontologiemoduls OM gestatten unter anderem statistische Analysen der Terminologie von verschiedenen The described hardware and software configuration of the ontology module OM allow, among other statistical analysis of the terminology of various
Vorlagedokumenten, den Vergleich von Zeichenketten für den Variantenvergleich, für den Vergleich von Nominalphrasen (Noun Phrases)und anderen, die automatische Indexierung von Texten und die Filterung der gewonnenen Daten. Auch die Template documents, the comparison of strings for variant comparison, for the comparison of noun phrases and others, the automatic indexing of texts and the filtering of the data obtained. Also the
Bereitstellung von Daten, die aus der Textanalyse und/oder der statistischen Analyse gewonnen und gespeichert wurden, erfolgt unter der Steuerung des Ontologiemoduls OM. Provision of data obtained and stored from text analysis and / or statistical analysis is under the control of the ontology module OM.
Zur Steuerung der Textsuche in externen Datenbanken To control text search in external databases
entsprechend der vom Client CL an den Server SRV according to the client CL to the server SRV
übermittelten Anfragedaten umfasst das Ontologiemodul OM auch Komponenten der Textsuche TS, die derart konfiguriert sind, dass unterschiedliche Datenformate recherchierbar sind, wie z.B. Webdokumente im HTML- oder XML-Format, transmitted request data, the ontology module OM also includes components of the text search TS, which are configured so that different data formats are searchable, such. Web documents in HTML or XML format,
Datenbanken oder auch existierende Ontologien. Databases or existing ontologies.
Der Server SRV umfasst außerdem eine Speichereinheit SM zur Speicherung von Dokumenten, z.B. Vorlagedokumenten VD, die aus dem Netzwerk NW ermittelt oder vom Client CL übertragen wurden, und von Daten der Ontologie. Alternativ kann mittels des Serverwebservice SWS über das Netzwerk auch auf The server SRV also comprises a memory unit SM for storing documents, e.g. Template documents VD obtained from the network NW or transmitted by the client CL and data of the ontology. Alternatively, via the server web service SWS over the network also on
Vorlagedokumente VD zugegriffen werden, die in einer Template documents are accessed in a VD
Speichereinheit CM des Client CL oder in externen Storage unit CM of the client CL or in external
Datenbanken eDB gespeichert sind. Mittels eines computerlesbaren Speichermediums MM wird das Datenverarbeitungssystem, nachdem das darauf gespeicherte Programm in dessen Speichereinheiten CM, SM geladen worden ist, in die Lage versetzt, das beschriebene Verfahren zur Generierung einer Ontologie und optional ebenso die Databases eDB are stored. By means of a computer-readable storage medium MM, after the program stored thereon has been loaded into its memory units CM, SM, the described method for generating an ontology and, optionally, the same
Verfahren zur Verwendung einer Ontologie, wie oben Method of using an ontology as above
beschrieben, durchzuführen. described to perform.
Der Client CL umfasst neben dem Clientwebservice CWS auchThe client CL also includes CWS in addition to the client web service
Mittel zur Dateneingabe und Datenausgabe, im Means for data entry and data output, in
Ausführungsbeispiel eine grafische Benutzeroberfläche GUI, über die ein Operator, der zur Erstellung einer Ontologie mit dem Datenverarbeitungssystem interagiert, Daten wie z.B.Embodiment A graphical user interface GUI, via which an operator who interacts with the data processing system to create an ontology, receives data such as e.g.
Anfragedaten A, Vorlagedokumente VD oder Termvarianten T eingeben und Term-, Definitions- und/oder Request data A, template documents VD or term variants T enter and term, definition and / or
Relationsvorschläge des Ontologiemoduls OM, Ergebnisse von statistischen Berechnungen oder Variantenvergleichen, generierte Relationen R anzeigen und ausgeben lassen kann.Relational proposals of the ontology module OM, results of statistical calculations or variant comparisons, can display and output generated relations R.
Üblicherweise umfasst auch der Client CL eine Usually, the client CL includes a
Speichereinheit CM. In Fig. 2A ist ein Flussdiagramm für die wesentlichen  Storage unit CM. In Fig. 2A is a flow chart for the essential
Schritte des oben beschriebenen Verfahrens zur Erzeugung einer Ontologie mittels des Datenverarbeitungssystems gemäß Fig. 1 dargestellt.  Steps of the above-described method for generating an ontology by means of the data processing system shown in FIG. 1.
Dem Verfahren gemäß Fig. 2A sollen Vorlagedokumente VD zugrunde gelegt werden, die sowohl aus einem oder mehreren globalen Textkorpora des WWW zu dem betreffenden Fachgebiet recherchiert als auch durch den Operator vom Client CL an den Server SRV übermittelt werden. Dazu erfolgt neben der Dokumentenübermittlung die asynchrone Übermittlung von The method according to FIG. 2A is to be based on template documents VD, which are both researched from one or more global text corpora of the WWW for the relevant subject area and also transmitted by the operator from the client CL to the server SRV. In addition to the document transmission, the asynchronous transmission of
Anfragedaten A vom Client CL an den Server SRV. Diese und auch jede weitere Kommunikation zwischen Client CL und Request data A from the client CL to the server SRV. This and any further communication between client CL and
Server SRV erfolgt mit Hilfe der Webservices CWS, SWS des Client CL und des Server SRV über das Netzwerk NW, im Server SRV takes place via the web services CWS, SWS of the client CL and the server SRV via the network NW, in
Ausführungsbeispiel das WWW. Die Anfragedaten A werden durch das Ontologiemodul OM in der gewohnten Weise bearbeitet und als Suchanfragen an Embodiment WWW. The request data A are processed by the ontology module OM in the usual way and as search queries
Webservices der Textkorpora mit Suchfunktionalität Web services of the text corpora with search functionality
gerichtet. Auch diese Suchanfragen werden außerhalb der Bustaktung, d.h. asynchron übermittelt, um directed. These searches will also be outside the Bustaktung, ie asynchronously transmitted to
Parallelbearbeitungen von bereits recherchierten Parallel processing of already researched
Vorlagedokumenten VD zu ermöglichen. Template documents VD.
Die Vorlagedokumente VD werden durch das Ontologiemodul OM mittels Textanalyseverfahren lexikalisch und syntaktisch strukturiert. Die damit ermittelten Schlagwörter werden statistisch ausgewertet, um daraus Termvorschläge TV zu generieren und an den Client CL und dessen Ausgabemittel, im Ausführungsbeispiel eine grafische Benutzeroberfläche GUI auszugeben. Die ausgegebenen Termvorschläge TV sind The template documents VD are structured lexically and syntactically by the ontology module OM by means of text analysis methods. The keywords thus determined are statistically evaluated in order to generate term suggestions TV from them and output to the client CL and its output means, in the exemplary embodiment, a graphical user interface GUI. The output term suggestions TV are
üblicherweise, aber nicht zwingend, einem ersten Ranking unterworfen und werden entsprechend ihrer statistischen Wahrscheinlichkeit geordnet und, im Falle der Ordnung meist mit fallender Wahrscheinlichkeit, angeboten. Die ausgegebenen Termvorschläge TV können nun durch einen Operator, d.h. einen externen Bediener des Usually, but not necessarily, subjected to a first ranking and are ordered according to their statistical probability and, in the case of the order usually with decreasing probability offered. The output term suggestions TV can now be replaced by an operator, i. an external server of the
Datenverarbeitungssystems, einen Experten des jeweiligen Sachgebiets beurteilt und ergänzt werden. Die Ergänzungen werden insbesondere Varianten der Termvorschläge TV sein, die ihm aufgrund seines Expertenwissens aus nicht Data processing system, an expert in each subject area. The additions will be in particular variants of the term suggestions TV, which he due to his expertise from not
recherchierten Dokumenten bekannt sind, wie z.B. researched documents, such as
Abkürzungen, unterschiedliche Schreibweisen, wiederkehrende, auch fehlerhafte Teile von Termvorschlägen TV, auch fremd- oder umgangssprachliche Entsprechungen usw. Auch ganze Abbreviations, different spellings, recurring, even faulty parts of term suggestions TV, alien or colloquial equivalents, etc. Also whole
Textbausteine sind so in die Ontologie einzubeziehen . Die ergänzten Termvorschläge TV werden an das Ontologiemodul OM übermittelt und in die dortige Sammlung von Termvorschlägen TV aufgenommen, so dass sich deren Text modules are to be included in the ontology. The supplemented term suggestions TV are transmitted to the ontology module OM and included in the local collection of term suggestions TV, so that their
Auftrittswahrscheinlichkeit interaktiv ändert. Mithilfe des automatisierten Textanalyseverfahrens, der statistischen Auswertung des daraus gewonnenen Ergebnisses und der  Occurrence probability interactively changes. Using the automated text analysis method, the statistical evaluation of the result obtained and the
Rückmeldung durch einen Experten werden auch solche Feedback from an expert will also be such
Vorschläge ausgegeben und beurteilt, die bei manueller Proposals issued and judged that are manual
Formalisierung nicht in Betracht kämen. Aufgrund der aktualisierten Auftrittswahrscheinlichkeit der Termvorschläge TV erfolgt ein Ranking oder, falls ein erstes Ranking bereits erfolgt ist, dessen Aktualisierung als Formalization would not be considered. Due to the updated occurrence probability of the term suggestions TV is a ranking or, if a first ranking has already taken place, its update as
Grundlage für das nachfolgende Tagging und die Extraktion von Concepts aus den Termvorschlägen TV. Basis for the following tagging and extraction Concepts from the term suggestions TV.
Nachfolgend werden Definitionen der Concepts automatisiert erzeugt. Dies umschließt die Extraktion von Subsequently definitions of the concepts are automatically generated. This includes the extraction of
Definitionsvorschlägen aus den Vorlagedokumenten VD mittels Phrasenerkennung und gegebenenfalls auch deren Verifizierung durch Suchanfragen an externe Datenbanken eDB, wie oben beschrieben. Die erzeugten Definitionen werden ebenfalls einem Ranking unterworfen und entsprechend ihrer Wertigkeit daraus Relationen R vorgeschlagen. Interagierend mit dem Client CL und dem Operator oder automatisiert werden aus diesen Vorschlägen Relationen R generiert. Auch hier ist wieder die oben beschriebene der Interaktivität zwischen Client CL und Server SRV für die Relevanz und  Definition suggestions from the template documents VD by means of phrase recognition and possibly also their verification by search queries to external databases eDB, as described above. The definitions generated are also subjected to a ranking and, according to their significance, relations R are proposed. Interacting with the client CL and the operator or automated, relations R are generated from these proposals. Again, the above is the interactivity between client CL and server SRV for relevance and
Vollständigkeit der Relationen R nutzbar. Die Erzeugung einer Ontologie kann auf diese Weise in erheblich kürzerer Zeit erfolgen und vollständiger sein, da infolge der Interaktivität sowohl alle möglichen Schlagworte und Definitionen berücksichtigt und keine übersehen werden können . Fig. 2B zeigt einen Abschnitt des Verfahrens gemäß Fig. 2A in einer alternativen Ausgestaltung. Hier wird die Completeness of relations R usable. The generation of an ontology can in this way take place in a much shorter time and be more complete, since due to the interactivity, all possible keywords and definitions are considered and none can be overlooked. FIG. 2B shows a portion of the method according to FIG. 2A in an alternative embodiment. Here is the
Auftrittswahrscheinlichkeit der Terme T mittels einer monotonen Wahrscheinlichkeitsverteilung ermittelt. Aufgrund der Monotonieeigenschaften der Verteilung ist es wie oben beschrieben möglich, die Auftrittswahrscheinlichkeit im Intervall von 1 bis zur betrachteten Häufigkeit mit Occurrence probability of the terms T determined by means of a monotone probability distribution. Due to the monotonic properties of the distribution, it is possible, as described above, the probability of occurrence in the interval from 1 to the frequency considered
hinreichender Genauigkeit anzunähern ohne die Summe im gesamten Intervall zu berechnen. Wie oben dargelegt, wird die Berechnung an einem zu ermittelnden Grenzwert approximate accuracy without calculating the sum over the entire interval. As stated above, the calculation is at a limit to be determined
abgebrochen. canceled.
Eine Ausgestaltung des angegebenen Verfahrens (Fig. 3A) ist konfiguriert eine vorhandene Ontologie, die wie oben beschrieben sehr umfassend erstellt wurde, dafür verwendet werden, einen gegebenen Text, der strukturell keinen besonderen Anforderungen unterliegen soll, hier als freier Text bezeichnet, mit den generierten Concepts zu One embodiment of the specified method (FIG. 3A) is configured to use an existing ontology that has been very extensively constructed as described above, to be used with a given text that is not structurally subject to any particular requirements, referred to herein as free text Concepts too
verschlagworten. Dazu werden zunächst die Concepts und/oder die Relationen R der Ontologie mittels des Ontologiemodul OM semantisch und syntaktisch strukturiert. Die so ermittelten Sequenzen werden mittels bekannter Sequenzalignment-Methoden zu dem freien Text abgeglichen, um passende Sequenzen im Text zu ermitteln, die auch Abweichungen in vordefinierten Grenzen von den Concept- und/oder Relations-Sequenzen aufweisen können. Derartige Alignments können z.B. zur keywording. For this purpose, first the concepts and / or the relations R of the ontology by means of the ontology module OM structured semantically and syntactically. The sequences thus determined are matched by means of known sequence alignment methods to the free text in order to determine suitable sequences in the text, which may also have deviations in predefined boundaries from the concept and / or relations sequences. Such Alignments can eg
Gensequenzsuche verwendet werden. Das Flussdiagramm in Fig. 3A zeigt die hier beschriebene Fortsetzung des Gene sequence search can be used. The flowchart in FIG. 3A shows the continuation of the invention described here
Flussdiagramms von Fig. 2A bzw. 2B zur Erzeugung der verwendeten Ontologie. Zur besseren Übersicht überschneiden sich die Figuren 2 und 3 in den aneinander grenzenden Flowchart of Fig. 2A and 2B, respectively, for generating the ontology used. For a better overview, the figures 2 and 3 overlap in the adjacent
Verfahrensschritten . Procedural steps.
Entsprechend ist in Fig. 3B eine andere Verwendung einer zuvor erstellten Ontologie zur automatisierten Similarly, in Fig. 3B, another use of a previously created ontology for automated
Fragebeantwortung mittels des oben beschriebenen Questionnaire by means of the above
Datenverarbeitungssystems dargestellt. Dabei werden  Data processing system shown. It will be
Ontologie und Frage mittels des Ontologiemoduls OM Ontology and question by means of the ontology module OM
miteinander verknüpft, indem zunächst die Frage linked together by first asking the question
verschlagwortet wird. Nach Verschlagwortung einer Mehrzahl von freien Texten mit den Concepts werden aus diesen Texten Phrasen ermittelt, die die Frageschlagwörter semantisch repräsentieren, um daraus nach logischen Regeln Antworten zu generieren . is tagged. After indexing a large number of free texts with the concepts, these texts are used to determine phrases that semantically represent the fragmentary terms in order to generate answers according to logical rules.
Eine wie oben beschreiben erzeugte Ontologie kann auch zur Trendanalyse eines oder mehrerer Concepts verwendet werden. Fig. 3C stellt wiederum die sich leicht überscheidende An ontology generated as described above may also be used to trend analysis of one or more concepts. Fig. 3C again shows the slightly different
Fortsetzung des Verfahrens dar. Zu diesem Zweck wird das interessierende Concept (oder mehrere) und damit den zugehörigen Termvarianten mittels des Ontologiemoduls OM durch statistische Textanalyse in einer Mehrzahl von freien Texten aufgesucht und dessen Auftrittswahrscheinlichkeit ermittelt. Alternativ oder ergänzend können mittels Continuation of the procedure. For this purpose, the concept of interest (or more) and thus the associated term variants by means of the ontology module OM by statistical text analysis in a plurality of free texts visited and determined its probability of occurrence. Alternatively or additionally, by means of
statistischer und mathematischer Methoden weitere Analysen durchgeführt werde, wie z.B. die Ermittlung der statistical and mathematical methods, such as e.g. the determination of
Zeitabhängigkeit der Auftrittswahrscheinlichkeit . Bezugszeichenliste Time dependence of the occurrence probability. LIST OF REFERENCE NUMBERS
A Anfragedaten A request data
CL Client  CL client
CWS Clientwebservice  CWS client web service
CM ClientSpeichereinheit CM client storage device
CA Puffer-Speicher, Cache  CA buffer memory, cache
DG Definitionsgenerierung eDB externe Datenbank  DG definition generation eDB external database
GUI Grafische Benutzeroberfläche NW Netzwerk  GUI Graphical User Interface NW Network
OM Ontologiemodul  OM ontology module
PE Phrasenerkennung  PE phrase recognition
R Relationen  R relations
SRV Server SRV  SRV Server SRV
SM Serverspeichereinheit SM server storage unit
SWS Serverwebservice  SWS server web service
T Term  T term
TE Termextraktion  TE Term Extraction
TF Termfrequenz  TF term frequency
TG Termgenerierung TG term generation
TS Textsuche  TS text search
TV Termvorschlag  TV term suggestion
VD Vorlagedokument  VD template document
ZRE Zentrale Recheneinheit  ZRE Central processing unit

Claims

Patentansprüche claims
Verfahren zur Erzeugung und Verwendung einer Ontologie, Method for generating and using an ontology,
(1.1) das an einem Datenverarbeitungssystem ausgeführt wird, mit einem Server (SRV) mit einer zentralen (1.1) which is executed on a data processing system, with a server (SRV) with a central
Recheneinheit (ZRE), die ein Ontologiemodul (OM) zur Generierung und Bearbeitung einer Ontologie umfasst , mit einer Serverspeichereinheit (SM) zur  Computing unit (ZRE), which includes an ontology module (OM) for generating and processing an ontology, with a server storage unit (SM) for
Speicherung von Daten, mit einem Puffer-Speicher (CA) , wobei der Server (SRV) über ein Netzwerk (NW) mit zumindest einem Client (CL) kommuniziert, welcher Mittel zur Dateneingabe und zur Datenausgabe umfasst ,  Storage of data with a buffer memory (CA), wherein the server (SRV) communicates via a network (NW) with at least one client (CL), which comprises means for data input and for data output,
(1.2) mit folgenden Verfahrensschritten: (1.2) with the following process steps:
Strukturierung einer Mehrzahl von Vorlagedokumenten (VD) eines bestimmten Fachgebietes durch das Structuring of a plurality of original documents (VD) of a specific subject area by the
Ontologiemodul (OM) in Folge von vom Client (CL) an das Ontologiemodul (OM) übermittelten Anfragedaten (A) ,  Ontology module (OM) as a result of request data (A) transmitted by the client (CL) to the ontology module (OM),
Generierung von Termen (T) aus den strukturierten Vorlagedokumenten (VD) durch das Ontologiemodul (OM) , Generation of terms (T) from the structured template documents (VD) by the ontology module (OM),
Gruppierung von Varianten eines Terms (T) durch das Ontologiemodul (OM) zu zumindest einem Grouping variants of a term (T) by the ontology module (OM) into at least one
Termvorschlag (TV) , - Übermittlung von Termvorschlägen (TV) an den Client (CL) mittels eines Server-Webservice (SWS) und deren Ausgabe an einen Operator, Term proposal (TV), Transmission of term suggestions (TV) to the client (CL) by means of a server web service (SWS) and their output to an operator,
- Eingabe von ergänzenden Varianten zumindest eines Termvorschlags (TV) durch einen Operator und deren- Input of additional variants of at least one term proposal (TV) by an operator and their
Übermittlung an das Ontologiemodul (OM) mittels eines Client-Webservice (CWS), Transmission to the ontology module (OM) by means of a client web service (CWS),
- Ranking der Termvorschläge (TV) auf der Grundlage aller generierten und vom Client (CL) empfangenen Varianten durch das Ontologiemodul (OM) , Ranking of the term suggestions (TV) on the basis of all generated and received by the client (CL) variants by the ontology module (OM),
- Fertigstellung der Ontologie durch Tagging der Completion of the ontology by tagging the
Termvorschläge (TV) , Extraktion von den  Termvorschläge (TV), extraction of the
Termvorschlägen (TV) zugeordneten Concepts und Generierung von Definitionen zu den Concepts mittels Phrasenerkennung und von Relationen  Term concepts (TV) associated concepts and generation of definitions to the concepts by means of phrase recognition and relations
zwischen den Concepts.  between the concepts.
2. Verfahren nach Anspruch 1, wobei die Vorlagedokumente (VD) durch Suchanfragen des Servers (SRV) an zumindest einen Webservice von Textkorpora mit Such-Funktionalität ermittelt und/oder über den Client (CL) dem Server (SRV) übermittelt werden . 2. The method of claim 1, wherein the template documents (VD) determined by searches the server (SRV) to at least one web service of text corpora with search functionality and / or via the client (CL) the server (SRV) are transmitted.
3. Verfahren nach Anspruch 2, wobei Anfragen zwischen Client (CL) und Server (SRV) und/oder zwischen Client (CL) und einem Webservice von Textkorpora als asynchrone Anfragen übermittelt und bearbeitet werden. 3. The method of claim 2, wherein requests between the client (CL) and server (SRV) and / or between client (CL) and a web service of text corpora are transmitted and processed as asynchronous requests.
4. Verfahren nach Anspruch 2 oder 3, Bearbeitungen von Anfragen an den Server (SRV) unter Verwendung der Lazy- Evalution erfolgt. 4. The method of claim 2 or 3, processing requests to the server (SRV) using the lazy Evalution takes place.
5. Verfahren nach einem der vorstehenden Ansprüche, wobei mehrere musterbasierte Suchanfragen an verschiedene 5. The method according to any one of the preceding claims, wherein a plurality of pattern-based search queries to different
Webservices von Textkorpora gesendet werden, um Kandidaten für Definitionen zu finden.  Text corpora web services are sent to find candidates for definitions.
6. Verfahren nach einem der vorstehenden Ansprüche, wobei während der Bearbeitung der Anfragen durch das Ontologiemodul (OM) algorithmische Optimierungen zur 6. The method according to any one of the preceding claims, wherein during the processing of the requests by the Ontology Module (OM) Algorithmic Optimizations for
Minimierung der zur Bearbeitung benötigten Rechenzeit erfolgt, indem die Berechnung der Minimization of the processing time required for processing takes place by the calculation of the
Auftrittswahrscheinlichkeit eines Terms (T) aus einer monotonen Wahrscheinlichkeitsverteilung abgebrochen wird, wenn die Auftrittswahrscheinlichkeit einen Grenzwert  Occurrence probability of a term (T) is aborted from a monotonic probability distribution if the probability of occurrence is a limit value
erreicht, ab dem sich bei Einbeziehung weiterer Werte besagter Verteilung die Auftrittswahrscheinlichkeit unter Berücksichtigung einer vordefinierten Genauigkeit der reached, from which, if other values of said distribution are included, the probability of occurrence taking into account a predefined accuracy of the
Berechung nicht mehr ändert. Calculation no longer changes.
7. Verfahren nach Anspruch 6, wobei zur Ermittlung der Relevanz eines Terms (T) die Termfrequenzen für dessen zusammengesetzte Wörter verwendet werden. 7. The method according to claim 6, wherein to determine the relevance of a term (T) the term frequencies are used for its composite words.
8. Verfahren nach einem der vorstehenden Ansprüche, wobei zur Kommunikation zwischen Server (SRV) und Client (CL) die zwischen Client (CL) und Server (SRV) ausgetauschten Zeichen und Symbole mittels des Client-Webservice (CWS ) kodiert werden . 8. The method according to any one of the preceding claims, wherein for communication between the server (SRV) and client (CL) between the client (CL) and server (SRV) exchanged characters and symbols are encoded using the client web service (CWS).
9. Verwendung einer nach einem der Ansprüche 1 bis 7 erzeugten Ontologie zur Indizierung eines Textes, wobei mittels des Datenverarbeitungssystems die Concepts der 9. Use of an ontology generated according to one of claims 1 to 7 for indexing a text, wherein by means of the data processing system, the concepts of
Ontologie mittels statistischer Textanalyseverfahren Ontology using statistical text analysis methods
semantisch und syntaktisch strukturiert werden und durch Methoden des Sequenzalignments im Text Sequenzen von Wörtern oder Phrasen ermittelt werden, die den Vorlagen der Concepts innerhalb vordefinierter Maßgaben entsprechen. be structured semantically and syntactically and sequences of words or phrases are determined by methods of sequence alignments in the text, which correspond to the templates of Concepts within predefined specifications.
10. Verwendung einer Ontologie nach Anspruch 9, wobei auch die Relationen mittels statistischer Textanalyseverfahren semantisch und syntaktisch strukturiert werden. 10. Use of an ontology according to claim 9, wherein also the relations are structured semantically and syntactically by means of statistical text analysis methods.
11. Verwendung einer nach einem der Ansprüche 1 bis 7 erzeugten Ontologie für die automatisierte 11. Use of a generated according to one of claims 1 to 7 ontology for the automated
Fragenbeantwortung, wobei eine Mehrzahl von Texten mit Answering questions, with a plurality of texts with
Concepts der Ontologie verschlagwortet und die Frage in Schlüsselworte zerlegt werden und mittels Schlüsselwortsuche in den Texten Textphrasen ermittelt werden, die die Concepts of the ontology are tagged and the question are broken down into keywords and keyword phrases in the texts are used to determine the text phrases that the
Schlüsselworte semantisch repräsentieren. To represent keywords semantically.
12. Verwendung einer nach einem der vorstehenden Ansprüche erzeugten Ontologie, wobei auf der Grundlage zumindest eines Concepts und dessen zugeordneter Varianten von Termen (T) mittels bibliometrischer und/oder Zitations-Analyse eine Trendanalyse zu dem Concept automatisiert durchgeführt wird. 12. Use of an ontology generated according to one of the preceding claims, wherein on the basis of at least one concept and its associated variants of terms (T) by means of bibliometric and / or citation analysis, a trend analysis of the concept is carried out automatically.
13. Datenverarbeitungssystem, welches zur Durchführung eines Verfahrens nach einem der vorstehenden Ansprüche hard- und softwaremäßig konfiguriert ist. 13. Data processing system, which is configured to perform a method according to any one of the preceding claims hardware and software.
14. Computerlesbares Speichermedium (MM), auf dem ein 14. Computer readable storage medium (MM) on which a
Programm gespeichert ist, das ein Datenverarbeitungssystem, nachdem es in dessen Speichereinheit (SM, CM) geladen worden ist, in die Lage versetzt, ein Verfahren nach einem der Ansprüche 1 bis 8 zur Generierung einer Ontologie oder ein Verfahren zur Verwendung einer Ontologie nach einem der Ansprüche 9 bis 12 durchzuführen. Program, which after having been loaded into its memory unit (SM, CM) enables a data processing system, a method according to one of claims 1 to 8 for generating an ontology or a method for using an ontology according to any one of Perform claims 9 to 12.
PCT/EP2010/064590 2009-09-30 2010-09-30 Method for creating and using ontology, and data processing system WO2011039322A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102009043708.8 2009-09-30
DE102009043708 2009-09-30

Publications (1)

Publication Number Publication Date
WO2011039322A1 true WO2011039322A1 (en) 2011-04-07

Family

ID=43067147

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2010/064590 WO2011039322A1 (en) 2009-09-30 2010-09-30 Method for creating and using ontology, and data processing system

Country Status (1)

Country Link
WO (1) WO2011039322A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047353A1 (en) * 2000-03-30 2001-11-29 Iqbal Talib Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
US20070043742A1 (en) * 2005-08-16 2007-02-22 Arguello Juan F Systems and methods for building and implementing ontology-based information resources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047353A1 (en) * 2000-03-30 2001-11-29 Iqbal Talib Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
US20070043742A1 (en) * 2005-08-16 2007-02-22 Arguello Juan F Systems and methods for building and implementing ontology-based information resources

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GACITUA ET AL: "A flexible framework to experiment with ontology learning techniques", KNOWLEDGE-BASED SYSTEMS, ELSEVIER, vol. 21, no. 3, 23 November 2007 (2007-11-23), pages 192 - 199, XP022517648, ISSN: 0950-7051, DOI: DOI:10.1016/J.KNOSYS.2007.11.009 *
LUONG H P ET AL: "Ontology-Based Focused Crawling", INFORMATION, PROCESS, AND KNOWLEDGE MANAGEMENT, 2009. EKNOW '09. INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 1 February 2009 (2009-02-01), pages 123 - 128, XP031424353, ISBN: 978-1-4244-3362-9 *

Similar Documents

Publication Publication Date Title
Yu et al. FlowSense: A natural language interface for visual data exploration within a dataflow system
DE102019000294A1 (en) Create company-specific knowledge graphs
US9613317B2 (en) Justifying passage machine learning for question and answer systems
DE69906540T2 (en) MULTIMODAL USER INTERFACE
US11521713B2 (en) System and method for generating clinical trial protocol design document with selection of patient and investigator
US8370352B2 (en) Contextual searching of electronic records and visual rule construction
CN100458795C (en) Intelligent word input method and input method system and updating method thereof
CN111708874A (en) Man-machine interaction question-answering method and system based on intelligent complex intention recognition
DE112019001533T5 (en) EXTENSION OF TRAINING DATA FOR THE CLASSIFICATION OF NATURAL LANGUAGE
DE102013003055A1 (en) Method and apparatus for performing natural language searches
DE102014113870A1 (en) Identify and display relationships between candidate responses
DE112018006345T5 (en) GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS
US20140298199A1 (en) User Collaboration for Answer Generation in Question and Answer System
DE102019001267A1 (en) Dialog-like system for answering inquiries
DE112012001750T5 (en) Automated self-service user support based on ontology analysis
DE60101668T2 (en) METHOD AND DEVICE FOR GENERATING AN INDEX BASED ON A FORMAT FOR A STRUCTURED DOCUMENT
DE112020005268T5 (en) AUTOMATICALLY GENERATE SCHEMA ANNOTATION FILES TO CONVERT NATURAL LANGUAGE QUERIES TO STRUCTURED QUERY LANGUAGE
CN110297893A (en) Natural language question-answering method, device, computer installation and storage medium
DE112018005272T5 (en) SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE
DE112017007530T5 (en) Entity model CREATION
DE112020002129T5 (en) DEEP LEARNING APPROACH TO DATA PROCESSING BLANK
DE102021004562A1 (en) Modification of scene graphs based on natural language commands
Ilievski et al. Commonsense knowledge in wikidata
Luo et al. nvBench: A large-scale synthesized dataset for cross-domain natural language to visualization task
Lokman et al. Extension and prerequisite: An algorithm to enable relations between responses in chatbot technology

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10763674

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10763674

Country of ref document: EP

Kind code of ref document: A1