WO2001050343A1 - Dispositif d'extraction d'un mot-cle - Google Patents

Dispositif d'extraction d'un mot-cle Download PDF

Info

Publication number
WO2001050343A1
WO2001050343A1 PCT/JP2000/005433 JP0005433W WO0150343A1 WO 2001050343 A1 WO2001050343 A1 WO 2001050343A1 JP 0005433 W JP0005433 W JP 0005433W WO 0150343 A1 WO0150343 A1 WO 0150343A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
keyword
key
character string
unnecessary
Prior art date
Application number
PCT/JP2000/005433
Other languages
English (en)
French (fr)
Inventor
Hiroki Konaka
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to JP2001550633A priority Critical patent/JP4253152B2/ja
Priority to CA002362416A priority patent/CA2362416C/en
Priority to EP00951977A priority patent/EP1189150A4/en
Publication of WO2001050343A1 publication Critical patent/WO2001050343A1/ja
Priority to US09/945,677 priority patent/US7191177B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Definitions

  • the present invention relates to a keyword extracting device for extracting a keyword from text.
  • FIG. 11 is a configuration diagram showing, for example, a conventional key extraction device shown in Japanese Patent Application Laid-Open No. H10-3334102.
  • 1 is a data base
  • 2 is a primary key input processing section
  • 3 is a character type information section
  • 4 is a primary keyword storage section
  • 5 is a primary key word storage section. Denotes an unnecessary word removal processing unit
  • 6 denotes a keyword information storage unit.
  • the primary keyword cutout processing section 2 Based on the information in the character type information section 3 that specifies the type of character to be used as a key word, the primary keyword cutout processing section 2 performs a primary keyword conversion from the database 1 to the primary key word. Then, a character string that is to be extracted is extracted and stored in the primary key storage unit 4.
  • the unnecessary word removal processing unit 5 removes a primary keyword (synthetic word), which is equivalent to a combination of other primary keywords, as an unnecessary word, and removes the remaining keyword. ⁇ Store in the lead information storage unit.
  • the unnecessary word removal processing unit 5 removes the primary key word of one character and performs unnecessary word removal processing by removing the prefix and suffix stored in advance. In addition, it also describes processing such as not removing pre-registered or frequent compound words.
  • the present invention has been made to solve a problem such as HU himself, and has been made to improve the descriptiveness and reusability of information relating to keyword extraction.
  • the purpose of the present invention is to obtain a keyword extracting device that extracts a keyword efficiently and accurately while improving the keyword. Disclosure of the invention
  • a first keyword extracting device is a text input device for inputting text, and a character string formed by a regular expression or an equivalent pattern.
  • the number of pattern processing means for performing matching and replacement, and the number of key word component patterns representing character strings that can be components of keywords are reduced.
  • a pattern storage means having the above and a pattern processing means for text
  • a keyword constituent element pattern is provided.
  • a keyword candidate set generating means for generating a keyword candidate set from the keyword components;
  • a second keyword extraction device uses a keyword that generates a keyword candidate set by treating each keyword component as a keyword candidate as it is. It is characterized in that it has a mode candidate generation means.
  • a third keyword extraction device uses a pattern processing means for text to apply a keyword component pattern to a keyword.
  • a key word component extracting means for recording an extraction position while extracting all character strings having no overlap as key word components while touching each other; Keyword components that are determined to be consecutive on the text based on the character string length of each keyword component and the extraction position are linked together into one keyword.
  • a keyword candidate a single keyword component is left as a keyword candidate, and a keyword candidate set generation means for generating a keyword candidate set is used. It is characterized by having.
  • the fourth keyword extraction device is a system in which each of the textually-consecutive keyword components is used as a single keyword candidate, and is also used in the front and rear.
  • Each of the concatenated keyword components is a keyword candidate, while a single key word component is left as a keyword candidate as it is.
  • Keyword candidate set to generate word candidate set It is characterized by having a means for synthesizing.
  • a fifth keyword extraction device is a key word candidate set that combines duplicate key word candidates in a key word candidate set. It is characterized by having a means of generation.
  • a sixth keyword extraction device is a keyboard component pattern and a keyword representing a character string that can be a component of a key word.
  • Pattern storage means having at least a non-keyword candidate pattern representing a part that cannot be a candidate for the text, and the pattern for text.
  • processing means search for all non-overlapping character strings that match non-keyword candidate patterns, and determine any pattern. It is characterized by having a non-keyword candidate removal means for replacing a character string containing it with a special character string that does not match.
  • a seventh keyword extracting device includes a keyword component pattern and a keyword component representing a character string that can be a component of the keyword.
  • a pattern storage means having at least an exceptional key component pattern representing a key component which is difficult to cover with the pattern; All character strings that do not overlap each other and that match the exception keyword component pattern using the pattern processing means described above. Is extracted as an exception key code component, the extraction position is recorded, and each character string matched in the text is converted to any pattern. Example of converting to a special string that does not match the string containing it External key word component extraction means and key input key and exception key input key And a key word candidate set generating means for generating a key candidate set.
  • An eighth keyword extraction device is a keyword extraction device that represents a character string that can be a component of a key word and an unnecessary word that represents an unnecessary word.
  • a pattern storing means having at least a pattern, and the pattern processing for the entire character string of each keyword candidate in the keyword candidate set.
  • a ninth keyword extraction device provides a keyword component pattern representing a character string that can be a component of a key word and a required word representing a required word.
  • a pattern storage means having at least a pattern and unnecessary word patterns representing unnecessary words, and the entire character string of each keyword candidate in the keyword candidate set.
  • the above-mentioned pattern processing means is used to remove, from the keyword candidate set, those that do not match the required word pattern but match the unnecessary word pattern. It is characterized by having unnecessary word removing means
  • the tenth keyword extraction device includes a keyword component pattern representing a character string that can be a component of a keyword and an unnecessary head.
  • a pattern storage means having at least an unnecessary leading character string representing a character string; and a character string corresponding to the leading character string of each key word candidate in the key word candidate set.
  • the part that matches the unnecessary leading pattern is removed, and the matching is performed. If the result of is an empty string, the original key candidate is removed from the keyword candidate set, and It is characterized by having an unnecessary leading character string removing means that replaces a non-empty character string with the original key candidate.
  • a first keyword extraction device includes a keyword component element pattern representing a character string that can be a component of a keypad and an unnecessary first character string.
  • a pattern storage means having at least an unnecessary leading pattern representing the required leading character string and a required leading pattern representing the required leading character string, and each key of the keyword candidate set.
  • the part matching the unnecessary leading pattern is removed, and if the result is an empty character string, the original key candidate is used as the keyword candidate set. If it is not an empty string, it is used as a key candidate. It is characterized by having an unnecessary leading character string removing means for replacing with.
  • the first and second keyword extraction devices provide a key word component element pattern representing a character string that can be a key element and an unnecessary end character string.
  • a pattern storage means having at least an unnecessary tail pattern indicating the end of the character string and a tail character string of each key candidate in the key candidate set.
  • Using the pattern processing means for a keyword candidate that matches an unnecessary tail pattern, a portion that matches the unnecessary tail pattern is removed. If the result is an empty character string, the original key candidate is removed from the set of key word candidates, and if the result is not an empty character string, it is replaced with the original key candidate. And a means for removing unnecessary tail character strings to be replaced.
  • the keyword extracting device includes a keyword component pattern representing a character string that can be a component of the keyword and an unnecessary suffix character.
  • a pattern storing means having at least a unnecessary trailing pattern representing a column and a required trailing pattern representing a required trailing character string; and a keyword candidate set.
  • the part matching the unnecessary tail pattern is removed, and if the result is an empty string, the original key candidate is replaced with the keyword candidate set. And remove it from the list if it is not an empty string. It said a call that having a and unnecessary end string removal means you also substituted for the Ru Oh.
  • the 14th keyword extracting device is a combination of two or more of unnecessary word removing means, unnecessary leading character string removing means, and unnecessary trailing character string removing means. Or the keyword that was eventually removed from the key-pad candidate set by applying either the unnecessary leading character string removing means or the unnecessary trailing character string removing means twice or more. It is characterized in that the candidate word is added to the option of the unnecessary word pattern.
  • the fifteenth keyword extraction device includes a plurality of pattern storage means corresponding to the type and field of text, the type of storage pattern, and the like.
  • the same type of pattern stored in each pattern storage means is applied in parallel, and the pattern matched at the top It is characterized in that it has a pattern processing means for matching the longest character string as a matching result.
  • the 16th keyword extraction device is an unnecessary word parser.
  • the patterns stored in each pattern storage unit are applied in parallel, and any one of the patterns It is characterized in that it has a pattern processing means for stopping the application of other patterns as a matching result if it is touched. .
  • the seventeenth keyword extraction device includes a plurality of pattern storage means corresponding to the type and field of text, the type of storage pattern, and the like. Expand the selection, concatenation, repetition, etc. in the pattern as needed, and configure the pattern components with regard to the string length that may match. And a pattern integration means for integrating and outputting the various patterns stored in the pattern storage means for each type while arranging the patterns. It is a feature.
  • the eighteenth keyword extraction device sets an upper limit on the character string length that may possibly match, and sets a pattern that exceeds the upper limit. It has a pattern integration means for integrating and outputting the various patterns stored in the pattern storage means for each type while removing the components. It is characterized by
  • the nineteenth keyword extraction device sets an upper limit on the number of times of repetition of the pattern repetition, and the repetition of the pattern exceeding the upper limit is not performed. It is characterized by having pattern integration means for integrating and outputting the various patterns stored in the pattern storage means for each type. .
  • the 20th keyword extraction device stores unnecessary word patterns and necessary word patterns in respective pattern storage means.
  • the feature is that it has a pattern integration means that outputs a pattern in which each of the selected patterns is an option. It is something.
  • a 21st keyword extracting device is a text inputting means for inputting text, and a word is extracted from the input text to analyze a part of speech.
  • Part-of-speech analysis means and key-word candidate set generation means for generating a word sequence corresponding to a specific part-of-speech sequence as a keyword candidate from the output of the part-of-speech analysis means
  • a key word output means for outputting each key word candidate of the keyword candidate set as a key word.
  • a second keyword extracting device is a key word candidate that groups one key word candidate that is duplicated in a key word candidate set. It is characterized by having a set generation means.
  • the second and third keyword extraction devices perform matching and replacement of character strings by regular expressions or equivalent notations.
  • a twenty-fourth keyword extraction device includes a pattern having a non-keyword candidate pattern representing a part that cannot be a keyword candidate. All non-overlapping characters that match non-keyword candidate patterns using the pattern storage means and the pattern processing means for the text. It has a non-keyword candidate removing means for searching a column and replacing it with a special character string that does not correspond to a specific part of speech sequence. .
  • the twenty-fifth keyword extraction device is a specific product.
  • An exception key that represents a keyword component that is difficult to generate as a word sequence corresponding to a sequence of words.
  • the storage means and the pattern processing means for the text are used to match the exception keyword component pattern with the normal trap. All the character strings that do not exist are extracted as the exception key code component, the extraction position is recorded, and each character string matched in the text is replaced with the above character string.
  • Exception key word component extraction means for converting to a special character string that does not correspond to the specific part-of-speech sequence, and word strings 'and' corresponding to the specific part-of-speech sequence Generates a key candidate set from the exception key component It is characterized by having a keyword candidate set generation means.
  • a twenty-sixth keyword extraction device comprises: a pattern storage unit having an unnecessary word pattern representing an unnecessary word; and each key of a keyword candidate set.
  • Use notation processing means for the entire character string of the keyword candidate, and remove the one that matches the unnecessary word pattern from the keyword candidate set. It is characterized by having unnecessary word elimination means.
  • a twenty-seventh keyword extraction device is a pattern storage means having a required word pattern representing a required word and an unnecessary word pattern representing an unnecessary word. Then, the pattern processing means is used for the entire character string of each keyword candidate in the keyword candidate set, and the required word pattern is not mapped to the required word pattern. It is characterized by having unnecessary word elimination means for eliminating the object to be touched from the keyword candidate set.
  • a twenty-eighth keyword extraction device provides a pattern extraction device having an unnecessary leading pattern representing an unnecessary leading character string. Keyword that matches the unnecessary leading pattern by using the recording means and the pattern processing means for the first character string of each keyword candidate in the keyword candidate set. For the keyword candidates, the part matching the unnecessary leading pattern is removed, and if the result is an empty character string, the original keyword candidate is replaced with the key. And an unnecessary leading character string removing means for removing the character string from the candidate set and replacing it with the original key word candidate if it is not an empty character string. It is.
  • the twentieth keyword extraction device has an unnecessary first character representing an unnecessary first character string and a required first pattern representing a necessary first character string.
  • a pattern storing means having a character string, and the pattern processing means for the first character string of each keyword candidate in the keyword candidate set, and a required first pattern is used.
  • the part that matches the unnecessary top pattern is removed, and If the result of is an empty string, remove the original keyword candidate from the set of keyword candidates; otherwise, replace it with the original keyword candidate It is characterized by having an unnecessary initial character string removing means.
  • a 30th keyword extraction device comprises: a pattern storage unit having an unnecessary tail pattern representing an unnecessary end character string; and a keyword.
  • the pattern processing means is used for the last character string of each keyword candidate in the candidate set, and the keyword candidates that match the unnecessary tail pattern are not used. If the result is an empty string, the original keyword candidate is removed from the keyword candidate set if the result matches an unnecessary tail pattern. If it is not an empty string, it is used as the key ⁇ It is characterized by having unnecessary tail character string removing means for replacing a candidate.
  • a third keyword extraction device has an unnecessary tail pattern representing an unnecessary tail character string and a required tail pattern representing a required tail character string.
  • the pattern storage means and the pattern processing means are used for the tail character string of each keyword candidate in the keyword candidate set, and the required tail pattern is matched.
  • the part that matches the unnecessary tail pattern is removed, and the result is an empty string. Removes the original keyword candidate from the keyword candidate set if it exists, and replaces it with the original keyword candidate if it is not an empty string. It is characterized by having means.
  • the third and second keyword extracting device is a combination of two or more of unnecessary word removing means, unnecessary leading character string removing means, and unnecessary trailing character string removing means.
  • the keyword finally removed from the keyword candidate set by applying either the unnecessary leading character string removing means or the unnecessary trailing character string removing means twice or more. It is characterized in that the candidate word is added to the option of the unnecessary word pattern.
  • a third keyword extracting device includes a plurality of pattern storage means corresponding to the type and field of text, the type of storage pattern, and the like.
  • the same type of pattern stored in each pattern storage unit is applied in parallel, and the top of the pattern is matched. That is, it is characterized by having a pattern processing means for matching the longest character string.
  • the keyword extracting device includes an unnecessary word For patterns and required word patterns, the patterns stored in each pattern storage unit are applied in parallel, and any pattern is used for patterning. If it is touched, it is characterized by having a pattern processing means for stopping the application of other patterns as a matching result.
  • the third and fifth keyword extraction devices use a plurality of pattern storage means corresponding to the type and field of text, the type of storage pattern, and the like. If necessary, expand the selection, concatenation, repetition, etc. in the pattern, and configure the pattern with regard to the character string length that may match.
  • a pattern integration unit that integrates and outputs the various patterns stored in the pattern storage unit for each type while arranging the elements. It is characterized by
  • the 36th keyword extraction device sets an upper limit on the character string length that may be matched, and sets a pattern exceeding the upper limit.
  • the 37th keyword extraction device sets an upper limit on the number of times of repetition of the pattern repetition, and repeats the pattern exceeding the upper limit. Is excluded, and it is characterized in that it has a pattern integration means for integrating and outputting the various patterns stored in the pattern storage means for each type. .
  • the 38th keyword extraction device stores unnecessary word patterns and necessary word patterns in respective pattern storage means. It is characterized by having a pattern integration means that outputs a pattern in which each of the selected patterns is an option. It is something. Brief description of the drawings
  • FIG. 1 is a diagram for explaining a keyboard extracting device according to the first embodiment.
  • FIG. 2 is a diagram for explaining a key extraction device according to the second embodiment.
  • FIG. 3 is a diagram for explaining the keyword extracting device according to the third embodiment.
  • FIG. 4 is a diagram for explaining a keyboard extracting device according to the fourth embodiment.
  • FIG. 5 is a diagram for explaining a keyboard extracting device according to the fifth embodiment.
  • FIG. 6 is a diagram for explaining a keyboard extracting device according to the sixth embodiment.
  • FIG. 7 is a diagram for explaining a keypad extraction device according to the seventh embodiment.
  • FIG. 8 is a diagram for explaining the combination of the pattern storing means in the seventh embodiment.
  • FIG. 9 is a diagram for explaining a keypad extraction device according to the eighth embodiment.
  • FIG. 10 is a diagram for explaining a key extraction device according to the ninth embodiment.
  • FIG. 11 is a diagram for explaining a conventional keyboard extraction device. BEST MODE FOR IMPLEMENTING THE INVENTION Embodiment 1
  • FIG. 4 is a diagram for explaining a keyboard extraction device.
  • 10 is a text input means
  • 20 is a pattern processing means
  • 30 is a pattern storage means
  • 40 is a keyword component extraction means
  • 50 is a keyword candidate set generation means
  • 60 is a key word output means.
  • the text input means 10 converts, for example, Japanese codes as needed from files stored in a hard disk or the like. Read the text data in the meantime.
  • the pattern processing means 20 performs matching with a character string such as text and a regular expression or an equivalent pattern. Outputs the substring that was touched and its position, or replaces the substring that was matched with another given string. Also, by re-applying the pattern to the string following the part that matched the pattern, the pattern can be changed from one string to the next. It is also possible to find and replace all substrings that match without any overlap.
  • a regular expression is a generalized expression of a part of a character string, not a specific character string.
  • a regular expression is defined as follows. It is.
  • Regular characters between "C” and “]” are regular expressions that match any one of them. It is also possible to specify a range of characters, such as "[A-Z]”. Also, if you put "" immediately after "[”, it becomes a regular expression that matches one character other than the listed characters.
  • a regular expression containing an "I" is a regular expression that matches a string that matches one of the preceding or following regular expression (optional).
  • ⁇ , " ⁇ 0, 1 ⁇ " is a regular expression equivalent to the one suffixed with.
  • the pattern storage means 30 stores a regular expression or an equivalent pattern that can be processed by the pattern processing means 20.
  • the pattern is described by the above-mentioned regular expression.
  • the keyword component extracting means 40 outputs the keyword component stored in the pattern storage means 30 to the text input by the text input means 10. Using the pattern, matching is performed by the pattern processing means 20, and all the character strings that match each other in a duplicated manner are keyed. Extract them as components.
  • Keyword components such as “106 yen”, “11 sen”, “1 yen”, “15 sen” and “yen appreciation” (4) are extracted.
  • Keyword components such as “light”, “device”, “communication device”, and “development” (6) are extracted.
  • “use” of "use” does not match this pattern, it does not become a key component.
  • the keyword candidate set generating means 50 generates a keyword candidate set from the keyword components extracted by the key component extracting means 40.
  • each keyword component as a keyword candidate as it is.
  • this method is easy to extract the element concept, it has an aspect that it is not possible to extract a composite keyword consisting of several keyword components. Have.
  • keyword components that are consecutive on the text are concatenated as one keyword candidate, and a single keyword component is left as it is.
  • As a candidate it may be possible to generate a keyword candidate set.
  • the former and the latter are continuous, so
  • a keyword candidate set of "106.11 yen” and “1.15 yen higher” (7) is generated. This method is Although it is easy to extract key words, it has an aspect that it is difficult to extract the concept of elements.
  • keyword components that are contiguous on the text are each considered as a single keyword candidate, and are linked to the preceding and following keyword components. While each keyword is considered as a keyword candidate, a single keyword component is left as a keyword candidate, and a method of generating a keyword candidate set is also considered. Conceivable . In this case, in the above example,
  • a keyword candidate set (8) is generated.
  • the key word candidate set by this method includes the ones based on the former two, and it is possible to extract both element concepts and compound keywords. In some cases, a complete composite keyword may be extracted.
  • the determination as to whether the keyword components are continuous in the text is realized, for example, as follows. First, in the keyword component extracting means 40, the key component is extracted and the extraction position is recorded as the number of characters from the beginning of the text. Please. For example, suppose that a key component E1 having a character string length L1 is extracted at a position P1, and then a key component E2 is extracted at a position P2. If P1 + L1 is equal to P2, it is determined that E1 and E2 are continuous in text.
  • the keyword candidate set generation means 50 may combine the duplicate key candidates into one. ..
  • the keyword output means 60 is provided for each keyword in the keyword candidate set.
  • One word candidate is output to a file, printer, display, etc. as a keyword.
  • a keyword component is extracted using a regular expression having high descriptiveness or an equivalent pattern. It is possible to easily realize a flexible keypad extraction that is not particular about the kind.
  • FIG. 2 is a diagram for explaining a keyboard extraction device according to a second embodiment for carrying out the present invention.
  • reference numeral 70 denotes a non-keyword candidate removing means
  • pattern storage means 30 denotes a part which cannot be a keyword candidate. Non-keyword candidate patterns are additionally stored.
  • the non-key candidate removal means 70 uses the pattern processing means 20 to store the non-key candidate stored in the pattern storage means 30. Search the text for all strings that do not overlap (have the same part) that match each other in the turn, and determine any pattern. Replace with a special string that does not match the string containing it.
  • the keyword component extracting unit 40 extracts a keyword component from the text converted by the non-keyword candidate removing unit 70.
  • the keyword component pattern (1) corresponding to the above-described yen market information is used for the text of (10) above, for example.
  • a key component is extracted by removing a portion that cannot be a keyword candidate in advance.
  • unnecessary extraction of keyword components can be prevented.
  • FIG. 3 is a diagram for explaining a keyboard extracting device according to a third embodiment for carrying out the present invention.
  • reference numeral 80 denotes an exception keyword component extraction unit.
  • the pattern storage means 30 includes an exception key component element pattern that indicates a key element that is difficult to cover with the keyword element pattern. An additional run is stored.
  • keyword components It is possible to provide a pattern for extracting key components that cannot be covered by the key (2) and that contain a mixture of hiragana characters. Is
  • the non-keyword candidate removal means 70 uses these. Can be eliminated. However, in this case, it is impossible to extract a keyword component including a numeral by the keyword component extracting means 40.
  • the exception key card component extraction means 80 uses the pattern processing means 20 to store the exception key card component element patterns stored in the pattern storage means 30. If all strings that do not overlap with each other are extracted as exception keyword components and the extraction positions are recorded, Also, replace any pattern with a special string that does not match the string containing it. For example, if all patterns do not match a character string containing half-width characters, the extracted character string is replaced with the same number of half-width characters "@ @ @... ".
  • exception keyword component pattern (13) is used for the text “14: the light receiving elements are arranged two-dimensionally.”
  • the key word candidate set generation means 50 is extracted by the exception key word component extracted by the exception key word element extraction means 80 and the key word component extraction means 40. Generates key-key candidates from the obtained key-word components.
  • Keyword candidates are generated by any of the methods described in the first mode.
  • the exception key—the key component and the continuity determination of the key component on the text are as follows. For example, as described above, in the replacement of text in the exception keyword component extraction means 80 or the non-keyword candidate removal means 70, as described above. By keeping the number of characters in the list unchanged, the method described in Embodiment 1 can be used.
  • the third embodiment it is difficult to cover with the keyword constituent element pattern, or the non-keyword constituent element pattern is difficult to cover. It becomes possible to extract keyword components that cannot be extracted with the removal of the keyword candidates in advance.
  • FIG. 4 is a diagram for explaining a keyboard extraction device according to a fourth embodiment for carrying out the present invention.
  • FIG. 4 the same reference numerals as in FIGS. 1 to 3 are denoted by- ⁇ , which are the same or equivalent.
  • reference numeral 90 denotes unnecessary word removing means.
  • An unnecessary word pattern indicating an unnecessary word is additionally stored in the pattern storage means 30.
  • the unnecessary word removing means 90 uses the pattern processing means 20 for each of the keyword candidates generated by the key word candidate set generating means 50, so that the entire character string is unnecessary words. Key to match the pattern — Remove the key candidate from the key candidate set. Note that the leading "" and the trailing "$" of the pattern (18) indicate that the matching is performed with the entire character string of each key candidate.
  • the key component of (6) is a key candidate. If the set generating means 50 becomes a key word candidate as it is and the unnecessary word removing means 90 uses the unnecessary word pattern of (18), “Development” is removed as an unnecessary word, and “Hikari”, “Device”, and “Communication equipment” (19) are left as keyword candidates.
  • a required word pattern representing a required word is added and stored in the pattern storage means 30, and the unnecessary word removing means 90 is used for each keyword candidate. Then, the pattern processing means 20 is used, and the entire character string does not match the required word pattern, and the key matching the unnecessary word pattern is used as the key. By configuring it to be removed from the keyword candidate set, it is possible to prevent unnecessary keyword patterns from being accidentally deleted by unnecessary word patterns. And are possible.
  • the fourth embodiment it is possible to use a highly descriptive pattern to remove unnecessary keyword candidates.
  • a highly descriptive pattern By providing the required word pattern, it is possible to prevent keyword candidates from being deleted by mistake due to unnecessary word patterns. .
  • FIG. 5 is a diagram for explaining a key extraction device according to a fifth embodiment for carrying out the present invention.
  • reference numeral 100 denotes an unnecessary leading character string removing unit.
  • the pattern storage means 30 additionally stores an unnecessary top pattern representing an unnecessary top character string.
  • Unnecessary first character strings here include not only unnecessary prefixes such as "each” and “approximate” but also unnecessary first character strings of keyword candidates. Character string.
  • the pattern processing means 20 is used for the first character string of the keyword candidate, and the key candidate that matches the unnecessary leading pattern is matched. The part is removed, and if the result is an empty string, the original keyword candidate is removed from the keyword candidate set. If the result is not an empty string, the original keyword is removed. The replaced keyword candidates are returned to the unnecessary word removing means 90, and the unnecessary word removing process and the unnecessary leading character string removing process are performed again.
  • the " ⁇ " at the beginning of the keyword (22) indicates the destination of each keyword candidate. Indicates that matching with the initial string is to be performed.
  • the unnecessary leading character string removing means 100 The pattern processing means 20 is used for the first character string of each keyword candidate, and it matches the unnecessary first pattern without matching the required first pattern. For the keyword candidates, the part matching the unnecessary leading pattern is removed, and if the result is an empty string, the original keyword candidate is deleted. By removing it from the keyword candidate set and replacing it with the original keyword candidate if it is not an empty string, the necessary initial string is incorrectly entered. It is possible to prevent the removal.
  • Embodiment 5 it is possible to use a highly descriptive pattern to remove unnecessary leading character strings in keyword candidates. It is possible. Also, by providing the required leading pattern, it is possible to prevent the unnecessary leading pattern from being accidentally deleted by the unnecessary leading pattern. Is possible.
  • FIG. 6 is a diagram for explaining a keyboard extracting device according to a sixth embodiment for carrying out the present invention.
  • reference numeral 110 denotes unnecessary tail character string removing means.
  • An unnecessary tail pattern representing an unnecessary tail character string is additionally stored in the pattern storage means 30.
  • Unnecessary suffix strings here include not only unnecessary suffixes such as ⁇ equals '' and ⁇ groups '' but also unnecessary suffix strings for keyword candidates. Character string.
  • the unnecessary tail character string removing means 110 is not removed by the unnecessary word removing means 90, and may be changed by the unnecessary leading character string removing means 100.
  • the pattern processing means 20 is used for the last character string of each of the keyword candidates that have not been updated, and the keyword candidate that matches the unnecessary tail pattern is used.
  • the matched part is removed, and if the result is an empty character string, the original key candidate is removed from the keyword candidate set, and the empty character string is removed. If so, replace it with the original keyword candidate.
  • the replaced keyword candidates are returned to the unnecessary word removing means 90, and the unnecessary word is removed again. Processing, unnecessary leading character string removal processing, and unnecessary trailing character string removal processing are performed.
  • the "$" at the end of (25) indicates that matching with the end character string of each keyword candidate is performed.
  • the necessary end pattern representing the required end character string is added and stored in the pattern storage means 30, and the unnecessary end character string removing means 110 is stored in the unnecessary end character string removing means 110.
  • the pattern processing means 20 was used for the tail character string of the keyword candidate, and the unnecessary tail pattern was matched without matching the required tail pattern.
  • the part matching the unnecessary tail pattern is removed, and if the result is an empty string, the original keyword candidate is replaced with the keyword. By removing it from the keyword candidate set and replacing it with the original keyword candidate if it is not an empty string, the required end character string may be incorrect. It is possible to prevent the removal.
  • an unnecessary tail pattern (25) for the keyword candidate “ ⁇ Syndrome” cannot be removed by mistake because only the “group” is mistakenly removed. For example:
  • Embodiment 6 it is possible to use a highly descriptive pattern to remove unnecessary tail character strings in keyword candidates. It is possible. Also, by providing the required tail pattern, it is possible to prevent the tail character string of keyword candidates from being deleted by mistake due to the unnecessary tail pattern. It is possible .
  • Embodiment 5 or Embodiment 6 unnecessary word removal processing and unnecessary heading are performed for a certain keyword candidate. Combining two or more of the character string removal processing and unnecessary tail character string removal processing, or applying one of the unnecessary head character string removal processing and unnecessary tail character string removal processing at least twice As a result, a certain key candidate may be eventually removed from the key candidate set. If a phrase containing such a character string occurs more than once in one document, it is possible to add such a character string to the unnecessary word pattern option. As a result, redundant processing can be omitted.
  • a character string when each key candidate is generated by the key candidate set generation means 50 is set as an initial character string.
  • Each keyword is given two candidates.
  • a keyword candidate is finally removed in one of the unnecessary word removal processing, the unnecessary leading character string removal processing, and the unnecessary tail character string removal processing, the character immediately before that is removed. If the column is different from the initial string, the initial string is added to the option of the unnecessary word pattern.
  • an unnecessary tail pattern (25) is applied to the key word candidate "Usage method” first, leaving "IJ for IJ”. It is assumed that NOT (18) is applied and finally removed from the keyword candidate set.
  • FIG. 7 is a diagram for explaining a key extraction device according to a seventh embodiment for carrying out the present invention.
  • FIG. 7 the same reference numerals as those in FIGS. 1 to 6 are the same or equivalent.
  • reference numerals 30a to 30c denote a plurality of pattern storage means corresponding to the type field of the text, the type of the storage pattern, and the like.
  • Each pattern storage means does not necessarily have to have the same type of pattern.
  • the information for keyword extraction must be technical information. Something that is universal to the whole document, one that is generally available in the context of computing, and one that is unique to a mopi-le computer. A variety of levels are conceivable. Even if the text is related to the same monocomputer, for example, in the case of a patent, words such as "invention” and “claims” are characteristic of the text. Because it does not represent a character, it is possible to consider information that is appropriate for the type of text, as if it were not suitable as a key.
  • patterns corresponding to various levels and types of information related to such keyword extraction are stored. It would be better if a variety of pattern storage means could be prepared and used in combination according to the type and field of the target text. Keyword extraction corresponding to various texts can be efficiently realized.
  • the pattern processing means 20 applies the same kind of patterns stored in each pattern storage means in parallel, and the pattern processing means 20 firstly applies the pattern at the top. The longest of the touches The character string is used as the matching result. If no match is found, the match has failed as a whole.
  • Keyword component extracting means 40 non-keyword candidate removing means 70, exception keyword component extracting means 80, unnecessary word removing means 90, unnecessary leading character string removing means 100, Unnecessary tail character string removing means 110 extracts the pattern required for each processing from all the pattern storage means, and processes it in pattern processing means 20. Let me do it.
  • each of the exception key components is stored in the pattern storage means 30a, 30b, 30c as a component pattern.
  • a keyword candidate that is judged to be unnecessary by this method should be used as a keyword in a certain text, it is added. It may be possible to stop using the evening storage means, or to modify some unnecessary words and passwords in a certain area. It is also conceivable to use the storage method for storing the required word patterns to be matched with the candidates at the same time. Similarly, for the unnecessary leading pattern and unnecessary trailing pattern, the required leading and trailing character strings are deleted by combining the required leading pattern and the required trailing pattern. It is possible to prevent this from happening. In addition, the keyword components that are originally required and included in the part to be deleted by the non-keyword candidate pattern are also mapped. Exception keyword The pattern storage means that stores the pattern of the component elements can be used together.
  • unnecessary word patterns and required word patterns are matched because the entire character string of the key candidate is matched. If any of the patterns match, the matching result of the other patterns is not necessary, and the pattern processing means 20 does not apply them. It is possible to avoid unnecessary pattern processing by stopping and matching M as a result.
  • various types of pattern storage means corresponding to the type and field of text and the type of storage pattern can be used in combination as described in Embodiment 7. As a result, it is possible to improve the reusability of information used for keyword extraction and to flexibly and efficiently cope with various texts. .
  • FIG. 4 is a diagram for explaining a key extraction device.
  • 120 is a pattern integration means.
  • the pattern processing means 20 does not apply a plurality of patterns in parallel as shown in the seventh embodiment, but shows a pattern in the first embodiment. It's okay.
  • the pattern integration means 120 integrates and outputs the various patterns stored in each pattern storage means for each type.
  • the strings that may match each pattern are the closest to the top and the longest.
  • an integrated pattern is configured in consideration of the property of (C 2) in the matching. In other words, while expanding the selection, concatenation, repetition, etc. of the components of each pattern, the length of the character strings that may match may be the same. , And construct an integrated pattern that selects them in order from the longest one.
  • Keyword component extraction means 40 non-keyword candidate removal means 70, exception keyword component extraction means 80, unnecessary word removal means 90, unnecessary first character
  • the column removing unit 1000 and the unnecessary tail character string removing unit 110 execute respective processes using the pattern integrated by the pattern integrating unit 120. .
  • an alignment pattern For simplicity of explanation, we have a pattern with the same character string length that may match (hereinafter referred to as an alignment pattern). ) Is represented by a set of patterns with the character string length as a circled number and added to the beginning. For example, “1 ⁇ 2 (Eu Io),, (30)” is a length 1 "No” pattern and a length 2 pattern "(Re I Eo)” This is a sort of alignment pattern.
  • an alignment pattern corresponding to a pattern in which each pattern is an option is formed, and characters that may be matched are formed. This is achieved by outputting an integrated pattern that is selected as an option in order from the pattern with the longest column length. For example, the alignment pattern of (30) is finally
  • an upper limit is set for the string length that may be matched, and patterns exceeding the upper limit are removed to form an integrated pattern. To improve the efficiency of matching by shortening the integrated pattern by eliminating extremely long patterns that are unlikely to match. Is also possible.
  • the character string length of the input text is an example of an obvious upper limit, but in practice, about 20 characters are often sufficient.
  • the alignment pattern corresponding to a certain pattern is obtained as follows.
  • a pattern in which normal characters are consecutive becomes an alignment pattern with the pattern corresponding to the character string length.
  • the patterns with "I” in them are the alignment patterns corresponding to the patterns before and after the "I", and the patterns corresponding to each length are displayed. It becomes an alignment pattern with a new pattern that takes the option as a choice.
  • Patterns that are concatenated are aligned patterns that correspond to each pattern, and patterns that correspond to each combination of lengths. If necessary, concatenate the parentheses while enclosing them in parentheses, and use the concatenated pattern as an option. The new pattern is aligned with the total length corresponding to the total length. It becomes a.
  • Embodiment 8 various types of data stored in various types of storage means corresponding to the type and field of text, the type of storage pattern, and the like. It is possible to apply a pattern with a single pattern processing. Furthermore, in the integration of each pattern by the pattern integration means, the first character string that can match each pattern is the first. An integrated pattern is constructed taking into account the nature of (C2) in matching, so that the longest one near the head is the matching result. Therefore, it is not necessary to consider the nature of (C 2) in describing the options of each pattern, and more flexible description is possible.
  • FIG. 10 is a diagram for explaining a key extraction device according to a ninth embodiment for carrying out the present invention.
  • FIG. 10 the same reference numerals as those in FIGS. 1 to 9 are the same or equivalent.
  • the part-of-speech analysis unit 130 extracts words or morphemes from the text input from the non-keyword candidate removal unit 70 and analyzes the part-of-speech.
  • You As a means of extracting words or morphemes from input text and analyzing parts of speech, for example, morphological analysis of Japanese text text, morphological analysis of English text, and Part-of- You can use speech tagging.
  • the keyword candidate set generation means 50 is a keyword candidate and a part of speech sequence to be determined in advance from the output of the part-of-speech analysis means 130.
  • the corresponding word or morpheme sequence is considered as a key candidate.
  • a continuous noun is used as a keyword candidate.
  • the “cryptographic device” (34) is a keyword candidate. However, in (33), the part of speech was indicated by ⁇ > after each morpheme as the analysis result.
  • the cipher (39) is the final key-key candidate.
  • Nao (38) a space indicating a word delimiter is inserted at the beginning, and It should be noted that a turn that can handle multiple forms is used.
  • the word or morpheme sequence corresponding to the keyword candidate and the part-of-speech sequence that should be determined in advance is specified.
  • extraction methods There are various extraction methods, but it is also possible to use a pattern as one of the methods.
  • the output of the part-of-speech analysis means 130 is indicated by the part-of-speech after a word or morpheme, such as (33) or (37). If the output is separated by spaces and each word or morpheme does not contain the characters " ⁇ ", ">", then a continuous noun, for example, is taken. To do this, use pattern processing means 20 and
  • a flexible unnecessary character string using a pattern can be obtained even for a key candidate obtained by performing a part-of-speech analysis. Processing is possible. Industrial applicability
  • a text input means for inputting text and a regular expression or an equivalent node are used.
  • a pattern storage means having at least a card component pattern; Using the pattern processing means for the string, all the character strings that do not overlap each other to match the keyword component pattern are keyed.
  • Keyword component extraction means for extracting as keyword components, and keyword candidate set for generating a keyword candidate set from each keyword component Since it has a generation means and a keyword output means for outputting each keyword candidate of the keyword candidate set as a keyword, a regular description with high descriptiveness is provided.
  • a keyword candidate set is generated by treating each keyword component as a keyword candidate as it is. Since a keyword candidate set generation means is provided, it is effective to easily extract the element concept.
  • the key component pattern is applied to the text by using the pattern processing means.
  • a key component that records the extraction position while extracting all character strings that do not overlap with each other as keyword components.
  • the extraction means and the keyword components determined to be continuous on the text based on the character string length of each keyword component and the extraction position are connected to form one keyword.
  • a keyword candidate a single keyword component is left as it is as a keyword candidate, and a keyword candidate set generator that generates a keyword candidate set With steps, it is easy to extract compound keywords. There is fruit.
  • Each keyword component that is continuous in the text is considered as a unique keyword candidate, and each keyword component that connects the preceding and following keyword components is used as a keyword.
  • a keyword candidate set generating means for generating a keyword candidate set as a keyword candidate while a single keyword component is left as a keyword candidate Because it is equipped, both element concepts and compound keywords can be extracted.
  • a key for combining duplicate key candidates in a key word candidate set into one is provided.
  • the provision of a mode candidate set generation means makes it possible to avoid redundancy in subsequent processing.
  • a key component pattern representing a character string that can be a component of a key code is provided.
  • a pattern storage means having at least a non-keyword candidate pattern representing a part that cannot be a keyword candidate, and a text-to-text method.
  • search for all character strings that do not match the foreground wrap that match non-keyword candidate patterns Since the non-keyword candidate removal means is replaced with a special character string that does not match the character string that contains the pattern, unnecessary keyword is used. It is possible to prevent extraction of the code component.
  • a key word component pattern representing a character string that can be a key word component is provided. Exceptions that represent key components that are difficult to cover with key component patterns and key component patterns that have at least a few key components Using the pattern storage means and the pattern processing means for text to match the exception keyword component pattern with an overlap. All the character strings that do not exist are extracted as exception keyword components, the extraction position is recorded, and each character string matched in the text is extracted.
  • Keyword candidate set generation means for generating a keyword candidate set from the keyword components is provided, so that the keyword component element pattern covers To remove difficult or non-keyword candidates And Tsu is this you extract INTRODUCTION A La or the keys word over de components that Do Na rather come in the extractions can and that Do not.
  • a keyword component pattern representing a character string that can be a component of a keyword is provided.
  • Unnecessary keywords are provided by using unnecessary word removal means to remove unnecessary word patterns from the key candidate set using key processing means. It is possible to use a highly descriptive pattern to remove code candidates.
  • a key component pattern representing a character string that can be a component of a keyword is required.
  • a pattern storage means having at least a required word pattern representing a word and an unnecessary word pattern representing an unnecessary word, and each keyword candidate of a keyword candidate set.
  • the pattern processing means is used for the entire character string of There is an unnecessary word removal means that removes from the keyword candidate set those that do not match the key word pattern but match the unnecessary word pattern. In addition, it is possible to prevent a candidate for a key word from being accidentally deleted by an unnecessary word pattern.
  • a key component pattern representing a character string that can be a component of a key is provided.
  • a pattern storage means having at least a key pattern and an unnecessary head pattern representing an unnecessary head character string; and a key word candidate for each key word candidate of the key word candidate set.
  • a key word component element pattern representing a character string that can be a key element is provided.
  • a pattern storage means having at least at least an unnecessary start pattern representing an unnecessary start character string and a necessary start pattern representing a necessary start character string, and a key code candidate.
  • the pattern processing means is used for the leading character string of each key word candidate in the set, and the leading character string is matched to the unnecessary leading pattern without being matched to the required leading pattern.
  • the part matching the unnecessary leading pattern is removed, and if the result is an empty character string, the original keyword candidate is replaced with the key word. Removed from the word candidate set, and if it is not an empty string, Is provided with an unnecessary leading character string removing means for replacing the original leading character string candidate with the original key word candidate. It can be prevented from being deleted.
  • a key word component pattern representing a character string that can be a component of a keyword is provided.
  • the part that matches the unnecessary tail pattern is removed, and If the result is an empty string, the original key word candidate is removed from the set of key word candidates, and if the result is not an empty character string, it is replaced with the original key word candidate. Since there is an unnecessary tail character string removing means, the key It is possible to use a highly descriptive pattern to remove unnecessary trailing strings in.
  • the key word component pattern representing a character string that can be a component of the keyword is provided.
  • the above pattern processing means is used for the tail character string of each key candidate of the candidate set, and the unnecessary tail pattern is not matched without matching the required tail pattern.
  • the part matching the unnecessary tail pattern is removed, and if the result is an empty character string, the original key-pad candidates Is removed from the keyword candidate set, and if it is not the empty string, it is Is provided with an unnecessary tail character string removing means for replacing the original key word candidate with the original key word candidate, so the end character string of the key word candidate is deleted by mistake in the unnecessary tail pattern. It is possible to prevent this from happening.
  • the fourteenth keyword extraction device of the present invention two or more of unnecessary word removing means, unnecessary leading character string removing means, and unnecessary tail character string removing means are combined. Finally, by applying one of the unnecessary leading character string removing means and the unnecessary trailing character string removing means at least twice, the keyword is finally removed from the keyword candidate set. Since the configured keyword candidates are added to the option of the unnecessary word pattern, it is possible to avoid redundant processing.
  • a plurality of patterns corresponding to the type and field of text, the type of storage pattern, and the like are provided.
  • the pattern storing means and the various patterns the same kind of pattern stored in each pattern storing means is applied in parallel, and the pattern is matched at the top.
  • a pattern processing means for matching the longest character string is provided, so that the information used for extracting keywords can be reused. Can be improved and can be flexibly and efficiently adapted to various texts.
  • the unnecessary word pattern and the necessary word pattern are stored in each of the pattern storage means.
  • the stored patterns are applied in parallel, and if one of the patterns is matched, it is used as the matching result and the application of other patterns is applied.
  • the system is equipped with a "no-stop" pattern processing means, so that unnecessary pattern processing can be avoided for unnecessary word patterns and required word patterns. so is there .
  • a plurality of patterns corresponding to the type and field of text, the type of storage pattern, and the like are provided.
  • a pattern integration means for integrating and outputting the various patterns stored in the pattern storage means for each type is provided. Since it is provided, the application of various patterns stored in various pattern storage means according to the type and field of text, the type of storage pattern, etc. It can be realized by a single pattern processing.
  • the integration of each pattern by the pattern integration means one of the character strings that may match each pattern is selected.
  • the matching pattern is constructed in consideration of the property of (C2) in matching so that the longest one near the top is the matching result. Therefore, it is not necessary to consider the nature of (C2) in the description of the options for each pattern, and more flexible description is possible.
  • an upper limit is set for a character string length that may be matched, and a pattern exceeding the upper limit is set.
  • a pattern integration means is provided for integrating and outputting the various patterns stored in the pattern storage means for each type while removing the components of the pattern. Therefore, the integration pattern can be shortened, and the efficiency of matching can be improved.
  • the upper limit of the number of times of repetitive expansion is set for the repetition of the pattern, and a pattern exceeding the upper limit is set. Pattern repetition is excluded, and the pattern A pattern integration means that integrates and outputs the various patterns stored in the storage means for each type is provided, so the integrated pattern becomes enormous. Can be prevented.
  • the unnecessary word pattern and the necessary word pattern are stored in each of the pattern storage means. Since a pattern integration means for outputting a pattern with the stored patterns as options is provided, it is possible to avoid unnecessary pattern integration processing.
  • text input means for inputting text, and word extraction for input text are provided.
  • a part-of-speech analysis means for outputting part-of-speech and analyzing the part-of-speech, and generating a word sequence corresponding to a specific part-of-speech sequence as a keyword candidate from the output of the part-of-speech analysis means.
  • a keyword candidate set generating means, and a keyword output means for outputting each keyword candidate of the keyword candidate set as a keyword.
  • duplicate key candidates in a keyword candidate set are combined into one. Since a key candidate set generation means is provided, it is possible to avoid redundancy in subsequent processing.
  • a character string is matched and replaced by a regular expression or an equivalent pattern.
  • character strings used for matching and substitution in the pattern processing means And a pattern storage means for storing a pattern representing the key word. Therefore, even if a keyword candidate obtained by performing part of speech analysis is It is possible to perform flexible unnecessary character processing using
  • a keyword constituent element pattern representing a character string that can be a constituent element of a keyword is provided.
  • a key component pattern representing a character string that can be a component of a key code is provided. And at least some exception key key component patterns that represent key components that are difficult to cover with key component patterns.
  • the key word component pattern representing a character string that can be a component of the keyword is obtained.
  • Unnecessary word elimination means is provided, which uses pattern processing means and eliminates unnecessary word patterns from the keyword candidate set by matching unnecessary word patterns. It is possible to use highly descriptive patterns to remove keyword candidates.
  • a key word component 'pattern representing a character string that can be a key component is provided.
  • a pattern storage means having at least a required word pattern representing a required word and an unnecessary word pattern representing an unnecessary word, and each key of a keyword candidate set.
  • the above-mentioned pattern processing means is used for the entire character string of the word candidate, and a key that matches an unnecessary word pattern without matching a required word pattern is used. It has a means to remove unnecessary words from the keyword candidate set, so that it is possible to prevent keyword candidates from being deleted by mistake due to unnecessary word patterns. It is.
  • a key component pattern representing a character string that can be a component of a keyword is provided.
  • a key component pattern representing a character string that can be a component of a key code is provided.
  • Key storage means having at least a number of unnecessary head patterns representing an unnecessary head character string and an unnecessary head pattern representing a required head character string; and
  • the pattern processing means is used for the leading character string of each key candidate in the key candidate set, and the leading character pattern is matched to the unnecessary leading pattern without being matched to the required leading pattern.
  • the part that matches the unnecessary leading pattern is removed, and if the result is an empty character string, the original key word is used. Removes the candidate from the key candidate set, and if it is not an empty string, replaces it with the original key.
  • An unnecessary leading character string removing means for replacing with a candidate key is provided, so the leading character string necessary for a key word candidate is deleted by mistake in the unnecessary leading pattern. It is possible to prevent this.
  • a key word component pattern representing a character string that can be a component of a key word is provided.
  • a keyword component element pattern representing a character string that can be a component element of a keyword is provided.
  • the above-mentioned pattern processing means is used for the end character string of each of the keyword candidates, and the end character string is matched to the unnecessary end pattern without being matched to the required end pattern.
  • the part matching the unnecessary tail pattern is removed, and if the result is an empty string, the original keyword candidate is replaced with the key. Remove it from the word candidate set and replace it with the original key if it is not an empty string.
  • An unnecessary tail character string removing means for replacing a key candidate is provided, so that it is possible to prevent an unnecessary tail pattern from erroneously deleting a tail character string of a key candidate. And are possible.
  • the third and second keyword extracting device of the present invention two or more of unnecessary word removing means, unnecessary leading character string removing means, and unnecessary tail character string removing means are combined. There is no means for removing unnecessary leading character strings and unnecessary tail character strings. By applying the shift more than once, the keyword candidates finally removed from the keyword candidate set are added to the unnecessary word pattern options. Because it is configured so that redundant processing is possible, it is possible to avoid redundant processing.
  • a plurality of patterns corresponding to the type and field of the text, the type of the storage pattern, and the like are provided.
  • the same type of pattern stored in each pattern storage means is applied in parallel, and the top is matched.
  • a pattern processing means that matches the longest character string as a matching result is provided, so that the information used for keyword extraction can be reused. It is possible to improve flexibility and to respond to various kinds of text flexibly and efficiently.
  • the unnecessary word pattern and the necessary word pattern are stored in each pattern storing means. Are applied in parallel, and if one of the patterns is matched, it will be used as the matching result and the other pattern will be applied. Is provided with a pattern processing means for stopping the unnecessary word processing, thereby avoiding unnecessary word processing and unnecessary pattern processing for the required word pattern. Is possible.
  • a plurality of parameters corresponding to the type and field of the text, the type of the storage pattern, and the like are provided.
  • the pattern storage means and, if necessary, the selection, concatenation, repetition, etc., of the pattern are expanded, and the length of the character string that can be matched.
  • a pattern integration unit that integrates and outputs various patterns stored in the pattern storage unit for each type while arranging the components of the pattern. And the application of various patterns stored in various pattern storage means according to the type and field of text, the type of storage pattern, etc. Can be realized by a single pattern processing.
  • the first character string that may match each pattern is the first one.
  • An integrated pattern is constructed in consideration of the property of (C 2) in the matching so that the longest one that is close to the result is the matching result. Therefore, it is not necessary to consider the nature of (C2) in the description of the options for each pattern, and more flexible description is possible.
  • an upper limit is set for a character string length that may be matched, and the upper limit is exceeded.
  • a pattern integration means for integrating and outputting the various patterns stored in the pattern storage means for each type while removing the components of the pattern. Providing this makes it possible to shorten the integration pattern and improve the efficiency of matching.
  • the upper limit of the number of times of repetitive expansion is set for the repetition of the pattern, and the pattern exceeding the upper limit is set.
  • Pattern repetition is excluded, and a pattern integration means is provided that integrates and outputs the various patterns stored in the pattern storage means for each type. Therefore, it is possible to prevent the integrated pattern from becoming enormous.
  • the unnecessary word patterns and the necessary word patterns are stored in the respective patterns.
  • a pattern integration unit that outputs a pattern with each of the patterns stored in the means as an option is provided, so that unnecessary pattern integration processing can be avoided. .

Description

明 糸田 キー ヮ 一 ド 抽 出装置 技術分野
こ の発 明 は、 テキス ト か ら キ ー ワ ー ド を抽 出す る キー ワ ー ド 抽 出装置 に 関す る も の で あ る 。 背景技術
図 1 1は、 た と え ば特 開平 1 0— 3 3 4 1 0 2に示 さ れた従来 の キ一 ヮ一 ド 抽 出装置 を示す構成 図で あ る 。 図 1 1にお レ ^ て 、 1 はデ一 夕 ベ ース 、 2 は一次キー ヮ - - ド 切 出処理部、 3 は字種情報部、 4 は一次キ一 ワ ー ド 格納部、 5 は不要 語除去処理部、 6 はキ ー ワ ー ド 情報格納部で あ る 。
つ ぎ に 、 動作 に つ い て説明す る 。 キ一 ヮ 一 ド と な る 文 字 の種別 を 定 め た字種情報部 3 の 情報 に基づき 、 一次キ 一ワ ー ド 切 出処理部 2 はデー タ ベー ス 1 か ら 一次キー ヮ ー ド と な る 文字列 を抽 出 し て一次キ一 ヮ — ド 格納部 4 に 格納す る 。 不要語除去処理部 5 は他 の一次キー ヮ ー ド を 結合 し た も の と 等 し い 一次キー ワ ー ド (合成語) を 不要 語 と し て 除去 し 、 残 っ た も の を キ一 ヮ 一 ド 情報格納部 に 格納す る 。
ま た 、 不要語除去処理部 5 で は 1 文字 の一次キー ヮ ー ド を 除去 し た り 、 あ ら か じ め格納 さ れた接頭語、 接尾語 を 除 い て不要語除去処理 を行な っ た り 、 あ ら か じ め 登録 さ れて い る か あ る い は頻出す る 合成語 は除去 し な い な ど と い っ た処理 も 記載 さ れて い る 。
従来の キ一ワ ー ド抽 出装置は字種情報 を べ一ス と し て い る の で、 複数 の字種 に ま た が つ た キ ~ 7 ~~ ド を抽 出す る こ と が困難で あ っ た 。 ま た キ一フ ー ド と はな り 得な い と 同定で き る 部分 に 関 し て も キ ド 抽 出処理が行な わ れ る た め 、 不要な処理 の結果 、 誤 つ た キー ヮ一 ド を抽 出 す る 可能性 も あ っ た 。 さ ら に キー ヮ — ド と な る べ き 合 成語や不要な一次キー ワ ー ド 、 · ^ロロ 、 接尾語 に 関す る 情報が文字列 も し く は単な る 文字数 と し て格納 /規定 さ れ る た め 、 述 の柔軟性、 簡潔性 に欠 け、 ま た本来 は接 sSロロ ■ 接尾語で はな い 部分が誤 つ て削除 さ れた り 、 キー ワ ー ド と な る ベ き 1 文字 の文字列 を抽 出で き な い と い つ た 問題点 あ つ た 。 ま たそれ ら の情報 を 分野 ' 文書 タ イ プな ど に対応 し て モ ジ ユ ール化 し 、 必要 に応 じ て組み合 わ せて用 い る こ と も 不可能で あ り 、 それ ら の *報 の 再利 用 性が乏 し か つ た 。
こ の発明 は、 HU Θ己 の よ う な 問 題点 を解決す る た め に な さ れた も の で あ り 、 キー ヮ ー ド 抽 出 に 関す る 情報 の 記述 性、 再利用 性 を 向 上 さ せなが ら 、 精度よ く 効率的 に キー ワ ー ド を抽 出す る キー ワ ー ド 抽 出装置 を 得 る こ と を 目 的 と す る も の で あ る 。 発 明 の 開示
本発 明 に 係 る 第 1 の キー ワ ー ド 抽 出装置は、 テキ ス ト を 入力 す る テキ ス ト 入力 手段 と 、 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ッ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン を 少 な く と も 有す る パ タ ー ン格納手段 と 、 テキス 卜 に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キ一 ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に ォーノ ー ラ ッ プの な いすべて の文字 列 を キ一 ヮ一 ド 構成要素 と し て抽 出す る キー ヮ ー ド 構成 要素抽 出手段 と 、 各キ 一 ヮ 一 ド 構成要素か ら キ一 ワ ー ド 候補集合 を 生成す る キー ワ ー ド 候補集合生成手段 と 、 キ
— ヮ ー ド 候補集合 の各キ一 ヮ一 ド 候補 を キ一 ヮ一 ド と し て 出力 す る キー ワ ー ド 出 力 手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に 係 る 第 2 の キー ワ ー ド 抽 出装置は、 各キー ヮ ー ド 構成要素 を そ の ま ま キー ワ ー ド 候補 と し て キー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 を有 す る こ と を 特徴 と す る も ので あ る 。
本発 明 に 係 る 第 3 の キ ー ワ ー ド 抽 出装置は、 テキ ス ト に対 し 前記パ タ ー ン処理手段 を 用 い て、 キー ワ ー ド 構成 要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と して抽 出 し なが ら 抽出位置 を 記録す る キー ヮ ー ド 構成要素抽 出手段 と 、 各キー ヮ ー ド 構成要素 の文字列長 と抽 出位置か ら テ キ ス ト 上連続 し て い る と 判定 さ れた キ一 ワ ー ド 構成要素 は連 結 し て 1 つ の キ ー ワ ー ド 候補 と し て、 単独の キー ワ ー ド 構成要素はそ の ま ま キ ー ワ ー ド 候補 と し て、 キー ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有 す る こ と を 特徴 と す る も の で あ る 。
本発 明 に 係 る 第 4 の キー ワ ー ド 抽 出装置は、 テキス ト 上連続 し た キ一 ヮ一 ド 構成要素 はそれぞれを 単独の キー ワ ー ド 候補 と す る と と も に 、 前後の キー ワ ー ド 構成要素 を連結 し た も の をそれぞれキー ヮ ー ド 候補 と す る 一方、 単独 の キ一 ヮ 一 ド 構成要素 はそ の ま ま キー ヮ ー ド 候補 と し て 、 キ一 ワ ー ド 候補集合を 生成す る キー ワ ー ド 候補集 合生成手段 を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 5 の キー ワ ー ド 抽 出装置 は、 キー ヮ 一 ド 候補集合 に お い て重複 し た キー ヮ 一 ド 候補 を 1 つ に ま と め る キ 一 ヮ一 ド 候補集合生成手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 6 の キー ワ ー ド 抽 出装置 は、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い部分 を表 わす非キー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テキ ス ト に対 し 前記パ タ ー ン処理手 段 を用 い て非キー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な いすべて の文字列 を検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補除去手段 と を 有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 7 の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素 パ タ ー ン と キー ヮ ー ド 構成要素パ タ ー ンで網羅す る こ と が困難な キー ヮ ー ド 構成要素 を表わす例外キー ヮ ー ド 構成要素パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納 手段 と 、 テキス ト に対 し て前記パ タ ー ン処理手段 を 用 い て、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に ォ一バー ラ ッ プの な いすべて の文字列 を例外キー ヮ 一 ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別な文字列 に変換す る 例外キー ワ ー ド 構成要素抽 出手段 と 、 キー ヮ 一 ド 構成要素お よ び例外キー ヮ ー ド 構成要素か ら キー ヮ 一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 8 の キー ワ ー ド 抽 出装置は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ一 ワ ー ド候補集合 の 各キ一 ヮ一 ド 候補 の文字列全体 に対 し て前記パ タ ー ン 処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ ー ヮ 一 ド 候補集合か ら 除去す る 不要語除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 9 の キー ワ ー ド 抽 出装置は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 必要語 を表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン 格納手段 と 、 キー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 文字列全体 に 前記パ タ ー ン処理手段 を用 い 、 必要語パ 夕 — ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の を キ 一ワ ー ド 候補集合か ら 除去す る 不要語除去手段 と を有す る こ と を特徴 と す る も の で あ る
本発 明 に係 る 第 1 0の キー ワ ー ド 抽 出装置 は、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要な 先頭文字列 を表わす不要先頭パ 夕 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の各キー ヮ ー ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ツ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と のキ一 ヮ一 ド候補 をキー ヮー ド候補集合か ら 除去 し、 空文字列 でな けれ ばそれ を も と の キ ー ヮ 一 ド 候補 と 置換 す る 不要先頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 1の キー ワ ー ド 抽 出装置 は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素パ タ ー ン と 不要な 先頭文字列 を 表わ す不要先頭パ タ ー ン と 必要な 先頭文字列 を表わす必要先頭パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補 集合 の各キー ヮ 一 ド 候補 の先頭文字列 に対 し て前記バ タ — ン処理手段 を 用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 し ては、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果 が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、. 空文字列で な けれ ばそれ を も と の キ一 ヮ一 ド 候補 と 置換す る 不要先頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 2の キー ワ ー ド 抽 出装置は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成 要素パ タ ー ン と 不要な 末尾文字列 を表わ す不要末尾パ 夕 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ一 ヮ 一 ド 候補集合 の各キ一 ヮ一 ド 候補 の 末尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ツ チす る キ 一 ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と のキ一 ヮ一 ド候補 をキー ヮ一 ド候補集合か ら 除去 し、 空文字列 でな けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換 す る 不要末尾文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。 本発 明 に係 る 第 1 3の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要な末尾文字列 を表わ す不要末尾バ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補 集合 の 各キー ヮ ー ド 候補 の末尾文字列 に対 し て前記パ 夕 ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 し ては、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果 が空文字列で あ れ ばも と の キー ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去手段 と を 有す る こ と を特徴 とす る も の で あ る 。
本発 明 に係 る 第 1 4の キー ワ ー ド 抽 出装置は、 不要語 除 去手段 、 不要先頭文字列除去手段、 不要末尾文字列除去 手段 の う ち 2 つ以上 を 組み合わせて 、 あ る い は不要先頭 文字列除去手段、 不要末尾文字列除去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て最終的 に キー ヮ 一 ド 候補 集合か ら 除去 さ れたキ一 ワ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に 付加す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 1 5の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 のパ タ ー ン格納手段 と 、 各種パ タ ー ン を適用す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を有 す る こ と を特徴 と す る も ので あ る 。
本発 明 に係 る 第 1 6の キー ヮ ー ド 抽 出装置は、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に格納 さ れた パ タ ー ン を並行 し て適用 し 、 い ずれか のパ タ ー ンでマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 のパ タ ー ン の適用 を 中止す る パ タ ー ン処理手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 7の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 の パ タ ー ン格納手段 と 、 必要 に応 じ てパ タ ー ン に お け る 選択、 連結、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を 種別 ご と に統合 し て 出 力す る パ タ ー ン統合手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 8の キー ワ ー ド 抽 出装置は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し なが ら 、 前記パ タ ー ン 格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を 有す る こ と を 特徴 とす る も の で あ る 。
本発 明 に係 る 第 1 9の キー ワ ー ド 抽 出装置は、 パ タ ー ン の 反復 に 関 し て反復展 開 回数 の 上限 を設 け、 それ を超え る パ タ ー ン の 反復 は除外 し て 、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を有する こ と を特徴 と する も のであ る 。
本発 明 に係 る 第 2 0の キー ワ ー ド 抽 出装置は、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と す る パ タ ー ン を 出 力す る パ タ ー ン統合手段 を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 1の キー ワ ー ド 抽 出装置は、 テキス ト を入力 す る テキ ス ト 入 力 手段 と 、 入力 さ れた テキス ト に 対 し 単語 を抽 出 し て品詞 を解析す る 品詞解析手段 と 、 品 詞解析手段 の 出力 か ら 、 特定 の 品詞 の シー ケ ンス に対応 し た単語列 を キー ヮ ー ド 候補 と し て生成す る キ一 ヮ一 ド 候補集合 生成手段 と 、 キー ワ ー ド 候補集合 の各キー ヮ 一 ド 候補 を キー ヮ 一 ド と し て 出 力 す る キー ヮ 一 ド 出力手段 と を 有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 2の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド 候補集合 にお い て重複 し たキ一 ヮ一 ド 候補 を 1 つ ま と め る キ ー ヮ ー ド 候補集合生成手段 を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 3の キー ワ ー ド 抽 出装置 は、 正規表現 も し く は 同等のノ タ ー ン に よ る 文字列 の マ ッ チ ン グお よ び置換を 行な う パ タ ー ン処理手段 と 、 パ タ ー ン処理手段 で の マ ッ チ ン グお よ び置換に使用 さ れ る 文字列 を表わす パ タ ー ン を格納す る パ タ ー ン格納手段 と を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 4の キ一 ワ ー ド 抽 出装置は、 キー ヮ ー ド の候補 と な り 得な い 部分 を表わす非キー ワ ー ド 候補パ タ ー ン を 有す る パ タ ー ン格納手段 と 、 テキス ト に対 し パ タ ー ン処理手段 を用 い て 、 非キー ワ ー ド 候補パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な い すべて の文字列 を検索 し 、 特定 の 品詞 の シー ケ ン ス に対応 し な い特別 な 文字列 に 置換す る 非キー ヮ ー ド 候補除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 5の キー ワ ー ド 抽 出装置は、 特定の 品 詞 の シー ケ ン ス に対応 し た単語列 と し て 生成す る こ と が 困難なキー ヮ ー ド 構成要素 を表わす例外キー ヮ ー ド 構成 要素パ タ ー ン を 有す る パ タ ー ン格納手段 と 、 テキス ト に 対 し てパ タ ー ン処理手段 を用 い て 、 例外キー ワ ー ド 構成 要素ノ° タ ー ン に マ ッ チす る 互 い に ォ一ノ ー ラ ッ プの な い すべての文字列 を例外キー ヮ一 ド構成要素 と して抽 出 し、 そ の抽 出位置 を記録す る と と も に 、 テキ ス ト 中 マ ッ チ し た各文字列 を 、 前記特定 の 品詞 の シーケ ンス に対応 し な い 特別な文字列 に変換す る 例外キー ヮ ー ド 構成要素抽 出 手段 と 、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列 'お よ び例外キー ヮ ー ド 構成要素か ら キ一 ヮ一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 6の キー ワ ー ド 抽 出装置は、 不要語 を 表わす不要語パ タ ー ン を有す る パ タ ー ン格納手段 と 、 キ ー ヮ ー ド 候補集合 の 各キー ヮ ー ド 候補 の文字列全体 に対 し てノ\° タ ー ン処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チ す る も の を キー ヮ ー ド 候補集合か ら 除去す る 不要語除去 手段 と を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 7の キー ワ ー ド 抽 出装置は、 必要語 を 表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キー ヮ ー ド 候補 の文字列全体 にパ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キー ヮ ー ド 候補集合か ら 除去す る 不要語除 去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 8の キー ワ ー ド 抽 出装置は、 不要な 先 頭文字列 を表わす不要先頭パ タ ー ン を有す る パ タ ー ン格 納手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 の 先 頭文字列 に対 し 記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先 頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文 字列で あ れば も と の キー ヮ ー ド 候補 を キー ヮ ー ド 候補集 合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ 一 ド 候補 と 置換す る 不要先頭文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に 係 る 第 2 9の キ ー ワ ー ド 抽 出装置 は、 不要な 先 頭文字列 を表わす不要先頭.パ タ ー ン と 必要な 先頭文字列 を 表わす必要先頭パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キ一 ワ ー ド 候補集合 の各キー ワ ー ド 候補 の先頭文字 列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要先頭パ 夕 ー ン に マ ッ チせず不要先頭パ タ ー ン にマ ッ チす る キ 一 ヮ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部 分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と の キ ー ヮ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列で な けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 不要先 頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 0の キー ワ ー ド 抽 出装置は、 不要な 末 尾文字列 を 表わす不要末尾パ タ ー ン を有す る パ タ ー ン格 納手段 と 、 キ一 ワ ー ド 候補集合 の各キー ワ ー ド 候補 の 末 尾文字列 に対 し てパ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要末 尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文 字列で あ れば も と の キー ワ ー ド 候補 を キー ワ ー ド 候補集 合か ら 除去 し 、 空文字列でな ければそれ を も と のキー ヮ 一 ド 候補 と 置換す る 不要末尾文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 1の キー ワ ー ド 抽 出装置は、 不要な 末 尾文字列 を表わす不要末尾パ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 の末尾文字 列 に対 し てパ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不要末尾パ タ ー ン に マ ッ チす る キ一 ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列で な け ればそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文 字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 2の キー ワ ー ド 抽 出装置は、 不要語 除 去手段、 不要先頭文字列除去手段、 不要末尾文字列 除去 手段の う ち 2 つ 以上 を 組み合わせて、 あ る い は不要先頭 文字列除去手段、 不要末尾文字列除去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て、 最終的 に キー ワ ー ド 候 補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に 付加す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 3の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野 、 格納パ タ ー ン の種別 な ど に対応 し た複 数のパ タ ー ン格納手段 と 、 各種パ タ ー ン を適用 す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種 のパ タ ー ン を並行 し て適用 し 、 最 も 先頭 でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 を有す る こ と を特徵 と す る も の で あ る 。
本発明 に係 る 第 3 4の キー ワ ー ド 抽出装置 は、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に 格納 さ れた パ タ ー ン を並行 し て適用 し 、 いずれか 'のパタ ー ンでマ ッ チすればそれを マ ッ チ ン グ結果 と し て 、 他 のパ タ ー ン の 適用 を 中止す る パ タ ー ン処理手段 を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 5の キー ワ ー ド 抽 出装置 は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 のパ タ ー ン格納手段 と 、 必要 に 応 じ て パ タ ー ン に お け る 選択 、 連結、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を整列 し なが ら 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 6の キー ワ ー ド 抽 出装置は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン 格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出力 す る パ タ ー ン統合手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 7の キー ワ ー ド 抽 出装置 は、 パ タ ー ン の反復 に 関 し て反復展 開 回数の 上限 を設 け、 それ を超 え る パ タ ー ン の反復 は除外 し て、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パタ ー ン統合手段 を有する こ と を特徵 と する も のであ る 。
本発 明 に係 る 第 3 8の キー ワ ー ド 抽 出装置 は、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に 格納 さ れたパ タ ー ン をそれぞれ選択肢 と す る パ タ — ン を 出 力 す る パ タ ー ン統合手段 を有す る こ と を特徴 と す る も の で あ る 。 図面 の簡単な説明
図 1 は実施 の形態 1 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 2 は実施 の形態 2 の キ一 ヮ一 ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 3 は実施 の 形態 3 の キー ワ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 4 は実施 の形態 4 の キー ヮ ー ド 抽 出装置 を説明す る た め の 図で あ る 。
図 5 は実施 の 形態 5 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 6 は実施 の 形態 6 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 7 は実施の形態 7 のキー ヮ 一 ド 抽 出 装置 を説明す る た め の 図で あ る 。
図 8 は実施 の 形態 7 にお け る パ タ ー ン格納手段 の組合 せ を 説明す る た め の 図で あ る 。
図 9 は実施 の形態 8 の キ一 ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 1 0は実施 の形態 9 のキ一 ヮ一 ド抽 出装置 を説 明す る た め の 図で あ る 。
図 1 1は従来のキー ヮ ー ド抽 出装置 を説明す る た め の 図 で あ る 。 発 明 を 実施す る た め の 最良 の形態 実施 の 形態 1
図 1 は、 こ の発 明 を 実施す る た め の実施 の 形態 1 に よ る キー ヮ ー ド 抽 出装置 を説明す る た め の 図で あ る 。
図 1 にお い て 、 1 0はテキス ト 入力 手段、 2 0はパ タ ー ン 処理手段、 3 0はパ タ ー ン格納手段 、 40はキ ー ワ ー ド 構成 要 素抽 出 手 段 、 5 0はキ ー ワ ー ド 候補集合生 成手段 、 6 0 はキ一 ヮ一 ド 出 力 手段で あ る 。
テキ ス ト 入力 手段 1 0はた と え ばハー ド ディ ス ク な ど に 格納 さ れた フ ァ イ ルな どか ら 、 必要 に応 じ て 日 本語 コ ー ド の変換な ど を行な い なが ら テキス ト デー タ を読み込む。
パ タ ー ン処理手段 2 0はテキ ス ト な ど の文字列 と 、 正規 表現 も し く は 同 等 のパ タ ー ン を 与 え ら れてマ ッ チ ン グ を 行な い 、マ ッ チ し た部分文字列 と そ の位置 を 出 力 し た り 、 与え ら れた別 の文字列 に よ っ て マ ッ チ し た部分文字列 の 置換 を 行な う 。 ま た、 あ る パ タ ー ン に マ ッ チ し た部分 の 後続の文字列 にそのパタ ー ン を再び適用 する こ と に よ り 、 あ る 文字列 か ら そ のパ タ ー ン に互 い に オーバー ラ ッ プな く マ ッ チす る すべて の部分文字列 を検索 し 、 置換す る こ と も 可能で あ る 。
正規表現 と は特定の文字列で はな く 、 文字列 の一部 を 一般化 し て表現す る こ と を可能 と す る も の で あ り 、 た と え ば以下の よ う に定義 さ れ る 。
• 通常 の文字 は 、それ 自 身 と マ ッ チす る 正規表現で あ る 。 例) 正規表現 " レ " はテキス ト 「 あ い う えお」 の 「 レ 」 に マ ッ チす る 。
• 正規表現 を連結 し た も の は、 各正規表現 に マ ッ チす る 文字列 を連結 し た文字列 にマ ッ チする正規表現で あ る 。 例) " う え " は 「 あ い う え お」 の 「 う え」 に マ ッ チす る 。 • " " は文字列 の先頭 に マ ッ チす る 正規表現で あ る 。 例) " ' あ " は 「 あ い う え お」 の 「 あ 」 に マ ッ チす る 。 • " $ " は文字列 の末尾 に マ ッ チす る 正規表現で あ る 。 例) "お $ " は 「 ぁ レ、 う え お」 の 「お」 に マ ッ チす る 。
• " C " と " ] " の 間 に通常 の文字 を並べた も の は、 そ れ ら の い ずれか 1 文字 に マ ッ チす る 正規表現で あ る 。 " [ A - Z ] " と い う よ う に あ る 範 囲 の 文字 を 指定す る こ と も 可能で あ る 。 ま た " [ " の 直後 に " " を 置 く と 、 並べた文字以外 の 1 文字 と マ ッ チす る 正規表現 と な る 。
例) " [ レ、 一 え ] " は 「 ぁ レ、 う え お」 の 「 い 」 「 う 」 「 え 」 の い ずれカゝ に マ ッ チす る 。
" [ い 一 え ] " は 「 あ い う え お 」 の 「 あ 」 「 お 」 の い ずれカゝ に マ ッ チす る 。
• " ( " と " ) " で 囲 ま れた正規表現 は括弧 内 の正規表 現 と 同 等 の 正規表現で あ る 。
例) " ( う え) " は 「 ぁ レ う え お」 の 「 う え」 に マ ッ チ す る 。
• " I " を は さ ん だ正規表現 は、 そ の 前後の正規表現 の い ずれ か に マ ッ チす る 文字列 に マ ッ チす る 正規表現 で あ る (選択) 。
例) " ( レ I う え ) " は 「 ぁ レ、 う えお」 の 「 い」 「 う え 」 の い ずれカゝ に マ ッ チす る 。
' 正規表現 に " { m, n} " ( m, nは 0 以上 の 整数、 m≤ n ) が後置 さ れた も の は、 そ の 正規表現 の m回以上 n 回以下 の 反復 を表わす正規表現で あ る 。
例) " い { 1, 3} " は 「 あ い い え お 」 の 「 い い」 も し く は い ずれか の 「 レ 」 に マ ッ チす る 。
' 正規表現 に " { m } " 、 " { m, } " 、 " * " 、 " + " " ? " が後置 さ れた も の はそれぞれ、 そ の正規表現 に " { m, m } ', 、 " { m , ∞ } ', 、 " { 0, ∞ } ,' 、 { 1 ,
∞ } " 、 " { 0, 1 } " が後置 さ れた も の と 同等の正規表 現で あ る 。
例) " レ { 2 } " は 「 ぁ レ、 い え お 」 の 「 い い 」 に マ ッ チ す る 。 '-
" い + " は " い { 1 , } " と 同等で あ り 、 「 あ い い え お」 の 「 い レ 」 も し く は レ ずれか の 「 い」 に マ ツ チす る 。
" レ * え " は 「 あ い い え お 」 の 「 い い え 」 「 レ え 」 「 え」 の い ずれ力、 に マ ッ チす る 。
" い ? え " は 「 あ い い え お」 の 「 レ え」 「 え」 の レ ずれか に マ ッ チす る 。
正規表現 に よ る マ ッ チ ン グは非決定性有限状態ォ一 ト マ ト ン を用 い て効率的 に行な わ れ る が、 こ の 場合 : • 文字列 の複数 の部分がマ ッ チ可能な場合、 文字列 の 先 頭 に近 い 部分がマ ッ チす る 。 ( C 1 )
• 選択 にお い て複数の 選択肢がマ ッ チ可能な場合、 左の 選択肢が優先 さ れ る 。 ( C 2 )
• 反復 を含む正規表現で は、 よ り 多 く の 反復 に よ る マ ツ チが優先 さ れ る 。 ( C 3 ) と い う 点 に注意が必要で あ る 。
パ タ ー ン格納手段 3 0は、 パ タ ー ン処理手段 2 0 が処理 可能な正規表現 も し く は同等 の パ タ ー ン を格納 し て お く も の で あ る 。 以下、 パ タ ー ン は前述の 正規表現で記述す る も の と す る 。
た と え ば円相場情報な ど の テキス ト か ら 、 円相場 の 情 勢 を表わすキ一 ヮ一 ド 構成要素 を抽出 し た い 場合 に は : " ( [ 0— 9 ] + [円 銭 ] 1 (円 I ドル) [高安 ] ) " ( 1 ) な ど と い っ た キ一 ヮ一 ド 構成要素パ タ ー ン を 用意すれば よ い 。
ま た技術系 文書な ど で は、 連続 し た漢字や カ タ カ ナ の 文字列 を キー ワ ー ド 構成要素 と す る こ と が有用 な場合が 多 い 。 た だ し漢字 1 文字 の 場合 は、 「光」 「熱」 な ど分 野 に よ っ て意味が あ る も の も あ る が、 多 く の 場合ひ ら が な が あ と に続 い て動詞や形容詞 と な る た め 、 一部 の文字 を 除 い てキー ヮ ー ド 構成要素か ら 除外 し た方がよ い 塲合 が多 い 。 ま た カ タ カ ナ 1 文字 を キー ワ ー ド 構成要素 と す べ き 場合 も 極 め て稀で あ る 。 こ れ ら を考慮す る と 、 た と え ば以下 の よ う な キー ヮ ー ド 構成要素パ タ ー ン を用 い る こ と が考 え ら れ る 。
" ( [亜ー瑤 ] {2, H [ァ—ケー _] {2, H [光熱 ]) " ( 2 ) な お 、 " [亜 ー 瑤 ] " はすべて の漢字 を 、 " [ ァ ー ケ 一 一 ] " はすべて の カ タ カ ナ と 長音符号 を 表わすパ タ ー ン で あ る 。 ま た 、 ( C 2 )に 示 し た よ う に マ ッ チ ン グで は左 の 選択肢が優先 さ れ る た め 、 " [光熱 ] " の よ う に短 い文 字列 に マ ッ チす る 選択肢は右 の方 に置 き 、 パ タ ー ン全体 と し てで き る だ け長 い 文字列 に マ ッ チす る よ う に し て い る 。
キー ワ ー ド 構成要素抽 出手段 40は、 テ キス ト 入 力手段 10で 入力 さ れ た テ キ ス ト に 対 し 、 パ タ ー ン格納 手段 30 に格納 さ れた キー ワ ー ド 構成要素パ タ ー ン を用 い て 、 パ タ ー ン処理手段 20に よ り マ ッ チ ン グ を行な い 、 互 い に重 複な く マ ッ チす る すべて の文字列 を キー ヮ ー ド構成要素 と し て抽 出す る 。
た と え ば
「 15日 の東京外国為替市場 の 円 相場 は 1 ド ル = 106円 11 銭で、 前 日 に 比べ 1 円 15銭 円 高 と な っ た 。 」 ( 3 ) と い う テキ ス ト に対 し 、 円 相場情報 に対応 し たキ一 ヮ一 ド 構成要素パ タ ー ン ( 1 )を 用 い れば、
「 106円 」 「 11銭」 「 1 円 」 「 15銭」 「 円 高」 ( 4 ) と い っ た キー ヮ ー ド 構成要素が抽 出 さ れ る 。
ま た
「光デバイ ス を 用 い た通信装置 を 開 発 し た。 」 ( 5 ) と い う テキ ス ト に対 し て技術系文書 に対応 し たキー ヮ ー ド 構成要素ノ タ ー ン ( 2 )を 用 い れ ば、
「光」 「デバイ ス 」 「通信装置」 「 開発」 ( 6 ) と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 な お 、 「用 い た」 の 「用 」 は こ のパ タ ー ン に マ ッ チ し な い た め 、 キー ヮ 一 ド 構成要素 と はな ら な い 。
キー ヮ ー ド候補集合生成手段 50はキー ヮ 一 ド構成要素 抽 出手段 40が抽 出 し たキー ヮ ー ド 構成要素か ら キー ヮ ー ド 候補集合 を 生成す る 。
最 も 単純な も の は、 各キー ワ ー ド 構成要素 をそ の ま ま キー ワ ー ド 候補 と す る も の で あ る 。 こ の方式 は要素概念 を抽 出 し やす い も の の 、 い く つ か の キ一 ワ ー ド 構成要素 か ら な る 複合キ一 ワ ー ド を抽 出 で き な い と い う 側面 を持 つ 。
ま た、 テキス ト 上連続 し た キー ワ ー ド 構成要素 は連結 し て 1 つ の キー ワ ー ド 候補 と し て 、 単独 のキ一 ワ ー ド 構 成要素 はそ の ま ま キー ワ ー ド 候補 と し て 、 キ ー ワ ー ド 候 補集合 を 生成す る こ と も 考 え ら れ る 。 前述の例で は前二 者 と 後 者がそれぞれ連続 し て い る の で 、
「 106円 11銭」 「 1 円 15銭 円 高」 ( 7 ) と い う キー ワ ー ド 候補集合が生成 さ れる 。 こ の方式 は複 合キー ワ ー ド を 抽 出 し やすい も の の 、 要素概念 を取 り 出 し に く い と い う 側面 を も つ 。
さ ら に 、 テキ ス ト 上連続 し た キー ワ ー ド 構成要素 はそ れぞれ を 単独 の キー ワ ー ド 候補 と す る と と も に 、 前後の キ― ヮ一 ド 構成要素 を連結 し た も の も それぞれキー ヮ ー ド 候補 と す る 一方、 単独 の キー ワ ー ド 構成要素 はそ の ま ま キ一 ワ ー ド 候補 と し て、 キー ワ ー ド 候補集合 を 生成す る 方式 も 考 え ら れ る 。 こ の場合前述 の例で は、
「 106円 」 「 11銭」 「 1 円 」 「 15銭」 「 円 高」 「 106円 11銭」 「 1 円 15銭」 「 15銭 円 高」 「 1 円 15銭円 高」
( 8 ) と い う キー ワ ー ド 候補集合が生成 さ れ る 。 こ の方式 に よ る キ一 ヮ一 ド 候補集合は前二者 に よ る も の を包含す る も の で あ り 、 要素概念 も 複合キー ワ ー ド も 抽 出可能で あ る が、 不完全な複合キー ワ ー ド が抽 出 さ れ る 場合 も あ る 。
な お 、 キー ワ ー ド 構成要素がテ キ ス ト 上連続 し て い る か ど う か の判定 は、 た と え ばつ ぎの よ う に実現 さ れ る 。 ま ずキー ワ ー ド 構成要素抽 出手段 40にお い て 、 キ一 ヮ一 ド 構成要素 を抽 出す る と と も に抽 出位置 を テキス ト の 先 頭か ら の文字数 と し て記録 し てお く 。 た と え ば、 文字列 長 L1の キ ー ヮ ー ド 構成要素 E1が位置 P1で抽 出 さ れ 、 つ ぎにキ一 ヮ一 ド構成要素 E2が位置 P2で抽 出 さ れた とする と 、 P1 + L1が P2に 等 し ければ E1と E2はテキス ト 上連続 し て い る と 判定 さ れる 。
ま た 、 後続処理 に お け る 冗長性 を 回避す る た め に 、 キ ー ヮ ー ド候補集合生成手段 50は重複 し たキ一 ヮ一 ド候補 を 1 つ に ま と め て も よ い.。
キー ワ ー ド 出 力 手段 60は、 キ一 ワ ー ド 候補集合 の 各キ 一ワ ー ド 候補 を キー ワ ー ド と し て フ ァ イ ルや プ リ ン タ 、 ディ ス プ レー な ど に 出 力 す る も の で あ る 。
こ の よ う に実施の形態 1 に よ れば、 記述性の高 い正規 表現 も し く は同等 のパ タ ー ン を用 い て キー ワ ー ド 構成要 素 を抽 出す る た め 、 字種 に こ だわ ら な い 柔軟な キー ヮ 一 ド 抽 出 を 容易 に 実現す る こ と が可能で あ る 。
実施 の形態 2
図 2 は、 こ の 発明 を 実施す る た め の実施 の形態 2 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 2 に お い て 、 図 1 と 同一 の 符号 を付 し た も の は、 同 一ま た は こ れ に 相 当 す る も の で あ る 。
図 2 に お い て 、 7 0は非キー ワ ー ド 候補除去手段で あ る ま た パ タ ー ン格納手段 3 0に は、 キ一 ワ ー ド の候補 と な り 得な い部分 を表わす非 キー ヮ ー ド 候補パ タ ー ンが追加 し て格納 さ れて い る 。
た と え ば円 相 場情報で現在の 円 相場 と は関係な く 、 単 に 円 相場 の動向 だ け を キー ワ ー ド と し て取 り 出 し た い 場 合、 非キ ー ワ ー ド 候補パ タ ー ン と し て
" 1 ド ル = [ 0— 9 ] + 円 ( [ 0 _ 9 ] + 銭) ? " ( 9 ) と い っ たノ\° タ ー ン を格納 し てお け ばよ い 。
非 キ 一 ヮ一 ド 候補 除去手段 7 0はパ 夕 一 ン 処理 手 段 2 0 を用 い て 、 パ タ ー ン格納手段 3 0に格納 さ れた 非キ—— ヮ一 ド 候補ノ、° タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プ ( 同 一の部分 を有す る ) の な い文字列 を テキス ト か ら すべて 検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ツ チ し な い特別な文字列 に置換す る 。
た と え ば ど の パ タ ー ン も 決 し て半角 文字 を含む文字列 に マ ッ チす る こ と がな けれ ば、 非キー ワ ー ド 候補パ 夕一 ン に マ ッ チ し た文字列 を 、 同 じ 文字数 の 半角 の " ###… " と い う 文字列 に置換す る ( " … " は繰返 し の省略記号で あ る ) 。 前 出 の 円 相場情報の例文 ( 3 )は、
「 15日 の東京外国為替市場 の 円 相場 は ###########で、 前 日 に 比べ 1 円 15銭 円 高 と な っ た 。 」 ( 10) と レゝ ぅ テキ ス ト に変換 さ れ る 。
キー ワ ー ド 構成要素抽 出手段 40は、 非 キー ワ ー ド 候補 除去手段 70に よ っ て変換 さ れたテキス ト か ら キー ヮ ー ド 構成要素 を 抽 出す る 。 円 相場情報 の例で は、 前記 ( 10 )の テキ ス ト に 対 し 、 た と え ば前述 の 円 相場情報 に対応 し た キー ワ ー ド 構成要素パ タ ー ン (1)を用 い る こ と に よ り 、
「 1 円 」 「 15銭」 「 円 高」 ( 11) と い う キ一 ヮ一 ド 構成要素が抽 出 さ れ る 。
こ の よ う に実施の形態 2 に よ れ ば、 キー ワ ー ド の候補 と な り 得な い 部分 を あ ら か じ め 除去 し て キ一 ヮ一 ド 構成 要素 を抽 出 す る の で、 不要なキ ー ワ ー ド 構成要素 の抽 出 を 防 ぐ こ と が可能 と な る 。
実施 の形態 3
図 3 は、 こ の発 明 を 実施す る た め の実施 の形態 3 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 3 にお い て、図 1 〜 2 と 同一 の 符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 3 に お い て 、 80は例外キ一 ワ ー ド 構成要素抽 出手段 で あ る 。 ま たパ タ ー ン格納手段 30に は、 キー ワ ー ド 構成 要素パ タ ー ンで網羅す る こ と が困難なキー ヮ 一 ド 構成要 素 を表わす例外キ ー ヮ ー ド 構成要素パ タ ー ンが追加 し て 格納 さ れて い る 。
た と え ば技術系文書 の場合、 キー ワ ー ド 構成要素パ 夕 ー ン ( 2 )で は網羅で き な い 、 ひ ら がな の混在 し た キ ー ヮ — ド 構成要素 を抽 出す る た め の パ タ ー ン を 用 意す る こ と が考 え ら れる 。
ま た技術系文書で は よ く 数値デー タ が現れ る が、 こ れ ら を
" [ 0 - 9 . 一 ] + " ( 1 2 ) と い う よ う な非キー ワ ー ド 候補パ タ ー ン と し てお け ば非 キー ヮ ー ド候補除去手段 7 0で こ れ ら を 除去する こ と が可 能で あ る 。 し か し なが ら こ の よ う にす る と 、 数字 を含ん だキー ヮ ー ド構成要素 をキー ヮ ー ド構成要素抽出手段 4 0 で抽 出で き な く な る 。
こ れ ら の キー ヮ ー ド 構成要素 を抽 出す る た め に はた と え ば、
" ( し き い 値 I 割 り 込 み i [ 0— 9 ] + (進数 I 次元) ) "
( 1 3 ) と い う よ う な例外キー ワ ー ド 構成要素パ タ ー ン を 用 意す る 。
例外キー ヮ ー ド 構成要素抽 出手段 8 0はパ タ ー ン処理手 段 2 0を用 い て、 パ タ ー ン格納手段 3 0に格納 さ れた 例外キ ー ヮ ー ド 構成要素パ タ ー ン に マ ッ チす る 、 互 い に オーバ 一ラ ッ プの な い すべて の文字列 を 例外キー ワ ー ド 構成要 素 と し て抽 出 し 、 そ の抽出位置 を 記録す る と と も に 、 ど の パ タ ー ン も 決 し てそれを含む文字列 に マ ッ チ し な い特 別 な文字列 に置換す る 。 た と え ば ど の パ タ ー ン も 決 し て 半角 文字 を含む文字列 に マ ッ チす る こ と がな けれ ば、 抽 出 さ れた文字列 を 同 じ 文字数の半角 の " @ @ @ … " と い う 文字列 に置換す る 。
た と え ば 「受光素子 を 2 次元 に配列 し た 。 」 ( 14) と い う テキ ス ト に対 し て例外キー ワ ー ド 構成要素パ タ ー ン ( 13 )を 用 い れば、
「 2 次元」 ( 15) と い う 例外キー ワ ー ド 構成要素が抽 出 さ れ る と と も に 、 も と の テキス ト は
「受光素子 を @ @ @ に配列 し た 。 」 ( 16) と い う テキ ス ト に変換 さ れて後 の処理 に移 さ れ る 。
キー ヮ 一 ド候補集合生成手段 50は例外キー ヮ ー ド構成 要素抽 出手段 80で抽 出 さ れた例外キー ヮ ー ド 構成要素 と キ一 ヮ一 ド構成要素抽 出手段 40で抽 出 さ れたキー ヮー ド 構成要素か ら キー ヮ 一 ド 候補 を 生成す る 。
前 出 の例文 ( 14 )に対 し てキー ヮ 一 ド 構成要素パ タ ー ン (2)を 用 い れば
「受光素子」 「配列」 ( 17) の 2 つ の キー ワ ー ド 構成要素が抽 出 さ れ、 それ ら と (15) の例外キ一 ワ ー ド 構成要素か ら 、 た と え ば実施 の 形態 1 で述べた方法 の い ずれか に よ り 、 キー ワ ー ド 候補が生成 さ れ る こ と に な る 。
なお キー ワ ー ド 候補集合生成手段 50に お け る 、 例外キ — ヮ 一 ド 構成要素お よ びキ一 ヮ 一 ド 構成要素 の テキ ス ト 上 の 連続性判定 に つ い て は、 た と え ば例外キ ー ワ ー ド 構 成要素抽 出手段 80も し く は非 キー ヮ ー ド 候補除去手段 7 0に お け る テ キ ス ト の 置換 に お い て 前述 の よ う に テ キ ス ト の文字数 を 変 え な い よ う にす る こ と に よ り 、 実施 の 形 態 1 で述べた方法 を用 い る こ と がで き る 。
こ の よ う に実施 の形態 3 に よ れ ば、 キ ー ワ ー ド 構成要 素パ タ ー ンで は網羅す る こ と が困難な 、 あ る い は非キ一 ヮ ー ド 候補 の 除去 に伴 っ て抽 出 で き な く な る キ一 ワ ー ド 構成要素 を あ ら か じ め 抽 出す る こ と が可能 と な る 。
実施 の 形態 4
図 4 は、 こ の発 明 を 実施す る た め の 実施 の 形態 4 に よ る キ ー ヮ ー ド 抽 出装置 を説明す る た め の 図 で あ る 。
図 4 にお い て 、図 1 〜 3 と 同 - ^ の符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 4 に お い て 、 90は不要語除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要語 を表わす不要語パ タ ー ンが追 加 し て格納 さ れて い る 。
た と え ば技術系文書 にお い て 「 開発」 「利用 」 な ど の よ う な一般的な単語や 、 「 同 図」 「次表」 「前行」 と い つ た 図表な ど の参照 を示す も の な ど は、 そ の文書で説明 さ れて い る 事物 · ア イ デア な ど の機能的な特徴 を 表わ し て い る と は言え ず、 キー ワ ー ド と すべ き でな い 場合が多 い 。
こ の よ う な も の を不要語 と す る に は た と え ばつ ぎの よ う な不要語パ タ ー ン を用 意 し てお く
" ' ( [同本次前後 ] [図表式行頁 ] I開発 利用 I ···) $
( 18) 不要語 除去手段 90は キ ー ヮ 一 ド 候補集合 生成手段 50 が生成 し た各キー ヮ ー ド 候補 に対 し てパ タ ー ン処理手段 20を 用 い 、 文字列全体が不要語パ タ ー ン に マ ッ チす る キ — ヮ ー ド 候補 を キー ヮ 一 ド 候補集合か ら 除去す る 。な お 、 パ タ ー ン ( 18) の 先頭 の " " と 末尾 の " $ " は、 各キ ー ヮ 一 ド 候補 の文字列全体 と の マ ッ チ ン グが行な われる こ と を表わす。
た と え ば ( 6 )の キ ー ヮ ー ド 構成要素 がキ 一 ヮ一 ド 候補 集合生成手段 50に よ っ てそ の ま ま キ一 ヮ 一 ド 候補 と な り それ に対 し て不要語除去手段 90が ( 18) の 不要語パ タ ー ン を用 い る と すれ ば、 「 開発」 が不要語 と し て 除去 さ れ、 「光」 「デバイ ス 」 「通信装置」 ( 19) の 3 つ がキ ー ワ ー ド 候補 と し て残 る こ と に な る 。
ま た 、 パ タ ー ン格納手段 30に必要語 を表わす必要語パ タ ー ン を追加 し て格納す る と と も に 、 不要語除去手段 90 に お い て各 キー ワ ー ド 候補 に対 し てパ タ ー ン処理手段 20 を用 い 、 文字列全体が必要語パ タ ー ン に マ ッ チせず、 不 要語パ タ ー ン に マ ッ チす る キー ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去す る よ う に構成す る こ と に よ り 、 不要 語パ タ ー ン で誤 っ て必要な キー ヮ ー ド 候補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
仮に 「同 行」 が動詞 と し てキー ワ ー ド とすべき に も か か わ ら ず、 ( 18) の不要語パ タ ー ン を用 い る と マ ッ チ し て し ま う 場合、 必要語パ タ ー ン と し て、
" ~ ( 同行 I …) $ " ( 20) を用 い れば、 「 同行」 はキー ワ ー ド 候補 と し て残 さ れ る 。
こ の よ う に実施 の 形態 4 に よ れ ば、 不要な キ一 ワ ー ド 候補 を 除去す る の に記述性 の 高 い パ 夕 一 ン を 用 い る こ と が可能で あ る 。 ま た必要語パ タ ー ン を用 意す る こ と に よ り 、 不要語パ タ ー ンで誤 っ て キー ワ ー ド 候補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
実施 の 形態 5
図 5 は、 こ の発 明 を実施す る た め の実施 の 形態 5 に よ る キ一 ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 5 にお い て 、図 1 〜 4 と 同 一 の符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。 図 5 にお い て 、 100は不要先頭文字列除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要先頭文字列 を表わす不 要先頭パ タ ー ン が追加 し て格納 さ れて い る 。 こ こ で不要 先頭文字列 と は、 「各」 「約」 な ど い わ ゆ る 接頭語で不 要な も の だ けで な く 、 キー ワ ー ド 候補 の 先頭文字列 と し て は不要な部分文字列 を指す。
た と え ばキー ヮ ー ド 構成要素抽 出手段 40におい てキー ワ ー ド 構成要素パ タ ー ン ( 2 ) を 用 い る 場合、
「電圧 を加 え た 際発振す る … 」 . ( 21) と い う よ う なテ キス ト に お い て 、 「際発振」 と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 こ れがそ の ま ま キー ヮ ー ド 候補 と な る 場合、 「際」 と い う 文字列 を不要先頭文字 列 と 考 え る こ と に よ り 、 「発振」 だ け を キー ワ ー ド 候補 と し て残す こ と が可能で あ る 。 そ の他、 「実用 上」 「実 際上」 な ど漢字か ら な る 副詞句 な ど も 不要先頭文字列 と し て扱 う 場合、 た と え ばつ ぎの よ う な不要先頭パ タ ー ン が考 え ら れ る 。
" " ( (実用 I実際 I事実 i ··· )上 I [各約 際…]) " ( 22) 不要先頭文字列除去手段 100は不要語除去手段 90で除 去 さ れなか っ た各キー ヮ ー ド 候補 の先頭文字列 に対 し て パ タ ー ン処理手段 20を 用 い 、 不要先頭パ タ ー ン に マ ッ チ し たキ一 ヮ一 ド候補 に対 してはマ ッ チ した部分 を除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ ー ド候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 。 置換 さ れた キー ヮ ー ド 候補 は不要語除去手段 90に戻 さ れ、 再び不要語除去 処理、 不要先頭文字列 除去処理が行な われ る 。 な お 、 パ タ ー ン ( 22) の先頭の " ~ " は 、 各キー ワ ー ド候補 の 先 頭文字列 と の マ ッ チ ン グが行な わ れる こ と を表わす。 ま たパ タ ー ン格納手段 3 0に必要先頭文字列 を表わす必 要先頭パ タ ー ン を追加 し て格納す る と と も に 、 不要先頭 文字列 除去手段 1 0 0に お い て 、 各キ ー ワ ー ド 候補 の先頭 文字列 に対 し てパ タ ー ン処理手段 2 0を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不要先頭パ タ ー ン に マ ッ チ し たキ ー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た 部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キ ー ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換す る よ う に構成す る こ と に よ り 、 必要な 先頭文字列 を誤っ て 除去 す る こ と を 防 ぐ こ と が可能 と な る 。
た と え ば 「約数」 「約分」 と い う キー ワ ー ド候補 に対 し て不要先頭パ タ ー ン ( 2 2 ) に よ っ て 「約」 だ けが誤 つ て 除去 さ れな い よ う に す る た め に はた と え ば :
" (約数 I 約分 I … ) " ( 2 3 ) と い う よ う な必要先頭パ タ ー ン を用 意すれ ばよ い 。
こ の よ う に 実施 の 形態 5 に よ れ ば、 キー ワ ー ド 候補 に お い て不要な先頭文字列 を 除去す る の に記述性の 高 い パ タ ー ン を 用 い る こ と が可能で あ る 。 ま た 必要先頭パ タ ー ン を用 意す る こ と に よ り 、 不要先頭パ タ ー ン で誤 っ て キ ー ヮ ー ド 候補 の必要な 先頭文字列が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
実施 の 形態 6
図 6 は、 こ の発 明 を 実施す る た め の実施 の 形態 6 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 6 に お い て、図 1 〜 5 と 同一の 符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。 図 6 に お い て、 110は不要末尾文字列除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要末尾文字列 を表わす不 要末尾パ タ ー ンが追加 し て格納 さ れて い る 。 こ こ で不要 末尾文字列 と は、 「等」 「群」 な ど い わ ゆ る 接尾語で不 要な も の だ けでな く 、 キー ワ ー ド 候補 の末尾文字列 と し て は不要な部分文字列 を指す。
た と え ばキー ヮ ー ド 構成要素抽 出手段 40にお い てキー ワ ー ド 構成要素パ タ ー ン ( 2 ) を 用 い た場合、
「共有 メ モ リ を有す る 並列計算機特 に … 」 ( 24) と レゝ う よ う な テキ ス ト にお い て 、 「並列計算機特」 と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 こ れがそ の ま ま キ 一ワ ー ド 候補 と な る 場合、 「特」 と い う 文字列 を不要末 尾文字列 と考 え る こ と に よ り 、 「並列計算機」 だ け を キ ー ヮ 一 ド 候補 と し て残す こ と が可能で あ る 。 そ の他、 「装 置」 「手段」 な ど漢字か ら な る 一般的 な 名詞で、 特 に機 能な ど の 説明 に は不要な部分.も 不要末尾文字列 と し て扱 う 場合、 た と え ばつ ぎの よ う な 不要末尾パ タ ー ン が考 え ら れ る 。
" (装置 I 手段 I [等群特… ] ) $ " ( 25) 不要末尾文字列 除去手段 110は、 不要語除去手段 90で 除去 さ れず、 不要先頭文字列 除去手段 100に よ っ て も 変 更 の な か っ た各キー ワ ー ド 候補 の 末尾文字列 に対 し てパ タ ー ン処理手段 20を用 い 、 不要末尾パ タ ー ン に マ ッ チ し た キ一 ヮ一 ド 候補 に対 し て はマ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キ一 ヮ一 ド候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 。 置換 さ れた キー ヮ ー ド 候補 は不要語除去手段 90に 戻 さ れ、 再び不要語除去 処理 、 不要先頭文字列除去処理、 不要末尾文字列除去処 理が行な われ る 。 な お 、 ( 2 5 ) の末尾 の " $ " は、 各キ 一ワ ー ド 候補 の末尾文字列 と の マ ッ チ ン グが行な わ れ る こ と を表わす。
ま たパタ ー ン格納手段 3 0に必要末尾文字列 を表わす必 要末尾パ タ ー ン を 追加 し て格納す る と と も に 、 不要末尾 文字列 除去手段 1 1 0に お い て 、 各キ ー ワ ー ド 候補 の 末尾 文字列 に対 し てパ タ ー ン処理手段 2 0を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不要末尾パ タ ー ン に マ ッ チ し た キー ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た 部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な ければそれ を も と の キ一 ワ ー ド 候補 と 置換す る よ う に構成す る こ と に よ り 、 必要な末尾文字列 を誤 っ て 除去 す る こ と を 防 ぐ こ と が可能 と な る 。
た と え ば 「〇〇症候群」 と い う キー ワ ー ド 候補 に対 し て不要末尾パ タ ー ン ( 2 5 )に よ っ て 「群」 だ けが誤 っ て 除 去 さ れな い よ う にす る た め に はた と え ば :
" (症候群 I …) $ " ( 2 6 ) と レゝ う よ う な必要末尾パ タ ー ン を用 意すれ ばよ い 。
こ の よ う に実施 の形態 6 に よ れ ば、 キー ワ ー ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性の 高 い パ タ ー ン を用 い る こ と が可能で あ る 。 ま た必要末尾パ タ ー ン を用 意す る こ と に よ り 、 不要末尾パ タ ー ンで誤 っ てキ 一ワ ー ド 候補 の末尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
なお 、 実施 の形態 5 ま た は実施 の形態 6 に お い て は、 あ る キー ワ ー ド 候補 に対 し て不要語除去処理、 不要先頭 文字列除去処理、 不要末尾文字列除去処理 の う ち 2 っ 以 上 を 組み合わせて 、 も し く は不要先頭文字列除去処理、 不要末尾文字列除去処理 の い ずれか を 2 回以上適用 す る こ と に よ っ て、 最終的 に キ— ヮ 一 ド 候補集合か ら あ る キ ー ヮ 一 ド 候補が除去 さ れ る こ と が あ る 。 1 つ の文書でそ の よ う な文字列 を含む フ レ一ズが複数回 出現す る 場合、 そ の よ う な文字列 を不要語パ タ ー ン の選択肢 に付加す る こ と に よ り 、 冗長な処理 を省 く こ と が可能で あ る 。
こ れ を実現す る に はた と え ば、 キ一 ヮ一 ド 候補集合生 成手段 5 0で各キ一 ヮ一 ド候補が生成 さ れた と き の文字列 を 、初期文字列 と し て各キ - ワ ー ド 候補 二付与 し て お く 。 そ し て不要語除去処理 、 不要先頭文字列除去処理、 不要 末尾文字列 除去処理 の い ずれか に お い て最終的 に キ ー ヮ ー ド 候補が除去 さ れる と き 、 そ の直前 の文字列が初期文 字列 と 異な っ て い れ ば、 初期文字列 を不要語パ タ ー ン の 選択肢 に付加す る 。
た と え ば 「利用 手段」 と い う キ一 ヮ一 ド 候補 に ま ず不 要末尾パ タ ー ン ( 2 5 )が適用 さ れて 「禾 IJ用 」 が残 り 、 つ ぎ に不要語ノ タ ー ン ( 1 8 )が適用 さ れてキー ヮ ー ド候補集合 か ら 最終的 に 除去 さ れた と す る 。
こ の と き "利用 手段 " を不要語パ タ ー ン の選択肢 にカロ え てお け ば、 つ ぎに 「各利用 手段」 と い う キ一 ヮ一 ド 候補 に対 し て、 不要先頭パ タ ー ン ( 2 2 )が適用 さ れて 「利用 手 段」 が残 る と 、 つ ぎに は新た な不要語パ タ ー ン を適用 す る こ と に よ り 、 「利用 手段」 そ の も の がマ ッ チ し て不要 語 と し て 除去 さ れ る 。 こ の よ う に し て冗長な処理 を 回避 す る こ と が可能 と な る 。
実施 の形態 7 図 7 は、 こ の発 明 を 実施す る た め の実施 の 形態 7 に よ る キ ― ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 7 に お い て 、図 1 〜 6 と 同 一 の符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 Ί に お い て 、 3 0 a〜 3 0 cはテ キス ト の タ イ プゃ分野、 格納パ タ ー ン の種別な ど に対応 し た複数 のパ タ ー ン格納 手段で あ る 。
各パ タ ー ン格納手段 は必ず し も 同 じ 種類 の パ タ ー ン を そ ろ え て い な く て も よ い 。
た と え ばモバイ ル コ ン ピ ュ ー 夕 関連 の テキ ス ト に 関 し てキー ワ ー ド 抽 出 を行な う 場合、 キー ワ ー ド 抽出 の た め の情報 と し て は、 技術系文書全般 に普遍的な も の 、 コ ン ピ ュ ー 夕 関係 に 一般 に利用 で き る も の 、 そ し てモパイ ル コ ン ピ ュ ー タ に特有な も の と い っ た よ う に 、 さ ま ざ ま な レベルの も の が考 え ら れ る 。 ま た 同 じ モ ノ イ ルコ ン ピ ュ 一 夕 関連 の テキ ス ト に し て も 、た と え ば特許 の 場合は「発 明」 「請求項」 な ど の単語はそ の テキス ト の特徴 を 表わ し て い な い た め 、 キ一 ヮ 一 ド と し て適 さ な い と レ つ た よ う に 、 テ キス ト の タ イ プ に応 じ た情報 も 考 え ら れ る 。
そ こ で 図 8 に示す よ う に 、 そ の よ う な キー ワ ー ド 抽 出 に 関す る さ ま ざ ま な レ ベル、 タ イ プの 情報 に対応 し たパ タ ー ン を格納す る パ タ ー ン格納手段 を各種用 意 し 、 対象 と す る テ キス 卜 の タ イ プや分野な ど に応 じ てそれ ら を 組 み合わせて利用 で き る よ う に すれ ば、 さ ま ざ ま な テ キ ス ト に対応 し たキー ヮ ー ド 抽 出が効率的 に 実現 さ れ る 。
パ タ ー ン処理手段 2 0は各種パ タ ー ン を適用 する 際 に、 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ツ チ ン グ結果 とす る 。 いずれ も マ ッ チ し な け れば、 全体 と し て マ ッ チ ン グ に失敗 し た も の と す る 。
キー ワ ー ド 構成要素抽 出手段 40、 非 キ ー ワ ー ド 候補除 去手段 70、 例外キ ー ワ ー ド 構成要素抽 出手段 80、 不要語 除去手段 90、 不要先頭文字列除去手段 100、 不要末尾文 字列除去手段 110は、 それぞれ の処理 に お い て必要な パ 夕 ー ン を すベて の パ タ ー ン格納手段か ら 取 り 出 し 、 パ タ ー ン処理手段 20に処理 さ せ る 。
た と え ば例外キー ヮ ー ド 構成要素パ タ ー ン と し てパ タ ー ン格納手段 30a、 30b、 30cにそれぞれ
" [ 0 — 9 ] 次 ', ( 27a) " [ 0 - 9 ] 次元,' ( 27b) " (書き込み I 読 み込み) " ( 27c) と い う パ タ 一 ンが格納 さ れて い る 場合、
「 3 次元デ一 夕 と し て書 き込み を行な う 。 」 ( 28) と い う テ キ ス ト に 対 し て は、 ( 27 a )が 「 3 次」 に マ ッ チ し 、 ( 27 b )力 S 「 3 次元」 に マ ッ チす る 一方、 (28)は 「書 き込み」 に マ ツ チす る が、 パ タ ー ン処理手段 20は最 も 先 頭でマ ッ チす る 最長 の文字列 を 全体 の マ ッ チ ン グ結果 と す る の で 、 ま ず 「 3 次元」 がマ ッ チ ン グ結果 と な る 。 続 い て残 り の 「デー タ と し て書き込み を行な う 。 」 に対 し て マ ッ チ ン グ を行 な う と 、 ( 27 c )だ けが 「書 き込み」 に マ ッ チす る の で、 「書 き込み」 がマ ッ チ ン グ結果 と な る 。 残 り の 「 を行な う 。 」 に マ ッ チす る も の はな い た め 、 結 果的 に例外キ— ヮ ー ド 構成要素抽 出手段 80は
「 3 次元」 「書 き 込み」 ( 29) を例外キー ヮ ー ド 構成要素 と し て抽 出す る 。
あ る / タ ー ン格納手段 に格納 さ れた不要語パ タ ー ン に よ つ て不要 と 判 断 さ れる キー ヮ ー ド 候補 を 、 あ る テキ ス 卜 に お い てキ ー ワ ー ド と すべ き 場合、 そ の 八。 夕 ー ン格納 手段 を用 い る の を や め た り 、 あ る レゝ はそ の不要語パ 夕 一 ン を修正す る こ と も 考 え ら れ る が、 そ の キ一 ヮ 一 ド 候補 と マ ツ チす る 必要語パ タ ー ン を格納す る 八 ° 夕 一 ン格納手 段 を合わせて用 い る こ と も考 え ら れ る 。 不要先頭パ 夕 一 ン 、 不要末尾パ タ ー ン に 関 し て も 同様 に 、 必要先頭パ 夕 一 ン 、 必要末尾パ タ ー ン を 組み合わせて必要な先 頭 ノ 末 尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。 ま た あ る 非キー ヮ ー ド 候補パ 夕 — ン に よ つ て削除 さ れ る 部 分 に含 ま れ る 、 本来必要な キ— ワ ー ド 構成要素 に 関 し て も 、 それ に マ ッ チす る 例外キ一 ワ ー ド 構成要素パ タ 一 ン を格納 し たパ タ ー ン格納手段 を合わせて用 い る こ と に よ
Ό 、 抽 出す る こ と が可能で あ る 。
た 、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て はキー ヮ 一 ド 候補 の文字列全体 に対 し て マ ッ チ ン グが行 な わ れ る た め 、 い ずれか のパ タ ー ンでマ ツ チすれば、 他 の パ タ ー ン の マ ッ チ ン グ結果 は不要で あ る の で、 パ タ ー ン処理手段 2 0はそれ ら の適用 を 中 止 し 、 マ ッ チ し た結果 M し て 、 不要なパ タ ー ン処理 を 回避 し て も よ レ 。
の よ う に 実施 の 形態 7 に よ れ ば、 テ キス ト の タ イ プ や分野、 格納パ タ ー ン の種別な ど に対応 し た各種パ タ ー ン格納手段 を 組み合わせて用 い る こ と に よ り 、 キー ヮ ー ド 抽 出 に用 い る 情報 の再利用 性 を 向上 さ せ、 さ ま ざ ま な テキス ト に柔軟か つ効率的 に対応 さ せ る こ と が可能で あ る 。
実施の形態 8
9 は、 こ の発 明 を 実施す る た め の実施 の形態 8 に よ る キ一 ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 9 に お い て 、図 1 〜 8 と 同一 の符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 9 に お い て 、 1 2 0はパ タ ー ン統合手段で あ る 。
ま たパ タ ー ン処理手段 2 0は、 実施 の 形態 7 に示 し た よ う な複数 の パ タ ー ン を並行 し て適用 す る も の でな く 、 実 施 の 形態 1 に示 し た も の で よ い 。
パ タ ー ン統合手段 1 2 0は各パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る 。 こ こ で各パ タ ー ン の統合 に お い て は、 各パ タ ー ン にマ ッ チす る 可能性の あ る 文字列 の う ち 、 最 も 先頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ に お け る ( C 2 ) の性質 を考慮 し て統合パ タ ー ン を 構成す る 。 すな わ ち 、 各パ タ ー ン の構成要素 に お け る 選択や連結、 反復 な ど を 展開 し なが ら 、 マ ッ チす る 可能性 の あ る 文字列長 が同 じ ノ° タ ー ン を そ ろ え 、 それ ら を長 い も の か ら 順 に選 択肢 と す る 統合パ タ ー ン を構成す る 。
キ一 ワ ー ド 構成要素抽 出手段 4 0、 非 キ ー ワ ー ド 候補除 去手段 7 0、 例外キ ー ワ ー ド 構成要素抽 出手段 8 0、 不要語 除去手段 9 0、 不要先頭文字列 除去手段 1 0 0、 不要末尾文 字列除去手段 1 1 0は、パ タ ー ン統合手段 1 2 0に よ っ て統合 さ れたパ タ ー ン を 用 い てそれぞれの処理 を実行す る 。
以下、 具体的 に 前記パ タ ー ン統合処理 に つ いて説明す る 。
説明 を簡略化す る た め 、 マ ッ チす る 可能性の あ る 文字 列長が 同 じ パ タ ー ン をそ ろ え た も の (以下、 整列パ タ ー ン と 呼ぶ こ と にす る ) を 、 そ の文字列長 を丸数字 と し て 先頭 に付与 し たパ タ ー ン の組で表現す る 。 た と え ば、 "①ぁ② ( い う I え お ) ,, ( 3 0 ) は長 さ 1 の ノ° タ ー ン " あ " と 長 さ 2 の パ タ ー ン " ( レ う I え お ) " カゝ ら な る 整列パ タ ー ン で あ る 。
前記 のパ タ ー ン統合処理 は、 各パ タ ー ン を選択肢 と す る パ タ ー ン に対応 し た 整列ノ\° タ ー ン を構成 し 、 マ ッ チす る 可能性の あ る 文字列長が長 い パ タ ー ンか ら 順 に選択肢 と す る 統合パ タ ー ン を 出力 す る こ と に よ り 実現 さ れ る 。 た と え ば ( 3 0 )の整列パ タ ー ン は最終的 に
" ( ( い う I え お ) I あ ) " ( 3 1 ) と レ う 統合ノ\° 夕 一 ン と し て 出 力 さ れ る 。
ま た 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 けて、 それ を超え る パ タ ー ン は除去 し て統合パ タ 一 ン を構成す る こ と に よ り 、 マ ッ チす る 可能性がな い よ う な極端 に長 いパ タ ー ン を除外 し て統合パタ ー ン を短縮 し、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と も 可能で あ る 。 入力 テキ ス ト の 文字列長は 自 明 な上限 の例で あ る が、 実用 的 に は 2 0文字程度で も 充分な 場合が多 い 。
つ ぎ に、 あ る パ タ ー ン に対応す る 整列パ タ ー ン は、 以 下 の よ う に 求め る 。
• 通常 の文字が連続 し たパ タ ー ン は、 そ のパ タ ー ン を そ の 文字列長 に対応 し て も つ 整列パ タ ー ン と な る 。
(例) " ぁ レ う " → "③ あ い う "
• " " " や " $ " はそれ を長 さ 0 に対応 し て も つ 整列パ 夕 一 ン と な る 。
(例) 一 " → "◎ "
• " [ " と " ] " 、 も し く は " [ ~ " と " ] " と の 間 に 通常 の文字や文字範 囲 の並び を も つ パ タ ー ン は 、 そ の パ タ ー ン を長 さ 1 に対応 して も つ整列パ タ ー ン と な る 。 (例) " [ あ 一 お ] ,, → "① [ あ 一 お ] " • " ( " と ") " で 囲 ま れた パ タ ー ン は、 括弧 内 の パ 夕 ー ン に対応 し た整列パ タ ー ン と な る 。
(例) " (か き く ) " → "③か き く "
• " I " を は さ ん だノ° タ ー ン は、 そ の 前後のパ タ ー ン に 対応 し た整列パ タ ー ン に お い て 、 各長 さ ご と に 対応 し た パ タ ー ン を選択肢 と す る 新た な パ タ ー ン を も つ 整列 パ タ ー ン と な る 。
(例) " あ い う I [ あ 一 お ] I (か き く ) "
→ "③ あ い う I ① [ あ 一 お ] I ③ (か き く ) " → "① [ あ 一 お ] ③ぁ レ う I (力 き く ) "
• パ タ ー ン を連結 し た も の は、 各パ タ ー ン に対応す る 整 列パ タ ー ン につ い て 、 そ れぞれ各長 さ の 組合せ に対応 し たパ タ ー ン を必要 に応 じて括弧で 囲みなが ら 連結 し 、 連結 し たパ タ ー ン を 選択肢 と す る 新たな パ タ ー ン を 合 計 し た長 さ に対応 し て も つ 整列パ タ ー ン と な る 。
(例) " ( あ I い う ) (力 I き く ) "
→ "①ぁ② い う " "①か②き く "
→ "② あ か③あ き く I い う か④い う き く " • パ タ ー ン に " { m , n } " ( m, n は 0 以上の 整数) が後置 さ れた も の は、 そ の パ タ ー ン に対応す る 整列パ タ ー ン の 各長 さ に 対応す る パ タ ー ン を 、 必要 に 応 じ て 括弧で 囲 みなが ら 、 " { p } " ( m ≤ p ≤ n ) を そ れ ぞれ後置 し た も の を選択肢 と す る 新た なパ タ ー ン を 、 そ の パ タ ー ン に対応す る 長 さ の p 倍 の長 さ に対応 し て それぞれ も つ整列パ タ ー ン と な る 。 た だ し p = 0 の 場 合 は単 に長 さ 0 に対応 し て空文字列 に対応す る パ タ ー ン (た と え ば " () " ) を も たせ る 。 ま た p = 1 の 場 合 は " { 1 } " の後置 を 省略で き る 。 ま た長 さ 0 に対 応す る パ タ ー ン に は " { p } " を後置 し な く て も よ い 。
(例) " ( あ 1 い う ) { 0 , 2 } "
→ "① ぁ② い う " { 0 , 2 }
→ " ◎ ( ) 1 ①ぁ②い う I ②ぁ { 2 } ④ (い う ) { 2 } "
→ "◎ ( ) ①ぁ② い う I あ { 2 } ④ ( い う ) { 2 } "
' パ タ ー ン に " { m } " 、 " { m , } " 、 " * " 、 " + " " ? " が後置 さ れた も の は、 それぞれそ の パ タ ー ン に " { m , m } " , " { m , ∞ } " , " { 0 , οο } " , " { 1 , ∞ } " 、 " { 0 , 1 } " が後置 さ れた も の に 対応す る 整列パ タ ー ン と な る ( m は 0 以上 の整数) 。
(例) " ( [ あ 一 お ] 1 い う ) { 2 } "
→ "① [ あ 一 お ] ② い う " { 2 }
→ "② [ あ 一 お ] { 2 } ④ ( い う ) { 2 } " た だ し 、前記 の よ う な反復 に お い て n が非常 に大 き い 、 あ る い は∞ の 場合、 反復展開 回数 に 上限 を設 け、 それ を 超え る よ う なパ タ ー ン の反復は、 マ ッ チす る 可能性がな い も の と し て除外 し て 、 統合パ タ ー ンが膨大な も の と な る こ と を 防 ぐ こ と が考 え ら れ る 。 ま たそ の よ う な 上限が な い 場合 も 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て 上限 を設 けて 、 それ を 超 え る よ う な反復展 開 を 除去す る こ と も考 え ら れ る 。 こ れはパ タ ー ン の連結 を展開 す る 場 合な ど も 同様で あ る 。
不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は、 キ 一 ワ ー ド 候補の文字列全体 に対 し てマ ッ チ ン グが行なわ れる た め 、 前記 の よ う なパ タ ー ン統合処理 を行な わず、 単 に 各パ タ ー ン を 選択肢 と す る 統合パ タ ー ン を 出 力 す る だ けで も よ い 。
こ の よ う に実施 の 形態 8 に よ れば、 テキ ス ト の タ イ プ や分野、 格納パ タ ー ン の種別 な ど に対応 し て各種パ 夕 一 ン格納手段 に格納 さ れた各種パ タ ー ン の適用 を 、 単一 の パ タ ー ン処理で実現す る こ と が可能で あ る 。 さ ら に パ タ — ン統合手段 に よ る 各パ タ ー ン の統合 にお い て は、 各パ タ ー ン に マ ッ チす る 可能性の あ る 文字列 の う ち 、 最 も 先 頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ツ チ ン グにお け る ( C 2 )の性質 を考慮 し て統合パタ ー ンが 構成 さ れる ため、各パタ ー ン の選択肢 の記述 においては ( C 2 )の性質 を考慮す る 必要がな く な り 、 よ り 柔軟な記述が 可能 と な る 。
実施の形態 9
図 10は、 こ の発 明 を実施す る た め の実施 の 形態 9 に よ る キ一 ヮ一 ド 抽 出 装置 を 説明す る た め の 図で あ る 。
図 10に お い て、 図 1 〜 9 と 同一 の 符号 を付 し た も の は 同 一 ま た は こ れ に相 当 す る も の で あ る 。
図 10に お い て 品詞解析手段 130は非キ ー ヮ 一 ド 候補除 去手段 70か ら 入力 さ れた テ キ ス ト に対 し 、 単語 も し く は 形態素 を抽 出 し て 品詞 を解析す る 。 入力 テキ ス ト か ら 単 語 も し く は形態素 を抽 出 して品詞 を解析する手段 と し て、 例 え ば 日 本文テキ ス ト な ら 形態素解析、 英文テキ ス ト な ら Part— of — speech Taggingを用 い る こ と がで き る 。
キー ワ ー ド 候補集合生成手段 50は、 品詞解析手段 130 の 出 力 か ら 、 キー ワ ー ド 候補 と すべ き 品詞 シー ケ ン ス と し て あ ら か じ め定 め ら れた も の に対応 し た単語 も し く は 形態素 の シー ケ ン ス を キ一 ヮ一 ド 候補 と する 。 そ の よ う な 品詞 シー ケ ンス の単純な例 と し て 、 連続 し た名 詞 を キー ヮ ー ド 候補 と す る ¾3 ノロ ヽ
「暗号装置 を 用 い た」 ( 32) と い う テキス ト を解析 し て、
「暗号 <名詞 >装置 <名詞 > を <助詞 >用 い ぐ動詞 > た <助動詞 >」 ( 33) と い う 結果が得 ら れれ ば、
「暗号装置」 ( 34) がキー ワ ー ド 候補 と な る 。 た だ し ( 33) で は解析結果 と し て各形態素 の後 に <〉 で品詞 を示 し て い る 。
こ こ で ( 34) の キー ワ ー ド 候補 に対 し 、 ( 25) の よ う な不要末尾パ タ ー ンが用 意 さ れて い れ ば、 「装置」 の部 分が不要 と 判 断 さ れ、
「暗号」 ( 35) が最終的 なキ ー ヮ ー ド 候補 と な る 。
同様 に英文テ キ ス ト に お い て も 、 た と え ば
A ci her device is used ( 36) と い う テキ ス ト を解析 し て、
" 八 <冠詞 > cipher< 名 詞 > deviceく名 詞 isく動 詞 > used<動詞 > . . . " ( 37) と い う 結果が得 ら れれ ば、 " c: pher device が干 一 ゾ ー ド 候補 と し て 生成 さ れ る 。
こ こ で不要末尾パ タ ー ン と し てた と え ば
(device I method; ( S | ) $ ( 38) が用 意 さ れて い れ ば、
cipher ( 39) が最終的なキー ヮ 一 ド 候補 と な る 。 な お ( 38) で は 、 先 頭 に単語 の区切 り を示すスぺー ス が入 っ てレ る と と も に、 複数形 に も 対応 し たノ、 タ ー ンが用 い ら れて い る こ と に注 意 さ れた い 。
なお こ こ で 、 キー ワ ー ド 候補 と すべ き 品詞 シー ケ ン ス と し て あ ら カゝ じ め 定 め ら れた も の に対応 し た単語 も し く は形態素 の シー ケ ン ス を抽 出す る 方法 に は さ ま ざま な も の が考 え ら れ る が、 1 つ の方法 と し てパ タ ー ン を用 い る こ と が考 え ら れ る 。
品詞解析手段 1 3 0の 出 力 が、 ( 3 3 ) も し く は ( 3 7 ) の よ う に 、 単語 も し く は形態素 の あ と に 品詞 を く >で示 さ れた も の がス ペー ス で 区切 ら れて 出 力 さ れ、 かつ 各単語 も し く は形態素が " < " 、 " > " の文字 を含 ま な い 場合、 た と え ば連続 し た 名 詞 を取 り 出す に はパ タ ー ン処理手段 2 0を用 い て 、
" ( [ ' く 〉 ] + く名詞 > ) + " ( 4 0 ) と い う パ タ ー ン に マ ッ チ し た部分 を 抽 出 し た 上で、 < > で 囲 ま れた 品詞 の 部分 を 削除 し 、 言語 に応 じ て 区切 り の ス ペー ス を適宜削 除すればよ い 。
こ の よ う に 実施 の 形態 9 に よ れば、 品詞解析 を行な つ て得 ら れた キ 一 ヮ一 ド 候補 に対 し て も 、 パ タ ー ン を用 い た柔軟な不要文字列処理が可能で あ る 。 産業上 の利用 可能性
以上の よ う に 、 本発 明 の第 1 の キー ワ ー ド 抽 出装置 に よ れ ば、 テキ ス ト を入 力 す る テ キス ト 入力 手段 と 、 正規 表現 も し く は 同等 のノ\° タ ー ン に よ る 文字列 の マ ッ チ ン グ お よ び置換 を行な う ノ\° タ ー ン処理手段 と 、 キー ワ ー ド の 構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成要素 パ タ ー ン を 少な く と も 有す る パ タ 一 ン格納手段 と 、 テキ ス ト に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キー ワ ー ド 構成要素パ タ ー ン にマ ッ チす る 互い に ォーノ —ラ ッ プの な い すべて の文字列 を キー ヮ ー ド 構成要素 と し て抽 出す る キー ワ ー ド 構成要素抽 出手段 と 、 各キ ー ワ ー ド 構成要 素か ら キ ー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集 合生成手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 を キー ワ ー ド と し て 出 力 す る キー ワ ー ド 出 力 手段 と を 備 え た の で 、 記述性 の 高 い正規表現 も し く は 同等 のパ タ ー ン を用 い て 、 字種 に こ だわ ら な い柔軟な キー ヮ 一 ド 抽 出 を容易 に 実現す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 2 の キー ワ ー ド 抽 出装置 に よ れ ば、 各キー ヮ ー ド 構成要素 をそ の ま ま キー ヮ ー ド 候補 と し て キー ヮ 一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 を備 え た の で 、 要素概念 を抽 出 し やす い と い う 効果 が あ る 。
ま た 、 本発 明 の 第 3 の キー ワ ー ド 抽 出装置 に よ れ ば、 テキス ト に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キ一 ヮ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と し て抽 出 し なが ら 抽 出位置 を 記録す る キ一 ヮ一 ド 構成要素抽 出 手段 と 、 各キー ワ ー ド 構成要素 の文字列長 と 抽出位置か ら テキ ス ト 上連続 し て い る と 判定 さ れた キー ワ ー ド 構成 要素 は連結 し て 1 つ の キー ワ ー ド 候補 と し て 、 単独 の キ 一ワ ー ド 構成要素 はそ の ま ま キ一 ワ ー ド 候補 と し て 、 キ 一ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手 段 と を備 え た の で 、 複合キー ワ ー ド を抽 出 し やすい と い う 効果が あ る 。
ま た 、 本発明 の 第 4 の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト 上連続 し た キー ヮ ー ド 構成要素 はそれぞれ を単 独 の キー ワ ー ド 候補 と す る と と も に 、 前後 の キー ワ ー ド 構成要素 を連結 し た も の を それぞれキー ヮ ー ド候補 と す る 一方、 単独 の キ ー ワ ー ド 構成要素 はそ の ま ま キ一 ヮ一 ド 候補 と し て 、 キー ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 を備 え た の で 、 要素概念 も 複合キー ワ ー ド も 抽 出可能で あ る 。
ま た、 本発 明 の 第 5 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド 候補集合 に お い て重複 し た キ一 ヮ 一 ド 候補 を 1 つ に ま と め る キー ヮ ー ド 候補集合生成手段 を備 え た の で、 後続処理 に お け る 冗長性 を 回避す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 6 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ — ド 構成要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い 部分 を表わす非キ ー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テ キ ス ト に対 し 前記パ タ ー ン処理手段 を用 い て、 非キ一 ワ ー ド 候補パ タ ー ン に マ ツ チす る 互 い に ォーノ ー ラ ッ プの な い すべて の文字列 を検 索 し 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別な文字列 に 置換す る 非キー ヮ ー ド 候補除去手 段 と を備 え た の で 、 不要なキー ワ ー ド 構成要素の抽 出 を 防 ぐ こ と が可能 と な る 。
ま た 、 本発 明 の第 7 の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と キー ヮ ー ド 構成要素パ タ ー ンで 網羅す る こ と が困難な キー ヮ ー ド 構成要素 を表わす例外 キー ヮ 一 ド 構成要素パ タ ー ン と を 少な く と も 有す る パ 夕 ー ン格納手段 と 、 テキス ト に対 し て前記パ タ ー ン処理手 段 を用 いて 、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チ す る 互 い に オーバ一 ラ ッ プの な い すべて の文字列 を 例外 キ ー ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録 す る と と も に 、 テキス ト 中 マ ッ チ し た各文字列 を 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に 変換す る 例外キー ヮ 一 ド 構成要素抽出手段 と キ ー ワ ー ド 構成要素お よ び例外キ ー ワ ー ド 構成要素 か ら キー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 と を備 え た の で、 キ一 ワ ー ド 構成要素パ タ ー ン で は 網羅す る こ と が困難な 、 あ る い は非キー ワ ー ド候補 の 除 去 に伴 っ て抽 出で き な く な る キ一 ワ ー ド 構成要素 を あ ら か じ め 抽出す る こ と が可能 と な る 。
ま た 、 本発明 の第 8 の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 不要語 を 表わす不要語パ タ ー ン と を 少 な く と も 有する パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合の 各キー ヮ ー ド 候補 の文字列全体 に対 し て 前記 パ タ ー ン処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ一 ヮ一 ド 候補集合か ら 除去す る 不要語除去手段 と を備 えた の で 、 不要な キー ワ ー ド 候補 を 除去す る の に 記述性 の高 い パ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発明 の 第 9 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 必要語 を 表わす必要語パ タ ー ン と 不要語 を 表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合の各キー ヮ ー ド 候補 の文字列全体 に 前記パ タ ー ン処理手段 を用 い 、 必 要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の を キ ー ワ ー ド 候補集合か ら 除去す る 不要語除去手段 と を備 え た の で 、 不要語パ タ ー ンで誤 っ て キー ヮ 一 ド 候 補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の第 1 0の キー ワ ー ド 抽 出装置 に よ れば、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ 一 ド 構成要素パ タ ー ン と 不要な先頭文字列 を表わす不要 先頭パタ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合の各キー ヮ ー ド 候補 の 先頭文字列 に 対 し て前記パ タ ー ン処理手段 を 用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 して は、 不要先頭パ 夕 ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ 一 ド 候補 を キ一 ヮ一 ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ワ ー ド 候 補 と 置換す る 不要先頭文字列除去手段 と を備 え た の で 、 キー ヮ ー ド 候補 に お い て不要な 先頭文字列 を 除去す る の に記述性 の 高 いパ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 1 1の キー ワ ー ド 抽 出装置 に よ れ ば、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を表わす不要 先頭パ タ ー ン と 必要な先頭文字列 を表わす必要先頭パ タ 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の 各キー ヮ ー ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ツ チせず不要先頭パ タ ー ン に マ ッ チす る キー ヮ ー ド 候補 に 対 し て は、不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ワ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ 一 ド 候補 と 置換す る 不要先頭文字列除去 手段 と を備 え た の で、 不要先頭パ タ ー ン で誤 っ て キ ー ヮ 一 ド 候補の 必要な 先頭文字列が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発明 の第 1 2の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を表わす不要 末尾パ タ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キー ヮ ー ド 候補集合の 各キ一 ヮ 一 ド 候補 の末尾文字列 に 対 し て前記パ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は 、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ ー ド 候補 を キー ヮ 一 ド候補集合か ら 除去 し 、 空文字列でな ければそれ を も と のキ ー ヮ 一 ド 候 補 と 置換す る 不要末尾文字列除去手段 と を備 え た の で、 キー ヮ 一 ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性の 高 いパ タ ー ン を 用 い る こ と が可能で あ る 。
ま た 、 本発明 の第 1 3の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を 表わす不要 末尾パ タ ー ン と 必要な 末尾文字列 を表わ す必要末尾パ タ 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ ― ド 候補集合の 各キ一 ヮ一 ド 候補 の末尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ツ チせず不要末尾パ タ ー ン に マ ッ チす る キ ー ヮ 一 ド 候補 に 対 し て は、不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と の キー ヮ 一 ド候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな けれ ばそれ を も と のキ ー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去 手段 と を備 え た の で、 不要末尾パ タ ー ンで誤 っ て キー ヮ 一 ド 候補の 末尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可 能で あ る 。
ま た 、 本発明 の第 1 4の キ ー ワ ー ド 抽 出装置 に よ れば、 不要語除去手段、 不要先頭文字列除去手段、 不要末尾文 字列除去手段 の う ち 2 つ 以上 を 組み合わせて 、 あ る い は 不要先頭文字列 除去手段、 不要末尾文字列除去手段 の い ずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ワ ー ド 候補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要 語パ タ ー ン の選択肢 に 付加す る よ う に構成 し た の で 、 冗 長な処理 を 回避す る こ と が可能 と な る 。
ま た 、 本発 明 の第 1 5の キー ワ ー ド 抽 出装置 に よ れ ば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 のパ タ ー ン格納手段 と 、 各種パ タ ー ン を 適用 す る 際 に各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を並行 し て適用 し 、最 も 先頭で マ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を備 えた の で 、 キー ワ ー ド 抽 出 に用 い る 情報 の再利用 性 を 向上 さ せ、 さ ま ざ ま な テキ ス ト に柔軟か つ効率的 に 対応 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の第 1 6の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ 夕 ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか の パ タ ー ンでマ ッ チすれ ばそれ を マ ッ チ ン グ結 果 と し て、 他 のパ タ ー ン の適用 を 中止す る ノ " タ ー ン処理 手段 を備え た の で 、 不要語パ タ ー ンお よ び必要語パ 夕 一 ン に 関 し て不要なパ タ ー ン処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 1 7の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た 複数 のパ タ ー ン格納手段 と 、 必要 に応 じ てパ 夕 一 ン に お け る 選択 、 連結 、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を整 列 し な が ら 、 前記パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を備 え た の で 、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に 対応 し て各種パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン の適用 を 、 単一 のパ タ ー ン処理で実現 す る こ と が可能で あ る 。 さ ら に パ タ ー ン統合手段 に よ る 各パ タ ー ン の統合 にお い て は、 各ノ\° タ ー ン に マ ッ チす る 可能性 の あ る 文字列 の う ち 、 最 も 先頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ にお け る ( C 2 ) の性質 を考慮 し て統合パ タ ー ンが構成 さ れ る た め 、 各パ タ ー ン の選択肢 の 記述 に お い て は ( C 2 ) の性質 を考 慮す る 必要がな く な り 、 よ り 柔軟な記述が可能 と な る 。
ま た 、 本発明 の第 1 8の キー ワ ー ド抽 出装置 に よ れば、 マ ッ チす る 可能性 の あ る 文字列長 に関 し て 上限を 設 け 、 それ を 超え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記 パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を備 え た の で、 統 合パ タ ー ン を短縮 し 、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の第 1 9の キー ワ ー ド 抽 出装置 に よ れば、 パ タ ー ン の 反復 に 関 し て反復展 開 回数 の 上限 を設 け、 そ れ を超 え る パ タ ー ン の 反復は除外 し て 、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出力 す る パ タ ー ン統合手段 を 備 え た ので 、 統合パ タ ー ン が膨大な も の と な る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発明 の第 2 0の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ 夕 ー ン格納手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と する パ ター ン を 出 力する パター ン統合手段 を備 えた ので、 不要な パ タ ー ン統合処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 2 1の キ一 ワ ー ド 抽 出装置 に よ れば、 テキス ト を 入力 す る テ キ ス ト 入力 手段 と 、 入力 さ れた テ キス 卜 に対 し単語 を抽 出 し て 品詞 を解析す る 品詞解析手 段 と 、 品詞解析手段 の 出 力 か ら 、 特定の 品詞 の シー ケ ン ス に対応 し た単語列 を キー ヮ ー ド 候補 と し て生成す る キ 一ワ ー ド候補集合生成手段 と 、 キー ワ ー ド 候補集合 の 各 キー ワ ー ド 候補 を キー ワ ー ド と し て 出 力 す る キ一 ワ ー ド 出 力 手段 と を備 え た の で 、 キー ワ ー ド 構成要素抽 出手段 と キ一 ワ ー ド 構成要素パ 夕 一 ン を用 い る か わ り に 、 品詞 解析 を 用 い た キー ワ ー ド 抽 出 を容易 に実現す る こ と が可 能で あ る 。
ま た 、 本発 明 の第 2 2の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド 候補集合 に お い て重複 し たキ一 ヮ一 ド 候補 を 1 つ に ま と め る キ一 ヮ一 ド 候補集合生成手段 を備 え た の で、 後続処理 にお け る 冗長性 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 2 3の キ一 ワ ー ド 抽 出装置 に よ れば、 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列の マ ッ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 パ タ ー ン 処理手段で の マ ッ チ ン グお よ び置換 に使用 さ れる 文字列 を表わすパ タ ー ン を 格納す る パ タ ー ン格納手段 と を備 え た の で 、 品詞解析 を行な っ て得 ら れたキー ヮ ー ド 候補 に 対 し て も 、 パ タ ー ン を 用 い た柔軟な不要文字処理が可能 で あ る 。
ま た 、 本発明 の第 2 4の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ ー ド 構成要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い 部分 を 表わす非 キー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テキス ト に対 し 前記パ 夕 一 ン処理手段 を 用 い て 、 非 キー ワ ー ド 候補パ タ ー ン に マ ツ チす る 互い に ォ一バー ラ ッ プの な い すべて の文字列 を検 索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補 除去手 段 と を 備 え た の で、 不要なキー ワ ー ド 構成要素 の抽 出 を 防 ぐ こ と が可能 と な る 。
ま た 、 本発 明 の第 2 5の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ ― ド 構成要素パ タ ー ン と キ一 ヮ 一 ド 構成要素パ タ ー ン で 網羅す る こ と が困難な キ一 ヮ一 ド 構成要素 を表わす例外 キー ヮ 一 ド 構成要素パ タ ー ン と を 少な く と も 有す る パ タ — ン格納手段 と 、 テキ ス ト に対 し て前記パ タ ー ン処理手 段 を用 い て 、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チ す る 互 い に オーバー ラ ッ プの な いすべて の文字列 を 例外 キー ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録 す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別 な文字列 に変換す る 例外キ一 ヮ一 ド 構成要素抽出手段 と キー ヮ ー ド 構成要素お よ び例外キー ヮ ー ド 構成要素か ら キ一 ヮ一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 と を 備 え た の で 、 キー ワ ー ド 構成要素パ タ ー ン で は 網羅する こ と が困難な 、 あ る い は非キー ワ ー ド 候補 の 除 去 に伴っ て抽 出で き な く な る キ 一 ワ ー ド 構成要素 を あ ら か じ め抽 出す る こ と が可能 と な る 。
ま た 、 本発 明 の第 2 6の キー ワ ー ド 抽 出装置 に よ れば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キ一 ヮ一 ド 候補 の文字列全体 に対 し て前記 パ タ ー ン処理手段 を 用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 と を 備え た の で、 不要な キー ワ ー ド 候補 を 除去す る の に 記述性の 高 い パ タ ー ン を 用 い る こ と が可能で あ る 。
ま た、 本発 明 の第 2 7の キー ワ ー ド 抽 出装置 に よ れ ば、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わす キー ヮ 一 ド 構成要素 'パ タ ー ン と 必要語 を表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キー ヮ ー ド 候補の 文字列全体 に 前記パ タ ー ン処理手段 を 用 い 、 必 要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の をキ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 と を 備え た の で 、 不要語パ タ ー ンで誤 っ てキー ワ ー ド 候 補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た、 本発明 の第 2 8の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を表わす不要 先頭パタ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キ一 ヮ一 ド 候補集合の各キ一 ヮ 一 ド 候補 の先頭文字列 に 対 し て 前記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と のキー ワ ー ド 候 補 と 置換す る 不要先頭文字列除去手段 と を備 え た の で、 キー ヮ ー ド 候補 に お い て不要な 先頭文字列 を 除去す る の に記述性 の 高 い パ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 2 9の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を 表わす不要 先頭パ タ ー ン と 必要な先頭文字列 を表わす必要先頭パ 夕 一 ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ ー ヮ 一 ド 候補集合 の 各キ一 ヮ一 ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 必要先頭パ タ ー ン に マ ツ チせず不要先頭パ タ ー ン にマ ッ チす る キ ー ヮ ー ド 候補 に 対 し て は、不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ 一 ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな ければそれ を も と の キ一 ヮ一 ド 候補 と 置換す る 不要先頭文字列 除去 手段 と を備 え た の で、 不要先頭パ タ ー ン で誤 っ てキ ー ヮ ー ド 候補 の必要な先頭文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の第 3 0の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を表わす不要 末尾パ タ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キ ー ヮ 一 ド 候補集合 の 各キー ヮ 一 ド 候補 の 末尾文字列 に 対 し て前記パ タ ー ン処理手段 を 用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要末尾バ タ
— ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と のキー ヮー ド 候補 を キー ヮ一 ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ワ ー ド 候 補 と 置換す る 不要末尾文字列除去手段 と を備 え たので、 キー ヮ ー ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性 の高 いゾ\° タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 3 1の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ― ド 構成要素パ タ ー ン と 不要な 末尾文字列 を表わす不要 末尾パ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ — ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の 各キー ヮ ー ド 候補 の末尾文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 必要末尾パ タ ー ン に マ ツ チせず不要末尾パ タ ー ン に マ ッ チす る キ ー ワ ー ド 候補 に 対 し て は、不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キ一 ヮ一 ド 候補 と 置換する 不要末尾文字列除去 手段 と を 備え た の で、 不要末尾パ タ ー ン で誤 っ てキ一 ヮ ー ド 候補 の末尾文字列が削除 さ れる こ と を 防 ぐ こ と が可 能で あ る 。
ま た 、 本発 明 の 第 3 2の キー ワ ー ド 抽 出装置 に よ れば、 不要語除去手段、 不要先頭文字列除去手段、 不要末尾文 字列除去手段 の う ち 2 つ 以上 を 組み合わせて 、 あ る い は 不要先頭文字列除去手段、 不要末尾文字列除去手段 の い ずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キ一 ワ ー ド 候補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要 語パ タ ー ン の選択肢 に 付加す る よ う に構成 し た の で 、 冗 長な処理 を 回避す る こ と が可能 と な る 。
ま た、 本発 明 の第 3 3の キー ワ ー ド 抽 出装置 に よ れば、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 の パ タ ー ン格納手段 と 、 各種パ タ ー ン を 適用 す る 際 に各パ タ ー ン格納手段 に格納 さ れた 同 種のパ タ ー ン を 並行 し て適用 し 、最 も 先頭で マ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を備 え た の で 、 キー ワ ー ド 抽 出 に 用 い る 情報の再利用 性 を 向上 さ せ 、 さ ま ざ ま なテキ ス ト に柔軟か つ効率的 に 対応 さ せ る こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 4の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し ては各パ タ — ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか の パ タ ー ンで マ ッ チすればそれ を マ ッ チ ン グ結 果 と し て 、 他 の パ タ ー ン の適用 を 中 止す る パ タ ー ン処理 手段 を備 え た の で 、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て不要な パ タ ー ン処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 5の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 の パ タ ー ン格納手段 と 、 必要 に応 じてパ タ ー ン に お け る 選択、 連結、 反復な ど を 展 開 し 、 マ ッ チす る 可能性の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を 整 列 し なが ら 、 前記パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を 備 え た の で、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し て各種パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン の適用 を 、 単一 の パ タ ー ン処理で実現 す る こ と が可能で あ る 。 さ ら にパ タ ー ン統合手段 に よ る 各パ タ ー ン の統合 に ぉ レ て は、 各パ タ ー ン に マ ッ チす る 可能性 の あ る 文字列 の う ち 、 最 も 先頭 に 近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ に お け る ( C 2 ) の 性質 を考慮 し て統合パ タ ー ン が構成 さ れ る た め 、 各パ タ ー ン の選択肢の 記述 に お い て は ( C 2 ) の性質 を考 慮す る 必要がな く な り 、 よ り 柔軟な記述が可能 と な る 。
ま た 、 本発明 の第 3 6の キ一 ヮ一 ド 抽 出装置 に よ れ ば、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し なが ら 、 前記 パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力す る パ タ ー ン統合手段 を備 え た の で 、 統 合パ タ ー ン を 短縮 し 、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の 第 3 7の キー ワ ー ド 抽 出装置 に よ れ ば、 パ タ ー ン の 反復 に 関 し て反復展 開 回数の 上限 を設 け 、 そ れ を 超 え る パ タ ー ン の 反復は除外 し て、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を備 え た の で 、 統合パ タ ー ン が膨大な も の と な る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 8の キ一 ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と する パタ ー ンを出 力する パター ン統合手段 を備えた ので、 不要なパ タ ー ン統合処理 を 回避す る こ と が可能で あ る 。

Claims

言青 求 の 範 囲 テキス 卜 を 入力す る テキ ス ト 入 力 手段 と 、
正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ツ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ワ ー ド構成要素パ タ ー ン を 少な く と も 有す る パ タ ー ン 格納手段 と 、
テキス ト に対 し 前記パ タ ー ン処理手段 を用 いて 、 キ 一 ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い にォーノ 一 ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と し て抽 出す る キー ヮ ー ド 構成要素抽出手段 と 、 各キー ヮ 一 ド 構成要素か ら キー ヮ ー ド 候補集合 を 生成 す る キー ヮ ー ド 候補集合生成手段 と 、
キ一 ヮ 一 ド 候補集合 の 各キ 一 ヮ一 ド 候補 を キ一 ヮ 一 ド と し て 出 力す る キ ー ヮ ー ド 出 力 手段 と 、
を有す る こ と を特徴 と す る キ一 ヮ一 ド 抽 出装置。
前記キ 一 ワ ー ド候補集合生成手段 は、 各キ一 ヮ 一 ド 構成要素 をそ の ま ま キー ヮ ー ド 候補 と し て キー ヮ ー ド 候補集合 を 生成す る こ と を 特徴 と す る 請求の範 囲第 1 項記載の キー ヮ 一 ド 抽 出装置。
前記キ ー ワ ー ド 構成要素抽 出手段は、 テ キス ト に対 し 前記パ タ ー ン処理手段 を 用 い て、 キー ワ ー ド 構成要 素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ヮ ー ド 構成要素 と し て抽 出 し な が ら 抽 出位置 を記録 し 、
前記キー ワ ー ド 候補集合生成手段 は、 各キ一 ワ ー ド 構 成要素 の文字列長 と 抽 出位置か ら テキス ト 上連続 し て い る と 判定 さ れた キー ヮ ー ド 構成要素 を連結 し て 1 つ の キー ワ ー ド 候補 と し て、 単独 の キー ワ ー ド 構成要素 はそ の ま ま キー ワ ー ド 候補 と し て 、 キー ワ ー ド 候補集 合 を 生成す る こ と を特徴 と す る 請求 の範 囲第 1 項記載 の キー ヮ 一 ド 抽 出装置。
前記キー ワ ー ド 候補集合生成手段 は、 テキス ト 上連 続 し た キ一 ヮ一 ド 構成要素 はそれぞれ を 単独 の キ ー ヮ — ド 候補 と す る と と も に 、 前後の キー ワ ー ド 構成要素 を連結 した も の をそれぞれキー ヮ ー ド候補 とする 一方、 単独 の キ一 ヮ一 ド 構成要素 はそ の ま ま キー ヮ 一 ド 候補 と し て 、 キー ワ ー ド 候補集合 を 生成す る こ と を特徴 と す る 請求 の範 囲第 3 項記載 の キー ヮ 一 ド 抽 出装置。
前記キー ワ ー ド 候補集合生成手段 は、 キー ワ ー ド 候 補集合 に お い て重複 し たキ ー ヮ ー ド 候補 を 1 つ に ま と め る こ と を特徴 と す る 請求 の 範 囲第 1 項、 第 2 項、 第 3 項 ま た は第 4 項記載 のキー ヮ ー ド 抽 出装置。
前記パ タ ー ン格納手段 は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキ ー ヮ ー ド 構成要素パ タ ー ン と 、
キ一 ワ ー ド の候補 と な り 得な い部分 を表わす非キー ヮ ー ド 候補パ タ ー ン と を 少な く と も 有 し 、
さ ら に 、 テキス ト に対 し前記パ タ ー ン処理手段 を 用 い て、 非キ ー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互 い に ォ 一ノ 一 ラ ッ プの な いすべて の文字列 を検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補除去手段 を 有す る こ と を 特徴 と す る 請求の 範囲第 1 項、 第 2 項、 第 3 項、 第 4 項 ま た は第 5 項記載 の キー ワ ー ド 抽出装置。 前記パ タ ー ン格納手段 は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
キー ワ ー ド 構成要素パ タ ー ンで網羅す る こ と が困難な キ一 ヮ一 ド 構成要素 を表わす例外キ ー ヮ ー ド 構成要素 パ タ ー ン と を 少 な く と も 有 し 、
さ ら に 、 テ キス ト に対 し て前記パ タ ー ン処理手段 を 用 い て、 例外キ一 ヮ 一 ド 構成要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な いすべて の文字列 を 例外キ 一ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を記録 す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別な文字列 に 変換す る 例外キー ヮ 一 ド 構成要素抽 出 手段 を有 し 、
前記キ一 ワ ー ド 候補集合生成手段 は、 キー ワ ー ド 構成 要素お よ び例外キ ー ワ ー ド 構成要素か ら キー ワ ー ド 候 補集合 を生成する こ と を特徴 とする請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項 ま た は第 6 項記載 の キー ヮ ー ド 抽 出装置。
前記パ タ ー ン格納手段 は、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
不要語 を 表わす不要語パ タ ー ン と を 少な く と も 有 し 、 さ ら に 、 キー ワ ー ド 候補集合の各キー ワ ー ド 候補 の 文 字列全体 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要 語パ タ ー ン に マ ッ チす る も の を キー ヮ 一 ド 候補集合か ら 除去す る 不要語除去手段 を有す る こ と を特徴 と す る 請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項 ま た は第 7 項記載の キー ヮ ー ド 抽 出装置。
前記パ タ ー ン格納手段は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 、
必要語 を表わす必要語パ タ ー ン と 、
不要語 を表わす不要語パ タ ー ン と を少な く と も 有 し 、 前記不要語除去手段 は、 キー ワ ー ド 候補集合 の 各キ 一 ヮ ー ド 候補 の文字列全体に 前記パ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キー ワ ー ド 候補集合か ら 除去す る こ と を特徴 と す る 請求の範 囲第 8 項記載の キ ー ヮ ー ド 抽 出 装置。
. 前記パ タ ー ン格納手段 は、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
不要な 先頭文字列 を表わす不要先頭パ タ ー ン と を 少 な く と も 有 し 、
さ ら に 、 キー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 先 頭文字列 に対 し て前記パ タ ー ン処理手段 を 用 い 、 不要 先頭パ タ ー ン にマ ッ チする キー ワ ー ド候補 に対 して は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れ ば も と の キ ー ヮ ー ド 候補 を キー ヮ ー ド候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キ一 ヮ一 ド 候補 と置換す る 不要先頭文字列除去 手段 を 有す る こ と を特徴 と す る 請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項 ま た は第 9 項記載のキー ヮ ー ド 抽 出装置。
. 前記パ タ ー ン格納手段は、 キ一 ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキ一 ワ ー ド 構成要素パ タ ー ン と 、
不要な 先頭文字列 を表わす不要先頭パ タ ー ン と 、 必要な 先頭文字列 を表わす必要先頭パ タ ー ン と を 少 な く と も 有 し 、
前記不要先頭文字列除去手段 は、 キー ワ ー ド 候補集合 の各キ 一 ヮ 一 ド 候補 の 先頭文字列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン に マ ッ チす る キ ー ヮ 一 ド 候補 に対 し て は、 不要先頭パ タ ー ン にマ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の 範 囲第 1 0項記載の キー ヮ 一 ド 抽 出装置。
. 前記パ タ ー ン格納手段 は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキ 一 ヮ一 ド 構成要素パ タ ー ン と 、
不要な末尾文字列 を表わす不要末尾パ タ ー ン と を 少 な く と も 有 し 、
さ ら に 、 キー ワ ー ド 候補集合の 各キー ワ ー ド 候補 の 末 尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要 末尾パ タ ー ン にマ ッ チする キー ヮ 一 ド候補 に対 して は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ — ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ ー ド 候補 と置換す る 不要末尾文字列除去 手段 を有す る こ と を特徴 と す る 請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項、 第 9 項、 第 1 0項 ま た は第 1 1項記載 の キ一 ワ ー ド 抽 出装置。
3 . 前記パ タ ー ン格納手段 は、 キー ヮ ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
不要な末尾文字列 を表わす不要末尾パ タ ー ン と 、 必要な 末尾文字列 を表わす必要末尾パ タ ー ン と を 少 な く と も 有 し 、
前記不要末尾文字列除去手段は、 キ 一 ワ ー ド 候補集合 の 各キ ー ヮ ー ド 候補 の末尾文字列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン に マ ッ チす る キー ヮ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の 範囲第 1 2項記載の キー ヮ ー ド 抽 出装置。
4. 前記不要語除去手段、 不要先頭文字列 除去手段、 不 要末尾文字列 除去手段 の う ち 2 つ以上 を組み合わせて、 あ る い は不要先頭文字列除去手段、 不要末尾文字列 除 去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ヮ ー ド 候補集合か ら 除去 さ れたキー ヮ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に付加す る こ と 、 を特徴 と す る 請求 の範囲第 8 項、 第 9 項 、 第 1 0項、 第 1 1項、第 1 2項 ま た は第 1 3項記載 のキ ー ヮ 一 ド抽 出装置5 . テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複数 のパ タ ー ン格納手段 を さ ら に有 し 、 前記パ タ ー ン処理手段 は、 各種パ タ ー ン を適用 す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る こ と を特徴 と す る 請求 の 範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項、 第 9 項、 第 10項、 第 11 項、 第 12項 、 第 13項 ま た は第 14項記載 の キー ヮ ー ド 抽 出装置。
16. 前記パ タ ー ン処理手段 は、 不要語パ タ ー ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか のパ タ ー ン でマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 の パ タ ー ン の 適用 を 中 止す る こ と を 特徴 と す る 請求 の 範 囲 第 15項記載 の キ一 ヮ 一 ド 抽 出装置。
17. テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複数 の パ タ ー ン格納手段 と 、
必要 に応 じ てパ タ ー ン に お け る 選択、 連結、 反復な ど を 展開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て パ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る ノ° 夕 一 ン統合手段 と を さ ら に有す る こ と を 特徴 と す る 請求 の 範囲第 1 、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項、 第 9 項、 第 10項、 第 11項 、 第 12項、 第 13項 ま た は第 14項記載 の キ 一 ヮ 一 ド 抽 出装置。
18. 前記パ タ ー ン統合手段 は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 け、 それ を超え る パ タ 一 ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン格納手段 に 格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る こ と を特徴 と す る 請求 の範囲第 1 7項記載 の キ一 ヮ一 ド 抽 出装置。
. 前記パ タ ー ン統合手段 は、 パ タ ー ン の 反復に 関 し て 反復展開 回数 の 上限 を設 け 、 それ を超え る パ タ ー ン の 反復は除外 し て 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る こ と を 特 徵 とする 請求 の範 囲第 1 7項 ま たは第 1 8項記載 のキー ヮ ― ド 抽 出装置。
. 前記パ タ ー ン統合手段 は、 不要語パ タ ー ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を そ れぞれ選択肢 と す る パ タ ー ン を 出 力 す る こ と を特徴 と す る 請求 の 範囲第 1 7項、 第 1 8項 ま た は第 1 9項記載の キー ヮ ー ド 抽 出装置。
. テキス ト を 入力 す る テ キ ス ト 入力 手段 と 、
入力 さ れ た テキ ス ト に対 し 単語 を 抽 出 し て 品詞 を解析 す る 品詞解析手段 と 、
品詞解析手段 の 出 力 か ら 、 特定 の 品詞の シー ケ ン ス に 対応 し た 単語列 を キ一 ヮ一 ド 候補 と し て生成す る キ ー ヮ ー ド 候補集合生成手段 と 、
キ一 ヮ一 ド 候補集合 の 各キ ー ヮ ー ド 候補 を キー ヮ 一 ド と し て 出 力す る キ ー ヮ 一 ド 出 力 手段 と 、
を有す る こ と を特徴 と す る キー ヮ 一 ド 抽 出装置。
. 前記キー ワ ー ド 候補集合生成手段 は、 キー ワ ー ド 候 補集合 に お い て重複 し たキ一 ヮ一 ド 候補 を 1 つ に ま と め る こ と を特徴 と す る 請求 の範 囲第 2 1項記載の キー ヮ ― ド 抽 出装置。
. 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ツ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 パ タ ー ン処理手段で の マ ッ チ ン グお よ び置換 に 使用 さ れる 文字列 を表わすパ タ ー ン を格納す る パ タ ー ン格納 手段 と 、
を有す る こ と を特徴 と す る 請求 の範 囲第 2 1項ま た は第 2 2項記載 の キ一 ヮ一 ド 抽 出装置。
. 前記パ タ ー ン格納手段が、 キー ワ ー ド の 候補 と な り 得ない部分 を表わす非キー ヮー ド候補パタ ー ン を有 し 、 さ ら に 、 テキス ト に対 し 前記パ タ ー ン処理手段 を用 い て 、 非キー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互 い に ォ 一バー ラ ッ プの な い すべて の文字列 を検索 し 、 前記特 定の 品詞 の シー ケ ン ス に対応 し な い 特別な文字列 に 置 換す る 非キ一 ヮ 一 ド 候補除去手段 を 有す る こ と を特徴 と す る 請求 の範 囲第 2 3項記載の キ一 ヮ 一 ド 抽 出装置。. 前記パ タ ー ン格納手段が、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列 と し て生成す る こ と が困難な キ ー ヮ 一 ド 構成要素 を表わす例外キ一 ヮ一 ド 構成要素パ タ ー ン を有 し 、
さ ら に 、 テキス ト に対 し て 前記パ タ ー ン処理手段 を 用 い て 、 例外キー ヮ 一 ド 構成要素パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な い すべて の文字列 を 例外キ 一ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を記録 す る と と も に 、 テキ ス ト 中 マ ッ チ し た各文字列 を 、 前 記特定 の 品詞 の シー ケ ンス に対応 し な い特別な文字列 に変換す る 例外キー ヮ ー ド 構成要素抽 出手段 を 有 し 、 前記キー ワ ー ド 候補集合生成手段 は、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列お よ び例外キ一 ヮ一 ド 構成要素か ら キー ワ ー ド 候補集合 を 生成す る こ と を 特 徵 とする請求 の範囲第 2 3項 ま たは第 2 4項記載のキー ヮ 一 ド 抽 出装置。
. 前記パ タ ー ン格納手段が、 不要語 を 表わす不要語パ 夕 一 ン を 有 し 、
さ ら に 、 キー ワ ー ド 候補集合の 各キ ー ワ ー ド 候補 の 文 字列全体 に対 し て前記パ タ ー ン処理手段 を用 い 、 不要 語パ タ ー ン に マ ッ チす る も の を キ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 を有す る こ と を特徴 と す る 請求 の範 囲第 2 3項、第 2 4項 ま た は第 2 5項記載の キー ヮ ― ド 抽 出装置。
. 前記パ タ ー ン格納手段が、
必要語 を 表わす必要語パ タ ー ン と 、
不要語 を 表わす不要語パ タ ー ン と を有 し 、
前記不要語除去手段 は、 キ ー ワ ー ド 候補集合の 各キ ー ヮ 一 ド 候補 の文字列全体 に 前記パ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キ ー ワ ー ド 候補集合か ら 除去す る こ と を特徴 と す る 請求 の範 囲第 2 6項記載 の キー ヮ ー ド 抽 出 . 前記パ タ ー ン格納手段が、
不要な先頭文字列 を表わす不要先頭パ タ ー ン を 有 し 、 さ ら に 、 キー ワ ー ド 候補集合の 各キー ワ ー ド 候補 の 先 頭文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 不要 先頭パタ ー ン にマ ッ チする キ一 ヮ 一 ド候補 に対 して は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キ ー ヮ ー ド 候補 と 置換す る 不要先頭文字列除去 手段 を有す る こ と を特徴 と す る 請求 の範 囲第 2 3項、 第 24項、 第 25項、 第 26項 ま た は第 27項記載 の キ ー ヮ 一 ド 抽 出 装置。
29. 前記パ タ ー ン格納手段が、
不要な 先頭文字列 を表わす不要先頭パ タ ー ン と 、 必要な先頭文字列 を表わす必要先頭パタ ー ン と を有 し、 前記不要先頭文字列除去手段 は、 キ一 ワ ー ド 候補集合 の 各キ ー ヮ ー ド 候補 の 先頭文字列 に対 し て前記パ 夕 一 ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な ければそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の範 囲第 28項記載 の キ一 ヮ一 ド 抽 出装置。
30. 前記パ タ ー ン格納手段が、
不要な 末尾文字列 を表わす不要末尾パ タ ー ン を 有 し 、 さ ら に 、 キ ー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 末 尾文字列 に対 し て前記パ タ ー ン処理手段 を 用 い 、 不要 末尾パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 して は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れ ば も と の キー ワ ー ド 候補 を キ一 ヮ — ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去 手段 を 有す る こ と を特徴 と す る 請求 の範 囲第 23項、 第 24項、 第 25項、 第 26項、 第 27項、 第 28項 ま た は第 29 項記載 の キー ヮ ー ド 抽 出装置。
31. 前記パ タ ー ン格納手段が、
不要な 末尾文字列 を表わす不要末尾パ タ ー ン と 、 必要な末尾文字列 を表わす必要末尾パタ ー ン と を有 し、 前記不要末尾文字列除去手段 は、 キ ー ワ ー ド 候補集合 の 各キ一 ヮ一 ド 候補 の末尾文字列 に 対 し て前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン に マ ッ チす る キー ヮ 一 ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな けれ ばそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の 範囲第 30項記載の キー ヮ 一 ド 抽 出装置。
32. 前記不要語除去手段、 不要先頭文字列除去手段、 不 要末尾文字列除去手段 の う ち 2 つ以上 を組み合わせて、 あ る い は不要先頭文字列除去手段 、 不要末尾文字列 除 去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ヮ ー ド 候補集合か ら 除去 さ れた キー ヮ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に付加す る こ と 、 を特徴 と す る 請求 の 範 囲第 26項、 第 27項、 第 28項、 第 29項、第 30項 ま た は第 31項記載 の キー ヮ ー ド 抽 出装置
33. テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複数 の パ タ ー ン格納手段 を さ ら に有 し 、 前記パ タ ー ン処理手段 は、 各種パ タ ー ン を 適用 する 際 に 各パ タ ー ン格納手段 に格納 さ れた 同 種 のパ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る こ と を特徴 と す る 請求の 範囲第 23項、 第 24項、 第 25項、 第 26項、 第 2 7項 、 第 28項 、 第 29項 、 第 30項、 第 31項 ま た は第 32 項記載の キ一 ヮ一 ド 抽 出装置。
34. 前記パ タ ー ン処理手段 は、 不要語パ タ ー ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 い ずれか のパ タ ー ン でマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 の パ タ ー ン の 適用 を 中 止す る こ と を特徴 と す る 請求 の 範 囲 第 33項記載 の キー ヮ ー ド抽 出装置。
35. テキス ト の タ イ プや分野、 格納パ タ ー ン の種別 な ど に対応 し た複数 の パ タ ー ン格納手段 と 、
必要 に応 じ てパ タ ー ン に お け る 選択、 連結 、 反復な ど を展 開 し 、 マ ッ チす る 可能性の あ る 文字列長 に 関 し て パ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 <— <t ί^- t □ し て 出 力 す る パ タ ー ン統合手段 と を さ ら に有す る こ と を 特徴 と す る 請求 の範 囲第 23項、 第 24項、 第 25項、 第 2 6項、 第 27項、 第 28項、 第 29項、 第 30項、 第 31項 ま た は第 32項記載 の キー ヮ ー ド 抽 出装置。
36. 前記パ タ 一 ン統合手段 は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る こ と を特徴 とす る 請求 の範 囲第 35項記載 のキー ヮ 一 ド 抽 出装置。
37. 前記パ タ ー ン統合手段 は、 パ タ ー ン の 反復 に 関 し て 反復展 開 回数の 上限 を 設 け 、 それ を超 え る パ タ ー ン の 反復 は除外 し て 、 前記パ 夕 一 ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に 統合 し て 出 力 す る こ と を 特 徵 とする請求の範 囲第 35項 ま たは第 36項記載のキー ヮ ― ド 抽 出装置。
38. 前記パ タ ー ン統合手段 は、 不要語パ 夕 ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を そ れぞれ選択肢 と す る パ タ ー ン を 出 力 す る こ と を特徴 と す る 請求 の範 囲第 35項、 第 36項 ま た は第 37項記載の キー ヮ ー ド 抽 出装置。
PCT/JP2000/005433 2000-01-05 2000-08-14 Dispositif d'extraction d'un mot-cle WO2001050343A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001550633A JP4253152B2 (ja) 2000-01-05 2000-08-14 キーワード抽出装置
CA002362416A CA2362416C (en) 2000-01-05 2000-08-14 Keyword extracting device
EP00951977A EP1189150A4 (en) 2000-01-05 2000-08-14 DEVICE FOR EXTRACTING KEYWORDS
US09/945,677 US7191177B2 (en) 2000-01-05 2001-09-05 Keyword extracting device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000000382 2000-01-05
JP2000/382 2000-01-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/945,677 Continuation US7191177B2 (en) 2000-01-05 2001-09-05 Keyword extracting device

Publications (1)

Publication Number Publication Date
WO2001050343A1 true WO2001050343A1 (fr) 2001-07-12

Family

ID=18529738

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/005433 WO2001050343A1 (fr) 2000-01-05 2000-08-14 Dispositif d'extraction d'un mot-cle

Country Status (5)

Country Link
US (1) US7191177B2 (ja)
EP (1) EP1189150A4 (ja)
JP (1) JP4253152B2 (ja)
CA (1) CA2362416C (ja)
WO (1) WO2001050343A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023878A (ja) * 2004-07-07 2006-01-26 Quin Land Co Ltd データ抽出システム
JP2015158833A (ja) * 2014-02-25 2015-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
KR20160041267A (ko) * 2014-10-07 2016-04-18 인포뱅크 주식회사 정보 검색 장치 및 방법

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049707A1 (en) * 2000-02-29 2001-12-06 Tran Bao Q. Systems and methods for generating intellectual property
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
JP4040382B2 (ja) * 2002-07-30 2008-01-30 ソニー株式会社 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US7444323B2 (en) * 2004-09-02 2008-10-28 International Business Machines Corporation System and method for focused routing of content to dynamically determined groups of reviewers
US8364521B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US8195133B2 (en) 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US9076175B2 (en) 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US8503995B2 (en) 2005-09-14 2013-08-06 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US20080214148A1 (en) * 2005-11-05 2008-09-04 Jorey Ramer Targeting mobile sponsored content within a social network
US20070118533A1 (en) * 2005-09-14 2007-05-24 Jorey Ramer On-off handset search box
US8156128B2 (en) 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US20070061242A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Implicit searching for mobile content
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US20090240568A1 (en) * 2005-09-14 2009-09-24 Jorey Ramer Aggregation and enrichment of behavioral profile data using a monetization platform
US8615719B2 (en) 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US8515401B2 (en) 2005-09-14 2013-08-20 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US20080215623A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Mobile communication facility usage and social network creation
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US9058406B2 (en) 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US7769764B2 (en) 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US8290810B2 (en) 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US10038756B2 (en) 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US8660891B2 (en) 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US10592930B2 (en) 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US8131271B2 (en) 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US8364540B2 (en) * 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US20070061198A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Mobile pay-per-call campaign creation
US20070061334A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Search query address redirection on a mobile communication facility
US7860871B2 (en) * 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US20090029687A1 (en) * 2005-09-14 2009-01-29 Jorey Ramer Combining mobile and transcoded content in a mobile search result
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US20070288427A1 (en) * 2005-09-14 2007-12-13 Jorey Ramer Mobile pay-per-call campaign creation
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US8027879B2 (en) 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US8989718B2 (en) 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US9471925B2 (en) 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US9201979B2 (en) * 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US8311888B2 (en) * 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
US8666376B2 (en) 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US7502788B2 (en) * 2005-11-08 2009-03-10 International Business Machines Corporation Method for retrieving constant values using regular expressions
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US7958164B2 (en) * 2006-02-16 2011-06-07 Microsoft Corporation Visual design of annotated regular expression
US7860881B2 (en) * 2006-03-09 2010-12-28 Microsoft Corporation Data parsing with annotated patterns
JP5141560B2 (ja) * 2007-01-24 2013-02-13 富士通株式会社 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
EP1962242A1 (en) * 2007-02-22 2008-08-27 Research In Motion Limited Community based method and system for creating and subscribing to dynamic push channels
US7949670B2 (en) * 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
CN101276361B (zh) * 2007-03-28 2010-09-15 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
US7739261B2 (en) * 2007-06-14 2010-06-15 Microsoft Corporation Identification of topics for online discussions based on language patterns
US7814108B2 (en) * 2007-12-21 2010-10-12 Microsoft Corporation Search engine platform
US8417698B2 (en) * 2008-05-06 2013-04-09 Yellowpages.Com Llc Systems and methods to provide search based on social graphs and affinity groups
US8145620B2 (en) * 2008-05-09 2012-03-27 Microsoft Corporation Keyword expression language for online search and advertising
CN102144229B (zh) * 2008-10-02 2013-09-04 国际商业机器公司 用于从具有文本段的文档中提取术语的系统
US8370357B1 (en) * 2009-03-31 2013-02-05 Cellco Partnership Method and system for grouping multimedia files from plural vendors' servers in media store's catalog
US9418136B1 (en) * 2009-03-31 2016-08-16 Cellco Partnership Method and system for matching descriptive text for a multimedia content in a vendor's catalog with descriptive text for a multimedia content in media store's catalog
US9405456B2 (en) * 2009-06-08 2016-08-02 Xerox Corporation Manipulation of displayed objects by virtual magnetism
US8595297B2 (en) 2010-02-08 2013-11-26 At&T Intellectual Property I, L.P. Searching data in a social network to provide an answer to an information request
US9262394B2 (en) * 2010-03-26 2016-02-16 Nec Corporation Document content analysis and abridging apparatus
US8892580B2 (en) * 2010-11-03 2014-11-18 Microsoft Corporation Transformation of regular expressions
CN104137043A (zh) * 2011-09-30 2014-11-05 瑞艾利缇盖特(Pty)有限公司 用于在图形用户界面(gui)上进行人机交互的方法
WO2013137864A1 (en) * 2012-03-13 2013-09-19 Hewlett-Packard Development Company, L.P. Submatch extraction
US9396758B2 (en) 2012-05-01 2016-07-19 Wochit, Inc. Semi-automatic generation of multimedia content
US20130294746A1 (en) * 2012-05-01 2013-11-07 Wochit, Inc. System and method of generating multimedia content
US9524751B2 (en) 2012-05-01 2016-12-20 Wochit, Inc. Semi-automatic generation of multimedia content
CN103870442A (zh) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 中文简繁体转换系统及方法
US9678993B2 (en) 2013-03-14 2017-06-13 Shutterstock, Inc. Context based systems and methods for presenting media file annotation recommendations
US9553904B2 (en) 2014-03-16 2017-01-24 Wochit, Inc. Automatic pre-processing of moderation tasks for moderator-assisted generation of video clips
CN104462552B (zh) * 2014-12-25 2018-07-17 北京奇虎科技有限公司 问答页面核心词提取方法和装置
CN104462553B (zh) * 2014-12-25 2019-02-26 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
US9659219B2 (en) 2015-02-18 2017-05-23 Wochit Inc. Computer-aided video production triggered by media availability
CN105426360B (zh) * 2015-11-12 2018-08-07 中国建设银行股份有限公司 一种关键词抽取方法及装置
CN108804487A (zh) * 2017-12-28 2018-11-13 中国移动通信集团公司 一种提取目标字符的方法及装置
US11250842B2 (en) * 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
US11551674B2 (en) * 2020-08-18 2023-01-10 Bank Of America Corporation Multi-pipeline language processing platform

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法
JPH08221440A (ja) * 1995-02-15 1996-08-30 Oki Electric Ind Co Ltd ネットワークニュース記事からのキーワード抽出方法および装置
JPH08329108A (ja) * 1995-06-01 1996-12-13 Hitachi Ltd テキストのハイパーテキスト化方法
JPH09128399A (ja) * 1995-11-02 1997-05-16 Techno Res Kk 特許データベースのキーワードデータ抽出方法及びキーワードデータ抽出装置
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03278176A (ja) * 1990-03-27 1991-12-09 Nippon Telegr & Teleph Corp <Ntt> 日本文固有用語抽出処理装置
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
JPH07282055A (ja) * 1994-04-06 1995-10-27 Fujitsu Ltd 文解析方法および装置
JP3986098B2 (ja) * 1994-08-16 2007-10-03 富士通株式会社 文字列検索方法及び文字列検索装置
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
JP3231673B2 (ja) * 1996-11-21 2001-11-26 シャープ株式会社 文字,文字列検索方法及び該方法に用いる記録媒体
US6314410B1 (en) * 1997-06-04 2001-11-06 Nativeminds, Inc. System and method for identifying the context of a statement made to a virtual robot
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
JPH1153384A (ja) 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US6446076B1 (en) * 1998-11-12 2002-09-03 Accenture Llp. Voice interactive web-based agent system responsive to a user location for prioritizing and formatting information
US6826553B1 (en) * 1998-12-18 2004-11-30 Knowmadic, Inc. System for providing database functions for multiple internet sources
US6654741B1 (en) * 1999-05-03 2003-11-25 Microsoft Corporation URL mapping methods and systems
US6327561B1 (en) * 1999-07-07 2001-12-04 International Business Machines Corp. Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法
JPH08221440A (ja) * 1995-02-15 1996-08-30 Oki Electric Ind Co Ltd ネットワークニュース記事からのキーワード抽出方法および装置
JPH08329108A (ja) * 1995-06-01 1996-12-13 Hitachi Ltd テキストのハイパーテキスト化方法
JPH09128399A (ja) * 1995-11-02 1997-05-16 Techno Res Kk 特許データベースのキーワードデータ抽出方法及びキーワードデータ抽出装置
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP1189150A4 *
YASUSHI OGAWA, MASAKO MOCHINUSHI, AYAKO BESSHO: "Fukugougo key word no jidou chushutsuhou", JOHO SHORI GAKKAI KENKYO HOKOKU, vol. 93, no. 79 (93-NL-97), pages 103 - 110, XP002944731 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023878A (ja) * 2004-07-07 2006-01-26 Quin Land Co Ltd データ抽出システム
JP2015158833A (ja) * 2014-02-25 2015-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval
US9916397B2 (en) 2014-02-25 2018-03-13 International Business Machines Corporation Pattern matching based character string retrieval
US9946812B2 (en) 2014-02-25 2018-04-17 International Business Machines Corporation Pattern matching based character string retrieval
US10007740B2 (en) 2014-02-25 2018-06-26 International Business Machines Corporation Pattern matching based character string retrieval
US10176274B2 (en) 2014-02-25 2019-01-08 International Business Machines Corporation Pattern matching based character string retrieval
KR20160041267A (ko) * 2014-10-07 2016-04-18 인포뱅크 주식회사 정보 검색 장치 및 방법
KR102274391B1 (ko) 2014-10-07 2021-07-26 인포뱅크 주식회사 정보 검색 장치 및 방법

Also Published As

Publication number Publication date
CA2362416C (en) 2009-08-04
US20020042794A1 (en) 2002-04-11
JP4253152B2 (ja) 2009-04-08
EP1189150A1 (en) 2002-03-20
EP1189150A4 (en) 2004-10-06
CA2362416A1 (en) 2001-07-12
US7191177B2 (en) 2007-03-13

Similar Documents

Publication Publication Date Title
WO2001050343A1 (fr) Dispositif d&#39;extraction d&#39;un mot-cle
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
Campos et al. Gimli: open source and high-performance biomedical name recognition
Nelken et al. Arabic diacritization using weighted finite-state transducers
US6928448B1 (en) System and method to match linguistic structures using thesaurus information
Graliński et al. PSI-toolkit: A natural language processing pipeline
US9906238B2 (en) Encoding device, encoding method and search method
Onyenwe et al. Toward an effective igbo part-of-speech tagger
JP2005063470A (ja) キーワード抽出装置
Mall et al. Innovative algorithms for Parts of Speech Tagging in hindi-english machine translation language
US11263408B2 (en) Alignment generation device and alignment generation method
JP5380566B2 (ja) 言語処理装置、プログラムおよび方法
Kumar et al. Design and implementation of rule-based hindi stemmer for hindi information retrieval
Chaware et al. Rule-based phonetic matching approach for Hindi and Marathi
Iwakura et al. A named entity recognition method based on decomposition and concatenation of word chunks
Shokrollahi-Far Self-Organizing Computational Efficiency in Quranic Grammar
Nghiem et al. A hybrid approach for semantic enrichment of MathML mathematical expressions
Yahia et al. An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic
Chidiebere et al. Analysis and representation of Igbo text document for a text-based system
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP6784084B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
Ifeanyi-Reuben Nkechi et al. Analysis and Representation of Igbo Text Document for a Text-Based System
De Vries Finite Automata: Behavior and Synthesis
Sentence Approximate sentence matching and its applications in corpus-based research Summary
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP MX US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): FR GB

ENP Entry into the national phase

Ref document number: 2362416

Country of ref document: CA

Ref country code: CA

Ref document number: 2362416

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 2000951977

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 550633

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: PA/a/2001/008925

Country of ref document: MX

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09945677

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000951977

Country of ref document: EP