WO2016114433A1 - Unstructured data processing system and method - Google Patents

Unstructured data processing system and method Download PDF

Info

Publication number
WO2016114433A1
WO2016114433A1 PCT/KR2015/000498 KR2015000498W WO2016114433A1 WO 2016114433 A1 WO2016114433 A1 WO 2016114433A1 KR 2015000498 W KR2015000498 W KR 2015000498W WO 2016114433 A1 WO2016114433 A1 WO 2016114433A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
data
rule
unit
unstructured data
Prior art date
Application number
PCT/KR2015/000498
Other languages
French (fr)
Korean (ko)
Inventor
이경일
김아로
김선호
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to PCT/KR2015/000498 priority Critical patent/WO2016114433A1/en
Publication of WO2016114433A1 publication Critical patent/WO2016114433A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Definitions

  • the technical idea of the present invention relates to a system and method for processing unstructured data, and more particularly, to a system and method for extracting features from unstructured data.
  • the present invention is derived from a study conducted and conducted by Saltlux Co., Ltd. as part of the SW Computing Industry Source Technology Development Project (SW) of the Ministry of Science, ICT and Future Planning. [Research period: 2014.05.01 ⁇ 2015.02.28, Specialized research management organization: Information and communication technology research promotion center, Project title: WiseKB: Development of self-learning knowledge base and reasoning technology based on big data understanding, Assignment number: 10044494]
  • SW SW Computing Industry Source Technology Development Project
  • Knowledge Base construction can be done by classifying the collected data (data) into a lexical system and storing it in the database.
  • the data collected to build a knowledge base can come from a variety of sources.
  • the data collected for building the knowledge base may be data collected through the Internet for news, scholarly information, dictionaries, etc., or online or from another pre-built knowledge base (eg, expertise base).
  • the data may be collected offline or may be data directly input by the user.
  • the data collected can vary widely in format.
  • the data collected for building the knowledge base may be text-based data, image-based data, or voice and video-based data. As such, extracting necessary information from various kinds of data and managing the extracted information may be very important in building a knowledge base.
  • the technical idea of the present invention provides an unstructured data processing system and method for effectively extracting features from unstructured data.
  • the data interface unit for receiving the unstructured data from the outside, and the feature extraction unit for extracting the characteristics of the unstructured data and the And a property information generation unit including a property relationship setting unit for generating property information by setting the relationship information for the property, wherein the property extraction unit is configured to provide a pattern of the atypical data based on a format of the unstructured data.
  • a rule providing unit for studying, at least one item corresponding to the pattern, and providing a rule including a correspondence between the item and the pattern, and a rule execution engine for generating the characteristic by applying the rule to the unstructured data. It may include.
  • the atypical data processing system includes a data storage unit including a pattern storage unit for storing a plurality of patterns and a rule storage unit for storing a plurality of rules, and an input signal from a user and receiving an input signal.
  • the apparatus may further include a user interface configured to provide an output signal to the pattern providing unit.
  • the pattern providing unit may generate a pattern based on the input signal and store the pattern in the pattern storage unit.
  • the rule providing unit may generate a rule based on the input signal. It may be generated and stored in the rule storage unit.
  • the pattern providing unit provides a pattern recommendation unit for providing at least one recommendation pattern selected from a plurality of patterns stored in the pattern storage unit based on a format of the unstructured data, the input signal and A pattern definition unit that determines a pattern corresponding to the unstructured data based on the recommendation pattern, and a pattern execution engine that extracts data included in an information area from the unstructured data based on the pattern defined by the pattern definition unit. It may include.
  • the pattern recommendation unit may select the recommendation pattern based on the type or source of the knowledge data.
  • the pattern definition unit may identify at least one information area by analyzing the format of the unstructured data, and pattern the information area based on the input signal and / or the recommendation pattern. It can be set to or excluded from the pattern.
  • the pattern definition unit may group a plurality of information areas having the same format.
  • the rule provider provides at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the unstructured data according to the pattern.
  • a rule definition unit for defining a rule corresponding to the unstructured data based on the input signal and / or the recommendation rule.
  • the rule recommendation unit may select the recommendation rule further based on the type or source of the knowledge data.
  • the rule definition unit may identify an item corresponding to the information area by analyzing the extracted data, and may correspond the information area to the item.
  • the rule definition unit may store a plurality of candidate items, update the candidate items based on the input signal, and correspond the information area to one of the candidate items. You can.
  • the data storage unit may further include a knowledge data storage unit for storing the knowledge data, wherein the atypical data processing system may include external knowledge data received from the interface and the knowledge data storage unit.
  • the apparatus may further include a knowledge data manager configured to convert the characteristic information into knowledge data based on the stored knowledge data and verify the converted knowledge data.
  • the feature information generation unit may further include a feature extraction management unit for classifying the unstructured data according to data type and generating a control signal to change the extraction method according to the corresponding data type.
  • the pattern providing unit may analyze a format of the atypical data based on the control signal.
  • information included in the unstructured data can be effectively extracted by using patterns and rules.
  • FIG. 1 is a block diagram illustrating an unstructured data processing system according to an exemplary embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an embodiment of the feature extraction unit of FIG. 1 in accordance with an exemplary embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an embodiment of the feature extraction unit of FIG. 1 in accordance with an exemplary embodiment of the present invention.
  • 3 to 5 are diagrams for describing an operation of the feature extraction unit of FIG. 1.
  • 4 is a diagram illustrating an example of a rule.
  • FIG. 6 is a block diagram illustrating an example of an implementation of the pattern provider of FIG. 2, according to an exemplary embodiment of the invention.
  • FIG. 6 is a block diagram illustrating an example of an implementation of the pattern provider of FIG. 2, according to an exemplary embodiment of the invention.
  • FIG. 7 is a block diagram illustrating an implementation of the rule provider of FIG. 2, in accordance with an exemplary embodiment of the present invention.
  • FIG. 8 is a flowchart schematically illustrating a method of processing unstructured data according to an exemplary embodiment of the present invention.
  • the unstructured data processing system 10 may include a data interface unit 100, a characteristic information generator 200, a user interface 300, and a data storage unit 400.
  • the unstructured data processing system 10 shown in FIG. 1 may be referred to as a knowledge base construction system.
  • each of the components may be a hardware block or a software block.
  • each of the components may be independent hardware blocks that communicate with each other, or may be software blocks that are executed on one processor.
  • the data interface unit 100 may receive data from a data pool external to the unstructured data processing system 10.
  • the data pool may represent that data may be generated, retained, and distributed, such as the Internet, a database, cloud sourcing, or a social network.
  • the data pool may include data provided directly to the unstructured data processing system 10 by the public or by individuals.
  • the data interface unit 100 may receive informal data or unstructured data or knowledge data from the data pool.
  • Unstructured data is data that is not implemented in a fixed form, and is contrasted with formal data or structured data including contents corresponding to corresponding fields.
  • a database, a spreadsheet, or the like may be structured data, and text documents, audio data, and image data may be unstructured data.
  • the data includes metadata or schemas, but XML or HTML may be classified as semi-structured data. Note that it can be premised on the type of work.
  • Unstructured data may be generated, retained, and distributed through cloud sourcing or social networks, among the examples of data pools described above.
  • the above-described structured data or unstructured data may be referred to as data before processing, and the secondary data that is processed significantly may be referred to as information.
  • the knowledge data received by the data interface unit 100 may be meta information about how to use the information. For example, wind speed, wind direction, and humidity obtained in observing the climate may correspond to data, and the weather predicted by modeling the data may correspond to information. At this time, the knowledge can be concluded through trial and error and analysis of cumulative information, for example, when the snow, driving accident rate increases, which may correspond to the knowledge data.
  • the former is divided into external knowledge data and the latter is classified into internal knowledge data.
  • the data interface unit 100 may receive external knowledge data from Wiki, DBpedia, FreeBase, or the like.
  • the data interface unit 100 may automatically receive unstructured data or external knowledge data from the outside through a search engine.
  • the unstructured data or the external knowledge data may be received from the data pool. Can be.
  • the user interface 300 may exchange signals with an external user of the unstructured data processing system 10. For example, the user may input an input signal for setting a method of analyzing the unstructured data through the user interface 300. In addition, the user interface 300 may provide an output signal indicating a result of analyzing the unstructured data to the user.
  • the data interface unit 100 and the user interface unit 300 are respectively shown as independent components in the example shown in FIG. 1, it is only an example and it will be understood that the technical spirit of the present invention is not limited thereto.
  • the unstructured data processing system 10 may use the unstructured data processing system 10 through one interface unit. Can exchange information with outside
  • the characteristic information generator 200 extracts the characteristic of the input unstructured data, sets the relation information on the characteristic, and generates the characteristic information of the unstructured data.
  • the atypical data characteristic information generator 200 may include a characteristic extraction manager 220, a characteristic extractor 240, and a characteristic relationship setter 260.
  • the feature extraction management unit 220 may classify the unstructured data according to the data type, and generate a control signal to change the method of extracting the feature according to the corresponding data type. For example, when the unstructured data is text-based data, the feature extraction manager 220 may generate a control signal to extract a feature based on the frequency of words included in the unstructured data. Alternatively, when the data type of the unstructured data is audio or video, the feature extraction manager 220 may generate a control signal to extract the feature based on the frequency spectrum of the unstructured data.
  • the feature extractor 240 may extract a feature from the unstructured data in response to the control signal. For example, the feature extractor 240 may extract words having a high frequency of occurrence as features. Alternatively, the feature extractor 240 may define an object in the image according to the analysis result of the frequency spectrum. In this case, the feature extractor 240 may extract an object such as an eye, a nose, and a mouth as a feature from the face image.
  • the feature extractor 240 may include a module (not shown) for converting a format from the frequency spectrum into an object.
  • the characteristic relationship setting unit 260 may set relationship information on the characteristic by assigning semantic information to the characteristic extracted from the characteristic extracting unit 240. For example, the characteristic relationship setting unit 260 may assign semantic information to a word having a high frequency by tagging the entity name using a lexical dictionary. Furthermore, the characteristic relationship setting unit 260 may analyze the association relationship between at least two semantic information on the characteristic and give newly set or generated semantic information to the characteristic. For example, when the word included in the text is a mobile phone, a home appliance, or the like, the characteristic relationship setting unit 260 may assign meaning information of electronic products to these characteristics. In this case, the characteristic relationship setting unit 260 may perform the above analysis by using internal knowledge data stored in the knowledge data storage unit 420 of the data storage unit 400.
  • the characteristic information generated as described above is transmitted to the knowledge data manager 500.
  • the knowledge data management unit 500 converts the characteristic information received from the characteristic information generation unit 200 into internal knowledge data based on the knowledge data received from the data interface unit 100, and heterogeneous information on the converted internal knowledge data. Verify by verification method.
  • the knowledge data management unit 500 may include a knowledge data conversion unit (not shown) and a conversion verification unit (not shown).
  • the knowledge data converter may convert the characteristic information into structured data using semantic technology.
  • Semantic technology refers to intelligent technology that enables computers to communicate by setting language and rules that a computer can understand, just as people read the screen and understand the meaning. Semantic technology aims to express the relationship-semiteme between objects belonging to the environment in the form of an ontology that can be processed by a machine, that is, a computer, and to process it by an automated machine.
  • An ontology is a model that abstracts and shares what people think about things. It is a technology that is formalized and explicitly defines the types of concepts or usage constraints. In computer science, ontology is a data model that represents a specific domain and is defined as structured data that describes the concepts and the relationships between them.
  • Ontology is a tool that can implement semantic technology. It is used as a tool to connect data semantically, and it can process and process the concept of human things in a form of database in computer.
  • triple refers to expressing concepts in the form of subjects, predicates, and objects. Each subject, predicate, and object can be expressed as a Uniform Resource Identifier (URI) in XML.
  • URI Uniform Resource Identifier
  • RDF the standard language describing semantic web ontology
  • OWL the standard language describing semantic web ontology
  • TopicMaps which are proposed by the W3C.
  • the knowledge data converting unit may use the external knowledge data in converting the characteristic information into the internal knowledge data of the triple form.
  • the knowledge data converter may use external knowledge data to form internal knowledge data by connecting the subject, predicate, and object included in the characteristic information, or to connect additional objects.
  • the knowledge data transformation unit may transform the characteristic information of person A, person B, and marriage, such as "A has married B.” Using knowledge data about A and B's wedding in Wikipedia, "A And B were married at the Hyatt Hotel on August 10, 2013. " Since the above example is for illustrative purposes, it may be irrelevant to the knowledge data according to the classification of the above-described data and knowledge.
  • the knowledge data converting unit may assign weights to the characteristic information (or the characteristic) or the external knowledge data in converting the characteristic information into the triple form of internal knowledge data. For example, for characteristic information that implies semantic information about a property such as furniture and household appliances included in an arbitrary text, weights for household appliances over furniture are considered in consideration of other characteristics included in the text. The height can be generated as internal knowledge data related to newlyweds.
  • the knowledge data conversion unit adds weights to the characteristic information of person A, person B, and marriage, rather than external knowledge data of person A, person C, love affair and unmarried, so that A contradicts external knowledge data of unmarried. Based on the characteristic information, A may generate internal knowledge data of married.
  • the knowledge data converting unit A generates pending internal knowledge data such as unconfirmed once for marital status, and then, on the basis of the accumulated characteristic information or external knowledge data, A converts the final internal knowledge data for marital status. Can be generated.
  • the conversion verification unit may verify the internal knowledge data (temporary internal knowledge data) generated from the knowledge data conversion unit by using a heterogeneous verification method and process the verified internal knowledge data.
  • the internal knowledge data verified by the conversion verification unit is stored in the knowledge data storage unit 420 of the data storage unit 400.
  • FIG. 2 is a block diagram illustrating an implementation of the feature extraction unit 240 of FIG. 1 in accordance with an exemplary embodiment of the present invention.
  • 3 to 5 are diagrams for describing an operation of the feature extractor 240 of FIG. 1. Specifically, FIG. 3 is a diagram illustrating an example of a pattern, FIG. 4 is a diagram illustrating an example of a rule, and FIG. 5 is a diagram illustrating a characteristic generated from unstructured data by executing a rule.
  • the feature extractor 240 may extract a feature of the unstructured data.
  • the feature extractor 240 may include a pattern provider 242, a rule provider 244, and a rule execution engine 246.
  • the data storage unit 400 may further include a pattern storage unit 440 and a rule storage unit 460 as well as the knowledge data storage unit 420.
  • the unstructured data received from the data interface unit 100 is a text-based document will be described, but this is only an example.
  • the unstructured data processing system according to the exemplary embodiment of the present invention may have various types of unstructured data. It will be appreciated that it can be applied to data.
  • the pattern provider 242 may provide a pattern corresponding to the unstructured data based on the format of the unstructured data.
  • the pattern may serve as a reference used to extract an information area included in the unstructured data, and the information area may refer to an area containing information useful in the unstructured data.
  • the information area may be a text area.
  • the information area may be extracted from the unstructured data according to the pattern in the unstructured data.
  • the pattern used to extract the information area from the unstructured data may be defined by the user through the user interface 300, and may be selected from a plurality of patterns stored in the pattern storage 440 of the data storage 400. It may be.
  • a pattern in an HTML document of a social network as a kind of unstructured data may be used to extract a text area.
  • the HTML document of the social network may include a plurality of text areas separated from each other, and the pattern may classify a total of seven text areas as keywords included in a class. .
  • the information areas, ie text areas, extracted from the HTML document of the social network using the pattern may each include text.
  • the pattern provider 242 may extract the information area from the unstructured data by providing a pattern corresponding to the unstructured data based on the format of the unstructured data. A detailed description of the operation of the pattern provider 242 will be described later with reference to FIG. 6.
  • the unstructured data is voice or video based data
  • data related to a specific reference value may be extracted from the unstructured data as an information area, and the pattern may determine such reference value.
  • a pattern may be used to extract a sound including a specific db or more or a sound including a specific frequency.
  • the rule provider 244 may match at least one item with a pattern provided by the pattern provider 242, and provide a rule including a correspondence between the item and the pattern. have. That is, the rule may include at least one item, and the item may correspond to a pattern provided by the pattern provider 242. In addition, the rule may determine for each information area a manner of extracting only necessary data from the information area extracted by the pattern.
  • the rule may be defined by the user through the user interface 300, or may be selected from a plurality of rules stored in the rule storage 460 of the data storage 400.
  • a rule may correspond to a plurality of items in the pattern of FIG. 3. That is, as shown in the left column of FIG. 4, the rule selects seven items such as' fullname ',' username ',' time ',' tweet-text ',' reply ',' retweet 'and favorite'. Each item may correspond to the information area (or text area) of FIG. 3 including the item as a keyword.
  • the rule may determine a method of processing data in the information area, as shown in the right column of FIG. 4, to extract only necessary data from data included in the information area. For example, the rule may determine that the data corresponding to the 'fullname' item extracts the entire text included in the text area, while the data corresponding to the 'retweet' item extracts only numbers.
  • rule execution engine 246 may generate the characteristics of the unstructured data by applying the rule to the unstructured data. That is, as shown in FIG. 5, the rule execution engine 246 generates a characteristic by matching each item with a value (i.e., the result of processing the data contained in the information area) by executing the rule of FIG. Can be.
  • the characteristic of the HTML document of the social network may include seven items and a value corresponding to the items.
  • the characteristics of the unstructured data generated by the rule execution engine 246 may be used to generate the characteristic information by the characteristic relationship setting unit 260, and the characteristic information may be used by the knowledge data management unit 500. Can be converted into knowledge data.
  • the unstructured data processing system 10 processes data in a pattern and an information area that defines an information area useful for unstructured data based on the format of the unstructured data and the information area.
  • the pattern providing unit 242 may include a pattern recommending unit 242_2, a pattern defining unit 242_4, and a pattern execution engine 242_6.
  • the pattern recommendation unit 242_2 may provide a recommendation pattern determined to be suitable for the unstructured data.
  • the pattern recommendation unit 242_2 may receive unstructured data from the data interface unit 100, and access the pattern storage unit 420.
  • the pattern recommendation unit 242_2 may select at least one of the plurality of patterns stored in the pattern storage unit 440 based on the format of the unstructured data received from the data interface unit 100, and recommend the selected at least one pattern. It can be provided to the pattern definition part 242_4 as a pattern.
  • the pattern recommendation unit 242_2 may select a recommendation pattern based on the type and / or source of the unstructured data.
  • the pattern recommendation unit 242_2 may be an unstructured data received from the data interface unit 100 as an HTML document, and analyze a source of the HTML document, for example, domain information.
  • domain information corresponds to a service providing a social network
  • a pattern shown in FIG. 3 may be selected from among a plurality of patterns stored in the pattern storage unit 420, and the pattern definition unit 242_4 is used as the recommendation pattern.
  • the pattern definition unit 242_4 may determine a pattern to be applied to the unstructured data. That is, the pattern corresponding to the unstructured data may be determined based on the input signal received from the user through the user interface 300 and / or the recommendation pattern received from the pattern recommendation unit 242_2. For example, the pattern definition unit 242_4 may identify at least one information area included in the unstructured data by analyzing the format of the unstructured data. For example, the pattern definition unit 242_4 may identify a plurality of text areas in the HTML document. The pattern definition unit 242_4 may exclude some of the plurality of information areas according to the recommendation pattern received from the pattern recommendation unit 242_2 based on the input signal, or set an additional information area in the recommendation pattern.
  • the pattern definition unit 242_4 may define a pattern so that an unnecessary information area included in the unstructured data, for example, an information area including advertisement information, is not extracted based on a user input signal. Accordingly, a new pattern may be defined, and the pattern definition unit 242_4 may store the new pattern in the pattern storage unit 420.
  • the pattern definition unit 242_4 may group a plurality of information areas having the same format. For example, replies of users in a plurality of search results or social networks derived by a search engine may exist as plural in one unstructured data, and may have the same format as each other.
  • the pattern definition unit 242_4 may group or hierarchize information areas having the same format.
  • the pattern execution engine 242_6 may generate a result of applying the pattern to the unstructured data. That is, the pattern execution engine 242_6 may extract data of the information area from the unstructured data based on the pattern defined by the pattern definition unit 242_4. The pattern execution engine 242_6 may provide the extracted data to the user through the user interface 300, and the input signal fed back by the user through the user interface 300 with respect to the provided data is the pattern definition unit 242_4. ) May be reflected in the defining pattern. Accordingly, the user may set the pattern while checking the result of applying the pattern to the unstructured data. In addition, the data extracted from the pattern execution engine 242_6 may be provided to the rule provider 244.
  • the rule provider 244 may include a rule recommender 244_2 and a rule definer 244_4.
  • the rule recommender 244_2 may provide a recommendation rule determined to be suitable for the unstructured data.
  • the rule recommender 244_2 may receive the pattern and the extracted data from the pattern execution engine 242_6 of the pattern provider 242, and access the rule storage 460.
  • the rule recommending unit 244_2 may select at least one of a plurality of rules stored in the rule storage unit 460 based on the pattern and the extracted data, and the rule defining unit 244_4 as the recommendation rule as the selected at least one rule. Can be provided to For example, as shown in FIGS.
  • the rule recommending unit 244_2 is a rule storing unit based on a feature of each information area inferred based on a keyword included in a class or a combination of a plurality of keywords. At least one of the plurality of rules stored at 460 may be selected. That is, the rule recommending unit 244_2 may determine that the unstructured data is an HTML document of a social network based on the seven keyword combinations shown in FIG. 3, and thus, the plurality of rules stored in the rule storage unit 460. At least one may be selected. According to an exemplary embodiment of the present invention, the pattern recommendation unit 242_2 may select a recommendation pattern based on the type and / or source of the unstructured data.
  • the rule definition unit 244_4 may determine a rule to be applied to the unstructured data. That is, the rule corresponding to the unstructured data may be determined based on the input signal received from the user through the user interface 300 and / or the recommendation rule received from the rule recommender 244_2. For example, the rule definition unit 244_4 analyzes the information included in the information area extracted from the unstructured data (eg, analyzing keywords included in the class in FIG. 3, or whether the format of the text indicates a date or By analyzing whether the number is indicated or not), an item corresponding to the information area can be identified, and the information area can be associated with the item.
  • the information included in the information area extracted from the unstructured data eg, analyzing keywords included in the class in FIG. 3, or whether the format of the text indicates a date or By analyzing whether the number is indicated or not
  • the rule definition unit 244_4 may store a plurality of candidate items, and may update candidate items based on an input signal received from a user through the user interface unit 300.
  • the information region may correspond to one of the candidate items. For example, in the example of FIG. 4, when “October 31" corresponds to the "time” item, but there is "date” among candidate items stored in the rule definition unit 244_4, the rule definition unit 244_4 is unstructured. In data, a text area containing "time” in a class can be mapped to a "date” item.
  • the unstructured data processing system 10 may store a plurality of patterns and a plurality of rules and provide a recommendation pattern and a recommendation rule determined to be suitable for the unstructured data.
  • the unstructured data processing system 10 may store a plurality of patterns and a plurality of rules and provide a recommendation pattern and a recommendation rule determined to be suitable for the unstructured data.
  • patterns and rules suitable for unstructured data can be defined, and as a result, characteristics can be effectively extracted from unstructured data.
  • the unstructured data processing method 20 may include receiving unstructured data (S10).
  • the data interface unit 100 may receive unstructured data from a data pool.
  • the unstructured data processing method 20 may include a step S20 of defining a pattern based on an input signal and / or a recommendation pattern.
  • the pattern defining unit 242_4 corresponds to a pattern corresponding to the unstructured data based on an input signal received from the user through the user interface unit 300 and / or a recommendation pattern received from the pattern recommendation unit 242_2. Can be defined.
  • the unstructured data processing method 20 may then comprise a step (S30) of storing and executing the defined pattern.
  • the pattern defining unit 242_4 may store the defined pattern in the pattern storage unit 440, and the pattern execution engine 242_6 may infer the information area by executing the defined pattern.
  • the unstructured data processing method 20 may include a step S40 of defining a rule based on an input signal and / or a recommendation rule.
  • the rule defining unit 244_4 corresponds to a rule corresponding to unstructured data based on an input signal received from a user through the user interface unit 300 and / or a recommendation rule received from the rule recommender 244_2. Can be defined.
  • the unstructured data processing method 20 may then include the step of storing and executing the defined pattern (S50).
  • the rule definition unit 244_4 may store the defined rule in the rule storage unit 460, and the rule execution engine 246 may extract the characteristic of the unstructured data by executing the defined rule. .

Abstract

An unstructured data processing system and method are disclosed. The unstructured data processing system according to an exemplary embodiment of the present invention can comprise: a pattern providing unit for providing a pattern of unstructured data on the basis of an unstructured data format; a rule providing unit for making at least one item correspond to the pattern and providing a rule including a correspondence relationship of the item and the pattern; and a rule execution engine for generating an attribute by applying the rule to the unstructured data.

Description

비정형 데이터 처리 시스템 및 방법Unstructured Data Processing Systems and Methods
본 발명의 기술적 사상은 비정형 데이터를 처리하는 시스템 및 방법에 관한것으로서, 자세하게는 비정형 데이터로부터 특성을 추출하는 시스템 및 방법에 관한 것이다.The technical idea of the present invention relates to a system and method for processing unstructured data, and more particularly, to a system and method for extracting features from unstructured data.
본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 ㈜솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2014.05.01~2015.02.28, 연구관리 전문기관: 정보통신기술연구진흥센터, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 10044494]The present invention is derived from a study conducted and conducted by Saltlux Co., Ltd. as part of the SW Computing Industry Source Technology Development Project (SW) of the Ministry of Science, ICT and Future Planning. [Research period: 2014.05.01 ~ 2015.02.28, Specialized research management organization: Information and communication technology research promotion center, Project title: WiseKB: Development of self-learning knowledge base and reasoning technology based on big data understanding, Assignment number: 10044494]
지식 베이스(Knowledge Base) 구축은 수집된 데이터(자료)를 어휘 체계로 분류하고 이를 데이터 베이스에 저장함으로써 수행될 수 있다. 지식 베이스 구축을 위하여 수집되는 데이터는 그 출처가 매우 다양할 수 있다. 예를 들면, 지식 베이스 구축을 위하여 수집되는 데이터는 뉴스, 학술정보, 사전 등의 내용을 인터넷을 통해서 수집되는 데이터일 수도 있고, 기 구축된 다른 지식 베이스(예컨대, 전문 지식 베이스)부터 온 라인 또는 오프 라인으로 수집되는 데이터일 수도 있고, 사용자가 직접 입력한 데이터일 수도 있다. 또한, 수집되는 데이터는 그 형식이 매우 다양할 수 있다. 예를 들면, 지식 베이스 구축을 위하여 수집되는 데이터는 텍스트 기반 데이터일 수도 있고, 이미지 기반 데이터일 수도 있고, 음성 및 동영상 기반 데이터일 수도 있다. 이와 같이, 다양한 종류의 데이터로부터 필요한 정보를 추출하고 추출된 정보를 관리하는 것이 지식 베이스 구축에서 매우 중요할 수 있다.Knowledge Base construction can be done by classifying the collected data (data) into a lexical system and storing it in the database. The data collected to build a knowledge base can come from a variety of sources. For example, the data collected for building the knowledge base may be data collected through the Internet for news, scholarly information, dictionaries, etc., or online or from another pre-built knowledge base (eg, expertise base). The data may be collected offline or may be data directly input by the user. In addition, the data collected can vary widely in format. For example, the data collected for building the knowledge base may be text-based data, image-based data, or voice and video-based data. As such, extracting necessary information from various kinds of data and managing the extracted information may be very important in building a knowledge base.
본 발명의 기술적 사상은, 비정형 데이터로부터 특성을 효과적으로 추출하는 비정형 데이터 처리 시스템 및 방법을 제공한다.The technical idea of the present invention provides an unstructured data processing system and method for effectively extracting features from unstructured data.
상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상의 일측면에 따른 비정형 데이터 처리 시스템은, 외부로부터 비정형 데이터를 수신하는 데이터 인터페이스부, 및 상기 비정형 데이터의 특성을 추출하는 특성 추출부 및 상기 특성에 대한 관계 정보를 설정함으로써 특성 정보를 생성하는 특성 관계 설정부를 포함하는 특성 정보 생성부를 포함할 수 있고, 상기 특성 추출부는 상기 비정형 데이터의 형식에 기초하여 상기 비정형 데이터의 패턴을 제공하는 패턴 제공부, 적어도 하나의 항목을 상기 패턴에 대응시키고, 상기 항목 및 패턴의 대응관계를 포함하는 규칙을 제공하는 규칙 제공부, 및 상기 규칙을 상기 비정형 데이터에 적용함으로써 상기 특성을 생성하는 규칙 실행 엔진을 포함할 수 있다.In order to achieve the above object, the atypical data processing system according to an aspect of the present invention, the data interface unit for receiving the unstructured data from the outside, and the feature extraction unit for extracting the characteristics of the unstructured data and the And a property information generation unit including a property relationship setting unit for generating property information by setting the relationship information for the property, wherein the property extraction unit is configured to provide a pattern of the atypical data based on a format of the unstructured data. A rule providing unit for studying, at least one item corresponding to the pattern, and providing a rule including a correspondence between the item and the pattern, and a rule execution engine for generating the characteristic by applying the rule to the unstructured data. It may include.
본 발명의 예시적 실시예에 따라, 상기 비정형 데이터 처리 시스템은 복수개의 패턴들을 저장하는 패턴 저장부 및 복수개의 규칙들을 저장하는 규칙 저장부를 포함하는 데이터 저장부, 및 사용자로부터 입력 신호를 수신하고 사용자에게 출력 신호를 제공하는 사용자 인터페이스부를 더 포함할 수 있고, 상기 패턴 제공부는 상기 입력 신호에 기초하여 패턴을 생성하여 상기 패턴 저장부에 저장할 수 있고, 상기 규칙 제공부는 상기 입력 신호에 기초하여 규칙을 생성하여 상기 규칙 저장부에 저장할 수 있다.According to an exemplary embodiment of the present invention, the atypical data processing system includes a data storage unit including a pattern storage unit for storing a plurality of patterns and a rule storage unit for storing a plurality of rules, and an input signal from a user and receiving an input signal. The apparatus may further include a user interface configured to provide an output signal to the pattern providing unit. The pattern providing unit may generate a pattern based on the input signal and store the pattern in the pattern storage unit. The rule providing unit may generate a rule based on the input signal. It may be generated and stored in the rule storage unit.
본 발명의 예시적 실시예에 따라, 상기 패턴 제공부는 상기 비정형 데이터의 형식에 기초하여 상기 패턴 저장부에 저장된 복수개의 패턴들 중 선택된 적어도 하나의 추천 패턴을 제공하는 패턴 추천부, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 비정형 데이터에 대응하는 패턴을 결정하는 패턴 정의부, 및 상기 패턴 정의부에서 정의된 패턴에 기초하여 상기 비정형 데이터로부터 정보 영역에 포함된 데이터를 추출하는 패턴 실행 엔진을 포함할 수 있다.According to an exemplary embodiment of the present invention, the pattern providing unit provides a pattern recommendation unit for providing at least one recommendation pattern selected from a plurality of patterns stored in the pattern storage unit based on a format of the unstructured data, the input signal and A pattern definition unit that determines a pattern corresponding to the unstructured data based on the recommendation pattern, and a pattern execution engine that extracts data included in an information area from the unstructured data based on the pattern defined by the pattern definition unit. It may include.
본 발명의 예시적 실시예에 따라, 상기 패턴 추천부는 상기 지식 데이터의 종류 또는 출처에 기초하여 상기 추천 패턴을 선택할 수 있다.According to an exemplary embodiment of the present invention, the pattern recommendation unit may select the recommendation pattern based on the type or source of the knowledge data.
본 발명의 예시적 실시예에 따라, 상기 패턴 정의부는 상기 비정형 데이터의 형식을 분석함으로써 적어도 하나의 정보 영역을 식별할 수 있고, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 정보 영역을 패턴에 설정하거나 상기 패턴에서 제외시킬 수 있다.According to an exemplary embodiment of the present invention, the pattern definition unit may identify at least one information area by analyzing the format of the unstructured data, and pattern the information area based on the input signal and / or the recommendation pattern. It can be set to or excluded from the pattern.
본 발명의 예시적 실시예에 따라, 상기 패턴 정의부는 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화할 수 있다.According to an exemplary embodiment of the present invention, the pattern definition unit may group a plurality of information areas having the same format.
본 발명의 예시적 실시예에 따라, 상기 규칙 제공부는 상기 패턴에 따라 상기 비정형 데이터의 정보 영역으로부터 추출된 데이터에 기초하여 상기 규칙 저장부에 저장된 복수개의 규칙들 중 선택된 적어도 하나의 추천 규칙을 제공하는 규칙 추천부, 및 상기 입력 신호 및/또는 상기 추천 규칙에 기초하여 상기 비정형 데이터에 대응하는 규칙을 정의하는 규칙 정의부를 포함할 수 있다.According to an exemplary embodiment of the present invention, the rule provider provides at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the unstructured data according to the pattern. And a rule definition unit for defining a rule corresponding to the unstructured data based on the input signal and / or the recommendation rule.
본 발명의 예시적 실시예에 따라, 상기 규칙 추천부는 상기 지식 데이터의 종류 또는 출처에 더 기초하여 상기 추천 규칙을 선택할 수 있다.According to an exemplary embodiment of the present invention, the rule recommendation unit may select the recommendation rule further based on the type or source of the knowledge data.
본 발명의 예시적 실시예에 따라, 상기 규칙 정의부는 상기 추출된 데이터를 분석함으로써 상기 정보 영역에 대응하는 항목을 식별할 수 있고, 상기 정보 영역을 상기 항목에 대응시킬 수 있다.According to an exemplary embodiment of the present disclosure, the rule definition unit may identify an item corresponding to the information area by analyzing the extracted data, and may correspond the information area to the item.
본 발명의 예시적 실시예에 따라, 상기 규칙 정의부는 복수개의 후보 항목들을 저장할 수 있고, 상기 입력 신호에 기초하여 상기 후보 항목들을 갱신할 수 있고, 상기 정보 영역을 상기 후보 항목들 중 하나에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule definition unit may store a plurality of candidate items, update the candidate items based on the input signal, and correspond the information area to one of the candidate items. You can.
본 발명의 예시적 실시예에 따라, 상기 데이터 저장부는 지식 데이터를 저장하는 지식 데이터 저장부를 더 포함할 수 있고, 상기 비정형 데이터 처리 시스템은 상기 인터페이스로부터 수신되는 외부 지식 데이터 및 상기 지식 데이터 저장부에 저장된 지식 데이터에 기초하여 상기 특성 정보를 지식 데이터로 변환하고 변환된 지식 데이터를 검증하는 지식 데이터 관리부를 더 포함할 수 있다.According to an exemplary embodiment of the present invention, the data storage unit may further include a knowledge data storage unit for storing the knowledge data, wherein the atypical data processing system may include external knowledge data received from the interface and the knowledge data storage unit. The apparatus may further include a knowledge data manager configured to convert the characteristic information into knowledge data based on the stored knowledge data and verify the converted knowledge data.
본 발명의 예시적 실시예에 따라, 상기 특성 정보 생성부는 상기 비정형 데이터를 데이터 종류에 따라 분류하고 대응되는 데이터 종류에 따라 추출방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부를 더 포함할 수 있고, 상기 패턴 제공부는 상기 제어 신호에 기초하여 상기 비정형 데이터의 형식을 분석할 수 있다.According to an exemplary embodiment of the present invention, the feature information generation unit may further include a feature extraction management unit for classifying the unstructured data according to data type and generating a control signal to change the extraction method according to the corresponding data type. The pattern providing unit may analyze a format of the atypical data based on the control signal.
본 발명의 기술적 사상에 따른 비정형 데이터 처리 시스템 및 방법에 의하면, 비정형 데이터에 포함된 정보를 패턴 및 규칙을 사용함으로써 효과적으로 추출할 수 있다.According to the atypical data processing system and method according to the technical idea of the present invention, information included in the unstructured data can be effectively extracted by using patterns and rules.
또한, 본 발명의 기술적 사상에 따른 비정형 데이터 처리 시스템 및 방법에 의하면, 복수개의 패턴들 및 규칙들을 구비하고, 수신된 비정형 데이터에 적합한 규칙 및 패턴을 추천함으로써 비정형 데이터로부터 유효한 정보가 자동으로 추출될 수 있다.In addition, according to the atypical data processing system and method according to the technical concept of the present invention, by having a plurality of patterns and rules, by recommending a rule and pattern suitable for the received unstructured data valid information can be automatically extracted from the unstructured data Can be.
도 1은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템을 나타내는 블록도이다.1 is a block diagram illustrating an unstructured data processing system according to an exemplary embodiment of the present invention.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 특성 추출부의 구현예를 나타내는 블록도이다.FIG. 2 is a block diagram illustrating an embodiment of the feature extraction unit of FIG. 1 in accordance with an exemplary embodiment of the present invention. FIG.
도 3 내지 도 5는 도 1의 특성 추출부의 동작을 설명하기 위한 도면들이다. 도 4는 규칙의 예시를 나타내는 도면이다.3 to 5 are diagrams for describing an operation of the feature extraction unit of FIG. 1. 4 is a diagram illustrating an example of a rule.
도 6은 본 발명의 예시적 실시예에 따라, 도 2의 패턴 제공부의 구현예를 나타내는 블록도이다.FIG. 6 is a block diagram illustrating an example of an implementation of the pattern provider of FIG. 2, according to an exemplary embodiment of the invention. FIG.
도 7은 본 발명의 예시적 실시예에 따라, 도 2의 규칙 제공부의 구현예를 나타내는 블록도이다.7 is a block diagram illustrating an implementation of the rule provider of FIG. 2, in accordance with an exemplary embodiment of the present invention.
도 8은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법을 개략적으로 나타내는 순서도이다.8 is a flowchart schematically illustrating a method of processing unstructured data according to an exemplary embodiment of the present invention.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.Hereinafter, with reference to the accompanying drawings will be described in detail an embodiment of the present invention. The embodiments of the present invention are provided to more completely explain the present invention to those skilled in the art. As the inventive concept allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to the specific disclosed form, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing each drawing, like reference numerals are used for like elements. In the accompanying drawings, the dimensions of the structures are shown to be enlarged or reduced than actual for clarity of the invention.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, action, component, part, or combination thereof described on the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, parts, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and shall not be construed in ideal or excessively formal meanings, as expressly defined herein. .
도 1은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템(10)을 나타내는 블록도이다. 도 1에 도시된 바와 같이, 비정형 데이터 처리 시스템(10)은 데이터 인터페이스부(100), 특성 정보 생성부(200), 사용자 인터페이스(300), 데이터 저장부(400)을 포함할 수 있다. 도 1에 도시된 비정형 데이터 처리 시스템(10)은 지식 베이스 구축 시스템으로 지칭될 수도 있다. 이하에서, 각각의 구성요소들은 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 각각의 구성요소들은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.1 is a block diagram illustrating an unstructured data processing system 10 according to an exemplary embodiment of the present invention. As shown in FIG. 1, the unstructured data processing system 10 may include a data interface unit 100, a characteristic information generator 200, a user interface 300, and a data storage unit 400. The unstructured data processing system 10 shown in FIG. 1 may be referred to as a knowledge base construction system. In the following, each of the components may be a hardware block or a software block. For example, each of the components may be independent hardware blocks that communicate with each other, or may be software blocks that are executed on one processor.
데이터 인터페이스부(100)는 비정형 데이터 처리 시스템(10)의 외부의 데이터 풀(data pool)로부터 데이터를 수신할 수 있다. 데이터 풀은 인터넷(internet), 데이터 베이스(database), 클라우드 소싱(cloud sourcing) 또는 소셜 네트워크(social network) 등 데이터가 생성되고 보유되고 유통될 수 있는 것을 나타낼 수 있다. 또한, 데이터 풀은 대중 또는 개인에 의해 비정형 데이터 처리 시스템(10)으로 직접 제공되는 데이터를 포함할 수도 있다.The data interface unit 100 may receive data from a data pool external to the unstructured data processing system 10. The data pool may represent that data may be generated, retained, and distributed, such as the Internet, a database, cloud sourcing, or a social network. In addition, the data pool may include data provided directly to the unstructured data processing system 10 by the public or by individuals.
데이터 인터페이스부(100)는 데이터 풀로부터 비정형 데이터(informal data 또는 unstructured data) 또는 지식 데이터를 수신할 수 있다. 비정형 데이터는 고정된 형태로 구현되지 아니하는 데이터로, 대응되는 필드(field)에 대응되는 콘텐츠(contents)가 포함되는 정형 데이터(formal data 또는 structured data)와 대비된다. 예를 들어, 데이터 베이스(database) 또는 스프레드시트(spreadsheet) 등은 정형 데이터이고, 텍스트 문서, 음성 데이터 및 영상 데이터 등은 비정형 데이터일 수 있다. 고정된 필드에 저장되지는 않지만, 메타데이터(metadata)나 스키마(schema) 등을 포함하는 데이터로, XML이나 HTML은 반정형 데이터로 분류될 수는 있으나, 본 발명은 반정형 데이터를 비정형 데이터의 일 유형으로 전제될 수 있음을 알려둔다. 비정형 데이터는 전술된 데이터 풀의 예 중, 클라우드 소싱 또는 소셜 네트워크 등을 통해 생성, 보유 및 유통될 수 있다. The data interface unit 100 may receive informal data or unstructured data or knowledge data from the data pool. Unstructured data is data that is not implemented in a fixed form, and is contrasted with formal data or structured data including contents corresponding to corresponding fields. For example, a database, a spreadsheet, or the like may be structured data, and text documents, audio data, and image data may be unstructured data. Although not stored in a fixed field, the data includes metadata or schemas, but XML or HTML may be classified as semi-structured data. Note that it can be premised on the type of work. Unstructured data may be generated, retained, and distributed through cloud sourcing or social networks, among the examples of data pools described above.
전술된 정형 데이터 또는 비정형 데이터를 가공 전의 데이터라 하고, 이를 유의미하게 가공한 2차 데이터를 정보(information)이라 할 수 있다. 데이터 인터페이스부(100)에서 수신하는 지식 데이터는 정보를 어떻게 이용하는지에 대한 메타정보일 수 있다. 예를 들어, 기후를 관측함에 있어서 획득되는 풍속, 풍향 및 습도 등은 데이터에 해당될 수 있고, 이를 모델링(modeling)하여 예측되는 날씨는 정보에 해당될 수 있다. 이때, 지식은 시행 착오 및 누적 정보의 분석 등을 통해, 예를 들어, 눈이 올 경우 운전사고 발생률이 높아진다는 결론을 얻을 수 있는데, 이것이 지식 데이터에 해당될 수 있다. 이하에서는 외부로부터 입력되는 지식 데이터와 비정형 데이터 처리 시스템(10)에 의해 생성 및 관리되는 지식 데이터를 구분하기 위해, 전자를 외부 지식 데이터로, 후자를 내부 지식 데이터로 구분한다. 데이터 인터페이스부(100)는 위키(Wiki), 디비피디아(DBpedia), 프리 베이스(FreeBase) 등으로부터 외부 지식 데이터를 수신할 수 있다. The above-described structured data or unstructured data may be referred to as data before processing, and the secondary data that is processed significantly may be referred to as information. The knowledge data received by the data interface unit 100 may be meta information about how to use the information. For example, wind speed, wind direction, and humidity obtained in observing the climate may correspond to data, and the weather predicted by modeling the data may correspond to information. At this time, the knowledge can be concluded through trial and error and analysis of cumulative information, for example, when the snow, driving accident rate increases, which may correspond to the knowledge data. Hereinafter, in order to distinguish between knowledge data input from the outside and knowledge data generated and managed by the atypical data processing system 10, the former is divided into external knowledge data and the latter is classified into internal knowledge data. The data interface unit 100 may receive external knowledge data from Wiki, DBpedia, FreeBase, or the like.
이와 같이, 데이터 인터페이스부(100)는 외부로부터 비정형 데이터 또는 외부 지식 데이터를 검색 엔진 등을 통해 자동적으로 수신할 수 있다. 또한, 특성 정보 생성부(200) 또는 지식 데이터 관리부(500)의 요청, 또는 비정형 데이터 처리 시스템(10)의 다른 기능 블록에 의해 발생한 요청에 응답하여 데이터 풀로부터 비정형 데이터 또는 외부 지식 데이터를 수신할 수 있다. As such, the data interface unit 100 may automatically receive unstructured data or external knowledge data from the outside through a search engine. In addition, in response to a request of the characteristic information generation unit 200 or the knowledge data management unit 500 or a request generated by another functional block of the unstructured data processing system 10, the unstructured data or the external knowledge data may be received from the data pool. Can be.
사용자 인터페이스부(300)는 비정형 데이터 처리 시스템(10)의 외부 사용자와 신호를 주고 받을 수 있다. 예를 들면, 사용자는 사용자 인터페이스부(300)를 통해서 비정형 데이터를 분석하는 방식을 설정하는 입력 신호를 입력할 수 있다. 또한, 사용자 인터페이스부(300)는 비정형 데이터가 분석된 결과를 나타내는 출력 신호를 사용자에게 제공할 수 있다.The user interface 300 may exchange signals with an external user of the unstructured data processing system 10. For example, the user may input an input signal for setting a method of analyzing the unstructured data through the user interface 300. In addition, the user interface 300 may provide an output signal indicating a result of analyzing the unstructured data to the user.
비록 도 1에 도시된 예시에서 데이터 인터페이스부(100) 및 사용자 인터페이스부(300)는 독립적인 구성요소로서 각각 도시되었으나, 이는 예시일 뿐이며 본 발명의 기술적 사상이 이에 제한되지 않는 점은 이해될 것이다. 예를 들면, 비정형 데이터 처리 시스템(10)이 인터넷을 통해서 데이터를 수신하고, 인터넷을 통해서 사용자와 신호를 주고 받는 경우 비정형 데이터 처리 시스템(10)은 하나의 인터페이스부를 통해서 비정형 데이터 처리 시스템(10)의 외부와 정보를 주고 받을 수 있다.Although the data interface unit 100 and the user interface unit 300 are respectively shown as independent components in the example shown in FIG. 1, it is only an example and it will be understood that the technical spirit of the present invention is not limited thereto. . For example, when the unstructured data processing system 10 receives data through the Internet and exchanges signals with a user through the Internet, the unstructured data processing system 10 may use the unstructured data processing system 10 through one interface unit. Can exchange information with outside
특성 정보 생성부(200)는 입력된 비정형 데이터의 특성을 추출하고, 특성에 대한 관계 정보를 설정하여, 비정형 데이터에 대한 특성 정보로 생성한다. 비정형 데이터 특성 정보 생성부(200)는 특성 추출 관리부(220), 특성 추출부(240) 및 특성 관계 설정부(260)를 포함할 수 있다. The characteristic information generator 200 extracts the characteristic of the input unstructured data, sets the relation information on the characteristic, and generates the characteristic information of the unstructured data. The atypical data characteristic information generator 200 may include a characteristic extraction manager 220, a characteristic extractor 240, and a characteristic relationship setter 260.
특성 추출 관리부(220)는 비정형 데이터를 데이터 종류에 따라 분류하여, 대응되는 데이터 종류에 따라 특성을 추출하는 방법을 달리하도록 제어 신호를 생성할 수 있다. 예를 들면, 특성 추출 관리부(220)는, 비정형 데이터가 텍스트(text) 기반 데이터인 경우, 비정형 데이터에 포함된 단어의 빈도수에 근거하여 특성이 추출되도록 제어 신호를 생성할 수 있다. 또는, 특성 추출 관리부(220)는 비정형 데이터의 데이터 종류가 음성 또는 영상인 경우, 비정형 데이터의 주파수 스펙트럼에 근거하여 상기 특성이 추출되도록 제어 신호를 생성할 수 있다.The feature extraction management unit 220 may classify the unstructured data according to the data type, and generate a control signal to change the method of extracting the feature according to the corresponding data type. For example, when the unstructured data is text-based data, the feature extraction manager 220 may generate a control signal to extract a feature based on the frequency of words included in the unstructured data. Alternatively, when the data type of the unstructured data is audio or video, the feature extraction manager 220 may generate a control signal to extract the feature based on the frequency spectrum of the unstructured data.
특성 추출부(240)는 제어 신호에 응답하여 비정형 데이터로부터 특성을 추출할 수 있다. 예를 들어, 특성 추출부(240)는 발생 빈도수가 많은 단어들을 특성으로 추출할 수 있다. 또는 특성 추출부(240)는 주파수 스펙트럼에 대한 분석 결과에 따른 영상 내의 객체를 정의할 수 있다. 이 경우, 특성 추출부(240)는 얼굴 이미지에 대해 눈, 코 및 입 등의 객체를 특성으로 추출할 수 있다. 특성 추출부(240)는 이를 위해 주파수 스펙트럼으로부터 객체로 포맷을 변환시키는 모듈(미도시)을 포함할 수 있다. The feature extractor 240 may extract a feature from the unstructured data in response to the control signal. For example, the feature extractor 240 may extract words having a high frequency of occurrence as features. Alternatively, the feature extractor 240 may define an object in the image according to the analysis result of the frequency spectrum. In this case, the feature extractor 240 may extract an object such as an eye, a nose, and a mouth as a feature from the face image. The feature extractor 240 may include a module (not shown) for converting a format from the frequency spectrum into an object.
특성 관계 설정부(260)는 특성 추출부(240)로부터 추출된 특성에 의미 정보를 부여하여 특성에 대한 관계 정보를 설정할 수 있다. 예를 들어, 특성 관계 설정부(260)는 발생 빈도수가 많은 단어에 어휘 사전을 이용하여 개체명을 태깅(tagging)함으로써 의미 정보를 부여할 수 있다. 나아가 특성 관계 설정부(260)는 특성에 적어도 둘 이상의 의미 정보 사이의 연관 관계를 분석하여 새로이 설정 또는 생성된 의미 정보를 특성에 부여할 수 있다. 예를 들어, 특성 관계 설정부(260)는 텍스트에 포함된 단어가 핸드폰 및 가전제품 등일 때, 이들 특성에 전자제품이라는 의미 정보를 부여할 수 있다. 이때, 특성 관계 설정부(260)는 데이터 저장부(400)의 지식 데이터 저장부(420)에 저장된 내부 지식 데이터를 활용하여 상기의 분석을 수행할 수 있다. The characteristic relationship setting unit 260 may set relationship information on the characteristic by assigning semantic information to the characteristic extracted from the characteristic extracting unit 240. For example, the characteristic relationship setting unit 260 may assign semantic information to a word having a high frequency by tagging the entity name using a lexical dictionary. Furthermore, the characteristic relationship setting unit 260 may analyze the association relationship between at least two semantic information on the characteristic and give newly set or generated semantic information to the characteristic. For example, when the word included in the text is a mobile phone, a home appliance, or the like, the characteristic relationship setting unit 260 may assign meaning information of electronic products to these characteristics. In this case, the characteristic relationship setting unit 260 may perform the above analysis by using internal knowledge data stored in the knowledge data storage unit 420 of the data storage unit 400.
이와 같이 생성된 특성 정보는 지식 데이터 관리부(500)로 전송된다. 지식 데이터 관리부(500)는 데이터 인터페이스부(100)로부터 수신되는 지식 데이터에 기초하여, 특성 정보 생성부(200)로부터 수신되는 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증한다. 이를 위해, 지식 데이터 관리부(500)는 지식 데이터 변환부(미도시) 및 변환 검증부(미도시)를 포함할 수 있다. The characteristic information generated as described above is transmitted to the knowledge data manager 500. The knowledge data management unit 500 converts the characteristic information received from the characteristic information generation unit 200 into internal knowledge data based on the knowledge data received from the data interface unit 100, and heterogeneous information on the converted internal knowledge data. Verify by verification method. To this end, the knowledge data management unit 500 may include a knowledge data conversion unit (not shown) and a conversion verification unit (not shown).
지식 데이터 변환부는 특성 정보를 시맨틱 기술(semantic technology)을 이용하여 정형 데이터로 변환할 수 있다. 시맨틱 기술은 사람이 화면을 읽고 의미를 이해하는 것처럼 컴퓨터가 이해할 수 있는 언어와 규칙들을 정해 놓아 컴퓨터 사이의 의사소통을 가능하게 하는 지능형 기술을 의미한다. 시맨틱 기술에서는 해당 환경에 속하는 객체들 간의 관계-의미 정보(semanteme)를 기계, 즉 컴퓨터가 처리할 수 있는 온톨로지(ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 것을 목표로 하고 있다. 온톨로지란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로서, 정형화되고 개념의 유형이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 컴퓨터 과학 분야에서 온톨로지는 특정한 도메인을 표현하는 데이터 모델로서 특정한 도메인(domain)에 속하는 개념과 개념 사이의 관계를 기술하는 정형 데이터로 정의된다. 온톨로지는 시맨틱 기술을 구현할 수 있는 도구로써, 데이터를 의미적으로 연결할 수 있는 도구로 사용되며, 컴퓨터에서 사람이 갖고 있는 사물에 대한 개념을 일종의 데이터베이스의 형태로 가공하여 처리할 수 있도록 해 준다.The knowledge data converter may convert the characteristic information into structured data using semantic technology. Semantic technology refers to intelligent technology that enables computers to communicate by setting language and rules that a computer can understand, just as people read the screen and understand the meaning. Semantic technology aims to express the relationship-semiteme between objects belonging to the environment in the form of an ontology that can be processed by a machine, that is, a computer, and to process it by an automated machine. An ontology is a model that abstracts and shares what people think about things. It is a technology that is formalized and explicitly defines the types of concepts or usage constraints. In computer science, ontology is a data model that represents a specific domain and is defined as structured data that describes the concepts and the relationships between them. Ontology is a tool that can implement semantic technology. It is used as a tool to connect data semantically, and it can process and process the concept of human things in a form of database in computer.
이러한 시맨틱 기술 분야에서는 관계를 표현하기 위한 수단으로서 트리플(triple)이라는 표현 형태를 사용한다. 트리플이란, 주어(subject), 술어(predicate), 객체(object)의 형태로 개념을 표현하는 것을 말한다. 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있으며, 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.In this field of semantic technology, the expression form of triple is used as a means for expressing a relationship. Triple refers to expressing concepts in the form of subjects, predicates, and objects. Each subject, predicate, and object can be expressed as a Uniform Resource Identifier (URI) in XML. Currently, the standard language describing semantic web ontology is RDF, OWL, and TopicMaps, which are proposed by the W3C.
지식 데이터 변환부는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부는 특성 정보에 포함되는 주어, 술어 및 객체의 관계를 형성하여 내부 지식 데이터를 형성하거나 추가적인 객체 등을 연결함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부는 사람 A, 사람 B 및 결혼이라는 특성 정보를 "A는 B와 결혼했다"와 같은 변환할 수 있는데, 위키피디아의 A와 B의 결혼식에 관한 지식 데이터를 활용하여 "A와 B는 2013년 8월 10일 하얏트 호텔에서 결혼했다"와 같은 내부 지식 데이터로 변환할 수 있다. 상기 예는 예시를 위한 것이므로 전술된 데이터와 지식 등의 구분에 따른 지식 데이터와 무관할 수 있다. The knowledge data converting unit may use the external knowledge data in converting the characteristic information into the internal knowledge data of the triple form. For example, the knowledge data converter may use external knowledge data to form internal knowledge data by connecting the subject, predicate, and object included in the characteristic information, or to connect additional objects. For example, the knowledge data transformation unit may transform the characteristic information of person A, person B, and marriage, such as "A has married B." Using knowledge data about A and B's wedding in Wikipedia, "A And B were married at the Hyatt Hotel on August 10, 2013. " Since the above example is for illustrative purposes, it may be irrelevant to the knowledge data according to the classification of the above-described data and knowledge.
지식 데이터 변환부는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 특성 정보(또는 특성) 또는 외부 지식 데이터에 가중치를 부여할 수 있다. 예를 들어, 임의의 텍스트에 포함된 가구 및 가전제품 등의 특성에 대해 집이라는 의미 정보를 부여한 특성 정보에 대해, 해당 텍스트에 포함된 다른 특성들을 고려하여 가구보다 가전제품에 대한 가중치를 가구보다 높이 하여, 신혼과 관련된 내부 지식 데이터로 생성할 수 있다. 또는, 지식 데이터 변환부는 사람 A, 사람 C, 연애 및 A는 미혼이라는 외부 지식 데이터보다, 사람 A, 사람 B 및 결혼이라는 특성 정보에 가중치를 더 부여하여, A는 미혼이라는 외부 지식 데이터와 모순되는 특성 정보에 근거하여 A는 기혼이라는 내부 지식 데이터를 생성할 수 있다. 이때, 지식 데이터 변환부는 A는 기혼여부에 대해 일단 미확인 등과 같은 보류된 내부 지식 데이터를 생성한 후, 추후 누적되는 특성 정보 또는 외부 지식 데이터에 근거하여 A는 기혼여부에 대한 최종적인 내부 지식 데이터를 생성할 수 있다. The knowledge data converting unit may assign weights to the characteristic information (or the characteristic) or the external knowledge data in converting the characteristic information into the triple form of internal knowledge data. For example, for characteristic information that implies semantic information about a property such as furniture and household appliances included in an arbitrary text, weights for household appliances over furniture are considered in consideration of other characteristics included in the text. The height can be generated as internal knowledge data related to newlyweds. Alternatively, the knowledge data conversion unit adds weights to the characteristic information of person A, person B, and marriage, rather than external knowledge data of person A, person C, love affair and unmarried, so that A contradicts external knowledge data of unmarried. Based on the characteristic information, A may generate internal knowledge data of married. At this time, the knowledge data converting unit A generates pending internal knowledge data such as unconfirmed once for marital status, and then, on the basis of the accumulated characteristic information or external knowledge data, A converts the final internal knowledge data for marital status. Can be generated.
변환 검증부는 지식 데이터 변환부로부터 생성된 내부 지식 데이터(임시의 내부 지식 데이터)는 이종의 검증 방법으로 검증하여, 검증된 내부 지식 데이터로 처리할 수 있다. 변환 검증부에 의해 검증된 내부 지식 데이터는 데이터 저장부(400)의 지식 데이터 저장부(420)에 저장된다.The conversion verification unit may verify the internal knowledge data (temporary internal knowledge data) generated from the knowledge data conversion unit by using a heterogeneous verification method and process the verified internal knowledge data. The internal knowledge data verified by the conversion verification unit is stored in the knowledge data storage unit 420 of the data storage unit 400.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 특성 추출부(240)의 구현예를 나타내는 블록도이다. 또한, 도 3 내지 도 5는 도 1의 특성 추출부(240)의 동작을 설명하기 위한 도면들이다. 구체적으로, 도 3은 패턴의 예시를 나타내는 도면이고, 도 4는 규칙의 예시를 나타내는 도면이고, 도 5는 규칙을 실행함으로써 비정형 데이터로부터 생성된 특성을 나타내는 도면이다.2 is a block diagram illustrating an implementation of the feature extraction unit 240 of FIG. 1 in accordance with an exemplary embodiment of the present invention. 3 to 5 are diagrams for describing an operation of the feature extractor 240 of FIG. 1. Specifically, FIG. 3 is a diagram illustrating an example of a pattern, FIG. 4 is a diagram illustrating an example of a rule, and FIG. 5 is a diagram illustrating a characteristic generated from unstructured data by executing a rule.
전술한 바와 같이, 특성 추출부(240)는 비정형 데이터의 특성을 추출할 수 있다. 도 2에 도시된 바와 같이, 특성 추출부(240)는 패턴 제공부(242), 규칙 제공부(244) 및 규칙 실행 엔진(246)을 포함할 수 있다. 또한, 도 2에 도시된 바와 같이, 데이터 저장부(400)는 지식 데이터 저장부(420)뿐만 아니라 패턴 저장부(440) 및 규칙 저장부(460)를 더 포함할 수 있다. 이하에서, 데이터 인터페이스부(100)로부터 수신된 비정형 데이터는 텍스트 기반 문서인 실시예가 설명되나 이는 예시일 뿐이며, 전술한 바와 같이 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템은 다양한 종류의 비정형 데이터에 적용될 수 있음은 이해될 것이다.As described above, the feature extractor 240 may extract a feature of the unstructured data. As shown in FIG. 2, the feature extractor 240 may include a pattern provider 242, a rule provider 244, and a rule execution engine 246. In addition, as shown in FIG. 2, the data storage unit 400 may further include a pattern storage unit 440 and a rule storage unit 460 as well as the knowledge data storage unit 420. Hereinafter, an embodiment in which the unstructured data received from the data interface unit 100 is a text-based document will be described, but this is only an example. As described above, the unstructured data processing system according to the exemplary embodiment of the present invention may have various types of unstructured data. It will be appreciated that it can be applied to data.
본 발명의 예시적 실시예에 따라, 패턴 제공부(242)는 비정형 데이터의 형식에 기초하여 비정형 데이터에 대응하는 패턴을 제공할 수 있다. 패턴은 비정형 데이터에 포함된 정보 영역을 추출하는데 사용되는 기준(reference)으로서 기능할 수 있고, 정보 영역은 비정형 데이터에서 유용한 정보를 포함하는 영역을 지칭할 수 있다. 예를 들면, 비정형 데이터의 일종인 HTML 문서에서 정보 영역은 텍스트 영역일 수 있다. 정보 영역은 비정형 데이터에 패턴에 따라 비정형 데이터로부터 추출될 수 있다. 비정형 데이터로부터 정보 영역을 추출하기 위하여 사용되는 패턴은 사용자 인터페이스부(300)를 통해서 사용자로부터 정의될 수도 있고, 데이터 저장부(400)의 패턴 저장부(440)에 저장된 복수개의 패턴들로부터 선택될 수도 있다.According to an exemplary embodiment of the present invention, the pattern provider 242 may provide a pattern corresponding to the unstructured data based on the format of the unstructured data. The pattern may serve as a reference used to extract an information area included in the unstructured data, and the information area may refer to an area containing information useful in the unstructured data. For example, in an HTML document which is a type of unstructured data, the information area may be a text area. The information area may be extracted from the unstructured data according to the pattern in the unstructured data. The pattern used to extract the information area from the unstructured data may be defined by the user through the user interface 300, and may be selected from a plurality of patterns stored in the pattern storage 440 of the data storage 400. It may be.
도 3을 참조하면, 비정형 데이터의 일종으로서 소셜 네트워크의 HTML 문서에서 패턴은 텍스트 영역을 추출하는데 사용될 수 있다. 도 3의 좌측에 도시된 바와 같이, 소셜 네트워크의 HTML 문서는 서로 분리된 복수개의 텍스트 영역들을 포함할 수 있고, 패턴은 총 7개의 텍스트 영역들을 클래스(class)에 포함된 키워드로서 분류할 수 있다. 도 3의 우측에 도시된 바와 같이, 패턴을 사용하여 소셜 네트워크의 HTML 문서로부터 추출된 정보 영역들, 즉 텍스트 영역들은 각각 텍스트를 포함할 수 있다. 이와 같이, 패턴 제공부(242)는 비정형 데이터의 형식에 기초하여 비정형 데이터에 대응하는 패턴을 제공함으로써 비정형 데이터로부터 정보 영역을 추출할 수 있다. 패턴 제공부(242)의 동작에 대한 자세한 설명은 도 6에서 후술한다.Referring to FIG. 3, a pattern in an HTML document of a social network as a kind of unstructured data may be used to extract a text area. As shown on the left side of FIG. 3, the HTML document of the social network may include a plurality of text areas separated from each other, and the pattern may classify a total of seven text areas as keywords included in a class. . As shown on the right side of FIG. 3, the information areas, ie text areas, extracted from the HTML document of the social network using the pattern may each include text. As such, the pattern provider 242 may extract the information area from the unstructured data by providing a pattern corresponding to the unstructured data based on the format of the unstructured data. A detailed description of the operation of the pattern provider 242 will be described later with reference to FIG. 6.
한편, 본 발명의 예시적 실시예에 따라 비정형 데이터가 음성이나 동영상 기반 데이터인 경우, 특정 기준치와 관련된 데이터를 비정형 데이터로부터 정보 영역으로서 추출할 수 있고, 패턴은 이러한 기준치를 결정할 수 있다. 예를 들면, 음성 기반 데이터의 경우, 특정 db 이상의 소리 또는 특정 주파수를 포함하는 소리를 추출하도록 패턴이 사용될 수 있다.Meanwhile, when the unstructured data is voice or video based data according to an exemplary embodiment of the present invention, data related to a specific reference value may be extracted from the unstructured data as an information area, and the pattern may determine such reference value. For example, in the case of voice-based data, a pattern may be used to extract a sound including a specific db or more or a sound including a specific frequency.
본 발명의 예시적 실시예에 따라, 규칙 제공부(244)는 패턴 제공부(242)에 의해 제공된 패턴에 적어도 하나의 항목을 대응시키고, 항목 및 패턴의 대응관계를 포함하는 규칙을 제공할 수 있다. 즉, 규칙은 적어도 하나의 항목을 포함할 수 있고, 항목은 패턴 제공부(242)에 의해 제공된 패턴에 대응될 수 있다. 또한, 규칙은 패턴에 의해 추출된 정보 영역으로부터 필요한 데이터만을 추출하는 방식을 각 정보 영역마다 결정할 수 있다. 규칙은 사용자 인터페이스부(300)를 통해서 사용자로부터 정의될 수도 있고, 데이터 저장부(400)의 규칙 저장부(460)에 저장된 복수개의 규칙들로부터 선택될 수도 있다.According to an exemplary embodiment of the present invention, the rule provider 244 may match at least one item with a pattern provided by the pattern provider 242, and provide a rule including a correspondence between the item and the pattern. have. That is, the rule may include at least one item, and the item may correspond to a pattern provided by the pattern provider 242. In addition, the rule may determine for each information area a manner of extracting only necessary data from the information area extracted by the pattern. The rule may be defined by the user through the user interface 300, or may be selected from a plurality of rules stored in the rule storage 460 of the data storage 400.
도 4에 도시된 예시에서, 규칙은 복수개의 항목들을 도 3의 패턴에 대응시킬 수 있다. 즉, 도 4의 좌측 컬럼에 도시된 바와 같이, 규칙은 'fullname', 'username', 'time', 'tweet-text', 'reply', 'retweet', favorite'와 같이 총 7개의 항목들을 포함할 수 있고, 각각의 항목들은 항목을 키워드로서 포함하는 도 3의 정보 영역(또는 텍스트 영역)에 대응될 수 있다. 또한, 규칙은 정보 영역에 포함된 데이터 중에서 필요한 데이터만을 추출할 수 있도록, 도 4의 우측 컬럼에 도시된 바와 같이, 정보 영역의 데이터를 처리하는 방식을 결정할 수 있다. 예를 들면, 규칙은 'fullname' 항목에 대응하는 데이터는 텍스트 영역에 포함된 텍스트 전체를 추출하는 것으로 결정하는 반면, 'retweet' 항목에 대응하는 데이터는 숫자만을 추출하는 것으로 결정할 수 있다.In the example shown in FIG. 4, a rule may correspond to a plurality of items in the pattern of FIG. 3. That is, as shown in the left column of FIG. 4, the rule selects seven items such as' fullname ',' username ',' time ',' tweet-text ',' reply ',' retweet 'and favorite'. Each item may correspond to the information area (or text area) of FIG. 3 including the item as a keyword. In addition, the rule may determine a method of processing data in the information area, as shown in the right column of FIG. 4, to extract only necessary data from data included in the information area. For example, the rule may determine that the data corresponding to the 'fullname' item extracts the entire text included in the text area, while the data corresponding to the 'retweet' item extracts only numbers.
본 발명의 예시적 실시예에 따라, 규칙 실행 엔진(246)은 규칙을 비정형 데이터에 적용함으로써 비정형 데이터의 특성을 생성할 수 있다. 즉, 도 5에 도시된 바와 같이, 규칙 실행 엔진(246)은 도 4의 규칙을 실행함으로써 각각의 항목에 값 (즉, 정보 영역에 포함된 데이터를 처리한 결과)을 대응시킴으로써 특성을 생성할 수 있다. 도 5에 도시된 예시에서, 소셜 네트워크의 HTML 문서의 특성은 7개의 항목들 및 항목들에 대응하는 값을 포함할 수 있다. 도 1에서 설명한 바와 같이, 규칙 실행 엔진(246)이 생성한 비정형 데이터의 특성은 특성 관계 설정부(260)에 의해 특성 정보를 생성하는데 사용될 수 있고, 특성 정보는 지식 데이터 관리부(500)에 의해 지식 데이터로 변환될 수 있다.In accordance with an exemplary embodiment of the present invention, rule execution engine 246 may generate the characteristics of the unstructured data by applying the rule to the unstructured data. That is, as shown in FIG. 5, the rule execution engine 246 generates a characteristic by matching each item with a value (i.e., the result of processing the data contained in the information area) by executing the rule of FIG. Can be. In the example shown in FIG. 5, the characteristic of the HTML document of the social network may include seven items and a value corresponding to the items. As described in FIG. 1, the characteristics of the unstructured data generated by the rule execution engine 246 may be used to generate the characteristic information by the characteristic relationship setting unit 260, and the characteristic information may be used by the knowledge data management unit 500. Can be converted into knowledge data.
이와 같이, 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템(10)은 비정형 데이터는 비정형 데이터의 형식에 기초하여 비정형 데이터에서 유용한 정보 영역을 정의하는 패턴 및 정보 영역의 데이터를 처리하고 정보 영역의 데이터에 기초하여 정보 영역을 항목에 대응시키는 규칙을 사용하여 비정형 데이터로부터 특성을 추출할 수 있다. 이에 따라, 비정형 데이터는 효과적으로 분석될 수 있고, 지식 데이터를 생성하기 위한 비정형 데이터의 특성이 효과적으로 추출될 수 있다.As such, the unstructured data processing system 10 according to an exemplary embodiment of the present invention processes data in a pattern and an information area that defines an information area useful for unstructured data based on the format of the unstructured data and the information area. A characteristic can be extracted from the unstructured data using a rule that maps the information area to an item based on the data of < RTI ID = 0.0 > Accordingly, the unstructured data can be effectively analyzed and the characteristics of the unstructured data for generating the knowledge data can be effectively extracted.
도 6은 본 발명의 예시적 실시예에 따라, 도 2의 패턴 제공부(242)의 구현예를 나타내는 블록도이다. 도 6에 도시된 바와 같이, 패턴 제공부(242)는 패턴 추천부(242_2), 패턴 정의부(242_4) 및 패턴 실행 엔진(242_6)을 포함할 수 있다.6 is a block diagram illustrating an implementation of the pattern provider 242 of FIG. 2, according to an exemplary embodiment of the present invention. As illustrated in FIG. 6, the pattern providing unit 242 may include a pattern recommending unit 242_2, a pattern defining unit 242_4, and a pattern execution engine 242_6.
패턴 추천부(242_2)는 비정형 데이터에 적합하다고 판단되는 추천 패턴을 제공할 수 있다. 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 비정형 데이터를 수신할 수 있고, 패턴 저장부(420)에 엑세스할 수 있다. 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 수신된 비정형 데이터의 형식에 기초하여 패턴 저장부(440)에 저장된 복수개의 패턴들 중 적어도 하나를 선택할 수 있고, 선택된 적어도 하나의 패턴을 추천 패턴으로서 패턴 정의부(242_4)에 제공할 수 있다. The pattern recommendation unit 242_2 may provide a recommendation pattern determined to be suitable for the unstructured data. The pattern recommendation unit 242_2 may receive unstructured data from the data interface unit 100, and access the pattern storage unit 420. The pattern recommendation unit 242_2 may select at least one of the plurality of patterns stored in the pattern storage unit 440 based on the format of the unstructured data received from the data interface unit 100, and recommend the selected at least one pattern. It can be provided to the pattern definition part 242_4 as a pattern.
본 발명의 예시적 실시예에 따라, 패턴 추천부(242_2)는 비정형 데이터의 종류 및/또는 출처에 기초하여 추천 패턴을 선택할 수 있다. 예를 들면, 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 수신된 비정형 데이터가 HTML 문서이고, HTML 문서의 출처, 예컨대 도메인 정보를 분석할 수 있다. 도메인 정보가 소셜 네트워크를 제공하는 서비스에 대응하는 경우, 패턴 저장부(420)에 저장된 복수개의 패턴들 중 도 3에 도시된 패턴을 선택할 수 있고, 선택한 패턴을 추천 패턴으로서 패턴 정의부(242_4)에 제공할 수 있다.According to an exemplary embodiment of the present invention, the pattern recommendation unit 242_2 may select a recommendation pattern based on the type and / or source of the unstructured data. For example, the pattern recommendation unit 242_2 may be an unstructured data received from the data interface unit 100 as an HTML document, and analyze a source of the HTML document, for example, domain information. When the domain information corresponds to a service providing a social network, a pattern shown in FIG. 3 may be selected from among a plurality of patterns stored in the pattern storage unit 420, and the pattern definition unit 242_4 is used as the recommendation pattern. Can be provided to
패턴 정의부(242_4)는 비정형 데이터에 적용될 패턴을 결정할 수 있다. 즉, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호 및/또는 패턴 추천부(242_2)로부터 수신되는 추천 패턴에 기초하여 비정형 데이터에 대응하는 패턴을 결정할 수 있다. 예를 들면, 패턴 정의부(242_4)는 비정형 데이터의 형식을 분석함으로써 비정형 데이터에 포함된 적어도 하나의 정보 영역을 식별할 수 있다. 예를 들면, 패턴 정의부(242_4)는 HTML 문서에서 복수개의 텍스트 영역들을 식별할 수 있다. 패턴 정의부(242_4)는 패턴 추천부(242_2)로부터 수신된 추천 패턴에 따른 복수개의 정보 영역들 중 일부를 입력 신호에 기초하여 제외시킬 수도 있고, 추가적인 정보 영역을 추천 패턴에 설정할 수도 있다. 예를 들면, 패턴 정의부(242_4)는 사용자의 입력 신호에 기초하여 비정형 데이터에 포함된 불필요한 정보 영역, 예컨대 광고 정보를 포함하는 정보 영역이 추출되지 않도록 패턴을 정의할 수 있다. 이에 따라, 새로운 패턴이 정의될 수 있고, 패턴 정의부(242_4)는 새로운 패턴을 패턴 저장부(420)에 저장할 수 있다.The pattern definition unit 242_4 may determine a pattern to be applied to the unstructured data. That is, the pattern corresponding to the unstructured data may be determined based on the input signal received from the user through the user interface 300 and / or the recommendation pattern received from the pattern recommendation unit 242_2. For example, the pattern definition unit 242_4 may identify at least one information area included in the unstructured data by analyzing the format of the unstructured data. For example, the pattern definition unit 242_4 may identify a plurality of text areas in the HTML document. The pattern definition unit 242_4 may exclude some of the plurality of information areas according to the recommendation pattern received from the pattern recommendation unit 242_2 based on the input signal, or set an additional information area in the recommendation pattern. For example, the pattern definition unit 242_4 may define a pattern so that an unnecessary information area included in the unstructured data, for example, an information area including advertisement information, is not extracted based on a user input signal. Accordingly, a new pattern may be defined, and the pattern definition unit 242_4 may store the new pattern in the pattern storage unit 420.
패턴 정의부(242_4)는 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화할 수 있다. 예를 들면, 검색 엔진이 도출한 복수개의 검색 결과들 또는 소셜 네트워크에서 사용자들의 답글들은 하나의 비정형 데이터에서 복수로서 존재할 수 있고, 서로 동일한 형식을 가질 수 있다. 패턴 정의부(242_4)는 이러한 동일한 형식을 가지는 정보 영역들을 그룹화 또는 계층화 할 수 있다.The pattern definition unit 242_4 may group a plurality of information areas having the same format. For example, replies of users in a plurality of search results or social networks derived by a search engine may exist as plural in one unstructured data, and may have the same format as each other. The pattern definition unit 242_4 may group or hierarchize information areas having the same format.
패턴 실행 엔진(242_6)은 비정형 데이터에 패턴을 적용한 결과를 생성할 수 있다. 즉, 패턴 실행 엔진(242_6)은 패턴 정의부(242_4)에서 정의된 패턴에 기초하여 비정형 데이터로부터 정보 영역의 데이터를 추출할 수 있다. 패턴 실행 엔진(242_6)은 추출된 데이터를 사용자 인터페이스부(300)를 통해서 사용자에게 제공할 수 있고, 제공된 데이터에 대하여 사용자가 사용자 인터페이스부(300)를 통해서 피드백한 입력 신호는 패턴 정의부(242_4)가 정의하는 패턴에 반영될 수 있다. 이에 따라, 사용자는 비정형 데이터에 패턴이 적용된 결과를 확인하면서 패턴을 설정할 수 있다. 뿐만 아니라, 패턴 실행 엔진(242_6)에서 추출된 데이터는 규칙 제공부(244)에 제공될 수 있다.The pattern execution engine 242_6 may generate a result of applying the pattern to the unstructured data. That is, the pattern execution engine 242_6 may extract data of the information area from the unstructured data based on the pattern defined by the pattern definition unit 242_4. The pattern execution engine 242_6 may provide the extracted data to the user through the user interface 300, and the input signal fed back by the user through the user interface 300 with respect to the provided data is the pattern definition unit 242_4. ) May be reflected in the defining pattern. Accordingly, the user may set the pattern while checking the result of applying the pattern to the unstructured data. In addition, the data extracted from the pattern execution engine 242_6 may be provided to the rule provider 244.
도 7은 본 발명의 예시적 실시예에 따라, 도 2의 규칙 제공부(244)의 구현예를 나타내는 블록도이다. 도 7에 도시된 바와 같이, 규칙 제공부(244)는 규칙 추천부(244_2) 및 규칙 정의부(244_4)를 포함할 수 있다. 7 is a block diagram illustrating an implementation of the rule provider 244 of FIG. 2, in accordance with an exemplary embodiment of the present invention. As shown in FIG. 7, the rule provider 244 may include a rule recommender 244_2 and a rule definer 244_4.
규칙 추천부(244_2)는 비정형 데이터에 적합하다고 판단되는 추천 규칙을 제공할 수 있다. 규칙 추천부(244_2)는 패턴 제공부(242)의 패턴 실행 엔진(242_6)으로부터 패턴 및 추출된 데이터를 수신할 수 있고, 규칙 저장부(460)에 엑세스할 수 있다. 규칙 추천부(244_2)는 패턴 및 추출된 데이터에 기초하여 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있고, 선택된 적어도 하나의 규칙을 추천 규칙으로서 규칙 정의부(244_4)에 제공할 수 있다. 예를 들면, 도 3 및 도 4에 도시된 바와 같이, 규칙 추천부(244_2)는 클래스에 포함된 키워드에 기초하여 유추된 각 정보 영역의 특징 또는 복수개의 키워드들의 조합에 기초하여, 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있다. 즉, 규칙 추천부(244_2)는 도 3에 도시된 7개의 키워드 조합에 기초하여 비정형 데이터는 소셜 네트워크의 HTML 문서인 것으로 판단할 수 있고, 이에 따라 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있다. 본 발명의 예시적 실시예에 따라, 패턴 추천부(242_2)는 비정형 데이터의 종류 및/또는 출처에 기초하여 추천 패턴을 선택할 수도 있다.The rule recommender 244_2 may provide a recommendation rule determined to be suitable for the unstructured data. The rule recommender 244_2 may receive the pattern and the extracted data from the pattern execution engine 242_6 of the pattern provider 242, and access the rule storage 460. The rule recommending unit 244_2 may select at least one of a plurality of rules stored in the rule storage unit 460 based on the pattern and the extracted data, and the rule defining unit 244_4 as the recommendation rule as the selected at least one rule. Can be provided to For example, as shown in FIGS. 3 and 4, the rule recommending unit 244_2 is a rule storing unit based on a feature of each information area inferred based on a keyword included in a class or a combination of a plurality of keywords. At least one of the plurality of rules stored at 460 may be selected. That is, the rule recommending unit 244_2 may determine that the unstructured data is an HTML document of a social network based on the seven keyword combinations shown in FIG. 3, and thus, the plurality of rules stored in the rule storage unit 460. At least one may be selected. According to an exemplary embodiment of the present invention, the pattern recommendation unit 242_2 may select a recommendation pattern based on the type and / or source of the unstructured data.
규칙 정의부(244_4)는 비정형 데이터에 적용될 규칙을 결정할 수 있다. 즉, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호 및/또는 규칙 추천부(244_2)로부터 수신되는 추천 규칙에 기초하여 비정형 데이터에 대응하는 규칙을 결정할 수 있다. 예를 들면, 규칙 정의부(244_4)는 비정형 데이터로부터 추출된 정보 영역에 포함된 정보를 분석함으로써(예컨대, 도 3에서 클래스에 포함된 키워드를 분석하거나, 텍스트의 형식이 날짜를 나타내는지 여부 또는 개수를 나타내는지 여부를 분석함으로써) 정보 영역에 대응하는 항목을 식별할 수 있고, 정보 영역을 항목에 대응시킬 수 있다.The rule definition unit 244_4 may determine a rule to be applied to the unstructured data. That is, the rule corresponding to the unstructured data may be determined based on the input signal received from the user through the user interface 300 and / or the recommendation rule received from the rule recommender 244_2. For example, the rule definition unit 244_4 analyzes the information included in the information area extracted from the unstructured data (eg, analyzing keywords included in the class in FIG. 3, or whether the format of the text indicates a date or By analyzing whether the number is indicated or not), an item corresponding to the information area can be identified, and the information area can be associated with the item.
본 발명의 예시적 실시예에 따라, 규칙 정의부(244_4)는 복수개의 후보 항목들을 저장할 수 있고, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호에 기초하여 후보 항목들을 갱신할 수 있고, 정보 영역을 후보 항목들 중 하나에 대응시킬수 있다. 예를 들면, 도 4의 예시에서 "10월 31일"은 "time" 항목에 대응되었으나, 규칙 정의부(244_4)에 저장된 후보 항목들 중 "date"가 있는 경우 규칙 정의부(244_4)는 비정형 데이터에서 클래스에 "time"을 포함하는 텍스트 영역을 "date" 항목에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule definition unit 244_4 may store a plurality of candidate items, and may update candidate items based on an input signal received from a user through the user interface unit 300. The information region may correspond to one of the candidate items. For example, in the example of FIG. 4, when "October 31" corresponds to the "time" item, but there is "date" among candidate items stored in the rule definition unit 244_4, the rule definition unit 244_4 is unstructured. In data, a text area containing "time" in a class can be mapped to a "date" item.
이와 같이, 비정형 데이터 처리 시스템(10)은 복수개의 패턴들 및 복수개의 규칙들을 저장하고, 비정형 데이터에 적합하다고 판단한 추천 패턴 및 추천 규칙을 제공할 수 있다. 또한, 사용자로부터 패턴 및 규칙을 정의하는 인터페이스를 제공함으로써 비정형 데이터에 적합한 패턴 및 규칙을 정의할 수 있고, 결과적으로 비정형 데이터로부터 특성을 효과적으로 추출할 수 있다.As such, the unstructured data processing system 10 may store a plurality of patterns and a plurality of rules and provide a recommendation pattern and a recommendation rule determined to be suitable for the unstructured data. In addition, by providing an interface for defining patterns and rules from a user, patterns and rules suitable for unstructured data can be defined, and as a result, characteristics can be effectively extracted from unstructured data.
도 8은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법(20)을 개략적으로 나타내는 순서도이다. 도 8에 도시된 바와 같이, 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법(20)은 비정형 데이터를 수신하는 단계(S10)를 포함할 수 있다. 도 1을 참조하면, 데이터 인터페이스부(100)는 데이터 풀로부터 비정형 데이터를 수신할 수 있다.8 is a flowchart schematically illustrating a method 20 for processing unstructured data according to an exemplary embodiment of the present invention. As shown in FIG. 8, the unstructured data processing method 20 according to an exemplary embodiment of the present invention may include receiving unstructured data (S10). Referring to FIG. 1, the data interface unit 100 may receive unstructured data from a data pool.
비정형 데이터 처리 방법(20)은 입력 신호 및/또는 추천 패턴에 기초하여 패턴을 정의하는 단계(S20)를 포함할 수 있다. 도 6을 참조하면, 패턴 정의부(242_4)는 사용자 인터페이스부(300)를 통해서 사용자로부터 수신된 입력 신호 및/또는 패턴 추천부(242_2)로부터 수신된 추천 패턴에 기초하여 비정형 데이터에 대응하는 패턴을 정의할 수 있다. 그 다음에, 비정형 데이터 처리 방법(20)은 정의된 패턴을 저장 및 실행하는 단계(S30)를 포함할 수 있다. 도 6을 참조하면, 패턴 정의부(242_4)는 정의된 패턴을 패턴 저장부(440)에 저장할 수 있고, 패턴 실행 엔진(242_6)은 정의된 패턴을 실행함으로써 정보 영역을 추추할 수 있다.The unstructured data processing method 20 may include a step S20 of defining a pattern based on an input signal and / or a recommendation pattern. Referring to FIG. 6, the pattern defining unit 242_4 corresponds to a pattern corresponding to the unstructured data based on an input signal received from the user through the user interface unit 300 and / or a recommendation pattern received from the pattern recommendation unit 242_2. Can be defined. The unstructured data processing method 20 may then comprise a step (S30) of storing and executing the defined pattern. Referring to FIG. 6, the pattern defining unit 242_4 may store the defined pattern in the pattern storage unit 440, and the pattern execution engine 242_6 may infer the information area by executing the defined pattern.
비정형 데이터 처리 방법(20)은 입력 신호 및/또는 추천 규칙에 기초하여 규칙을 정의하는 단계(S40)를 포함할 수 있다. 도 7을 참조하면, 규칙 정의부(244_4)는 사용자 인터페이스부(300)를 통해서 사용자로부터 수신된 입력 신호 및/또는 규칙 추천부(244_2)로부터 수신된 추천 규칙에 기초하여 비정형 데이터에 대응하는 규칙을 정의할 수 있다. 그 다음에, 비정형 데이터 처리 방법(20)은 정의된 패턴을 저장 및 실행하는 단계(S50)를 포함할 수 있다. 도 7을 참조하면, 규칙 정의부(244_4)는 정의된 규칙을 규칙 저장부(460)에 저장할 수 있고, 규칙 실행 엔진(246)은 정의된 규칙을 실행함으로써 비정형 데이터의 특성을 추출할 수 있다.The unstructured data processing method 20 may include a step S40 of defining a rule based on an input signal and / or a recommendation rule. Referring to FIG. 7, the rule defining unit 244_4 corresponds to a rule corresponding to unstructured data based on an input signal received from a user through the user interface unit 300 and / or a recommendation rule received from the rule recommender 244_2. Can be defined. The unstructured data processing method 20 may then include the step of storing and executing the defined pattern (S50). Referring to FIG. 7, the rule definition unit 244_4 may store the defined rule in the rule storage unit 460, and the rule execution engine 246 may extract the characteristic of the unstructured data by executing the defined rule. .
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, exemplary embodiments have been disclosed in the drawings and the specification. Although embodiments have been described using specific terms in this specification, they are used only for the purpose of describing the technical spirit of the present invention and are not used to limit the scope of the present invention as defined in the meaning or claims. . Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

Claims (12)

  1. 외부로부터 비정형 데이터를 수신하는 데이터 인터페이스부; 및A data interface for receiving unstructured data from the outside; And
    상기 비정형 데이터의 특성을 추출하는 특성 추출부 및 상기 특성에 대한 관계 정보를 설정함으로써 특성 정보를 생성하는 특성 관계 설정부를 포함하는 특성 정보 생성부를 포함하고,A feature information generation unit including a feature extraction unit for extracting a feature of the atypical data and a feature relationship setting unit for generating feature information by setting relationship information with respect to the feature,
    상기 특성 추출부는,The feature extraction unit,
    상기 비정형 데이터의 형식에 기초하여 상기 비정형 데이터의 패턴을 제공하는 패턴 제공부;A pattern provider for providing a pattern of the unstructured data based on a format of the unstructured data;
    적어도 하나의 항목을 상기 패턴에 대응시키고, 상기 항목 및 패턴의 대응관계를 포함하는 규칙을 제공하는 규칙 제공부; 및A rule provider corresponding to at least one item corresponding to the pattern and providing a rule including a correspondence relationship between the item and the pattern; And
    상기 규칙을 상기 비정형 데이터에 적용함으로써 상기 특성을 생성하는 규칙 실행 엔진을 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.And a rule execution engine that generates the property by applying the rule to the unstructured data.
  2. 제1항에 있어서,The method of claim 1,
    상기 비정형 데이터 처리 시스템은,The unstructured data processing system,
    복수개의 패턴들을 저장하는 패턴 저장부 및 복수개의 규칙들을 저장하는 규칙 저장부를 포함하는 데이터 저장부; 및A data storage unit including a pattern storage unit storing a plurality of patterns and a rule storage unit storing a plurality of rules; And
    사용자로부터 입력 신호를 수신하고 사용자에게 출력 신호를 제공하는 사용자 인터페이스부를 더 포함하고,A user interface unit for receiving an input signal from a user and providing an output signal to the user,
    상기 패턴 제공부는 상기 입력 신호에 기초하여 패턴을 생성하여 상기 패턴 저장부에 저장하고,The pattern providing unit generates a pattern based on the input signal and stores the pattern in the pattern storage unit,
    상기 규칙 제공부는 상기 입력 신호에 기초하여 규칙을 생성하여 상기 규칙 저장부에 저장하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The rule providing unit generates a rule based on the input signal and stores the rule in the rule storage unit.
  3. 제2항에 있어서,The method of claim 2,
    상기 패턴 제공부는,The pattern providing unit,
    상기 비정형 데이터의 형식에 기초하여 상기 패턴 저장부에 저장된 복수개의 패턴들 중 선택된 적어도 하나의 추천 패턴을 제공하는 패턴 추천부;A pattern recommending unit providing at least one recommendation pattern selected from a plurality of patterns stored in the pattern storage unit based on a format of the unstructured data;
    상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 비정형 데이터에 대응하는 패턴을 결정하는 패턴 정의부; 및A pattern definition unit to determine a pattern corresponding to the atypical data based on the input signal and / or the recommendation pattern; And
    상기 패턴 정의부에서 정의된 패턴에 기초하여 상기 비정형 데이터로부터 정보 영역에 포함된 데이터를 추출하는 패턴 실행 엔진을 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.And a pattern execution engine that extracts data contained in an information area from the unstructured data based on the pattern defined by the pattern definition unit.
  4. 제3항에 있어서,The method of claim 3,
    상기 패턴 추천부는 상기 비정형 데이터의 종류 또는 출처에 기초하여 상기 추천 패턴을 선택하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The pattern recommendation unit selects the recommendation pattern based on the type or source of the unstructured data.
  5. 제3항에 있어서,The method of claim 3,
    상기 패턴 정의부는, 상기 비정형 데이터의 형식을 분석함으로써 적어도 하나의 정보 영역을 식별하고, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 정보 영역을 패턴에 설정하거나 상기 패턴에서 제외시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.The pattern definition unit identifies at least one information area by analyzing a format of the unstructured data, and sets the information area to a pattern or excludes the pattern based on the input signal and / or the recommendation pattern. Unstructured data processing system.
  6. 제5항에 있어서,The method of claim 5,
    상기 패턴 정의부는, 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화하는 것을 특징으로 하는 비정형 데이터 처리 시스템.And the pattern definition unit groups a plurality of information areas having the same format.
  7. 제2항에 있어서,The method of claim 2,
    상기 규칙 제공부는,The rule provider,
    상기 패턴에 따라 상기 비정형 데이터의 정보 영역으로부터 추출된 데이터에 기초하여 상기 규칙 저장부에 저장된 복수개의 규칙들 중 선택된 적어도 하나의 추천 규칙을 제공하는 규칙 추천부; 및A rule recommending unit for providing at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the unstructured data according to the pattern; And
    상기 입력 신호 및/또는 상기 추천 규칙에 기초하여 상기 비정형 데이터에 대응하는 규칙을 정의하는 규칙 정의부를 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.And a rule definition unit for defining a rule corresponding to the unstructured data based on the input signal and / or the recommendation rule.
  8. 제7항에 있어서,The method of claim 7, wherein
    상기 규칙 추천부는 상기 비정형 데이터의 종류 또는 출처에 더 기초하여 상기 추천 규칙을 선택하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The rule recommending unit selects the recommendation rule further based on the type or source of the unstructured data.
  9. 제7항에 있어서,The method of claim 7, wherein
    상기 규칙 정의부는, 상기 추출된 데이터를 분석함으로써 상기 정보 영역에 대응하는 항목을 식별하고, 상기 정보 영역을 상기 항목에 대응시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.The rule definition unit identifies an item corresponding to the information area by analyzing the extracted data, and maps the information area to the item.
  10. 제7항에 있어서,The method of claim 7, wherein
    상기 규칙 정의부는 복수개의 후보 항목들을 저장하고, 상기 입력 신호에 기초하여 상기 후보 항목들을 갱신하고, 상기 정보 영역을 상기 후보 항목들 중 하나에 대응시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.And the rule definition unit stores a plurality of candidate items, updates the candidate items based on the input signal, and maps the information area to one of the candidate items.
  11. 제2항에 있어서,The method of claim 2,
    상기 데이터 저장부는 지식 데이터를 저장하는 지식 데이터 저장부를 더 포함하고,The data storage unit further includes a knowledge data storage unit for storing the knowledge data,
    상기 비정형 데이터 처리 시스템은, 상기 인터페이스로부터 수신되는 외부 지식 데이터 및 상기 지식 데이터 저장부에 저장된 지식 데이터에 기초하여 상기 특성 정보를 지식 데이터로 변환하고 변환된 지식 데이터를 검증하는 지식 데이터 관리부를 더 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The atypical data processing system further includes a knowledge data management unit converting the characteristic information into knowledge data and verifying the converted knowledge data based on external knowledge data received from the interface and knowledge data stored in the knowledge data storage unit. Atypical data processing system, characterized in that.
  12. 제1항에 있어서,The method of claim 1,
    상기 특성 정보 생성부는, 상기 비정형 데이터를 데이터 종류에 따라 분류하고 대응되는 데이터 종류에 따라 추출방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부를 더 포함하고,The characteristic information generation unit may further include a characteristic extraction manager configured to classify the unstructured data according to a data type and to generate a control signal to vary an extraction method according to a corresponding data type.
    상기 패턴 제공부는 상기 제어 신호에 기초하여 상기 비정형 데이터의 형식을 분석하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The pattern providing unit analyzes the format of the unstructured data based on the control signal.
PCT/KR2015/000498 2015-01-16 2015-01-16 Unstructured data processing system and method WO2016114433A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2015/000498 WO2016114433A1 (en) 2015-01-16 2015-01-16 Unstructured data processing system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2015/000498 WO2016114433A1 (en) 2015-01-16 2015-01-16 Unstructured data processing system and method

Publications (1)

Publication Number Publication Date
WO2016114433A1 true WO2016114433A1 (en) 2016-07-21

Family

ID=56405968

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/000498 WO2016114433A1 (en) 2015-01-16 2015-01-16 Unstructured data processing system and method

Country Status (1)

Country Link
WO (1) WO2016114433A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332478A1 (en) * 2010-05-14 2013-12-12 International Business Machines Corporation Querying and integrating structured and instructured data
US20140006338A1 (en) * 2012-06-29 2014-01-02 Applied Materials, Inc. Big data analytics system
US20140046977A1 (en) * 2012-08-10 2014-02-13 Xurmo Technologies Pvt. Ltd. System and method for mining patterns from relationship sequences extracted from big data
US8719308B2 (en) * 2009-02-16 2014-05-06 Business Objects, S.A. Method and system to process unstructured data
US20140310291A1 (en) * 2013-04-15 2014-10-16 Vmware, Inc. Efficient data pattern matching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719308B2 (en) * 2009-02-16 2014-05-06 Business Objects, S.A. Method and system to process unstructured data
US20130332478A1 (en) * 2010-05-14 2013-12-12 International Business Machines Corporation Querying and integrating structured and instructured data
US20140006338A1 (en) * 2012-06-29 2014-01-02 Applied Materials, Inc. Big data analytics system
US20140046977A1 (en) * 2012-08-10 2014-02-13 Xurmo Technologies Pvt. Ltd. System and method for mining patterns from relationship sequences extracted from big data
US20140310291A1 (en) * 2013-04-15 2014-10-16 Vmware, Inc. Efficient data pattern matching

Similar Documents

Publication Publication Date Title
KR102048648B1 (en) Restful Operations on Semantic IoT
CN109845221B (en) Access control policy synchronization for service layer
CN107391673B (en) Method and device for generating Chinese universal knowledge graph with timestamp
KR101637504B1 (en) System and method for processing informal data
KR100978740B1 (en) Query and answer service system and method based on resource-description-framework research
KR102491172B1 (en) Natural language question-answering system and learning method
WO2011122730A1 (en) System and method for a related search service based on an rdf network
CN110097278B (en) Intelligent sharing and fusion training system and application system for scientific and technological resources
WO2021049706A1 (en) System and method for ensemble question answering
WO2021235617A1 (en) System for recommending scientific and technical knowledge information, and method therefor
CN109145168A (en) A kind of expert service robot cloud platform
Paulus et al. Gathering and Combining Semantic Concepts from Multiple Knowledge Bases.
US20160267085A1 (en) Providing answers to questions having both rankable and probabilistic components
CN109710775A (en) A kind of knowledge mapping dynamic creation method based on more rules
KR20070037808A (en) Extended semantic web services method for automatic integrated framework
Missikoff et al. A Controlled Language for Semantic Annotation and Interoperability in e-Business Applications1
WO2016114433A1 (en) Unstructured data processing system and method
US20090077021A1 (en) System for Managing SameAs Relationships Between Ontology Instances and Method for the Same
CN113853597A (en) Method for inquiring industrial data and inquiring module
WO2021107446A1 (en) Apparatus and method for providing knowledge graph-based marketing analysis chatbot service
Ioannidis et al. Profiling attitudes for personalized information provision
CN112286916A (en) Data processing method, device, equipment and storage medium
WO2021054512A1 (en) System and method for reinforcing knowledge base
Piller et al. SemSub: Semantic subscriptions for the MQTT protocol
Liu et al. A Semantic-Based Knowledge Management Platform

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15878079

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15878079

Country of ref document: EP

Kind code of ref document: A1