CN1178164C - 信息提取方法和设备,加权方法和图文电视广播接收设备 - Google Patents

信息提取方法和设备,加权方法和图文电视广播接收设备 Download PDF

Info

Publication number
CN1178164C
CN1178164C CNB951188496A CN95118849A CN1178164C CN 1178164 C CN1178164 C CN 1178164C CN B951188496 A CNB951188496 A CN B951188496A CN 95118849 A CN95118849 A CN 95118849A CN 1178164 C CN1178164 C CN 1178164C
Authority
CN
China
Prior art keywords
key word
data
key
unit
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB951188496A
Other languages
English (en)
Other versions
CN1133460A (zh
Inventor
今中武
片冈充照
松浦聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1133460A publication Critical patent/CN1133460A/zh
Application granted granted Critical
Publication of CN1178164C publication Critical patent/CN1178164C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

本发明的主要目的是当给定一个被分为各规定单元的大量字符串数据组时,提取和显示作为明显地和有效地描述多个单元中的公共主题的信息摘要。本发明包括一个输入部分,用于接收被分为一些规定的单元的一种字符码表示的各单独字符的字符串数据的输入信号,和输出部分,用于显示信息提取摘要的结果。在每个规定单元中所含的关键字由关键字提取部分从来自输入部分的字符串数据输入中提取,对于每个关键字的记号由一个记号计算部分计算出来以便于根据所计算的记号将一个较大的记号给予从较大数目的单元中提取的关键字,各关键字由提取部分选择和作为信息摘要被输出到输出部分。

Description

信息提取方法和设备,加权方法和图文电视广播接收设备
本发明涉及信息提取方法,信息提取设备和加权方法,当从划分为规定单元的多个字符串数据组,例如由图文电视业务提供的数据中提取规定的关键字时可使用该方法,并且还涉及图文电视广播接收设备。
在近些年,随着多媒体时代的出现,不仅以包装媒体例如CD-ROM的形式来提供大量各种信息,而且通过通信网络,商业广播和类似手段提供信息。这样的信息除了图象和声音信息之外,包括电文信息,由电子簿,图文电视广播等提供。电文信息是由字符码,例如ASCII码和JIS码组成的,这些码容易由计算机处理。但是,对于人类,电文信息提出的问题是在某一时刻能够显示的信息量是小的,与图像信息相比较要抓住主要点占用很长时间。当我们考虑到随着信息社会进步而信息量的增加,这些问题将变为重要关心的问题。解决这些问题的可能方法可能是通过发展技术,自动地翻译文件内容并翻译为容易懂的形式。一种这样的方法是在人工智能的研究领域中自然语言处理的研究。但是,为了实际的实现,已经克服了许多问题,例如需要大的字典和语法信息而且降低文件错误地翻译内容的概率难以达到实用水平,而且仍达不到实际应用。
另一方面,在近些年来,设计接收图文电视广播的接收机已经开发并进行商业上可用,通过发射传送字符码,而且为家庭提供电文信息其信息量已迅速增加。在图文电视广播中,提供大量节目,因为提供的信息是文本的形式,用户可通过阅读在电视屏幕上显示的文本获得信息。这里又出现的一个问题是,为了抓住信息的主要内容,用户必须阅读大量的字符,以顺序翻页等。实际上,在新闻或类似信息的情况下,通常用户没有所要提供信息的以前的知识,因此,不知道什么信息对他感兴趣。因此,仅提取需要的信息对用户来说是困难的。因此,在用户浏览整个信息内容之后,用户自己必须选择需要的信息。在得到需要的信息中,这就意味着必须花费可观的时间,这就阻碍了增加欣赏图文电视广播的用户数量。因此,需要增加提供信息提取设备,用于提取图文电视的主要信息要点并仅显示主要要点。一些图文电视信道广播主要新闻摘要,但仍存在一些问题要被克服,例如摘要本身由多页构成的,摘要的内容,格式和长度一个广播台与另一个广播台不同等。
对于文件数据的提取技术的信息中,投入实际使用的是关键字提取技术。打算用于科学论文和类似的,这种技术包括计算在论文中使用的技术术语和类似的出现的频次并选择出页的高频次的关键字,产生论文摘要。这种技术投入实际使用的理由是,对于一些文件来说,例如特定领域的论文,使用术语的频度数多少受到限制。对于这样的领域,相对容易地准备一个术语字典,作为关键字被提取。使用这种技术自动提取的关键字附到每个论文上和用于分类和索引该论文。
但是,如果上述关键字提取技术被应用到图文电视广播节目的提取,简单地提取在节目中出现的关键字出现高频次的关键字。该结果是涉及类似事情的许多关键字的提取,而从这些关键字构成的摘要将是多余的。而且,在图文电视广播的情况下,除了具体节目内容的摘要之外,经常出现需要提取作为时间信息对多个节目是公共的题目。例如,在多个频道上新闻节目在广播时,需要可能出现的摘要信息,以便能提取公共题目,作为在不同频道上新闻节目的当前趋向。在这种情况下,需要一种技术,来区别从多个节目中出现的关键字中在相同节目内重复出现的关键字。而且,如果试图把常规的自然语言处理技术应用到新闻节目,例如,由于新闻节目趋向于包含非常多的适当的名词,不可能预先准备适当的技术词汇字典。因此,现有技术的技术不能应用于它们。因此,需要信息提取技术,该技术能处理信息趋势而不要求词汇字典。
而且,当使用关键字作信息摘要时,如果根据出现的频次简单地执行关键字提取,出现的问题是涉及类似事情的许多关键字被提取而关键字之间的关系是不清楚的,结果,得到的信息对于提取的关键字数来说基本上是短的。例如,当在频率次序从在相同时隙内的7个图文电视新闻节目在广播中实际地被提取的关键字时,得到图15所示的结果,它表示7个最高使用关键字。图15的部分(a)和(b)表示在不同时间在接收的新闻上进行试验的结果。从这些结果能够看出,根据出现频次关键字简单地提取具有一个问题,作为信息摘要。例如,在部分(a),第一关键字″泉佐野″和第六关键字″朝日新闻社″二者涉及相同题目,但是,这不能从图15所示关键字简单表辨认出来。因此,需要一种技术,避免双重提取具有类似意思的关键字而且明显地指示信息摘要的关键字之间的联系。解决这种需要的方法可能是通过准备描述关键字意思和关键字联系的字典信息,正如在常规的自然语言处理技术所实用的。但是,当我们考虑实际问题时,由于费用的原因,准备大量字典信息出现了问题,而且预先准备的字典信息必须尽可能地降低。而且,在图文电视新闻节目的情况下,预先准备一个字典本身是困难的,因为使用大量的适当的名词。因此,需要提供一种技术,通过考虑关键字之间的联系,无需使用字典和摘要信息,自动降低关键字之间的联系。
上述技术不仅对于图文电视广播,而且对于以字符码形式一般提供的字符串数据是需要的。例如,在科学论文的情况下,可能出现需要提供科学社会公共题目的摘要,而不正好是每个单独论文的摘要。而且在通信网络中使用的电子邮件设备中,当提取当前的题目等时,这些技术将变为需要的,这些在所有电子邮件消息中常常被研究。
而且,当不使用字典根据出现的频次提取关键字时,由于预先不能准备词典,需要处理描述相同事情的关键字,但是难以表示。例如,运动员的名字一次可能写为″伊达公子″,而在另一次写为″伊达选手″。对于这样的关键字表示困难,但是使用相同的意思。每个关键字出现的频次必须加在一起计算频次。因此,非常需要开发处理不同关键字的,例如″伊达公子″和″伊达选手″,类似的关键字的技术,而不使用字典,通过考虑这样的类似的关键字出现的频次来计算出现频次。
经常使用这种难于表示的关键字,例如,在图文电视广播中,其中数据是从多个广播台提供的,在不同台由不同人们产生的数据。具体地,在广播的情况下,例如新闻,处理在现实世界上发生的事件,问题是不像科学论文的情况,没有预定的术语。因此,对于描述相同事件的关键字,可能是使用困难的表示,从一个信息源到另一个信息源。因此,为了应用图文电视广播,一个重要的任务是开发一种处理难以表示关键字的技术。
为了不使用字典来计算难以表示的关键字之间的类似性,一种方法可能是使用许多公共字符或两个关键字之间它们的比率。例如,在″伊达公子″和″伊达选手″的情况下,″伊达″是公共的,即关键字之间四个字符中的两个是相同的。换句话说,不少于一半的字符串符合,以便这些关键字能被认为是类似的。但是,根据公共字符数简单地计算类似性有一个问题,因为在具有公共″伊达″的两个字符的″伊达公子″,″伊达选手″,和″伊达政宗″的关键字的情况下,它们之间的类似将变为相同的。因此非常需要设计一种计算方法,来提供在″伊达公子″和″伊达选手″之间大的相类似性而在″伊达公子″和″伊达政宗″之间小的类似性。
处理难以表示的关键字,特别是在图文电视广播等中变为需要的了,其中数据是由多个广播台提供,在不同的台由不同的人产生数据。具体地,在广播的情况下,处理现实世界上发生的事件,例如新闻,问题是不像科学题目的情况,没有预定的术语,因此,在会议名称,个人名字,公司名字等的情况下,类似的关键字可能是用于表示具有相互不相关的题目。因此,为了应用于图文电视广播,重要的任务是开发一种用于处理难以表示的关键字的技术。
而且,当从数据中提取关键字和根据提取的关键字出现的频次产生摘要时,例如对于英语的冠词如像″a″和″the″,前量词等是很频繁的关键字。因此需要除去这样的频繁出现的关键字,这些关键字在表示的题目的不是主要的。
在图文电视广播中,有可能是引用英语句子的情况,在这种情况下,有可能关键字例如前量词,冠词的频度可能变大,而它们在代表的题目中不是重要的。因此,很需要开发一种不输出象信息摘要那样的关键字的技术。
从上面概述有关现有技术问题的观点来看,本发明的目的是提供一种信息摘要方法,信息摘要设备,加权方法和图文电视广播接收设备,该设备比现有技术更能用于从数据中提取更合适的关键字。
第一个发明是提供一种信息摘要设备,该设备包括输入装置,用于接收字符串数据的输入,该数据被划分为规定的单元,用字符码代表每一个单个字符;
关键字提取装置用于从所述输入装置输入的字符串数据中提取每个所述规定单元的关键字;
加权装置,用于通过考虑等同于所述提取的关键字在另一个规定单元出现的状态,加权所述提取的关键字;
关键字选择装置,用于根据加权的结果,从所述提取的关键字中至少选择一个关键字;和
输出装置,用于输出所述选择的关键字,作为涉及所述字符串数据的信息摘要。
第二个发明是提供一种图文电视广播接收设备,该设备包括图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个频道的规定节目;
关键字提取装置,用于通过所述图文电视广播接收装置在所述信道存储装置中存储的所述频道上,从每一个接收的所述规定节目中提取关键字;
加权装置,用于通过考虑等于所述提取的关键字在另一个规定单元出现的状态,加权所述产生的关键字组合;
关键字选择装置,用于根据加权的结果,从所述提取的关键字中选择关键字;和
显示装置,用于显示所有的或部分的所述选择的关键字,作为涉及所述图文电视广播的信息摘要。
第三个发明提供一种信息提取装置,包括输入装置,用于接收字符串数据的输入,该数据被划分为规定单元,每个单元细分为规定的段,由字符码代表每个划分字符;
关键字提取装置,用于从所述输入装置输入的字符串数据中,对每个所述规定单元的每个段提取关键字;
关键字相联系装置,用于通过在从相同段得到的关键字中间的一个关键字与另一个关键字的相联系,产生关键字的联系;
加权装置,用于通过考虑等同于所述提取的关键字在另一个规定单元内出现的状态,加权所述提取的关键字,和通过考虑等于所述产生的关键字联系的在另一个规定段出现的状态,加权所述产生的关键字联系;
选择装置,用于根据加权的结果,从所述提取的关键字和所述产生的关键字联系选择关键字和关键字联系;和
输出装置,用于输出所述选择的关键字和关键字联系,作为涉及字符串数据的信息摘要。
第四发明提供一种图文电视广播接收设备,包括图文广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储规定节目的多个频道;
关键字提取装置,用于从由所述图文电视接收装置接收在所述频道存储装置内存储的所述频道上的所述规定节目的每个节目中提取关键字;
关键字相联系装置,用于通过在从相同节目的相同段得到的关键字中间的一个关键字与另一个关键字的联系,产生关键字联系;
加权装置,用于通过考虑等同于所述提取的关键字在另一个规定段出现的状态,加权所述提取的关键字,和通过考虑等同于的所述产生的关键字联系的在另一个规定段出现的状态,加权所述产生的关键字联系;
选择装置,用于根据加权的结果,从所述提取的关键字和所述产生的关键字联系选择关键字和关键字联系;和
显示装置,用于显示所有的或部分的所述选择的关键字和关键字联系,作为涉及所述图文电视广播的信息摘要。
第五发明提供信息摘要装置,包括输入装置,用于接收字符串数据的输入,该数据划分为规定单元,用字符码表示每个划分的字符;
关键字提取装置,用于从所述输入字符串数据提取每个所述规定单元的关键字;
类似性计算装置,用于计算这种提取的关键字之间的类似性;
加权装置,用于通过考虑等同或类似于所述提取的关键字在另一个规定单元内出现的状态,加权所述提取的关键字;
关键字选择装置,用于根据加权的结果,从所述提取的关键字选择关键字;和
输出装置,用于输出所述选择的关键字,作为涉及所述字符串数据的信息摘要。
第六发明提供一种图文电视广播接收设备,包括图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储规定节目的多个频道;
关键字提取装置,用于从由所述图文电视接收装置接收在所述频道存储装置内存储的所述信道上的所述规定节目的每个节目中提取关键字;
类似性计算装置,用于计算这种提取的关键字之间的类似性;
加权装置,用于通过考虑等同或类似于所述提取的关键字在另一个规定节目内出现的状态,加权所述提取的关键字;
关键字选择装置,用于根据加权的结果,从所述提取的关键字选择关键字;和
显示装置,用于显示所有的或部分的所述选择关键字,作为涉及所述图文电视广播的信息摘要。
第七发明提供一种信息摘要设备,包括输入装置,用于接收字符串数据的输入,该数据被分为规定单元,每个单元细分为规定的段,由字符码代表每个单个的字符;
关键字提取装置,用于从所述输入装置输入的所述字符串数据中提取每个所述规定单元的每个段的关键字;
关键字相联系装置,用于通过从相同段得到的关键字之间一个关键字与另一个关键字,产生关键字联系;
类似性计算装置,用于根据包括所述关键字联系的多种因素,计算这种提取的关键字之间的类似性;
加权装置,用于通过考虑等同或类似于所述提取的关键字在另一个规定单元内出现的状态,加权所述提取的关键字,和通过考虑等同于所述产生关键字联系在另一个规定段出现的状态,用于加权所述产生的关键字联系;
选择装置,用于根据加权的结果,从所述提取的关键字和所述产生的关键字联系选择关键字和关键字联系;和
输出装置,用于输出所述选择的关键字和关键字联系,作为涉及字符串数据的信息摘要。
第八发明提供一种图文电视广播接收装置,包括图文电视广播接收装置,用于接收图文电视广播;
频道存储装置;用于存储规定节目的多个频道;
关键字提取装置,用于从由所述图文电视接收装置接收在所述频道存储装置内存储的所述频道上的所述规定节目的每个节目中提取关键字;
关键字组合装置,用于通过在从相同节目的相同段中得到的关键字中间的一个关键字与另一个关键字的联系,产生关键字联系;
类似性计算装置,用于根据包括所述关键字联系的多种因素,计算这样提取的关键字之间的类似性;
加权装置,用于通过考虑等同或类似于所述提取的关键字在另一个规定节目内出现的状态,加权所述提取的关键字,和通过考虑等同于所述产生的关键字联系在另一个规定段出现的状态,加权所述产生的关键字联系;
选择装置,用于根据加权的结果,从所述提取的关键字和所述产生的关键字联系选择关键字和关键字联系;和
显示装置,用于显示所有的或部分的所述选择的关键字和关键字联系,作为涉及所述图文电视广播的信息摘要。
第九发明提供一种信息摘要设备,包括异常关键字存储装置,用于预先存储不作为关键字处理的关键字,其中
当从输入装置输入的字符串数据的每个规定单元中提取关键字时,等同于在异常关键字存储装置内存储的关键字的任何关键字被排除在被提取关键字组之外。
第十发明提供一种图文电视广播接收装置,包括用于预先存储不作为关键字处理的关键字的异常关键字存储装置,其中,
当从由图文电视广播接收装置在频道存储装置存储的频道上接收的每个节目中提取关键字时,等同于在异常关键字存储装置中存储的关键字的任何关键字被排除在提取关键字组之外。
根据第一个发明,接收字符串数据的输入该数据例如划分为规定的单元,由字符码代表每个单个字符;
从输入字符串数据的每个规定单元提取关键字;
通过考虑在等同于提取的关键字的另一个规定单元出现的状态,加权提取的关键字;
根据加权的结果选择关键字,和
输出选择的关键字输出为涉及字符串数据的信息摘要。
因此,例如,在许多单元中公用的关键字最好被选择为信息摘要。这就意味着选择并提取对许多单元公共的题目中出现的关键字作为代表字符串数据中一般趋向的摘要信息。
根据第二个发明,图文电视广播接收装置接收图文电视广播,
频道存储装置存储规定节目的多个频道,
关键字提取装置从由图文电视接收装置在频道存储装置内存储的频道上接收每个规定节目中提取关键字;
加权装置,通过考虑等同于提取关键字的另一个规定节目内出现的状态,加权提取的关键字;
关键字选择装置,根据加权结果选择关键字;和
显示装置,显示所有的或部分的选择的关键字,作为涉及图文电视广播的信息摘要。
在这个发明中,对每个关键字计算分数,以这种方法,例如对于在比较大量节目中出现的关键字给较高的分数。结果,从在频道存储装置中存储的频道上的在广播的图文电视节目中,例如能够提取在许多节目中公共出现的题目中的关键字作为信息摘要。即从未改变内容,例如作为图文电视的节目广播中提取并显示最新信息趋向,作为信息摘要。
根据第三个发明,接收字符串数据的输入,该数据划分为规定的单元,由字符码代表每个单个字符;
从输入的字符串数据的每个规定单元内的每个段提取关键字;
通过从相同段中得到的关键字中间的一个关键字与另一个关键字的联系,产生关键字联系;
通过考虑在等同于提取的关键字的另一个规定单元内出现的状态,加权提取的关键字,和还通过考虑在等同于产生的关键字组合的另一个规定段中出现的状态,加权产生的关键字联系;
根据加权的结果,选择关键字和关键字联系;和
输出选择的关键字和关键字联系作为涉及字符串数据的信息摘要。
在这个发明中,对每个关键字和对每个关键字联系计算分数,以这样的方式,例如对于在较大多数单元中出现的关键字或较大多数段中出现的关键字联系给予较高的分数。根据这样的计算的分数,选择和提取关键字和关键字联系。因此,在与例如具有较高出现频次的关键字被简单地选择的情况相比较,能够提取具有较密切联系和一起频繁出现的关键字对;当显示信息摘要时,如果有许多互相紧密联系的关键字,仅显示代表性的关键字,通过一个关键字与另一个关键字的联系显示这些关键字,因此,避免了信息摘要内容变为冗余的或难于理解。
根据第四个发明,图文电视广播接收装置接收图文电视广播,
频道提取装置存储规定节目的多个频道;
关键字提取装置从由图文电视广播接收装置在频道存储装置内存储的频道上接收每个规定节目中提取关键字;
关键字联系装置通过从相同的节目中相同段得到的关键字中的一个关键字与另一个关键字联系产生关键字联系;
加权装置通过考虑在等同于提取的关键字的另一个规定节目中再现的状态,加权提取的关键字,和还考虑在等同于产生的关键字联系的另一个规定段中出现的状态,加权产生的关键字联系;
选择装置根据加权结果选择关键字和关键字联系;和
显示装置显示所有的或部分的选择的关键字和关键字联系作为涉及图文电视广播的信息摘要。
在这个发明,对每个关键字和对每个关键字联系计算分数,以这样的方式,例如对于在较大量的节目中出现的关键字或对于在较大量的段中出现的关键字联系给予较高的分量。根据这样的计算的分数,选择和提取关键字和关键字联系作为信息摘要。结果,例如与在具有高出现频次的关键字被简单地选择相比较,通过一个关键字与一个关键字的联系,能提取具有较密切联系和频繁地一起出现的关键字对。特别地,在图文电视中,当从相同信息源,例如新闻中得到的信息是在不同频道上广播时,在不同的节目内出现多个公共关键字描述相同事件,因此,根据关键字的联系并通过澄清联系除去摘要的冗余关键字,通过观看能出现摘要丰富的内容。这就有可能在短时间内抓住大量信息的主要点。
根据第五发明,接收划分为规定单元的字符串的输入,由字符码代表每个单个字符。
从输入的字符串数据的每个规定单元提取关键字;
计算这种提取的关键字之间的类似性;
通过考虑在等同或类似于提取的关键字的另一个规定单元中出现的状态,加权提取的关键字;
根据加权的结果选择关键字;和
选择的关键字输出作为涉及字符串的信息摘要。
以这种方法,例如把不准确相等的关键字被处理为类似的关键字,并给予较高分数,因为提取的类似的关键字数增加,因此在被显示的关键字作为信息摘要。
根据第六发明,图文电视广播接收装置接收图文电视广播,
频道存储装置存储规定节目的多个频道,
关键字提取装置,从通过图文电视广播接收装置在频道存储装置内存储的频道上接收的每个规定节目中提取关键字;
类似性计算装置计算这样提取的关键字之间的类似性;
加权装置,通过考虑到等同或类似于提取关键字的另一个规定节目内出现的状态,加权提取的关键字;
关键字选择装置根据加权结果选择关键字;和
显示装置显示所有的或部分的选择的关键字作为涉及图文电视广播的信息摘要。
以这种方法,例如相互类似但在不同节目中难以表示的关键字的频度被加在一起。
根据第七个发明,接收划分为规定单元的字符串数据的输入,每个单元细分为规定的段,由字符码代表每个单个的字符;
从输入字符串数据的每一个规定单元内对每段提取关键字;
通过从相同段获得的关键字中间一个关键字与另一个关键字联系,产生关键字联系;
根据包括关键字联系的多种因素计算这样提取的关键字之间的类似性;
通过考虑等同或类似于提取的关键字的另一个规定单元内出现的状态,加权提取的关键字,和通过考虑等同或类似于产生的关键字组合的另一个规定段内出现的状态,还加权产生的关键字组合;
根据加权的结果,选择关键字和关键字联系;和
选择的关键字和关键字联系输出作为涉及字符串数据的信息摘要。
以这种方法,把相互类似但在不同节目中不同表示的关键字的得分被加在一起。根据以这种方法相加的得分,对于表示信息摘要是主要的,即使关键字表示不同,对这种关键字给高分数。
根据第八个发明,图文电视广播接收装置接收图文电视广播;
频道存储装置存储规定节目的多个频道;
关键字提取装置,用于从由所述图文电视接收装置接收在所述频道存储装置内存储的所述频道上的规定节目的每个节目中提取关键字;
关键字相联系装置,通过在相同节目的相同段中得到的关键字中间的一个关键字与另一个关键字的联系,产生关键字联系;
类似性计算装置,根据包括关键字联系的多种因素,计算这种提取的关键字之间的类似性;
加权装置,通过考虑等同或类似于提取的关键字在另一个规定节目内出现的状态,用于加权提取的关键字,和通过考虑等同于产生的关键字联系在另一个规定段再现的状态,加权产生的关键字联系;
选择装置,根据加权的结果,从提取的关键字和产生的关键字组合选择关键字和关键字联系;和
显示装置,显示所有的或部分的选择的关键字联系,作为涉及所述图文电视广播的信息摘要。
以这种方法,对于在不同节目中难以表示的关键字,例如使用它们相联系的关键字计算它们的类似性,和如果提取类似的关键字,它们的分数被加在一起。具体地,对于表示类似但是使用在于总的不同题目的关键字,它们的相联系的关键字之间不出现类似性,所以产生的类似性降低。这就保证准确计算类似性。
根据第九发明,当从输入装置输入的字符串数据的每个规定单元中提取关键字时,等同于在异常关键字存储装置内存储的关键字的任何关键字被排除在被提取关键字组之外。
以这种方法,例如当以英文写入数据输入时,如果冠词,前置词等被存储在例外的关键字存储装置,这些关键字能避免包括在显示作为信息摘要的关键字组内。
根据第十发明,当从图文电视广播接收装置在频道存储装置存储的频道上接收的每个节目中提取关键字时,等同于在例外关键字存储装置中存储的关键字的任何关键字被排除在被提取关键字组之外。
以这种方法,例如当英文句子等包括在图文电视节目中时,如像冠词,前置词等关键字在描述的题目中不是主要的,将不被包括在信息摘要内。
依据本发明的第一方面,提供了一种信息提取方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;从所述输入字符串数据中提取每个所述规定单元的关键字;通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;根据加权结果从所述提取的各关键字中选择至少一个关键字;输出所述选中的关键字作为与所述字符串数据有关的信息摘要。
依据本发明的第二方面,提供了一种信息提取设备,包括:输入装置,用于接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元的关键字;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;关键字选择装置,用于根据加权结果从所述提取的各关键字中选择至少一个关键字;输出装置,用于输出所述选中的关键字作为与所述字符串数据有关的信息摘要。
依据本发明的第三方面,提供了一种加权方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;
从所述输入字符串数据中提取每个所述规定单元的关键字;通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字。
依据本发明的第四方面,提供了一种图文电视广播接收设备,包括:图文电视广播接收装置,用于接收图文电视广播;频道存储装置,用于存储多个规定的节目的频道;关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;显示装置,用于显示所述选中的关键字的全部或部分作为与所述图文电视广播有关的信息摘要。
依据本发明的第五方面,提供了一种信息提取方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;从所述输入字符串数据中提取每个所述规定单元中的每个段的关键字;通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;输出所述选中的关键字和关键字联系作为与所述字符串数据有关的信息摘要。
依据本发明的第六方面,提供了一种信息提取设备,包括:输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;选择装置,用于根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;输出装置,用于输出所述选中的关键字和关键字联系作为与所述字符串数据有关的信息摘要。
依据本发明的第七方面,提供了一种加权方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;从所述输入字符串数据中提取每个所述规定单元中的每个段的关键字;通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
依据本发明的第八方面,提供了一种图文电视广播接收设备,包括:图文电视广播接收装置,用于接收图文电视广播;频道存储装置,用于存储多个规定的节目的频道;关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;关键字联系装置,用于通过使从同一节目的同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定节目中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定节目中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;选择装置,用于根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;显示装置,用于显示所述选中的关键字和关键字联系的全部或部分作为与所述图文电视广播有关的信息摘要。
依据本发明的第九方面,提供了一种信息提取设备,包括:输入装置,用于接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;关键字提取装置,用于从所述输入字符串数据中提取每个所述规定单元的关键字;相似性计算装置,用于计算如此提取的各关键字之间的相似性;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;输出装置,用于输出所述选中的关键字作为与所述字符串数据有关的信息摘要。
依据本发明的第十方面,提供了一种加权方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;从所述输入字符串数据中提取每个所述规定单元的关键字;计算如此提取的各关键字之间的相似性;通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字。
依据本发明的第十一方面,提供了一种图文电视广播接收设备,包括:图文电视广播接收装置,用于接收图文电视广播;频道存储装置,用于存储多个规定的节目的频道;关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;相似性计算装置,用于计算如此提取的各关键字之间的相似性;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定节目中的出现频次以及在其他规定节目中的单元间共用计数来加权所述提取的关键字;关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;显示装置,用于显示所述选中的关键字的全部或部分作为与所述图文电视广播有关的信息摘要。
依据本发明的第十二方面,提供了一种信息提取设备,包括:输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;相似性计算装置,用于根据包括所述关键字联系的多个要素来计算如此提取的各关键字之间的相似性;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;选择装置,用于根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;输出装置,用于输出所述选中的关键字和关键字联系作为与所述字符串数据有关的信息摘要。
依据本发明的第十三方面,提供了一种加权方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;从所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;根据包括所述关键字联系的多个要素来计算如此提取的各关键字之间的相似性;通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
依据本发明的第十四方面,提供了一种图文电视广播接收设备,包括:图文电视广播接收装置,用于接收图文电视广播;频道存储装置,用于存储多个规定的节目的频道;关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;关键字联系装置,用于通过使从同一节目的同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;相似性计算装置,用于根据包括所述关键字联系的多个要素来计算如此提取的各关键字之间的相似性;加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定节目中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定节目中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;显示装置,用于显示所述选中的关键字的全部或部分作为与所述图文电视广播有关的信息摘要。
依据本发明的第十五方面,提供了一种信息提取设备,包括:输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;输出装置,用于输出所述选中的关键字联系作为与所述字符串数据有关的信息摘要。
依据本发明的第十六方面,提供了一种加权方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
依据本发明的第十七方面,提供了一种图文电视广播接收设备,包括:图文电视广播接收装置,用于接收图文电视广播;频道存储装置,用于存储多个规定的节目的频道;关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;关键字联系装置,用于通过使从同一节目的同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定节目中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;关键字选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;显示装置,用于显示根据选择结果产生的与所述图文电视广播有关的信息摘要。
依据本发明的第十九方面,提供了一种信息提取设备,包括:输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;相似性计算装置,用于计算如此提取的各关键字之间的相似性;关键字联系/相似性计算装置,用于使用在构成所述产生的关键字联系的各关键字与构成其他关键字联系的各关键字之间计算得到的所述相似性来计算关键字联系之间的相似性;加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;输出装置,用于输出所述选中的关键字联系作为与所述字符串数据有关的信息摘要。
依据本发明的第二十方面,提供了一种加权方法,包括以下步骤:接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;从所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;计算如此提取的各关键字之间的相似性;使用在构成所述产生的关键字联系的各关键字与构成其他关键字联系的各关键字之间计算得到的所述相似性来计算关键字联系之间的相似性;通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
依据本发明的第二十一方面,提供了一种图文电视广播接收设备,包括:图文电视广播接收装置,用于接收图文电视广播;频道存储装置,用于存储多个规定的节目的频道;关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;相似性计算装置,用于计算如此提取的各关键字之间的相似性;关键字联系/相似性计算装置,用于使用在构成所述产生的关键字联系的各关键字与构成其他关键字联系的各关键字之间计算得到的所述相似性来计算关键字联系之间的相似性;加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;关键字选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;显示装置,用于显示所述选中的关键字联系的全部或部分作为与所述图文电视广播有关的信息摘要。
图1是表示根据第一发明的一个实施例的信息摘要方法和信息摘要设备的系统配置方框图;
图2是表示相同实施例的硬件配置的例子的图;
图3是表示根据相同实施例的信息提取方法和信息提取设备的操作程序的流程图;
图4是表示相同实施例的输入数据例子的图;
图5是表示相同实施例的输入数据例子的图;
图6是表示相同实施例的输出例子的图;
图7是表示根据第二发明的一个实施例的图文电视广播接收设备的系统配置的图;
图8是表示相同实施例的硬件配置的例子的图;
图9是表示根据相同实施例用于图文电视广播接收设备的操作程序流程图;
图10是表示根据第三发明的一个实施例的信息摘要方法和信息息摘要设备的系统配置的方框图;
图11是表示根据相同实施例的信息摘要方法和信息摘要设备的操作程序的流程图;
图12是表示相同实施例中输出例子的图;
图13是表示根据第四发明的一个实施例的图文电视广播接收设备的系统配置的图;
图14是表示根据相同实施例的图文电视广播接收设备的操作程序的流程图;
图15是表示仅根据关键字频次信息摘要的输出例子的图;
图16是表示根据第五发明的一个实施例的信息摘要方法和信息提取设备的系统配置的方框图;
图17是表示根据相同实施例的信息摘要方法和信息摘要设备的操作程序流程图;
图18是表示根据第六发明的一个实施例的图文电视广播接收设备的系统配置图;
图19是表示根据相同实施例的图文电视广播接收设备的操作程序流程图;
图20是表示根据第七发明的信息摘要方法和信息摘要设备的系统配置的方框图;
图21是表示根据相同实施例的信息摘要方法和信息摘要设备的操作程序流程图;
图22是表示根据第八发明的图文电视广播接收设备的系统配置图;
图23是表示根据相同实施例的图文电视广播接收设备的设备的操作程序流程图;
图24是表示根据第九发明的一个实施例的信息摘要方法和信息摘要设备的系统方框图;
图25是表示相同实施例的硬件配置的例子的图;
图26是表示相同实施例的信息摘要方法和信息摘要设备的操作程序流程图;
图27是表示根据第十发明的一个实施例的图文电视广播接收设备的系统配置图;
图28是表示相同实施例硬件配置的例子的图;
图29是表示根据第九发明的第二、三和四实施例的系统配置的部分图;
图30是表示根据第十发明的第二、三和四的实施例系统配置部分图;
图31是表示装有数据搜索功能的信息摘要方法和信息摘要装置的系统配置的部分图;
图32是表示装有数据搜索功能的图文电视广播接收设备的系统配置的部分图;
图33是表示装有数据到达通知功能的信息摘要方法和信息摘要设备的系统配置的部分图;
图34是表示装有数据到达通知功能的信息摘要方法和信息摘要设备的操作程序的部分流程图;
图35是表示装有数据到达通知功能的信息摘要方法和信息摘要设备的另一个操作程序的部分流程图;
图36是表示装有数据到达通知功能的信息摘要方法和信息摘要设备的通知数据到达的输出例子的图;
图37是表示以英文描述输入数据的例子的图;
图38是表示当处理以英文描述输入数据时输出例子的图;和
图39是表示通过考虑关键字之间联系处理以英文描述输入数据时输出例子的图。
图中标号的说明:
1-输入部分,2-输出部分,3-关键字提取部分(关键字提取装置),4-分数计算部分(加权装置),5-摘要部分(关键字选择装置),11-VRAM,12-主存储器,13-外部存储器,14-CPU,21-存储部分,23-图文电视关键字提取部分(关键字提取装置),24-图文电视分数计算部分(加权装置),25-图文电视提取部分(关键字选择装置),26-显示部分,31-关键字相联系部分,32、33-联系摘要部分(选择装置),41-图文电视关键字联系部分(关键字联系装置),42-图文电视组合分数计算部分(加权装置),43-图文电视联系摘要部分(选择装置),51-类似性分数计算装置(类似性计算装置,加权装置),61-图文电视类似性分数计算装置(类似性计算装置,加权装置),71-类似性/联系计算装置嗨菩约扑阕爸加权装置),81-图文电视类似性/组合计算装置(类似性计算装置,加权装置),91-异常关键字存储装置,92-异常关键字提取装置,101,异常图文电视关键字提取部分,111-数据指定装置(关键字指定装置),112-数据存储部分(工作区),113-搜索部分,114-数据出现部分(输出装置),121-关键字寻找部分,122-通知部分(输出装置)。
下面将参见附图描述本发明的优选实施例。
图1是表示根据第一发明的一个实施例的信息摘要装置的系统配置图。参见该图,将根据第一发明的实施例与信息摘要方法一起描述信息摘要装置。
在图1中,标号1是一个输入部分,用于接收字符串数据的输入,该数据划分为规定的单元,用字符码代表每个单个字符,2是一个输出部分,用于显示信息摘要的结果;3是关键字提取部分,用于提取从来自输入部分1中输入的字符串数据的每一个规定单元中包含的关键字;4是分数计算部分,用于以下面的方法对每个关键字计算分数,即对于从较大数量单元提取的关键字给予较高的分数;5是摘要部分,用于根据由分数计数部分4计算的分数选择关键字并输出这些关键字作为信息摘要到输出部分2。
在图2中表示了用于实现上述配置系统的硬件配置。所示的配置基本上与通用计算机系统相同的,而且包括输入部分1和输出部分2,这些部分作为图1所示的系统配置的构成部分已描述。图2的构成部分与图1的系统配置所示的那些相同部分用相同的标号表示,而且不再重复对这些部分的解释。在图2中,标号11是VRAM,用于存储在输出部分2上显示的数据;12是主存储器,用于存储程序和在执行期间进行处理的数据;13是一个外部存储器,用于存储程序和数据;和14是一个CPU,用于通过将程序送到主存储器12来执行在外部存储器14中存储的程序。
下面参考图3所示的流程图,将描述这种配置信息摘要设备和信息摘要方法的操作。
在步骤a1,通过输入部分1输入字符串数据。输入的字符串数据是划分为图4所示规定单元的数据。在图4的例子中,有n个字符串数据组,每一组作为一个规定单元。作为一个例子,体育报的文章可能是被输入有来自在各个单元1至n中存储的不同报纸的文章。作为另一个例子,在具体领域的研究论文可能是被输入有来自在各个单元1至n内存储的不同的科学团体的论文。使用这个实施例的信息摘要方法和信息摘要设备,在前者例子中,以摘要的形式能够得到体育世界的主题目,在后者例子中,作为信息摘要的结果能够得到关于超出各个学会边界的领域中最前沿课题的信息。在随后步骤的描述中用作一个例子,假定在步骤a1输入了最新的文章,作为在各个单元1至n内存储的不同报纸文章的数据。图5中表示输入数据的一个例子,这些数据取自当前服务的图文电视广播。
在步骤a2,从在步骤a1输入的字符串数据中提取数据的一个单元。
以预定次序,例如以输入的次序,从字符串数据中提取每个单元。因此,通过重复地执行步骤a2,将剩余不多的单元能从输入数据中提取。在那种情况下,过程继续到步骤a5,如流程图所示。
在步骤a3,关键字提取部分3从在步骤a2中提取的字符串数据的单元中提取关键字。作为关键字提取,前面已研究了多种方法,包括自然语言处理技术,而任何一个方法可能被利用。但是,本实施例根据字符类型的差别提取关键字的方法,而不使用字典信息,要考虑如下两点:第一点是要求大存储容量,例如字典信息的方法将对实际的实现产生大的阻碍,而另一点是在新闻或类似的情况下,字典信息不能事先准备,因为使用大量的适当名词。更具体地,提取包含三个连续汉字,数字或片段名字符的关键字;但是,当作为关键字提取时,用数字字符开始的那些字从选择对象中除去,作为关键字处理。如果在步骤a2中提取的数据是图4所示数据的单元1例如,″米朝高官协议合意″,″北朝鲜″,″核问题″,″米朝高官会议″,等被提取作为关键字。当以这种方式根据字符类型的不同提取关键字时,没有意义的字可能被提取,取决于数据,但是在随后的步骤a7中通过对来自其它单元的关键字的部分符合来校正这样一些无意义的关键字。而且,在步骤a3中,如果一个关键字出现等同于一个已经提取的一个关键字,这样的一个关键字也被提取并存储,不管它出现多少次。
在步骤a4,分数计算部分4把在步骤a3中提取的关键字分类为相同关键字组,并计算在每组中的关键字数目,作为出现的频次。例如,当在步骤a3中已经提取四个相同的关键字″国际平和维持军″,这些字″国际平和维持军″被组合成一个关键字,它出现的频次计算为4。但是,在本实施例中,当提取了两个不相同的关键字A和B时,例如,如果关键字B是关键字A的子集,而且如果子集的部分长于关键字A的一半字符长度,关键字A出现的频次加到关键字B出现的频次,而且关键字A被删除。例如,当五个相同的关键字″米朝高官协议合意″和三个相同的关键字″米朝高官协议″被提取,而且关键字″米朝高官协议″出现的频次被置于8,而且关键字″米朝高官协议合意″被删除。作为一个例子,考虑到这样的情况,在步骤a3已经提取了关键字″泉佐野″,″ヘリ坠落″,″大板府警″,″泉佐野市″,″朝日新闻社取材用″,″ヘリコプタ—″,″新闻大会开″,″第47回新闻大会″,″京都市″,″新闻贩壳″,″正常化″,″特别宣言″,″电动茶″,″京都府茶协同组合″,″电动茶″,″米朝高官协议合意″,″北朝鲜″,″核问题″,″米朝高官会议″,″ジコネ—ブ″和″调印式″。在这种情况下,相同的关键字被组合在一起,并能得到如下表1所示关键字内容结果。并把获得的这些关键字内容结果存储(进)到FILO(先进后出)栈式存储器中。
表1
关键字     出现的频次
泉佐野ヘリ坠落大板府警朝日新闻社取材用ヘリコプタ—新闻大会开第47回新闻大会京都市新闻贩壳正常化特别宣言电动茶京都府茶协同组合米朝高官协议合意北朝鲜核问题米朝高官会议ジコネ—ブ调印式     2111111111111111111
在步骤a5,从在步骤a4存储的栈式存储器中检索一个关键字/频次对。检索的数据从栈式存储器中被删除。因此,通过重复执行步骤a5,将没有剩余数据从栈式存储器中检索。当所有的数据被除去时,过程进到步骤a10。
在步骤a6,检索在步骤a5检的该对的″关键字″项的值。
在分数计算部4执行步骤a7至a9。在步骤a7,使用在步骤a6检索的关键字,判断在关键字频次表中是否存在与其相同的任何关键字。关键字频次表构成如表2所示如下,并且开始时,值被置于空的。因此,当第一次调用这一步骤时,程序自动地进到步骤a9。
看一下表2,如果它仅由从图5所示数据例子中单元1提取的关键字组成,但是实际上,关键字频次表可能地包含从所有单元提取的关键字。在这个实施例的描述中,仅表示了关键字表的一部分作为一个例子,因为整个表要被表示在这里太大。
[表2]
关键字     出现的频次   单元间共用计数
泉佐野ヘリ坠落大板府警朝日新闻社取材用ヘリコプタ—新闻大会开第47回新闻大会京都市新闻贩壳正常化特别宣言电动茶京都府茶协同组合米朝高官协议合意北朝鲜核问题米朝高官会议ジコネ—ブ调印式 2111111111121111111 0000000000000000000
通过顺序地比较在步骤a6检索的关键字与在关键字频次表中″关键字″项中的关键字,执行在步骤a7中的判断运算。但是,可能提取了无意义的关键字作为关键字提取运算中的关键字,如结合步骤a3所描述的,这里,如果其中的一个关键字与另一个关键字相互比较是另一个关键字的子集,而且子集部分的字符计数是长于一半关键字的长度,例如″容疑者浮″与″容疑者″比较,那么这些关键字被认为相符,关键字处理为由″容疑者″公共部分组成。
当在步骤a6中检索的关键字与在关键字频次表中已经输入的关键字相符时,执行步骤a8。这就意味着相同的关键字存在于多于一个单元中。在这种情况下,1被加到表2所示关键字表格式中″单元间共用计数″的值。因为对于″单元内频次″的值来说,在步骤a5检索的成对的″出现频次″项内的值被输入到″单元内频次″的项中。例如,在如表2的关键字频次表中,认为在步骤a5检索的对是(米朝高官协议3)。在这种情况下,通过执行步骤a8,得到如下表(表3)所示的关键字频次表。如表3所示,通过执行步骤a8,进行改变关键字″米朝高官协议″的行内的关键字,单元内频次,和单元间共用计数。在表2中,关键字是″米朝高官协议合意″,但是在步骤a7执行的比较期间,因为这个关键字包含″米朝高官协议″在其内,而且公共部分是长于一半关键字长度,这些关键字被处理为相同的关键字并组合为一个公共关键字″米朝高官协议″。
[表3]
关键字     单元内频次   单元间共用计数
泉佐野ヘリ坠落大板府警朝日新闻社取材用ヘリコプタ—新闻大会开第47回新闻大会京都市新闻贩壳正常化特别宣言电动茶京都府茶协同组合米朝高官协议北朝鲜核问题米朝高官会议ジコネ—ブ调印式     2111111111121411111   0000000000000100000
当在步骤a6中检索的关键字与在关键字频次表中存储的任何关键字不相符合时,执行步骤a9。在这种情况下,在步骤a6中检索的关键字被加到关键字频次表,而且单元内频次被置于与在步骤a5中检索的对出现频次相同的值。单元间共用计数置于零。
在步骤a10,提取部分5以单元间共用计数的降低次序从关键字频次表中检索关键字,并且能显示尽可能多的关键字到输出部分2进行显示。例如,当能显示最大三个关键字时,以顺序从表4所示的关键字频次表中选择关键字″米朝高官协议″,″北朝鲜″,和″核问题″。在具有相同单元间共用计数的关键字之间,首先选择具有较高单元内频次的关键字。关键字选择的另一个方法是根据单元间共用计数和单元内频次的加权和计算优先权并以优先权的次序显示这些关键字。在这个方法中,首先确定表示加权的常数S和T,而然后对每个关键字计算(单元内频次×S+单元共用计数×T),和以这个值的降低次序选择关键字。另一个方法是可能的,即考虑到进行选择中关键字的长度。在这个方法中,根据考虑到关键字字符计数计数的加权和确定优先权。例如,除S和T之外,首先确定常数U,并且然后计算(单元内频次×S+单元间共用计数×T+关键字字符计数×U),以这个值的减少次序选择关键字。
在输出部分2上作为信息摘要显示选择的关键字。例如,当已选择了关键字″米朝高官协议″,″北朝鲜″,和″核问题″时,得到如图6所示的一个输出结果。
[表4]
关键字     单元内频次   单元间共用计数
泉佐野ヘリ坠落大板府警朝日新闻社ヘリコプタ—新闻大会开第47回新闻大会京都市新闻贩壳正常化特别宣言电动茶京都府茶协同组合米朝高官协议北朝鲜核问题米朝高官会议ジコネ—ブ调印式     3112111112121333121   1001000001000322010
表4不仅由从单元1提取的关键字组成的,而且由从所有单元提取的关键字组成的。作为信息摘要提取关键字的另一个方法中,单元间共用计数仅在从一个单元中选择的关键字中间进行比较,而且以单元间共用计数的减少次序提取关键字。以这种方式,不仅能够提取在一个单元内包含的关键字,而且能提取在另一个单元中使用的关键字。
接着,当第一发明的实施例被用到另一个例子时将描述其操作。在以后描述的例子中,以英语描述通过输入部分1输入的数据。例如,考虑到图37所示的数据例子。在这个数据例子中的单元由代表文章摘要的数据组成,文章登载在″Los Angeles Times,chicagoTribune,USA TODAY,Atlanta Constitution,等。在如下的描述中,将详细解释英文文本数据处理与日文文本数据处理的差别。图3的流程图将使用用于说明日文文本数据处理相同的一个流程图。
步骤a1和a2与在日文文本数据的处理中所描述的是相同的。
在步骤a3中,在日文数据关键字的情况下,关键字是根据字符类型的不同提取的,但是,在英语的情况下,由于这些字总是用一空格来分开,则一关键字是用该空格作为定义符来提取的。因此,简单地将该处理与日本语的情况相比较。在本实施例中,仅仅将在用大写字母开头的字的情况下由多于一个字符组成的这些字,和在用小写字母开头的字的情况下由多于五个字符组成的这些字被提取为关键字。这是为了避免提取冠词和前置词作为关键字。而且,当那里出现每个字用大写字母开头的一连串字时,这种字可被连在一起,并看作一个字。例如,从″Rosa Mota of Portugal″中,″RoseMota″和″Portugal″被提取作为关键字。因为人名等可按不可拆的字来处理,其每个用大写字母开头的一连串字可被看作一个字。如一例子,从图37中单元1的第一段中,提取{″U.S.Olympic″,″JoanBenoit Samuelson″,″featured″,″NYC Marathon″}。在图37的输入数据例中,假设每个单元中的段用间隔线相互隔开。
在步骤a4中,与日本的文本数据进行相同的处理。从图37单元1提取的关键字,例如下面所示的表5可作为关键字计数结果得出:
[表5]
  关键字     出现的频次
  OlympicchampionJoan Benoit SamuelsonfeaturedmarathonRosa MotaPortugal     2111211
在表5中,″Olympic″的出现的频次为2。这因为分开选择的″U.S.Olympic″和″Olympic″已经组合成一个关键字,由于″Olympic″包含在″U.S.Olympic″内,并且,按日本的文本数据的处理中,所包含的部分比一半关键字长度长。对于″Mar-athon″,出现的频次也为2,因为″NYC Marathon″和marathon″已经组合成一个关键字。也应注意到:当判断关键字是否是另一关键字的子集时或当判断在关键字之间的匹配时,使在大写体和小写体字母之间没有差别。
在步骤a5到步骤a9中,与日本的文本数据同样地进行处理。例如,下面所示的表6是按关键字频次表得出的。
[表6]
  关键字     出现的频次   单元间共用计数
  OlympicchampionJoan Benoit SamuelsonfeaturedmarathonRosa MotaPortugal     6111733   3000322
在步骤a10中,与日本的文本数据同样地进行处理。例如,关键字的规定数以从表6所示的关键字频次表中单元间共用计数的递减顺序检索。当三个关键字从表6被检索出时,例如,检索出″Olympic″,″marathon″,和″Rosa Mota″。这里,″Portugal″和″Rosa Mota″在单元间共用计数和单元内频次中都相等,但是,当″Portugal″由8个字符组成时,″Rosa Mota″由包括该空格的9个字符组成。在这种情况下,选择具有较大字符计数的关键字。所选择的关键字输出到输出部分2,如图38所示。在日语中,题目是″情报要约″,而在英语中,题目是″Trend″。
下面,参照附图将描述第二发明的一个实施例。
如第二发明的一个实施例,所示的图文电视广播接收装置,其中信息摘要提取的方法。图7是表示用于第二发明的实施例的系统构形图。在图7中,标号21是图文电视广播接收部分,用于接收图文电视广播;22是频道存贮部分,用于存贮规定节目的频道;23是图文电视关键字提取部分,用于提取包含在按逐个节目接收的节目中的关键字;24是图文电视分数计算部分,用于以较高的分数提供给出现在大量节目中的关键字的这种方法,对每个关键字计算分数;25是图文电视文摘部分,用于根据所计算的分数选择关键字和用于按信息摘要提取它们;和26是显示部分,用于显示摘要的结果。
图8表示用于实施上述结构系统的硬件结构。图8所示的结构基本上与通用计算机系统的结构相同,并由如第一发明的一个实施例的图2中所示的硬件结构的组成部分,加上如第二发明的一个实施例的图7中所示的系统结构的组成部分组成。因此,在它们之间相同的组成部分用相同的标号表示,并且,在这里将不再重复它们的详细说明了。
下面将参照图9的流程图描述结构的图文电视广播接收装置的操作。由于本发明不针对图文电视广播接收系统本身,系统的图文电视广播接收部分就简单地作为一个组成部件处理,也就是说,在这里不再详细地描述图文电视广播接收部分21。
在步骤b1和b2中,检索存贮在频道存贮部分22的一个频道,并根据检索的频道,由图文电视广播接收部分21接收广播。在步骤b2中,由于每当调入该步骤时,从频道存贮部分22中检索出一个频道,当步骤已调入第(N+1)次时,这里N是存贮的频道数,就不能检索更多的频道,于是离开那里。在那种情况下,程序转到步骤b5,如流程图中所示的。存贮在频道存贮部分22的频道如下面表7所示。
[表7]
      频道
    4ch  02#6ch  101#:   :
当表7所示的数据存贮在频道存贮部分22中时,当步骤61第一次调入时,检索数据4ch和02#。使用这种频道表示,是因为在当前图文电视广播系统中,用频道数加后随#的数表示一节目。在步骤b2中,接收的图文电视节目的内容存贮在主存储器12中。该内容可被存贮在替代的外存储器13中。通过在频道存贮部分22中存贮许多频道,在频道上,以专用形式播放节目,例如新闻节目或体育节目,根据本实施例,以专用形式的最近的趋势能够按文摘的结果提取。
在步骤b3中,图文电视关键字提取部分23从存贮在步骤b2中的图文电视节目中提取关键字。以第一发明的实施例的步骤a3进行的同样方法,执行关键字提取。在图文电视广播上接收的一个节目对应于在第一发明的实施例中的一个单元。
在步骤b4中,在步骤b3中提取的关键字数被计数,并以第一发明实施例中步骤a4相同的方法,存贮(推)到栈式存储器。关键字计数结果以与第一发明实施例所示的计数结果表(表1)的相同格式存贮在栈式存储器中。
在步骤b5到b9中的处理是与第一发明实施例中执行的步骤a5到a9相同。然而,在第一发明实施例中,如表2所示,规定关键字频次表的格式,可是在第二发明实施例中,由于图文电视节被用于替代单元,项目名字按下面表8所示进行改变。
[表8]
  关键字   节目内频次   节目间共用计数
该处理本身与第一发明实施例中执行的相同;也就是说,在节目内频率上执行在单元内频率上进行的相同处理,和在节目间共用计数上执行在单元间共用计数上进行的相同处理。而且,在第一发明实施例中由分数计算单元4进行的处理在第二发明实施例中由图文电视分数计算部分24执行。
在步骤b10中,与第一发明实施例中步骤a10相同的处理在图文电视摘要部分25中执行。用于第一发明实施例的描述的图5所示的数据例子从图文电视广播取得,和输出结果与第一发明实施例的图6所示的例子相同。该输出结果显示在显示部分26上。
当第二发明实施例应用到英文文本数据时进行的处理第一发明实施例有关解释的处理相同,因此,这里不再重复说明了。英文描述的数据也能按第一发明运用在第二发明中。
下面参照附图将描述第三发明的一个实施例。
如第三发明的一个实施例,表示其中在信息摘要中考虑在关键字之间联系的信息摘要的方法和信息摘要的装置。图10表示用于第三发明实施例的系统结构图。在图10中的组成部件与第一发明实施例的结构例子所表示的部件相同;因此,相同组成部件用相同标号表示,这里就不再对这些部件进行详细说明。在图10中,标号31是关键字相联系部分,用于建立由关键字提取部分3从在相同单元内的相同段中提取的关键字之间的联系。32是联系分数计算部分,用于以较高的分数供给出现在大量单元中的关键字和关键字联系的这种方法,对由关键字提取部分提取的关键字和由关键字相联系部分建立的关键字联系计算分数;和33是联系提取部分,用于根据由联系分数计算部分32计算的分数,选择关键字和关键字联系,并用于在输出部分2上将它们显示为一信息摘要。
用于实施上述结构系统的硬件结构与图2所示的第一发明的一个实施例的硬件结构相同。因此,这里不再详细说明了。
参照图11所示的流程图,将描述其中考虑关键字联系的构成信息摘要装置和信息摘要方法的操作。
步骤c1到c3中的处理与第一发明实施例中执行的步骤a1到a3相同。
在步骤c4中,从相同单元内相同段中提取的关键字在关键字相联系部分31中相互联系。在关键字联系中,两个关键字成对在一起。在由两个联系的关键字组成的每个关键字对内,关键字的顺序是无意义的。也就是说,(关键字1,关键字2)和(关键字2,关键字1)都看作相同的联系关键字对。在单独的提取两个关键字中,如果关键字另一个的子集,以如与步骤a4有关描述的方法,这些被看作相同关键字,和在这些关键字组合成一个关键字之后,就进行关键字联系。在图5所示的数据例子的单元1中,例如,用间隔线相互隔开这些段。从这个数据例子的单元1的第一段中被提取关键字″泉佐野″,″ヘリ坠落″,″大阪府警″,″朝日新闻社取材用″和″ヘリコプタ—″,用于产生关键字联系(泉佐野,ヘリ坠落),(泉佐野,大阪府警),(泉佐野,朝日新闻社取材用),(泉佐野,ヘリコプタ—)(ヘリ坠落,大阪府警),(ヘリ坠落,朝日新闻社取材用),(ヘリ坠落,ヘリコプタ—),(大阪府警,朝日新闻社取材用),(大阪府警,ヘリコプタ—),和(朝日新闻社取材用,ヘリコプタ—)从表示的数据例子,″泉佐野″和″泉佐野市″都被提取为关键字,可是,以如上述与步骤4相关的叙述的相同方法,这些被组合成一个关键字″泉佐野″。
在步骤c5中,在步骤c3和c4中提取的关键字和关键字联系以计数表的形式排列,并以在第一发明实施例中描述的步骤a4相同方法存贮在(推动)FILO(先进后出)的栈式存储器。当相同关键字或关键字联系出现多于一次时,这种关键字或关键字联系都加在一起,总计数存贮在出现的频次项中。计数表的格式如下面表9中所示的。
[表9]
  关键字或关键字联系   出现的频次
在表9的关键字或关键字联系项中,专用的关键字或关键字联系按项目值输入。在关键字联系的情况下,由于两个关键字成对,项目值以(关键字1、关键字2)的格式输入。从由图5所表示的数据例子的单元1中第一段提取的关键字和关键字联系得到的计数表将表示在下面表10中。
[表10]
关键字或关键字联系     出现的频次
泉佐野ヘリ坠落大阪府警朝日新闻社取材用ヘリコプタ—(泉佐野,ヘリ坠落)(泉佐野,大阪府警)(泉佐野、朝日新闻社取材用)(泉佐野,ヘリコプタ—)(ヘリ坠落,大阪府警)(ヘリ坠落,朝日新闻社取材用)(ヘリ坠落,ヘリコプタ—)(大阪府警,朝日新闻社取材用)(大阪府警,ヘリコプタ—)(朝日新闻社取材用,ヘリコプタ—)     211112222111111
在表10中,每个关键字组合出现的频次设置到与具有两个联系关键字出现的较高频次的关键字的频次相同的值上。
在步骤c6中,检索与在步骤5中存贮在栈式存储器中的它的出现频次成对的关键字或关键字联系组成的数据。
在步骤c7中,检索在步骤c6中检索的数据中的项″关键字或关键字联系″的值。如果该值表示一关键字,则程序转到步骤c8;另一方面,如果该值表示关键字联系,程序进行步骤c11。检索的项值是否表示关键字或关键字联系,用以下方法进行判断:如果项值是两个关键字如(关键字1、关键字2)的字该值判断为表示关键字联系,和如果它是简单的一个关键字,例如关键字1,该值判断为表示一关键字。
在步骤c8到c10中,由联系分数计算部分32执行与在第一发明的一个实施例中步骤a7到a9相同的处理。
然而,关键字频次表的格式表示在下面表11中。
[表11]
关键字或关键字联系 单元间频次 场间共用计数
表11中所示的关键字频次表与表2所示表的格式相类似,其不同仅是将项名″关键字″改变成项名″关键字或关键字联系″。这因为不仅关键字而且关键字联系也按项值被存贮。仅当在步骤c6检索的数据中项″关键字或关键字联系的值表示一关键字时执行在步骤c8到c10的处理;因此,除了项名不同外,该处理与步骤a7到a9的处理相同。
当在步骤c6中检索的数据与关键字联系有关时执行步骤c11,在那种情况,它可判断关键字频次表是否包含等于检索的联系的一联系。这是通过顺序地把在步骤c6中检索的关键字联系与在关键字频次表中项″关键字或关键字联系″的值相比较来完成的。这个判断可使用另一有效方法进行。在判断关键字联系中,联系标示(关键字1,关键字2)和(关键字2、关键字1)被看作同一联系,如上述与步骤c4有关的描述。而且,当一个关键字是另一关键字的子集时,这种关键字可通过使用如上述与步骤a7有关描述的相同准则和方法组合成一个关键字。
步骤c12是在步骤c6检索的关键字联系等于已经输入关键字频次表的关键字联系时执行的。这意味着相等的关键字联系存在于不同段中。在这种情况,在关键字频率表中的″单元间共用计数″的值加上1。由于关键字都根据一段来联系,而不根据单元来联系,项名″单元间共用计数″和″单元内频次″实际上分别应该是″段间共用计数:和″段内频次″,但是,为了共同相同关键字频次表和关键字,关键字的项名也用于关键字联系。关于″单元内频次″的值,在步骤c6检索的该对出现的频次值与项″单元内频次″的值相加。例如,考虑在步骤c6检索的对是((米朝高官协议,北朝鲜),2)的情况。在这种情况下,对于在关键字频次表中属性″关键字或关键字联系″的项值是(米朝高官协议,北朝鲜)的数据,单元内频次的值增加2,和单元内共用计数的值增加1。
步骤c13是当步骤c6中检查的关键字联系的适应在关键字频次表中存贮的任何关键字联系时执行的。在这种情况下,在步骤c6检索的相联系关键字对加到关键字频次表,和单元内频次设置到与步骤c6中检索的该对出现的频次相同的值。单元间共用计数设置为0。在联系分数计算部分32中执行上面步骤c11到c13。
在步骤c14中,联系提取部分33以单元间共用计数的递减顺序从关键字频次表中检索预定数的关键字。接着,对于每个检索的关键字,以单元间共用计数的递减顺序,从包含该关键字的关键字联系中检索预定数的联系。最后,将检索的结果显示在输出部分2。对于具有相同单元间共用计数的关键字和关键字联系,以单元内频次递减顺序给出优先级。如果单元内频次也相同,则以在关键字情况的字符计数的递减顺序和以在关键字联系情况的相联系的关键字的字符计数的递减顺序给出在检索中的优先级。考虑,例如,对于每个关键字的两个关键字或两个联系的情况,可以在133页表12中所示的关键频次表检索出。
在这种情况,如果两个关键字以单元间共用计数的递减顺序选择,就可检索出″米朝高官协议″和″朝日新闻社″。关键字″朝日新闻社″具有与关键字″ヘリ坠落″或″北朝鲜″相同的单元间计数,但是,″朝日新闻社″根据它的单元内频次选择。当根据它们的单元间共用计数选择包含检索关键字的关键字联系时,则就可检索出(米朝高官协议,北朝鲜)(米朝高官协议,核问题),(朝日新闻社,ヘリ坠落)和(泉佐野,朝日新闻社,组合关键字是″北朝鲜″,″核问题″,″ヘリ坠落″,和″泉佐野″。在图12中表示了检索的关键字和关键字联系的一种显示例子。在图12中,三个关键字的联系表示一个题目。另一种选择关键字和关键字联系的方法可以通过以单元内频次和单元间共用计数的加权总和的递减顺序检索预定数的关键字和关键字联系。为了得到加权的总和,表示加权的常数S和T首先被确定,然后,对于每个关键字计算(单元内频次×S+单元间共用计数×T)。
如提取在步骤c14中提取的结果的另一种方法,下面将描述能更精确地提取题目的方法。首先,选择具有最大单元间共用计数的关键字,这个选择的关键字用A表示。然后,与关键字A联系的一些关键字中,当与关键字A相联系时提供最大单元间共用计数的关键字被选择,和这个所选的关键字用B表示。接着,与所选的关键字A和B二者组合的一些关键字中,当与各自的关键字联系时提供最大组合的单元间共用计数的关键字被选择,和这个所选的关键字用C表示。然后,关键字A、B和C被组合表示第一题目。  为了提取第二题目,首先,将表示第一题目的关键字和包含这些关键字的关键字联系从关键字频次表中删除,然后,执行与上述描述的相同的处理。在进行选择中,如果有具有相同单元间共用计数、它们的单元内频次、关键字长度等的两个或更多的关键字或关键字联系,按早期所描述的进行比较。
如下面将描述当从表12中提取两个题目时执行的处理的实例。当提取第一题目时,″米朝高官协议″选择为关键字A,和当与关键A相联系时提供最大单元间共用计数的″北朝鲜″选择为关键字B。而且,当与各自的关键字相联系时,与这些关键字的两个联系的和提供最大组合单元间共用计数的″核问题″,选择为关键字C。当提取第二题目时,首先,用于提取第一题目的关键字″米朝高官协议″,″北朝鲜″,和″核问题″,和包含这些关键字的关键字联系从关键字频次表中删除,然后,以如上所述的同样方法选择关键字A、B和C。由表12,″ヘリ坠落″,″朝日新闻社″,和″泉佐野″选择作为表示第二题目的关键字。
接着,将要描述当第三发明应用到另一个实例的操作。在下文描述的实例中,用英文描述通过输入部分1输入的数据。例如,将图37所示的数据例子考虑为前面描述的第一发明实施例的情况。下面说明涉及集中在不同于日文文本数据处理的英文文本数据的处理。图11的流程图,将使用用于说明日文文本数据的处理的相同处理。
步骤c1和c2中的处理与在日文文本数据的处理所描述的相同。
在步骤c3中,当第一发明的实施例应用到英文数据例子时;不同于日文文本数的处理是与步骤a3有关的描述相同。
在步骤c4到c14中的处理与在日文文本数据的处理中所描述的相同。在步骤c5所得到的计数表的例子表示在表13中。
[表13]
  关键字或关键字联系     出现的频次
  OlympicchampionJoan Benoit SamuelsonfeaturedmarathonRosa Motaortugal(Olympic,champion)(Olympic,Joan Benoit Samuelson)(Olympic,featred)(Olympic,marathon)(Olympic,Rosa Mota)(Olympic,Portugal)(champion,Joan Benoit Samuelson)(champion,featured)(champion,marathon)(Joan Benoit Samuelson,featured)(Joan Benoit Samuelson,marathon)(featured,marathon)(marathon,Rosa Mota)(marathon,Portugal)(Rosa Mota,Portugal)     2111211222222112122221
表14示出了关键字频次表的一个例子。在步骤c14中,首先,具有最大单元间计数的关键字从关键字频次表中选出,和这个已选择的关键字用A表示。然后,关键字A相联系的关键字中,当与关键字A联系时提供最大单元间共用计数的关键字被选出,和这个已选择的关键字用B表示。接着,与已选关键字A和B二者的相联系的关键字中,当与各自的关键字联系时提供最大组合的单元间共用计数的关键字被选择,并且这个已选的关键字用C表示。然后,关键字A、B和C的组合输出作为表示一个题目的数据。可以提取多于一个由这种关键字组合表示的题目。例如,当两个这种题目从其值显然由表14给出的值的记录中提取时,就可得到两个关键字组合{marathon ROSaMota,Portugal}和{olympic,Gelindo Bordin,Italy}。当提取第二题目时,表示第一题目的第一关键字和包含这些关键字的关键字联系从关键字频次表中删除,然后,第二题目如上述的同样方法提取。图39表示了输出结果的一个例子。
[表14]
关键字或关键字联系   单元内频次   单元间共用计数
OlympicchampionJoan Benoit Samuelson:(Olympic,champion)(Olympic,Joan Benoit Sanuelson):Rosa MotaPortugalmarathon:(Rosa Mota,Portugal)(Rosa Mota,marathon)(Rosa Mota,Olympic)(Portugal,marathon):Gelindo BordinItalyovertakes:(Gelindo Bordin,Italy)(Gelindo Bordin,overtakes)(Gelindo Bordin,Olympic)(Gelindo Bordin,marathon)(Italy,Olympic):   611:11:337:3323:221:22672:   500:00:226:2212:110:10111:
在上述实施例中,已经完成在同一单元内同一段上的处理,可是,可完成在代替逐段的逐句上的处理。
而且,在上述的发明中,根据在选择摘要时显示的关键字,对每个关键字计算单元内频次和单元间共用计数。另一种选择方法也可能仅取决于单元间共用计数。因为反复措辞或词句的原因,就会有相同关键字简单地重复出现在相同单元内的情况;在这种情况,单元内频次可变大,是因为词句的原因而不是由于关键字的重要性。因此,为了执行简便起见,该方法也需要通过使用仅单元间共用计数而没有计算单元内频次来执行处理。
当关键字显示为文件的文摘,通常,文件的一般内容可通过关键字的组合来联系;在这种情况下,文摘方法可被简化,并且通过仅处理关键字之间联系的重要性而不是每个个别关键字的重要性可便于在实际装置中的实施。下面将描述这种方法。
首先,在步骤c5中,不进行对关键字的处理,但是,仅对关键字联系进行处理。而且,也不进行对出现频次的处理。具体地说,关键字不存贮在栈式存储器中,而仅关键字联系存贮在栈式存储器中。此时,由于不进行对出现的频次处理,则″出现的频次″项从表9所示的计数表格式除去。也就是说,由项″关键字或关键字联系″组成的表,仅关键字联系作为项值输入。相同关键字联系被组合成一个联系。表15示出了一个计算表的例子。
[表15]
  关键字或关键字联系
  (泉佐野,ヘリ坠落)(泉佐野,大板府警)(泉佐野,朝日新闻社取材用)(泉佐野,ヘリコプタ—)(ヘリ坠落,大板府警)(ヘリ坠落,朝日新闻社取材用)(ヘリ坠落,ヘリコプタ—)(大阪府警,朝日新闻社取材用)(大阪府警,ヘリコプタ—)(朝日新闻社取材用,ヘリコプタ—)
而且,步骤c8到c10被取消,并且在步骤c7中,没有进行判断操作,而总是继续分支步骤c11。在步骤c12和c13中,由于在步骤c6中检索的数据不包含项″出现频次″,不进行使用这个项值的单元内频次的处理。如上述处理的结果,例如,表16所示的关键项次表是仅由表12中所示的关键字频次表中求得的关键字联系得到的,而没有项″单元内频次″。
[表16]
  关键字或关键字联系     单元间共用计数
  (泉佐野,朝日新闻社)(泉佐野,ヘリ坠落)(泉佐野,每日新闻社)(朝日新闻社,ヘリ坠落)(朝日新闻社,每日新闻社)(米朝高官协议,北朝鲜)(米朝高官协议,调印式)(米朝高官协议,核问题)(米朝高官协议,燃料棒)(北朝鲜,调印式)(北朝鲜,核问题)(核问题,燃料棒)(平和条约,仮调印)(平和条纸,イスラエル)(平和条约,ヨルダン)(仮调印,イスラエル)(仮调印,ヨルダン)(イスラエル,ヨルダン)     100203020010100000
而且,在步骤c14中,具有最大单元间共用计数的关键字联系是从在关键字频次表中的关键字联系之间检索出的。例如,((米朝高官协议,北朝鲜),3)是从表16检索出的。接着,与构成检索的关键字相联系的两个关键字A和B二者联系的关键字中,当与A和B相联系时,提供最大组合的单元间共用计数的关键字被选择。当我们考虑表16中所示的关键字频次表时,例如,对应于″米朝高官协议″和″北朝鲜″的关键字A和B、与它们相联系的关键字和具有最大组合的单元间共用计数是″核问题″。因此,关键字″核问题″被选择。以上述方法选择的关键字和关键字A与B组合在一起表示一个题目。当按信息摘要得到另一题目时,包含已被选择的关键字的关键字联系从关键字频次表中删除,并从其余的关键字联系中,以如上所述的同样方法选择三个关键字。尤其在上述例子中,首先关键字″米朝高官协议″,″北朝鲜″和″核问题″被选择,然后,包含这些关键字的关键字联系被删除;((朝日新闻社,ヘリ坠落),2)按具有最大单元间共用计数的关键字联系检索。在此时,关键字A和B是″朝日新闻社″和″ヘリ坠落),与它们二者相联系的和具有最大组合的单元间共用计数的关键字是″泉佐野″,因此,它被选择。结果,检索{″米朝高官协议″,″北朝鲜″,″核问题″)和{″朝日新闻社″,″ヘリ坠落,″泉佐野″},按产生如图12所示的输出结果,作为信息摘要。
如上所述,由于早述所述的与日本文本数据的处理不相同,因此,可认为仅取决于单元间计数的方法,也可应用到英文文本数据。
接着,将根据第四发明的一个实施例并结合附图进行描述。
第四发明的一个实施例,示出了一种装有信息提取功能的图文电视广播接收装置,其中在关键字之间的联系被考虑在提取的信息中。图13中的一些组成部件与第二发明的实施例结构的例子中所示的部件相同,相同部件是用相同的标号表示的,因此,这里不再对这些部件进行详细说明。在图13中,标号41是图文电视关键字相联系部件,用于建立在通过图文电视关键字提取部分23从在相同节目内的相同段中提取的关键字之间的联系。42是图文电视联系分数计算部分,用于以在大量节目中出现的关键字或关键字联系给出的较高分数的方法,计算每个关键字和每个关键字联系的分数;和43是图文电视联系提取部分,用于根据由图文电视联系分数计算部分42计算的分数选择关键字和关键字联系;还用于使它们显示在输出部分26上。
实施上面结构系统的硬件结构与图8所示的第二发明实施例的硬件结构相同。因此,这里就不再详细说明了。
将结合图14所示的流程图描述一种装有信息提取功能、其中考虑关键字联系的图文电视广播接收装置结构的操作。
步骤d1到d3的处理与第二发明的实施例中执行的步骤b1到b3相同。
在步骤d4到d14中,除了步骤d4在图文电视关键字联系部件41中、步骤d8到d13在图文电视联系分数计算部分42中和步骤d14在图文电视联系提取部分43中执行以外,执行与第三发明的实施例中步骤c4到c14相同的处理。
在本发明中,如第三发明,考虑选择的方法仅取决于单元间共用计数。由于在步骤c4到d14中的处理基本上与步骤c4到c14中执行的处理相同,这个方法可通过做与第三发明有关的所述的相同改进来实施,因此,这里不再进行详细说明。而且,如在第三发明的实施例所述的,该方法也可考虑为仅对关键字联系进行处理。
接着,根据第五发明的一个实施例结合附图予以描述。
如第五发明的一个实施例,示出了一种信息提取的方法和一种信息提取设备。图16是表示对于第五发明的实施例的系统结构图。在图16中一些组成部件与在第一发明的实施例的结构例子中所述的相同;因此,相同组成部件用相同的标号表示,并且这里将不再详细说这种部件。图16与第一发明的实施例的系统结构的不同之处在于:类似的分数计算部分51提供了类似由关键字提取部分3提取的关键字之间的计算。
用于实施上述结构系统的硬件结构与图2中所示的第一发明实施例的硬件结构相同。
将参照图17所示的流程图描述构成信息提取设备和信息提取方法的操作。
在步骤e1到e3的处理与第一发明实施例中执行的步骤a1到a3相同。
步骤e4到eg在类似性分数计算部分51中执行。
在步骤e4中,对于在步骤e3中提取的关键字,通过考虑到类似性计算出现的频次。在计算出现的频次中,正好相配的关键字被组合,并且出现的频次设置到与正好相配的关键字数目相同的值。例如,当4个相同的关键字″国际平和维持军″被提取,这些关键字″国际平和维持军″组合成一个关键字,其出现的频次设置到4。接着对于不相同的关键字A和B,在它们之间字符和字符顺序两者中相配的字符数是通过在关键字A和B的字符计数之间的平均来划分的,并且所得的值用作类似性。例如,在″米朝高官会议″和″米朝高官协议″之间,″米朝高官议″是共用的,以致于五个字符适合于它们之间的字符和字符顺序,在两个关键字的字符计数之间的平均是6个字符。因此,在两个字符之间的相似性计算为5/6=0.83(向下计算两位小数)。而且,表示在两个关键字A和B之间计算的相似性如S(S×B出现的频次)加A出现的频次,和(S×A出现的频次)再加到B出现的频次。例如,假设使用相似性加到出现的频次,″米朝高官会议″的出现的频次是3和″米朝高官协议″的出现的频次是5。然后,使用类似性0.83,″米朝高官会议″的频次出现计算为3+5×0.83=7.17,和″米朝高官协议″的频次出现计算为5+3×0.83=7.49。这种关键字相似性是对于在步骤e3中提取的每个关键字组合计算的。为了减少计算时间,通过计算相似性,仅对其中大于在两个关键字之间相配的字符数的一半的关键字组合,可考虑一种方法。由于出现的频次里根据以上所述的相似性计算的,所得的关键字计数结果包括用数而不是整数表示的频次,如134页表17所示的。所得的关键字计数结果用识别单元的标识符将每个存贮到(推动)FILO(先进后出)栈式存储器上。在第一发明的实施例中,在步骤a4中,认为相同的关键字组合成一个关键字,并且不考虑在关键字之间的相似性。因此,当在后面步骤a5到a9中更新在关键字频次表中的单元内频次和单元间共用计数时,这种情况不会产生从一个单元提取的关键字认为与从相同单元中提取的另一个关键字相同,即使关键字不存贮在具有识别该单元的标识符的栈式存储器中。因此,该情况不发生从同一单元提取的关键字认为是在步骤a7中相同的,并且在后接步骤a8中更新单元间共用计数。另一方面,当已经考虑到关键字的相似性,如在本实施例中,如果识别该单元的标识符不是存贮在栈式存储器中,就应该计算相似性,当更新关键字频次表时,不管关键字是否从相同单元或不同单元中提取。因此,对于在从不同单元提取的关键字和从相同单元提取的关键字之间的差别变成不可能的,并且,表示在不同单元中相同关键字的出现的单元间共用计数在后面所述的步骤e7的频次校正操作中不能够计算。由于这个原因,识别该单元的标识符加到存储在栈式存储器中的每个关键字,它不同于第一发明的实施例。标识符仅需要从另一单元识别一个单元,并且在处理期间可产生例如b1、b2……。
在步骤e5中的处理与在第一发明的实施例中步骤a5执行的处理相同,与步骤a5的不同之处在于:在步骤e5中检索的数据具有附加于它的一个单元标识符。
在步骤e6中,识别附加到步骤e5中检索的数据的单元的标识符与变量Bid(请求)的内容比较。变量Bid的初始值设置为等于任一标识符,同时,具有被比较的标识符的值。例如,大于0的整数指配给单元标识符,并且Bid的初始值设置为-1;在步骤e6中,通过首先将被比较的标识符代入仅当Bid是-1时的Bid,执行该比较。当它们与比较结果相适应时,程序转到步骤e7;否则,程度进行步骤e11。
在步骤e7中,进行与第一发明的实施例的步骤a6相同的处理。
在步骤e8中,在步骤e7中检索的关键字和例如,在第一发明实施例中所示的表2中,即关键字频次表中关键字项的每个关键之间计算相似性。在计算相似性中,标记变量等用于识别相同的关键字(相似性=1)是否存在于关键字频次表中,以致于能够在后接的步骤e9中识别相同关键字的存在。接着,如果相似性大于或等于0.5,更新在关键字频次表中的单元内频次和单元间共用计数。下面的方法用于更新单元内频次和单元间共用计数。在步骤e5中检索的数据的关键字项值用A、出现的频次的项值用F、单元内频率用Fi,和单元间共用计数用Fe来表示。当在关键字A和B之间相似性为S,在关键字频次表中单元内频次的值被更新为Fi+S×F,和单元间共用计数被更新为Fe+S。例如,考虑其中步骤e5提取的数据是(关键字,相似性)=(米朝高官会谈,2.63)和更新操作是在下面表18所示的关键字频次表上进行。然而,注意在这个例子中使用的数字值不是从实际数据计算出的,而是仅为了说明而给出的。
[表18]
     关键字  单元内频次  单元间共用计数
电动茶京都府茶协同组合米朝高官协议米朝高官会议:     2.321.674.153.34:     1.8702.712.68:
在表18中,具有0.5或相对于″米朝高官会谈″较大的类似性的关键字是″米朝高官协议″和″米朝高官会谈″。在″米朝高官会议″和″米朝高官协议″之间相似性是0.67,和在″米朝高官会谈″和″米朝高官会议″之间的相似性是0.83(小数四舍五入到两个小数位。因此,(关键字,单元内频次、单元间共用计数)={(米朝高官协议,4.15,2.71),在表18中所示的关键字频次表中的(米朝高官会议,3.34,2.68)}更新为{(米朝高官协议,4.15+0.67×2.63,2.71+0.67),(米朝高官会议,3.34+0.83×2.63,2.68+0.83)}。
在本实施例中,在关键字频次表的关键字中,仅具有0.5相似性或相对于步骤e5中检索的数据较大的关键字被更新,但是还可使用其它的准则。为了减少更新操作的数目,更新操作在具有0.5或更大的相似性上执行。在步骤e8在图17流程图起始以后第一次调用时,关键字频次表是空的,以致程序转到步骤e9,而没有执行步骤e8中的任何操作。
在步骤e9中,判断与步骤e7中检索的关键字相同的任一关键字是否在步骤8的关键字频次表的更新期间在关键字频次表中已经找到。如果任一相同关键字已经找到,程序转到步骤e5;否则程序继续到e10。
在步骤e10中,在步骤e5中检索的数据暂时存储在贮存区域,例如栈式存储器。这个栈式存储器与在步骤e4中使用的栈式存储器不同。
在步骤e11中,存贮在存储区域例如栈式存储器中的数据逐个被检索和加到关键字频次表。当把每个数据加到关键字频次表时执行的处理与第一发明的实施例中步骤e9执行的处理相同。而且,在步骤e11中从存贮区域删除检索的数据,因此,每当完成这个步骤时,栈式存储器变成把步骤e10中存贮的所有的数据腾空。
在步骤e12中,识别在步骤e5中检索的数据单元的标识符代入变量Bid。
在步骤e13中,执行与步骤e11相同的处理。
在步骤e14中,执行与第一发明的实施例步骤10中相同的处理,尽管其不同在于:出现的关键字频次值、单元内频次、和单元间共用计数不是整数,但是具有小数部分的实数。
接着,将参照附图描述第六发明的一个实施例。
如第六发明的一个实施例,表示一种装有信息提取功能的图文电视广播接收设备。图18是表示第六发明的实施例的系统结构图。在图18中一些组成部件与第二发明的实施例的结构例子中所示的相同;因此,相同的组成部分用相同的标号表示,这里就不再给出这种部件的详细说明。在图18中,标号61是图文电视相似性分数计算部分,用于计算由图文电视关键字提取部分23提取的关键字之间的相似性。
用于实施上述结构系统的硬件结构是与图8中所示的第二发明的实施例的硬件结构相同。因此,这里就不再给出详细的说明。
装备有其中考虑关键字之间的相似性的信息提取功能的图文电视广播接收设备结构的操作将在下面结合图19所示的流程图予以描述。
在步骤f1到f3中,执行与第二发明的实施例中步骤b1到b3相同的处理。
步骤f4到b13在图文电视相似性分数计算部分61。
在步骤f4到f13的处理与在第五发明的实施例中执行的步骤e4到e13的处理相同,除了关键字频次表的项名与第二发明的实施例中使用的项名相同、和与在第五发明中单元内频次上执行的相同处理在节目内频次上进行以及与在单元间共用计数上执行的相同处理在节目间共用计数上进行以外。
在步骤f14中,执行与在第二发明的实施例中b10相同的处理,其不同仅是出现的关键字频次、单元内频次、和单元间共用计数不是整数,而是具有小数部分的实数。
接着,将结合附图描述第七发明的一个实施例。
如第七发明的一个实施例,表示了一种信息提取的方法和信息提取的设备,其中在提取的信息中考虑了关键字类似性和关键字联系二者图20表示第七发明的实施例的系统结构图。在图20中组成部件与在第三发明的实施例的结构例子中所示的相同,相同组成部件用相同标号表示,并且,这里将不再给出这种部分的详细说明。在图20中,标号71是相似/联系分数计算部件,用于根据包括关键字之间的联系的许多因素,计算在关键字之间的相似。
用于实施上述结构的系统的硬件结构与图2所示的第一发明实施例的硬件结构相同。因此,这里就不再给出详细说明。
下面将结合图21所示的流程图描述构成信息提取设备和信息提取方法的操作。
在步骤g1到g3中,执行与在第五发明实施例中步骤e1到e3相同的处理。
在步骤g4中,执行与在第三发明的实施例中步骤c4相同的处理。然而,在步骤c4中,当两个关键字之一是另一个的子集时,这种关键字考虑为相同的,可是在本发明中,这种关键字没有考虑为相同,除非正好相配。当然,在这个实施例中,当一个关键字为另一个的子集时,也可通过将两个关键字考虑为相同的来进行处理。
在步骤e5中,与在第五发明的实施例中步骤e4相同的处理在步骤g3提取的关键字上执行。在步骤g4中建立的关键字联系中,正好相配的联系被组合在一起,和每个组合的关键字联系的出现频次设置到等于提取的联系数的值。例如,提取四个相同联系(泉佐野、ヘリ坠落)时,这些相同联系(泉佐野、ヘリ坠落)组合在一起,和其出现的频次设置为4。所得到的关键字和联系共用计数,用附加于它们的单元标识符,首先将关键字存贮(推)到FILO(先进后出)栈式存储器。附加识别单元的标识符的方法和附加标识符的原因是与在第五发明的实施例中与步骤4有的描述相同。首先,存贮关键字联系,其原因,当在后续步骤g6中从栈式存储器读出数据时,首先检索关键字联系,然后检索关键字,以致于当计算关键字相似性时可使用首先检索的联系。
在步骤g5中,对于包括不相同关键字的两个关键字联系(K1、K2)和(L1、L2)可计算出在组合之间的相似性,同时,根据计算出的相似性,可更新出现的频次。为了计算在这种关键字联系之间的类似性,在K1和K2之间的相似性和在K2和L2之间的相似性可以与第五发明的实施例中步骤e4的相同方法计算出,在两个计算结果中得到平均。而且,计算在K1和L2之间的相似性和在K2和L1之间的相似性,和如果它们之间的平均是较大的话,则该平均就取作在关键字联系之间的相似性。例如,在联系(米朝高官会议,核问题)和(米朝高官协议,核问题讨议)是通过计算″米朝高官会议″和″米朝高官协议″的相似性0.83和″核问题″和″核问题讨议″之间相似性0.75和通过计算平均为(0.83+0.75)/2=0.79(小数四舍五入两位)得到的。一旦计算出在联系之间的相似性,与步骤e4执行的相同处理是在关键字上进行。用S表示在两个联系A和B之间计算的相似性,{S×(B出现的频次}与A出现的频次相加,和{S×(A出现的频次}加到B出现的频次。假设,例如在计算相似性以前,联系(米朝高官会议,核问题)出现的频次是3和联系(米朝高官协议,核问题讨议)是5。然后,使用相似性0.79,(米朝高官会议,核问题)的出现频次计算为3+5×0.79=6.95,和(米朝高官协议,核问题讨议)出现的频次计算为:5+3×0.79=7.37。对于步骤e3中提取的每一个关键字组合计算这种组合相似性。为了缩短计算时间,可考虑一种方法是通过计算仅用于其中一半字符数适应它们之间的关键字联系。
在步骤g6到g8中,执行与第五发明的实施例中步骤e5到e7相同的处理。其不同处理是,在第五发明中对关键字进行的处理也对关键字联系进行处理。
在步骤g9中,当在步骤g6中检索的数据是关键字时进行的处理不同于当它是关键字联系时进行的处理。当检索的数据是关键字联系时,执行与第七发明的实施例中步骤e8相同的处理;在步骤g9中,计算在联系之间的相似性,根据相似性,计算和更新联系的单元内频次和单元间共用计数,它不同于计算在关键字之间相似性的步骤e8,根据相似性,计算单元内频次和单元间共用计算。以与步骤g5所述的相同方法计算在联系之间的相似性。
当在步骤g6中检索的数据是一关键字时,根据通过不仅考虑该关键字的相似性而且也考虑与这个关键字相联系的关键字的相似性计算的宏相似性,计算和更新单元间共用计数。以与第五发明的实施例中步骤e8相同的方法,更新单元内频次,也就是说,根据在关键字之间的相似性。为了计算单元间共用计数,包含在步骤g6中检索的关键字的关键字联系是从在步骤g11中存贮的数据中检索,并且这组联系被表示为组I。接着,对于在关键字频次表中的关键字,包含那关键字的组J联系从关键字频次表中检索。假设,例如,在135页表19中所示的关键字频次表。这里假设在步骤g6检索的数据中关键字是″调印式典″。还假设在数据被检索之前在步骤g11中存贮的数据如下面表20中所示的。
[表20]
  关键字或关键字联系     出现的频次     单元标识符
  (米朝高官会谈、调印式典)(核问题、调印式典)北朝鲜     F1F2F3     BidlBidlBidl
然后,组I由{((米朝高官会议,调印式典),F1,Bidl),((核问题,调印式典),F2,Bidl)}组成。
在关键字频次表中的关键字和检索的关键字之间的相似性的计算和频次的更新依次对关键字频次表中的关键字执行。下面描述在关键字频次表中带有″调印式″的相似性是如何计算的。这里,组J由{((核问题,调印式),Fi4,Fe4),((调印式、米朝高官协议),Fi5,Fe5)}组成。一旦得到组I和J,与其相似性被算出的关键字有关的关键字从各自的组中检索出,和计算在这些关键字之间的相似性。由于这些是关键字组,关键字从组I中逐个被检索出每个检索的关键字依次与组J中所有的关键字相比较,以计算在它们之间的相似性;然后,所得的最大相似性确定为带有从组I中检索的关键字的相似性。以这种方法得出在组I中用每个关键字的相似性,和它们的平均取为在组I和J之间的组相似性K。更明确地说,在上述例子中,{米朝高官会谈、核问题}是从组I中检索出和{核问题,米朝高官协议}是从组J中检索出;在这种情况,对于在组I中的″米朝高官会谈″、在组J中的″米朝高官协议″提供最大的相似性是0.67,和对于″核问题″,在组J中的″核问题″提供最大的相似性是1.0。这些相似性的平均是0.84(小数四舍五入到二位)。因此,在组I和组J之间的组相似性K是0.84。在″调印式″和″调印式典″关键字之间的相似性和组相似性K的加权总和,S=0.86确定为在关键字之间的宏相似性。
该加权是预定的常数X和Y,和宏相似性计算为X×K+Y×S。一旦已得到宏相似性,在关键字频次表中的单元内频次和单元间共用计数与在第五发明的实施例中频e8有关描述的相同方法更新。在本实施例中,使用宏相似性替代在步骤e8中使用的关键字相似性。其结果在于:当相似关键字用在不同题目中时宏相似性减小和当它们用在相同题目中时增加。例如,当在步骤S6中检查的关键字是″调印式典″时,如上所述,如果在关键字频次表中被比较的关键字是″反调印式″,则组J是{ヨルダン,イスラエル}。虽然在″调印式典″和″反调印式″之间的相似性高达0.75,在组I和组J之间的相似性是0,因此,在″调印式典″和″反调印式″之间的宏相似性是小的。也就是说,宏相似性的值表示相对于相同物而在不同题目中的关键字。
在本实施例中,没有使用包含在组I和J中的关键字的出现的频次、单元内频次和单元间共用计数的值来计算组相似性K,可是,这些值可用在计算中。如果这些值被使用,则计算将变得复杂化,但是,宏相似性可以通过考虑在关键字之间的联系度(即联系数目)来进行计算。
在步骤g10到14中,与在第五发明的实施例中步骤eg到e13相同的处理被执行,其不同的仅是,在第五发明中对关键字进行的处理也可在关键字联系上进行。
步骤g15中的处理与第三发明的实施例中步骤c14的处理相同,除了关键字和关键字联系的出现的频次、单元内频次和单元间共用计数的值不是整数而是具有小数部分的实数之外。
在本发明中,如第三和第四发明,考虑一种方法,仅使用关键字联系或仅使用单元间共用计数。尤其,在下面将描述不使用关键字而只使用关键字联系和不使用单元内频次而仅使用单元间共用计数的一种方法,仅集中于与本发明的上面实施例中所描述的步骤的不同。
首先,在步骤g5中,不进行对关键字的处理,而仅执行对关键字联系的处理。而且,在联系之间进行的处理中,也不进行相对于出现频次的相似性的计算和处理。也就是说,关键字不存贮在栈式存储器中,而仅关键字联系存贮在栈式存储器中。由于不进行相对于出现的频次的处理,所得的计数表的格式将和与第三发明有关的所述的表15中所示的格式一样。
在步骤g6和g8中,处理的内容基本上与上面所述的相同,其不同仅是,在步骤g6中检索的数据总是关键字联系,因为没有检索关键字。
在步骤g9中,由于步骤g6检索的数据总是关键字联系,当步骤g6中检索的数据是一关键字时执行的处理是不需要的。因此,仅当数据是关键字联系时执行的处理被执行。结果,用于计算在关键字之间的相似性的宏相似性计算也是不需要的。而且,如与第三发明的实施例有关的描述,由于仅根据单元间共用计数执行提取,关键字频次表的格式将与表16中所示的格式一样,和在步骤g9的处理中,仅进行在单元间共用计数上的处理,忽略了在单元内频次上的处理。
在步骤g15中,以与第三发明的实施例有关所述的表16上执行的处理相同的方法能选择关键字,其不同仅是,单元间共用计数的值是实数。
接着,将结合附图描述第八发明的一个实施例。
如第八发明的一个实施例,表示了装备有信息提取功能的一种图文电视广播接收设备。图22是表示第八发明的实施例的系统结构图。在图22中的一些组成部件与第四发明的实施例的结构例子中所表示的组成部件相同;因此,相同的组成部件用相同的标号表示,并在这里不再给出详细说明。在图22中,标号81是图文电视相似性/联系分数计算部分,用于通过考虑相似性,计算由图文电视关键字提取部分23提取的每个关键字的。
用于实施上述结构系统的硬件结构是与图8所示的第二发明的实施例的硬件结构相同。因此,这里就不再给出详细说明。
装备有其中考虑在关键字之间相似性的信息提取功能的图文电视广播接收设备的操作,将结合图23所示的格式在下面予以描述。
在步骤h1到h2,执行与第二发明的实施例中步骤b1到b2相同的处理。
步骤h3到h14在图文电视相似性/联系分数计算部分81中执行。
在步骤h3到h14的处理与在第七发明的实施例中步骤g3到g14执行的处理相同,除了关键字频次表的项名不同,即单元内频次和单元间共计数分别用节目内频次和节目间共用计数代替以外。
然而,处理过程基本上是相同的,如在第七发明中,在单元之间频率上进行的相同处理过程是在内部程序频率上进行的,并且在程序之间共用计算进行的处理过程就如同在单元之间共用计算的过程一样。在步骤h15中,除了结果输出到代替输出部分2的显示部分26外,就进行如同第七发明实施例中步骤g15的同一处理过程。
在本发明中,如在第七发明中一样,该方法仅根据单元之间共用计算或关键字相关的来考虑选择关键字。这样,该方法基本上就可以用与第七发明相关的描述的同一过程来完成,因此,在此就不给出详细的说明。
接下来,结合附图将描述第九发明中的一个实施例。
作为第九发明的一个实施例,其中除了考虑关键字不能用作关键字之外,已表示出信息提取方法和信息提取装置。图24是表示第九发明实施例的系统结构的图。图24中的一些组成部分与第一发明实施例的结构图中相同;因此,相同的标号表示相同的组成部分,另外,在此将不给出这些部分的详细说明。在图24中,标号91是除了不作为关键字存储关键字的关键字之外存储部分,92是除了参考除了关键字存储部分91中关键字存储之外的提取关键字的关键字提取部分。
图25中表示用于完成这种构形系统的硬件结构。图25中所示的硬件结构由第一发明的一个实施例所示的硬件的组成部分组成,再加上图24中所示的系统结构的组成部件;因此,相同组成部分由相同的标号表示,另外,在此将不详细说明这些部分。
除了被插入在图3流程图中步骤a3和a4之间的图26流程图中所示的步骤外,说明上述结构的信息提取装置的信息提取方法的操作流程图与图3中所示的第一发明实施例说明的操作流程图相同。因此,仅描述在图26中所示的步骤。在本实施例中还要注意,步骤a3是在除关键字提取部分82之外完成的。
在步骤i1中,在步骤a3中提取的关键字顺序地读出,完成每个时间步骤i1的一个关键字。该步骤重复呼叫,直到所有在步骤a3中提取的关键字已经读出为止。当没有关键字读出时,在图26的流程图中就跟随END分支。在该步骤中,仅顺序读出数据但没被删去。步骤i1是在除关键字提取部分92中完成的。
在步骤i2中,存储在除关键字存储部分91中的关键字在时间上读出。在除了关键字存储部分91中,不被作为关键字的关键字预存在如下的表21中。
[表21]
    除去的关键字
    atheintoaccording:::
如该步骤已完成,过程进行到从除关键字存储部分91之外读下一个关键字。例如,当该步骤化第一时间完成时,就读出表21的″a″,当下一个时间完成步骤时,就读出″the″。以这种方式重复读操作,直到读出所有数据为止。在这种情况下,图26的流程图就跟随END分支。
在步骤3中,在步骤i1中读出的关键字与步骤i2中读出的关键字比较。如果比较的结果相等的话,过程进行步骤i4;否则,过程返回到步骤i2。
在步骤i4中,在步骤i1中读出的关键字从步骤a3提取的关键字中删去。于是,被删去的关键字从步骤a4和后面的步骤过程中排除去。
接下来,如第九发明的第二实施例,除了关键字提取部分3是由图29中所示的结构图代换之外,系统结构图基本与图10所示的第三发明的一个实施例的系统结构图相同。在该结构图中,输入部分1连接到图29中的端1,图29中的端2连接到相关部分31的关键字。该实施例的操作包括图11流程图中所示的步骤,插入在图11中步骤a3和a4之间的图26中的步骤。这些附加步骤已经说明,在此将不详细说明。硬件结构图与图25中所示的第一实施例相同。
接下来,如第九发明的第三实施例,除了关键字提取部分3是由图29中的结构图代替外,系统结构图基本上与图16中的第5发明的一个实施例的系统结构图相同。在该结构图中,输入部分1连接到图29中的端1,图29中的端2连接到相类似的刻痕计算部分51。该实施例的操作包括图17流程图中所示的步骤,插入在图17中步骤e3和e4之间的图26中的步骤。这些附加步骤已经说明了,在此将不详细说明。硬件结构图与图25中的第一实施例的结构图相同。
接着,如第九发明第四实施例,除了关键字提取部分是由图29中的结构图代替外,系统结构图基本上与图20中第七发明的一个实施例的系统结构图相同。在该结构图中,输入部分1连接到图29中的端1,图29中的端2连接相关部分31的关键字。该实施例的操作包括图21流程图中所示的步骤、插入在图21中步骤g3和g4之间的图26中的步骤。这些附加步骤已经说明,在此将不详细说明。硬件结构图与图25中第一实施例的结构图相同。
接下来,参考附图将描述第10发明的一个实施例。
如第10发明的一个实施例,除了考虑不能用作关键字的关键字外,表示图文广播接收装置。图27是表示第10发明实施例的系统结构图。图27包括第二发明实施例和第九发明的第一实施例中结构图的相同组成部分;因此,用相同标号表示相同组成部分,在此将不详细描述这些部分。在图27中,标号101是除了图文关键字的提取部分,该部分用于参考存储在除了关键字存储部分91之外,从接收的电文程序中提取关键字。
在图28中表示用于执行这种结构系统的硬件结构图。图28中的硬件结构由第二发明的一个实施例所示的硬件结构的组成部分加上图27中的系统结构的组成部分所组成;因此,相同的组成部分由相同的标号表示,另外在此将不详细描述这些部分。
除了图26流程图中的骤是插入在图9流程图中步骤b3和b4外,说明上述构成的信息提取装置的信息提取方法的操作流程图与图9中说明的第二发明实施例的操作流程图相同。包含所有的步骤已经说明,在此将不详细说明。但是,注意步骤b3的步骤i1到i4是在除电文关键字提取部分101中完成的。
接着,如第10发明的第二实施例,除了电文关键字提取部分23是用图30中结构图代替之外,系统结构图基本上与图13中第四发明的一个实施例的系统结构图相同。在该结构图中,电文广播接收部分21连接到图30中的端1,图30中的端2连接到电文关键字相关部分41。该实施例的操作包括由插入在图14中步骤d3和d4之间的图26中步骤的图14流程图中所表示的步骤。这些附加步骤已经证明,在此将不详细说明。硬件结构图与图28中第一实施例相同。
接着,如图10发明的第三实施例,除了图文关键字提取部分23是由用图30中的结构图代替之外,系统结构图基本上与图18中第六发明的一个实施例的系统结构图相同。在该结构图中,电文广播接收部分21连接到图30中的端1,而图30中的端2连接到相类似的刻痕计算部分61的电文。该实施例的操作包括由插入在图19中步骤f3和f4之间的图26中步骤的图19流程图中所示的步骤。这些步骤已经说明,在此将不详细说明。硬件结构图与图18中第一实施例相同。
接下来,如第10发明的第四实施例,除了图文关键字提取部分23是用图30中结构图代替外,系统结构基本上与图22中第八发明的一个实施例系统结构图相同。在该结构图中,图文广播接收部分21连接到图30中的端1,而图30中端2连接到图文关键字相关部分41。该实施例的操作包括由插入在图23中的步骤h3和h4之间的图26中的步骤的图23的流程图中的步骤。这些附加步骤已经说明,在此将不详细说明。硬件结构与图28中的第一实施例相同。
第一、第二、第五、第七和第九发明的中的任何一个都可应用到音频装置、电子同件装置,和个人计算机。应用于各频装置用于无线电电文广播服务。在这种情况,从无线电台发送的广播和节目被看作一个单元,而每个字组块中的节目对应一段短文,例如,在新闻节目情况中,文章的末尾对应短文的末尾。例如,这种类型的音频装置包括:汽车音频装置、这种装置可以在收听音乐的同时,观看由无线电电文服务提供的新闻摘要。在通常的音频装置的情况中,如果用户想得到新闻信息,就必需停止收听音乐节目或相类似的并调谐到新闻节目;相比之下,用无线电电文服务,用户在收听音乐节目的同时得到新闻信息。通常,音频装置不能装备有像电视机那样的大屏幕。虽然由无线电电文服务广播的每条新闻是由短句子组成的,那么许多条新闻广播就可使整个新闻节目包含许多页的内容。因此,以简单格式显示摘要,比如关键字的组合,就可提供巨大的优点。
电子邮件系统提供了简易的类似于报告牌,在上面许多用户张贴他们的信息。在应用到电子邮件装置中,单元是每个用户信息。在信息中的短文被用作短文,换句话说,一个信息就看作是一个短文。可以看出,例如,从共同关心的事实来说,比如在一个特定(殊)领域中的科学工作者经过内部网来交换信息,使用电子邮件类似的报告牌就是电子邮件的好处之一。把本发明应用到这样的共同关心组中交换的信息,在特定领域中引起注意的是计题目(主题)的信息能够以简单格式,比如提供关键字的组合。电子邮件设备还扩展到计算机网络中,等等。在将来,用户的数量与在共同关心组中的用户数量相比将成爆炸性的增长。因此,对类似于共同关心组的报告牌的邮件容量也将增加。其结果,用户必需在相当多的时间去阅读所有的信息。本发明的信息提取功能将证明在这方面的应用中是非常有效的。
当本发明应用到个人计算机时,使用字处理程序或看作一个单元就形成文件。在文件中用作一个短文就可作为一个文章,但是换句话说,一个文件就可看作是一个文章。用电文广播接收功能来装备个人计算机也是可能的;在这种情况中,第二、第四、第六和第八发明也能被应用。例如,用字处理程序产生的文件可包括从科学社会而来的极低、论文集中作为原文本信息来存储。如果本发明应用到这样的原文本信息,则在科学社会中的主要论文就可能以比如关键字组合的简单格式来提供。也可以提供专利信息。如果本发明用到专利信息,就很容易抓住在随着时间专利的应用的变化趋向。
第一、第三、第五或第七发明可以更优选的模式来完成。下面将表示一个例子。
其中包含数据指示装置的设备的注视的例子是用户能够用指示要求的数据以便观看。即,从输入装置输入的数据和常常由此提取关键字是暂时存储在工作区域中的。
在以已经描述的相同方式信息提取输出到输出装置之后,接收从数据指示装置输入的数据,并根据此输入,对存储在工作区域中的数据进行搜索,并把恢复的数据提供到用户以便观看,图31表示最新增加的系统结构的部分。在图31中,标号111表示数据指示装置,用于接收用户要求观看的输入指示数据。更准确地说,当用户在输出部分看到显示的信息提取并使用数据指示装置111时,就用他要求的用于观看的显示的全部信息来指示关键字。标号112是数据存储部分;113是搜索部分,根据从用户来的数据指示输入在工作区域的数据存储区域112中对存储的数据进行搜索;114是现在数据部分,用于输出由搜索部分113恢复的数据。
除了数据指示装置是附加之外,在上述结构图中所示的用于执行信息提取方法和信息提取装置的硬件结构基本上与第一、第三、第五或第七发明的实施例中所示的硬件结构相同。另外,在步骤a7、步骤c1、步骤c7或步骤g1的数据输入程序,以及,从数据指示装置111接收数据指示输入程序和根据接收的数据指示输入经过数据搜索的程序之后,以致在步骤a10、步骤c14、步骤c14或步骤g15中所示的提取输出程序之后,显示附加搜索结果的程序,除了附加的用于在主存储器12的工作区域中存储数据的数据存储程序之外,流程图基本上与第一,第三,第五或第七发明的实施例中所示的流程图相同。
在数据存储程序中,输入数据存储在工作区域中。在数据指示输入接收程序中,接收由用户使用鼠标、命令键、数字键等从比如图6或12中所示的输出选择的模式。任何通常的选择方法都可用来作为选择。在根据接收的数据指示输入搜索数据的程序中,从存储在数据存储程序中的数据中恢复包含由用户选择的关键字的数据部分。此时,预定的数据范围,比如文章、行或包含由用户选择的关键字的行的前和后5行被作为搜索结果提取。在搜索结果显示程序中,提取的数据部分显示在输出部分2上。例如,假定用户从图5中所示的数据例子选择关键字″″。在这种情况中,单元1中的第一文章和单元3中的第二文章作为输出被恢复。在图5中,假定每个单元文章是用空白行互相分开。
上述数据显示功能也可以是第九个发明的组合。
第二、第四、第六或第八个发明也可以以另外更优选的方式来完成。下面将表示一个例子。
考虑其中包含用户使用用于观看的指示要求的数据的数据指示装置的设备的例子。即,用电文接收装置和从暂存在工作区域中提取关键字的数据。
在以已经描述的相同方式中在显示装置上显示信息提取之后,接收从数据指示装置的输入,并根据这个输入,使得对存储在工作区域中数据进行搜索,并把恢复的数据提供到用户以便观看。
图32表示最新增加的系统结构部分。在图32中所示的组成部分与图31中相同,并用同一标号来表示,在此,这些部分将不再说明。除了数据指示装置是增加的以外,用于执行上述结构图中所示的电文广播接收装置的硬件结构基本与第二、第四、第六,或第八发明的实施例中所示的硬件结构相同。另外,在步骤b2、步骤d2、步骤f2或步骤h2的接收程序以及用于从数据指示装置111接收数据指示输入的程序,根据接收的数据指示输入经过数据搜索的程序以及在步骤b10,步骤d14、步骤f14或步骤h15中所示的提取输出程序之后增加显示搜索结果的程序的节目之后,除了用于在主存储器12的工作区域中存储接收的节目数据的数据存储程序是增加的以外,流程图基本上与第二、第四、第六、或第八发明的实施例中所示的流程图相同。当数据显示功能是与上述的第一、第三、第五,或第七发明组合时,这些过程与那些完成的过程是相同的,因此,在此将不再说明。
另外,上述的数据显示功能也可以与第十发明相组合。
第一、第三、第五,或第七发明也仍然可以以另外更优选的方式来完成。下面将表示一个例子。
考虑其中包含使用用户关心用的关键字的指示数据的数据指示装置的设备的例子。
即,在以已经描述的相同方式把提取的结果输出到输出装置之后,从数据指示装置接收指示关键字的输入,以及在关键字指示输入之后,当从输入部分1输入新数据时,就搜索指示关键字看是否包含在输入数据中;如果搜索结果表示已找到指示关键字,则包含关键字的数据的全部或部分数据就显示在输出部分2上。信息可被显示指示已经被找到的包含指示关键字的数据而不是显示数据本身。在关键字指示输入已经做到但仅当新输入数据被判断已经从以前的输入数据更新时,在数据从输入部分1输入时,就产生这样的数据或信息显示。
用户用数据指示装置111指示的关键字可从显示在输出部分2上的信息提取或从不包含在信息提取中的关键字来选择。
在稍后将用图34和35进行描述,由执行前(见图35)或后(见图34)步骤搜索以观看是否输入数据包含在指示关键字中来判断有关数据内容已经被更新。
图33表示最新增加的系统结构部分。图33包括与图31中所示的相同的组成部分;因此,这样的组成部分用同一标号来表示并且在此不再说明。标号121是关键字寻找部分,用于当新数据从输入部分1输入时,根据由数据指示装置111接收的关键字指示输入通过数据来搜索,而122是通知部分,用于在关键字寻找部分121已经找到包含指示关键字的数据时通知用户。除了数据指示装置是增加的以外,在上面结构图中所示的用于执行信息提取方法和信息提取装置的硬件结构基本上与第一、第二、第五、或第七发明的实施例中所示的硬件结构相同。
另外,在步骤a10、步骤c14、步骤e14、或步骤g15中所示的提取输出程序以后,除了在图34或35中所示的程序步骤是增加的以外,流程图基本上与第一,第三,第五,或第七发明实施例中所示的流程图相同。
主要参考图35,下面将描述每个步骤。
在步骤j1中,在数据指示装置111中接收由用户要求的关键字的指示并存储指示的关键字。在指示输入接收程序中,接收用户用鼠标器,命令键、数字键等从此如图6或12中所示的输出选择的关键字的指示。任何通常的选择方法都可用于选择。
在步骤j2中,判断指示输入是否在步骤j1中完成。如果任何指示输入已经完成,则程序进到步骤j3;否则,程序终止。
在步骤j3中,关键字寻找部分121判断新数据是否已经从输入部分1输入。当数据是像广播那样稳定不变输入时,在步骤j3中,输入数据不与先前输入数据比较,但由比较/判断以确定是否在步骤5中完成数据更新将在下文描述。当数据作为一组数据输入时,比如是邮件信息,则判断可由检测新数据的到达来做到。
在步骤j4到j6中,关键字部分121进行搜索以观看指示关键字以及在步骤j1存储中是否包含新的和更新的数据。如果包含指示关键字,则程序进到步骤j7;否则,程序返回到步骤j3。这种搜索程序也可用通常的仅仅检查是否包含或不包含指示关键字的关键字匹配技术来完成。
在步骤j7中,因为指示关键是在输入数据作为在步骤54中程序的结果找到的,则部分数据就显示在输出部分2上。例如,假定用户输入一个关键字″朝日新闻社″作为步骤j1中的指示关键字,并且在图5中所示的数据例子是作为新数据输入的。在这种情况下,关键字包含在单元1中的第一文章和单元3中的第二文章,并且这些数据输出到输出部分2。在图5中,假定在每个单元文章是用空白线互相分开的。在另外的方法中,包含关键字的数据的到达仅仅是作为信息来显示,如图36中所示的,并且当用户已经按下分离按钮时,包含关键字的数据部分就被显示。此外,在这程序中,不仅数据提供用于观看,而且还可能存储包含关键字的数据。在这种方式中,如包含关心的关键字的新数据输入,则包含关键字的数据部分就会换次地一个接一个地存储。
上面的处理过程也可以用与第九个发明来组合。
在第二、第四、第六,或第八个发明中,也可能包括用于从用户接收关心的数据指示的数据指示装置。即,在提取的结果输出到显示装置之后,从数据指示装置接收指示关键字的输入,以致在关键字指示输入完成之后,当由电文广播接收部分21接收的数据更新时,搜索就能到以便观看是否指示关键字是包含在接收数据中;如果搜索结果表示已经找到指示关键字,那么包含关键字的数据部分或指示包含关键字数据到达的信息就显示在显示部分26上。新增加的系统结构的部几乎与图33中所示的系统结构完全相同,差别仅在于关键字寻找部分连接到电文广播接收部分21,而不连接到输入部分1,以致通知部分122连接到显示部分26,而不连接到输出部分2。除了数据指示装置是增加的之外,用于执行该电文广播接收装置的硬件结构与第二、第四、第六,或第八发明实施例中所示的硬件结构基本上相同。此外,除了在图35中所示的程序步骤是在步骤b10、步骤d14、步骤f14,或步骤h15中所示的提取输出程序之后增加的之外,流程图基本上与第二、第四、第六、或第八发明实施例中所示的流程图相同。然而,在图35中的步骤,即在步骤j5中,从电文广播接收部分21接收的数据与先前接收的数据比较,以确定接收的数据是否已更新或没有更新。
在步骤j7中,因为指示关键字作为在步骤j4中处理的结果的更新数据已找到,数据的部分显示在显示部分26上。例如,假设用户输入一个关键字″朝日新闻社″作为在步骤j1中的指示关键字以及假设图5中所示的数据例子是作为新更新数据接收的。在这种情况中,关键字是包含在单元1中的第一文章中和单元3中的第二文章中并且这些数据显示在显示部分26上。在另外的方法中,包含关键字数据的到达仅仅作为信息显示,如图36中所示的,当用户按压分离按钮时,包含关键字数据的部分就送去显示。
在图34中所示的流程图与图35的流程图的差别在于判断更新数据的内容执行的步骤的顺序不同;即,在图34中,该步骤是在步骤j6完成搜索以确定指示关键字是否包含在输入数据之中进行的。在图34中,与图35中相同的操作步骤用同一步骤数字来表示。
上面的处理过程也可用第10发明来组合。
按照上面描述的装置,根据第一发明的实施例,当在指令单元中给出大的字符串数据组时,在公共数据组中就出现关键字并提取产生具有高频率以表示公共的题目。对发明的信息提取装置的用户来说,这种好处就是能很快抓住主题目,而不必经过大数据容量。
根据第二发明的实施例,比如在实时产生的电文广播数据上执行信息提取操作,则主题目就能从最后更新数据中提取并以信息提取的形式显示在屏幕上。因此,当电文接收新的节目时,从最后更新的数据来的主要条目总是能以提取的形式被抓住。因此,以提取形式得到一般的新闻的内容而不必观看大量的电文新闻是可能的。
根据第三发明的实施例,当在指令单元中给出有大量的字符串数据组时,一般的数据内容就能够用选择与弄清楚的关键字之间结合的关键字来显示以便观看。与其呈现简单的关键字列表,不如呈现出考虑到使它更容易抓住题目内容的效果相结合的关键字。
根据第四发明的实施例,当从电文广播实时中给出的数据在最后更新的数据中提取主要题目并把它们以信息提取方式显示在屏幕上时,表示每个题目的关键字就用在清楚的关键字之间相结合来显示。其结果是,在最后新闻中的主要题目就能够得到一群相互结合的关键字。这就使得,很快抓住一般的新闻内容并以容易理解提取新闻的方式,而不必观看大量的电文新闻成为可能。
根据第五发明的实施例,当操作关键字的频率时,因此,就能够处理表示同一件事情但不同情况的关键字。例如,同一个运动员曾经(一次)多为″伊达公子″而在平时多为″伊达选手″。表示不同但又由使用相同意思的关键字被一起组合作为类似的关键字,当计算发生的频率时,他们各自发生频率被一起加起来。此外,当提取具有较大相似性的关键字时,匹配相似性的较大值就作为频率增加,因此,当增加频率时,相似性就增长。另一方面,当提取具有较小相似性的关键字时,作为频率增加来说,相似性增加了较小的值。其结果是,就不能发生表示排除提取之外内容的有效关键字的情况,因为它们表示是不同的。于是,就能得到更恰当的提取结果。
根据第六发明的实施例,在电文或类似的当中,在此数据是由不同人产生的数据从不同广播台提供的,因此,就能处理表示不同的关键字。特别是,在涉及在真空世界中发生的事件广播的情况中,比如是新闻节目,问题是没有预先预定的术语,以及常常发生表示不同的关键字。把表示不同关键分类成相似的关键字并增加它的频率,那么由不同广播台增加的表示公共题目的有用关键字就能反映在提取的结果中。
根据第七发明的实施例,当计算在表示不同关键字之间的相似性时,大量相似性用在不仅考虑公共字符和它们在两个关键字之间的比例而且与上述谈到的关键字相关的其它关键字的相似性的计算。由这样做的结果,当发生比如″伊达公子″,″伊达选手″,和″伊达政宗″的类似的关键字时,那么包含在其中公共字的数量是相等的,在″伊达公子″和″伊达选手″之间表示同一运动员的名字的大量相似性是大的,而在″伊达公子″和″伊达政宗″之间表示不同人的名字的相似性是很小的。其结果是,表示不同但表示相同意思的关键字考虑是类似的,而在包含其中字符项目中类似出现但在不同题目中表示不同事情的关键字就考虑不相类似。这种相似性和不相似性是根据表示大量相似性数量的大小来判断的,并根据这种判断来增加频率,因此就能得到提取的结果。
根据第八发明的实施例,在电文或类似的当中,在此,数据是从不同人产生的数据的不同广播台提供的,因此,就能处理表示不同的关键字。在电文中,相类似的关键字,比如会议名称、人的名字、公司名称等等。在新闻节目中,经常出现互相不相关的不同题目。由表示不同组意思相同的事情的关键字和显然类似但意思不同的事情的关键字所需要的功能分别被看作为类似关键字和不类似的关键字。大量的相似性被用于实现这种功能。
根据第九发明的实施例,对包括在摘要中不合适的关键字,被预存在除关键字存储部分91之外。在排除关键字存储在除关键字存储部分91之外之后,就处理关键字并根据关键字的频率进行提取操作;在这种方法中,在表达一个题目中,关键字不重要,比如文章{a,the},介词等等。在英语中,是能够除外。
根据第十发明的实施例,在电文广播中,例如,在引用英语句子时,提取操作是在排除关键字存储在除了关键字存储部分91外之后执行的。在这种方法中,在表达一个题目中,关键字不重要,比如,介词,文章等等。在英语中,在能够排除的,因此,它们将不出现在提取结果中。
从上面描述来看是显而易见的,与现有技术相比,本发明的优点在于,关键字更适合于描述能够从数据提取的内容。
[表12]
  关键字或相关的关键字   内单元频率   单元间共用计数
  泉佐野朝日新闻社ヘリ坠落每日新闻社(泉佐野,朝日新闻社)(泉佐野,ヘリ坠落)(泉佐野,每日新闻社)(朝日新闻社,ヘリ坠落)(朝日新闻社,每日新闻社)米朝高官协议北朝鲜调印式核问题燃料棒(米朝高官协议,北朝鲜)(米朝高官协议,调印式)(米朝高官协议,核问题)(米朝高官协议,燃料棒)(北朝鲜,调印式)(北朝鲜,核问题)(核问题,燃料棒)平和条约反调印イスラエルヨルダン。(平和条约,反调印)(平和条约,イスラエル)(平和条约,ヨルダン)(反调印,イスラエル)(反调印,ヨルダン)(イスラエル,ヨルダン)   3531421325413141311212211211111   1330100204302030200101100100000
[表17]
关键字     发生的频率
泉佐野ヘリ坠落大阪府警泉佐野市朝日新闻社取材用ヘリコプタ—新闻大会开第47回新闻大会京都市新闻贩壳正常化特别宣言电动茶京都府茶协同组合米朝高官协议合意北朝鲜核问题米朝高官会议ジコネ—ブ调印式     1.86111.86111.621.621111211.71111.7111
[表19]
  关键字或相关的关键字     由单元频率     单元间共用计数
  核问题调印式米朝高官协议(核问题,调印式)(调印式,米朝高官协议)(核问题,米朝高官协议)ヨルダン反调印式イスラエル(反调印式,ヨルダン)(反调印式,イスラエル)(ヨルダン,イスラエル)::     Fi1Fi2Fi3Fi4Fi5Fi6Fi7Fi8Fi9Fi10Fi11Fi12::     Fe1Fe2Fe3Fe4Fe5Fe6Fe7Fe8Fe9Fe10Fe11Fe12::

Claims (111)

1.一种信息提取方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;
从所述输入字符串数据中提取每个所述规定单元的关键字;
通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;
根据加权结果从所述提取的各关键字中选择至少一个关键字;
输出所述选中的关键字作为与所述字符串数据有关的信息摘要。
2.如权利要求1所述的信息提取方法,其特征在于如权利要求1所述的信息提取方法,其特征在于通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字。
3.如权利要求1所述的信息提取方法,其特征在于
所述输入字符串数据被存储在规定的工作区中,
在输出所述信息摘要后,当从构成所述信息摘要的各关键字中指定一个关键字时,通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
4.如权利要求2所述的信息提取方法,其特征在于
所述输入字符串数据被存储在规定的工作区中,
在输出所述信息摘要后,当从构成所述信息摘要的各关键字中指定一个关键字时,通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
5.如权利要求1所述的信息提取方法,其特征在于
接受一任意关键字的输入,
在输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
6.如权利要求2所述的信息提取方法,其特征在于
接受一任意关键字的输入,
在输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
7.如权利要求1所述的信息提取方法,其特征在于
在输出所述信息摘要后,从构成所述输出信息摘要的各关键字中指定一关键字,以及
在其后所述单元的一个段的数据内容被更新且在所述更新的数据中找到所述指定的关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
8.如权利要求2所述的信息提取方法,其特征在于
在输出所述信息摘要后,从构成所述输出信息摘要的各关键字中指定一关键字,以及
在其后所述单元的一个段的数据内容被更新且在所述更新的数据中找到所述指定的关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
9.如权利要求1所述的信息提取方法,其特征在于通过进一步考虑所提取的每个关键字的关键字长度来进行所述加权步骤。
10.一种信息提取设备,包括:
输入装置,用于接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;
关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元的关键字;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;
关键字选择装置,用于根据加权结果从所述提取的各关键字中选择至少一个关键字;
输出装置,用于输出所述选中的关键字作为与所述字符串数据有关的信息摘要。
11.如权利要求10所述的信息提取设备,其特征在于通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字。
12.如权利要求10所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
13.如权利要求11所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
14.如权利要求10所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
15.如权利要求11所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
16.如权利要求10所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
17.如权利要求11所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
18.如权利要求10所述的信息提取设备,其特征在于所述加权装置通过进一步考虑所提取的每个关键字的关键字长度来进行加权。
19.一种加权方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;
从所述输入字符串数据中提取每个所述规定单元的关键字;
通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字。
20.如权利要求19所述的加权方法,其特征在于通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字。
21.如权利要求19所述的加权方法,其特征在于其特征在于通过进一步考虑所提取的每个关键字的关键字长度来进行所述加权步骤。
22.一种图文电视广播接收设备,包括:
图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个规定的节目的频道;
关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;
关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;
显示装置,用于显示所述选中的关键字的全部或部分作为与所述图文电视广播有关的信息摘要。
23.如权利要求22所述的图文电视广播接收设备,其特征在于通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字。
24.如权利要求22所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
25.如权利要求23所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
26.如权利要求22所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
27.如权利要求23所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
28.如权利要求22所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
29.如权利要求23所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
30.如权利要求22所述的图文电视广播接收设备,其特征在于所述加权装置通过进一步考虑所提取的每个关键字的关键字长度来进行加权。
31.一种信息提取方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
从所述输入字符串数据中提取每个所述规定单元中的每个段的关键字;
通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;
输出所述选中的关键字和关键字联系作为与所述字符串数据有关的信息摘要。
32.如权利要求31所述的信息提取方法,其特征在于
通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字,
通过使用从中获得待加权的关键字联系的规定段的数目、构成所述关键字联系的各关键字在每个规定段中出现的频次以及构成所述关键字联系的各关键字的字符数中的至少一个来加权所述产生的关键字。
33.如权利要求31所述的信息提取方法,其特征在于
所述输入字符串数据被存储在规定的工作区中,
在输出所述信息摘要后,当从构成所述信息摘要的各关键字中指定一个关键字时,通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
34.如权利要求32所述的信息提取方法,其特征在于
所述输入字符串数据被存储在规定的工作区中,
在输出所述信息摘要后,当从构成所述信息摘要的各关键字中指定一个关键字时,通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
35.如权利要求31所述的信息提取方法,其特征在于
接受一任意关键字的输入,
在输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
36.如权利要求32所述的信息提取方法,其特征在于
接受一任意关键字的输入,
在输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
37.如权利要求31所述的信息提取方法,其特征在于
在输出所述信息摘要后,从构成所述输出信息摘要的各关键字中指定一关键字,以及
在其后所述单元的一个段的数据内容被更新且在所述更新的数据中找到所述指定的关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
38.如权利要求32所述的信息提取方法,其特征在于
在输出所述信息摘要后,从构成所述输出信息摘要的各关键字中指定一关键字,以及
在其后所述单元的一个段的数据内容被更新且在所述更新的数据中找到所述指定的关键字时,则
输出或存储包含所述关键字的所述数据的全部或部分,或者
输出或存储指示存在包含所述关键字的所述数据的信息。
39.如权利要求31所述的信息提取方法,其特征在于多个相互联系的关键字被基本上安排在一组中,输出如此成组的关键字作为所述信息摘要。
40.如权利要求31所述的信息提取方法,其特征在于输出多个相互联系的关键字作为所述信息摘要,以这样的方式显示在所述显示装置上,从而在所述多个关键字中,在第一基准位置上显示第一关键字,后续的每个关键字通过相对于所述基准位置右移规定数目的字符而显示在新的一行上,从而在收看时显示成为一组的所述多个相互联系的关键字。
41.一种信息提取设备,包括:
输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
选择装置,用于根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;
输出装置,用于输出所述选中的关键字和关键字联系作为与所述字符串数据有关的信息摘要。
42.如权利要求41所述的信息提取设备,其特征在于所述加权装置
通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字,
通过使用从中获得待加权的关键字联系的规定段的数目、构成所述关键字联系的各关键字在每个规定段中出现的频次以及构成所述关键字联系的各关键字的字符数中的至少一个来加权所述产生的关键字。
43.如权利要求41所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
44.如权利要求42所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
45.如权利要求41所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
46.如权利要求42所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
47.如权利要求41所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
48.如权利要求42所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
49.如权利要求41所述的信息提取设备,其特征在于多个相互联系的关键字被基本上安排在一组中,所述输出装置输出如此成组的关键字作为所述信息摘要。
50.如权利要求41所述的信息提取设备,其特征在于
所述输出装置包括显示部分,用于显示多个相互联系的关键字作为所述信息摘要,以及
显示控制部分,用于在收看时以这样的方式显示成为一组的所述多个相互联系的关键字,在从而在所述多个关键字中,在第一基准位置上显示第一关键字,后续的每个关键字通过相对于所述基准位置右移规定数目的字符而显示在新的一行上。
51.一种加权方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
从所述输入字符串数据中提取每个所述规定单元中的每个段的关键字;
通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
52.如权利要求51所述的加权方法,其特征在于
通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字,
通过使用从中获得待加权的关键字联系的规定段的数目、构成所述关键字联系的各关键字在每个规定段中出现的频次以及构成所述关键字联系的各关键字的字符数中的至少一个来加权所述产生的关键字。
53.一种图文电视广播接收设备,包括:
图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个规定的节目的频道;
关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;
关键字联系装置,用于通过使从同一节目的同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定节目中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定节目中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
选择装置,用于根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;
显示装置,用于显示所述选中的关键字和关键字联系的全部或部分作为与所述图文电视广播有关的信息摘要。
54.如权利要求53所述的图文电视广播接收设备,其特征在于所述加权装置通过使用被提取待加权的关键字的规定单元的数目、所述关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述提取的关键字,
通过使用从中获得待加权的关键字联系的规定段的数目、构成所述关键字联系的各关键字在每个规定段中出现的频次以及构成所述关键字联系的各关键字的字符数中的至少一个来加权所述产生的关键字。
55.如权利要求53所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
56.如权利要求54所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
57.如权利要求53所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
58.如权利要求54所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
59.如权利要求53所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
60.如权利要求54所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
61.一种信息提取设备,包括:
输入装置,用于接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;
关键字提取装置,用于从所述输入字符串数据中提取每个所述规定单元的关键字;
相似性计算装置,用于计算如此提取的各关键字之间的相似性;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字;
关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;
输出装置,用于输出所述选中的关键字作为与所述字符串数据有关的信息摘要。
62.如权利要求61所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
63.如权利要求61所述的信息提取设备,其特征在于使用从中提取了与待加权的关键字的相似性大于预定基准的关键字的单元的数目、与所述关键字的相似性大于所述预定基准的关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述关键字。
64.如权利要求61所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
65.如权利要求61所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
66.一种加权方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,由一字符码来代表每一个单个字符;
从所述输入字符串数据中提取每个所述规定单元的关键字;
计算如此提取的各关键字之间的相似性;
通过考虑与所述提取的关键字相同的各关键字在所述规定单元中的出现频次以及在其他规定单元中的单元间共用计数来加权所述提取的关键字。
67.如权利要求66所述的加权方法,其特征在于使用从中提取了与待加权的关键字的相似性大于预定基准的关键字的单元的数目、与所述关键字的相似性大于所述预定基准的关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述关键字。
68.一种图文电视广播接收设备,包括:
图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个规定的节目的频道;
关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;
相似性计算装置,用于计算如此提取的各关键字之间的相似性;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在所述规定节目中的出现频次以及在其他规定节目中的单元间共用计数来加权所述提取的关键字;
关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;
显示装置,用于显示所述选中的关键字的全部或部分作为与所述图文电视广播有关的信息摘要。
69.如权利要求68所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
70.如权利要求68所述的图文电视广播接收设备,其特征在于使用从中提取了与待加权的关键字的相似性大于预定基准的关键字的单元的数目、与所述关键字的相似性大于所述预定基准的关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述关键字。
71.如权利要求68所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
72.如权利要求68所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
73.一种信息提取设备,包括:
输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
相似性计算装置,用于根据包括所述关键字联系的多个要素来计算如此提取的各关键字之间的相似性;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
选择装置,用于根据加权结果从所述提取的各关键字和所述产生的各关键字联系中选择关键字和关键字联系;
输出装置,用于输出所述选中的关键字和关键字联系作为与所述字符串数据有关的信息摘要。
74.如权利要求73所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
75.如权利要求73所述的信息提取设备,其特征在于包含由具有关键字之间所述较大相似性的关键字构成的所述关键字联系的段的数目越大,则要分配给该关键字联系的加权值变得越大。
76.如权利要求73所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
77.如权利要求73所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
78.如权利要求73所述的信息提取设备,其特征在于多个相互联系的关键字被基本上安排在一组中,所述输出装置输出如此成组的关键字作为所述信息摘要。
79.如权利要求73所述的信息提取设备,其特征在于
所述输出装置包括显示部分,用于显示多个相互联系的关键字作为所述信息摘要,以及
显示控制部分,用于在收看时以这样的方式显示成为一组的所述多个相互联系的关键字,在从而在所述多个关键字中,在第一基准位置上显示第一关键字,后续的每个关键字通过相对于所述基准位置右移规定数目的字符而显示在新的一行上。
80.如权利要求73所述的信息提取设备,其特征在于使用从中提取了与待加权的关键字的相似性大于预定基准的关键字的单元的数目、与所述关键字的相似性大于所述预定基准的关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述关键字。
81.一种加权方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
从所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
根据包括所述关键字联系的多个要素来计算如此提取的各关键字之间的相似性;
通过考虑与所述提取的关键字相同的各关键字在其他规定单元中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
82.如权利要求81所述的加权方法,其特征在于包含由具有关键字之间所述较大相似性的关键字构成的所述关键字联系的段的数目越大,则要分配给该关键字联系的加权值变得越大。
83.如权利要求81所述的加权方法,其特征在于使用从中提取了与待加权的关键字的相似性大于预定基准的关键字的单元的数目、与所述关键字的相似性大于所述预定基准的关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述关键字。
84.一种图文电视广播接收设备,包括:
图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个规定的节目的频道;
关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;
关键字联系装置,用于通过使从同一节目的同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
相似性计算装置,用于根据包括所述关键字联系的多个要素来计算如此提取的各关键字之间的相似性;
加权装置,用于通过考虑与所述提取的关键字相同的各关键字在其他规定节目中的出现状态来加权所述提取的关键字,并且通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定节目中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
关键字选择装置,用于根据加权结果从所述提取的各关键字中选择关键字;
显示装置,用于显示所述选中的关键字的全部或部分作为与所述图文电视广播有关的信息摘要。
85.如权利要求84所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
86.如权利要求84所述的图文电视广播接收设备,其特征在于包含由具有关键字之间所述较大相似性的关键字构成的所述关键字联系的段的数目越大,则要分配给该关键字联系的加权值变得越大。
87.如权利要求84所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
88.如权利要求84所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
89.如权利要求84所述的图文电视广播接收设备,其特征在于使用从中提取了与待加权的关键字的相似性大于预定基准的关键字的单元的数目、与所述关键字的相似性大于所述预定基准的关键字在每个规定单元中出现的频次以及所述关键字的字符数中的至少一个来加权所述关键字。
90.一种信息提取设备,包括:
输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;
输出装置,用于输出所述选中的关键字联系作为与所述字符串数据有关的信息摘要。
91.如权利要求90所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
92.如权利要求90所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
93.如权利要求90所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
94.如权利要求90所述的信息提取设备,其特征在于多个相互联系的关键字被基本上安排在一组中,所述输出装置输出如此成组的关键字作为所述信息摘要。
95.如权利要求90所述的信息提取设备,其特征在于
所述输出装置包括显示部分,用于显示多个相互联系的关键字作为所述信息摘要,以及
显示控制部分,用于在收看时以这样的方式显示成为一组的所述多个相互联系的关键字,在从而在所述多个关键字中,在第一基准位置上显示第一关键字,后续的每个关键字通过相对于所述基准位置右移规定数目的字符而显示在新的一行上。
96.一种加权方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
97.一种图文电视广播接收设备,包括:
图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个规定的节目的频道;
关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;
关键字联系装置,用于通过使从同一节目的同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定节目中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
关键字选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;
显示装置,用于显示根据选择结果产生的与所述图文电视广播有关的信息摘要。
98.如权利要求97所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
99.如权利要求97所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
100.如权利要求97所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
101.一种信息提取设备,包括:
输入装置,用于接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
关键字提取装置,用于从来自所述输入装置的所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
相似性计算装置,用于计算如此提取的各关键字之间的相似性;
关键字联系/相似性计算装置,用于使用在构成所述产生的关键字联系的各关键字与构成其他关键字联系的各关键字之间计算得到的所述相似性来计算关键字联系之间的相似性;
加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;
输出装置,用于输出所述选中的关键字联系作为与所述字符串数据有关的信息摘要。
102.如权利要求101所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储来自所述输入装置的所述字符串数据输入,
在所述信息摘要输出到所述输出装置后,当所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一个关键字时,所述输出装置通过使用所述指定的关键字来输出包含所述指定关键字的所述字符串数据的全部或部分。
103.如权利要求101所述的信息提取设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,当所述单元中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
104.如权利要求101所述的信息提取设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述输出装置输出所述信息摘要后,在由所述关键字指定装置从构成所述输出信息摘要的各关键字中指定一关键字时,且在其后所述单元的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述输出装置输出或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述输出装置输出或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
105.如权利要求101所述的信息提取设备,其特征在于多个相互联系的关键字被基本上安排在一组中,所述输出装置输出如此成组的关键字作为所述信息摘要。
106.如权利要求101所述的信息提取设备,其特征在于
所述输出装置包括显示部分,用于显示多个相互联系的关键字作为所述信息摘要,以及
显示控制部分,用于在收看时以这样的方式显示成为一组的所述多个相互联系的关键字,在从而在所述多个关键字中,在第一基准位置上显示第一关键字,后续的每个关键字通过相对于所述基准位置右移规定数目的字符而显示在新的一行上。
107.一种加权方法,包括以下步骤:
接受被分成规定单元的字符串数据的输入,每个所述规定单元再分为规定的段,由一字符码来代表每一个单个字符;
从所述字符串数据输入中提取每个所述规定单元中的每个段的关键字;
通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
计算如此提取的各关键字之间的相似性;
使用在构成所述产生的关键字联系的各关键字与构成其他关键字联系的各关键字之间计算得到的所述相似性来计算关键字联系之间的相似性;
通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系。
108.一种图文电视广播接收设备,包括:
图文电视广播接收装置,用于接收图文电视广播;
频道存储装置,用于存储多个规定的节目的频道;
关键字提取装置,用于从由所述图文电视广播接收装置在所述频道存储装置中所存储的所述频道上接收到的每个所述规定节目中提取关键字;
关键字联系装置,用于通过使从同一段中获得的各关键字中的一个关键字与其他关键字相联系来产生关键字联系;
相似性计算装置,用于计算如此提取的各关键字之间的相似性;
关键字联系/相似性计算装置,用于使用在构成所述产生的关键字联系的各关键字与构成其他关键字联系的各关键字之间计算得到的所述相似性来计算关键字联系之间的相似性;
加权装置,用于通过考虑与所述产生的关键字联系相同的各关键字联系在所述规定单元中的出现频次以及在其他规定段中的单元间共用计数来加权所述产生的关键字联系;
关键字选择装置,用于根据加权结果从所述产生的各关键字联系中选择关键字联系;
显示装置,用于显示所述选中的关键字联系的全部或部分作为与所述图文电视广播有关的信息摘要。
109.如权利要求108所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字,
工作区,用于存储所述图文电视广播接收装置接收到的所述图文电视广播的数据,其中
在所述显示装置显示所述信息摘要后,当所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一个关键字时,所述显示装置通过使用所述指定的关键字来输出包含所述指定关键字的所述图文电视广播数据的全部或部分。
110.如权利要求108所述的图文电视广播接收设备,还包括
关键字输入装置,用于输入一任意关键字,
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,当所述节目中的一个段的数据内容被更新且在所述更新的数据中找到所述输入关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
111.如权利要求108所述的图文电视广播接收设备,其特征在于还包括
关键字指定装置,用于指定一关键字;
数据存储装置,用于存储数据,其中
在所述显示装置显示所述信息摘要后,在由所述关键字指定装置从构成所述显示的信息摘要的各关键字中指定一关键字时,且在其后所述节目的一个段的数据内容被更新并在所述更新的数据中找到所述指定的关键字时,则
由所述显示装置显示或在所述数据存储装置中存储包含所述关键字的所述数据的全部或部分,或者
由所述显示装置显示或在所述数据存储装置中存储指示存在包含所述关键字的所述数据的信息。
CNB951188496A 1994-11-18 1995-11-17 信息提取方法和设备,加权方法和图文电视广播接收设备 Expired - Fee Related CN1178164C (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP285,718/94 1994-11-18
JP28571894 1994-11-18
JP285718/1994 1994-11-18
JP066340/1995 1995-03-24
JP066,340/95 1995-03-24
JP6634095 1995-03-24
JP7253981A JP2809341B2 (ja) 1994-11-18 1995-09-29 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JP253981/1995 1995-09-29
JP253,981/95 1995-09-29

Publications (2)

Publication Number Publication Date
CN1133460A CN1133460A (zh) 1996-10-16
CN1178164C true CN1178164C (zh) 2004-12-01

Family

ID=27299089

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB951188496A Expired - Fee Related CN1178164C (zh) 1994-11-18 1995-11-17 信息提取方法和设备,加权方法和图文电视广播接收设备

Country Status (4)

Country Link
US (3) US6064952A (zh)
JP (1) JP2809341B2 (zh)
KR (1) KR960018990A (zh)
CN (1) CN1178164C (zh)

Families Citing this family (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US6112201A (en) * 1995-08-29 2000-08-29 Oracle Corporation Virtual bookshelf
US5778367A (en) 1995-12-14 1998-07-07 Network Engineering Software, Inc. Automated on-line information service and directory, particularly for the world wide web
WO1998016889A1 (fr) * 1996-10-16 1998-04-23 Sharp Kabushiki Kaisha Appareil d'entree de caracteres et support de donnees dans lequel le programme d'entree de caracteres est mis en memoire
JP3282976B2 (ja) * 1996-11-15 2002-05-20 株式会社キングジム 文字情報処理装置及び方法
JPH10187752A (ja) * 1996-12-24 1998-07-21 Kokusai Denshin Denwa Co Ltd <Kdd> 言語間情報検索支援システム
US6104802A (en) 1997-02-10 2000-08-15 Genesys Telecommunications Laboratories, Inc. In-band signaling for routing
US6480600B1 (en) 1997-02-10 2002-11-12 Genesys Telecommunications Laboratories, Inc. Call and data correspondence in a call-in center employing virtual restructuring for computer telephony integrated functionality
US7031442B1 (en) 1997-02-10 2006-04-18 Genesys Telecommunications Laboratories, Inc. Methods and apparatus for personal routing in computer-simulated telephony
JPH1125091A (ja) * 1997-07-09 1999-01-29 Just Syst Corp 文書要約支援装置およびその装置としてコンピュータを機能させるためのコンピュータ読み取り可能な記録媒体
US6711611B2 (en) 1998-09-11 2004-03-23 Genesis Telecommunications Laboratories, Inc. Method and apparatus for data-linking a mobile knowledge worker to home communication-center infrastructure
US6985943B2 (en) 1998-09-11 2006-01-10 Genesys Telecommunications Laboratories, Inc. Method and apparatus for extended management of state and interaction of a remote knowledge worker from a contact center
US6961954B1 (en) 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
USRE46528E1 (en) 1997-11-14 2017-08-29 Genesys Telecommunications Laboratories, Inc. Implementation of call-center outbound dialing capability at a telephony network level
US7907598B2 (en) 1998-02-17 2011-03-15 Genesys Telecommunication Laboratories, Inc. Method for implementing and executing communication center routing strategies represented in extensible markup language
US6346952B1 (en) * 1999-12-01 2002-02-12 Genesys Telecommunications Laboratories, Inc. Method and apparatus for summarizing previous threads in a communication-center chat session
US6332154B2 (en) 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
JP3609252B2 (ja) * 1998-03-23 2005-01-12 沖電気工業株式会社 文字列自動分類装置およびその方法
JP4287054B2 (ja) * 1998-05-22 2009-07-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ キーワード検出手段を有する記録装置
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
USRE46153E1 (en) 1998-09-11 2016-09-20 Genesys Telecommunications Laboratories, Inc. Method and apparatus enabling voice-based management of state and interaction of a remote knowledge worker in a contact center environment
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US6266094B1 (en) * 1999-06-14 2001-07-24 Medialink Worldwide Incorporated Method and apparatus for the aggregation and selective retrieval of television closed caption word content originating from multiple geographic locations
US7929978B2 (en) 1999-12-01 2011-04-19 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing enhanced communication capability for mobile devices on a virtual private network
US6845369B1 (en) * 2000-01-14 2005-01-18 Relevant Software Inc. System, apparatus and method for using and managing digital information
WO2001071469A1 (en) * 2000-03-17 2001-09-27 Dahms Jeffrey Williams Method and system for accessing medical information
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7617184B2 (en) 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
DE10031351A1 (de) * 2000-06-28 2002-01-17 Guru Netservices Gmbh Verfahren zur automatischen Recherche
WO2002021324A1 (en) * 2000-09-07 2002-03-14 Intel Corporation Method and apparatus for summarizing multiple documents using a subsumption model
US7444660B2 (en) * 2000-11-16 2008-10-28 Meevee, Inc. System and method for generating metadata for video programming events
EP1346559A4 (en) * 2000-11-16 2006-02-01 Mydtv Inc SYSTEM AND METHOD FOR DETERMINING THE POPULARITY OF VIDEO PROGRAM EVENTS
US20020083468A1 (en) * 2000-11-16 2002-06-27 Dudkiewicz Gil Gavriel System and method for generating metadata for segments of a video program
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US8156051B1 (en) * 2001-01-09 2012-04-10 Northwest Software, Inc. Employment recruiting system
KR100404322B1 (ko) * 2001-01-16 2003-11-01 한국전자통신연구원 멀티모달 특징 기반의 뉴스 비디오 요약 방법
US6903782B2 (en) * 2001-03-28 2005-06-07 Koninklijke Philips Electronics N.V. System and method for performing segmentation-based enhancements of a video image
EP1413131B1 (en) * 2001-07-19 2013-06-19 Koninklijke Philips Electronics N.V. Method and apparatus for providing a user interface
KR100451004B1 (ko) * 2001-08-13 2004-10-06 한국전자통신연구원 폐쇄자막 기반의 뉴스 비디오 데이터베이스 생성 장치 및방법과 그에 따른 내용기반 검색/탐색 방법
US7096179B2 (en) * 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping
KR100435442B1 (ko) * 2001-11-13 2004-06-10 주식회사 포스코 문서 요약 방법 및 시스템
AU2006203729B2 (en) * 2001-11-26 2008-07-31 Fujitsu Limited Information analyzing method and apparatus
US7814043B2 (en) * 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
JP3624186B2 (ja) * 2002-03-15 2005-03-02 Tdk株式会社 スイッチング電源装置用の制御回路及びこれを用いたスイッチング電源装置
JP4406815B2 (ja) * 2002-06-26 2010-02-03 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US20040186704A1 (en) * 2002-12-11 2004-09-23 Jiping Sun Fuzzy based natural speech concept system
US8037496B1 (en) 2002-12-27 2011-10-11 At&T Intellectual Property Ii, L.P. System and method for automatically authoring interactive television content
US7783617B2 (en) * 2003-04-16 2010-08-24 Yahoo! Inc. Personals advertisement affinities in a networked computer system
US6873996B2 (en) * 2003-04-16 2005-03-29 Yahoo! Inc. Affinity analysis method and article of manufacture
US20050033771A1 (en) * 2003-04-30 2005-02-10 Schmitter Thomas A. Contextual advertising system
AU2004271623A1 (en) * 2003-09-05 2005-03-17 Stephen D. Grody Methods and apparatus for providing services using speech recognition
US20050106539A1 (en) * 2003-11-17 2005-05-19 International Business Machines Corporation Self-configuring keyword derivation
US7844589B2 (en) * 2003-11-18 2010-11-30 Yahoo! Inc. Method and apparatus for performing a search
CN1629833A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 实现问与答功能和计算机辅助写作的方法及装置
JP2005228016A (ja) * 2004-02-13 2005-08-25 Hitachi Ltd 文字表示方法
US8676830B2 (en) * 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7428528B1 (en) 2004-03-31 2008-09-23 Endeca Technologies, Inc. Integrated application for manipulating content in a hierarchical data-driven search and navigation system
US8914383B1 (en) 2004-04-06 2014-12-16 Monster Worldwide, Inc. System and method for providing job recommendations
US11409812B1 (en) 2004-05-10 2022-08-09 Google Llc Method and system for mining image searches to associate images with concepts
US7739142B2 (en) * 2004-05-17 2010-06-15 Yahoo! Inc. System and method for providing automobile marketing research information
US7672845B2 (en) * 2004-06-22 2010-03-02 International Business Machines Corporation Method and system for keyword detection using voice-recognition
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
EP1776629A4 (en) * 2004-07-21 2011-05-04 Equivio Ltd METHOD FOR DETERMINING QUASI DUPLICATE OF OBJECTS
JP4650927B2 (ja) * 2004-08-13 2011-03-16 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2006019101A1 (ja) * 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
US7386542B2 (en) * 2004-08-30 2008-06-10 The Mitre Corporation Personalized broadcast news navigator
US20060085181A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Keyword extraction apparatus and keyword extraction program
KR100746074B1 (ko) * 2004-12-20 2007-08-06 엘지전자 주식회사 디지털 방송 수신기에서 텍스트 콘텐츠 변환 저장장치와방법
US7769579B2 (en) * 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US7536389B1 (en) * 2005-02-22 2009-05-19 Yahoo ! Inc. Techniques for crawling dynamic web content
WO2006099299A2 (en) 2005-03-11 2006-09-21 Yahoo! Inc. System and method for managing listings
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US8433713B2 (en) 2005-05-23 2013-04-30 Monster Worldwide, Inc. Intelligent job matching system and method
US8375067B2 (en) 2005-05-23 2013-02-12 Monster Worldwide, Inc. Intelligent job matching system and method including negative filtration
US8527510B2 (en) 2005-05-23 2013-09-03 Monster Worldwide, Inc. Intelligent job matching system and method
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US7831545B1 (en) * 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
JP4752623B2 (ja) * 2005-06-16 2011-08-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7610267B2 (en) * 2005-06-28 2009-10-27 Yahoo! Inc. Unsupervised, automated web host dynamicity detection, dead link detection and prerequisite page discovery for search indexed web pages
US20070022085A1 (en) * 2005-07-22 2007-01-25 Parashuram Kulkarni Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
KR100880663B1 (ko) * 2005-10-04 2009-02-02 정길남 그리드에서 요약화면 생성방법 및 시스템
US8019752B2 (en) 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
JP2007133809A (ja) * 2005-11-14 2007-05-31 Canon Inc 情報処理装置、コンテンツ処理方法、記憶媒体およびプログラム
US7752190B2 (en) 2005-12-21 2010-07-06 Ebay Inc. Computer-implemented method and system for managing keyword bidding prices
US8036937B2 (en) 2005-12-21 2011-10-11 Ebay Inc. Computer-implemented method and system for enabling the automated selection of keywords for rapid keyword portfolio expansion
US7792858B2 (en) * 2005-12-21 2010-09-07 Ebay Inc. Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension
US9008075B2 (en) 2005-12-22 2015-04-14 Genesys Telecommunications Laboratories, Inc. System and methods for improving interaction routing performance
US8195657B1 (en) 2006-01-09 2012-06-05 Monster Worldwide, Inc. Apparatuses, systems and methods for data entry correlation
US7644373B2 (en) 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
JP2007266827A (ja) * 2006-03-28 2007-10-11 Funai Electric Co Ltd 放送受信装置
US8600931B1 (en) 2006-03-31 2013-12-03 Monster Worldwide, Inc. Apparatuses, methods and systems for automated online data submission
US20070288308A1 (en) * 2006-05-25 2007-12-13 Yahoo Inc. Method and system for providing job listing affinity
JP5067370B2 (ja) * 2006-08-08 2012-11-07 ソニー株式会社 受信装置、表示制御方法、及びプログラム
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US7707208B2 (en) * 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US20080120257A1 (en) * 2006-11-20 2008-05-22 Yahoo! Inc. Automatic online form filling using semantic inference
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US20080235148A1 (en) * 2007-03-20 2008-09-25 Jiezhou Liu Online Dynamic Evaluation and Search for Products and Services
JP2009010797A (ja) * 2007-06-29 2009-01-15 Hitachi Ltd 情報提示方法及び装置
US20090012984A1 (en) 2007-07-02 2009-01-08 Equivio Ltd. Method for Organizing Large Numbers of Documents
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8671104B2 (en) * 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US20090119276A1 (en) * 2007-11-01 2009-05-07 Antoine Sorel Neron Method and Internet-based Search Engine System for Storing, Sorting, and Displaying Search Results
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
WO2009084757A1 (en) * 2007-12-31 2009-07-09 Dki Technology Co., Ltd. Method and apparatus for extracting keyword data
US9779390B1 (en) 2008-04-21 2017-10-03 Monster Worldwide, Inc. Apparatuses, methods and systems for advancement path benchmarking
JP2009277183A (ja) * 2008-05-19 2009-11-26 Hitachi Ltd 情報識別装置及び情報識別システム
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储系统及中医症状信息存储方法
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US7730061B2 (en) * 2008-09-12 2010-06-01 International Business Machines Corporation Fast-approximate TFIDF
US20100082356A1 (en) * 2008-09-30 2010-04-01 Yahoo! Inc. System and method for recommending personalized career paths
TWI377478B (en) * 2008-10-07 2012-11-21 Mitac Int Corp Self-learning method for keyword based human machine interaction and portable navigation device using the method
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8670978B2 (en) * 2008-12-15 2014-03-11 Nec Corporation Topic transition analysis system, method, and program
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8458105B2 (en) * 2009-02-12 2013-06-04 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating data
US20100235314A1 (en) * 2009-02-12 2010-09-16 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating video data
WO2010106660A1 (ja) * 2009-03-19 2010-09-23 コニカミノルタホールディングス株式会社 特徴語提示装置及び特徴語提示プログラム
US8266006B2 (en) 2009-11-03 2012-09-11 Ebay Inc. Method, medium, and system for keyword bidding in a market cooperative
US20110208738A1 (en) * 2010-02-23 2011-08-25 Kenshoo Ltd. Method for Determining an Enhanced Value to Keywords Having Sparse Data
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
JP5012981B2 (ja) * 2010-09-09 2012-08-29 カシオ計算機株式会社 電子辞書装置およびプログラム
US20120185332A1 (en) * 2011-01-14 2012-07-19 Google Inc. Serving Advertisements Based on Article Availability
EP2706466A4 (en) * 2011-05-02 2015-06-17 Fujitsu Ltd EXTRACTION PROCESS, INFORMATION PROCESSING, EXTRACTION PROGRAM, INFORMATION PROCESSING, EXTRACTION DEVICE AND INFORMATION PROCESSING DEVICE
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
US20140123178A1 (en) * 2012-04-27 2014-05-01 Mixaroo, Inc. Self-learning methods, entity relations, remote control, and other features for real-time processing, storage, indexing, and delivery of segmented video
JP6413597B2 (ja) * 2014-10-10 2018-10-31 富士通株式会社 分析プログラム、分析方法及び分析装置
US9922116B2 (en) * 2014-10-31 2018-03-20 Cisco Technology, Inc. Managing big data for services
US10902192B2 (en) * 2017-11-20 2021-01-26 Adobe Inc. Dynamic digital document visual aids in a digital medium environment
CN110555202A (zh) * 2018-05-30 2019-12-10 微软技术许可有限责任公司 文摘播报的生成方法和设备
CN109582967B (zh) * 2018-12-03 2023-08-18 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
JPH0682370B2 (ja) * 1987-05-26 1994-10-19 シャープ株式会社 文字処理装置
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JPH02202674A (ja) * 1989-02-01 1990-08-10 Fuji Xerox Co Ltd 情報検索方式
ATE115815T1 (de) * 1989-05-03 1994-12-15 Thomson Consumer Electronics Verfahren zum übertragen von teletextdaten und einrichtung zur durchführung des verfahrens.
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JPH0471067A (ja) * 1990-07-12 1992-03-05 Fuji Xerox Co Ltd データベース通信方式
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
DE69325542T2 (de) * 1992-04-21 2000-02-17 Koninkl Philips Electronics Nv Teletextdekoder und Fernsehempfänger ausgestattet mit einem Teletextdekoder
JPH06282587A (ja) * 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
JPH0993550A (ja) * 1995-09-22 1997-04-04 Toshiba Corp 補完番組検知及び表示装置
US5931907A (en) * 1996-01-23 1999-08-03 British Telecommunications Public Limited Company Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information

Also Published As

Publication number Publication date
US6502065B2 (en) 2002-12-31
JP2809341B2 (ja) 1998-10-08
US6240378B1 (en) 2001-05-29
US20020072895A1 (en) 2002-06-13
US6064952A (en) 2000-05-16
JPH08329118A (ja) 1996-12-13
KR960018990A (ko) 1996-06-17
CN1133460A (zh) 1996-10-16

Similar Documents

Publication Publication Date Title
CN1178164C (zh) 信息提取方法和设备,加权方法和图文电视广播接收设备
CN1156780C (zh) 电子邮件准备装置、终端装置、信息发送系统和程序记录媒体
CN1109994C (zh) 文件处理装置与记录媒体
CN1170240C (zh) 结构化文档检索显示方法和装置
CN1179562C (zh) 恢复和显示广播节目等信息的装置
CN1101032C (zh) 相关词抽取设备和方法
CN1647073A (zh) 信息搜索系统、信息处理设备和方法、及信息搜索设备和方法
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN1624696A (zh) 信息处理设备、方法及其程序、信息处理系统及其方法
CN1922605A (zh) 辞典制作装置以及辞典制作方法
CN101079026A (zh) 文本相似度、词义相似度计算方法和系统及应用系统
CN1700336A (zh) 信息处理设备、方法及程序
CN1625252A (zh) 信息提供系统和服务器、用户终端设备、内容显示设备及方法
CN1913604A (zh) 处理节目信息的系统
CN1433546A (zh) 数据适合化装置、数据适合化方法、存储媒体及程序
CN1607527A (zh) 信息处理设备、信息处理方法、程序、和记录媒体
CN1447261A (zh) 特定要素、字符串向量生成及相似性计算的装置、方法
CN1552075A (zh) 信息处理装置和方法、记录介质以及程序
CN1416276A (zh) 中间数据接收装置、方法、程序和记录媒体以及发送装置、传输方法
CN1755663A (zh) 信息处理设备、信息处理方法和程序
CN1178473C (zh) 信息接收方法和信息接收装置
CN1757229A (zh) 广播接收方法、广播接收系统、记录媒体及程序
CN1882936A (zh) 封包元数据和使用其的目标/同步服务提供系统
CN1879104A (zh) 用于关系数据库的超集的数据结构和管理系统
CN1680940A (zh) 互联网站站内输入系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee