WO2011078194A1

WO2011078194A1 - テキストマイニングシステム、テキストマイニング方法および記録媒体

Info

Publication number: WO2011078194A1
Application number: PCT/JP2010/073059
Authority: WO
Inventors: 開石川; 真一安藤; 晃裕田村
Original assignee: 日本電気株式会社
Priority date: 2009-12-25
Filing date: 2010-12-15
Publication date: 2011-06-30
Also published as: US8805853B2; JPWO2011078194A1; US20120310950A1; JP5772599B2

Abstract

　複数のデータを分析する場合に、データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析し、かつ分析コストの増加を抑える。　テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する分析対象データ対探索部と、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する分析観点生成部と、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する正例集合特定部と、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する特徴量計算部と、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する特徴表現順位生成部とを備え、前記分析対象データ対探索部は、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する。

Description

テキストマイニングシステム、テキストマイニング方法および記録媒体

　本発明は、テキストマイニングシステム、テキストマイニング方法および記録媒体に関する。

　複数の分析対象データを対象とする分析を目的とした、テキストマイニングシステムの一例が、特許文献１に記載されている。
　このテキストマイニングシステムが分析の対象とするデータとは、具体的には、以下に挙げるデータを含んでいる。そのデータとは、“２０００年から２００９年までの４月のデータ”などといった、異なる期間に取得された複数の分析対象データである。また例えばそのデータとは、コールセンターの通話テキスト、応対履歴、電子メール、Ｗｅｂ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）上の様々な電子掲示板（以下、掲示板とも記される）、アンケートなど、様々な異なる手段によって取得された複数の分析対象データである。
　このテキストマイニングシステムは、図１に示すように、入力装置１０と、出力装置２０と、データ処理装置３０と、記憶装置４０とから構成されている。
　また、記憶装置４０は、分析対象データ記憶手段４１と、特徴表現リスト記憶手段４２とから構成される。分析対象データ記憶手段４１は、二つ以上のテキストデータ集合を分析対象データとして記憶する。特徴表現リスト記憶手段４２は、特徴表現抽出手段によって得られた特徴表現及びその特徴度の集合を特徴表現リストとして記憶する。
　また、データ処理装置３０は、特徴表現抽出手段３１と、比較設定手段３２と、比較一覧表示手段３３と、比較特徴抽出手段３４とから構成される。特徴表現抽出手段３１は、各分析対象データから特徴表現及びその特徴度の集合を特徴表現リストとして抽出する。比較設定手段３２は、分析者の入力情報に基づき比較条件を設定する。比較一覧表示手段３３は、比較分析の対象とする分析対象データの特徴表現リストを比較一覧として表示する。比較特徴抽出手段３４は、設定された比較条件にしたがって比較一覧から比較分析を実行し、比較特徴を抽出する。
　このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、特徴表現抽出手段３１は、二つ以上の分析対象データから特徴表現を抽出する処理を実行し、抽出した特徴表現及びその特徴度の集合を特徴表現リストとして特徴表現リスト記憶手段４２に記憶させる。次に、比較設定手段３２が分析者の入力情報に基づき比較条件を設定すると、比較一覧表示手段３３は、分析対象とする分析対象データの特徴表現リストを比較一覧として表示するように制御する。また、比較特徴抽出手段３４は、比較条件にしたがって同比較一覧から比較分析を行い、比較特徴を抽出して出力するように動作する。

特開２００５−１６５７５４号公報

　上記の各システムの問題点は、以下のとおりである。複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析することがある。この場合に上記の各システムは分析者の分析にかかる時間や手間など（以下、分析コストとも記される）が著しく大きくなるという問題がある。
　その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データ間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析するためには、異なる二つの分析対象データから構成されるすべての分析対象データ対について比較分析を行なう必要があることである。さらに、各分析対象データ対の比較分析においては、対を成す両分析対象データに対して、あらゆる共通の分析の観点を設定し、いずれかで差異を生じるかどうかを網羅的に分析する必要がある。第二の理由は、分析対象データ対と分析の観点との組み合わせにより分析コストが著しく増加することである。
　そこで、本発明は、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく、かつ分析者の分析コストを抑えて分析を行うことができるテキストマイニングシステム、テキストマイニング方法および記録媒体を提供することを目的とする。

　本発明の一態様によるテキストマイニングシステムは、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する分析対象データ対探索部と、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する分析観点生成部と、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する正例集合特定部と、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する特徴量計算部と、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する特徴表現順位生成部とを備え、前記分析対象データ対探索部は、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する。
　本発明の一態様におけるテキストマイニング方法は、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別し、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成し、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定し、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算し、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与し、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する。
　本発明の一態様における記録媒体は、コンピュータに、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する処理と、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する処理と、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する処理と、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する処理と、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する処理と、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する処理とを実行させるためのプログラムを記録する。

　本発明によれば、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく、かつ分析者の分析コストを抑えて分析を行うことができる。

図１は、テキストマイニングシステムの構成例を示すブロック図である。図２は、テキストマイニングシステムの構成例を示すブロック図である。図３は、本発明によるテキストマイニングシステムの構成例を示すブロック図である。図４は、テキストマイニングシステムが実行する動作例を示す流れ図である。図５は、分析対象データ「板Ａ」の具体例を示す説明図である。図６は、分析対象データ対の具体例を示す説明図である。図７は、分析対象データ「板Ａ」に対する分析の観点の具体例を示す説明図である。図８は、分析対象データ「板Ｂ」に対する分析の観点の具体例を示す説明図である。図９は、二つの分析対象データ「板Ａ」と「板Ｂ」との分析の観点の間に定められた対応関係の具体例を示す説明図である。図１０は、分析対象データ「板Ａ」と分析の観点「評価＝［１，２，３］＆年齢＝［３０−３９］」とから得られた特徴語リストの具体例を示す説明図である。図１１は、テキストマイニングシステムの最小の機能構成例を示す機能ブロック図である。

　次に、本発明によるテキストマイニングシステムの実施形態について図面を参照して説明する。図３は、本実施形態におけるテキストマイニングシステムの構成の一例を示すブロック図である。
　図３を参照すると、本実施形態におけるテキストマイニングシステムは、プログラム制御により動作するコンピュータ１００（例えば、中央処理装置やプロセッサ、データ処理装置によって実現される）と、入力部１１０と、出力部１２０とを含む。
　コンピュータ１００は、分析対象データ対探索部１０１と、分析観点生成部１０２と、正例集合特定部１０３と、特徴量計算部１０４と、特徴表現順位生成部１０５と、特徴表現順位変動量評価部１０６とを含む。これらの各部はそれぞれつぎのように動作する。
　分析対象データ対探索部１０１は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）によって実現される。分析対象データ対探索部１０１は、入力部１１０から、複数の分析対象データを入力し、同複数の分析対象データから、二つの分析対象データを含む分析対象データ対を複数生成する機能を備えている。分析対象データ対探索部１０１は、生成した複数の分析対象データ対を分析観点生成部１０２に出力する機能を備えている。分析対象データ対探索部１０１は、分析観点生成部１０２から特徴表現順位変動量の大きな分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に複数入力する機能を備えている。分析対象データ対探索部１０１は、分析観点生成部１０２から入力した分析対象データ対を、差異を有する分析対象データ対と判断する機能を備えている。そして分析対象データ対探索部１０１は、その分析対象データ対の各分析対象データから抽出される特徴表現リストをマイニング結果として、出力部１２０に出力する機能を備えている。
　分析観点生成部１０２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。分析観点生成部１０２は、分析対象データ対探索部１０１から、複数の分析対象データ対を入力し、同複数の分析対象データ対の両分析対象データに対して設定可能な共通の分析の観点を探索する機能を備えている。そして分析観点生成部１０２は、この機能により、探索した分析対象データ対と分析の観点との組を複数生成する機能を備えている。分析観点生成部１０２は、生成した複数の分析対象データ対と分析の観点との組を正例集合特定部１０３に出力する機能を備えている。分析観点生成部１０２は、特徴表現順位変動量評価部１０６から複数の分析対象データ対と分析の観点との組を、分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に入力する機能を備えている。分析観点生成部１０２は、特徴表現順位変動量評価部１０６から入力した特徴表現順位変動量の値が大きな分析対象データ対と分析の観点との組に対して、以下の処理を行う機能を備えている。すなわち、分析観点生成部１０２は、その分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に分析対象データ対探索部１０１に出力する機能を備えている。
　正例集合特定部１０３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。正例集合特定部１０３は、分析観点生成部１０２から、分析対象データ対と分析の観点との組を複数入力する機能を備えている。正例集合特定部１０３は、分析観点生成部１０２から入力される各分析対象データ対と分析の観点との組に対して、以下の処理を実行する機能を備えている。すなわち、正例集合特定部１０３は、その分析対象データ対に含まれる両分析対象データの分析の観点に対する正例のテキスト集合（以下、正例集合とも記される）を特定する機能を備えている。正例集合特定部１０３は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と特定した正例のテキスト集合と共に特徴量計算部１０４に出力する機能を備えている。なお、正例のテキスト集合とは、分析の観点に合致するテキストの集合である。
　特徴量計算部１０４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。特徴量計算部１０４は、正例集合特定部１０３から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と正例のテキスト集合と共に入力する機能を備えている。特徴量計算部１０４は、各分析対象データのテキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する機能を備えている。特徴量計算部１０４は、分析対象データごとに表現と計算した特徴量との対を複数抽出する機能を備えている。そして特徴量計算部１０４は、分析対象データごとに抽出した表現と計算した特徴量との複数の対を特徴表現リストとして、各分析対象データ対と分析の観点との組と共に、特徴表現順位生成部１０５に出力する機能を備えている。
　特徴表現順位生成部１０５は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。特徴表現順位生成部１０５は、特徴量計算部１０４から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に入力する機能を備えている。特徴表現順位生成部１０５は、各特徴表現リスト中のすべての特徴表現に対して、特徴量の値の高い順に順序付けられた順位である特徴表現順位を付与する機能を備えている。特徴表現順位生成部１０５は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に、特徴表現順位変動量評価部１０６に出力する機能を備えている。
　特徴表現順位変動量評価部１０６は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。特徴表現順位変動量評価部１０６は、特徴表現順位生成部１０５から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に入力する機能を備えている。特徴表現順位変動量評価部１０６は、両分析対象データの特徴表現リストと特徴表現順位とから、両分析対象データに対して、各表現の特徴表現順位が統計的に変動する度合いである特徴表現順位変動量を求める機能を備えている。特徴表現順位変動量評価部１０６は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に、分析観点生成部１０２に出力する機能を備えている。
　入力部１１０は、具体的には、キーボードやマウス等の入力装置によって実現される。入力部１１０は、分析者の操作に従って分析対象データ等を入力する機能を備えている。
　出力部１２０は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力部１２０は、分析対象データ対探索部１０１が出力したデータを表示部に表示する機能を備えている。なお、本実施形態では、出力部１２０は、データを表示部に表示するが、例えば、データをファイル出力するものであってもよい。
　次に、図３及び図４を参照して本発明の実施形態の全体の動作について説明する。図４は、本実施形態におけるテキストマイニングシステムが実行する処理例を示すフローチャートである。
　複数のデータを分析するために、分析者が入力部１１０を用いて入力操作をすると、入力部１１０は、分析者の操作に従って、複数の分析対象データを入力する。分析対象データ対探索部１０１は、入力部１１０から、複数の分析対象データを入力する。分析対象データ対探索部１０１は、入力部１１０から入力した複数の分析対象データから、二つの分析対象データを含む分析対象データ対を複数生成する。そして、分析対象データ対探索部１０１は、生成した複数の分析対象データ対を分析観点生成部１０２に出力する（図４のステップＡ１）。
　次に、分析観点生成部１０２は、分析対象データ対探索部１０１から、複数の分析対象データ対を入力する。分析観点生成部１０２は分析対象データ対探索部１０１から入力した複数の分析対象データ対の両分析対象データに対して設定可能な共通の分析の観点を探索することにより、分析対象データ対と分析の観点との組を複数生成する。そして、分析観点生成部１０２は、生成した複数の分析対象データ対と分析の観点との組を正例集合特定部１０３に出力する（ステップＡ２）。
　次に、正例集合特定部１０３は、分析観点生成部１０２から、分析対象データ対と分析の観点との組を複数入力する。正例集合特定部１０３は、各分析対象データ対と分析の観点との組に対して、分析対象データ対に含まれる両分析対象データの分析の観点に対する正例集合を特定する。そして、正例集合特定部１０３は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と特定した正例のテキスト集合と共に特徴量計算部１０４に出力する（ステップＡ３）。
　次に、特徴量計算部１０４は、正例集合特定部１０３から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と正例のテキスト集合と共に入力する。次に、特徴量計算部１０４は、各分析対象データのテキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する。そして、特徴量計算部１０４は、分析対象データごとに表現と特徴量との対を複数抽出する。そして特徴量計算部１０４は、分析対象データごとに抽出した表現と計算した特徴量との複数の対を特徴表現リストとして、各分析対象データ対と分析の観点との組と共に、特徴表現順位生成部１０５に出力する（ステップＡ４）。
　次に、特徴表現順位生成部１０５は、特徴量計算部１０４から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に入力する。次に、特徴表現順位生成部１０５は、各特徴表現リスト中のすべての特徴表現に対して、特徴量の値の高い順に順序付けられた順位である特徴表現順位を付与する。そして、特徴表現順位生成部１０５は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に、特徴表現順位変動量評価部１０６に出力する（ステップＡ５）。
　次に、特徴表現順位変動量評価部１０６は、特徴表現順位生成部１０５から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に入力する。次に、特徴表現順位変動量評価部１０６は、同両分析対象データの特徴表現リストと特徴表現順位とから、両分析対象データに対して、各表現の特徴表現順位が統計的に変動する度合いである特徴表現順位変動量を求める。そして、特徴表現順位変動量評価部１０６は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に、分析観点生成部１０２に出力する（ステップＡ６）。
　次に、分析観点生成部１０２は、特徴表現順位変動量評価部１０６から複数の分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に入力する。そして、分析観点生成部１０２は、同特徴表現順位変動量の値が大きな分析対象データ対と分析の観点との組を抽出する。分析観点生成部１０２は、抽出した分析対象データ対と分析の観点との組を、分析対象データ対に含まれる両分析対象データの特徴表現リストと共に分析対象データ対探索部１０１に出力する（ステップＡ７）。
　最後に、分析対象データ対探索部１０１は、分析観点生成部１０２から特徴表現順位変動量の大きな分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に複数入力する。そして、分析対象データ対探索部１０１は、これらの分析対象データ対を、差異を有する分析対象データ対と判断する。そして分析対象データ対探索部１０１は、その差異を有する分析対象データ対の各分析対象データから抽出される特徴表現リストをマイニング結果として、出力部１２０に出力する（ステップＡ８）。その後出力部１２０は、例えば、分析対象データセット探索部１０１が出力したマイニング結果を表示部に表示する。
　次に、具体的な例を用いて本実施形態におけるテキストマイニングシステムの動作を説明する。なお、以下の説明で用いられる閾値や分析の観点、その対応関係を示すデータは、例えば、予め分析者によって設定されているものとする。まず、図４のステップＡ１における動作を説明する。
　分析対象データ対探索部１０１は、入力部１１０から、複数の分析対象データを入力する。具体的に、コールセンターの通話、応対履歴、電子メール、Ｗｅｂ上の口コミサイト、掲示板、アンケートといった複数の手段で取得された全１０の分析対象データが分析対象データ対探索部１０１に入力される場合を仮定する。これらの分析対象データは、以降では「通話」、「履歴」、「ｍａｉｌ」、「サイト」、「板Ａ」、「板Ｂ」、「板Ｃ」、「板Ｄ」、「板Ｅ」、「板Ｆ」のように記述される。なお、板Ａは掲示板Ａを意味する。板Ｂ、板Ｃ、板Ｄ、板Ｅ、および、板Ｆについても同様に、掲示板Ｂ、掲示板Ｃ、掲示板Ｄ、掲示板Ｅ、および、掲示板Ｆをそれぞれ意味する。ここで、例えば分析対象データ「板Ａ」は、具体的には、図５に示すような属性値の付与されたテキストの集合である。すると、分析対象データ対探索部１０１は、入力した複数の分析対象データから、図６に示すような、複数の分析対象データ対を生成する。
　ここで、分析対象データ対探索部１０１は、これらの複数の分析対象データ対の各々について、分析対象データに含まれる二つの分析対象データが、内容に共通性のあるものであるかどうかを判別しても良い。具体的には、二つの分析対象データがＤ_１、Ｄ_２であるとき、式（１）に示すような両者の表現の重なりの値が与えられた閾値を超える場合には、分析対象データ対探索部１０１は、両者の内容には共通性が有ると判断する。そして、分析対象データ対探索部１０１は、そのように判断した二つの分析対象データを含む分析対象データ対のみを生成する。なお、異なり数とは、単語が何種類あるかを表すものである。

　分析対象データ対探索部１０１は、前述の方法によって生成した複数の分析対象データ対を分析観点生成部１０２に出力する。
　次に、ステップＡ２における動作を説明する。分析観点生成部１０２は、分析対象データ対探索部１０１から、複数の分析対象データ対を入力する。ここで、分析対象データ対探索部１０１から入力された分析対象データ対が、分析対象データ「板Ａ」と分析対象データ「板Ｂ」とを含む場合、分析観点生成部１０２は、両分析対象データに対して設定可能な共通の分析の観点を探索する。
　ここで、分析の観点は、具体的には、分析対象データの属性の値の範囲に関する条件式で与えられるものとする。なお、分析対象データにあらかじめ属性値が付与されていない場合でも、テキストマイニングシステムは、テキストから属性値を生成することにより、分析の観点の設定が可能である。
　例えば、分析対象データ「板Ａ」に対して与えられる分析の観点の例を、図７に示す。ここで、ＩＤ＝１の分析の観点は、属性「評価」に対する値が１，２，または３の値であって、かつ、属性「年齢」に対する値が１０から１９までの値のいずれかであることを示している。
　ここで、分析対象データ「板Ｂ」に対しても、同様に、図８に示すような分析の観点が与えられ、さらに、両分析の観点の間に図９に示すような対応関係が与えられている場合を仮定する。すると、例えば、分析対象データ「板Ａ」と分析対象データ「板Ｂ」とにおいては、分析観点生成部１０２は、分析の観点「評価＝［１，２，３］＆年齢＝［１０−１９］」と「評価＝［Ｄ，Ｅ］＆年齢＝［１０−１９］」とが共通の分析の観点であると判断する。
　分析観点生成部１０２は、前述の方法によって、各々の分析対象データ対に対して、共通の分析の観点を複数探索し、得られた分析対象データ対と分析の観点との組を正例集合特定部１０３に出力する。
　ここで、ある分析対象データ対に対して、共通の分析の観点を探索した結果、分析の観点が一つも得られない場合について仮定する。この場合、分析観点生成部１０２は、同分析対象データ対を正例集合特定部１０３に出力しないように制御する。この制御により、正例集合特定部１０３は、共通の分析の観点を少なくとも一つ以上有する分析対象データ対から、優先的に比較分析すべき二つの分析対象データを判断することができる。
　次に、ステップＡ３における動作を説明する。正例集合特定部１０３は、分析観点生成部１０２から、分析対象データ対と分析の観点との組を複数入力する。
　ここで、入力された分析対象データ対と分析の観点との組の一つが、分析対象データ「板Ａ」および分析対象データ「板Ｂ」を含む分析対象データ対と、それぞれに対する分析の観点「評価＝［１，２，３］＆年齢＝［３０−３９］」、「評価＝［Ｄ，Ｅ］＆年齢＝［３０−３９］」との組であった場合について仮定する。この場合、正例集合特定部１０３は、分析対象データ「板Ａ」において、同分析の観点に対する正例集合を満たす事例を抽出することによって正例のテキスト集合を得ることができる。
　具体的には、正例集合特定部１０３は、属性「評価」の属性値が１，２，および３のいずれかで、かつ、属性「年齢」の属性値が３０から３９までの値のいずれかであるような条件を満たすような事例を抽出する。図５に示した事例の中では、正例集合特定部１０３は、条件を満たすＩＤ＝３を正例として抽出する。
　正例集合特定部１０３は、前述の方法によって、各分析対象データ対の分析対象データごとに、正例集合を抽出する。そして、正例集合特定部１０３は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と抽出した正例のテキスト集合と共に特徴量計算部１０４に出力する。
　ここで、各分析対象データと分析の観点との組から抽出された正例集合の数が、所定の値を超えなかった場合について仮定する。この場合、正例集合特定部１０３は、同分析対象データおよび分析の観点を含む分析対象データ対と共通の分析の観点との組を、特徴量計算部１０４に出力しないように制御する。この制御により、特徴量計算部１０４は、共通の分析の観点が各々の分析対象データにおいて所定の数以上の正例を有する分析対象データ対から、優先的に比較分析すべき二つの分析対象データを判断することができる。
　次に、ステップＡ４における動作を説明する。特徴量計算部１０４は、正例集合特定部１０３から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と正例のテキスト集合と共に入力する。特徴量計算部１０４は、各分析対象データのテキスト中から表現を抽出する。
　具体的には、特徴量計算部１０４は、形態素解析結果から得られる自立語を表現として抽出することができる。例えば、特徴量計算部１０４は、分析対象データ「板Ａ」のテキスト中から表現を抽出する場合、「香さえ良ければ使っていたかな。」という文からは、「香」、「良い」、「使う」を表現として抽出する。
　「板Ａ」の分析対象データが１，４５２件のテキスト集合から構成され、表現「香」が合計５１回出現し、分析の観点「評価＝［１，２，３］＆年齢＝［３０−３９］」に対する正例集合が３０５件で、この正例集合中に、表現「香」が３４回出現する場合について仮定する。この場合、特徴量計算部１０４は、特徴量をこれらの出現の統計的差異から計算する。
　例えば、特徴量としてカイ２乗分布が用いられる場合、特徴量計算部１０４は、以下に示す式（２）~（４）を用いて特徴量を計算することができる。なお、特徴量計算部１０４は、特徴量として、カイ２乗分布の他に、Ｓｔｏｃｈａｓｔｉｃ　Ｃｏｍｐｌｅｘｉｔｙ（確率的コンプレキシティ）、Ｅｘｔｅｎｄｅｄ　Ｓｔｏｃｈａｓｔｉｃ　Ｃｏｍｐｌｅｘｉｔｙ（拡張型確率的コンプレキシティ）など、相関性に関する様々な尺度を用いても計算することができる。

　上記の、掲示板Ａから取得された分析対象データ中の表現「香」の例では、Ｎ＝１４５２、Ｏ１１＝３４、Ｏ１２＝５１−３４＝１７、Ｏ２１＝３０５−３４＝２７１、Ｏ２２＝１４５２−３０５−５１＋３４＝１１３０となるので、特徴量計算部１０４は、カイ２乗の値を、式（５）~（７）に示すように計算する。

　特徴量計算部１０４は、同様に、各々の分析対象データにおいて、テキスト集合から抽出されるすべての表現に対して特徴量を求める。そして、特徴量計算部１０４は、分析対象データごとの表現と特徴量との組を複数抽出する。そして特徴量計算部１０４は、分析対象データごとに抽出した表現と計算した特徴量との複数の対を特徴表現リストとして、各分析対象データ対と分析の観点との組と共に、特徴表現順位生成部１０５に出力する。
　次に、ステップＡ５における動作を説明する。特徴表現順位生成部１０５は、特徴量計算部１０４から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に入力する。そして、特徴表現順位生成部１０５は、各特徴表現リスト中のすべての特徴表現に対して、特徴量の値の高い順に順序付けられた順位である特徴表現順位を付与する。
　その結果、特徴表現順位生成部１０５は、例えば、分析対象データ「板Ａ」と分析の観点「評価＝［１，２，３］＆年齢＝［３０−３９］」とから得られた特徴表現リストから、図１０に示すような、特徴表現順位を付与した特徴表現リストを生成する。
　特徴表現順位生成部１０５は、前述の方法によって特徴表現リストを生成した後、特徴表現順位生成部１０５は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に、特徴表現順位変動量評価部１０６に出力する。
　次に、ステップＡ６における動作を説明する。特徴表現順位変動量評価部１０６は、特徴表現順位生成部１０５から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に入力する。そして、特徴表現順位変動量評価部１０６は、同両分析対象データの特徴表現リストと特徴表現順位とから、両分析対象データに対して、各表現の特徴表現順位が統計的に変動する度合いである特徴表現順位変動量を求める。
　ここで、特徴表現順位変動量評価部１０６は、特徴表現順位変動量を、分析対象データ対に含まれる両分析対象データの各々の特徴表現リストにおける各特徴表現の特徴表現順位の差の平均値として求めることができる。
　具体的には、特徴表現順位変動量評価部１０６は、ある表現ｘの分析対象データＤ_ｉにおける相対的な特徴表現順位を、式（８）を用いて求める。この場合、特徴表現順位変動量評価部１０６は、ある表現ｘの分析対象データＤ_ｉとＤ_ｊにおける特徴表現順位の差を、ΔＳ_ｉ，ｊ（ｘ）＝Ｓ_ｉ（ｘ）−Ｓ_ｊ（ｘ）として求めることができる。そして、特徴表現順位変動評価部１０６は、その２乗の表現｛ｘ｝に関する平均の平方（ｒｏｏｔ　ｍｅａｎ　ｓｑｕａｒｅ）（式（９））として特徴表現順位変動量を計算することができる。ただし、特徴表現順位変動量評価部１０６は、表現ｘが分析対象データＤ_ｉに無い場合、Ｓ_ｉ（ｘ）＝０とする。

　特徴表現順位変動量評価部１０６は、前述の方法によって計算される同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量とを、各分析対象データ対と分析の観点との組と共に、分析観点生成部１０２に出力する。
　次に、ステップＡ７における動作を説明する。分析観点生成部１０２は、特徴表現順位変動量評価部１０６から複数の分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に入力する。
　ここで、分析観点生成部１０２は、分析対象データ対と分析の観点との組のうち、特徴表現順位変動量が与えられた値を超えるものを抽出する。そして、分析観点生成部１０２は、抽出した分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に分析対象データ対探索部１０１に出力する。
　最後に、ステップＡ８における動作を説明する。分析対象データ対探索部１０１は、分析観点生成部１０２から特徴表現順位変動量の大きな分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に複数入力する。
　分析対象データ対探索部１０１は、これらの分析対象データ対を、優先的に比較分析すべき二つの分析対象データを含む分析対象データ対と判断する。分析対象データ対探索部１０１は、その分析対象データ対の各分析対象データから抽出される特徴表現リストをマイニング結果として、出力部１２０に出力する。その後出力部１２０は、例えば、分析対象データセット探索部１０４が出力したマイニング結果を表示部に表示する。
　以上のことから、本発明は、以下のような課題を解決するための手段を備えているといえる。本発明によるテキストマイニングシステムは、データ処理装置（コンピュータ１００）と、出力装置（出力部１２０）と、入力装置（入力部１１０）とを備えている。また、データ処理装置（コンピュータ１００）は、分析対象データ探索部と、分析観点生成部と、正例集合特定部と、特徴量計算部と、特徴表現順位生成部と、特徴表現順位変動量評価部とを備えている。データ処理装置（コンピュータ１００）は、異なる手段で取得された複数の分析対象データの中で、特徴表現順位間の特徴表現の順位変動量が大きい分析対象データ対と分析の観点との組み合わせを探索し、分析対象データ対の特徴表現リストをマイニング結果として出力する。
　テキストマイニングシステムは、以上のような構成を採用し、特徴表現順位変動量が大きい分析対象データ対と分析の観点との組を、優先的に比較分析すべき差異を有する分析対象データ対と分析の観点として探索する。そして、テキストマイニングシステムは、同分析対象データ対と分析の観点とから抽出される特徴表現リストをマイニング結果として出力することにより本発明の目的を達成することができる。
　本発明の効果は、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析する場合でも、分析者の分析コストの増大を抑えることができるということである。
　その理由は、以下のとおりである。テキストマイニングシステムは、特徴表現リスト間の表現の順位変動量が大きい分析対象データ対と分析の観点との組を、優先的に比較分析すべき差異を有する分析対象データ対と分析の観点との組として探索する。そしてテキストマイニングシステムは、同分析対象データ対と分析の観点から抽出される特徴表現をマイニング結果として出力する。よってテキストマイニングシステムは、差異を有する分析対象データ対を漏らすことなく、分析コストを削減することができる。
　関連技術において、テキストマイニングを行う場合に、最初にテキスト集合から分析の観点に対する正例集合を特定して、その特定した正例集合を用いてテキストマイニングを行うように構成されたシステムが用いられる場合があった。以下、正例集合を特定してテキストマイニングを行うテキストマイニングシステムの一例について説明する。図２に示すように、このテキストマイニングシステムは、入力手段１１と、出力手段１２と、正例集合特定手段１３と、特徴量計算手段１４と、特徴表現抽出手段１５とから構成されている。
　このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、入力手段１１があるチャネルから取得されたテキスト集合と、分析の観点とを入力すると、正例集合特定手段１３は、テキスト集合の中で、分析の観点に対する正例集合を特定する。次に、特徴量計算手段１４は、テキスト中の各表現に対して、テキスト集合全体と正例集合とでの出現の統計的差異から、表現に対する特徴量を計算する。次に、特徴表現抽出手段１５は、特徴量の大きい表現を特徴表現として抽出する。そして、出力手段は、特徴表現抽出手段が抽出した特徴表現を出力する。
　上記の図２で示したシステムの問題点は、以下のとおりである。複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析することがある。この場合に上記の各システムは分析者の分析にかかる時間や手間など（分析コスト）が著しく大きくなるという問題がある。
　その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データ間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析するためには、異なる二つの分析対象データから構成されるすべての分析対象データ対について比較分析を行なう必要があることである。さらに、各分析対象データ対の比較分析においては、対を成す両分析対象データに対して、あらゆる共通の分析の観点を設定し、いずれかで差異を生じるかどうかを網羅的に分析する必要がある。第二の理由は、分析対象データ対と分析の観点との組み合わせにより分析コストが著しく増加することである。
　一方、本発明によれば、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく、かつ分析者の分析コストを抑えて分析を行うことができる。
　次に、本発明によるテキストマイニングシステムの最小構成について説明する。図１１は、テキストマイニングシステムの最小の構成例を示すブロック図である。図１１に示すように、テキストマイニングシステムは、最小の構成要素として、分析対象データ対探索部１０１と、分析観点生成部１０２と、正例集合特定部１０３と、特徴量計算部１０４と、特徴表現順位生成部１０５とを含む。
　図１１に示す最小構成のテキストマイニングシステムでは、分析対象データ対探索部１０１は、入力された二つの分析対象データが内容に共通性があるかどうかを判別する。次に、分析観点生成部１０２は、共通性のあると判別した二つの分析対象データを比較分析する際、両分析対象データから異なった特徴表現集合が得られるような共通の分析の観点を生成する。次に、正例集合特定部１０３は、生成した分析の観点に基づいて、正例集合を分析対象データから特定する。次に、特徴量計算部１０４は、分析対象データ中の各表現が同正例集合に特徴的な表現である度合いを示す特徴量を計算する。次に、特徴表現順位生成部１０５は、計算した特徴量に基づいて、特徴量が大きな表現を特徴表現として抽出し、抽出した特徴量の大きい順に特徴表現に順位を特徴表現順位として付与する。そして、分析対象データ対探索部１０１は、分析対象データの間で特徴表現の順位に大きな差異を生じる分析の観点を優先的に比較分析すべき分析の観点として出力する。
　従って、最小構成のテキストマイニングシステムは、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析する場合でも、分析者の分析コストの増大を抑えることができる。
　なお、本実施形態では、以下の（１）~（８）に示すようなテキストマイニングシステムの特徴的構成が示されている。
　（１）テキストマイニングシステムは、入力された二つの分析対象データが内容に共通性があるかどうかを判別する分析対象データ対探索部（例えば、分析対象データ対探索部１０１によって実現される。）と、分析対象データ対探索部が内容に共通性のあると判別した二つの分析対象データを比較分析する際、両分析対象データから異なった特徴表現集合が得られるような共通の分析の観点を生成する分析観点生成部（例えば、分析観点生成部１０２によって実現される）と、分析観点生成部が生成した分析の観点に基づいて、正例集合を分析対象データから特定する正例集合特定部（例えば、正例集合特定部１０３によって実現される）と、分析対象データ中の各表現が正例集合に特徴的な表現である度合いを示す特徴量を計算する特徴量計算部（例えば、特徴量計算部１０４によって実現される）と、特徴量計算部が計算した特徴量に基づいて、特徴量が大きな表現を特徴表現として抽出し、特徴量の大きい順に特徴表現に特徴表現順位として順位を付与する特徴表現順位生成部（例えば、特徴表現順位生成部１０５によって実現される）とを含み、分析対象データ対探索部は、分析対象データの間で特徴表現の順位に大きな差異を生じる分析の観点を優先的に比較分析すべき分析の観点として出力することを特徴とする。
　（２）テキストマイニングシステムにおいて、分析対象データ対探索部は、三つ以上の分析対象データを入力し、分析対象データの中から、内容に共通性のある二つの分析対象データを分析対象データ対として探索し、各分析対象データ対に対して、特徴表現の順位に大きな差異を生じる分析の観点を優先的に比較分析すべき分析の観点として出力するように構成されていてもよい。
　（３）テキストマイニングシステムにおいて、各分析対象データは、異なる手段（例えば、通話音声、コールセンターの応対履歴、電子メール、Ｗｅｂ上の掲示板、アンケートなど）で収集されたテキストの集合であって、テキスト集合の各テキストに、属性情報（例えば、回答日時、回答者の情報など）が、属性値として付与されている、又は、テキスト自体から抽出されるように構成されていてもよい。
　（４）テキストマイニングシステムにおいて、分析対象データ対探索部は、分析対象データから抽出される二つの特徴表現リストに共通の各表現の特徴表現順位の差の平均値（例えば、特徴表現順位変動量評価部１０６によって算出される）が与えられた値より大きい場合に、分析対象データの間で特徴表現の順位に大きな差異を生じると判定するように構成されていてもよい。
　（５）テキストマイニングシステムにおいて、分析観点生成部は、各々の分析対象データの分析の観点のうち、両分析対象データで同一の分析の観点、又は、二つの分析対象データの間で対応関係（例えば、図９に示す対応関係）の定められた所定の分析の観点を二つの分析対象データに共通の分析の観点とするように構成されていてもよい。
　（６）テキストマイニングシステムにおいて、正例集合特定部は、二つの分析対象データの各々から共通の分析の観点に該当する正例集合を特定した後、特定した正例集合の数が所定の量以上となる場合に正例集合を出力するように構成されていてもよい。
　（７）テキストマイニングシステムにおいて、分析観点生成部は、分析の観点として、各分析対象データ中のテキスト集合の各テキストに付与されている、又は、テキスト自体から抽出される、属性（例えば、回答日時、回答者の情報など）に対して、属性が取りうる値の範囲に関する条件として記述される情報を生成するように構成されていてもよい。
　（８）テキストマイニングシステムにおいて、分析対象データ対探索部は、二つの分析対象データの内容の共通性について、両分析対象データ中のテキスト集合に含まれる表現集合の重複の度合い（例えば、式（１）で求める値）が与えられた値よりも大きい場合に、二つの分析対象データの内容には共通性があると判定するように構成されていてもよい。
　以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　この出願は、２００９年１２月２５日に出願された日本出願特願２００９−２９４７６３を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

　本発明は、企業のコンタクトセンターにおける通話、電子メールや、製品サービスに関する消費者の掲示板サイト（Ｗｅｂ）、アンケートなどの異なる手段によって取得された複数の分析対象データを対象に、テキストマイニングを用いて分析対象データの間の差異を網羅的に分析することにより、顧客要求や製品サービスの問題等の分析を行うといった用途に適用できる。

　１００　コンピュータ
　１０１　分析対象データ対探索部
　１０２　分析観点生成部
　１０３　正例集合特定部
　１０４　特徴量計算部
　１０５　特徴表現順位生成部
　１０６　特徴表現順位変動量評価部
　１１０　入力部
　１２０　出力部

Claims

　テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する分析対象データ対探索部と、
　共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する分析観点生成部と、
　生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する正例集合特定部と、
　分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する特徴量計算部と、
　計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する特徴表現順位生成部とを備え、
　前記分析対象データ対探索部は、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する
　テキストマイニングシステム。
　分析対象データ対探索部は、三つ以上の分析対象データを入力し、該分析対象データの中から、表現に共通性のある二つの分析対象データを分析対象データ対として探索し、各分析対象データ対に対して、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する
　請求項１記載のテキストマイニングシステム。
　各分析対象データは、各テキストデータ中の表現の属性を示す属性情報が、属性値として当該表現に対応付けられて付与されている、又は、該テキストデータから抽出される、
　請求項１又は請求項２記載のテキストマイニングシステム。
　分析対象データ対探索部は、前記複数の分析対象データから抽出される特徴表現リスト中に共通の各表現の特徴表現順位の差の平均値が所定の閾値より大きい場合に、当該複数の分析対象データの間での差異が所定の閾値以上であると判定する
　請求項１から請求項３のうちのいずれか１項に記載のテキストマイニングシステム。
　分析観点生成部は、各々の分析対象データの分析の観点のうち、複数の分析対象データで同一の分析の観点、又は、該複数の分析対象データの間で所定の関係がある分析の観点を当該複数の分析対象データに共通の分析の観点と特定する
　請求項１から請求項４のうちのいずれか１項に記載のテキストマイニングシステム。
　正例集合特定部は、前記複数の分析対象データの各々から分析の観点に合致する正例集合を特定した後、特定した正例集合の数が所定数以上となる場合に前記正例集合を出力する
　請求項１から請求項５のうちのいずれか１項に記載のテキストマイニングシステム。
　分析観点生成部は、分析の観点として、各分析対象データ中のテキストデータに付与されている、又は、該テキストデータから抽出される、属性情報に対して、該属性情報が示す属性が取りうる値の範囲の条件として記述される情報を生成する
　請求項１から請求項６のうちのいずれか１項に記載のテキストマイニングシステム。
　分析対象データ対探索部は、複数の分析対象データの表現の共通性について、当該複数の分析対象データ中のテキストデータに含まれる各表現の重複の度合いが所定の閾値よりも大きい場合に、該複数の分析対象データの表現には共通性があると判定する
　請求項１から請求項７のうちのいずれか１項に記載のテキストマイニングシステム。
　テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別し、
　共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成し、
　生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定し、
　分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算し、
　計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与し、
　各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する
　テキストマイニング方法。
　コンピュータに、
　テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する処理と、
　共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する処理と、
　生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する処理と、
　分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する処理と、
　計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する処理と
　各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する処理とを
　実行させるためのテキストマイニング用プログラムを記録した記録媒体。