DE69814104T2 - Aufteilung von texten und identifizierung von themen - Google Patents

Aufteilung von texten und identifizierung von themen Download PDF

Info

Publication number
DE69814104T2
DE69814104T2 DE69814104T DE69814104T DE69814104T2 DE 69814104 T2 DE69814104 T2 DE 69814104T2 DE 69814104 T DE69814104 T DE 69814104T DE 69814104 T DE69814104 T DE 69814104T DE 69814104 T2 DE69814104 T2 DE 69814104T2
Authority
DE
Germany
Prior art keywords
language model
text
sequence
language
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69814104T
Other languages
English (en)
Other versions
DE69814104D1 (de
Inventor
Jonathan Yamron
G. Paul BAMBERG
James Barnett
S. Laurence GILLICK
A. Paul VAN MULBREGT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
L&H Holdings USA Inc
Original Assignee
L&H Holdings USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by L&H Holdings USA Inc filed Critical L&H Holdings USA Inc
Publication of DE69814104D1 publication Critical patent/DE69814104D1/de
Application granted granted Critical
Publication of DE69814104T2 publication Critical patent/DE69814104T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Description

  • Hintergrund
  • Die Erfindung betrifft die Segmentierung von Themen in einem Textstrom.
  • Die Segmentierung von Text umfaßt das Identifizieren von Abschnitten oder Segmenten des Textes, die unterschiedliche Themen betreffen. Zum Beispiel sind Menschen darin erfahen, eine Zeitung zu überfliegen und schnell nur die Artikel herauszupicken, die für sie von Interesse sind. Auf diese Weise ist es möglich, nur einen kleinen Bruchteil des Gesamttextes zu lesen, der in der Zeitung enthalten ist. Es ist jedoch für jemanden nicht möglich, Hunderte von Zeitungen zu überfliegen, die in Dutzenden von Sprachen geschrieben sind, die interesserende Artikel enthalten könnten. Außerdem ist es sehr schwierig, Radio- und Fernsehübertragungen zu überfliegen, selbst wenn sie schon aufgezeichnet worden sind. Kurz gesagt ist es für Menschen sehr schwierig, den vollen Bereich von Informationen zu analysieren, die der ihnen potentiell zur Verfügung steht.
  • Einen Textstrom vorausgesetzt, in dem Wort- oder Satzgrenzen identifiziert worden sind, umfaßt die Segmentierung das Identifizieren von Punkten innerhalb des Textes, an denen Themenübergänge auftreten. Eine Herangehensweise an eine Segmentierung umfaßt die Abfrage einer Datenbank in einem Datenbanksystem. Insbesondere wird jeder Satz des Textstroms verwendet, um eine Datenbank abzufragen. Ob aufeinandertolgende Sätze dasselbe Thema betreffen, wird beruhend auf dem Zusammengehörigkeitsgrad der Ergebnisse der Abfrage für jeden Satz bestimmt. Wenn sich die Abfrageergebnisse ausreichend unterscheiden, wird eine Themengrenze zwischen die beiden Sätze eigefügt.
  • Eine Segmentierung kann auch durchgeführt werden, indem nach Merkmalen gesucht wird, die an Segmentgrenzen auftreten, (z. B. erscheinen Eigennamen häufig am Beginn eines Segments, während Pronomen später auftauchen) und auf das Auftreten von Wortpaaren hin kontrolliert wird. Mit jedem Wortpaar ist eine Wahrscheinlichkeit verbunden, daß, das Auftreten des ersten Wortes im Wortpaar in einer Textfolge vorausgesetzt, das zweite Wort im Wortpaar wahrscheinlich innerhalb eines festgelegten Abstandes vom ersten Wort im Wortpaar auftaucht. Mengen von Wortpaaren und zugehörigen Wahrscheinlichkeiten werden aus den Mengen von Trainingstext erzeugt, der sich mit den interessierenden Themen befaßt. Andere Textfolgen können dann unter Verwendung dieser Themeninformation segmentiert werden. Einem zusammenhängenden Textblock kann das Thema zugewiesen werden, dessen Wortpaarwahrscheinlichkeiten am besten zur Wortverteilung des Textblocks passen.
  • Es sind Systeme zur Bestimmung eines Themas bekannt, auf das sich Text bezieht, oder für die Klassifizierung von Text. In dem Artikel Method of Topic Processing for Co-operative Dialog Systems" von Furukawa u. a., Proceeding of 1995 IEEE International Conference on Fuzzy Systems, Yokohama, 20. März, Band 2, 20. März 1995, Seiten 843–848, IEEE wird ein System offenbart, das dazu bestimmt ist, die Benutzer-Computer-Wechselwirkung zu verbessern. Insbesondere ist das System dazu bestimmt, Themen zu identifizieren, die durch einen Benutzer aufgestellt werden, um es dem Computer zu ermöglichen, eine kooperativere Antwort bereitzustellen, als es der Fall wäre, wenn der Computer lediglich direkt auf die gestellte Frage antworten würde. Die Identifikation von Themen wird beruhend auf einer Analyse eines vorhergehenden Dialogs und auf der Bestimmung vorhergehender und vetwandter Themen erreicht. Insbesondere werden Äußerungen im vorhergehenden Dialog analysiert, um ein System bereitzustellen, durch das das Thema, mit dem eine nachfolgende Äußerung zusammenhängt, bestimmt werden kann. US 5418951 offenbart ein System zur Bestimmung eines Themas, mit dem ein Dokument und/oder die Sprache eines Dokuments zusammenhängt. Dies wird unter Verwendung von N-Grams erreicht, die nämlich vielmehr besondere Buchstabenfolgen, als herkömmlichere Schlüsselwörter bestimmen, um eine schnellere Verarbeitung zu liefern.
  • Die Erfindung stellt eine Technik zur Verwendung bei der Segmentierung eines Textstroms und zum Identifizieren von Themen im Textstrom (d. h. Identifizieren eines Textes, der einem spezifizierten Thema entspricht) bereit.
  • Die Technik setzt ein Gruppierungsverfahren ein, das als Eingabe eine Trainingstextmenge annimmt, die eine diskrete Anzahl von Berichten repräsentiert, wobei ein Bericht ein zusammenhängender Strom von Sätzen ist, die sich mit demselben Thema befassen. Der Text enthält Worte, Satzgrenzen und Berichtsgrenzen (die auch als Themenübergänge bezeichnet werden). Das Gruppierungsverfahren nimmt als Eingabe auch eine Anzeige der Anzahl der Gruppen an, die erzeugt werden sollen. Das Gruppierungsverfahren ist dazu bestimmt, den Eingangstext in die spezifizierte Anzahl von Gruppen zu trennen, wobei sich unterschiedliche Gruppen mit unterschiedlichen Themen befassen, eine einzelne Gruppe mehr als ein Thema umfassen kann, und in den meisten Fällen ein bestimmtes Thema in nur einer Gruppe erscheint. Es werden keine Themen definiert, bevor das Gruppierungsverfahren auf den Trainingstext angewendet wird. Sobald die Gruppen definiert sind, wird ein Sprachmodell für jede Gruppe erzeugt.
  • Erfindungsgemäß weist ein rechnergestütztes Verfahren zum Segmentieren eines Textstroms in Segmente unter Verwendung mehrerer Sprachmodelle, wobei der Textstrom eine Folge von Textblöcken umfaßt, die Schritte auf:
    Bewerten der Textblöcke gegenüber den Sprachmodellen, um Sprachmodellbewertungen für die Textblöcke zu erzeugen, wobei die Sprachmodellbewertung für einen Textblock gegenüber einem Sprachmodell eine Korrelation zwischen dem Textblock und dem Sprachmodell anzeigt;
    Erzeugen von Sprachmodellfolgebewertungen für unterschiedliche Folgen von Sprachmodellen, denen eine Folge von Textblöcken entsprechen kann, wobei eine Sprachmodellfolgebewertung eine Funktion der Bewertungen einer Folge von Textblöcken gegenüber einer Folge von Sprachmodellen ist;
    Auswählen einer Folge von Sprachmodellen, die eine vorbestimmte Bedingung erfüllen; und
    Identifizieren von Segmentgrenzen im Textstrom, die Sprachmodellübergängen in der ausgewählten Folge von Sprachmodellen entsprechen, wobei das Erzeugen von Sprachmodellfolgebewertungen aufweist:
    Erzeugen mehrerer Sprachmodellfolgebewertungen für eine Teilfolge der Folge von Textblöcken;
    Eliminieren schlecht bewerteter Folgen von Sprachmodellen; und
    Hinzufügen eines Textblocks zur Teilfolge und Wiederholen der Erzeugungs- und Eliminierungsschritte.
  • Die Textblöcke können zum Beispiel Sätze, Absätze oder Äußerungen (d. h. Folgen von Worten) sein, die durch einen Spracherkenner identifiziert werden, und werden gegenüber den Sprachmodellen bewertet, um Sprachmodellbewertungen für die Textblöcke zu erzeugen. Eine Sprachmodellbewertung für einen Textblock zeigt eine Korrelation zwischen dem Textblock und dem Sprachmodell an.
  • Die vorbestimmten Bedingungen zur Auswahl einer Folge von Sprachmodellen können die Auswahl der Folge von Sprachmodellen mit der niedrigsten Sprachmodellfolgebewertung bevorzugen.
  • Eine Sprachmodellfolgebewertung für eine Folge von Sprachmodellen kann durch Summieren von Sprachmodellbewertungen für die Folge von Textblöcken erzeugt werden, die der Folge von Sprachmodellen entsprechen. Für jeden Sprachmodellübergang in der Folge von Sprachmodellen kann eine Wechselstrafe zur Sprachmodellfolgebewertung addiert werden. Die Wechselstrafe kann für jeden Sprachmodellübergang in der Folge von Sprachmodellen dieselbe sein. Sprachmodellfolgebewertungen können erzeugt werden durch Erzeugen mehrerer Sprachmodellfolgebewertungen für eine Teilfolge der Folge von Textblöcken, Eliminieren schlecht bewerteter Folgen von Sprachmodelle, Hinzufügen eines Textblocks zur Teilfolge, und Wiederholen der Erzeugungs-, Eliminierugs- und Hinzufügungsschritte. Eine schlecht bewertete Folge von Sprachmodellen kann eine Folge von Sprachmodellen mit einer Sprachmodellfolgebewertung sein, die um mehr als einen Betrag des Zurückbleibens, der gleich oder kleiner als die Wechselstrafe sein kann, schlechter als eine andere Sprachmodellfolgebewertung ist. Die Wechselstrafe kann erzeugt werden durch Auswählen eines Textstroms, für den die Anzahl der Sprachmodellübergänge bekannt ist, wiederholte Segmentierung des Textstroms in Segmente unter Verwendung mehrerer Wechselstrafen, und Auswählen einer Wechselstrafe, die zu einer Anzahl von Sprachmodellübergängen führt, die ähnlich oder gleich der bekannten Anzahl von Sprachübergängen ist.
  • Die Sprachmodelle können durch Gruppieren eines Trainingstextstroms in eine spezifizierte Anzahl von Gruppen und Erzeugen eines Sprachmodells für jede Gruppe erzeugt werden. Die Sprachmodelle können zum Beispiel Unigram-Sprachmodelle sein.
  • Die Textblöcke können gegen ein Sprachmodell bewertet werden, das einem interessierenden Thema entspricht. Segmente, die dem Sprachmodell entsprechen, das dem interessierenden Thema entspricht, können als dem interessierenden Thema entsprechend identifiziert werden.
  • Ein Textblock, der ein interessierendes Thema betrifft, kann unter Verwendung eines Systems identifiziert werden, das mehrere Sprachmodelle aufweist, einschließlich eines Sprachmodells für ein interessierendes Thema. Es wird ein Textstrom erhalten, der Textsegmente enthält, und die Textsegmente werden gegen die Sprachmodelle bewertet, um Sprachmodellbewertungen für die Textsegmente zu erzeugen. Ein Textsegment wird als das interessierende Thema betreffend identifiziert, wenn die Bewertung des Textsegments gegen das Sprachmodell für das interessierende Thema eine vorbestimmte Bedingung erfüllt. Die Bedingung kann sich beruhend auf der Wichtigkeit, den gesamten Text zu identfzieren, der ein interessierendes Thema betrifft, in Beziehung zur Wichtigkeit verändern, Text nicht fälschlicherweise als das interessierende Thema betreffend zu identifizieren. Wenn zum Beispiel die Identifikation des gesamten Textes wichtiger ist, kann die vorbestimmte Bedingung erfordern, daß die Bewertung des Textsegments gegenüber dem Sprachmodell für das interessierende Thema die niedrigste Bewertung unter den Bewertungen des Textsegments gegenüber den mehreren Sprachmodellen ist oder sich von der niedrigsten Bewertung um weniger als einen vorbestimmten Betrag unterscheidet. Wenn es wichtiger ist, Text nicht falsch zu identifizieren, kann die vorbestimmte Bedingung erfordern, daß die Bewertung für das interessierende Thema die niedrigste Bewertung ist und sich von der nächstniedrigen Bewertung um mehr als einen vorbestimmten Betrag unterscheidet. Der vorbestimmte Betrag kann null sein.
  • Unter den Vorteilen der Erfindung befinden sich einer oder mehrere der folgenden.
  • Ein Vorteil der Technik ist, daß sie eine Grundlage für das effiziente automatisierte Überfliegen von Text nach Themen bereitstellt, die für den Leser von Interesse sind. Dies ist besonders vorteilhaft, wenn mit großen Mengen an Text umgegangen wird, die für einen Menschen unmöglich oder untragbar kostspielig im Detail zu prüfen wären. Die Verwendung der Technik führt zu einer Zunahme der Informationsmenge, die ein menschlicher Analytiker überwachen und aufnehmen kann. Da außerdem die Themen, die durch die Technik identifiziert werden, durch einen Trainingstext definiert werden können, der durch den Benutzer bereitgestellt wird, stellt die Technik eine Flexibilität in der Wahl der zu verfolgenden Themen bereit.
  • Ein weiterer Vorteil ist, daß die Technik in Verbindung mit einem Spracherkennungssystem verwendet werden kann, um eine integrierte und automatisierte Themenverfolgung aufgezeichneter Sprache bereitzustellen. Durch Verwendung der Erfindung in Verbindung mit mehreren Spracherkennungssystemen, von denen jedes eine andere Sprache erkennt, kann die Erfindung verwendet werden, um aus Sprache abgeleitete Textthemen in mehreren Sprachen zu verfolgen. Dies ist besonders wichtig für Anwendungen, in denen es wünschenswert ist, fremde Übertragungen aufzuzeichnen, sie in Themen aufzubrechen und sie beruhend auf Themen zu priorisieren.
  • Andere Merkmale und Vorteile der Erfindung werden aus der folgenden Beschreibung einschließlich der Zeichnungen und aus den Ansprüchen deutlich werden.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Themenverfolgungssystems.
  • 2 ist ein Flußdiagramm einer Prozedur zum Segmentieren von Text in einem Textstrom.
  • 3 ist ein Flußdiagramm einer Prozedur zur Konfiguration eines Systems, um eine Textsegmentierung durchzuführen.
  • 4 ist ein Flußdiagramm einer Prozedur zum Segmentieren eines Testtextes. 5 ist ein Flußdiagramm einer Prozedur zum Berechnen einer Sprachmodellgeschichtsbewertung.
  • 6 ist ein Flußdiagramm einer Prozedur zum Durchführen einer Themenverfolgung an einem Text.
  • Detaillierte Beschreibung
  • Bezugnehmend auf 1, kann ein Themenverfolgungssystem 100 Eingabe/Ausgabe- (I/O)-Vorrichtungen (z. B. ein Mikrophon 105, eine Maus 110, eine Tastatur 115 und eine Anzeige 120) und einen Allzweckcomputer 125 aufweisen, der einen Prozessor 130, eine I/O-Einheit 135 und eine Fernsehempfängerkarte 140 aufweist. Ein Speicher 145 speichert Daten und Programme, wie ein Betriebssystem 150, eine Themenverfolgungsanwendung 155, eine Spracherkennungssoftware 160, einen Gruppierungsalgorithmus 165, einen Vokabularbauer 170, und eine Segmentierungsanwendung 175. Zur Erleichterung der Erläuterung gibt die folgende Beschreibung an, daß die Softwarekomponenten Operationen ausführen, um spezifizierte Ergebnisse zu erzielen. Jedoch sollte zu verstehen sein, daß jede Komponente tatsächlich bewirkt, daß der Prozessor 130 in der spezifizierten Weise arbeitet. Zusätzlich sollte es auch zu verstehen sein, daß die Bezeichnung unterschiedlicher Softwarekomponenten zum Zwecke der Erläuterung dient und daß andere Implementierungen die Funktionen einer oder mehrerer Komponenten kombinieren können oder die Komponenten weiter unterteilen können.
  • Eine Kopie einer Femsehnachrichtenübertragung, die aus einem Strom von Sätzen besteht, wird zum Zwecke der folgenden Erläuterung als Testtext angenommen. Die Kopie zeigt nicht an, wo im Strom ein Bericht endet und der nächste Bericht beginnnt, oder wo der Bericht endet und ein Werbespot beginnt. Vorausgesetzt, daß jeder Bericht oder Werbespot ein einzelnes Thema abdeckt, ist es die Segmentierungsaufgabe, Themengrenzen in der Kopie zu finden, d. h. den Kopietext in diskrete Segmente zu unterteilen, wobei jedes Segment ein einzelner Bericht oder Werbespot ist. Wie unten erläutert, können auch Segmente für Themen identifiziert werden, die zu einem benutrerspezifizierten Thema passen.
  • Bezugnehmend auf 2, ist im allgemeinen die Segmentierung des Testtextes ein Zweischritt-Prozeß. Zuerst wird das System unter Verwendung eines Trainingstextes trainiert (Schritt 200). Danach wird der Testtext (oder ein anderer geprüfter Text) segmentiert (Schritt 205).
  • Eine Prozedur 300 zum Training des Systems wird in 3 dargestellt. Zuerst wird der Trainingstext empfangen (Schritt 305). Der Trainingstext weist eine Menge von Sätzen mit Themenübergängen auf, die zwischen Gruppen der Sätze angeordnet ist, ohne daß jedoch den Gruppen von Sätzen Themenidentfizierungen zugeordnet wären.
  • Danach wird der Gruppierungsalgonthmus 165 eingesetzt, um den Text in eine spezifizierte Anzahl von Themengruppen {c1, c2,..., cn} zu unterteilen, wobei Standardgruppierungstechniken verwendet werden (Schritt 310). Zum Beispiel kann ein K- Mittelalgonthmus verwendet werden, wie er in Clustering Algonthms, John A. Hartigan, John Wiley & Sons, (1975), S. 84-112 beschrieben wird. Jede Gruppe kann Gruppen von Sätzen enthalten, die sich mit mehreren Themen beschäftigen. Jedoch werden alle Gruppen von Sätzen für ein einziges Thema dazu führen, daß sie in einer einzigen Gruppe angeordnet werden. Testergebnisse haben gezeigt, daß für Text, der aus Berichten aus nationalen Nachrichtenübertragungen besteht, die Verwendung von 100 Gruppen gute Ergebnisse liefert.
  • Nach dem Gruppieren des Trainingstextes wird ein Unigram- Sprachmodell Imi (das auch als ein Gruppenmodell bezeichnet wird) für jede Gruppe ci aufgebaut (Schritt 315). Ein Unigram- Sprachmodell für eine Gruppe zeigt die relative Häufigkeit an, mit der bestimmte Worte in der Gruppe auftreten. Es können auch anderer Arten von Sprachmodellen verwendet werden. Zum Beispiel kann ein Bigram-Sprachmodell, das die relative Häufigkeit angibt, mit der Paare von Worte zusammen auftreten, verwendet werden. Auf jeden Fall werden die Sprachmodelle unter Verwendung von Standardtechniken aufgebaut.
  • Für die Zwecke der folgenden Erläuterung wird angenommen, daß das System eine Menge von Testtext segmentiert, der für den Zweck erzeugt wird, das System zu beurteilen. In tatsächlichen Implementierungen kann der Text, der analysiert wird, zum Beispiel durch eine menschliche Schreibkraft oder ein Spracherkennungssystem erzeugt werden. Der Text kann Fernseh- oder Radioübertragungen oder abgefangenen Funk- oder Telefonkommunikationen entsprechen. Zum Beispiel kann, ebenfalls auf 1 bezugnehmend, der Text erhalten werden, indem Ton, wie eine Nachrichtenübertragung, durch die Antenne 105 empfangen wird. Die Spracherkennungssoftware 160 kann dann den Ton in computerlesbaren Text umwandeln und den Text im Speicher 145 des Computers 125 speichern. Zum Beispiel kann die Antenne 105 die Nachrichtenübertragung empfangen und die Übertragung in der Form eines analogen Signals zur Fernsehempfängerkarte 140 übertragen, die wiederum den Tonanteil der Übertragung durch einen Analog-Digital-(A/D)-Wandler schickt, um das analoge Signal in eine Menge digitaler Abtastwerte umzuwandeln. Unter Steuerung des Betriebssystems 150 und der Spracherkennungssoftware 160 wandelt der Prozessor 130 die Menge digitaler Abtastwerte in einer durch die Spracherkennungssoftware 160 erkannten Sprache in Text um.
  • 4 stellt eine Prozedur 400 dar, die durch die Segmentierungsanwendung 175 verwendet wird, um Text zu segmentieren, nachdem das System trainiert worden ist. Zuerst wird zu segmentierender Text erhalten (Schritt 405). Der Text umfaßt einen Strom von Sätzen {s1, s2,... sm}, wobei m die Anzahl der Sätze im Text ist. Der Text enthält keine Themeninformation oder Themengrenzen. Die Segmentierungsaufgabe ist es, aufeinanderfolgende Gruppen von Sätzen (d. h. Textsegmente), die gemeinsamen Sprachmodellen entsprechen, aus der Menge von n Sprachmodellen (Im1, Im2,... Imn} zu identifizieren. Ein Sprachmodell wird jedem Satz zugewiesen, so daß das Ergebnis des Segmentierungsprozesses eine Sprachmodellgeschichte {sIm1, sIm2, ... sImn} ist, wobei sImi das Sprachmodell (aus der Menge der Sprachmodelle) ist, das dem Satz si des Textes zugewiesen wird. Da ein bestimmtes Thema im allgemeinen nur durch ein einziges Sprachmodell repräsentiert wird, ist eine implizite Themengrenze an jedem Übergang innerhalb der Sprachmodellgeschichte vorhanden. Nachdem der Text erhalten ist, wird jeder Satz im Text gegenüber den Sprachmodellen bewertet (Schritt 410), was zu Bewertungen scorei,j führt, wobei 1 <= i <= m, 1 <= j <= n ist, m die Anzahl der Sätze ist, und n die Anzahl der Gruppen ist. Mit anderen Worten ist scorei,j die Bewertung des Satzes Nummer i des Textes gegenüber dem Sprachmodell Nummer j. Tabelle 1 zeigt Beispielsatzbewertungen für einen Testtext, der zwei Sätze enthält, die in jedem von drei Sprachmodellen bewertet worden sind. Die Bewertung eines Satzes gegenüber einem Sprachmodell zeigt den Grad der Korrelation zwischen dem Textblock und dem Sprachmodell an. Der Bewertungen werden als negative logarithmische Werte erhalten, so daß niedrigere Bewertungen besser als höhere Bewertungen sind.
  • Tabelle 1
    Figure 00090001
  • Die Segmentierungsanwendung 175 berechnet Sprachmodellgeschichtssummen für unterschiedliche Sprachmodellgeschichten, wobei eine Sprachmodellgeschichte eine Folge von Sprachmodellen ist, die einer Folge von Sätzen entsprechen. Eine Sprachmodellgeschichtssumme für eine Sprachmodellgeschichte ist gleich der Summe der Bewertung jedes Satz/Sprachmodell-Paares in der Sprachmodellgeschichte plus eine feste Wechselstrafe für jeden Sprachmodellübergang innerhalb der Sprachmodellgeschichte. Anstatt eine feste Wechselstrafe für alle Sprachmodellübergänge zu verwenden, kann jedem möglichen Sprachmodellübergang eine Wechselstrafe zugewiesen werden. Eine zusätzliche „Nicht-Wechsel"-Strafe kann in dem Fall eingesetzt werden, daß es keinen Sprachmodellübergang zwischen Sätzen gibt. Diese Nicht-Wechselstrafe kann sich für unterschiedliche Sprachmodelle unterscheiden, um die erwartete Länge der Textsegmente für Themen zu berücksichtigen, die mit jedem Sprachmodell verbunden sind.
  • Ein geeigneter Wert für die Wechselstrafe kann bestimmt werden, indem wiederholt mehrere Iterationen der Segmentierung an einer Menge Text vorgenommen werden, für den die Anzahl korrekter Themengrenzen im voraus bekannt ist. Nach jeder Iteration kann die Wechselstrafe eingestellt werden, bis die Segmentierung (Schritt 205) zur der ungefähr richtigen Anzahl von Themengrenzen führt, oder zu einer Anordnung der Themengrenzen an den ungefähr richtigen Stellen.
  • Tabelle 2 stellt Sprachmodellgeschichtssummen für alle möglichen Sprachmodellgeschichten dar, die mit dem Testtext in Tabelle 1 verbunden sind, wobei eine einzige Wechselstrafe von 100 und keine Nicht-Wechselstrafe verwendet wird.
  • Bezugnehmend auf die vierte Reihe der Tabelle 2, repräsentiert die Sprachmodellgeschichte {2, 1} eine Zuordnung des Sprachmodells Nummer 2 zum Satz Nummer 1 des Textes, und eine Zuordnung des Sprachmodells Nummer 1 zum Satz Nummer 2 des Testtextes. Die Sprachmodellgeschichtssumme für diese Sprachmodellgeschichte beträgt 210, was die Bewertung des Satzes Nummer 1 für das Sprachmodell Nummer 2 (50) plus die Bewertung des Satzes Nummer 2 für das Sprachmodell Nummer 1 (60) plus eine Wechselstrafe von 100 für den Wechsel der Sprachmodelle zwischen dem Satz Nummer 1 und dem Satz Nummer 2 repräsentiert. Wie in der fünften Reihe der Tabelle 2 gezeigt, repräsentiert die Sprachmodellgeschichte {2, 2} eine Zuordnung des Sprachmodells Nummer 2 zu den ersten und zweiten Sätzen des Textes. Die Sprachmodellgeschichtssumme für die Sprachmodellgeschichte beträgt 120, was die Bewertung des Satzes Nummer 1 für das Sprachmodell Nummer 2 (50), plus die Bewertung des Satzes Nummer 2 für das Sprachmodell Nummer 2 (70) repräsentiert. Es wird keine Wechselstrafe angewendet, da beide Sätze demselben Thema zugeordnet werden.
  • Bezugnehmend auf Tabelle 2, sollte dem Text eine schließliche Sprachmodellgeschichte von {2, 2} zugeordnet werden, da die Sprachmodellgeschichtssumme für die Sprachmodellgeschichte von {2, 2} das Minimum aller möglichen Sprachmodellgeschichtssummen ist, die für den Text berechnet werden.
  • Tabelle 2
    Figure 00100001
  • Als nächstes weide der Testtext der Tabelle 1 mit einem zusätzlichen Satz betrachtet. Die Bewertungen für diesen neuen Testtext werden in Tabelle 3 gezeigt.
  • Tabelle 3
    Figure 00110001
  • Wenn eine Wechselstrafe von 100 verwendet wird, sollte dem Testtext die Sprachmodellgeschichte {3, 1, 1} zugeordnet werden, da die Sprachmodellgeschichtssumme der Sprachmodellgeschichte {3, 1, 1} 250 ist (40 + 60 + 50 + 100), was die niedrigste Sprachmodellgeschichtssumme unter allen möglichen Sprachmodellgeschichtssummen für den Testtext ist. Es ist daher eine Sprachmodell-/Themengrenze zwischen dem Satz Nummer 1 und dem Satz Nummer 2 vorhanden. Wie in 4 gezeigt, wird dann, sobald eine Menge von Beweriungen (scorei,j) für den Text erzeugt ist (Schritt 410), ein Zeiger auf eine Liste Imh_list aller Sprachmodellgeschichten Initialisiert (Schritt 420), die bisher erzeugt wurden. Danach wird eine Variable i, die die Satz-Nummer des Satzes im Text repräsentiert, der gegenwärtig verarbeitet wird, mit einem Wert von 1 initialisiert (Schritt 430).
  • Die Liste der Sprachmodellgeschichten Imh_list wird so erweitert, daß sie alle möglichen Sprachmodellgeschichten für den Text bis zu und einschließlich einer Satz-Nummer i (Schritt 440) umfaßt. Zum Beispiel wird im Fall des Textes und der Sprachmodelle der Tabelle 1, wenn i = 1, Imh_list nach der Anwendung des Schrittes 430 die Sprachmodellgeschichten {1}, {2} und {3} umfassen. Entsprechend wird, wenn i = 2, Imh_list nach der Anwendung des Schrittes 430 die Sprachmodellgeschichten {1, 1}, {1, 2}, {1, 3}, {2, 1}, {2, 2}, {2, 3}, {3, 1}, {3, 2} und {3, 3} umfassen.
  • Es wird dann eine Sprachmodellgeschichtsbewertung für jede Sprachmodellgeschichte Imh berechnet (Schritt 450), wie in 5 detaillierter gezeigt wird. Jede Sprachmodellgeschichte in Imh_list mit einer Sprachmodellgeschichtsbewertung, die um mehr als einen einstellbaren Betrag des Zurückbleibens größer als die Sprachmodellgeschichte mit der niedrigsten Sprachmodellgeschichtsbewertung ist, wird aus Imh_list eliminiert (Schritt 460). Wenn der Betrag des Zurückbleibens gleich der Wechselstrafe ist, wird die hoch bewertete Sprachmodellgeschichte niemals eine Bewertung über der der niedrig bewerteten Sprachmodellgeschichte haben und wird daher niemals die am besten (niedrigste) bewertete Sprachmodellgeschichte ergeben.
  • Wenn i nicht gleich m (die Anzahl der Sätze im Text) ist (Schritt 465), dann wird i erhöht (Schritt 470), und die Schritte 440460 werden wiederholt. Andemfalls wird dem Text die Sprachmodellgeschichte in Imh_list mit der niedrigsten Sprachmodellgeschichtsbewertung zugeordnet (Schritt 480).
  • Bezugnehmend auf 5, wird eine Sprachmodellgeschichtsbewertung für eine Sprachmodellgeschichte Imh berechnet wie folgt. Zuerst werden einige lokale Variablen initialisiert (Schritt 500). Insbesondere wird die lokale Variable Imh score (die eine laufende Sprachmodellgeschichtsbewertung für die Sprachmodellgeschichte Imh hält) auf null initialisiert, eine lokale Variable j (die die Satz-Nummer des Textsatzes anzeigt, der gegenwärtig untersucht wird) wird auf eins initialisiert, und eine lokale Variable len wird auf die Länge der Sprachmodellgeschichte Imh initialisiert.
  • Die lokale Variable Im_num wird auf die Sprachmodell-Nummer des j-ten Eintrags in die Sprachmodellgeschichte Imh (Schritt 510) gesetzt. Der Wert von Imh_score wird dann um die Bewertung des Satzes Nummer j im Sprachmodell Nummer Im_num erhöht (Schritt 520). Die Schritte 530560 erhöhen den Wert von Imh_score um die Wechselstrafe, falls notwendig. Insbesondere dann, wenn j = 1 (Entscheidungsschritt 530), wird niemals eine Wechselstrafe angewendet. Wenn j größer als 1 ist (Entscheidungsschritt 530), dann wird Imh_score um die Wechselstrafe erhöht (Schritt 550), wenn sich das gegenwärtige Thema (Im_num) vom vorhergehenden Thema (Imh[j-1]) unterscheidet (Entscheidungsschritt 540).
  • Wenn alle Sprachmodelle in der Sprachmodellgeschichte verarbeitet worden sind (Entscheidungsschritt 570), dann wird Imh score zurückgegeben (Schritt 580). Andemfalls wird j (Schritt 570) erhöht und die Schritte 510560 werden wiederholt.
  • Bezugnehmend auf 6, können Segmente eines Testtextstroms, der einem bestimmten Thema entspricht, gemäß einer Prozedur 600 identifiziert werden. Zuerst gibt der Benutzer ein Thema an, indem er einen Thematext bereitstellt, der das Thema betrifft (Schritt 605). Danach wird ein Sprachmodell des Thematextes (das als das Thematext-Sprachmodell bezeichnet wird) aufgebaut, wie oben erläutert (Schritt 610).
  • Das System wird unter Verwendung des Trainingstextes trainiert, um die Sprachmodelle zu erzeugen, wie oben beschrieben (Schritt 620). Das Thematext-Sprachmodell wird dann zur Menge der Sprachmodelle hinzugefügt (Schritt 630).
  • Es wird dann ein Testtextstrom erhalten (Schritt 640). Wenn der Testtext keine Segment- (Berichis-) Grenzen enthält (Entscheidungsschritt 645), dann wird der Testtext segmentiert (Schritt 650). Jedes Segment des Testtextes wird dann in jedem der Sprachmodelle (Schritt 660) bewertet. Im Schritt 660 erzeugte Bewertungen können eine Strafe enthalten, die sich mit jedem aufeinanderfolgenden Segment erhöht, das bewertet wird. Eine solche Strafe kann zum Beispiel verwendet werden, wenn das Thema, das durch den Thematext repräsentiert wird, ein zeitspezifisches Ereignis ist (z. B. das Auftreten eines Erdbebens) und die Segmente des Testtextes von den ältesten zu den neuesten geordnet werden (z. B. ein Strom von Nachrichtenübertragungen). In einem solchen Fall spiegelt die Strafe die abnehmenden Wahrscheinlichkeit mit der Zeit wieder, daß das durch den Thematext repräsentierte Thema im Testtext vorkommen wird.
  • Ein Segment kann als dem Thema entsprechend identifiziert werden, das durch den Thematext definiert wird, wenn das Segment gegenüber dem Thematext-Sprachmodell besser als gegenüber irgendeinem anderen Sprachmodell bewertet wird (Schritt 670). Alternativ kann ein Segment als dem Thema entsprechend identifiziert werden, das durch den Thematext definiert wird, wenn das Segment gegenüber dem Thematext-Sprachmodell um mehr als einen vorbestimmten Betrag besser bewertet wird, als gegenüber irgendeinem anderen Sprachmodell.
  • Andere Ausführungsformen liegen innerhalb der Rahmens der folgenden Ansprüche. Zum Beispiel sind die hier beschriebenen Techniken nicht auf irgendeine besondere Hardware oder Software-Konfiguration beschränkt; sie können in irgendeiner Rechner- oder Verarbeitungsumgebung Anwendung finden, die zur Spracherkennung verwendet werden. Die Techniken können in Hardware oder Software oder einer Kombination der beiden implementiert werden. Vorzugsweise werden die Techniken in Computerprogrammen implementiert, die auf programmierbaren Computern ausgeführt werden, die jeweils einen Prozessor, ein Speichermedium, das durch den Prozessor lesbar ist (einschließlich einem flüchtigen und nichtflüchtigen Speicher und/oder Speicherelementen), mindestens eine Eingabevorrichtung und mindestens eine Ausgabevorrichtung aufweisen. Der Programmcode wird auf Daten angewendet, die unter Verwendung der Eingabevorrichtung eingegeben werden, um die beschriebenen funktionen auszuführen und um Ausgabeinformationen zu erzeugen. Die Ausgabeinformationen wird an eine oder mehrere Ausgabevorrichtungen angelegt. Jedes Programm wird vorzugsweise in einer prozeduralen oder objektorientierten Hochprogrammiersprache implementiert, um mit einem Computersystem zu kommunizieren. Jedoch können die Programme in Assembler- oder Maschinensprache implementiert werden, falls erwünscht. Auf jeden Fall kann die Sprache eine kompilierte oder interpretierte Sprache sein.
  • Jedes solche Computerprogramm wird vorzugsweise auf einem Speichermedium oder -Vorrichtung (z. B. CD-ROM, Festplatte oder Magnetdiskette) gespeichert, die durch einen programmierbaren Allzweck- oder Spezialzweckcomputer zur Konfiguration und zum Betreiben des Computers lesbar ist, wenn das Speichermedium oder -Vorrichtung durch den Computer gelesen wird, um die Prozeduren auszuführen, die in diesem Dokument beschrieben werden. Es wird auch erwogen, das System als ein computerlesbares Speichermedium zu implementieren, das mit einem Computerprogram konfiguriert ist, wobei das so konfigurierte Speichermedium bewirkt, daß ein Computer in einer spezischen und vordefinierten Weise arbeitet.

Claims (18)

  1. Computergestütztes Verfahren zum Segmentieren eines Stroms von Text zu Segmenten unter Verwendung einer Mehrzahl von Sprachmodellen, wobei der Strom von Text eine Sequenz von Textblöcken beinhaltet, wobei das Verfahren die folgenden Schritte umfasst: Auswerten der Textblöcke anhand der Sprachmodelle zum Generieren von Sprachmodellauswertergebnissen für die Textblöcke, wobei das Ergebnis der Sprachmodellauswertung für einen Textblock anhand eines Sprachmodells eine Korrelation zwischen dem Textblock und dem Sprachmodell anzeigt; Generieren von Sprachmodell-Sequenzauswertergebnissen für verschiedene Sequenzen von Sprachmodellen, denen eine Sequenz von Textblöcken entsprechen kann, wobei ein Sprachmodell-Sequenzauswertergebnis von den Ergebnissen der Auswertung einer Sequenz von Textblöcken anhand einer Sequenz von Sprachmodellen abhängig ist; Wählen einer Sequenz von Sprachmodellen, die eine vorbestimmte Bedingung erfüllt; und Identifizieren von Segmentgrenzen in dem Strom von Text, die Sprachmodellübergängen in der gewählten Sequenz von Sprachmodellen entsprechen, wobei das Generieren von Sprachmodell-Sequenzauswertergebnissen die folgenden Schritte umfasst: Generieren mehrerer Sprachmodell-Sequenzauswertergebnisse für eine Subsequenz der Sequenz von Textblöcken; Eliminieren von Sprachmodellsequenzen mit schlechten Auswertergebnissen; und Hinzufügen eines Textblocks zu der Subsequenz und Wiederholen der Generierungs- und Eliminierungsschritte.
  2. Verfahren nach Anspruch 1, bei dem das Generieren eines Sprachmodell-Sequenzauswertergebnisses für eine Sequenz von Sprachmodellen das Summieren von Sprachmodellauswertergebnissen für die Sequenz von Textblöcken umfasst, die der Sequenz von Sprachmodellen entspricht.
  3. Verfahren nach Anspruch 2, das ferner Folgendes umfasst: für jeden Sprachmodellübergang in der Sequenz von Sprachmodellen Addieren eines Schaltzusatzaufwands zu dem Sprachmodell-Sequenzauswertergebnis.
  4. Verfahren nach Anspruch 3, bei dem der Schaltzusatzaufwand für jeden Sprachmodellübergang in der Sequenz von Sprachmodellen gleich ist.
  5. Verfahren nach Anspruch 4, bei dem der Schaltzusatzaufwand ermittelt wird durch: Auswählen eines Stroms von Text, für den die Zahl der Sprachmodellübergänge bekannt ist; wiederholtes Segmentieren des Stroms von Text zu Segmenten mit einer Mehrzahl von Schaltzusatzaufwänden; und Wählen eines Schaltzusatzaufwands, der zu einer Anzahl von Sprachmodellübergängen führt, die der bekannten Anzahl von Sprachmodellübergängen ähnlich ist, wobei jeder Sprachmodellübergang durch Identifizieren einer Segmentgrenze in dem Strom von Text ermittelt wird.
  6. Verfahren nach einem der vorherigen Ansprüche, bei dem: eine Sprachmodellsequenz mit einem schlechten Auswertergebnis eine Sequenz von Sprachmodellen mit einem Sprachmodell-Sequenzauswertergebnis ist, das um mehr als einen Zurückfallbetrag schlechter ist als ein anderes Sprachmodell-Sequenzauswertergebnis.
  7. Verfahren nach Anspruch 6, bei dem: das Generieren eines Sprachmodell-Sequenzauswertergebnisses für eine Sequenz von Sprachmodellen für jeden Sprachmodellübergang in der Sequenz von Sprachmodellen das Addieren eines Schaltzusatzaufwandes zu dem Sprachmodell-Sequenzauswertergebnis umfasst; und der Zurückfallbetrag dem Schaltzusatzaufwand entspricht.
  8. Verfahren nach einem der vorherigen Ansprüche, bei dem das Wählen einer Sprachmodellsequenz auf der Basis einer vorbestimmten Bedingung Folgendes umfasst: Wählen einer Sprachmodellsequenz mit einem Sprachmodell-Sequenzauswertergebnis, das das Minimum der berechneten Sprachmodell-Sequenzauswertergebnisse ist.
  9. Verfahren nach einem der vorherigen Ansprüche, bei dem ein Textblock einen Satz umfasst.
  10. Verfahren nach einem der Ansprüche 1 bis 8, bei dem ein Textblock einen Absatz umfasst.
  11. Verfahren nach einem der Ansprüche 1 bis 8, bei dem ein Textblock eine von einem Spracherkenner identifizierte Äußerung umfasst.
  12. Verfahren nach Anspruch 11, bei dem eine Äußerung eine Sequenz von Wörtern umfasst.
  13. Verfahren nach einem der vorherigen Ansprüche, bei dem die Sprachmodelle erzeugt werden durch: Clustern eines Stroms von Trainingtext zu einer vorbestimmten Anzahl von Clustern; und Generieren eines Sprachmodells für jedes Cluster.
  14. Verfahren nach einem der vorherigen Ansprüche, bei dem die Sprachmodelle Unigramm-Sprachmodelle umfassen.
  15. Verfahren nach einem der Ansprüche 1 bis 13, bei dem die Sprachmodelle Bigramm-Sprachmodelle umfassen.
  16. Verfahren nach einem der vorherigen Ansprüche, ferner umfassend das Auswerten der Textblöcke anhand eines Sprachmodells für ein Thema von Interesse.
  17. Verfahren nach Anspruch 16, ferner umfassend das Identifizieren von dem Sprachmodell für das Thema von Interesse entsprechenden Segmenten als dem Thema von Interesse entsprechend.
  18. Computerprogramm, das fassbar auf einem rechnerlesbaren Medium gespeichert ist und die Aufgabe hat, einen Computer zu veranlassen, einen Strom von Text mit Hilfe einer Mehrzahl von Sprachmodellen zu Segmenten zu segmentieren, wobei der Strom von Text eine Sequenz von Textblöcken beinhaltet, wobei das Computerprogramm Anweisungen zum Durchführen eines Verfahrens nach einem der vorherigen Ansprüche umfasst.
DE69814104T 1997-09-09 1998-09-09 Aufteilung von texten und identifizierung von themen Expired - Fee Related DE69814104T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US5826197P 1997-09-09 1997-09-09
US58261P 1997-09-09
US08/978,487 US6052657A (en) 1997-09-09 1997-11-25 Text segmentation and identification of topic using language models
US978487 1997-11-25
PCT/US1998/018830 WO1999013408A2 (en) 1997-09-09 1998-09-09 Text segmentation and identification of topics

Publications (2)

Publication Number Publication Date
DE69814104D1 DE69814104D1 (de) 2003-06-05
DE69814104T2 true DE69814104T2 (de) 2004-04-29

Family

ID=26737425

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69814104T Expired - Fee Related DE69814104T2 (de) 1997-09-09 1998-09-09 Aufteilung von texten und identifizierung von themen

Country Status (4)

Country Link
US (1) US6052657A (de)
EP (1) EP1012736B1 (de)
DE (1) DE69814104T2 (de)
WO (1) WO1999013408A2 (de)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7529756B1 (en) 1998-07-21 2009-05-05 West Services, Inc. System and method for processing formatted text documents in a database
US7778954B2 (en) 1998-07-21 2010-08-17 West Publishing Corporation Systems, methods, and software for presenting legal case histories
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7356462B2 (en) 2001-07-26 2008-04-08 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US6505151B1 (en) * 2000-03-15 2003-01-07 Bridgewell Inc. Method for dividing sentences into phrases using entropy calculations of word combinations based on adjacent words
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7062498B2 (en) 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US7117200B2 (en) 2002-01-11 2006-10-03 International Business Machines Corporation Synthesizing information-bearing content from multiple channels
KR20030069377A (ko) * 2002-02-20 2003-08-27 대한민국(전남대학교총장) 음성인식시스템의 토픽 검출장치 및 방법
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040117188A1 (en) * 2002-07-03 2004-06-17 Daniel Kiecza Speech based personal information manager
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US20040083090A1 (en) * 2002-10-17 2004-04-29 Daniel Kiecza Manager for integrating language technology components
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
GB0230097D0 (en) * 2002-12-24 2003-01-29 Koninkl Philips Electronics Nv Method and system for augmenting an audio signal
US7310658B2 (en) * 2002-12-27 2007-12-18 International Business Machines Corporation Method for tracking responses to a forum topic
US7958443B2 (en) * 2003-02-28 2011-06-07 Dictaphone Corporation System and method for structuring speech recognized text into a pre-selected document format
EP1462950B1 (de) * 2003-03-27 2007-08-29 Sony Deutschland GmbH Verfahren zur Sprachmodellierung
ATE518193T1 (de) * 2003-05-28 2011-08-15 Loquendo Spa Automatische segmentierung von texten mit einheiten ohne trennzeichen
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US8327255B2 (en) * 2003-08-07 2012-12-04 West Services, Inc. Computer program product containing electronic transcript and exhibit files and method for making the same
US7389233B1 (en) * 2003-09-02 2008-06-17 Verizon Corporate Services Group Inc. Self-organizing speech recognition for information extraction
WO2005050474A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
JP2007512609A (ja) * 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
US20070244690A1 (en) * 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
JP5255769B2 (ja) * 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
EP1704499A1 (de) * 2003-12-31 2006-09-27 Thomson Global Resources AG Systeme, verfahren, programme für datenverarbeitungsanlagen und schnittstellen zur integration von rechtssprechung mit rechtlichen kurzmitteilungen, rechtsstreitdokumenten und/oder rechtsstreit unterstützenden dokumenten
JP4860265B2 (ja) * 2004-01-16 2012-01-25 日本電気株式会社 テキスト処理方法/プログラム/プログラム記録媒体/装置
US7426557B2 (en) * 2004-05-14 2008-09-16 International Business Machines Corporation System, method, and service for inducing a pattern of communication among various parties
US7281022B2 (en) * 2004-05-15 2007-10-09 International Business Machines Corporation System, method, and service for segmenting a topic into chatter and subtopics
US20060224584A1 (en) * 2005-03-31 2006-10-05 Content Analyst Company, Llc Automatic linear text segmentation
US20060256937A1 (en) * 2005-05-12 2006-11-16 Foreman Paul E System and method for conversation analysis
US8572018B2 (en) * 2005-06-20 2013-10-29 New York University Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US20070106644A1 (en) * 2005-11-08 2007-05-10 International Business Machines Corporation Methods and apparatus for extracting and correlating text information derived from comment and product databases for use in identifying product improvements based on comment and product database commonalities
US8301448B2 (en) * 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US8386232B2 (en) * 2006-06-01 2013-02-26 Yahoo! Inc. Predicting results for input data based on a model generated from clusters
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP5256654B2 (ja) * 2007-06-29 2013-08-07 富士通株式会社 文章分割プログラム、文章分割装置および文章分割方法
US7983902B2 (en) * 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US7917355B2 (en) 2007-08-23 2011-03-29 Google Inc. Word detection
US8073682B2 (en) 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8671104B2 (en) 2007-10-12 2014-03-11 Palo Alto Research Center Incorporated System and method for providing orientation into digital information
US8165985B2 (en) 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
DE102007056140A1 (de) 2007-11-19 2009-05-20 Deutsche Telekom Ag Verfahren und System zur Informationssuche
US20090132252A1 (en) * 2007-11-20 2009-05-21 Massachusetts Institute Of Technology Unsupervised Topic Segmentation of Acoustic Speech Signal
WO2009084554A1 (ja) * 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
US8666729B1 (en) * 2010-02-10 2014-03-04 West Corporation Processing natural language grammar
US8806455B1 (en) * 2008-06-25 2014-08-12 Verint Systems Ltd. Systems and methods for text nuclearization
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US9442933B2 (en) * 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US11531668B2 (en) * 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8458105B2 (en) * 2009-02-12 2013-06-04 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating data
US20100235314A1 (en) * 2009-02-12 2010-09-16 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating video data
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
GB201016385D0 (en) 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
EP2485212A4 (de) * 2009-10-02 2016-12-07 Nat Inst Inf & Comm Tech Sprachübersetzungssystem, erstes endgerät, spracherkennungsserver, übersetzungsserver und sprachsyntheseserver
US20110202484A1 (en) * 2010-02-18 2011-08-18 International Business Machines Corporation Analyzing parallel topics from correlated documents
GB201003628D0 (en) 2010-03-04 2010-04-21 Touchtype Ltd System and method for inputting text into electronic devices
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US8434001B2 (en) 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US9326116B2 (en) 2010-08-24 2016-04-26 Rhonda Enterprises, Llc Systems and methods for suggesting a pause position within electronic text
US8977538B2 (en) * 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US9069754B2 (en) 2010-09-29 2015-06-30 Rhonda Enterprises, Llc Method, system, and computer readable medium for detecting related subgroups of text in an electronic document
US9442930B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9442928B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9355170B2 (en) * 2012-11-27 2016-05-31 Hewlett Packard Enterprise Development Lp Causal topic miner
WO2015199653A1 (en) * 2014-06-24 2015-12-30 Nuance Communications, Inc. Methods and apparatus for joint stochastic and deterministic dictation formatting
US9881023B2 (en) * 2014-07-22 2018-01-30 Microsoft Technology Licensing, Llc Retrieving/storing images associated with events
US20160070692A1 (en) * 2014-09-10 2016-03-10 Microsoft Corporation Determining segments for documents
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10402473B2 (en) * 2016-10-16 2019-09-03 Richard Salisbury Comparing, and generating revision markings with respect to, an arbitrary number of text segments
KR20180077689A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 자연어 생성 장치 및 방법
US11301629B2 (en) 2019-08-21 2022-04-12 International Business Machines Corporation Interleaved conversation concept flow enhancement
US11308944B2 (en) 2020-03-12 2022-04-19 International Business Machines Corporation Intent boundary segmentation for multi-intent utterances
JP2023035617A (ja) * 2021-09-01 2023-03-13 株式会社東芝 コミュニケーションデータログ処理装置、方法及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4663675A (en) * 1984-05-04 1987-05-05 International Business Machines Corporation Apparatus and method for digital speech filing and retrieval
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4931950A (en) * 1988-07-25 1990-06-05 Electric Power Research Institute Multimedia interface and method for computer system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model

Also Published As

Publication number Publication date
WO1999013408A2 (en) 1999-03-18
WO1999013408A3 (en) 1999-06-03
EP1012736A2 (de) 2000-06-28
US6052657A (en) 2000-04-18
DE69814104D1 (de) 2003-06-05
EP1012736B1 (de) 2003-05-02

Similar Documents

Publication Publication Date Title
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE60120417T2 (de) Verfahren zur suche in einer audiodatenbank
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE69818161T2 (de) Automatisierte Gruppierung von sinnvollen Sätzen
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE69819438T2 (de) Verfahren zur Spracherkennung
DE102005029869A1 (de) Verfahren und Vorrichtung zur Anruflenkung für natürliche Sprache unter Verwendung von Vertrauenswertungen
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP0862161A2 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE10317234A1 (de) Systeme und Verfahren für eine verbesserte Genauigkeit von einem extrahierten digitalen Inhalt
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP1812930B1 (de) Verfahren zur spracherkennung aus einem aufgeteilten vokabular
DE60023398T2 (de) Verfahren und Vorrichtung zur Verbesserung der Spracherkennungsgenauigkeit mittels ereignis-basierter Beschränkungen
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE102017104094B4 (de) Sprachverarbeitungssystem und sprachverarbeitungsverfahren
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE69734507T2 (de) Verfahren zur optimierung eines erkennungswörterbuchs, so das ähnliche muster besser unterschieden werden können

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication of lapse of patent is to be deleted
8328 Change in the person/name/address of the agent

Representative=s name: P.E. MEISSNER UND KOLLEGEN, 14199 BERLIN

8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee