DE60102242T2

DE60102242T2 - Rechnerverfahren und gerät zur beschränkung einer nicht-linearen gleichungsnäherung eines empirischen prozesses

Info

Publication number: DE60102242T2
Application number: DE60102242T
Authority: DE
Inventors: Paul Turner; P. John GUIVER; Brian Lines; Steven S. Treiber
Original assignee: Aspen Technology Inc
Current assignee: Aspentech Corp
Priority date: 2000-06-29
Filing date: 2001-06-27
Publication date: 2005-01-27
Anticipated expiration: 2021-06-28
Also published as: US20020072828A1; US8296107B2; ATE261137T1; CA2414707A1; US7630868B2; JP2004503001A; US20080071394A1; EP1295185B9; EP1295185B1; EP1295185A2; JP4918207B2; WO2002003152A3; WO2002003152A2; CA2696152A1; CA2414707C; US7330804B2; DE60102242D1; US20100057222A1

Description

HINTERGRUND DER ERFINDUNG
Beim Versuch, komplexe nicht-lineare Funktionen mehrerer Variabler am Modell darzustellen, ist es seit vielen Jahren eine übliche Praxis, Universalapproximatoren wie etwa neuronale Netzwerke zu verwenden. Die industrielle Anwendung dieser Technologien ist besonders verbreitet im Gebiet der schlussfolgernden Prädiktoren oder Soft-Sensor-Prädiktoren. Siehe z. B. Neuroth, M., MacConnell, P., Stronach, F., Vamplew, P., (April 2000): "Improved modeling and control of oil and gas transport facility operations using artificial intelligence" , Knowledge Based Systems, Bd. 13, Nr. 2, S. 81–9; und Molga, E. J., van Woezik, B. A. A., Westerterp, K. R.,: "Neural networks for modeling of chemical reaction systems with complex kinetics: oxidation of 2-octanol with nitric acid", Chemical Engineering and Processing, Juli 2000, Bd. 39, Nr.4, S.323–334. Viele Industrieprozesse erfordern die Qualitätssteuerung von Eigenschaften, deren Online-Messung immer noch teuer, wenn nicht unmöglich ist. Um diese Qualitäten aus leicht messbaren Prozessvariablen wie etwa Temperaturen, Drücken usw. vorauszusagen, werden schlussfolgernde Qualitätsschätzfunktionen verwendet. Häufig offenbaren sich die komplexen Wechselwirkungen in einem Prozess (insbesondere in Polymerprozessen) als komplexe nicht-lineare Zusammenhänge zwischen den leicht messbaren Variablen und den komplexen Qualitätsparametern.
Historisch werden zur Darstellung dieser komplexen Nicht-Linearitäten herkömmliche neuronale Netzwerke (oder andere generische nicht-lineare Schätzfunktionen) verwendet. Siehe z. B. Zhang, J., Morris, A. J., Martin, E. B., Kiparissides, C.: "Estimation of impurity and fouling in batch polymerization reactors through application of neural networks", Computers in Chemical Engineering, Februar 1999, Bd. 23, Nr. 3, S. 301–314; und Huafang, N., Hunkeler, D.: "Prediction of copolymer composition drift using artificial neural networks: copolymerization of acrylamide with quaternary ammonium cationic monomers", Polymer, Februar 1997, Bd. 38, Nr. 3, S. 667–675. Um die Modelle zu trainieren (d. h. die Modellkoeffizienten zu bestimmen), werden Werksstammdaten verwendet, wobei die Zielfunktion für ein Modell in der Weise eingestellt wird, dass der Modellfehler an einer beliebigen (aber repräsentativen) Trainingsdatenmenge minimiert wird. Die für das Training dieser Modelle verwendeten Algorithmen konzentrieren sich auf den Modellfehler. Auf die Genauigkeit der Ableitung der genäherten Funktion ist wenig oder keine Aufmerksamkeit gerichtet.
Da das Ziel eines nicht-linearen Modells üblicherweise darin besteht, den Zuwachs und die Verzögerung der Steuerung zu planen, verhindert diese Konzentration auf den Modellfehler (ohne weitere Betrachtungen) die Verwendung solcher Paradigmen (d. h. herkömmlicher neuronaler Netzwerke) in Regelschemata. Obgleich eine Umhüllung verwendet werden kann, um die Modelle gegenüber der Arbeit in Gebieten eindimensionaler Extrapolation zu beschränken, wird erwartet, dass die Modelle zwischen Arbeitspunkten interpolieren. Somit ist eine lineare oder gutartige nicht-lineare Interpolation erforderlich. Möglicherweise sind die Zuwächse nicht genau an den tatsächlichen Prozess angepasst, wobei die Trajektorie aber keinesfalls mit den allgemeinen Änderungen des Prozesszuwachses mitschwingend sein sollte, wenn von einem Arbeitspunkt zu einem anderen gegangen wird.
Es wurde Arbeit unternommen, um die Stabilität dynamischer herkömmlicher neuronaler Netzwerke in Regelschemata zu verstehen. Kulawski u. a. haben kürzlich eine adaptive Steuertechnik für nicht-lineare stabile Anlagen mit unmessbaren Zuständen vorgeschlagen (siehe Kulawski, G. J., Brydys', M. A.: "Stable adaptive control with recurrent networks", Automatica 2000, Bd. 36, S. 5–22). Die Steuerung nimmt die Form eines nicht-linearen dynamischen Modells an, das zur Berechnung einer linearisierenden Optimalwertsteuerung verwendet wird. Die Stabilität des Schemas ist theoretisch gezeigt worden. Die Abhandlung von Kulawski u. a. hebt die Bedeutung der monotonen Aktivierungsfunktionen bei der Gesamtstabilität der Steuerung hervor. Allerdings wird das Argument nicht auf den Fall einer ungeeigneten Zuwachsschätzung in Gebieten niedriger Datendichte erweitert.
Universelle Approximatoren (z. B. herkömmliche neuronale Netzwerke) können nicht sicherstellen, dass die Ableitungen bei der Interpolation zwischen zwei Punkten gutartig sind. Das wirkliche Wesen dieser Modelle bedeutet, dass bei der Voraussage der Ausgabe durch den universellen Approximator in einem Gebiet fehlender oder niedriger Daten zwischen zwei Gebieten ausreichender Daten irgendein Ergebnis auftreten könnte. Sofern die zwei Endpunkte auf der Trajektorie angepasst sind, ist der Weg zwischen den Punkten unwichtig. Einer der Hauptvorteile der vorliegenden Erfindung ist, dass sie eine a-priori-Kenntnis der Prozesszuwachstrajektorie (z. B. monotoner Zuwachs, beschränkter Zuwachs usw.) verwendet und die Schätzfunktion auf Lösungen beschränkt, die diese Eigenschaften besitzen.
Der Nutzen dessen, in die Konstruktion nicht-linearer Approximatoren eine a-priori- Kenntnis aufzunehmen, ist in vielen Bereichen genannt worden. Lindskog u. a. diskutieren die monotone Einschränkung von Fuzzy-Modellstrukturen und wendet einen solchen Zugang auf die Steuerung eines Wasserheizungssystems an (siehe Lindskog, P., Ljung, L.: "Ensuring monotonic gain characteristics in estimated models by fuzzy model structures", Automatica, 2000, Bd. 36, S. 311–317). Yaser, S. Abu-Mostafa, diskutiert ein Verfahren, ein neuronales Netzwerk dazu "zu verleiten", lokalisierte monotone Charakteristiken zu haben, indem Pseudotrainingsdaten "erfunden" werden, die die gewünschten nicht-linearen Charakteristiken besitzen (siehe Yaser, S. Abu-Mostafa: "Machines that learn form hints", Scientific American, April 1995, S. 64–69). Dies stellt kein globales Festhalten an diesem besonderen Eingabe/Ausgabe-Zusammenhang sicher.
Somit ist gut akzeptiert, dass bei der Extrapolation von Datengebieten keine universellen Approximatoren verwendet werden sollten. Da sie irgendeine Nicht-Linearität am Modell darstellen können, könnte in Gebieten außerhalb und einschließlich der Grenzen des Trainingsdatenbereichs irgendein Ergebnis auftreten.
Das Einschränken des Verhaltens eines empirischen nicht-linearen Modells (innerhalb seiner Eingabedomäne) ist bei der Prozesssteuerung wesentlich für die erfolgreiche Nutzung der nicht-linearen fortgeschrittenen Steuerung. Universelle Approximatoren wie etwa herkömmliche neuronale Netzwerke können in fortgeschrittenen Steuerschemata zur Zuwachsplanung nicht verwendet werden, ohne dass sich die potentielle Steuerleistung ernsthaft verschlechtert.
Das Patent der Vereinigten Staaten Nr. 5.740.033 bezieht sich auf eine besondere Form eines Mehrvariablen-Steueralgorithmus, der sowohl ein Prozessmodell als auch ein Störungsmodell nutzt.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung ist eine Alternative, die es ermöglicht, die Zuwachstrajektorie und die Monotonie des nicht-linearen empirischen Approximators zu steuern. Obgleich kein universeller Approximator, konkurriert die Fähigkeit der Erfindung bei der Anpassung bezüglich gutartiger Funktionen mit herkömmlichen neuronalen Nutzwerken, selbst ohne irgendwelche der Instabilitäten, die solch ein Verfahren einschließt. Das Hauptmerkmal der Erfindung ist es, das Verhalten der Ableitung des empirischen Modells einzuengen bzw. zu begrenzen, ohne die Fähigkeit des Modells nachteilig zu beeinflussen, generische nicht-lineare Zusammenhänge darzustellen.
Die in dieser Erfindung beschriebenen eingeschränkten nicht-linearen Approximatoren behandeln das Problem der unzureichenden Zuwächse in Gebieten niedriger Datendichte (z. B. in den Trainingsdaten) und liefern eine nicht-lineare Approximationsumgebung mit gutartigen Ableitungen. Die allgemeine Form der Zuwachstrajektorie wird bei Bedarf spezifiziert. Alternativ wird die Trajektorie während des Trainings "gelernt" und später untersucht. Der Schlüssel zur vorliegenden Erfindung ist, dass das eingeschränkte Verhalten der Modellableitung über die gesamte Eingabedomäne des Modells (d. h. über den gesamten Bereich möglicher Werte, die als Eingabe in das Modell akzeptabel werden) – nicht nur über das Trainingsdatengebiet – sichergestellt ist. Somit stellt die vorliegende Erfindung eine globale Einhaltung der zeitlichen Abhängigkeiten der Zuwachstrajektorien sicher.
Ein Zugang, der versucht, herkömmliche neuronale Optimalwertnetzwerke unter Verwendung eines Trainings bei eingeschränktem Zuwachs einzuschränken, ist in Erik Hartmann, "Training Feedforward Neural Networks with Gain Constraints", in Neural Computation, 12, 811–829 (2000), beschrieben. In diesem Zugang werden für ein Modell mit mehreren Eingaben und Ausgaben für jede Eingabe/Ausgabe zeitgleiche Abhängigkeiten gesetzt. Der Zugang von Hartmann stellt nicht sicher, dass das globale Verhalten des Modells ein eingeschränktes globales Verhalten (z. B. über die gesamte Modelleingabedomäne) hat. Wie hier ausführlicher beschrieben wird, stellt der Zugang der Erfindung demgegenüber sicher, dass das Modell ein eingeschränktes globales Verhalten hat.
In der bevorzugten Ausführungsform gibt es drei Phasen bei der Entwicklung eines eingeschränkten nicht-linearen Approximators für einen empirischen Prozess. Die erste Phase ist die Spezifikation der allgemeinen Form der Zuwachstrajektorie, die zu einem Anfangsmodell des empirischen Prozesses führt. Dieses kann graphisch, algebraisch oder generisch (durch den Optimierer gelernt) spezifiziert werden. Die zweite Phase der Erfindung ist die Verbindung der Transferfunktionen (z. B. Aktivierungsfunktionen), die basierend auf dem Anfangsmodell eine nicht-lineare Approximation in einem nichtlinearen Netzwerk-Modell ermöglichten. Die Endphase der Erfindung ist die eingeschränkte Optimierung der Modellkoeffizienten in einem optimierten Modell (d. h. in einem eingeschränkten nicht-linearen Approximator), das auf dem nicht-linearen Netzwerk-Modell basiert, so dass die allgemeine Form der Eingabe/Ausgabe-Abbildungen (und ihrer entsprechenden Ableitungen) erhalten bleibt.
Diese drei oben beschriebenen Phasen bilden den Modellierungsteil der Erfindung, der den Einschränkungsalgorithmus nutzt, um nicht-lineare (dynamische oder stationäre) Modelle zu erzeugen, die die gewünschte Zuwachstrajektorie besitzen. Die Techniken der Erfindung ermöglichen, dass der Anwender (d. h. der Modellentwickler) sowohl die Eingabe/Ausgabe als auch die Zuwachstrajektorie an zufälligen oder spezifischen Punkten in der Eingabedatendomäne abfragt.
Der Anwender kann mit dem aufgebauten Modell (z. B. mit dem optimierten nichtlinearen Modell) eine nicht-lineare Steuerung aufbauen. Die Steuerung nutzt das optimierte Modell bei ihrer Voraussage der optimalen Trajektorie für den stationären Zustand (z. B. der optimalen Zuwachstrajektorie der gewünschten Ausgabegröße, um einen stationären Prozess zum Produzieren der gewünschten Ausgabegröße zu erreichen). Aus dem nicht-linearen optimierten Modell sind eine genaue nicht-lineare Voraussage der gesteuerten Variablen und der Prozesszuwächse verfügbar.
In einer weiteren Ausführungsform der Erfindung ermöglicht die Erfindung außerdem die weitere Darstellung am Modell (entweder einer empirischen Rohstruktur oder einer Hybridstruktur aus empirischer Struktur/Struktur mit Grundprinzipien oder einer alternativen Hybridstruktur) unter Verwendung des Zuwachstrajektorien-Einschränkungsalgorithmus zum Erzeugen eines nicht-linearen Modells des Prozesses zur weiteren Prozessoptimierung (z. B. nicht-lineares Programm) entweder in der Verbindungsphase oder in der Phase der eingeschränkten Optimierung (oder in beiden Phasen). Daraufhin verwendet der Optimierer dieses eingeschränkte Modell, um optimale Sollwerte für die nicht-lineare Steuerung zu identifizieren.
Die Erfindung kann verwendet werden, um irgendeine Form eines empirischen Prozesses am Modell darzustellen, um einen eingeschränkten nicht-linearen Approximator zu erzeugen, wobei eine frühere Kenntnis des zugrunde liegenden Systemverhaltens verwendet wird, um eine zeitliche Abhängigkeit der Optimierung des verbundenen Modells der Transferfunktionen (z. B. ein nicht-lineares Netzwerk-Modell, das auf einer Schichtenarchitektur basiert) zu definieren. Beispielsweise können die Techniken der Erfindung auf irgendein chemisches oder Prozessmodell, auf eine Finanzvoraussage, auf eine Mustererkennung, auf eine Verkaufsmodellierung und auf eine Stapelprozessmodellierung angewendet werden, ohne darauf beschränkt zu sein.
Somit schafft die vorliegende Erfindung ein Verfahren und eine Vorrichtung zur Darstellung eines nicht-linearen empirischen Prozesses am Modell. Insbesondere schafft die vorliegende Erfindung eine Computervorrichtung, die eine Modellerzeugung, eine Modellaufbaueinrichtung und einen Optimierer enthält. Die Modellerzeugung erzeugt ein Anfangsmodell, das im Allgemeinen dem nicht-linearen empirischen Prozess entspricht, der am Modell darzustellen ist. Das Anfangsmodell hat eine anfängliche Eingabe und eine anfängliche Ausgabe. Das Anfangsmodell entspricht allgemein der Form der Eingabe/Ausgabe-Abbildung für den empirischen Prozess. An die Modellerzeugung ist eine Modellaufbaueinrichtung gekoppelt, um ein nicht-lineares Netzwerk-Modell basierend auf dem Anfangsmodell aufzubauen. Das nicht-lineare Netzwerk-Modell hat mehrere Eingaben basierend auf der anfänglichen Eingabe und einem globalen Verhalten für das nicht-lineare Netzwerk-Modell als Ganzes, das sich allgemein nach der anfänglichen Ausgabe richtet. An die Modellaufbaueinrichtung ist ein Optimierer zum Optimieren des nicht-linearen Netzwerk-Modells basierend auf empirischen Eingaben gekoppelt, um ein optimiertes Modell zu erzeugen, indem das globale Verhalten des nicht-linearen Netzwerk-Modells eingeschränkt wird. Das optimierte Modell liefert ein Beispiel des eingeschränkten nicht-linearen Approximators. Das resultierende optimierte Modell liefert somit eine globale Ausgabe, die zu der allgemeinen Form der Eingabe/Ausgabe-Abbildung des Anfangsmodells passt, während sie in der Weise eingeschränkt ist, dass die globale Ausgabe des optimierten Modells konsistente Ergebnisse (z. B. monoton steigende Ergebnisse) für den gesamten Bereich der Eingabedomäne erzeugt. Die hier beschriebene Modellierungsvorrichtung und das hier beschriebene Modellierungsverfahren sind auf irgendeinen nicht-linearen Prozess anwendbar.
In Übereinstimmung mit einem weiteren Aspekt der Erfindung gibt die Modellerzeugung eine allgemeine Form einer Zuwachstrajektorie für den nicht-linearen empirischen Prozess an. Somit liefert das resultierende optimierte Modell eine globale Ausgabe, die sich nach der für das Anfangsmodell angegebenen allgemeinen Form der Zuwachstrajektorie richtet.
In einem weiteren Aspekt der Erfindung gibt die Modellerzeugung eine nicht-lineare Transferfunktion an, die zur Verwendung bei der Approximierung des nicht-linearen empirischen Prozesses geeignet ist. Das nicht-lineare Netzwerk kann in sich zusammenhängende Verarbeitungselemente enthalten, wobei die Modellaufbaueinrichtung eine nicht-lineare Transferfunktion in wenigstens ein Verarbeitungselement integriert. Der Optimierer kann zeitliche Abhängigkeiten einstellen, indem er eine beschränkte Ableitung der nicht-linearen Transferfunktion bildet. In einer bevorzugten Ausführungsform enthält die nicht-lineare Transferfunktion den Logarithmus einer hyperbolischen Kosinusfunktion.
In einem weiteren Aspekt der Erfindung baut die Modellaufbaueinrichtung das nichtlineare Netzwerk-Modell basierend auf eine Schichtennetzwerkarchitektur auf, die ein Optimalwert-Netzwerk von Knoten mit Eingabe/Ausgabe-Zusammenhängen zueinander enthält. Das Optimalwert-Netzwerk enthält Transformationselemente. Jedes Transformationselement hat eine nicht-lineare Transferfunktion, einen gewichteten Eingabe-Koeffizienten und einen gewichteten Ausgabe-Koeffizienten. In diesem Aspekt schränkt der Optimierer das globale Verhalten des nicht-linearen Netzwerk-Modells durch Paarbildung der gewichteten Eingabe- und Ausgabekoeffizienten für jedes Transformationselement auf komplementäre Weise auf eine monotone Transformation basierend auf der anfänglichen Eingabe ein, um die monotone Transformation zu erhalten. Der komplementäre Zugang wird auch als "Komplementaritätspaarbildung" bezeichnet. Unter Verwendung dieses Zugangs stellt der Optimierer sicher, dass die globale Ausgabe des optimierten Modells eingeschränkt ist, so dass sie z. B. über die gesamte globale Ausgabe des optimierten Modells und über den gesamten Bereich der Eingabewerte monoton steigend ist.
In einem weiteren Aspekt der Erfindung enthalten die Vorrichtung und das Verfahren ein Hilfsmodell, das ein anderes Modell des nicht-linearen empirischen Prozesses darstellt, das von dem Anfangsmodell, dem nicht-linearen Netzwerk-Modell und dem optimierten Modell verschieden ist. Der Optimierer kann anhand von von dem Hilfsmodell erhaltenen Informationen die Optimierung des optimierten Modells einstellen. Das Hilfsmodell kann ein Modell mit Grundprinzipien des nicht-linearen empirischen Prozesses sein. Somit können Daten aus dem Zugang mit Grundprinzipien verwendet werden, um den von dem Optimierer ausgeführten Optimierungsprozess zu informieren und zu beeinflussen.
Der nicht-lineare empirische Prozess kann außerdem Teil eines größeren Prozesses sein, dessen Management durch eine an den Optimierer gekoppelte Steuerung ausgeführt wird. In diesem Fall übermittelt der Optimierer das optimierte Modell für den Einsatz in der Steuerung an die Steuerung. Somit kann das optimierte Modell als eine Komponente in einem größeren Modell enthalten sein, das andere Modellierungszugänge für andere Komponenten des größeren Modells verwenden kann.
Da der eingeschränkte nicht-lineare Approximator (z. B. das optimierte Modell) eine konsistentere und besser voraussagbare Ausgabe als herkömmliche universelle Approximatoren liefert, schaffen die Computervorrichtung und das Verfahren, die hier beschrieben sind, eine genauere Steuerung (oder Voraussage) des empirischen Prozesses und eine Verringerung der Streuung der Ausgabegröße.
In einem weiteren Aspekt schafft die vorliegende Erfindung eine Computervorrichtung und ein Verfahren zum Darstellen eines Industrieprozesses am Modell. Insbesondere enthalten eine Computervorrichtung und ein Verfahren zum Darstellen eines Polymerprozesses am Modell eine Modellerzeugung, eine Modellaufbaueinrichtung und einen Optimierer. Die Modellerzeugung spezifiziert eine nicht-lineare Basisfunktion für ein Anfangsmodell, das allgemein dem Polymerprozess entspricht, der modelliert werden soll. Das Anfangsmodell enthält eine anfängliche Eingabe und eine anfängliche Ausgabe. Die nicht-lineare Basisfunktion enthält einen Logarithmus einer hyperbolischen Kosinusfunktion. An die Modellerzeugung ist die Modellaufbaueinrichtung gekoppelt, um ein nicht-lineares Netzwerk-Modell basierend auf dem Anfangsmodell aufzubauen. Das nicht-lineare Netzwerk-Modell enthält die nicht-lineare Basisfunktion und hat mehrere Eingaben basierend auf der anfänglichen Eingabe. Das globale Verhalten für das nicht-lineare Netzwerk-Modell als Ganzes passt allgemein zu der anfänglichen Ausgabe. An die Modellaufbaueinrichtung ist ein Optimierer zum Optimieren des nicht-linearen Netzwerk-Modells basierend auf empirischen Eingaben gekoppelt, um ein optimiertes Modell zu erzeugen, indem das globale Verhalten des nicht-linearen Netzwerk-Modells durch Einstellen zeitlicher Abhängigkeiten basierend auf dem Bilden einer beschränkten Ableitung der nicht-linearen Basisfunktion eingeschränkt wird.
Mit der Aufnahme einer geeigneten Funktion (z. B. des Logarithmus einer hyperbolischen Kosinusfunktion) verwenden das nicht-lineare Netzwerk-Modell und der Optimierer eine beschränkte Ableitung basierend auf dieser Funktion, um die zeitlichen Abhängigkeiten für den eingeschränkten nicht-linearen Approximator (z. B. das optimierte Modell) einzustellen. Das resultierende globale Ausgabeverhalten ist in einer Weise eingeschränkt, dass es ohne das nicht voraussagbare Verhalten, das bei universellen Approximatoren basierend auf herkömmlichen neuronalen Netzwerkzugängen auftreten kann, allgemein zu dem erwarteten Verhalten für einen Polymerprozess während der gesamten Eingabedomäne von Eingabewerten für den Polymerprozess passt. Die Vorrichtung und das Verfahren der Erfindung schaffen eine genauere Steuerung eines bekannten oder laufenden Polymerprozesses in einer Industrieanlage sowie eine zuverlässigere Steuerung für ein neues Polymerprodukt (oder anderes chemisches Produkt), das in die Industrieanlage eingeführt wird. Außerdem kann ein Transfer eines Polymerprozesses basierend auf einem eingeschränkten nicht-linearen Approximator für eine ähnliche Industrieanlage leichter vorgenommen werden als ein Transfer basierend auf Polymerprozessmodellen, die durch herkömmliche Modellierungstechniken erzeugt werden.
Im Allgemeinen stellt die größere Konsistenz und Steuerung des eingeschränkten nichtlinearen Approximators für irgendeinen am Modell dargestellten empirischen Prozess ein besser voraussagbares Ergebnis für das globale Verhalten des Modells sicher.
KURZBESCHREIBUNG DER ZEICHNUNG
Die vorstehenden sowie weitere Aufgaben, Merkmale und Vorteile der Erfindung werden offensichtlich aus der folgenden genaueren Beschreibung bevorzugter Ausführungsformen der Erfindung, wie sie in der beigefügten Zeichnung veranschaulicht sind, in der sich gleiche Bezugszeichen in allen verschiedenen Ansichten auf die gleichen Teile beziehen. Die Zeichnung ist nicht notwendig maßstabsgerecht und die Betonung liegt stattdessen auf der Veranschaulichung der Prinzipien der Erfindung.
1 ist ein Blockschaltplan einer Computerimplementierung einer bevorzugten Ausführungsform der vorliegenden Erfindung.
2 ist ein Diagramm der Entwicklungsphasen eines eingeschränkten nicht-linearen Approximators in der bevorzugten Ausführungsform.
3 ist ein Beispiel der Architekturspezifikation eines eingeschränkten nicht-linearen Approximators.
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
1 ist ein Blockschaltplan einer bevorzugten Ausführungsform des Verfahrens und der Vorrichtung der vorliegenden Erfindung, wie sie in einem digitalen Prozessor 22 implementiert sind. Die veranschaulichte Computervorrichtung 20 (und das veranschaulichte Verfahren) zum Einschränken eines nicht-linearen Approximators zur Darstellung eines empirischen Prozesses am Modell ist in einem digitalen Prozessor 22 implementiert, der ein Modellierungsmodul 24 und eine Steuerung 26 in einem Arbeitsspeicher wie etwa in einem RAM (Schreib-Lese-Speicher) beherbergt und ausführt. Das Modellierungsmodul 24 enthält eine Anfangsmodellerzeugung 34, eine Modellaufbaueinrichtung 36 und einen Optimierer 38. Die Komponenten des Computersystems 20 (z. B. die Steuerung 26, die Anfangsmodellerzeugung 34, die Modellaufbaueinrichtung 36 und der Optimierer 38) sind wie in 1 gezeigt in dem digitalen Prozessor 22 implementiert oder in alternativen Ausführungsformen in irgendeiner Kombination in zwei oder mehr Digitalprozessoren, die in einer verteilten Computeranordnung in Verbindung miteinander angeordnet sind, implementiert. Außerdem können die Komponenten 34, 36 und 38 in einer Online-Umgebung implementiert sein, in der die Steuerung 26 und/oder die anderen Komponenten 34, 36 oder 38 mit dem modellierten empirischen Prozess in Wechselwirkung stehen, oder können die Komponenten 34, 36 und 38 in einer Offline-Umgebung implementiert sein.
Das unter Verwendung der Anfangsmodellerzeugung 34 durch einen Modellentwickler spezifizierte Anfangsmodell 40 schafft eine Spezifikation des allgemeinen Zusammenhangs einer Einzeleingabe und einer Einzelausgabe für den zu modellierenden empirischen Prozess. Das Anfangsmodell 40 ist eine allgemeine (z. B. graphische) Form, eine Menge von Datenpunkten, eine nicht-lineare Basisfunktion oder eine andere geeignete Spezifikation des allgemeinen Eingabe/Ausgabe-Zusammenhangs für das Modell. Wie später ausführlicher diskutiert wird, ist das durch die Modellaufbaueinrichtung 36 erzeugte nicht-lineare Netzwerk-Modell 42 ein auf dem Anfangsmodell 40 und auf einer geeigneten Modellierungsarchitektur basierendes Modell des empirischen Prozesses. Das nicht-lineare Netzwerk-Modell 42 hat mehrere Eingaben, die auf der anfänglichen Eingabe des Anfangsmodells 40 und auf einem globalen Verhalten für das nicht-lineare Netzwerk-Modell 42 als Ganzes, das allgemein zu der anfänglichen Ausgabe des Anfangsmodells 40 passt, beruhen. Das optimierte Modell 44 ist eine durch den Optimierer 38 erzeugte optimierte Version des nicht-linearen Netzwerk-Modells 42.
Die Modelleingabe 28 in das Modellierungsmodell 24 wird aus Datendateien, aus einem anderen Software-Programm, von einem anderen Computer, von Eingabevorrichtungen (z. B. Tastatur, Maus usw.) und dergleichen eingegeben. Die Eingabe 30 empirischer Daten in die Steuerung 26 (oder in das Modellierungsmodul 24) wird von Sensorvorrichtungen (z. B. für einen Herstellungsprozess), von Überwachungs-Software (z. B. für Aktienmarktpreise), von einem anderen Software-Programm, von einem anderen Computer, von Eingabevorrichtungen (z. B. Tastatur, Maus, usw.) und dergleichen eingegeben. Die Modellausgabe 32 wird an die Steuerung 26, an einen anderen Computer, an einen Ablagespeicher, an ein anderes Software-Programm und/oder an Ausgabevorrichtungen (z. B. an einen Anzeigemonitor usw.) geliefert. Die Steuerungsausgabe 46 wird an Stellglieder (z. B. zum Steuern eines Teils eines Prozesses in einem Herstellungswerk), an eine Austauschstelle (z. B. zum Aufgeben einer Bestellung an einer Börse), an einen anderen Computer, an einen Ablagespeicher, an ein anderes Software-Programm und/oder an Ausgabevorrichtungen (z. B. an einen Anzeigemonitor usw.) und dergleichen geliefert. Selbstverständlich kann das Computersystem 22 zur gemeinsamen Nutzung oder Verteilung von Eingabe- und Ausgabedaten durch geeignete Verbindungen mit einem lokalen Netzwerk, mit einem Weitverkehrsnetzwerk, mit einem globalen Netzwerk (z. B. mit dem Internet) oder mit ähnlichen solchen Netzwerken verbunden sein.
Der Optimierer 38 in 1 ist vorzugsweise ein Optimierer aus der Aspen Open Solvers Optimiererbibliothek, die von Aspen Technology, Inc., aus Cambridge, Massachusetts (Anmelder der vorliegenden Erfindung) geliefert wird. Ein solcher Optimierer ist DMO/SQP^®, ebenfalls von Aspen Technology, Inc. Andere nicht-lineare Optimierer können zur Verwendung mit der Erfindung geeignet sein. In einer bevorzugten Ausführungsform ist die Steuerung ein Teil Aspen Apollo der von Aspen Technology, Inc., gelieferten Aspen Advantage Control Suite. Eine weitere zur Verwendung mit der Erfindung geeignete Steuerung 26 ist die DMC Plus^® von Aspen Technology, Inc. In einer Ausführungsform ist die Modellaufbaueinrichtung 36 ein Generator eines nichtlinearen Netzwerks, wie er etwa von Aspen IQ^TM von Aspen Technology, Inc., geliefert wird.
In einer Ausführungsform liefert ein Computerprogrammprodukt 80, das ein computerlesbares Medium (z. B. eine oder mehrere CDROM, Disketten, Bänder usw.) enthält, Software-Anweisungen für die Anfangsmodellerzeugung 34, für die Modellaufbaueinrichtung 36 und/oder für den Optimierer 38. Das Computerprogrammprodukt 80 kann durch irgendeine geeignete Software-Installationsprozedur, wie sie im Gebiet wohlbekannt ist, installiert werden. In einer weiteren Ausführungsform können die Software-Anweisungen außerdem über eine drahtlose Verbindung heruntergeladen werden. Ein durch das Computerprogramm fortgepflanztes Signalprodukt 82, das in einem fortgepflanzten Signal in einem Fortpflanzungsmedium (z. B. einer Funkwelle, einer Infrarotwelle, einer Laserwelle, einer Schallwelle oder einer elektrischen Welle, die über das Internet oder über ein anderes Netzwerk fortgepflanzt wird) verkörpert ist, liefert Software-Anweisungen für die Anfangsmodellerzeugung 34, für die Modellaufbaueinrichtung 36 und/oder für den Optimierer 38. In alternativen Ausführungsformen ist das fortgepflanzte Signal eine analoge Trägerwelle oder ein digitales Signal, das in dem fortgepflanzten Medium übertragen wird. Beispielsweise kann das fortgepflanzte Signal ein digitalisiertes Signal sein, das über das Internet oder über ein anderes Netzwerk fortgepflanzt wird. In einer Ausführungsform ist das fortgepflanzte Signal ein Signal, das wie etwa die Anweisungen für eine Software-Anwendung, die über eine Dauer von Millisekunden, Sekunden, Minuten oder länger in Paketen über ein Netzwerk gesendet werden, über eine Zeitdauer über das Fortpflanzungsmedium übertragen wird. In einer weiteren Ausführungsform ist das computerlesbare Medium des Computerprogrammprodukts 80 ein Fortpflanzungsmedium, das der Computer wie etwa durch Empfangen des Fortpflanzungsmediums und Identifizieren eines fortgepflanzten Signals, das in dem Fortpflanzungsmedium verkörpert ist, wie oben für das durch das Computerprogramm fortgepflanzte Signalprodukt 82 beschrieben empfangen und lesen kann.
Nunmehr anhand von 2, die ein Diagramm der Entwicklungsphasen des eingeschränkten nicht-linearen Approximators in der bevorzugten Ausführungsform ist, sind die in 2 gezeigten Phasen selbstverständlich gleichwertig Schritten in einer Prozedur zur Entwicklung und Optimierung eines nicht-linearen eingeschränkten Approximators und zur Schaffung einer weiteren Online-Optimierung für ihn.
Die Phase 100 ist die Spezifikation der allgemeinen E/A-Abbildungstrajektorie, die die Ausgabe des Anfangsmodells 40 darstellt. Ein Modellentwickler verwendet die Anfangsmodellerzeugung 34, um durch Angabe des allgemeinen Zusammenhangs zwischen einer Einzeleingabe und einer Einzelausgabe (d. h. einer Trajektorie) das Anfangsmodell 40 zu spezifizieren. Die Ausgabe oder Trajektorie soll das Verhalten eines empirischen Prozesses (z. B. eines physikalischen, chemischen, Wirtschafts-, Finanz- oder anderen empirischen Prozesses) während der Zeit darstellen. Diese Phase 100 umfasst die Spezifikation der allgemeinen Form der Zuwachstrajektorie eines chemischen Prozesses wie etwa eines Polymerprozesses. In einem Polymerprozess stellt die Zuwachstrajektorie die Trajektorie der Ausgabe des Polymerprozesses dar, wie sie von einem Anfangszustand (z. B. Null-Ausgabezustand) in einen stationären Zustand der Polymerproduktion wie in einer Polymerindustrieproduktionsanlage fortschreitet. Der Zugang der Erfindung schafft eine bessere Steuerung der Zuwachstrajektorie und somit einen genaueren Klassenübergang, der den Prozentsatz der erstmaligen Produktion des Produkts in der Spezifikation erhöht.
In 1 ist eine Implementierung des allgemeinen Prozesses der E/A-Abbildungsphase 100 durch das Anfangsmodell 40 gezeigt, das das Ergebnis dieser Phase 100 darstellt. Für die Phase 100 ist die allgemeine E/A-Abbildung graphisch, algebraisch oder generisch (d. h. durch den Optimierer 38 gelernt) spezifiziert. In einem Zugang der Verwendung der Erfindung verwendet ein Modellentwickler die Anfangsmodellerzeugung 34, um basierend auf der Kenntnis des Entwicklers von dem Prozess auf der Anzeige des Computersystems 20 eine graphische Form (d. h. das Anfangsmodell 40) zu zeichnen, die eine allgemeine graphische Form der Zuwachstrajektorie darstellt. In einem weiteren Zugang kann ein Modellentwickler eine Tabelle oder Datenbank der Eingabe- und Ausgabedaten liefern, die eine allgemeine Form der E/A-Abbildung für das Anfangsmodell 40 spezifiziert.
Außerdem kann die allgemeine E/A-Abbildung durch ein Modell mit Grundprinzipien bestimmt werden, das auf den physikalischen Grundeigenschaften des Prozesses basiert. Beispiele solcher Systeme zur Darstellung von Grundprinzipien am Modell werden vom Anmelder Aspen Technology, Inc., aus Cambridge, Massachusetts, geliefert und sind in den gemeinsam übertragenen US-Patentanmeldungen, lfd. Nr. 09/678.724 mit dem Titel "Computer Method and Apparatus for Determining State of Physical Properties in a Chemical Process" und 09/730.466 mit dem Titel "Computer Method and Apparatus for Optimized Controller in a Non-Linear Process", beschrieben, die hier beide durch Literaturhinweis eingefügt sind.
In einer bevorzugten Ausführungsform wählt der Modellentwickler eine nicht-lineare Basisfunktion aus, die eine allgemeine E/A-Form liefert, die allgemein der erweiterten Form für den empirischen Prozess entspricht und als das Anfangsmodell 40 dient. Beispielsweise wählt der Modellentwickler in Reaktion auf bestimmte Einflüsse (z. B. fallende Zinssätze) eine nicht-lineare Basisfunktion aus, die eine nicht-lineare monoton steigende Form liefert, die für viele nicht-lineare empirische Prozesse wie etwa für einen Polymerprozess oder für ein Aktienmarktverhalten geeignet ist. Eine solche nicht-lineare Basisfunktion kann eine hyperbolische Funktion wie etwa ein hyperbolischer Tangens oder der Logarithmus eines hyperbolischen Kosinus sein, der eine nicht-lineare allgemein monoton steigende Form liefert. Wie später ausführlicher diskutiert wird, bestimmen spätere Phasen des Prozesses (d, h. die Phasen 102 und 104) eine beschränkte Ableitung der linearen Basisfunktion, um die zeitlichen Abhängigkeiten für die eingeschränkte Trainingsphase 104 (d. h. Optimierungsphase) zu bestimmen, falls der Modellentwickler eine geeignete Transferfunktion wie etwa den Logarithmus eines hyperbolischen Kosinus auswählt.
In einer weiteren Ausführungsform der Erfindung wird in der Phase 100 durch einen Optimierer (nicht notwendig durch denselben Optimierer wie den Optimierer 38 aus 1) die allgemeine E/A-Abbildung bestimmt (d. h. gelernt). Beispielsweise wird ein Optimierer verwendet, um basierend auf der Eingabe 30 empirischer Daten ein (nicht mit dem nicht-linearen Netzwerk des Modells 42 zu verwechselndes) neuronales Netzwerk zu trainieren. Die Ausgabe des neuronalen Netzwerks stellt dann eine allgemeine Form der E/A-Abbildung dar, die als das Anfangsmodell 40 dient. In diesem Fall dient ein Optimierer als eine Anfangsmodellerzeugung 34, während das neuronale Netzwerk als das Anfangsmodell 40 dient.
Die Phase 102 ist die Spezifikation der Architekturverbindungen der Transferfunktionen zum Erzeugen eines nicht-linearen Netzwerk-Modells 42 des empirischen Prozesses. In 1 ist eine Implementierung der Architekturverbindungsphase 102 durch die Modellaufbaueinrichtung 36 gezeigt, die als das Ergebnis dieser Phase 102 das nichtlineare Netzwerk-Modell 42 erzeugt. Die Phase 102 umfasst das Aufbauen des nichtlinearen Netzwerk-Modells 42 basierend auf dem Anfangsmodell 40 und das Einrichten von zeitlichen Abhängigkeiten für das nicht-lineare Netzwerk-Modell 42, die der Optimierer 38 später in der eingeschränkten Trainingsphase 104 verwendet, um sicherzustellen, dass die Modellausgabe 32 des optimierten Modells 44 innerhalb der zeitlichen Abhängigkeiten liegt. Im Allgemeinen widerspiegeln die zeitlichen Abhängigkeiten die Kenntnis eines Modellentwicklers dessen, wie sich das empirische Modell verhalten sollte. In einer bevorzugten Ausführungsform wählt der Modellentwickler zeitliche Abhängigkeiten, die eine monoton steigende Ausgabe für das globale Verhalten des optimierten Modells 44 als Ganzes (z. B. eines Polymerprozesses) sicherstellen. In anderen Ausführungsformen wählt der Modellentwickler zeitliche Abhängigkeiten, die ein anderes Verhalten wie etwa ein monoton fallendes Verhalten oder ein Ausgabeverhalten mit einer eingeschränkten Anzahl von Wendepunkten (z. B. mit nicht mehr als einem Wendepunkt) sicherstellen. In einer weiteren Ausführungsform kann ein anderer Zugang als einer, der hauptsächlich auf der Kenntnis des Modellentwicklers basiert, wie etwa eine Analyse eines empirischen Prozesses durch ein Computerprogramm, um in der Phase 100 eine allgemeine E/A-Abbildung für das Anfangsmodell 40 und in der Phase 102 geeignete einzurichtende zeitliche Abhängigkeiten zu bestimmen, verwendet werden, um zu bestimmen, wie das Ausgabeverhalten eingeschränkt werden sollte.
In der bevorzugten Ausführungsform der Phase 102 wird eine nicht-lineare Transferfunktion basierend auf der nicht-linearen Basisfunktion ausgewählt (z. B. ist die nichtlineare Transferfunktion dieselbe wie die nicht-lineare Basisfunktion oder in einer Weise geändert). Die Modellaufbaueinrichtung 36 setzt Transformationselemente fest und nimmt in jedes Transformationselement eine nicht-lineare Transferfunktion auf.
Außerdem hat jedes Transformationselement einen gewichteten Eingabekoeffizienten und einen gewichteten Ausgabekoeffizienten. Daraufhin kombiniert die Modellaufbaueinrichtung 36 die Transformationselemente in einem Optimalwert-Netzwerk von Knoten, um Schichten in einer Schichtennetzwerkarchitektur zu bilden. Typisch liefert jedes Transformationselement in einer Schicht Ausgaben an alle Transformationselemente in der nächsten Schicht. Daraufhin verarbeitet jedes Transformationselement in der nächsten Schicht die von allen Transformationselementen in der vorausgehenden Schicht empfangenen Eingaben beispielsweise durch Summieren der Eingaben und Transformieren der Summe durch die nicht-lineare Transferfunktion, um Ausgaben zu erzeugen, die daraufhin als Eingaben an die Transformationselemente in der nächsten Schicht geliefert werden.
Wie ausführlicher für die eingeschränkte Trainingsphase 104 beschrieben wird, werden die gewichteten Eingabekoeffizienten und die gewichteten Ausgabekoeffizienten gepaart, um die Monotonie in den Ausgaben jedes Transformationselements im Vergleich zu den Eingaben sicherzustellen, mit dem Ergebnis, dass das globale Verhalten des nichtlinearen Netzwerk-Modells 42 auf ein monotones Verhalten eingeschränkt ist. Je nach der Form des Anfangsmodells 40, das auf dem globalen Verhalten des modellierten empirischen Prozesses basiert, ist dieses Monotonieverhalten entweder ein monoton steigendes Verhalten oder ein monoton fallendes Verhalten. In einem Zugang der Erfindung, der als "komplementäre Paarbildung" bezeichnet wird, werden der gewichtete Eingabekoeffizient bzw. die gewichteten Eingabekoeffizienten und der gewichtete Ausgabekoeffizient bzw. die gewichteten Ausgabekoeffizienten für jedes Transformationselement gepaart, so dass alle Ausgaben das gleiche Vorzeichen (negativ oder positiv) wie die Eingaben haben. Wenn beispielsweise alle Eingaben in ein Transformationselement positiv sind, stellt der komplementäre Paarbildungszugang sicher, dass alle Ausgaben dieses Transformationselements ebenfalls positiv sind.
Das in der Phase 102 aufgebaute nicht-lineare Netzwerk-Modell 42 kann ein neuronales Netzwerk sein, wobei aber von der Erfindung nicht gefordert wird, dass es ein neuronales Netzwerk ist. Im Allgemeinen sind herkömmliche neuronale Netzwerke universelle Approximatoren, die in Bereichen fehlender oder niedriger Modelleingabedaten 28 möglicherweise nicht voraussagbar funktionieren, während das nicht-lineare Netzwerk-Modell 42 der Erfindung verwendet wird, um in der Phase 104 einen eingeschränkten nicht-linearen Approximator zu entwickeln, der in Gebieten fehlender oder niedriger in der eingeschränkten Trainingsphase 104 verwendeter Modelleingabedaten 28 ein zuverlässiges globales Verhalten wie etwa eine steigende Monotonie liefert.
In einer weiteren Ausführungsform ist die nicht-lineare Basisfunktion eine Funktion, die zur Verwendung bei der Lieferung einer beschränkten Ableitung geeignet ist, wobei die beschränkte Ableitung der nicht-linearen Basisfunktion verwendet wird, um, wie für diese Phase 104 diskutiert wird, während der eingeschränkten Trainingsphase 104 zeitliche Abhängigkeiten zu liefern. Beispiele der nicht-linearen Basisfunktion sind Funktionen, die auf dem hyperbolischen Tangens, der S-Funktion und dem Logarithmus einer hyperbolischen Kosinusfunktion basieren.
Wie oben beschrieben wurde, enthält in einer bevorzugten Ausführungsform jedes Transformationselement in der Schichtennetzwerkarchitektur für das nicht-lineare Netzwerk-Modell 42 eine nicht-lineare Transferfunktion, die auf der nicht-linearen Basisfunktion basiert. Der Prozess des Einstellens von zeitlichen Abhängigkeiten durch das Bilden einer beschränkten Ableitung wird später ausführlicher beschrieben. Selbstverständlich wird von der Erfindung nicht gefordert, dass die Transformationselemente alle dieselbe nicht-lineare Transferfunktion haben, wobei verschiedene Transformationselemente verschiedene nicht-lineare Transferfunktionen haben können, die nicht notwendig auf der in Phase 100 bestimmten nicht-linearen Basisfunktion basieren.
Die Phase 104 ist die eingeschränkte Trainingsphase oder das Paradigma, das die Modellkoeffizienten optimiert, so dass die allgemeine Form der E/A-Abbildungen, die in Phase 100 spezifiziert wurden, während des Trainings (d. h. während der Optimierung) des Modells erhalten bleibt. Eine Implementierung der Phase 104 des eingeschränkten Trainings (d. h. der Optimierung) ist durch den Modelloptimierer 38 in 1 gezeigt, der im Ergebnis dieser Phase 104 das optimierte Modell 44 erzeugt. Die Phase 104 umfasst das Optimieren des nicht-linearen Netzwerk-Modells 42 basierend auf empirischen Eingaben (z. B. der Modelleingabe 28 oder der Eingabe 30 der momentanen empirischen Daten), um durch Einschränken des globalen Verhaltens des nicht-linearen Netzwerk-Modells 42 das optimierte Modell 44 zu erzeugen. Für die Phase 104 kann die Modelleingabe 28 Prozessstammdaten wie etwa die Stammdaten für eine Industrieprozessanlage (z. B. Polymerprozessanlage) oder Stammdaten über einen Wirtschaftsprozess (z. B. Aktienmarkt) oder eine Menge hypothetischer Modelldaten, die einen empirischen Prozess darstellen, darstellen. Für die Phase 104 kann die Eingabe 30 empirischer Daten momentane empirische Daten von einem momentan aktiven empirischen Prozess wie etwa von einer Online-Industrieprozessanlage oder von einem Wirtschaftsprozess darstellen. In diesem Fall empfängt der Optimierer 38 die Eingabe 30 empirischer Daten in einem Online-Zustand; d. h., empfängt er die empirische Dateneingabe 30 in einem Echtzeit- oder nahezu Echtzeitrahmen (der z. B. das Puffern oder eine andere beschränkte Verzögerung beim Empfang der Daten 30 ermöglicht, nachdem sie von dem aktiven empirischen Prozess abgetastet oder aufgezeichnet worden sind).
In der Phase 104 erzeugt der Optimierer 38 das optimierte Modell 44, indem er das Verhalten des nicht-linearen Netzwerk-Modells 42 einschränkt, während das Modell 42 die Eingabedaten 28 oder 30 empfängt, um das Modell 42 zu trainieren, so dass es zu der allgemeinen E/A-Abbildung passt, die in dem Anfangsmodell 40 spezifiziert und durch die in der Phase 102 eingerichteten zeitlichen Abhängigkeiten (z. B. durch komplementäre Paarbildung, durch eine beschränkte Ableitung der nicht-linearen Transferfunktion oder durch einen anderen Zugang mit zeitlichen Abhängigkeiten) eingeschränkt ist. In einer bevorzugten Ausführungsform schränkt der Optimierer 38 die Modellausgabe 32 basierend auf den wie in Phase 102 beschriebenen zeitlichen Abhängigkeiten ein, so dass sie monoton steigt. In alternativen Ausführungsformen schränkt der Optimierer 38 die Modellausgabe 32 durch andere Kriterien ein.
Im Allgemeinen versucht der Optimierer 38 in der bevorzugten Ausführungsform, das nicht-lineare Netzwerk-Modell 42 dadurch zu optimieren, dass er den Modellfehler untersucht und die Gewichte der Ein- und Ausgabekoeffizienten in der Weise einstellt, dass die Transformationselemente den Modellfehler verringern. Um sicherzustellen, dass irgendeine Aktualisierung an dem Modell 42 die ursprünglichen zeitlichen Abhängigkeiten erfüllt, prüft der Optimierer 38 ständig (oder häufig) die Ergebnisse der Optimierung im Vergleich zu den zeitlichen Abhängigkeiten. Falls eine aktualisierte Version des Modells 42 die zeitlichen Abhängigkeiten verletzt, stellt der Optimierer 38 die Koeffizienten in einem Versuch, das nicht-lineare Netzwerk-Modell 42 in die zeitlichen Abhängigkeiten zu bringen, als Teil des Prozesses des Änderns des Modells 42 in einer anderen Richtung ein (erhöht er z. B. einen Koeffizientenwert, falls er zuvor verringert wurde), so dass es zu dem optimierten Modell 44 wird.
Die Phase 106 ist der Modelleinsatz, der den Einsatz des optimierten Modells 44 in einer empirischen Situation wie etwa beim Steuern eines Industrieprozesses oder beim Voraussagen eines Wirtschaftsprozesses (z. B. Aktienmarkts) umfasst.
In 1 ist eine Implementierung der Modelleinsatzphase 106 durch die Steuerung 26 gezeigt, die so funktioniert, dass sie einen empirischen Prozess (z. B. Polymerprozess) basierend auf dem optimierten Modell 44 über die durch die Steuerung 26 erzeugte Steuerungsausgabe 46 steuert. In dieser Phase 106 empfängt die Steuerung 26 (oder Voraussage) von den Sensoren, die die Eingaben und Zustände der verschiedenen Aspekte eines Industrieprozesses überwachen, die Eingaben 30 empirischer Daten. Das optimierte Modell 44 verarbeitet die Eingaben und liefert Steuerungsausgaben 46, die zur Steuerung des Industrieprozesses verwendet werden. Beispielsweise stellt das optimierte Modell 44 in einem Polymerprozess durch elektronisches Einstellen der Einstellung an einem Eingabeventil, das den Strom einer Chemikalie steuert, den Strom dieser Chemikalie in dem Prozess ein.
In einer weiteren Implementierung wird das optimierte Modell 44 wie in einer Finanzvoraussage, die zur Voraussage eines Finanzprozesses wie etwa des Aktienmarkts dient, als ein Prädiktor eingesetzt. Die Finanzvoraussage kann außerdem als eine Finanzsteuerung 26 dienen, die basierend auf dem optimierten Modell 44 des Finanzprozesses Finanzaktionen wie etwa den Kauf oder Verkauf von Aktien anfordert.
Die Steuerung 26 der Phase 106, deren Zuwachs mit dem optimierten Modell 44 (d. h. mit dem eingeschränkten nicht-linearen Approximator) geplant ist, ist eine robustere Steuerung als eine Steuerung, deren Zuwachs mit einem universellen Approximator gesteuert wird, wobei sich die Steuerung 26 über den gesamten Betriebsbereich des Prozesses auf voraussagbare Weise verhält.
Die Phase 108 ist die Hybridmodellierungsphase, die die Aufnahme oder Hinzufügung anderer Modellstrukturen (anderer als das Anfangsmodell 40, das nicht-lineare Netzwerk-Modell 42 und das optimierte Modell 44) umfasst, die dazu verwendet werden können, die eingeschränkte Trainingsphase 104 zu beeinflussen oder sich auf die Modelleinsatzphase 106 auszuwirken.
In einem Zugang ist die andere Modellstruktur ein Hilfsmodell, das dazu verwendet wird, beim Training des nicht-linearen Netzwerk-Modells 42 in der eingeschränkten Trainingsphase 104 zu helfen, es zu verfeinern oder zu beeinflussen. Beispielsweise ist das Hilfsmodell ein Modell mit Grundprinzipien wie etwa ein Modell mit Grundprinzipien eines chemischen Prozesses (z. B. Polymerprozesses).
Dadurch, dass die Verwendung anderer Modelle zugelassen wird, schafft der Zugang der Erfindung unter Verwendung einer Kombination von Ingenieurkenntnis, Modellen mit Grundprinzipien, regressionsbasierten Modellen und des hier beschriebenen eingeschränkten nicht-linearen Approximators oder eines Teils davon eine genauere Voraussage sowohl der geschlussfolgerten Eigenschaften als auch der Ableitungen.
In einem weiteren Zugang ist das in Phase 108 gelieferte andere Modell ein größeres oder Gesamtmodell, das einen größeren empirischen Prozess oder einen empirischen Gesamtprozess am Modell darstellt. In diesem Zugang ist das optimierte Modell 44 ein Teil oder Aspekt des größeren Modells oder stellt das optimierte Modell 44 einen Schritt oder eine Prozedur in dem größeren Prozess dar. Beispielsweise kann das optimierte Modell 44 in einem Polymerprozess ein Modell für eine Komponente des Gesamtpolymerprozesses wie etwa für einen Reaktor sein. Das optimierte Modell 44 kann außerdem als Kind eines Vaters betrachtet werden, der den größeren empirischen Prozess am Modell darstellt. Allgemein kann das optimierte Modell 44 in einem größeren Modell enthalten oder ihm zugeordnet sein oder eine Eingabe in das größere Modell liefern sowie einem solchen größeren Modell helfen, es beeinflussen oder leiten. Außerdem kann irgendeines der anderen Modelle 40 und 42 der Erfindung mit einem größeren Modell verwendet werden, wobei irgendwelche der Komponenten (d. h. die Anfangsmodellerzeugung 34, die Modellaufbaueinrichtung 36 und der Optimierer 38) der Erfindung auf ähnliche Weise wie es oben für das optimierte Modell 44 beschrieben worden ist, mit einem größeren Modell verwendet werden können, einem größeren Modell zugeordnet werden können, in einem größeren Modell enthalten sein können oder eine Eingabe in ein größeres Modell liefern können.
Die Phase 110 ist die eingeschränkte Online-Modellanpassung, die die Feinabstimmung oder Korrektur eines optimierten Modells 44 umfasst, das in der Modelleinsatzphase 106 eingesetzt worden ist. Diese Feinabstimmung oder Anpassung des optimierten Modells 44 kann gefordert werden, falls die Steuerung 26 eine Eingabe für ein neues Datengebiet empfängt, das durch die Modelleingabe 28, die in Phase 104 zum Trainieren des nichtlinearen Netzwerk-Modells 42 verwendet worden ist, um das optimierte Modell 44 zu erzeugen, nicht dargestellt (oder niedrig dargestellt) wurde. Beispielsweise liefert das optimierte Modell 44 (d. h. der eingeschränkte nicht-lineare Approximator) eine Ausgabe, die in dem neuen Gebiet allgemein monoton steigend ist, aber eine weitere Optimierung erfordern kann, um ein verbessertes Ergebnis zu erhalten. Außerdem kann diese Anpassung erforderlich sein, falls sich die Leistung des optimierten Modells 44, wie es in der Steuerung 26 eingesetzt wird, verschlechtert oder die ursprünglichen Erwartungen nicht erfüllt hat.
In der Phase 110 prüft der Optimierer 38 die Ergebnisse der Online-Optimierung im Vergleich zu den zeitlichen Abhängigkeiten, um sicherzustellen, dass irgendeine Aktualisierung an dem optimierten Modell 44 die ursprünglichen zeitlichen Abhängigkeiten erfüllt. Falls eine aktualisierte Version des optimierten Modells 44 die zeitlichen Abhängigkeiten verletzt, stellt der Optimierer 38 die Koeffizienten in einem Versuch, das Modell 44 innerhalb der zeitlichen Abhängigkeiten zu bringen, in einer anderen Richtung ein (erhöht er z. B. einen Koeffizientenwert, falls er zuvor verringert wurde). Im Allgemeinen ist der Prozess der eingeschränkten Online-Modellanpassung in Phase 110 ähnlich dem Prozess des eingeschränkten Trainings in Phase 104.
Das modulare Wesen dieser Erfindung bedeutet, dass jede Phase 100, 102 und 104 unabhängig von den anderen implementiert werden kann. Beispielsweise kann der in Phase 104 beschriebene Trainingsalgorithmus auf ein neuronales Mehrschichtwahrnehmungsnetzwerk angewendet werden, um die Funktion einzuschränken, so dass bestimmte Eingabe/Ausgabe-Zusammenhänge über ihre gesamte Eingabedomäne monoton eingeschränkt sind.
Die Erfindung ermöglicht, dass jeder Eingabe/Ausgabe-Zusammenhang isoliert behandelt wird. Somit werden möglicherweise einige Eingabe/Ausgabe-Zusammenhänge uneingeschränkt gelassen, was ermöglicht, dass sie eine vollständige universelle Approximationsfähigkeit besitzen. Andere Eingabe/Ausgabe-Zusammenhänge können eingeschränkt werden, so dass sie monoton sind, während andere eine allgemeine Zuwachstrajektorienform erhalten können, die sie einhalten sollen.
Die Erfindung umfasst sowohl stationäre als auch dynamische Modellierungsarchitekturen, die sowohl für die Zuwachsplanung als auch für nicht-lineare Programme in stationären Optimierern verwendet werden können.
Mathematische Grundlagen der Erfindung
Die folgenden Abschnitte beschreiben die mathematischen Grundlagen der Erfindungen. Die Überschriften sind nicht einschränkend zu verstehen. Ein Gegenstand, der in einer Überschrift angegeben ist, kann hierin ebenfalls an anderer Stelle diskutiert werden.
Diese folgenden Abschnitte beschreiben eine Implementierung des früher für die 1 und 2 beschrieben nicht-linearen Netzwerk-Modells 42.
Allgemeine Struktur
Die Monotoniebedingungen werden dem nicht-linearen Netzwerk-Modell 42 sowohl über die Architektur (Phase 102) als auch über die Beschränkung des Trainingsalgorithmus (Phase 104) auferlegt. Da es klarer ist, die Berechnungen der ersten und zweiten Ableitungen in allgemeiner Form zu beschreiben, definieren die folgenden Abschnitte zunächst die Berechnungen für ein allgemeines neuronales Optimalwert-Netzwerk (im Folgenden "neuronales Netz". Spätere Abschnitte betrachten daraufhin die spezifischen Mittel zur Auferlegung der Monotonie.
Schreibweise
Ein allgemeines neuronales Optimalwert-Netz enthält eine geordnete Menge von L Schichten. Die Stellung jedes Verarbeitungselements (PE) in einer Schicht wird durch einen tief gestellten Index dargestellt – wobei i, j, k, l, m und n als PE-Indizes verwendet werden. Das Verarbeitungselement ist ein Beispiel des für die Phase 102 aus 2 beschriebenen Transformationselements. Jedes PE hat einen Summationswert x_i und einen Ausgabewert y_i sowie eine Transferfunktion f_i, die x_i mit y_i verknüpft. Die Verarbeitungselemente in verschiedenen Schichten werden bei Bedarf durch einen hoch gestellten Index in Klammern unterschieden – wobei p, q, r und s als Schichtindizes verwendet werden. Die Gewichte zwischen den PEs werden als w_ij ^(p,
q) bezeichnet, was das Verbindungsgewicht von y_j ^(q) zu x_i ^(p), q < p, darstellt.
Es wird angemerkt, dass dies ermöglicht, dass mehrere Schichten eine gegebene Schicht versorgen; eine systematische Abweichung lässt sich in dieser Struktur leicht dadurch behandeln, dass sie als eine Einzelelementschicht mit ihrem Summationswert x_i = 1 und einer linearen Transferfunktion spezifiziert wird.
Datenskalierunng
Neuronale Netze erfordern, dass Daten in normierte Einheiten skaliert werden. Dies erfolgt typisch durch eine lineare Abbildung, die die Trainings- und Testdaten auf einen Mittelwert 0 und auf eine Standardabweichung 1 transformiert.
Optimalwert-Gleichungen
Zielfunktion
Für das Training des neuronalen Netzes (ein Beispiel des nicht-linearen Netzwerk-Modells 42) wird eine Menge gemessener Datenpunkte verwendet. Diese enthält eine Menge gemessener Eingaben und die entsprechenden gemessenen Ausgaben (ein Beispiel der Modelleingabe 28, die beim Training des nicht-linearen Netzwerk-Modells 42 in der Phase 104 aus 2 verwendet wird). Das neuronale Netz versucht, diese Abbildung zwischen den gemessenen Eingaben und den gemessenen Ausgaben wiederherzustellen, so dass die Ausgaben in Abwesenheit von Messungen geschätzt werden können. Dieses Training wird dadurch erreicht, dass eine Zielfunktion aufgebaut wird, die ein Maß für die Güte der Anpassung ist. Allerdings enthalten die Daten außerdem Rauschen und unechte Zusammenhänge, so dass die Zielfunktion außerdem einen Term enthält, der die Komplexität in der Abbildung verhindert.

Schreibweise:

JD ist das Maß dafür, wie gut das neuronale Netz an die Daten angepasst ist, wobei es eine Funktion einer Datenmenge und indirekt der Gewichte ist. J_W ist der Regularisierungsterm, der eine Überanpassung verhindert und eine direkte Funktion der Gewichte ist.
Ableitungen
Die Berechnung der Ableitungen in einen neuronalen Optimalwert-Netz wird als Rückwärtsfortpflanzung bezeichnet, da sie Ableitungen des Ziels in Bezug auf die Gewichte dadurch berechnet, dass sie die Ableitung des Ziels in Bezug auf die Ausgaben zurück über das Netzwerk fortpflanzt. Dabei wird von einer Kettenregel Gebrauch gemacht, die in der Welt der neuronalen Netze Werbos zugeschrieben wird. Siehe Paul John Werbos, "The Roots of Backpropagation: From Ordered Derivatives to Neural Networks and Political Forecasting (Adaptive and learning systems for signal processing)", Januar 1994.
Der Gewichtsgradient ist dann als: DJwij (p,q) = yj (q)DJxi (p) q < p (4)zu berechnen.
Zweite Ableitungen
Einige Optimierer (z. B. der Optimierer 38) machen Gebrauch von Informationen über Hessesche Matrizen. Es zeigt sich, dass Informationen über Hessesche Matrizen in einem allgemeinen neuronalen Optimalwert-Netz analytisch dadurch berechnet werden können, dass Informationen vorwärts und rückwärts über das Netzwerk geleitet werden. Die Vorstellung ist, jede der Ableitungen aus dem vorausgehenden Abschnitt als an die Originalmenge der Variablen (der x, der y und der w) angehängt zu betrachten. Daraufhin wird die Werbos-Kettenregel zur Berechnung der zweiten Ableitungen verwendet. Für jedes Gewicht w_mn ^{(r, s)} wird
≡ D_Jw_mn ^(r,sq) als das neue Ziel betrachtet. Das Ziel ist die Berechnung von
(w_ij ^(p,q)). Daraufhin wird beginnend bei der Zielschicht des gegebenen Gewichts ein Vorwärts- und Rückwärtsdurchlauf über das Netzwerk ausgeführt, der bei der Quellschicht des gegebenen Gewichts endet:
Daraufhin wird unter Verwendung der in der folgenden Gleichung (6) gezeigten Formel die Hessesche Matrix mit Bezug auf die Gewichte berechnet:
Es wird angemerkt, dass der Vorwärts- und Rückwärtsdurchlauf über das Netzwerk für jedes Gewicht ausgeführt werden muss, für das eine 2-te Ableitung benötigt wird. Allerdings können anschließend irgendwelche der zweiten Ableitungen, die das Gewicht enthalten, leicht mit zwei Multiplikationen und einer Addition berechnet werden.
Die Summationen, Ausgaben und rückwärts fortgepflanzten Informationen von dem ursprünglichen Vorwärts- und Rückwärtsdurchgang (die zur Berechnung des Ziels und des Gradienten verwendet werden) müssen während dieser Hesseschen Durchläufe aufrechterhalten werden, da die Formeln Gebrauch von ihnen machen. Außerdem unterscheidet sich ein Hessescher Vorwärts- und Rückwärtsdurchlauf wie folgt von dem Original:

i. Der r-ten Schicht wird
(D_Jx_i ^(r)) als die Eingabe (d. h. als ein Summationswert) zugeführt.
ii. In dem Vorwärts-Durchlauf: (a) werden die Quellschichten unter der p-ten Schicht initialisiert, so dass sie die Ausgabe 0 haben, (b) wird die ursprüngliche Transferfunktion an jedem Knoten durch eine skalare Multiplikation mit dem Original f_k'(x_k ^(m)) ersetzt.
iii. Durch Multiplizieren der Ausgabe von dem Vorwärtsdurchgang mit der Hesseschen Matrix der Originalzielfunktion J in Bezug auf die Originalausgaben wird der Wert für die Rückkopplung berechnet. Für Standard-RMS-Fehler-basierte Ziele ist diese Hessesche Matrix lediglich eine Konstante mal der Einheitsmatrix.
iv. In dem Rückwärtsfortpflanzungsdurchlauf: (a) wird lediglich zu der Quellenschicht der Gewichte rückwärts fortgepflanzt. (b) gibt es nun ebenfalls einen Term mit einer zweiten Ableitung für
(x_i ^(p)), der mit der gesicherten Ausgabe von dem Optimierungsschritt multipliziert wird. (c) hat die Ableitung
(y_n ^(s)) einen Zusatzterm D_Jx_m ^(r), der ihren direkten Einfluss auf
darstellt.

Herkömmliches Training
Herkömmliche Trainingsalgorithmen für einen Standardoptimalwert wenden einen nicht eingeschränkten Optimierer zur Minimierung der Zielfunktion an. Typisch sind die einzigen Entscheidungsvariablen die Gewichte. Das Ziel und seine Ableitungen und zweiten Ableitungen in Bezug auf die Gewichte werden unter Verwendung der obigen Formeln berechnet.
Transferfunktionen
Für Demonstrationszwecke werden drei Transferfunktionen zur Verwendung in einer bevorzugten Ausführungsform der vorliegenden Erfindung beschrieben. Die hier beschriebenen Transferfunktionen für die Erfindung sind nicht auf diese drei Beispiele beschränkt. In verschiedenen Ausführungsformen kann die Erfindung irgendeine nichtlineare Transformation nutzen und dennoch eine verbesserte Modellarchitektur (z. B. ein nicht-lineares Netzwerk-Modell 42) zur Verwendung in modellbasierten Steuerungs- und Optimierungsschemata erzeugen. Die Aktivierungs- oder andere Transformation kann tatsächlich ein neuronales (oder anderes nicht-lineares) Netzwerk mit einer einzigen Eingabe/einzigen Ausgabe sein, das an einer anwenderdefinierten Eingabe/Ausgabe oder Zuwachstrajektorienabbildung (d. h. einem Anfangsmodell 40) trainiert werden konnte. Es ist die eingeschränkte Optimierung (z. B. die eingeschränkte Trainingsphase 104 aus
2), die die Robustheitseigenschaften erzeugt, die in fortgeschrittenen Steuerungs- und Optimierungsschemata erwünscht sind. Die Probentransferfunktionen sind: tanh, S-Funktion und asymmetrische beschränkte Ableitung (ABD). Ihre Formeln, Ableitungen und zweiten Ableitungen sind wie folgt:
Tanh

y = tanh(x) y' = 1 – y2 y'' = –2·y·y' (7)

S-Funktion

y = 0,5(tanh(x) + 1) y' = y – y2 y'' = (1 – 2y)·y' (8)

ABD

y = α·x + β·ln(cosh(x)) y' = α + β·tanh(x) y'' = β·(1 – tanh2(x)) (9)

Die in einer bevorzugten Ausführungsform der Erfindung verwendete ABD-Transferfunktion ist unter den folgenden Bedingungen monoton positiv: β ≥ 0, α – β > 0 oder β ≤ 0, α + β > 0 (10)
Weitere Vorteile der ABD-Formulierung (die Gleichungen in (9)) sind, dass der Eingabe/Ausgabe-Zusammenhang an den Extrempunkten der Daten nicht gesättigt wird. Tatsächlich ist es die Ableitung (y' = α + β·tanh(x)) der Funktion (y = α·x + β·ln(cosh(x))), die gesättigt wird, was lineare Modelle in den Extrapolationsgebieten liefert (z. B., wenn in Datengebiete eingetreten wird, die in den Trainingsdaten wie etwa in der Modelleingabe 28 fehlen oder niedrig bedeckt sind).
Monotoniestruktur neuronaler Netze
Die folgenden Abschnitte beschreiben Beispiele für das Einrichten zeitlicher Abhängigkeiten für ein nicht-lineares Netzwerk-Modell 42 in einer bevorzugten Ausführungsform der Erfindung. Die einschränkenden Bedingungen für die Monotonie werden durch Folgendes beschrieben (sind darauf aber nicht beschränkt):
Komplementaritätsbedingungen
Die drei für diese Erfindung beschriebenen Probentransferfunktionen (Gleichungen 7, 8 und 9) sind monotone Transformationen. Die S-Funktionsaktivierung und der hyperbolische Tangens sind ebenfalls rotationssymmetrisch, d. h. tanh(x) = –tanh(–x) (11)
Das Superpositionsgesetz ermöglicht, dass, wenn zwei positiv monotone Funktionen miteinander addiert werden, die resultierende Transformation ebenfalls positiv monoton ist. Ähnlich ist die resultierende Transformation negativ monoton, wenn zwei negativ monotone Funktionen miteinander addiert werden.
Der Ausgabeknoten des nicht-linearen Netzwerk-Modells 42 ist im Wesentlichen eine lineare Summation monotoner Transformationen. Somit ist die Gesamtmonotonie des Eingabe/Ausgabe-Zusammenhangs erhalten, wenn das Vorzeichen des Koeffizienten, der eine Eingabevariable auf einen verborgenen Knoten abbildet, und das Vorzeichen des Koeffizienten, der diesen Knoten mit der Ausgabeschicht verbindet, (für alle verborgenen Knoten) komplementär zu der gewünschten Monotonierichtung sind.
Beispiel der Einstellung der Komplementaritätsbedingungen
Falls gefordert ist, dass der gewünschte Eingabe/Ausgabe-Zusammenhang positiv monoton ist, sollten für ein nicht-lineares Netzwerk-Modell 42 mit vier verborgenen Knoten mit den Ausgabegewichtsvorzeichen von jeweils (+, –, +, –) die entsprechenden Koeffizienten, die diese Eingabe auf jeden verborgenen Knoten abbilden, jeweils (+, –, +, –) sein. Zwei Koeffizienten mit negativen Vorzeichen in Serie erzeugen eine positiv monotone Transformation, wie sie in Gleichung (11) beschrieben ist. Obgleich die ABD-Transformation die in Gleichung (11) beschriebene Rotationssymmetrie nicht erfüllt, ist die Funktion –ABD(–x) positiv monoton und erzeugt so weiter eine insgesamt positive Eingabe/Ausgabe-Monotonie. Die gleiche Logik gilt für negativ monotone Transformationen.
Die folgenden Abschnitte geben zwei Beispiele der Architektur eingeschränkter nichtlinearen Approximatoren (CNA-Architektur), die zur Verwendung bei der Entwicklung von Beispielen des nicht-linearen Netzwerk-Modells 42 aus Phase 102 von 2 geeignet ist. Das erste Beispiel veranschaulicht eine nicht-lineare 6-Schichten-Schichtennetzwerk-CNA-Architektur, während das zweite Beispiel eine nicht-lineare 5-Schichten-Schichtennetzwerk-CNA-Architektur veranschaulicht. Die Verwendung der Ausdrücke "erstes Beispiel" und "zweites Beispiel" soll in keiner Weise einschränkend sein.
Erstes Beispiel der CNA-Architektur (für sechs Schichten)
3 ist ein Beispiel der Architekturspezifikation eines eingeschränkten nicht-linearen 6-Schichten-Approximators (6-Schichten-CNA-Architekturspezifikation) für ein Beispiel eines nicht-linearen Netzwerks, das als die Basis für ein Beispiel eines nicht-linearen Netzwerk-Modells 42 verwendet werden kann. Die tatsächliche in diesem Diagramm ausführlich dargestellte Architektur ist das Integral eines nicht-linearen Netzwerks, bei dem die nicht-lineare verborgene Schicht eine Summation, gefolgt von einer ABD-Transformation (z. B. ln(cosh(x))-Transformation) enthält und bei der das Integral des nicht-linearen Netzwerks als gleichwertig zu dem nicht-linearen Netzwerk-Modell 42 betrachtet wird. Obgleich in dieser Erfindung irgendeine Schichtenarchitektur verwendet werden kann, wird in der bevorzugten Ausführungsform das nicht-lineare Netzwerkintegral verwendet, für das das neuronale Netzwerkintegral ein Beispiel ist. Wie zuvor diskutiert wurde, sind herkömmliche neuronale Netzwerke (die z. B. in universellen Approximatoren verwendet werden) gut darin, Eingabe/Ausgabe- Zusammenhänge vorauszusagen, aber schlechte Voraussager von Ableitungen. Somit bedeutet das Anpassen eines nicht-linearen Netzwerkintegrals an die Eingabe/Ausgabe-Daten, dass das nicht-lineare Netzwerk (d. h. die Ableitung des nicht-linearen Netzwerk-Modells 42) die zugrunde liegende Architektur ist, die die Ableitung des Zusammenhangs an die Trainingsdaten anpasst. Dies bildet somit eine Lösung für das Problem der Erzeugung robuster, nicht-linearer empirischer Modelle (z. B. des nichtlinearen Netzwerk-Modells 42) mit gutartigen Ableitungen. Die hier beschriebenen Beispiele der CNA-Architektur arbeiten gut in Regelschemata wie etwa Industrieproduktionsanlagen für chemische Prozesse. Da es bei dieser CNA-Architektur die Modellableitung (z. B. die Ableitung eines optimierten Modells 44, das auf einem nichtlinearen Netzwerk-Modell 42 basiert) (nicht der tatsächliche Eingabe/Ausgabe-Zusammenhang) ist, die gesättigt wird, konvergieren die Modelle (z. B. die optimierten Modelle 44) außerdem in den Extrapolationsgebieten stetig gegen lineare Modelle.
Wie in 3 gezeigt ist, enthält das nicht-lineare Netzwerk 50 eine Eingabeschicht 200, eine Schicht 201 systematischer Abweichungen, eine transformierte Schicht 202, eine lineare verborgene Schicht 203, eine nicht-lineare Aktivierungsschicht 204, eine lineare Aktivierungsschicht 205 und eine Ausgabeschicht 206. Die Eingabeschicht 200 enthält eines oder mehrere Elemente LO; die Schicht 201 systematischer Abweichungen enthält eines oder mehrere Elemente L1; die transformierte Schicht 202 enthält eines oder mehrere Elemente L2; die lineare verborgene Schicht 203 enthält eines oder mehrere Elemente L3; die nicht-lineare Aktivierungsschicht 204 enthält eines oder mehrere Elemente L4; die lineare Aktivierungsschicht 205 enthält eines oder mehrere Elemente L5; und die Ausgabeschicht 206 enthält eines oder mehrere Elemente L6.
Die Trainingsdaten (z. B. die Modelleingabe 28) werden an die Eingabeschicht 200 übergeben. Jeder Knoten L0 bis L6 in der Architektur stellt ein Verarbeitungselement (PE) dar. Jedes Verarbeitungselement hat eine oder mehrere Eingaben und eine oder mehrere Ausgaben. Typisch summiert das Verarbeitungselement (z. B. die Verarbeitungselemente L3) irgendwelche Eingaben in es und übergibt daraufhin diese Summation über eine Transferfunktion. Die Transferfunktion kann (wie im Fall der Schicht 204) nicht-linear oder linear sein (wobei die summierten Eingaben tatsächlich die Ausgabe des Verarbeitungselements bilden).
Jeder Pfeil in 3 stellt einen Modellkoeffizienten (oder ein Gewicht) dar. Die Verbindungen (Pfeile) zwischen der Eingabeschicht 200 und der transformierten Schicht 202 werden (in diesem Beispiel in 3) auf einen Wert 1 festgesetzt. Dies ist eine Transformationsschicht 202, die es ermöglicht, die Richtung der Eingabedaten bei Bedarf zu ändern (d. h. die Koeffizienten auf –1 zu wechseln).
Die Schicht 201 systematischer Abweichungen liefert einen systematischen Abweichungsterm. Die Verbindung dieser Schicht 201 mit der Ausgabeschicht 206 stellt im Wesentlichen den "konstanten" Term dar, der bei der Integration eines neuronalen Netzwerks auftritt.
Die Schicht 203 ist eine verborgene Schicht, wo die Eingaben einfach miteinander addiert werden. In dieser Schicht 203 wird keine Transformation ausgeführt. In einem herkömmlichen neuronalen Netzwerk würden diese Summationen daraufhin über eine S-Funktion (S-förmige Funktion) oder über eine Hyperbolische-Tangens-Aktivierungsfunktion übergeben. In dem Integralfall (d. h. in dem Integralzugang unter Verwendung der Techniken der Erfindung) werden die Summationen von der Schicht 203 über das Integral des hyperbolischen Tangens übergeben (d. h. Integral(q·tanh(v *X)) = a·X + b·log(cosh(v·X)) + c). Dies wird durch die Schichten 204, 205 und 201 erreicht. Schließlich sind die transformierten Eingaben von der Schicht 205 direkt mit der Ausgabeschicht 206 verbunden. In einem herkömmlichen neuronalen Netzwerk stellt diese Verbindung das Integral des systematischen Abweichungsterms dar.
Die Schichten-CNA-Architektur aus 3 ist ein Beispiel einer nicht-linearen Netzwerkarchitektur, die in dieser Erfindung verwendet werden kann. Das in 3 veranschaulichte Beispiel und das in den folgenden Abschnitten beschriebene zweite Beispiel können in irgendeiner Anwendung der nicht-linearen empirischen Modellierung verwendet werden.
Zweites Beispiel der CNA-Architektur (für fünf Schichten)
Die folgenden Abschnitte beschreiben ein zweites Beispiel einer CNA-Architektur, die zur Verwendung mit der Erfindung geeignet ist.
Die hier für das zweite CNA-Architekturbeispiel beschriebene monotone neuronale Netzwerkstruktur enthält fünf Schichten. Die fünf Schichten enthalten die Eingabeschicht, die Schicht systematischer Abweichungen, die vorzeichenbehaftete Eingabeschicht, die verborgene Schicht und die Ausgabeschicht. Die Erfindung ist nicht auf irgendeine spezifische Anzahl von Schichten beschränkt. Um gutartige nicht-lineare Modelle zur Verwendung in modellbasierten Steuer- und Optimierungsschemata zu erzeugen, schließt die Erfindung irgendwelche solchen eingeschränkten neuronalen Architekturen, die einen nicht-linearen Einschränkungsoptimierungsalgorithmus verwenden, ein.
Die Nichtstandardschicht ist die vorzeichenbehaftete Eingabeschicht, die zur Darstellung der Richtung der Nicht-Linearität verwendet wird.
Schichtschema für das zweite Beispiel der CNA-Architektur
Verbindungsschema für das zweite Beispiel der CNA-Architektur
Die folgende Tabelle zeigt das Verbindungsschema zwischen den Schichten. Eine vollständige Verbindung bedeutet, dass jedes PE in der Quellschicht mit jedem PE in der Zielschicht verbunden ist. Eine entsprechende Verbindung bedeutet, dass die Quell- und die Zielschicht die gleiche Anzahl PEs besitzen und dass jedes PE in der Quellschicht mit dem entsprechenden PE in der Zielschicht verbunden ist.
Spezifikation der Monotonie für das zweite Beispiel der CNA-Architektur
In dem als "Komplementaritätspaarbildung" bezeichneten Zugang kann der Modellentwickler zunächst die Monotonie jeder Eingabevariablen als eine der folgenden spezifizieren:

– monoton positiv
– monoton negativ
– unbekannte Monotonie
– nicht monoton.

Die Menge der Indizes, die diesen vier Optionen entsprechen, wird jeweils als I₊, I_–, I_? und I_nicht bezeichnet. Die Monotonie wird dadurch erreicht, dass den Gewichten der Datenwege zwischen der vorzeichenbehafteten Eingabeschicht (Schicht 3) und der Ausgabe-PE-Schicht (Schicht 5) zeitliche Abhängigkeiten auferlegt werden. Diese Datenwege sind indirekt über die verborgene Schicht (Schicht 4). Die zeitlichen Abhängigkeiten werden unter Verwendung der in dem Abschnitt "Schreibweise" beschriebenen Indexschreibweise wie folgt spezifiziert: Cji ≡ wlj (5,4)wji (4,3) < 0, i ∊ I+ ⋃ I– ⋃ I? (12)
Da die Transferfunktionen in jeder Schicht monoton positiv sind, stellt jeder Weg zwischen der vorzeichenbehafteten Eingabeschicht und dem Ausgabe-PE eine monoton positive Berechnung dar. Es ist die Aufgabe der Gewichte zwischen der Eingabeschicht und der vorzeichenbehafteten Eingabeschicht, die Richtung der Monotonie zu liefern.
Einschränkung der Richtung der Monotonie für das zweite Beispiel der CNA-Architektur
Falls die Richtung der Monotonie durch den Anwender im Voraus spezifiziert wird, ist das Gewicht zwischen der Eingabe und der vorzeichenbehafteten Eingabe darauf eingeschränkt, dass es dieses Vorzeichen trägt. Ansonsten wird diesem Gewicht keine zeitliche Abhängigkeit auferlegt. Mathematisch: wii (3,1) > 0 ∊ i+ wii (3,1) < 0 ∊ i– (13)
Zielfunktion für das zweite Beispiel der CNA-Architektur
Unter Verwendung der Schreibweise in Abschnitt 0 ist:
wobei β^(p,q) ein Abstimmparameter ist. Bei dieser Implementierung sind sämtliche β^(p,q) mit Ausnahme von β^(3,1), das auf 0 gesetzt wird, so dass die Monotoniebestimmung nicht behindert wird, als ein einziger Regularisierungs-Abstimmparameter mit einem kleinen Standardwert vom Anwender einstellbar.
Eingeschränkte Ableitungen für die zweite CNA-Architektur
Die eingeschränkten Ableitungen besitzen eine dünn besiedelte Struktur: Jede zeitliche Abhängigkeit hat lediglich 2 von null verschiedene Ableitungen, was insgesamt 2 × H × NM von null verschiedene eingeschränkte Ableitungen ergibt, wobei H die Anzahl verborgener PEs und NM die Anzahl der monotonen Eingabevariablen ist:
Nun kann irgendein eingeschränkter nicht-lineare Optimierer 38 zum Erzeugen der Modelllösung verwendet werden. Dies schließt die Diskussion der zweiten CNA-Architektur ab.
Zeitliche Abhängigkeiten, die auf einer beschränkten Ableitung basieren
In einer bevorzugten Ausführungsform der Erfindung können zeitliche Abhängigkeiten, die auf einer asymmetrischen beschränkten Ableitung basieren, berechnet werden. Mit Bezug auf das in 3 gezeigte Beispiel eines nicht-linearen Netzwerks 50 ist die allgemeine Gleichung, die ein Beispiel des Eingabe/Ausgabe-Zusammenhangs in 3 beschreibt: Gleichung (16)
Wegen der Schreibweise wird auf den hier zuvor gegebenen Abschnitt "Schreibweise" verwiesen.
In diesem Beispiel ist der Logarithmus des hyperbolischen Kosinus als die nicht-lineare Transferfunktion (Aktivierungsfunktion) gewählt worden, die eine beschränkte Ableitungstrajektorie liefert (die Ableitung der Funktion log(cosh()) ist der beschränkte hyperbolische Tangens).
Die Ableitung von Gleichung 16 kann wie folgt berechnet werden: Gleichung (17)
Die theoretischen Schranken an die obige Funktion (Gleichung 17) können wie folgt berechnet werden: Gleichungen (18) und (19)
Wegen der Sättigung der hyperbolischen Tangensfunktion zwischen den obigen Grenzwerten ist sichergestellt, dass die Ableitung von Gleichung (16) global innerhalb der durch die Gleichungen (18) und (19) beschriebenen Schranken liegt.
Welche Schranke die obere und welche die untere ist, hängt vom Vorzeichen von w_kk(2, 0) ab.
Während des Trainings des Modells 44 können die obigen Schranken in jeder Optimierungsiteration berechnet werden. Die Ableitungen der obigen Schranken in Bezug auf jeden Koeffizienten in dem Modell 44 können berechnet werden und anhand der obigen Schranken, die innerhalb spezifischer Grenzwerte liegen, dem Modell 44 zeitliche Abhängigkeiten auferlegt werden (wobei z. B. eine untere Schranke von null und eine obere Schranke von 1·10²⁰ sicherstellt, dass der Eingabe/Ausgabe-Zusammenhang für diese Eingabe global positiv monoton ist). Eine untere Schranke etwas größer als null stellt die allgemeine Extrapolationsfähigkeit sicher.
Falls die Eingaben in das in Gleichung (16) beschriebene Modell 44 Zustandsvektoren, z. B. von einem Zustandsraummodell, sind, können die Gesamtzuwächse des stationären Zustands zwischen den tatsächlichen Modelleingaben und den Ausgaben dadurch beschränkt werden, dass der Beitrag des stationären Zustands jeder Zustandsvariablen zu der Ausgabe (für diese besondere Eingabe) als eine lineare Menge von Gewichtsfaktoren in die Gleichungen (18) und (19) aufgenommen wird. Beispiele solcher Zustandsraummodelle werden vom Anmelder Aspen Technology, Inc., aus Cambridge, Massachusetts, geliefert und sind in der gemeinsam übertragenen US-Patentanmeldung, lfd. Nr. 09/160.128, eingereicht am 24. September 1998, mit dem Titel "Non-linear Dynamic Predictive Device" , und in dem gemeinsam übertragenen US-Patent Nr. 5.477.444, erteilt am 19. Dezember 1995, mit dem Titel "Control System Using an Adaptive Neural Network for a Target and Path Optimization for a Mulitvariate, Nonlinear Process", beschrieben, die hier beide durch Literaturhinweis eingefügt sind.
Funktion des beschränkten Optimierers
Dieser Abschnitt beschreibt, wie der Optimierer 38 beim Erzeugen des optimierten Modells 44 aus dem nicht-linearen Netzwerk-Modell 42 funktioniert.
Der Optimierer 38 erfordert eine Zielfunktion. In diesem Fall ist die Zielfunktion typisch das Quadrat des Modellfehlers E = (y – y_Ziel)². Um diese Zielfunktion zu minimieren, erfordert der Optimierer 38 Informationen darüber, wie jeder Koeffizient des nichtlinearen Netzwerk-Modells 42 den Modellfehler beeinflusst (d. h.
. Um diese Zusammenhänge für die Modellarchitektur eines Schichtennetzwerks analytisch abzuleiten, kann die Theorie der Rückwärtsfortpflanzung verwendet werden. Diese Daten werden als die 'Jacobi-Determinante' des nicht-linearen Netzwerk-Modells 42 bezeichnet. Die Rückwärtsfortpflanzungstheorie kann erweitert werden, so dass sie Informationen über zweite Ableitungen (d. h. über die Hessesche Matrix) enthält. Mit diesen Informationen ausgerüstet kann der Optimierer 38 seine Suche zur Minimierung des Modellfehlers beginnen. In einer bevorzugten Ausführungsform werden dieser Optimierung bestimmte zeitliche Abhängigkeiten auferlegt. Ein einfacher Fall sind die zeitlichen Abhängigkeiten der Gewichtspaarbildung für das hier beschriebene nichtlineare 5-Schichten-Netzwerk.
Eine zeitliche Abhängigkeit kann wie folgt formuliert werden: c1 = –w1w2 (20)
Wo es der Zweck der zeitlichen Abhängigkeit ist, muss c₁ immer negativ sein. Somit haben dann w₁ und w₂ das gleiche Vorzeichen (wobei w₁ und w₂ zwei Gewichte sind, die eingeschränkt werden sollen).
Allerdings berechnet der Optimierer 38 die obige zeitliche Abhängigkeit ununterbrochen. Falls der Wert von c₁ (oder irgendeiner der anderen zeitlichen Abhängigkeiten) während der Optimierung null erreicht oder positiv wird, wird der Optimierer 38 umgestellt, so dass er nicht mehr die Zielfunktion E zu minimieren versucht, sondern sich darauf konzentriert, die Berechnung der zeitlichen Abhängigkeit wieder kleiner als null zu machen. Hierzu muss der Optimierer 38 die Ableitungen der zeitlichen Abhängigkeit nach jedem der Koeffizienten in der zeitlichen Abhängigkeit kennen. Somit ist:
Ausgerüstet mit diesen Informationen versucht der Optimierer 38, die Verletzung der zeitlichen Abhängigkeit zu beseitigen. Wenn keine weitere Verringerung des Ziels erreicht werden kann, wird die Optimierung abgeschlossen.
Die zeitliche Abhängigkeit der Paarbildung (d. h. Komplementaritätspaarbildung) ist lediglich ein Beispiel dafür, wie Schichtenmodellarchitekturen zu beschränken sind, um einen spezifischen Typ des globalen Verhaltens (in diesem Fall die Monotonie) sicherzustellen. Der Zugang der Erfindung kann verwendet werden, um diese Modelle allgemein zu beschränken, um ein spezifisches globales Modellverhalten (nicht notwendig die Monotonie) zu erhalten. Beispielsweise hat die Integralarchitektur des nicht-linearen Netzwerks (oder des Netzwerks mit beschränkten Ableitungen) spezifische Schranken an die Modellableitung, die durch den Optimierer 38 berechnet werden können. Da sie berechnet werden können, können sie als eine spezifische Anwendung der vorliegenden Erfindung eingeschränkt werden.
Alternative Optimierungsstrategien
Die bisher beschriebenen Zugänge sind Beispiele der vielen Arten, wie die neuronalen Netzwerke beschränkt werden können, um die Hauptmerkmale des eingeschränkten nicht-linearen Approximators der vorliegenden Erfindung sicherzustellen. Alternative Strategien können die Optimierung ohne analytische Ableitungen (z. B. die Approximation mit endlichen Differenzen), Straffunktionen für nicht monotone Lösungen (z. B. Verletzungen der Komplementarität von Eingabegewicht zu verborgenem Gewicht/verborgenem Gewicht zu Ausgabegewicht) und die eingeschränkte Optimierung der ABD-Aktivierungsfunktionen, bei der die zeitlichen Abhängigkeiten die minimale und/oder maximale Ableitung jeder Aktivierungsfunktion und irgendeine Linearkombination davon sind, enthalten (sind darauf aber nicht beschränkt).

Claims

Verfahren zur Darstellung eines nicht-linearen empirischen Prozesses am Modell das die folgenden Schritte umfasst: ein Anfangsmodell (40) wird erzeugt, das im Allgemeinen dem nicht-linearen empirischen Prozess entspricht, der am Modell darzustellen ist, wobei das Anfangsmodell (40) eine anfängliche Eingabe und eine anfängliche Ausgabe besitzt; ein nicht-lineares Netzwerk-Modell (42) wird basierend auf dem Anfangsmodell (40) aufgebaut, wobei das nicht-lineare Netzwerk-Modell (42) mehrere Eingaben basierend auf der anfänglichen Eingabe und einem globalen Verhalten für das nichtlineare Netzwerk-Modell als Ganzes hat, das sich allgemein nach der anfänglichen Ausgabe richtet; und das nicht-lineare Netzwerk-Modell (42) wird, basierend auf empirischen Eingaben optimiert, um ein optimiertes Modell (44) zu erzeugen, wobei die Optimierung zwingende Ausgaben des nicht-linearen Netzwerk-Modelles (42) enthält, um i) verglichen mit den mehreren Eingaben monoton steigend oder monoton fallend oder ii) beschränkt hinsichtlich eines Grenz- bzw. Schwellenwertes zu sein derart, dass das globale Verhalten des nicht-linearen Netzwerk-Modelles (42) eingeschränkt wird, wobei die Einschränkung durch das Setzen bzw. Einstellen von zeitlichen Abhängigkeiten für eine nicht-lineare Basisfunktion basierend auf einer beschränkten Ableitung bzw. Derivates der nicht-linearen Basisfunktion erreicht wird.
Verfahren gemäß Anspruch 1, wobei der Schritt zum Entwerfen des Anfangsmodells (40) die Angabe einer allgemeinen Form einer Zuwachstrajektorie für den nichtlinearen empirischen Prozess einschließt.
Verfahren gemäß Anspruch 1, wobei der Schritt zum Entwerfen des Anfangsmodells (40) die Angabe einer nicht-linearen Transferfunktion einschließt, die für die Anwendung bei der Approximierung des nicht-linearen empirischen Prozesses geeignet ist.
Verfahren gemäß Anspruch 3, wobei das nicht-lineare Netzwerk in sich zusammenhängende Transformationselemente enthält und der Schritt zum Aufbauen des nichtlinearen Netzwerkes das Einbeziehen der nicht-linearen Transferfunktion in mindestens ein Transformationselement enthält.
Verfahren gemäß Anspruch 4, wobei der Schritt des Optimierens des nicht-linearen Modells das Setzen von zeitlichen Abhängigkeiten durch Benutzen einer beschränkten Ableitung bzw. Derivates der nicht-linearen Transferfunktion beinhaltet.
Verfahren gemäß Anspruch 5, wobei die nicht-lineare Transferfunktion den Logarithmus einer hyperbolischen Kosinusfunktion enthält.
Verfahren gemäß Anspruch 1; wobei das nicht-lineare Netzwerkmodell (42) auf einer Schichtennetzwerkarchitektur basiert, die ein Optimalwert-Netzwerk von Knoten mit Eingaben/Ausgabe-Zusammenhängen zueinander enthält, wobei das Optimalwert-Netzwerk Transformationselemente hat; jedes Transformationselement hat eine nicht-lineare Transferfunktion, einen gewichteten Eingabe-Koeffizienten und einen gewichteten Ausgabe-Koeffizienten; und wobei der Schritt des Optimierens des nicht-linearen Netzwerkmodells (42) das Einschränken des globalen Verhaltens des nicht-linearen Netzwerkmodells (42) auf eine monotone Transformation basierend auf der anfänglichen Eingabe durch Paarbildung der gewichteten Eingabe- und Ausgabekoeffizienten für jedes Transformationselement auf eine komplementäre Weise beinhaltet, um die monotone Transformation zu erhalten.
Verfahren gemäß Anspruch 1, wobei der Schritt zum Optimieren des nicht-linearen Netzwerkmodells (42) das Angleichen bzw. Einstellen der Optimierung basierend auf Information umfasst, die durch ein Hilfsmodell bereitgestellt werden, das ein weiteres Modell des nicht-linearen empirischen Prozesses darstellt, das von dem An fangsmodell (40), dem nicht-linearen Netzwerkmodell (42) und dem optimierten Modell (44) verschieden ist.
Verfahren gemäß Anspruch 8, wobei das Hilfsmodell ein Modell mit Grundprinzipien des nicht-linearen empirischen Prozesses ist.
Verfahren gemäß Anspruch 1, wobei der nicht-lineare empirische Prozess Teil eines größeren Prozesses ist und das Verfahren überdies den Schritt des Anwendens des optimierten Modells (44) in einer Steuerung (26), die den größeren Prozess steuert, umfasst.
Computervorrichtung zum Darstellen eines Polymerprozesses am Modell, das umfasst: eine Modellerzeugung zum Spezifizieren einer nicht-linearen Basisfunktion für ein Anfangsmodell (40), das allgemein dem Polymerprozess entspricht, der modelliert werden soll, wobei das Anfangsmodell (40) eine Anfangseingabe enthält, eine Anfangsausgabe und die nicht-lineare Basisfunktion, die einen Logarithmus einer hyperbolischen Kosinusfunktion enthält; eine Modellaufbaueinrichtung (36), die an die Modellerzeugung gekoppelt ist, um ein nicht-lineares Netzwerkmodell (42) basierend auf dem Anfangsmodell (40) aufzubauen, und die eine nicht-lineare Basisfunktion enthält, wobei das nicht-lineare Netzwerkmodell (42) mehrere Eingaben basierend auf der Anfangseingabe und einem allgemeinen Verhalten für das nicht-lineare Netzwerkmodell (42) als Ganzes hat, das im Allgemeinen zu der Anfangsausgabe passt; und einen Optimierer (38), der an die Modellaufbaueinrichtung (36) zum Optimieren des nicht-linearen Netzwerk-Modells (42) basierend auf empirischen Eingaben gekoppelt ist, um ein optimiertes Modell (44) zu erzeugen, wobei der Optimierer Ausgaben des nicht-linearen Netzwerk-Modelles (42) beschränkt, um i) verglichen mit den mehreren Eingaben monoton steigend oder monoton fallend oder ii) hinsichtlich eines Grenz- bzw. Schwellenwertes beschränkt zu sein, derart dass der Optimierer das allgemeine Verhalten des nicht-linearen Netzwerk-Modelles (42) beschränkt, wobei besagte Beschränkung durch das Setzen bzw. Einstellen von zeitlichen Abhängigkeiten für die nicht-lineare Basisfunktion, basierend auf einer beschränkten Ableitung der nicht-linearen Basisfunktion erreicht wird.