-
HINTERGRUND
-
Technisches Gebiet:
-
Diese
Erfindung betrifft ein integriertes omnidirektionales Kamera- und
Mikrofonarray. Im Besonderen betrifft diese Erfindung ein integriertes
omnidirektionales Kamera- und Mikrofonarray, das für Telefonkonferenz-
und Telefonsitzungs-Aufzeichnung verwendet werden kann.
-
Stand der Technik:
-
Videokonferenzsysteme
hatten einen begrenzten kommerziellen Erfolg. Dies ist auf viele
Faktoren zurückzuführen. Insbesondere
weisen diese Systeme typischerweise zahlreiche technische Mängel auf.
Schlechte Kamera-Blickwinkel und mangelhafte Bildauflösung erschweren
es den Sitzungsteilnehmern, die sprechende Person zu sehen. Dies wird
durch die ungenaue Sprechererkennung verstärkt (insbesondere bei Systemen
mit PTZ-(Pan-Tilt-Zoom [Schwenken-Neigen-Zoomen])Kameras), wodurch
bewirkt wird, dass die Kamera nicht auf die sprechende Person gerichtet
wird. Darüber
hinaus haben schlechte Videokomprimierungstechniken häufig eine
schlechte Videobildqualität
und eine „abgehackte" Bildanzeige zur
Folge.
-
Die
Erfassungseinrichtungen der Systeme, die für Telefonkonferenzen verwendet
werden, tendieren dazu, sich auf einige Hauptdatenquellen zu konzentrieren,
die nützlich
für das
Anschauen von Videokonferenzen und Videositzungen sind. Diese schließen Videodaten,
Audiodaten sowie elektronische Dokumente oder Präsentationen ein, die auf einem
Computermonitor angezeigt werden. Angesichts der Tatsache, dass
es zahlreiche Softwarelösungen
zur gemeinsamen Nutzung von Dokumenten und Präsentationen gibt, ist das Erfassen
von Audio- und Videodaten auf eine verbesserte Art und Weise von
besonderem Interesse.
-
Es
gibt drei verschiedene Verfahren zum Erfassen von Videodaten: PTZ-(Pan/Tilt/Zoom)Kameras,
spiegelbasierte omnidirektionale Kameras sowie Kameraarrays. PTZ-Kameras
sind derzeit die beliebteste Wahl, sie weisen jedoch zwei wesentliche
Beschränkungen
auf. Erstens können
sie nur ein begrenztes Bildfeld erfassen. Wenn sie zu nah heranzoomen,
geht der Kontext des Sitzungsraumes verloren; wenn sie zu weit herauszoomen,
ist die Mimik der Menschen nicht erkennbar. Zweitens ist die Reaktion
der Kamera auf die Sitzung (beispielsweise beim Umschalten zwischen
den Sprechern) langsam, da der Steuerungsmotor Zeit benötigt, um
die Kamera zu bewegen. Tatsächlich
können
sich die PTZ-Kameras nicht allzu viel oder allzu schnell bewegen,
da ansonsten die Personen, die sich die Sitzung anschauen, ziemlich
abgelenkt werden können.
-
Angesichts
dieser Nachteile und der neuesten technologischen Fortschritte bei
spiegel-/prismabasierten omnidirektionalen Vision-Sensoren haben Wissenschaftler
damit begonnen, die Art und Weise des Erfassens und Analysierens
von Video zu überdenken.
Beispielsweise stellt die BeHere Corporation eine 360°-Internetvideotechnologie
in Unterhaltungs-, Nachrichten- und Sportwebcasts bereit. Mit ihrer
Schnittstelle können
dezentrale Benutzer unabhängig
von anderen Zuschauern individuell festgelegte Kamerawinkel von
360° steuern,
um ein „Vor Ort"-Erlebnis zu erhalten.
Diese Methode überwindet zwar
die beiden Schwierigkeiten bezüglich
des begrenzten Bildfeldes sowie der langsamen Kamerareaktion der
PTZ-Kameras, jedoch tendieren diese Typen angesichts der heutigen
Technologie und Marktnachfrage dazu, teuer in der Fertigung zu sein.
Darüber
hinaus weisen diese spiegel-/prismabasierten omnidirektionalen Kameras
nur eine geringe Auflösung
(selbst mit 1MP-Sensoren) sowie Defokussierprobleme auf, wodurch
eine minderwertige Videoqualität
bewirkt wird.
-
Bei
einer weiteren Methode werden mehrere preiswerte Kameras oder Videosensoren
zusammengebaut, um ein omnidirektionales Kameraarray zu bilden.
Beispielsweise verwendet ein bekanntes System vier NTSC-(National
Television System Committee)Kameras, um einen Rundblick von einem
Sitzungsraum zu konstruieren. Es gibt jedoch Nachteile mit diesem
Design. Erstens stellen NTSC-Kameras ein Videosignal einer relativ
schlechten Qualität
bereit. Darüber
hinaus erfordern die vier Kameras vier Videoerfassungsboards, um
das Signal zu digitalisieren, bevor es analysiert, gesendet oder
aufgezeichnet werden kann. Aufgrund der Notwendigkeit von 4 Videoerfassungsboards erhöhen sich
die Kosten und die Komplexität
eines solchen Systems und es wird schwieriger, dieses herzustellen
und zu warten.
-
Zusätzlich zu
den im Zusammenhang mit der Videoerfassung erwähnten Problemen ist die Erfassung
von hochqualitativem Audio ebenfalls schwierig. Das Audioerfassungssystem
muss eine Vielzahl von Geräuschen
sowie Hall entfernen. Es muss ferner die Verstärkung für unterschiedliche Eingangssignalpegel
regeln. Im Allgemeinen gibt es drei Methoden, um diese Anforderungen
zu erfüllen.
Die einfachste Methode ist die Verwendung von Nahmikrofonen (wie
beispielsweise über
ein Headset), was jedoch lästig
und umständlich
für den
Benutzer/Sprecher ist. Eine zweite Methode ist das Platzieren eines Mikrofons
auf dem Sitzungsraumtisch. Dies verhindert mehrere Schallwege und
ist derzeit die bekannteste Methode zum Aufzeichnen von Sitzungs-Audio. Diese
Systeme verwenden mehrere (normalerweise drei) Hyperkardioid-Mikrofone,
um omnidirektionale Charakteristiken bereitzustellen. Die dritte
Methode wird in einem Desktop-Telefonkonferenzsystem
bereitgestellt. Bei dieser Methode wird ein unidirektionales Mikrofon
auf einer PTZ-Kamera montiert, des auf den Sprecher gerichtet ist.
Die Kamera/Mikrofongruppe wird durch einen Comuputer gesteuert,
der eine separate Gruppe von Mikrofonen verwendet, um die Schallquellenlokalisierung
durchzuführen.
Diese Methode erfordert zwei separate Mikrofonsets.
-
Ein
dem Stand der Technik entsprechendes System zum Erfassen von Audio-
und Videodaten, das ein Freibereich-Sicherheitssystem betrifft,
wird in dem Dokument
WO 97/08896 beschrieben.
Darüber hinaus
betreffen die Dokumente
US-A-4.658.425 und
WO 98/47291 ein Telefonkonferenzsystem
und das Dokument
US 2002/0057279 betrifft
ein Telepresence-Robotersystem.
-
ZUSAMMENFASSUNG
-
Die
Erfindung wird in den unabhängigen
Patentansprüchen
dargelegt.
-
Die
vorliegende Erfindung betrifft ein System und ein Verfahren, das
die vorstehend genannten Beschränkungen
bei Videokonferenz- und Videositzungs-Aufzeichnungssystemen überwindet.
Speziell verwenden das erfindungsgemäße Sys tem und Verfahren ein
integriertes omnidirektionales Kamera- und Mikrofonarray, um diese
Aufgabe erfüllen.
-
Im
allgemeinsten Sinne besteht die Erfindung aus einer zylindrischen
Stange, die dünn
genug ist, um für
die Frequenzbereiche der menschlichen Stimme (50–4000 Hz) akustisch unsichtbar
zu sein, und ein Kameraarray mit einem Mikrofonarray verbindet.
Als ein Ergebnis werden Schallbeugung und Shadowing eliminiert.
-
Das
integrierte Kamera- und Mikrofonarray verwendet eine 360 Grad-Kamera,
die zur Lösung
jedes der vorangehend genannten Probleme in Bezug auf Videokonferenzen
konzipiert ist. Die 360 Grad-Kamera kann in der Mitte eines Konferenztisches
positioniert werden, wodurch ein ausgezeichneter Kamerablickwinkel
der Teilnehmer im Vergleich zu einem herkömmlichen Videokonferenzsystem
erhalten wird (bei dem die Kamera an einem Ende des Raumes platziert
ist). Die Kamera ist von dem Tisch erhoben, um einen nahen frontalen
Blickwinkel der Sitzungsteilnehmer bereitzustellen. Darüber hinaus stellt
das integrierte Kamera- und Mikrofonarray eine ausreichende Auflösung für einen
dezentralen Zuschauer bereit, um die Mimik der Sitzungsteilnehmer zu
sehen (beispielsweise weist es in einer Arbeitsausführungsform
eine Auflösung
von 3000 × 480 auf).
Die Kamera kann von jeglichem omnidirektionalen Typ sein, der entweder
ein Kameraarray oder einen einzigen Videosensor mit einem hyperbolischen Spiegel
verwendet.
-
Das
Mikrofonarray weist eine ebene Konfiguration auf. Die Mikrofone
sind vorzugsweise an einer Mikrofonarraybasis angebracht, so dass
sie so nahe wie möglich
an dem Desktop angeordnet sind, um mögliche Schallreflexionen von
dem Tisch zu eliminieren. Wie vorangehend erwähnt wurde, ist die Kamera mit
der Mikrofonarraybasis mit Hilfe einer dünnen zylindrischen Stange verbunden,
die akustisch unsichtbar für
das Mikrofonarray für
den Frequenzbereich der menschlichen Stimme (das heißt, ungefähr 50–4000 Hz)
ist. Dadurch wird ein direkter Weg von der sprechenden Person zu
sämtlichen
der Mikrofone in dem Array bereitgestellt, wodurch es die Schallquellenlokalisierung
(Bestimmen der Position des Sprechers) sowie das Beamforming (Verbessern der
Schallqualität
des Sprechers durch das Herausfiltern des Schalls, der nicht aus
der Richtung des Sprechers kommt) ausgezeichnet durchführen kann. Das
integrierte Mikrofonarray wird verwendet, um eine Echtzeit-Schallquellenlokalisierung
durchzuführen,
und das Kame raarray wird mit der Computer-Vision-basierten Menschenerkennung
und -verfolgung verwendet, um fehlerfrei zu erkennen, wo die Sprecher
in dem Bild positioniert sind. Die audio- und videobasierte Sprechererkennung
kann für
das automatische Kameramanagement sowie für die in hohem Maße verbesserte
Videokomprimierung (beispielsweise durch Verwenden von mehr Bits
in den Gesichtsbereichen als für
den Hintergrund) verwendet werden.
-
Der
Ausgang des integrierten Kamera- und Mikrofonarrays ist vorzugsweise
mit dem PC verbunden, wo derartige Anwendungen, wie das Zusammenheften
und Komprimieren von Bildern, die Schallquellenlokalisierung, das
Beamforming und das Kameramanagement erfolgen können.
-
Eine
Arbeitsausführungsform
des integrierten Kamera- und Mikrofonarrays verwendet einen 1394
Bus, um Videosignale zu dem PC zu übertragen, sowie Analogkabel,
um Audiosignale zu einem Personalcomputer (PC) zu übertragen.
Fünf IEEE 1394
Kameras, die eine ausgezeichnete Videoqualität bieten und lediglich eine
einzige 1394 Karte erfordern, werden in dieser Ausführungsform
eingesetzt. Eine weitere alternative Ausführungsform verwendet eine einzige
Leiterplatte (Printed Circuit Board – PCB) für alle Kameras und Mikrofone,
so dass sämtliches
Audio und Video über
ein einziges 1394 Kabel gesendet werden. Das 1394 Kabel dient auch
der Strombereitstellung, so dass zwischen der Kamera und dem PC
lediglich ein einziges Kabel erforderlich ist.
-
Die
verwendeten Mikrofone können
entweder omnidirektional oder unidirektional sein, es werden jedoch
omnidirektionale Mikrofone bevorzugt, da sie eine einheitliche Reaktion
für sämtliche
Schallwinkel geben, die von Interesse sind. Die Mindestanzahl der
erforderlichen Mikrofone beträgt
drei, obwohl eine bevorzugte Ausführungsform der Erfindung acht
Mikrofone für
eine erhöhte
Schallquellenlokalisierungsgenauigkeit, besseres Beamforming und
eine verbesserte Robustheit des gesamten Audiosystems verwendet.
Die Mikrofone sind vorzugsweise gleichseitig in einem Kreis um den
Umfang einer runden, ebenen Mikrofonbasis angeordnet, es sind jedoch
ebenfalls andere Konfigurationen möglich. Je mehr Mikrofone verwendet
werden, desto besser sind der omnidirektionale Audio-Erfassungsbereich und
das Signal-Rausch-Verhältnis.
Jedoch stellen die Kosten und die Komplexität der größeren Anzahl von Mikrofonen
einen Zielkonflikt dar. Darüber
hinaus wird mit mehr Mikrofonen das Verarbeiten der Audiosignale
komplexer.
-
Um
die Tischgeräusche
zu reduzieren, können
die Mikrofone in einem Gummigehäuse
angebracht sein, und es ist eine Schallisolierung unter dem Mikrofon
platziert.
-
Die
Kamera kann eine Linsenabdeckung verwenden, die in einem normalen
Betriebsmodus hochgeschoben ist und in einem Privatmodus heruntergezogen
ist. Alternativ kann der Verschluss für die Kamerasensoren abgeschaltet
werden oder die Kamera kann elektronisch isoliert werden, um die
Kamera abzuschalten, wenn sie in dem Privatmodus ist. Die Mikrofone
können
ebenfalls vorzugsweise abgeschaltet werden, wenn der Privatmodus
ausgelöst wird.
Während
der Aufzeichnung ist ein Licht auf der Kamera eingeschaltet, um
den Benutzern anzuzeigen, dass die Kamera aktiv ist. Wenn die Kamera
in dem Privatmodus ist, wird das Licht ausgeschaltet.
-
Es
sind verschiedene alternative Ausführungsformen des integrierten
omnidirektionalen Kamera- und Mikrofonarraydesigns möglich. Dies
ist teilweise auf die Modularität
des Systems zurückzuführen. Beispielweise
wird in einer Ausführungsform eine
omnidirektionale Kamera verwendet, die mehrere Videosensoren verwendet,
um einen Kamera-Erfassungsbereich
von 360 Grad zu erreichen. Alternativ dazu wird in einer weiteren
Ausführungsform
der Erfindung eine omnidirektionale Kamera verwendet, die einen
Videosensor sowie eine hyperbolische Linse verwendet, die Licht
aus 360 Grad erfasst, um einen Rundblick-Erfassungsbereich zu erreichen.
Des Weiteren können
beide dieser Kamera-Setups selbst, erhoben auf einer akustisch-transparenten Stange,
verwendet werden, um eine Vorderansicht der Sitzungsteilnehmer bereitzustellen.
Oder sie können
mit dem vorangehend genannten Mikrofonarray integriert werden. Alternativ
können
ebenfalls andere Kameradesigns in Verbindung mit der zylindrischen Stange
verwendet werden. Die Stange, die die Kamera und das Mikrofonarray
verbindet, muss ebenfalls nicht zylindrisch sein, solange sie dünn genug ist,
um den Schall in dem (50–4000)
Hz-Bereich nicht zu
beugen.
-
Gleichermaßen besteht,
wie vorangehend erwähnt,
das Mikrofonarray in einer Ausführungsform aus
Mikrofonen, die mit gleichseitigen Abständen um den Umfang eines Kreises
und so nahe wie möglich an
einer Tischoberfläche
angeordnet sind, um einen freien Weg zu jedem Sprecher in dem Raum
mit einer minimalen Schallreflexion von dem Tisch zu erreichen.
Es sind jedoch weitere Mikrofonkonfigurationen möglich, die mit einem omnidirektionalen
Kamerasetup unter Verwendung der akustisch-transparenten Stange
integriert werden können.
Darüber
hinaus kann das soeben diskutierte omnidirektionale Mikrofonarray
ohne eine Kamera verwendet werden, um einen optimalen Schallerfassungsbereich
von 360 Grad zu erzielen. Dieser Erfassungsbereich ist insbesondere
bei der Schallquellenlokalisierung und dem Beamforming nützlich,
da Multipath-Probleme
minimiert oder eliminiert werden.
-
Eine
Ausführungsform,
die das Kamera- und Mikrofonarray der Erfindung einsetzt, verwendet
einen Computer, um die Bilddaten und Audiosignale zu optimieren.
Die digitale Bildausgabe der Kamera sowie die Audioausgabe des Mikrofonarrays
(über einen
Analog-Digital-Wandler) werden zu einem Computer gesendet. Der Computer
führt verschiedene Funktionen
durch, um die Bild- und Audioeingabe zu verbessern und zu verwenden.
Beispielsweise heftet ein Rundblick-Bildfilter Bilder zusammen,
die von mehreren Sensoren in der omnidirektionalen Kamera aufgenommen
werden. Darüber
hinaus können
die Bilddaten komprimiert werden, um diese kompatibler für das Rundsenden über ein
Netzwerk (wie beispielsweise das Internet) zu machen, oder auf einem computerlesbaren
Medium gespeichert werden, vorzugsweise über einen Splitter, der die
zu sendende und/oder aufzuzeichnende Video- und Audioausgabe splittet.
Optional können
die Bilddaten auch in eine Personenerkennungs-/Verfolgungseinrichtung eingegeben
werden, um das Kameramanagement zu verbessern. Beispielsweise können die
Bild-/Videoabschnitte, die den Sprecher enthalten, identifiziert und
mit dem Audiosignal verknüpft
werden, so dass das Kamerabild, das in der Videokonferenz gezeigt wird,
in Richtung der Sprecher gerichtet werden kann, wenn diese sprechen.
Darüber
hinaus kann die Position des Sprechers verwendet werden, um die Videokomprimierung
zu verbessern, indem eine höhere
Auflösung
für Gesichtsbereiche
als für
den Hintergrund ermöglicht
wird.
-
Die
Audioeingabe kann ebenfalls für
verschiedene Zwecke verwendet werden. Beispielsweise kann das Audio
für die
Schallquellenlokalisierung verwendet werden, so dass das Audio zu
jeder festgelegten Zeit für
die Richtung des Sprechers optimiert werden kann. Des Weiteren kann
ein Beamforming-Modul in dem Computer verwendet werden, um die Beam-Form
des Audios zu verbessern, wodurch das Filtern von Audio aus einer
gegebenen Richtung weiter verbessert wird. Ein Modul zur Rauschreduzierung
und automatischen Verstärkungsregelung
kann ebenfalls verwendet werden, um das Signal-Rausch-Verhältnis durch
Reduzieren des Rauschens und Regeln der Ver stärkung zu verbessern, um die
Audiosignale von einem Sprecher gegenüber den Hintergrundgeräuschen des
Raumes besser zu erfassen. Jedes dieser Bild- und Audioverarbeitungsmodule
kann einzeln oder in Kombination oder überhaupt nicht verwendet werden.
-
Die
Video- und Audiosignale, die entweder verbessert wurden oder nicht,
können
zu einem anderen Videokonferenzort oder dem Internet gesendet werden.
Sie können
ebenfalls auf einem computerlesbaren Medium zum späteren Betrachten
gespeichert werden.
-
Die
vorrangige Anwendung für
das vorangehend diskutierte integrierte Kamera- und Mikrofonarray
ist die Videokonferenz- und Videositzungs-Aufzeichnung. Durch das
Integrieren des Mikrofonarrays mit der omnidirektionalen Kamera
wird die zwischen dem Audio und Video erforderliche Kalibrierung
in hohem Maße
vereinfacht (ein präzise
hergestelltes Kamera- und Mikrofonarray erfordert keine Kalibrierung)
und das Erfassen von Audio- und Videoinformationen aus einem Konferenzraum
mit einer einzigen Vorrichtung wird erreicht.
-
BESCHREIBUNG DER ZEICHNUNGEN
-
Die
spezifischen Merkmale, Aspekte und Vorteile der vorliegenden Erfindung
werden anhand der folgenden Beschreibung, der angehängten Patentansprüche sowie
der beigefügten
Zeichnungen besser verständlich,
wobei:
-
1 ein
Diagramm ist, das eine Universalcomputervorrichtung darstellt, die
ein exemplarisches System zum Implementieren der Erfindung bildet.
-
2 ist
ein Diagramm, das eine bevorzugte Positionierung des integrierten
Kamera- und Mikrofonarrays
auf einem Konferenztisch darstellt.
-
3A ist
eine Seitenansicht einer Ausführungsform
des integrierten Kamera- und Mikrofonarrays.
-
3B ist
eine Draufsicht der Ausführungsform
des integrierten Kamera- und Mikrofonarrays, das in 3A dargestellt
ist.
-
4 ist
eine perspektivische Darstellung einer weiteren Ausführungsform
des integrierten Kamera- und Mikrofonarrays.
-
5 ist
eine Arbeitsausführungsform
der vorliegenden Erfindung, die einen Computer verwendet, um die
erfassten Video- und Audiodaten zu verbessern.
-
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN
AUSFÜHRUNGDFORMEN
-
1.0 Exemplarische Betriebsumgebung
-
In
der folgenden Beschreibung der bevorzugten Ausführungsformen der vorliegenden
Erfindung wird Bezug auf die angehängten Zeichnungen genommen,
die einen Teil hiervon bilden und in denen spezifische Ausführungsformen,
in denen die Erfindung ausgeführt
werden kann, auf darstellende Weise gezeigt werden. Es ist offensichtlich,
dass weitere Ausführungsformen
verwendet und strukturelle Änderungen
durchgeführt
werden können,
ohne von dem Umfang der vorliegenden Erfindung abzuweichen.
-
1 illustriert
ein Beispiel einer geeigneten Computersystemumgebung 100,
in der die Erfindung implementiert werden kann. Die Computersystemumgebung 100 ist
lediglich ein Beispiel einer geeigneten Computerumgebung und hat
nicht den Zweck, den Verwendungs- oder Funktionalitätsumfang
der Erfindung in irgendeiner Weise zu beschränken. Des Weiteren soll die
Computerumgebung 100 nicht dahingehend interpretiert werden,
dass sie jegliche Abhängigkeit
oder Notwendigkeit in Bezug auf jede einzelne Komponente oder die
Kombination der Komponenten aufweist, die in der exemplarischen
Betriebsumgebung 100 illustriert sind.
-
Die
Erfindung kann mit zahlreichen anderen Universal- oder Spezialcomputersystemumgebungen
oder -konfigurationen arbeiten. Beispiele von bekannten Computersystemen,
Umgebungen und/oder Konfigurationen, die für die Verwendung mit der Erfindung
geeignet sein können,
umfassen, sind jedoch nicht beschränkt auf, Personalcomputer,
Server-Computer, Handheld- oder Laptop-Vorrichtungen, Multiprozessorsysteme,
mik roprozessorbasierte Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronik,
Netzwerk-PCs, Minicomputer, Großrechner,
verteilte Computerumgebungen, die jegliche der vorstehenden Systeme
oder Vorrichtungen enthalten, und dergleichen.
-
Die
Erfindung kann im allgemeinen Zusammenhang von computerausführbaren
Anweisungen, wie beispielsweise Programmmodulen, beschrieben werden,
die durch einen Computer ausgeführt
werden. Programmmodule umfassen im Allgemeinen Routinen, Programme,
Objekte, Komponenten, Datenstrukturen und so weiter, die bestimmte
Aufgaben ausführen
oder bestimmte abstrakte Datentypen implementieren. Die Erfindung
kann ebenfalls kann in verteilten Computerumgebungen eingesetzt
werden, in denen Aufgaben durch dezentrale Verarbeitungsvorrichtungen
ausgeführt
werden, die durch ein Kommunikationsnetzwerk miteinander verbunden
sind. In einer verteilten Computerumgebung können Programmmodule sowohl
in lokalen als auch in dezentralen Computerspeichermedien, die Speichereinrichtungen
einschließen,
angeordnet sein.
-
In
Bezug auf 1 umfasst ein exemplarisches
System zum Implementieren der Erfindung eine Universalcomputervorrichtung
in Form eines Computers 110. Komponenten des Computers 110 können eine
Verarbeitungseinrichtung 120, einen Systemspeicher 130 und
einen Systembus 121 umfassen, der verschiedene Systemkomponenten
einschließlich
des Systemspeichers mit der Verarbeitungseinrichtung 120 koppelt,
sie sind jedoch nicht darauf beschränkt. Der Systembus 121 kann
jeglicher von verschiedenen Typen von Busstrukturen sein, die einen
Speicherbus oder einen Speichercontroller, einen peripheren Bus
und einen lokalen Bus unter Verwendung jeglicher einer Vielzahl
von Busarchitekturen einschließen.
Derartige Architekturen schließen
beispielhafter Weise den ISA-(Industry Standard Architecture)Bus,
den MCA(Micro Channel Architecture)Bus, den ELSA(Enhanced ISA)Bus,
den lokalen VESA-(Video Electronics Standards Association)Bus und
den PCI-(Peripheral Component Interconnect)Bus, der auch als Mezzanine-Bus
bekannt ist, ein, sie sind jedoch nicht darauf beschränkt.
-
Der
Computer 110 schließt
typischerweise eine Vielzahl von computerlesbaren Medien ein. Computerlesbare
Medien können
jegliche verfügbaren
Medien sein, auf die durch den Computer 110 zugegriffen
werden kann und schließen
flüchtige
und nicht flüchtige
Medien sowie entnehmbare und nicht entnehmbare Medien ein. Computerlesbare
Medien können
beispielsweise Computerspeichermedien und Kommunikationsmedien um fassen,
sie sind jedoch nicht darauf beschränkt. Computerspeichermedien
umfassen flüchtige
und nicht flüchtige,
entnehmbare und nicht entnehmbare Medien, die in jeglichen Verfahren
oder Technologien zum Speichern von Informationen, wie beispielsweise
computerlesbaren Befehlen, Datenstrukturen, Programmmodulen oder weiteren
Daten, implementiert sind. Computerspeichermedien umfassen, sind
jedoch nicht beschränkt auf,
RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologien,
CD-ROM, DVDs (Digital Versatile Disks) oder andere optische Plattenspeicher,
Magnetkassetten, Magnetbänder,
Magnetplattenspeicher oder andere Magnetspeichereinrichtungen beziehungsweise
jegliche andere Medien, die verwendet werden können, um die gewünschten
Informationen zu speichern, und auf die der Computer 110 zugreifen
kann. Kommunikationsmedien umfassen typischerweise computerlesbare
Befehle, Datenstrukturen, Programmmodule oder weitere Daten in einem
modulierten Datensignal, wie beispielsweise einer Trägerwelle
oder einem anderen Transportmechanismus, und umfassen sämtliche
Informationsbereitstellungsmedien. Der Begriff „moduliertes Datensignal" bezeichnet ein Signal,
bei dem eine oder mehrere seiner Eigenschaften auf eine solche Weise eingestellt
oder verändert
sind, um Informationen in dem Signal zu kodieren. Kommunikationsmedien umfassen
beispielsweise verdrahtete Medien, wie zum Beispiel ein verdrahtetes
Netzwerk oder eine direkte Kabelverbindung, sowie drahtlose Medien,
wie beispielsweise akustische, RF-, Infrarot- oder andere drahtlose
Medien, sie sind jedoch nicht darauf beschränkt. Kombinationen der vorstehend
genannten Medien sind ebenfalls in den Umfang der computerlesbaren
Medien einzubeziehen.
-
Der
Systemspeicher 130 schließt Computerspeichermedien in
Form von flüchtigen
und/oder nicht flüchtigen
Speichern, wie beispielsweise einen ROM 131 (Read-Only
Memory-Festspeicher) und einen RAM 208 (Random Access Memory – Direktzugriffsspeicher),
ein. Ein grundlegendes Eingabe-/Ausgabesystem (BIOS) 133,
das die grundlegenden Routinen enthält, die dabei helfen, Informationen zwischen
Elementen innerhalb des Computers 110, wie beispielsweise
während
des Hochfahrens, zu übertragen,
werden typischerweise in dem ROM 131 gespeichert. Der RAM 132 enthält typischerweise Daten
und/oder Programmmodule, auf die umgehend durch die Verarbeitungseinrichtung 120 zugegriffen
werden kann und/oder mit denen diese derzeit arbeitet. 1 illustriert
auf beispielhafte und nicht auf einschränkende Weise das Betriebssystem 134, die
Anwendungsprogramme 135, die weiteren Programmmodule 136 und
die Programmdaten 137.
-
Der
Computer 110 kann ebenfalls weitere entnehmbare/nicht entnehmbare,
flüchtige/nicht flüchtige Computerspeichermedien
umfassen. 1 illustriert auf beispielhafte
Weise ein Festplattenlaufwerk 141 zum Lesen von nicht entnehmbaren,
nicht flüchtigen
Magnetmedien und zum Schreiben auf diese, ein Magnetplattenlaufwerk 151 zum
Lesen von einer entnehmbaren, nicht flüchtigen Magnetplatte 152 und
zum Schreiben auf diese, sowie ein optisches Plattenlaufwerk 155 zum
Lesen von einer entnehmbaren, nicht flüchtigen optischen Platte 156, wie
beispielsweise einer CD-ROM oder einem anderen optischen Medium,
und zum Schreiben auf diese. Weitere entnehmbare/nicht entnehmbare,
flüchtige/nicht
flüchtige
Computerspeichermedien, die in der exemplarischen Betriebsumgebung
verwendet werden können,
schließen
Magnetbandkassetten, Flash-Speicherkarten,
DVDs (Digital Video Disks), digitale Videobänder, Halbleiter-RAM, Halbleiter-ROM und
dergleichen ein, sie sind jedoch nicht darauf beschränkt. Das
Festplattenlaufwerk 141 ist typischerweise über eine
Schnittstelle für
einen nicht entnehmbaren Speicher, wie beispielsweise die Schnittstelle 140,
mit dem Systembus 121 verbunden, und das Magnetplattenlaufwerk 151 sowie
das optische Plattenlaufwerk 155 sind typischerweise über eine Schnittstelle
für entnehmbare
Speicher, wie beispielsweise die Schnittstelle 150, mit
dem Systembus 121 verbunden.
-
Die
Laufwerke und ihre assoziierten vorstehend diskutierten und in 1 illustrierten
Computerspeichermedien stellen die Speicherung von computerlesbaren
Anweisungen, Datenstrukturen, Programmmodulen und weiteren Daten
für den
Computer 110 bereit. In 1 wird beispielsweise
das Festplattenlaufwerk 141 so dargestellt, dass es das
Betriebssystem 144, die Anwendungsprogramme 145, die
weiteren Programmmodule 146 sowie die Programmdaten 147 speichert.
Es sollte beachtet werden, dass diese Komponenten entweder dieselben wie
das Betriebssystem 134, die Anwendungsprogramme 135,
die weiteren Programmmodule 136 und die Programmdaten 137 sein
können
oder sich von diesen unterscheiden können. Das Betriebssystem 144,
die Anwendungsprogramme 145, die weiteren Programmmodule 146 sowie
die Programmdaten 147 sind hier mit unterschiedlichen Nummern
versehen, um zu zeigen, dass sie Kopien sind, die sich minimal voneinander
unterscheiden. Ein Benutzer kann Befehle und Informationen über Eingabevorrichtungen,
wie beispielsweise eine Tastatur 162 und eine Zeigevorrichtung 161,
die gemein hin als eine Maus bezeichnet wird, einen Trackball oder
ein Touchpad, in dem Computer 110 eingeben. Andere Eingabevorrichtungen (nicht
dargestellt) können
ein Mikrofon, einen Joystick, ein Game-Pad, eine Satellitenschüssel, einen
Scanner und dergleichen umfassen. Diese und weitere Eingabevorrichtungen
sind häufig
mit der Verarbeitungseinrichtung 120 über eine Benutzereingabeschnittsteile 160 verbunden,
die mit dem Systembus 121 gekoppelt ist, sie können jedoch
durch andere Schnittstellen und Busstrukturen, wie beispielsweise
einen parallelen Anschluss, einen Game-Anschluss oder einen universellen
seriellen Bus (USB) verbunden sein. Ein Monitor 191 oder
ein anderer Typ von Anzeigevorrichtung ist ebenfalls über eine
Schnittstelle, wie beispielsweise eine Videoschnittstelle 190,
mit dem Systembus 121 verbunden. Zusätzlich zu dem Monitor können Computer ebenfalls
weitere periphere Ausgabevorrichtungen, wie beispielsweise die Lautsprecher 197 und
den Drucker 196, die über
eine periphere Ausgabeschnittstelle 195 verbunden sein
können,
umfassen. Von besonderer Bedeutung für die vorliegende Erfindung
ist, dass eine Kamera 163 (wie beispielsweise eine digitale/elektronische
Standbild- oder Videokamera, oder ein Film-/Fotoscanner), die eine
Sequenz von Bildern 164 erfassen kann, ebenfalls als eine Eingabevorrichtung
für den
Personalcomputer 110 enthalten sein kann. Darüber hinaus
können,
obwohl lediglich eine Kamera dargestellt ist, mehrere Kameras als
eine Eingabevorrichtung für
den Personalcomputer 110 enthalten sein. Die Bilder 164 von
der einen Kamera oder von den mehreren Kameras werden über eine
geeignete Kameraschnittstelle 165 in den Computer 110 eingegeben.
Diese Schnittstelle 165 ist mit dem Systembus 121 verbunden,
wodurch ermöglicht
wird, dass die Bilder zu dem RAM 132 oder zu einer der
anderen Datenspeichervorrichtungen, die mit dem Computer 110 verbunden
sind, geroutet und in diesen gespeichert werden können. Es sollte
jedoch beachtet werden, dass Bilddaten von jedem der vorstehend
erwähnten
computerlesbaren Medien sowie ohne die Erfordernis der Verwendung der
Kamera 163 in den Computer 110 eingegeben werden
können.
-
Der
Computer 110 kann in einer vernetzten Umgebung unter Verwendung
von logischen Verbindungen zu einem Computer oder zu mehreren dezentralen
Computern, wie beispielsweise einem dezentralen Computer 180,
arbeiten. Der dezentrale Computer 180 kann ein Personalcomputer,
ein Server, ein Router, ein Netzwerk-PC, ein Peer-Gerät oder ein
anderer gemeinsamer Netzwerkknoten sein und schließt typischerweise
viele oder sämtliche
der vorangehend in Bezug auf den Computer 110 beschriebenen
Elemente ein, obwohl lediglich eine Speichervorrichtung 181 in 1 illustriert
wird. Die logischen Verbindungen, die in 1 dargestellt sind,
umfassen ein lokales Netzwerk (Local Area Network – LAN) 171 sowie
ein Großraumnetzwerk
(Wide Area Network – WAN) 173,
sie können
jedoch auch andere Netzwerke umfassen. Derartige Netzwerkumgebungen
sind allgegenwärtig
in büroweiten oder
unternehmensweiten Computernetzwerken, Intranets und dem Internet.
-
Wenn
der Computer 110 in einer LAN-Netzwerkumgebung verwendet
wird, ist er über
eine Netzwerkschnittstelle oder einen Adapter 170 mit dem
lokalen Netzwerk 171 verbunden. Wenn der Computer 110 in
einer WAN-Netzwerkumgebung verwendet wird, umfasst er typischerweise
ein Modem 172 oder eine andere Einrichtung zum Kommunikationsaufbau über das
Großraumnetzwerk 173,
wie beispielsweise das Internet. Das Modem 172, das intern
oder extern sein kann, kann über
die Benutzereingabeschnittstelle 160 oder andere geeignete
Mechanismen mit dem Systembus 121 verbunden sein. In einer
vernetzten Umgebung können
Programmmodule, die in Bezug auf den Computer 110 dargestellt
werden, oder Teile davon, in der dezentralen Speichervorrichtung
gespeichert werden. 1 illustriert auf beispielhafte und
nicht auf einschränkende
Weise dezentrale Anwendungsprogramme 185 derart, dass sie
in der Speichervorrichtung 181 gespeichert sind. Es ist
offensichtlich, dass die gezeigten Netzwerkverbindungen exemplarischer
Natur sind und andere Einrichtungen zum Aufbau einer Kommunikationsverbindung
zwischen den Computern verwendet werden können.
-
Vorstehend
wurde die exemplarische Betriebsumgebung diskutiert und die verbleibenden
Teile dieses Beschreibungsabschnittes sind einer Beschreibung der
Programmmodule gewidmet, die die Erfindung ausführen.
-
3.0 INTEGRIERTES OMNIDIREKTIONALES KAMERA-
UND MIKROFONARRAY
-
In
diesem Abschnitt wird das integrierte omnidirektionale Kamera- und
Mikrofonarray, das über eine
akustisch transparente Stange verbunden ist, diskutiert.
-
3.1 Überblick
-
Diese
Erfindung betrifft das optimale Integrieren einer omnidirektionalen
Kamera mit einem Mikrofonarray. Die Ziele des Designs waren Folgende:
- 1. Das Mikrofonarraydesign sollte einen freien Weg
von einer sprechenden Person zu allen Mikrofonen in dem Array ermöglichen.
Wenn ein freier Weg nicht möglich
ist, werden jegliche Schallquellenlokalisierungs- sowie Beamforming-Algorithmen,
die verwendet werden, äußerst kompliziert
und führen
zu verschlechterten Ergebnissen.
- 2. Das Mikrofonarraydesign sollte die Mikrofone so nahe wie
möglich
an einem Desktop oder einer anderen Fläche platzieren, um Schallreflexionen von
der Fläche
zu vermeiden, die jegliche Schallquellenlokalisierungs- sowie Beamforming-Ergebnisse
verschlechtern würden.
- 3. Das Kameraarray sollte erhoben sein, um eine Beinahe-Vorderansicht
der Sitzungsteilnehmer bereitzustellen. Das Kameraarray sollte klein
genug sein, um unauffällig
zu sein.
- 4. Die Mikrofonarraygeometrie (Positionen und Abstände zwischen
den Mikrofonen) sollte ermöglichen,
dass die Audioverarbeitungsalgorithmen, wenn die Mikrofone auf den
Sprecher gerichtet sind, eine gute Beam-Form in dem Arbeitsfrequenzband
erzielen können,
wodurch ein hochqualitativer Schall bereitgestellt wird.
-
3.2 Integriertes Design
-
Das
integrierte Kamera- und Mikrofonarray verwendet eine zylindrische
Stange, die die Mikrofonbasis mit dem Kameraarray verbindet. Diese Stange
ist für
die Frequenzbereiche der menschlichen Stimme (50–4000 Hz) akustisch unsichtbar.
-
Wie
dies in 2 dargestellt ist, soll das
integrierte Kamera- und Mikrofonarray 202 in der Mitte eines
Konferenzraumtisches 204 platziert werden.
-
Das
Design bietet einen freien Weg zu sämtlichen Mikrofonen von jeglichem
gegebenen Sprecher oder jeglicher gegebenen Schallquelle und ordnet
das Mikrofonarray nahe an der Tischoberfläche an, um Multipath-Probleme
zu vermeiden, die durch Schallreflexionen von dem Tisch verursacht
werden. Zusätzlich
dazu erhebt das Design die Kamera von dem Desktop, wodurch eine
Vorder- oder Beinahe-Vorderansicht sämtlicher Sitzungsteilnehmer
erhalten wird.
-
Das
integrierte Kamera- und Mikrofonarray gewährleistet eine gute Beam-Form,
die zum Verbessern der Schallqualität des Sprechers durch Filtern des
Schalls aus lediglich einer Richtung verwendet werden kann. Darüber hinaus
ist das integrierte Wesen der Kamera und des Mikrofons dahingehend
vorteilhaft, da dadurch die Notwendigkeit für wiederholte Kalibrierungen
eliminiert wird. Da die Kamera und das Mikrofon als eine Einrichtung
integriert sind, ist lediglich eine erste Kalibrierung erforderlich.
Da die integrierte Kamera und das Mikrofon ein kompaktes und festes
Design aufweisen können,
sind sie weniger störend
als zwei einzelne Kamera- und Mikrofonkomponenten, die separate
Kabel und zusätzlichen Platz
auf dem Konferenztisch benötigen
würden.
-
3.3 Systemkomponenten
-
Eine
Ausführungsform
des integrierten Kamera- und Mikrofonarrays wird in 3A und
in 3B dargestellt. Die Komponenten in diesem Design
umfassen eine omnidirektionale Kamera 302, einen Zylinder 304,
eine Mikrofonbasis 306, Mikrofone 308, einen Mikrofon-Vorverstärker 310 und
einen Analog-Digital-(A/D-)Wandler (nicht dargestellt).
-
3.3.1 Omnidirektionale Kamera
-
Es
gibt eine Vielzahl von omnidirektionalen Kameratechnologien. Diese
umfassen einen Kameratyp, in dem mehrere Videosensoren rückseitig
aneinander dicht zusammengepackt sind. Ein anderer omnidirektionaler
Kameratyp verwendet einen einzigen Videosensor mit einer hyperbolischen
Linse, die Lichtstrahlen aus 360 Grad erfasst. Das integrierte Kamera-
und Mikrofonarraydesign der Erfindung kann jegliche solcher omnidirektionalen
Kameras verwenden. Es wird bevorzugt, dass der Kamerakopf 302 klein
genug ist, um nicht störend
zu wirken, wenn er auf einem Konferenzraumtisch oder einer anderen Fläche platziert
wird.
-
Wenn
eine Mehrfachsensorkamerakonfiguration verwendet wird, kann einen
Vielzahl von Kamera- und Videosensoren verwendet werden. Eine bevorzugte
Anzahl ist acht. Diese Sensoren sollten vorzugsweise rückseitig
aneinander angeordnet sein, so dass die Projektionszentren der Sensoren
in einem gleichen Winkelabstand angeordnet ist. Wenn beispielsweise
acht Sensoren verwendet werden, würde jeder Sensor 45 Grad von
den an ihn angrenzenden Sensoren entfernt sein. Es ist jedoch möglich, unter schiedliche
Linsen und unterschiedliche Kameraplatzierungen zu verwenden, wenn
es erforderlich ist, Bilder aus unterschiedlichen Entfernungen zu
erfassen. Dies würde
beispielsweise bei einem rechteckigen oder ovalen Konferenztisch
der Fall sein. Linsen mit längeren,
engeren Bildfeldern können
für längere Entfernungen
verwendet werden und weitere, kürzere
Bildfelder können
zum Erfassen von Bildern aus kürzeren
Entfernungen verwendet werden. In diesem Fall können die Kamerasensoren nicht
gleichseitig um den Kamerakopf herum angeordnet sein. Kamerasensoren
mit einem weiteren Bildfeld können
weiter weg von den Kamerasensoren mit einem engeren Bildfeld platziert
werden. Alternativ dazu können
ebenfalls Kameras mit einem variablen Bildfeld (die rotieren sowie
heran- und herauszoomen, um sich einer gegebenen Situation anzupassen)
verwendet werden.
-
Eine
Arbeitsausführungsform
der Erfindung, die in 4 dargestellt wird, verwendet
ein kompaktes Mehrfachsensor-Design, bei dem mehrere Miniatur-Kamerasensoren 402 rückseitig
aneinander um den Umfang eines runden Kamerakopfes 404 herum angeordnet
sind. Der Boden der Kamera 404 weist vorzugsweise ein schallabsorbierendes
Material auf, welches verhindert, das Schallreflexionen von dem Tisch
auf die Kamera und auf das Mikrofon auftreten. In dieser Ausführungsform
werden 8 Kamerasensoren verwendet. Dieses kompakte Design, bei dem
die Kamerasensoren rückseitig
aneinander dicht zusammengepackt sind, verbessert das Zusammenheften von
Bildern. In dieser Ausführungsform
weist der Kamerakopf 404 einen Durchmesser von ungefähr 50 mm
auf und der Zylinder 406, der den Kamerakopf mit der Basis
verbindet, hat eine Höhe
von ungefähr 10
Zoll. Durch diese Höhe
wird die Kamera 404 derart positioniert, dass sie die Vorderansichten
sämtlicher
Sitzungsteilnehmer erhält.
Alternativ dazu kann der Kamerakopf 404 niedriger als vorstehend
angeordnet sein, und die Kamerasensoren 402 können geringfügig nach
oben gerichtet sein. Dies bewirkt ebenfalls, dass die Kamera etwas
weniger störend wirkt.
-
3.3.2 Zylinder
-
In
Bezug auf die in den 3A und 3B dargestellte
Ausführungsform
ist die omnidirektionale Kamera 302 an einem vorzugsweise
hohlen Zylinder 304 angebracht, der an einer Mikrofonbasis 306 befestigt
ist. Der Durchmesser des Zylinders D1 sollte dünn genug sein, um den Zylinder 304 für Frequenzen
entsprechend der beabsichtigten Ver wendung akustisch transparent
zu machen. Es wird bevorzugt, dass die Kamerakabel durch den Zylinder 304 verlaufen,
um keine zusätzlichen
akustischen Barrieren zu verursachen. Die Zylinderhöhe H1 sollte
hoch genug sein, um eine Vorderansicht von jeder um den Konferenztisch
sitzenden Person bereitzustellen, sie sollte jedoch nicht so hoch
sein, dass die Kamera störend wirkt.
Die Zylinderhöhe
kann ebenfalls optional eingestellt werden. Beispielsweise kann
die Zylinderhöhe
in einer Videokonferenzanwendung eingestellt werden, um unterschiedliche
Tisch- und Teilnehmerhöhen
zu berücksichtigen.
-
Unter
erneuter Bezugnahme auf die in den 3A und 3B dargestellte
Arbeitsausführungsform
weist der Zylinder 304 einen Durchmesser D1 von 2 cm oder
weniger auf, wodurch ermöglicht wird,
dass Audiofrequenzen von ungefähr
50–4000 Hz,
die denen der menschlichen Stimme entsprechen, durch den Zylinder
im Wesentlichen ungestört von
jeglichem sprechenden Teilnehmer zu sämtlichen der Mikrofone in der
Basis passieren können. Die
Zylinderhöhe
H1 in dieser Ausführungsform
beträgt
14 cm.
-
3.3.3 Mikrofonbasis
-
Im
Allgemeinen sind die Mikrofone, der Mikrofon-Vorverstärker und
der A/D-Wandler an der Mikrofonbasis angebracht. Sie ist mit dem
Zylinder verbunden und stellt einen Verbindungsausgang für die Kamerakabel
bereit. Die Mikrofonbasis weist ein niedriges Profil auf, um den
Abstand zwischen dem Desktop und den Mikrofonen zu minimieren. Die
Basis ermöglicht
einen freien Weg von jedem Mikrofon zu dem Teilnehmer/den Teilnehmern.
-
Die
Arbeitsausführungsform
des integrierten Kamera- und Mikrofonarrays wird in den 3A und 3B gezeigt.
Der Durchmesser D3 der Mikrofonbasis 306 ist breiter als
der Durchmesser D2 des Kamerakopfes 302. Dadurch wird dem
integrierten Kamera- und
Mikrofonarray Stabilität
verliehen, wodurch verhindert wird, dass es leicht umgestoßen werden
kann. Die Höhe
der Basis H3 ist relativ gering. Diese Abmessung ist vorzugsweise
gering oder klein genug, um die eingebetteten Mikrofone 308 nahe
genug beziehungsweise so nahe wie möglich an der Tischoberfläche anzuordnen
oder zu positionieren, um Multipath-Probleme zu vermeiden und Schallreflexionen
zu minimieren, jedoch groß genug, um
das Einbetten der Mikrofone 308 in der Basis zu ermöglichen.
-
Für diese
Arbeitsausführungsform
beträgt D3
16 cm, H3 beträgt
1,5 cm, H2 beträgt
6 cm und D2 beträgt
10 cm.
-
3.3.4 Mikrofone
-
Die
verwendeten Mikrofone können
entweder omnidirektional oder unidirektional sein, wobei jedoch
omnidirektionale Mikrofone bevorzugt werden, da sie eine einheitliche
Reaktion für
sämtliche
Schallwinkel bereitstellen, die von Interesse sind. Die Mindestanzahl
der erforderlichen Mikrofone beträgt drei, obwohl die Ausführungsform
der Erfindung acht Mikrofone für
eine erhöhte
Schallquellenlokalisierungsgenauigkeit, besseres Beamforming und
eine größere Robustheit
des gesamten Audiosystems verwendet.
-
Um
Tischgeräusche
zu reduzieren, können die
Mikrofone in einem Gummigehäuse
angebracht sein und eine Schallisolierung kann zum selben Zweck
unter den Mikrofonen platziert sein.
-
Unter
erneuter Bezugnahme auf die in den 3A und 3B dargestellte
Arbeitsausführungsform
sind die Mikrofone gleichseitig in einem Kreis um den Umfang der
ebenen Mikrofonbasis 306 angeordnet. In dieser Ausführungsform
werden acht Mikrofone 308 verwendet. Im Allgemeinen gilt,
je mehr Mikrofone verwendet werden, desto besser sind der omnidirektionale
Erfassungsbereich sowie das Signal-Rausch-Verhältnis. Jedoch stellen die Kosten
und die Komplexität
einer größeren Anzahl von
Mikrofonen einen Zielkonflikt dar. Darüber hinaus wird mit mehr Mikrofonen
das Verarbeiten der Audiosignale komplexer. In der in den 3A und 3B dargestellten
Arbeitsausführungsform
beträgt
der Abstand D5 von der Mitte des Zylinders 306 zu der Mitte
jedes Mikrofons 308 7 cm.
-
3.3.5 Mikrofon-Vorverstärker, A/-D-Wandler
-
Der
Mikrofon-Vorverstärker 310 und
der Analog-Digital-(A/D-)Wandler (nicht dargestellt) sind vorzugsweise
in der Mikrofonbasis 306 integriert, wie dies in 3B dargestellt
ist. In dieser Ausführungsform
beträgt
die Breite des Vorverstärkers 310,
D4, 5,901 cm. Der Mikrofon-Vorverstärker verstärkt die Signale von den Mikrofonen,
um die Signalamplituden für
den nachfolgenden A/D-Wandler zu normalisieren. Der A/D-Wandler wandelt die
analogen Signale von der Kamera in digitale Signale um.
-
In
dieser Ausführungsform
wird das Signalabtasten der Signale von den Mikrofonen auf innerhalb
1 Mikrosekunde zueinander synchronisiert, um die Schallquellenlokalisierung
und das Beamforming zu erleichtern.
-
3.4 Privatmodus
-
Die
Kamera kann eine Linsenabdeckung verwenden, die in einem normalen
Betriebsmodus offen und in einem Privatmodus geschlossen ist. Darüber hinaus
kann der Verschluss für
die Kamerasensoren abgeschaltet werden oder die Kamera kann elektronisch
isoliert werden, um die Kamera während des
Privatmodus abzuschalten. Die Mikrofone werden ebenfalls vorzugsweise
abgeschaltet, wenn der Privatmodus ausgelöst wird. Während des Aufzeichnens ist
ein Licht auf der Kamera eingeschaltet, um dem Benutzer anzuzeigen,
dass die Kamera aktiv ist. Wenn der Privatmodus eingeschaltet wird,
wird das Licht ausgeschaltet.
-
4.0 ALTERNATIVE AUSFÜHRUNGSFORMEN AUFGRUND DER MODULARITÄT
-
Es
sind verschiedene alternative Ausführungsformen des integrierten
omnidirektionalen Kamera- und Mikrofondesigns möglich. Dies ist teilweise auf
die Modularität
des Systems zurückzuführen.
-
Beispielsweise
können
verschiedene Kameraausführungsformen
verwendet werden. In einer Ausführungsform
wird eine omnidirektionale Kamera eingesetzt, die mehrere Videosensoren
verwendet, um einen Kameraerfassungsbereich von 360 Grad zu erreichen.
Alternativ wird in einer weiteren Ausführungsform der Erfindung eine
omnidirektionale Kamera verwendet, die einen Videosensor und eine
hyperbolische Linse nutzt, die Licht aus 360 Grad erfasst, um einen
Rundblick-Erfassungsbereich zu erreichen. Darüber hinaus kann jede dieser
Kameras selbst, erhoben auf der akustisch transparenten zylindrischen
Stange, verwendet werden, um eine Vorderansicht der Sitzungsteilnehmer
bereitzustellen. Es können
auch beide der Kameras mit einem Mikrofonarray integriert werden.
Alternativ dazu können ebenso
andere omnidirektionale Kameradesigns in Verbindung mit der zylindrischen
Stange und/oder dem Mikrofonarray verwendet werden.
-
Gleichermaßen können verschiedene
Mikrofonkonfigurationen verwendet werden. In einer Ausführungsform
besteht das Mikrofonarray aus Mikrofonen, die mit gleichseitigen
Abständen
um den Umfang eines Kreises und so nahe wie möglich an der Tischoberfläche angeordnet
sind, um einen freien Weg zu jedem Sprecher in dem Raum zu erhalten.
Es sind jedoch ebenso andere Mikrofonkonfigurationen möglich, die
mit einer Kamera unter Verwendung einer akustisch transparenten
Stange integriert werden können.
Alternativ dazu kann das soeben diskutierte omnidirektionale Mikrofonarray
ohne eine Kamera verwendet werden, um einen optimalen Schallerfassungsbereich
von 360 Grad zu erreichen. Dieser Erfassungsbereich ist bei der
Schallquellenlokalisierung und dem Beamforming besonders nützlich,
da Multipath-Probleme minimiert oder eliminiert werden.
-
In
einer Ausführungsform
des integrierten Kamera- und Mikrofonarrays wird das Zusammenheften
und das Komprimieren von Bildern auf einem PC ausgeführt. Eine
alternative Ausführungsform führt das
Zusammenheften und Komprimieren von Bildern in der Kamera mit einem
FPGA (Field Programmable Gate Array) oder einem anderen Gate-Array
durch. Dieses Design verwendet eine USB-Schnittstelle, um die Kamera
mit dem PC zu verbinden, und räumt
dem PC mehr CPU-Zyklen ein, um andere Aufgaben, wie beispielsweise
die Bildkomprimierung und das Aufzeichnen/Senden der Sitzung, auszuführen.
-
5.0 EXEMPLARISCHE ARBEITSAUSFÜHRUNGSFORM
-
Eine
Arbeitsausführungsform,
welche die Kamera 502 und das Mikrofonarray 504 der
Erfindung verwendet, wird in 5 dargestellt.
Die Bildausgabe der Kamera 502 und die Audioausgabe des Mikrofonarrays 504 werden über einen
Analog-Digital-Wandler 506 zu einem Computer 508 geroutet. Der
Computer 508 führt
verschiedene Funktionen durch, um die Bild- und Audioeingabe zu
verbessern und zu verwenden. Beispielsweise heftet ein Rundblick-Filtermodul 510 Bilder
zusammen, die durch verschiedene Sensoren in der omnidirektionalen
Kamera 502 aufgenommen werden. Darüber hinaus können die
Bilddaten durch ein Komprimierungsmodul 512 komprimiert
werden, um sie kompatibler für das
Senden 514 über
ein Netzwerk (wie beispielsweise das Internet) zu machen, oder auf
einem computerlesbaren Medium 516 (vorzugsweise über einen Splitter 520)
gespeichert werden. Optional können die
Bilddaten auch in ein Menschenerfassungs-/Verfolgungsmodul 522 eingegeben
werden, um das Kameramanagement 524 zu verbessern. Beispielsweise
können
die Bild-/Videoabschnitte, die den Sprecher enthalten, identifiziert
und mit dem Audiosignal verknüpft
werden, und die Bilder, die durch die/den in Richtung des Sprechers
gerichtete/n Kamera/Sensor erfasst werden, werden gesendet oder
auf einer Platte gespeichert.
-
Die
Audioeingabe kann ebenfalls für
verschiedene Zwecke verwendet werden. Beispielsweise kann das Audio
in ein Schallquellenlokalisierungsmodul 526 eingegeben
werden, so dass das Audio des Sprechers isoliert wird. Darüber hinaus
kann ein Beamforming-Modul 528 in dem Computer 508 verwendet
werden, um die Beam-Form des Audios zu verbessern. Ein Modul zur
Rauschreduzierung und automatischen Verstärkungsregelung 530 kann ebenfalls
verwendet werden, um das Signal-Rausch-Verhältnis durch Reduzieren des
Rauschens und Regeln der Verstärkung
zu verbessern, um die Audiosignale von einem Sprecher gegenüber den
Hintergrundgeräuschen
des Raumes besser zu erfassen.
-
Wie
vorangehend erwähnt
wurde, können die
Video- und Audiosignale zu einem anderen Videokonferenzort oder
dem Internet gesendet werden. Sie können ebenfalls auf einem computerlesbaren Medium
zum späteren
Betrachten gespeichert werden.
-
Die
vorstehende Beschreibung der Erfindung wurde zu Illustrations- und
Beschreibungszwecken gegeben. Sie erhebt keinen Anspruch auf Vollständigkeit
und hat nicht den Zweck, die Erfindung auf die genaue offenbarte
Form zu beschränken.
Beispielsweise können
die vorangehend diskutierten Ausführungsformen des integrierten
Kamera- und Mikrofonarrays auf ein Überwachungssystem angewendet
werden. In Bezug auf die vorstehende Lehre sind viele Modifizierungen
und Änderungen
möglich. Der
Umfang der Erfindung soll nicht durch diese ausführliche Beschreibung sondern
vielmehr durch die hieran angehängten
Patentansprüche
beschränkt sein.