von Gastprofessor Dr. Steffen Hven und Jamie Lee Moser
Gespräch mit Björn Stockleben
Im Gespräch mit Björn Stockleben, Professor für Emerging Media Production an der Filmuniversität Babelsberg KONRAD WOLF, haben wir uns über die Bedeutung von Neuen Medien und Künstlicher Intelligenz im Zusammenhang mit den filmischen Atmosphären und ihren erweiterten Formen auseinandergesetzt. Der Bereich Emerging Media Production umfasst eine Vielzahl an neuen Video- und Medientechnologien in der Filmproduktion, wie Virtual Reality (VR), Augmented Reality (AR) und der Einsatz von generativer und analytischer KI. Zwischen New Media Projekten und Serious Gaming, Antidiskriminierungs- und Erinnerungsarbeit offenbaren die neuen Technologien und ihre atmosphärische Wirkung sowohl Chancen als auch Herausforderungen.
Jamie Lee: Im CATNEMI-Projekt widmen wir uns den Funktions- und Wirkungsweisen von filmischen Atmosphären im Sinne einer affektiven Umgebung, die unsere Wahrnehmung konfiguriert – unabhängig vom Dispositiv. Sowohl aus der theoretischen als auch aus der praktischen Perspektive stellt sich die Frage, auf welche Weise immersive Medien und Künstliche Intelligenz eine affektive, atmosphärische Wirkung produzieren und womöglich verstärken können. Ausgehend von deiner Erfahrung, inwiefern weisen neue Medientechnologien ein atmosphärisches Potential auf? Welche Unterschiede zeigen sich zum Beispiel zwischen einem klassischen Filmset und einer virtuellen Filmproduktion?
Björn: Je nach Medium ist es etwas unterschiedlich. Als wir zum Beispiel die virtuelle Produktion XVI. Tower (Regie: Lilli Moors, Co-Regie: Branford Meentzen, 2023) realisiert haben, war die atmosphärische Wirkung zu einem großen Teil bereits im Studio spürbar. Bei einem klassischen Studioset hast du kein finales Grading und keine visuellen Effekte im Kamerabild, das heißt, du schaust zum Beispiel aus dem Fenster und siehst nur die grüne Leinwand. Dennoch benötigt es die entsprechende Vorbereitung, damit sich die atmosphärische Stimmung in der Postproduktion erarbeiten lässt. Der Unterschied bei einer virtuellen Produktion ist, dass die Schauspieler*innen die Atmosphäre, die die Rezipient*innen des Films später wahrnehmen sollen, bereits beim Dreh am Set nachempfinden können – zumindest auf der visuellen Ebene. Eine virtuelle Produktion fordert außerdem, dass die Assets für das gesamte Environment, das auf der LED-Leinwand spielt, vorher fertiggestellt sein müssen. Daher gibt es im Vorfeld viel intensivere Diskussionen und Entscheidungen darüber, wie das Gesamtbild am Set inszeniert werden soll, wobei die Größe der Produktion und damit die technischen Möglichkeiten auch eine Rolle spielen. Dieser Vorgang findet bei einer klassischen Studioproduktion normalerweise eher separat statt, in der Regel auf Basis von Prävisualisierungen im Dialog mit einer Visual-Effects-Supervisor*in, die dann während der Produktion dafür Sorge trägt, dass das Material in der Postproduktion nutzbar ist.
Steffen: Das heißt, dass die Postproduktion bei einer virtuellen Produktion schon früher beginnt.
Björn: Ja genau, das führt bei Virtual Production zu einigen Herausforderungen, aber es entsteht auch ein intensiverer Austausch, weil eine klare Abstimmung darüber getroffen werden muss, wie die finale Stimmung sein soll. In der Theorie wird nach dem Dreh nur noch etwas gegradet oder es werden noch letzte Anpassungen vorgenommen. In der Praxis waren besonders in den Anfangszeiten Aufnahmen entstanden, bei denen vieles ausgetauscht werden musste, doch mittlerweile kommt die LED-Leinwand dem gewünschten, finalen Bild sehr nah. Grundlage der Virtual Production sind Game Engines, wie sie auch für die Entwicklung von Virtual Reality Experiences genutzt werden. Mehr noch als beim Einsatz für Virtual Production gehen die Gestaltungsmöglichkeiten von Atmosphären bei Virtual Reality Hand in Hand mit der technischen Weiterentwicklung des Mediums. Mit den neuesten Systemen können wir inzwischen einen cineastischen Look erreichen, leistungsfähige Rechner und Grafikkarten vorausgesetzt. Aus meiner Sicht geht es bei Virtual Reality darum, eine abgeschlossene Welt oder Atmosphäre herzustellen, die keinen Anlass gibt zu vermuten, dass man doch woanders sein könnte. Ähnlich wie im Kino. Doch bei VR gibt es einerseits eine inhaltliche oder ästhetische Immersion, andererseits eine technische Immersion, die alle Sinne bespielen soll, wobei sich diese Formen gegenseitig bedingen können. Oft wird bei VR die technische Immersion diskutiert, weil die Imperfektionen offensichtlicher sind, während beim Kinofilm das Limit schon erreicht ist und klar ist, was technische Perfektion bedeutet.
Steffen: Im Kino kann die technische Imperfektion manchmal zu einer atmosphärischen Wirkung beitragen, obwohl sie vielleicht auch durch einen technischen Fehler oder den Einsatz von neuen technischen Mitteln entsteht, die nicht dem Standard des Kinofilms entsprechen. Aber wir sind auch mehr an das Kino und die entsprechenden filmischen Qualitäten gewöhnt.
Björn: Ja, genau. Beim Kino fällt mir ein, da gibt es interessante Dinge, wie zum Beispiel die Wahrnehmung von analoger Körnung als Qualitätsmerkmal, auch wenn es eigentlich die Begrenzung der Auflösung einer Aufnahme ist. Oder wenn wir auch an den etablierten Standard von 24 Bildern pro Sekunde denken. Wenn du dann plötzlich 48 oder 60 hast, fällt es einem auf, weil es nicht unserer Erwartung entspricht. Derzeit ist es bei VR noch etwas schwieriger als beim Kinofilm das ‘perfekte’ Bild zu erreichen; wir sind noch nicht beim Status des Kinos angelangt. Angesichts der Tatsache, dass wir wissen, dass ein Kinobild grundsätzlich perfekt herstellbar ist, akzeptieren wir aus meiner Sicht eher, dass sich Imperfektionen oder Abweichungen bewusst als Stilmittel oder Glitches einsetzen lassen, während wir diese bei VR auf die Technik zurückführen.
Steffen: Und welche Qualitätsmerkmale sind aus deiner Sicht bei VR besonders wichtig, um eine immersive Atmosphäre oder affektive Raumerfahrung zu erschaffen?
Björn: Auf der visuellen Ebene sind Farb- oder Lichtstimmungen von zentraler Bedeutung. Das Licht, das auf Flächen fällt, ist tendenziell leicht zu gestalten, doch die Herausforderung zeigt sich besonders bei Effekten, die mit Schwebeteilchen zu tun haben. Zum Beispiel bei Lichteinfällen, die durch Staubpartikel oder Nebel brechen. Diese Effekte verleihen dem Raum viel Tiefe und eine atmosphärische Stimmung, aber sie sind sehr rechenaufwendig, weil sie im Volumen gerechnet werden müssen. Wenn ich Licht habe, das nur auf eine Wand fällt, dann muss ich eine 2D Fläche berechnen. Wie fällt das Licht hier drauf? Wenn ich aber Licht habe, das durch einen Raum fällt, durch ein Volumen, muss ich auch überlegen, ob es einen Partikel trifft. Wenn es einen Partikel trifft, wohin fällt das Licht? Doch ich muss abwägen, wie viele solcher Effekte ich einsetzen kann. Interessanterweise reagieren wir besonders gut auf Nebel, weil es etwas Weiches in den Raum bringt. Der Unterschied ist, dass es bei VR in Echtzeit berechnet werden muss, während du mit Visual Effects (VFX) im Prinzip alles gestalten kannst, auch wenn es unter Umständen einfach länger rechnet. Damit haben wir bei VR eine Limitierung und müssen schauen, was setzen wir, um die Atmosphäre zu unterstützen. Gerade komplizierte Lichteffekte, wie Partikeleffekte oder transparente Texturen, machen einen großen Unterschied. Zwar nehmen Zuschauer*innen z. B. die korrekten Glas-Reflexionen vielleicht nicht aktiv wahr, aber sie spüren eine gewisse Künstlichkeit des Raumes, wenn nicht das volle Spektrum der Reflexion vorhanden ist. Ein weiteres Qualitätsmerkmal, neben diesen visuellen Konstellationen, ist die Audioebene. Sie entscheidet, ob du den Raum fühlst. Die Audio-Kulisse kann eine Atmosphäre sehr authentisch einfangen, mehr als das Bild. Außerdem hilft eine authentische Atmo des Raumes beim Überspielen von Imperfektionen in der Narration oder Darstellung.
Jamie Lee: Wie ist es bei Augmented Reality, die weniger eine vollständig abgeschlossene Welt produziert, sondern den realen Raum mit projizierten Bildern verbindet und damit ein atmosphärisches Erlebnis erzeugt?
Björn: Bei Augmented Reality gibt es die Möglichkeit, die projizierten Bilder an den realen Raum oder an die Atmosphäre des realen Raumes anzupassen. Moderne Augmented Reality Kits können im Prinzip auch Lichtstimmungen aufnehmen; damit haben wir bisher noch nicht gearbeitet. Wir haben ein Augmented Reality Projekt im Bereich des Krisenmanagements, also ein sogenanntes Serious Gaming entwickelt (→ oKat SIM). Es sieht wie eine Tabletop-Simulation aus, das heißt, du hast ein Szenario, auf das du von oben drauf schaust: Du siehst einen Kartenausschnitt, kleine Häuschen, Wälder, Flüsse und weitere Umgebungseigenschaften. In diesem Setting finden die jeweiligen Krisen statt, in der Regel Überflutungsszenarien. Die Karte zeigt dir, wo die Einsatzkräfte sind, wie der Stand der Überflutung ist und welche Handlungsmöglichkeiten bestehen. Da es dem Training dient, ist die Schaffung einer gewissen Atmosphäre nachrangig, aber Elemente, die einen höheren Immersionsgrad ermöglichen, sind durchaus wichtig. Aus didaktischen Gründen haben wir zum Beispiel ein 3D-Soundsystem eingebaut, das einen authentischen Regen im Rahmen des Überflutungsszenario präsentiert. Beim Serious Gaming, das Gaming Prinzipien für Ausbildungszwecke nutzt, liegt der Schwerpunkt auf den Eigenschaften, die sich innerhalb des Szenarios hervorheben lassen und ansonsten nicht auf diese Weise wahrgenommen werden.
Steffen: Um zum Thema der Künstlichen Intelligenz in der Filmproduktion überzugehen, würde es mich interessieren, inwiefern sich per Prompt eine Atmosphäre oder einen Raum mit einer bestimmten Atmosphäre erzeugen lässt?
Björn: Grundsätzlich ist es erstmal so, dass ich die Künstliche Intelligenz als zusätzliches Tool durchaus begrüße. Warum sollte sich der Raum des bildlich Erzählbaren nicht in dieser Hinsicht ausweiten lassen? Und warum sollte dieses Tool nicht zugänglich für diejenigen sein, die eben nicht eine 3D Modellierung machen können? Dabei ist wichtig, dass sich Zeit, Ressourceneinsatz, Qualität und Spezifität nie gleichzeitig optimieren lassen; in der gleichen Zeit ist entweder eine hohe Qualität oder eine hohe Spezifität möglich. Du kannst in ‘Nullkommanix’ ein wunderschönes Plakat für deine Werbekampagne generieren, aber du hast keine Kontrolle darüber, wie die KI es bildlich umsetzt. Je mehr ästhetische Kontrolle erreicht werden soll, desto mehr Informationen müssen eingegeben werden. Das bedeutet, dass der gesamte Prozess, wie die Abstimmung mit einer Designer*in, die Briefings und das gemeinsame Erfahrungswissen, auch bei KI weiterhin bestehen bleibt. Ein spezifisches Ergebnis mit KI, sei es eine Farbe oder einem bestimmten Himmel, erfordert ein detailliertes Prompten und ggf. auch eine Verkettung verschiedener Tools und Workflows, weil du ein spezifisches Bild mit einem bestimmten Blau erzielen möchtest. Dieser Prozess wird also auch bei KI nicht abgekürzt. Der zweite Punkt ist, dass generative KI nur aus dem schöpfen kann, woraus es trainiert wurde, denn das unüberwachte Lernen (Unsupervised Learning) funktioniert nur über eine Mustererkennung. Damit fallen automatisch Dinge raus, die außerhalb der Norm liegen, sowohl besonders schlechte als auch besonders gute Dinge. KI entspricht also eher einem Mittelmaß. In der Forschung setzt man Hoffnung auf das sogenannte Single Shot Learning, also dem Lernen auf Basis eines einzelnen Beispiels, wenn wir aber aktuell eine bestimmte Stimmung oder Atmosphäre erschaffen wollen, dann müssen wir uns das Trainingsmaterial anschauen und mit generischen Modellen ergänzen wir das Material durch spezifischen Input. Aus unserer Sicht ist KI also nur ein Teil der Kette. Das KI-Modell kann als Grundlage dienen, um ein Basiswissen darüber zu erlangen, wie Räume grundsätzlich aufgebaut sind und wie bestimmte Atmosphären im Kern funktionieren. Das Spezifische müssen wir jedoch dazugeben. Daher müssen wir die Trainingsdaten vorbereiten und aufbereiten. Dies erfordert auch weiterhin eine Postproduktion, denn nur auf diese Weise erreichen wir die Spezifität, die wir benötigen, um eine konsistente Ästhetik über den ganzen Film zu schaffen. Ich glaube, dass wenn du nicht genügend eigenen Input hinzufügst, dass es in der Natur der KI liegt, zu einem gewissen Durchschnitt zu konvergieren; zwar kann es immer noch effektvoll sein, aber ich weiß nicht, ob sich qualitativ etwas Neues ergibt.
Jamie Lee: Zum Abschluss des Gesprächs würde ich noch gerne auf die sozialpolitische und ethische Dimension von neuen Medientechnologien zu sprechen kommen, besonders in Bezug auf das affektive Potential. Wie setzt ihr euch bei der Produktion mit diesen Dimensionen auseinander?
Björn: Gerade die ethische Sphäre ist zentral, besonders bei Projekten, die Erinnerungs- und Antidiskriminierungsarbeit leisten. Studierende der Filmuniversität haben zum Beispiel ein Game entwickelt, bei dem es um Diskriminierung und die Reflexion eigener Privilegien geht. Die Spieler*innen können entweder ein Dreieck, Kreis oder Quadrat sein und müssen sich damit durch eine Stadtlandschaft möglichst schnell zu einem Ziel bewegen. Allerdings kann jede Form nur bestimmte Wege gehen und wird so auf unterschiedliche Weise benachteiligt oder bevorteilt. Das hat eine sehr eigene Stimmung, eine gewisse Abstraktion, die auf diese Weise intersektionale Diskriminierungsformen erfahrbar machen soll, um ein stärkeres Bewusstsein zu schaffen (→ INTERSECTION – Alles ist politisch, Regie: Karoline Rößler, 2025). Im Bereich der Erinnerungsarbeit haben wir ein volumetrisches Zeitzeug*innen-Projekt realisiert, in dem das Zeitzeugnis von Holocaustüberlebenden mit 36 Kameras aufgenommen wurde, das sich dann lebensecht räumlich in VR ansehen lässt (→ Volumetrisches Zeitzeugnis von Holocaustüberlebenden). In diesem Rahmen ist es zentral zu fragen: Wie viel Emotionalität ist angemessen? Wie stimmungsvoll darf der Erfahrungsraum sein? Darf es ästhetisch ansprechend sein oder nicht? Mein Standpunkt dazu ist, dass neue Erzähltechnologien eine emotionale Brücke schaffen können. Die Darstellung oder der atmosphärische Raum sollte jedoch nicht final fixiert sein, denn es besteht aus meiner Sicht ein höheres affektives Potential, wenn nicht alles visuell dargestellt wird und das Wahrgenommene möglichst der Wahrnehmung der betroffenen Personen oder Gemeinschaft entspricht.