Hochberg, Julian / Brooks, Virginia (1978) The Perception of Motion Pictures. In: Carterette, E. C. / Friedman, M. P. 1978 Handbook of Perception. Vol. X, Chapt 11, S. 259-304. Übersetzung: Sophie Repp.

Kapitel 11

ÜBER DIE WAHRNEHMUNG BEIM FILM1*

JULIAN HOCHBERG UND VIRGINIA BROOKS



I. Einleitung
A. Das Wesen des Mediums: Was ist ein Film?
II. Über Kamerabewegungen und die Darstellung von Raum
A. Die verschiedenen kontinuierlichen Bildwechsel und deren räumliche Information: Bewegungsperspektive, dynamische Verdeckung und transformationale Invarianten
B. Der Raum jenseits der Leinwand und der sich vermeintlich bewegende Beobachter
III. Über diskontinuierliche Schnitte und deren Auswirkungen auf mentale Strukturen sowie auf den visuellen Anreiz
A. Die verschiedenen diskontinuierlichen Übergänge (Schnitte) und deren Anwendung im Film
B. Die Verknüpfung (Integration) diskontinuierlicher sukzessiver Bilder durch den Betrachter
C. Sequenzeffekte außerhalb des gegenständlichen (ikonischen) Bereichs: Syntax, Affekt und Anreiz
IV. Zusammenfassung und Schlußfolgerung
Literaturverzeichnis


I. EINLEITUNG

In der Welt von Film und Fernsehen können die meisten Ergebnisse der Wahrnehmungsforschung direkt angewendet und überprüft werden. Die allererste Herausforderung für die klassische Forschung und Theoriebildung waren statische Bilder und die Analyse der Darstellung von Tiefe im Bild (die lineare Perspektive) durch Da Vinci. Für Psychologen wenigstens ebenso interessant verspricht die Erforschung der Gesetzmäßigkeiten bei der Wahrnehmung bewegter Bilder zu werden. Denn hier bieten sich sowohl das Instrumentarium als auch die Gelegenheit für die Untersuchung der flüchtigen Eigenschaften des normalen Wahrnehmungsprozesses. Gerade diese fllüchtigen Eigenschaften gehen ja bei dauerhaften Präsentationen so oft verloren, und in Tachistoskopversuchen werden sie dadurch, daß vom Betrachter ununterbrochene Aufmerksamkeit gefordert wird, verschleiert. Das Verständnis der Prozesse, die unsere die Welt erkundenden Blickfolgen auslösen und aufrechterhalten, das Verständnis der Mechanismen, mit denen wir den informativen Inhalt dieser Blickfolgen zusammenfassen, sind von grundlegender Bedeutung für jede allgemeine Theorie perzeptueller Organisation und Aufmerksamkeit. Der Film öffnet eine wichtige Pforte auf dem Weg zu einem solchen Verständnis.

Der Film (im folgenden soll dieser Terminus Fernsehbilder einschließen) hat gegenüber statischen Bildern mindestens fünf entscheidende Vorteile von theoretischem Interesse wie auch von praktischem Wert:

1. Er kann mittels Bewegungen Informationen über dreidimensionale räumliche Anordnungen liefern, die es in unbewegten Bildern nicht gibt (Bewegungsperspektive). Die Abwesenheit dieser Bewegungsperspektive kann im Widerspruch stehen zu jeglicher Perspektive, die sonst im stationären Bild dargestellt ist.
2. Eine Szenerie, die viel größer ist als die Leinwand (oder der Fernsehbildschirm), kann in aufeinanderfolgenden Bildern dargestellt werden, da von der Speicherkapazität für visuelle Informationen, die wir auch bei der normalen Wahrnehmung nutzen müssen, Gebrauch gemacht wird.
3. Der Film erlaubt, ja er hängt sogar ab von Veränderung, wodurch auf einer besonderen Ebene Aufmerksamkeit und Interesse gebunden werden können, was mit einem entsprechenden einzelnen Bild nicht erreicht werden könnte.
4. Der Film ermöglicht die stückweise Darstellung von Orten und Ereignissen. Er kann Bilder von Gegenständen einander gegenüberstellen, die sich bei der Aufnahme nicht am selben Ort befanden.
5. Redundantes in Handlungen, zeitlichen Abfolgen oder räumlichen Anordnungen kann ausgelassen werden, womit Ereignisfolgen auf ihre minimalen kommunikativen Eigenschaften reduziert werden können.

Im folgenden werden wir zunächst kurz das Wesen des Mediums Film besprechen und danach die relevanten sensorischen und perzeptorischen Fragen betrachten.
Der ungeheure Erfolg des Films als eine Art des Zeitvertreibs, insbesondere in der Form des Fernsehens, ist weithin anerkannt (vgl. Lyle & Hoffman, 1971; Rutstein, 1974; Winn, 1977). Über die Wahrnehmung dieser Darstellungsform ist vieles geschrieben worden, das gewichtig ist, jedoch begrenzte Möglichkeiten der experimentellen Überprüfung bietet (besonders McLuhan, 1964, 1969). Auch weniger ehrgeizige Fragen sind immer wieder in der Forschung gestellt worden, wie zum Beispiel bei pädagogischen Filmen bezüglich der Auswirkung variierender Präsentationsformen auf den pädagogischen Effekt des Films (vgl. Grover, 1975; Minter, Albert & Powers, 1961; Salomon, 1972; VanderMeer, 1954) - eine Literatur, die wir in diesem Rahmen nicht besprechen können (Findahl, 1971; Guba, Wolf, de Groot, Knemeyer, Van Atta & Light, 1964). Weiterhin beschäftigt sich ein großer Teil der pädagogisch orientierten Untersuchungen mit verschiedenen Fragen, von denen angenommen wurde, daß sie mehr oder weniger eng mit dem Film zusammenhängen (vgl. Grover, 1975).
Andererseits widmen sich verhältnismäßig wenige Arbeiten den grundlegenden Aspekten der Wahrnehmung beim Film, d.h. den allgemeinen theoretischen Fragen, die sowohl Bestandteil der Film- als auch der Wahrnehmungstheorie sind, oder auch der praktischen Frage, wie Erkenntnisse und Methoden der einen Theorie der anderen dienlich sein können. Dies erscheint merkwürdig, da die Verflechtungen sowohl offensichtlich als auch bedeutend sind.


A. Das Wesen des Mediums
Was ist ein Film?

1. Der Film als Surrogat: Abstand, Größe und Auflösung

Zum ersten besteht der Film natürlich aus bewegten Bildern. In einem gewissen Sinne ist er ein Surrogat des dargestellten Ortes oder Ereignisses. Er funktioniert zum Beispiel, indem er dem Auge eine optische Anordnung anbietet, eine Fläche von strukturiertem Licht, die in ihren wesentlichen Zügen der Struktur, die vom Ort oder Ereignis selbst erzeugt würde, ähnlich ist. Somit scheint zumindest prinzipiell eine unproblematische Definition von Wiedergabetreue (Gibson, 1947, 1954a) im Film möglich, wie auch eine Anwendung gleichermaßen unproblematischer Fragen bezüglich der Bildschärfe im Auge. Man könnte auch den optimalen Abstand des Zuschauers zum Bild, die optimale Publikumsgröße (McVey, 1970) und die Auflösungsgrenzen, die beim Fernsehen beispielsweise vom Raster der Bildpunkte abhängen, bestimmen etc. Einige wenige Forschungsarbeiten haben sich tatsächlich mit dem einen oder anderen dieser Probleme befaßt (vgl. Enoch, 1959; Meister, 1966; Wadsworth, 1969). Von McVey (1970) wurde der Versuch unternommen, diese Ergebnisse miteinander zu verbinden. Leider ist es jedoch so, daß die Frage der Auflösung und der Leinwand- bzw. Bildschirmgröße nicht ohne weiteres zu klären ist.
Der Bildschärfeverlust, der im Netzhautbild aufgrund der Breite des Punktrasters auftritt (man sieht die Punkte selbst), ist im fovealen Bereich zweifellos größer als in der Peripherie. Unschärfe in der Peripherie kann sogar als Tiefpaßfilter für die Rekonstruktion von Einzelheiten, die foveal nicht unterschieden werden können, fungieren (vgl. Harmon & Julesz, 1973). Eine Verkleinerung des Gesichtswinkels gegenüber dem Bildschirm bzw. der Leinwand verringert nun aber notwendigerweise den Anteil des peripheren Sehens des Betrachters. Dies kann dazu führen, daß die Bereitschaft des Betrachters, das nächste Bild aufzunehmen, sinkt. Außerdem kann es auch die Wirksamkeit des ganzen Filmausschnitts überhaupt einschränken (vgl. Hochberg & Brooks, 1973; Wist, Dienes, Dichganz, & Brandt, 1975). Ohne weitere Untersuchungen kann man die Bildauflösung also nicht einfach mit dem Betrachterabstand gleichsetzen (bei gleichbleibender Bildgröße).
Auch für den Betrachterabstand können wir wohl kaum ein scheinbar so naheliegendes Kriterium festlegen, wie zum Beispiel, daß der Gesichtswinkel zur Leinwand mit dem der Kamera identisch sein sollte, um die Lichtstruktur des Surrogats am Auge der der ursprünglichen Szene möglichst weit anzunähern. Diese Idee entspringt natürlich der Definition des Bildes als Reizsurrogat. Tatsache jedoch ist, daß der Zuschauer nicht nur Unterschiede des Betrachtungswinkels und der -entfernung, die eine erhebliche Form- und Perspektivenverzerrung auf der Netzhaut mit sich bringen, tolerieren kann (Pirenne, 1970), sondern daß außerdem kanonische Darstellungen (Gombrich, 1960; Hochberg, 1972), wie sie von Teleobjektiven erzeugt werden, scheinbar bevorzugt werden, (d.h. Darstellungen, in denen der Bündelungsgrad für ein Objekt einer bestimmten Größe weit geringer ist als der, den der korrekte Betrachterabstand bewirken würde (Hagen & Elliott, 1976)).

Diese Fragen bezüglich bildlicher Wahrnehmung im allgemeinen sind gerade im Film so überaus wichtig, da sie mit den Merkmalen des Mediums interagieren: Kino und Fernsehen arbeiten (in unterschiedlichem Ausmaß) bewußt mit Veränderungen des tatsächlichen Abstands zwischen Szene und Kamera (Nahaufnahme vs. Totale etc.). Einige Konsequenzen für die Wahrnehmung diesbezüglich werden wir auf S. $af. diskutieren.
Im folgenden wollen wir betrachten, wie Bilder sich "bewegen".

2. Stroboskopische Bewegung und damit verbundene Fragen der Wahrnehmung

Wie jeder weiß, besteht der Film aus einer Folge statischer Einzelbilder, gewöhnlich 24 Bilder pro Sekunde bei Tonfilmen und generell 30 Bilder pro Sekunde beim amerikanischen Fernsehen. Im ersten Falle befindet sich die Bildfrequenz gerade noch im Bereich wahrnehmbaren Flimmerns, doch eine Flügelblende unterbricht jedes Bild noch ein- oder mehrmals, womit eine wirkliche Frequenz von 72 bis 120 Hz erreicht wird. Im Fall des Fernsehens wird das Bild von einem beschleunigten Elektronenstrahl erzeugt, der alternierende Zeilen mit einer Frequenz von 30 Hz anordnet (die modulierten hellen Linien werden auf dem Leuchtschirm der Kathodenstrahlröhre zusammengesetzt). Auf diese Art und Weise wird das Gesamtbild durch alternierende Zeilen bei einer Frequenz von 60Hz verstärkt.
2
Film- und Fernsehbilder werden also auf sehr unterschiedliche Art erzeugt. Dieser Unterschied im zugrundeliegenden Darstellungsprozeß soll nach Ansicht mancher Autoren für die zu vermittelnde Nachricht und ihre Ästhetik bedeutend sein (McLuhan, 1964; Zettl, 1973). Da die Prozesse jedoch in beiden Fällen im Bereich des zeitlichen Auflösungsvermögens des visuellen Systems liegen, ist der Unterschied, der aus der Erzeugungsmethode resultiert (im Gegensatz zu Unterschieden bezüglich der Konturenstabilität, der Auflösung, des Kontrasts, der Leuchtdichte etc.), als ästhetische Frage ganz irrelevant (Layer, 1974).
Wichtig aber für beide Verfahren ist die Tatsache, daß eine kleine Verschiebung eines Musters von einem Bild zum nächsten nicht als Folge statischer Einzelbilder wahrgenommen wird, sondern als Bewegung des Musters von einem Ort zum anderen. Dies ist das Kernstück des Vorgangs, der allerdings in populärwissenschaftlichen und auch Fachtexten über Film und Fernsehen oft falsch interpretiert wird.
Wenn fortschreitend kleine Veränderungen von einem Bild zum nächsten vorgenommen werden, reagiert das Wahrnehmungssystem, als ob ihm sich fließend bewegende Stimuli angeboten worden wären. (Obwohl dies natürlich nicht in jeder Hinsicht zutrifft - man kann zum Beispiel mit der Hilfe von Sonden zeigen, daß die Netzhaut in solchen Fällen nicht wirklich einen sich bewegenden Stimulus empfängt; vgl. Kolers, 1963). Dieses Phänomen wird in der Regel als stroboskopische (oder Beta-) Bewegung bezeichnet.

Manchmal wird es noch immer irrtümlicherweise auf die "visuelle Persistenz" zurückgeführt, d.h. auf das, was in der Literatur zur Informationsverarbeitung heute oft Icon genannt wird (Neisser, 1967). Natürlich ist es nichts dergleichen, denn visuelle Persistenz allein würde nur dazu führen, daß die aufeinanderfolgenden Einzelbilder sich im resultierenden Blickfeld überlagern würden.
In der Tat, um erklären zu können, warum visuelle Persistenz nicht alle statischen Zwischenbilder bewahrt, die ein sich bewegendes Objekt in der filmischen Darstellung durchläuft, muß wahrscheinlich entweder eine Art sukzessives Verdecken oder aber ein "Off-"Signal angenommen werden.
3 Auf jeden Fall sind Persistenz und Bewegung aber nicht identisch.

a. Stroboskopische Bewegung: Fakten und Fragen. In sehr wenigen Untersuchungen zur stroboskopischen Bewegung sind Stimuli verwendet worden, die derartig vielfältig, kompliziert und komplex sind wie jene, die im Film gebraucht werden. Es liegt eine Reihe Arbeiten mit einfachen Reizmustern vor, die wahrscheinlich einige aber nicht alle relevanten Vorgänge erklären.
Wenn zwei Lichtpunkte oder andere einfache identische Muster, die durch den Abstand s sowie ein zeitliches Intervall t, währenddessen keiner der Stimuli gezeigt wird, getrennt sind, gilt für bestimmte Werte von s und t, daß der Betrachter eine räumliche Bewegung sieht. Die physikalischen Variablen scheinen simpel und einleuchtend zu sein. Die Reaktionen des Betrachters (vgl. Kenkel, 1919; Wertheimer, 1912) reichen von der Wahrnehmung einer einfachen Phi-Bewegung (d.h. Objekte werden nicht erkannt, aber ein starker und unabhängiger Bewegungsreiz wird beschrieben) über eine Beta-Bewegung (d.h. man sieht ein Objekt sich von einem Ort zu einem anderen bewegen) bis hin zu einer diskreten Abfolge von Einzelbildern. Unter bestimmten Bedingungen kann Beta-Bewegung nicht von richtiger Bewegung unterschieden werden (DeSilva, 1929; Dimmick & Scahill, 1925; Stratton, 1911; Wertheimer, 1925). Wenn ein „Hindernis“ zwischen a und b plaziert wird, oder wenn die zwei Reizmuster Spiegelbilder voneinander sind, die den Abstand s auf der Netzhaut nur dann zurücklegen können, wenn sie durch die dritte Dimension schwingen (vgl. Abbildungen 1 (b) und 1 (c)), dann sehen wir die entsprechende Bewegung im dreidimensionalen Raum. Generell gilt, daß unsere Wahrnehmung eine Abfolge von einzelnen Bildern bei einer genügend feinen zeitlichen Auflösung genauso behandelt wie eine kontinuierliche Bewegung, die diese Bildfolge gewöhnlich als zeitlichen Ausschnitt erzeugen würde.
Dadurch wird der Film natürlich erst möglich: Der Kameramann muß seine Kamera normalerweise bloß auf eine Szene richten, und die Scheinbewegung, die bei der Vorführung des Films entsteht, ist im wesentlichen die gleiche wie bei einer irgendwie kontinuierlichen (statt einer springenden) Aufzeichnung des Ereignisses.


Abb. 1. Stroboskopische Bewegung. (a): Wenn der Abstand s und das Zeitintervall t (oder die Stimulusbeginn-Asynchronie S) mit bestimmten Werten belegt werden, werden a und b als ein sich durch den Raum bewegender, einzelner Punkt wahrgenommen. Oben sind die beiden aufeinanderfolgenden Einzelbilder dargestellt, darunter die zeitliche Abfolge. (b, c): Wenn a und b nacheinander gezeigt werden, nimmt man sie als ein (und dasselbe) Objekt wahr, das sich durch einen dreidimensionalen Raum bewegt. Oben die beiden Einzelbilder; unten werden sie aus der Vogelperspektive gezeigt, wobei die Bewegung mit gestrichelten Pfeilen angedeutet ist. (d): Da auf a sowohl b als auch b’ folgen können, ist klar, daß die Richtung der Scheinbewegung während des Intervalls t2 --t1 erst nach Ablauf des Intervalls bestimmt werden kann (d.h. die Bewegung wird der Reizsequenz im Nachhinein zugeordnet).

Normale stroboskopische Bewegung verlangt also kaum Wissen über die Wahrnehmung von Bewegung. Nur wenn die normale stroboskopische Aufnahme unterbrochen wird, wie das beim Schnitt der Fall ist (vgl. S. $b-$c), kommt das Wissen um die ausschlaggebenden Faktoren bei der Scheinbewegung ins Spiel.
4

b. Kortes Gesetze und Ternussche Phänomene: Das Problem der Reizidentifizierung. Wenn a und b also einfache, identische Muster meßbarer Leuchtstärke und s und t unabhängige, sowie die Beta-Bewegung abhängige Variablen sind, ergeben sich interessante Ansätze für die psychophysische Forschung (Korte, 1915; Neuhaus, 1930; Sgro, 1963; vgl. Zusammenfassungen in Hochberg, 1971, sowie Kaufman, 1974). Im wesentlichen bestätigen die Ergebnisse die Helmholtzsche Regel, nämlich daß wir dasjenige Ereignis wahrnehmen, das mit großer Wahrscheinlichkeit die Reize produziert haben könnte. Das heißt, für eine längere Zwischenzeit t müssen a und b (bei gleicher Geschwindigkeit) weiter voneinander entfernt sein, bzw. dichter beieinander für eine kürzere Zeit. Bei einer normalen Filmdarbietung ist die Zeit zwischen zwei Bildern gewöhnlich sehr kurz. Sie liegt entweder zwischen 8 bis 21 ms oder zwischen 33 bis 42 ms, je nach dem ob die relevante Variable die Zeit zwischen den Reizen (das Interstimulusintervall = ISI) oder die Zeit von einem Reizanfang zum nächsten (die Stimulusbeginn-Asynchronie, engl.: = SOA), dargestellt durch S in Abbildung 1 (a), ist. Letzteres ist wahrscheinlich passender. In beiden Fällen sind die Verschiebungen, die eine gleichmäßige Bewegung erzeugen, auf jeden Fall verhältnismäßig klein, wie man es im Film auch erwarten würde.

In vier Punkten ist die Materie jedoch weit weniger simpel und somit interessanter für die Wahrnehmungs- und die kognitive Psychologie, als es auf den ersten Blick erscheinen mag.
Erstens, unabhängig von den Vorgängen, denen die Wahrnehmung von Bewegung in diesen Fällen unterliegt, kann Bewegung nicht unmittelbar, d.h. On-Line, wahrgenommen werden. Denn die Richtung, in die sich a in Abbildung 1 (d) bewegt, kann frühestens dann wahrgenommen werden, wenn entweder b oder b' gezeigt werden. Eine Bewegung kann also erst dann festgestellt werden, nachdem die Bildsequenz beendet ist. Dies ist weniger wichtig, solange nur einzelne Bildpaare betroffen sind, also bei einer Dauer von 67 bis 83 ms (für zwei Video- bzw. Filmbilder). Wenn länger dauernde Bewegungen (ab etwa 1500 ms) dargestellt werden, ergeben sich jedoch einige interessante Aspekte. Sicherlich gibt es eine Zwischenzeit t, die länger als (ca.) 1500 ms dauert, und nach der die wahrgenommene Bewegung keine Reaktion mehr auf die gesamte Sequenz, einschließlich der ersten Bilder, ist. Das wahrgenommene Ereignis muß einerseits darin bestehen, dem ersten Teil der Gesamtsequenz ein mentales Schema zuzuweisen und andererseits auch darin, zu testen, was dieses Schema voraussagt. Zwar sind unmittelbar zu dieser Problematik keine Untersuchungen durchgeführt worden, wir werden im Abschnitt zu schlechten Schnitten aber auf einige Phänomene eingehen, die mittelbar damit verbunden sind.
Zweitens muß eine „Reizidentität“ in Betracht gezogen werden, die über die physikalische Unterscheidbarkeit der Reizvariablen unter Umständen hinausgeht: In Abbildung 2 beispielsweise ist die Sequenz mehrdeutig. Die Bewegung kann entweder wie in Abbildung 2 (b) oder wie in 2 (c) wahrgenommen werden, oder 2 (b) und 2 (c) können einander abwechseln, wobei das Verhältnis von den Reizbedingungen abhängen würde (Petersik & Pantle, 1976). Wenn die Zwischenzeit t für die beiden mittleren Punkte b und c gleich 0,0 ist, wird die Scheinbewegung nach dem Muster 2 (c) wahrgenommen (Ternus, 1938). Dies hängt vermutlich davon ab, ob die Punkte b und c in beiden Bildern als identisch wahrgenommen werden d.h. konstant sind, womit a und d auch identisch wären, oder ob a, b und c als mit b, c bzw. d identisch betrachtet werden. Hier ist übrigens die Zeit zwischen den Reizen (ISI) wichtiger als die Zeit zwischen den Reizanfängen (SOA), wahrscheinlich weil das Interstimulusintervall ein Off-Signal abgibt (vgl. Eriksen & Collins, 1967, 1968). Ob die Reizidentität hier nun tatsächlich als unabhängige Variable betrachtet werden kann, oder ob sie nur eine abhängige Variable ist, die von den gleichen Faktoren beeinflußt wird, die auch die Bewegungsroute, die wahrgenommen wird, bestimmen, konnte noch nicht festgestellt werden. Weiter unten werden wir jedoch sehen, daß es Fälle gibt, in denen es sinnvoll scheint, von einem derartigen Kausalzusammenhang zu sprechen.


Abb. 2. Reizidentifizierung: (a): Das Modell (Ternus, 1938) besteht aus drei Lichtpunkten (a, b und c), denen eine weitere Kombination dreier Lichtpunkte folgt (b, c und d). (b): Wenn zwischen den beiden Anordnungen eine Dunkelzeit geschaltet wird (oberer Teil der Abbildung), scheint es, als ob a sich zu b bewegt, b zu c und c zu d, wie im unteren Teil zu sehen ist. (c): Wenn die Lichtpunkte b und c aber durchgehend leuchten (oberer Teil der Abbildung), dann scheint a sich durch die dritte Dimension zu d zu bewegen (unterer Teil der Abbildung).

Drittens können Scheinbewegungen zwischen recht unterschiedlichen Figuren stattfinden, die Idee der Reizidentität darf daher nicht überbewertet werden. Die Figuren scheinen sich zudem nicht nur von einem Ort zum anderen bewegen zu können, sie ändern dabei auch allmählich ihre Form oder Farbe (Pomerantz, 1971; Kolers & von Grünau, 1976; Navon, 1976; Orlansky, 1940). Dies ist analog zu den von Penrose & Penrose entworfenen unmöglichen Bildern (1958). Wenn die Helmholtzsche Regel, daß wir das, was einem sensorischen Schema am ehesten entspricht, sehen, tatsächlich zutrifft, muß dem Theoretiker dieses "am ehesten" nicht unbedingt vor dem Sichten der Daten offensichtlich und vorwegnehmbar sein (Hochberg, 1968, 1974a, b). Außerdem erfolgt die Reaktion auf sensorische Muster auf verschiedenen Ebenen, so daß kognitive Erklärungen, zum Beispiel darüber was "am ehesten" paßt, sicher nicht in allen Bereichen gelten (Hochberg, 1968). Beispielsweise wird die Situation in Abbildung 2 bei bestimmten Frequenzen mehrdeutig und wechselt zwischen den Varianten 2 (b) und 2 (c) (Petersik, 1975). Die Varianten können unabhängig voneinander adaptiert werden, und die Helligkeitsadaptation wirkt sich unterschiedlich auf sie aus. (Helligkeitsadaptation bevorzugt die "Gruppenbewegung" von (b), Dunkeladaptation die "Einzelelementbewegung" von (c); Petersik & Pantle, 1976).)
Schließlich müssen wir noch bestimmen, wie s und t gemessen werden sollen. Wenn der Betrachter sich in einer festgelegten Entfernung vom Bildschirm, auf dem die Objekte dargestellt werden, befindet, scheint das Messen unproblematisch. Es ist jedoch unklar, ob der Abstand im Bild der Netzhaut (dem optischen Bild) oder aber der wirkliche Abstand (im physikalischen Objekt) entscheidend ist. Mit anderen Worten, wir müssen also feststellen, an welcher Stelle s und t gemessen werden.

c. Das “Medium“, in dem die stroboskopische Bewegung sich ereignet. Nehmen wir an, daß wir den Blickwinkel gegenüber zwei Objekten a und b konstant halten, den Abstand s zwischen Betrachter und Bildschirm, auf dem die Objekte a und b in Abbildung 1 (a) erscheinen, aber verändern. Im Netzhautbild soll der Abstand s zwischen a und b also konstant sein, während der wirkliche Abstand zwischen den Gegenständen a und b mit dem Betrachterabstand zunimmt. Wenn Scheinbewegung ein Phänomen wäre, das von der Peripherie des Auges bestimmt wird, würden wir erwarten, daß die Zwischenzeit t, die benötigt wird, um eine gute Beta-Bewegung zu erzeugen, allein von der Größe des optischen Bildes auf der Netzhaut abhinge. Wenn die Scheinbewegung andererseits aber zwischen scheinbaren Orten in einem scheinbaren Raum stattfände, und wenn der scheinbare Abstand zwischen den Objekten in etwa dem tatsächlichen Abstand entspräche (d.h. wenn Größengleichheit herrschte), dann müßte die Zwischenzeit t, die für eine gute Beta-Bewegung nötig ist, vom tatsächlichen Abstand zwischen a und b abhängen.
Es gibt in der Tat eine zunehmende Anzahl von Arbeiten, die diese letztere Interpretation zu bestätigen scheinen (Attneave & Block, 1973; Corbin, 1942; Rock & Ebenholtz, 1962; Shepard & Judd, 1976). Shepard und Judd bauten beispielsweise eine Endlosschleife mit zwei perspektivischen Bildern desselben dreidimensionalen Gegenstandes. Sie berechneten die Mindestdauer der Zweierfolge, die nötig ist, um eine deutliche Rotation des Gegenstandes wahrnehmen zu können.

Dabei kamen sie zu dem Ergebnis, daß das Intervall sich proportional zur Veränderung der Ausrichtung der beiden Formen verhielt, und daß der Anstieg der Kurve aus Ausrichtung und Mindestdauer der Zweierfolge immer der gleiche blieb, unabhängig davon, ob die Rotation im dreidimensionalen Raum stattfand oder (scheinbar) auf der Bildfläche. Es gibt einige Gründe (siehe S. $d), die dafür sprechen, daß für die Geschwindigkeit, mit der ein Filmschnitt wahrgenommen wird, ähnliche Bedingungen gelten.
Wir sollten diese Daten jedoch nicht überbewerten. Es gibt wahrscheinlich mehrere, recht unterschiedliche Reaktionen, die möglicherweise auch unabhängig voneinander sind, die in der Wahrnehmung von Scheinbewegung eine Rolle spielen. Mit großer Wahrscheinlichkeit hängen einige dieser Vorgänge entscheidend von den Parametern des Netzhautbildes ab. Wir werden weiter unten sehen, daß diese Parameter äußerst wichtig für das Verständnis vom Filmschnitt sind (und daß das Studium des Filmschnitts uns wiederum helfen wird, jene Vorgänge besser zu verstehen).

d. Die unterschiedlichen Prozesse, die bei Scheinbewegungen ablaufen: Erstreaktionen (“Transients“), „Kleckse“ (“Blobs“) und Detailerkennung. Wenn verschiedene Formen nacheinander an derselben Stelle erscheinen, entsteht der Eindruck, daß die Formen sich ineinander verwandeln (Berliner, 1948). Wenn verschiedene Formen an verschiedenen Stellen gezeigt werden, entsteht der Eindruck, daß sich die Formen bewegen (Hochberg & Brooks, 1974; Kolers & Pomerantz, 1971; Navon, 1976; Orlansky, 1940). Formkonstanz scheint also kein wesentlicher Aspekt bei stroboskopischer Bewegung zu sein. Wir haben aber bereits gesehen, daß zumindest einige Arten der Scheinbewegung durch "Entscheidungen" über scheinbare Reizidentität bestimmt werden. Und wir haben auch gesehen, daß Bewegung auch in Abhängigkeit bestimmter Parameter scheinbaren dreidimensionalen Raumes stattfindet, wobei letzterer das Ergebnis nicht unwesentlicher Verarbeitungsvorgänge sein und auf Informationen über die Form aufbauen muß. Es könnte hier durchaus ein Problem geben, das aber kein Paradox darstellen muß, da die verschiedenen Prozesse bei der stroboskopischen Bewegung recht unterschiedlich sein können.
5 $l
Generell sollten mindestens zwei Arten von Faktoren unterschieden werden. Ein Modell, das sowohl mit der experimentellen Forschung als auch mit unseren Untersuchungen zum Filmschnitt (vgl. S. $d) vereinbar ist, ist das folgende: Auf einen abrupten Bildwechsel folgt eine schnelle, flüchtige Erstreaktion in Form einer Scheinbewegung zwischen Bereichen mit der gleichen Leuchtstärke, die in den aufeinanderfolgenden Bildern ihre Position nur wenig verändern. Wie der Reiz genau aussehen muß, damit eine solche Erstreaktion hervorgerufen wird, ist gegenwärtig noch nicht bekannt.

Die Vorstellung, daß eine schnelle Reaktion auf "Kleckse" im allgemeinen erfolgt, d.h. auf jene Aspekte des Reizes, die mit niedriger räumlicher Häufigkeit auftreten, stimmt mit den vorhandenen Daten überein (Saucer, 1954; Breitmeyer & Ganz, 1976; Breitmeyer & Julesz, 1975; Breitmeyer, Love & Wepman, 1974). Die Reaktionszeiten für die Wahrnehmung von Mustern, die unterschiedliche räumliche Häufigkeiten aufweisen, liegen also zwischen 200 ms für Muster von 0,5 c°-1 bis zu 350 ms für Muster von 10 c°-1 (Breitmeyer, 1975). Die unterschiedlichen Reaktionszeiten spiegeln die unterschiedlichen Geschwindigkeiten bei der sensorischen Verarbeitung wider und nicht die verschiedenen Entscheidungs- oder Ausführungszeiten. Dies kann durch zwei Fakten belegt werden. Zum einen können die Reaktionszeiten (Latenzen) im Sehzentrum der Großhirnrinde durch dieselbe Kurve dargestellt werden (Williamson, Kaufman & Brenner, 1977). Zum zweiten kann eine Scheinbewegung, die durch eine Bildfolge produziert wird, die für Entscheidungen oder offene Reaktionen auf einzelne Bilder zu schnell abläuft, als der eigentlichen Bewegung entgegenlaufend wahrgenommen werden, wenn verschiedene Gegenstände entsprechend in nacheinander benachbarte Position gebracht werden (S. $d). Ob "niedrige räumliche Frequenzen" eine passende Beschreibung darstellt, können wir hier noch nicht feststellen (z.B. könnte dasselbe Phänomen der Formenunabhängigkeit bei Scheinbewegungen auch auf lokale Beziehungen zwischen aufeinanderfolgenden Konturteilen sein). Zumindest kann sie uns im Moment aber als eine nützliche Metapher dienen. $j
Unter welchen Reizbedingungen diese flüchtige Erstreaktion auch hervorgerufen wird, sie ist zwar eine kurzlebige aber doch eine recht beeindruckende Empfindung von Bewegung. $n
Zusätzlich zur muster-unabhängigen Erstreaktion (“transient, form-independent response“) gibt es natürlich auch langsamere Reaktionen auf die Verschiebung von Objekten zwischen zwei Bildern. Es scheint plausibel, daß sie parallel zu den Erstreaktionen ausgelöst werden. Langsamere Reaktionen lassen die Gesamtform der Objekte und die kleinen entscheidenden Details jedoch nicht außer acht. Solche formabhängigen Reaktionen (“form-dependent responses“) scheinen wesentlich länger zu dauern - von 500 ms an aufwärts (Hochberg & Brooks, 1974). Höchstwahrscheinlich sind die Phänomene stroboskopischer Bewegung, die in scheinbarem Raum stattfinden, in diese Klasse der langsamen Reaktionen einzuordnen.
An dieser Stelle können wir die Fakten mit ziemlicher Sicherheit zu einer groben Regel zusammenfassen. Elemente mit niedriger räumlicher Häufigkeit dominieren, wenn der Betrachter Bildfolgen hoher zeitlicher Schnittfrequenz verknüpfen (integrieren) muß, und Informationen hoher räumlicher Häufigkeit herrschen vor bei niedriger Schnittfrequenz.
Wenn Augen- und Kamerabewegungen klein sind (letztere in Bezug auf den Abstand zwischen den wichtigsten Umrissen der aufgenommenen Szene) verlaufen beide Prozesse in derselben Richtung und behindern sich also nicht. Dagegen stimmen größere Sakkaden oder größere Bewegungen der Kamera selten überein und, wie wir später bei der Diskussion von überlappenden Schnitten sehen werden, könnte dies die Übergänge schwer verstehbar machen.

e. Die Teilung relativer Bewegung: Induzierte Bewegung, "Systemtrennung" und die Wahrnehmung von Invarianten bei Transformationen. Die Reizschwelle für relative Bewegung ist niedriger als die für absolute Bewegung (Aubert, 1886; Brown & Conklin, 1954). Das läßt vermuten (bedeutet aber nicht zwangsweise), daß der Betrachter bei einer Reihe von Ereignissen sicher ist, eine Bewegung gesehen zu haben, jedoch nicht sagen kann, welches der beiden Objekte sich bewegt hat und damit auch nicht die Richtung der Bewegung angeben kann.
6



Abb. 3. Die Trennung von wahrgenommener Bewegung. (a): Induzierte Bewegung. Wenn in einem leeren Bereich a feststehend ist und b sich bewegt, scheint a sich zu bewegen und b scheint fest zu sein. (b): "Systemtrennung" (siehe Text) (c, d) Der Johanssoneffekt. Bewegen sich in einem dunklen Raum drei Lichtpunkte entlang der Pfeile in Bild (c), dann sieht der Betrachter die Bewegungen in Bild (d).

Wenn ein fester Punkt a von einem sich bewegenden Rahmen b in einem ansonsten dunklen oder ohne besondere Merkmale ausgezeichneten Raum umgeben ist, erscheint der Rahmen fest, während der Punkt sich zu bewegen scheint (Duncker, 1929), vgl. Abbildung 3 (a). Im allgemeinen scheint sich das kleinere der beiden Objekte zu bewegen, insbesondere wenn es sich innerhalb des größeren befindet.
Wir neigen dazu, Objekte, von denen wir erwarten, daß sie sich bewegen können (Autos, Flugzeuge, Menschen), eher als sich bewegend wahrzunehmen (Brosgole & Whalen, 1967; Comalli, Werner & Wapner, 1957; Duncker, 1929; Jensen, 1960). Dies muß aber nicht so sein, beispielsweise wenn das fixierte Objekt von einem sich bewegenden Rahmen umgeben ist (Brosgole & Whalen, 1967).
Wenn ein feststehendes, stationäres Objekt innerhalb eines festen Rahmen liegt, und ein strukturierter Hintergrund sich kontinuierlich hinter dem Objekt bewegt, wird der Betrachter dem Objekt Bewegung zuschreiben, und zwar in entgegengesetzter Richtung zur wirklichen Bewegung des Hintergrundes. Da das Objekt bezüglich des Rahmens fixiert ist, sich aber doch zu bewegen scheint, ist logisch (und in gewissem Maße perzeptuell) daraus zu schließen, daß sich der Rahmen gemeinsam mit dem Objekt bewegt. Dieses anscheinend paradoxe Phänomen ist entscheidend für die filmische Darstellung von Bewegungen, die einigermaßen lang andauern (denn ein Objekt, das sich im Grunde relativ zur Leinwand bewegt, wird sie letztendlich verlassen). Wie läßt sich dies mit dem Phänomen induzierter Bewegung, das wir oben beschrieben haben, vereinen?

Es gibt vier mögliche Erklärungen für diesen bedeutenden filmischen Effekt. Erstens könnte die induzierende Wirkung des Rahmens dadurch außer Kraft gesetzt werden, daß das Objekt dem sich bewegenden Hintergrund unmittelbar benachbart, der Rahmen aber weiter entfernt vom Objekt ist, wodurch nur eine örtlich begrenzte relative Bewegung erzeugt würde (vgl. Gogel, 1977).
7 Zweitens könnte die Bewegung des Hintergrunds in der Peripherie des Netzhautbildes den Betrachter dahingehend irreführen, als daß er meint, seine Blickrichtung zu verändern (siehe S. $e).8 Traditionell würde man argumentieren, daß der Betrachter den sich bewegenden Hintergrund innerhalb des Rahmens als die angedeutete Umgebung akzeptiert (so wie eine Szene, deren Rahmen ein Zugfenster bildet, Teil der allgemeinen, festen Umgebung ist; vgl. Koffka, 1935). Schließlich schlägt Wallach (1959) vor, daß eine allgemeine Regel der Systemtrennung die Erklärung des Phänomens ist. Nach dieser wird Scheinbewegung stets durch den nächsten das Objekt umgebenden Rahmen bestimmt. In Abbildung 3 (b) (nach einem von Wallach beschriebenen Versuch) induziert die tatsächliche Bewegung des inneren Rechtecks b die Scheinbewegung des Punktes a in die entgegengesetzte Richtung, trotzdem a bezüglich c fixiert ist.
Jede einzelne oder alle diese Erklärungen könnten zutreffen. Es gibt wenige Untersuchungen auf diesem Gebiet, obwohl dies prinzipiell nicht kompliziert sein sollte, da die verschiedenen Interpretationen unterschiedliche Auswirkungen im Film haben. Zum Beispiel müßte nach der ersten Erklärung eine Verringerung des Effekts mit Verkleinerung des Blickwinkels auf die Leinwand oder den Bildschirm auftreten. Die letzten beiden Erklärungen würden dies hingegen nicht vorhersagen. Man kann in der Tat hinterfragen, ob die Scheinbewegungen in Abbildung 3 (b) wirklich derart zuverlässig eintreten, so daß man das filmische Phänomen erklären kann (Farber & McConkie, 1977). Dies führt uns zu einem generellen Problem bezüglich der Erscheinungen in diesem und im nächsten Kapitel: sie alle sind uneindeutig. Die Konstellation in Abbildung 3 (b) kann unterschiedlich betrachtet werden: zwei feste Objekte (a und c) mit einem beweglichen (b); zwei bewegliche Objekte und ein festes (a und c bewegen sich nach links, b verändert seine Position nicht, oder aber a bewegt sich auf b zu nach links, welches sich wiederum hinter einer feststehenden Öffnung c nach rechts bewegt). Es mögen auch ganz andere Bruchteile relativer Bewegungen stattfinden. Gewöhnlich ist es bei Experimenten mit uneindeutigen Reizsituationen schwierig, zu bestimmen, nach welchem Kriterium die Versuchsperson entscheidet, welches Objekt sich in welche Richtung bewegt. Es liegt auf der Hand, daß wir die Bedingungen bestimmen müssen, unter denen Betrachter mehrdeutig auf Stimuli wie in Abbildung 3 (b) und 3 (c) (siehe weiter unten) reagieren, bevor wir sicher sein können, daß diese Mechanismen auf denselben Prinzipien beruhen wie die konkreteren Phänomene des Films, wie man ihn im Kino erlebt.

In Zusammenhang mit seinem Bestreben eine allgemeine Wahrnehmungstheorie zu entwickeln, hat Gibson behauptet, daß unser Wahrnehmungsapparat die invariante Struktur (d.h. die Konstanten) aus den Transformationen, die im Netzhautbild ablaufen, herausfiltert (extrahiert) (1954b, 1957, 1966). Johansson (1950, 1974) hat diesen Vorschlag noch präzisiert, indem er meinte, daß das visuelle System die Bewegung heraussucht, die allen sich bewegenden Elementen im Blickfeld gemein ist, und daß diese Bewegung dann das Raster ist, an dem die übrige Bewegung gemessen wird. Wenn die Lichtpunkte in Abbildung 3 (c) sich in einem ansonsten dunklen Raum wie durch die gestrichelten Pfeile angegeben bewegen, sieht der Betrachter die Bewegungen in Abbildung 3 (d). Dieses Prinzip wird uns noch bei der Diskussion der Wahrnehmung sich überlappender aufeinanderfolgender Bilder interessieren.

3. Der Film als Surrogat für Ereignisse in Zeit und Raum

Die oben besprochenen Probleme sind zum Teil unabhängig vom Film untersucht worden. Im folgenden wollen wir nun die Anwendung dieser Prinzipien diskutieren und jene Aspekte betrachten, bei denen der Film über das bisherige Interesse der Psychologen an den zugrunde liegenden Prozessen hinausgeht.

a. Die Geschichte der sich bewegenden Bilder. Versuche, Bilder sich bewegen zu lassen, gibt es nicht erst seit hundert Jahren (vgl. Cook, 1963; Pratt, 1973). Und neuere Apparate gibt es im Überfluß: das Zöotrop, das Projektions-Praxinoskop oder auch Muybridges fotografische Reihenaufnahmen, wo jede Kamera ein Bild machte, wenn ein sich bewegender Akteur einen Draht berührte. Freilich sind diese Apparaturen vom Filmstreifen mit seinen aufeinanderfolgenden Fotos (bzw. durch die magnetische Speicherung eines elektrischen Signals, das die Stärke der Bildsignale moduliert) abgelöst worden.
Die Filmtechnik ist für die Wissenschaft und Technik aber auch für die Unterhaltung entwickelt worden. Einer der Gründe, die diese Technik so interessant machen, ist die Art und Weise, in der Filme den Betrachter von seinen eigenen Wahrnehmungsgrenzen in Zeit und Raum befreien.

b. Die Ausdehnung und Verkürzung der Zeit im Film. Muybridge (1882) verfolgte mit seinen Versuchen ein bestimmtes Ziel. Er baute seine Kameras in einer Reihe auf und nahm die aufeinanderfolgenden Bilder eines schnellen Pferdes auf, um feststellen zu können, wie ein galoppierendes Pferd seine Beine bewegt. Dies kann man mit dem bloßen Auge ja nicht erkennen. Umgekehrt kann man Vorgänge, die normalerweise zu langsam ablaufen, um wahrgenommen werden zu können, erkennbar machen, indem man nur wenige Bilder in großen Abständen (beispielsweise 1 pro Tag) aufnimmt und sie dann bei einer normalen Projektionsgeschwindigkeit abspielt (wie zum Beispiel das Wachsen einer Pflanze). Diese Veränderungen auf der Zeitskala werden vielfältig angewendet, doch es gibt noch eine dritte Methode, die noch viel gebräuchlicher ist: Der Filmemacher kann ja mit seiner Kamera ein Ereignis oder selbst nur ein Teil eines Ereignisses in normaler Geschwindigkeit drehen (zum Beispiel das Aussähen von Samen in einem Blumentopf), die Kamera ausschalten und dann zurückkommen, um - wieder mit normaler Geschwindigkeit - weiter zu filmen, nur eben viel später (beispielsweise wenn die Pflanze begonnen hat zu sprießen). Nach einer kurzen Weile, wenn sich der Betrachter von dem abrupten Bildwechsel erholt hat, kann er problemlos den Faden wieder aufnehmen und die Streichung der (überflüssigen) Zwischenzeit akzeptieren. Der Filmemacher ist also in der Lage, nur jene Aspekte aus dem Lauf der Zeit herauszuschneiden, die er zeigen möchte. Wie wir gleich sehen werden, kann der Filmemacher im Film Zeit und Raum absolut kontrollieren. Er kann so drastisch von jeder Auffassung von Wiedergabetreue abweichen, daß der Begriff im Grunde nutzlos wird.

c. Die Konstruktion von Zeit und Raum: Parallele, Wiederholte und Vielfachbilder. Wie wir gesehen haben, kann der Filmemacher beliebig lange Zeitabschnitte ausklammern, in dem er sie einfach nicht filmt (oder sie aus dem Filmmaterial herausschneidet). Er kann auch zwei Ereignisse, die örtlich getrennt voneinander verlaufen, nebeneinanderstellen, ohne den sie trennenden Abstand tatsächlich zu überwinden (zum Beispiel kann eine Szene in New York unmittelbar auf eine Szene in Paris folgen). Auf diese Weise kann er deutlich machen, daß die beiden Ereignisse, die nacheinander gezeigt werden, eigentlich zur selben Zeit stattfinden. Im Gegensatz zum Theater, das zumindest einige Ereignisse in Realzeit zeigen muß, da ja die Schauspieler, die diese Ereignisse darstellen, selbst nur in der Realzeit spielen können, ist der Film in der Lage, nur jene Teile einer Szene auszuwählen, die von Interesse sind. Diese Ökonomie, die das Wesen der Kunstform Film ist, erlegt dem Medium, von dem der Betrachter weiß, daß es eine Aufnahme vergangener Ereignisse darstellt, ihre eigenen Bestimmungen auf.
9
Indem der Filmemacher Bilder versammelt, die ursprünglich nicht vom selben Ort oder Ereignis stammen, kann er ein Ereignis oder eine Situation darstellen, die im Grunde nur in seiner und in der Fantasie und der Wahrnehmung der Zuschauer existieren. Er kann dafür sogar Bilder nehmen, die nur Bruchstücke von Szenen sind, Bruchstücke, von denen niemand vor Porters epochemachender Konstruktion The Life of an American Fireman aus dem Jahre 1903 geglaubt hätte, daß sie verständlich sein könnten (Pratt, 1973). Seitdem ist es ganz normal geworden, Zeit und Raum zusammenzuziehen, zu konstruieren oder gar auszudehnen. Wenn im Film abwechselnd zwei Ereignisse gezeigt werden, die gleichzeitig ablaufen sollen (der Zuschauer braucht einen Hinweis auf diese besondere Situation, da er sonst annimmt, daß die Zeit einfach weiterläuft (Arnheim, 1960, S. 21)), kann der Zuschauer sie ohne Probleme verfolgen, genauso wie er die wechselnden Kapitel in den Romanen von Edgar Rice Burroughs verfolgen kann. Im Film wie auch beim Lesen einer Geschichte hängt die Interpretation sowie die Einbettung eines Bildes in die Gesamtbedeutung vom Kontext ab. Die zunehmende Anwendung von Bild-im-Bild-Darstellungen insbesondere in pädagogischen Filmen, ermöglicht dem Zuseher einen kompakteren Simultanvergleich. Es ist jedoch nicht gesagt, daß sich hier neue theoretische Fragen ergeben.

Die wichtigsten Eigenschaften der filmischen Kommunikation, jene, die nur auf den Film zutreffen und auch für die Wahrnehmungspsychologie von Bedeutung sind, haben nichts zu tun mit dem Gebrauch von Rückblenden und Parallelhandlungen. Diese gibt es auch in der Literatur. Die wahrnehmungstheoretisch einzigartigen Eigenschaften des Films ergeben sich zum ersten aus der Tatsache, daß die Kamera sich gegenüber einer Szene bewegt, während der Betrachter seine Position gegenüber der Leinwand oder dem Bildschirm nicht verändert, und zum zweiten aus der massiven Anwendung diskontinuierlicher Schnitte zwischen Szenen, die örtlich oder/und zeitlich voneinander getrennt sind. Wir werden diese nun nacheinander besprechen.


II. ÜBER KAMERABEWEGUNGEN UND DIE DARSTELLUNG VON RAUM

Wie wir gesehen haben, erwachsen aus der Tatsache, daß sich die Kamera frei bewegen und ihren Standpunkt abrupt verändern kann, vier Effekte: Erstens wird Tiefe im Raum geschaffen. Zweitens konstruiert eine Art mentales Auge einen Raum, der um ein Vielfaches größer sein kann als der auf der Leinwand dargestellte Ausschnitt. Drittens entstehen für den feststehenden Betrachter Schwierigkeiten bei der Bestimmung relativer Bewegungsrichtung. Und viertens kann visuelles Interesse leicht aufrechterhalten werden. Zuerst wenden wir uns den Haupttypen der Kamerabewegung zu und deren Informativität bezüglich räumlicher Tiefe.

A. Die verschiedenen kontinuierlichen Bildwechsel und deren unterschiedliche räumliche Information: Bewegungsperspektive, dynamische Verdeckung und transformationale Invarianten

Schon Leonardo Da Vinci wies in seiner Analyse der Tiefenperspektive im Bild darauf hin, daß das feste Bild keine bewegungsabhängigen Informationen über Entfernungen liefern kann. Bei der Wahrnehmung von statischen Bildern ist also immer eine gewisse Mehrdeutigkeit, wie auch eine Toleranz gegenüber Verzerrungen vorhanden, die im Film wahrscheinlich nicht anzutreffen sind. Es ist bekannt, daß der Zuschauer für einige Informationen über die visuelle Welt, die sich in den Transformationen sich bewegender Muster auf einer Leinwand oder einem Bildschirm widerspiegeln können, empfänglich ist (vgl. Green, 1961; Braunstein, 1966, 1968). Über die Gültigkeit der statischen Gestaltgesetzte, durch die bestimmt ist, wie versteckte Figuren entdeckt werden oder eben nicht, gibt es in den Transformationstheorien wie zum Beispiel der Gibsons keine Hinweise. Man trifft auf Bemerkungen wie "das Tier muß sich nur bewegen und seine Tarnung ist dahin", die andeuten, daß die traditionellen Erklärungen zu beschränkt sind. Die Sache ist allerdings nicht so klar, wie es scheint, insbesondere wenn es um kurze Einstellungen geht.
Schon der bloße Fakt, daß in der Animation - wenn möglich - Objekte auf ihre einfachsten Formen und Muster reduziert werden (Caldwell, 1973) legt nahe, daß mit der Bewegungsparallaxe nicht automatisch Klarheit geschaffen wird.

Des Vogels Tarnung durch Farbe und Umgebung wären völlig nutzlos, wenn er sofort als erkennbares, stillsitzendes Objekt durch den sich bewegenden Jäger wahrgenommen würde. Um das ganze auf den Punkt zu bringen, es gibt Laborversuche, die zeigen, daß gerade statische Faktoren entscheidend sein können, selbst wenn andere Informationen über Entfernungen durch Bewegung erlangt wurden. Beispielsweise scheinen die Teile eines Necker-Würfels unter normalen Bedingungen zueinander zu gehören (gute Fortsetzung). Dadurch entsteht das vertraute dreidimensionale Aussehen des Würfels. Wenn dieser Würfel nun aber derart auf Glasplatten gelegt wird, daß seine Teile in unterschiedlichen Entfernungen, ganz unabhängig voneinander plaziert sind, sieht der Betrachter anscheinend immer noch einen Würfel, selbst wenn er den Kopf bewegt (Kopfermann, 1930). Oder wenn ein dreidimensionales Modell eines Hauses in einen Bilderrahmen gesetzt wird, damit es wie ein Bild aussieht, so ist es in einem Film, der Bewegung enthält, von einem flachen Bild desselben Hauses nicht zu unterscheiden (Hochberg, 1962). Am spannendsten ist wohl das Beispiel des Ames-Fensters, wo die statische Linearperspektive sich gegenüber der tatsächlichen Form und Bewegung durchsetzt, woraufhin erstere nicht korrekt und letztere absolut falsch wahrgenommen wird (Ittelson, 1952). Schließlich haben Hershberger und Starzec (1974) gezeigt, daß die Information, die dem Auge durch die Geometrie der Bewegungsparallaxe und -perspektive potentiell zur Verfügung steht, in ihre Komponenten zerlegt werden kann, daß der Betrachter aber diese Komponenten nicht gleichmäßig verwendet. Inzwischen sollte deutlich geworden sein, daß keine rein mathematische Analyse der potentiell verfügbaren Informationen in der filmischen Anordnung (bzw. in der Reizkonstellation, mit der das sich bewegende Betrachterauge konfrontiert ist) die Untersuchung jener Informationen, die der Zuschauer tatsächlich benutzt, sowie der damit verbundenen Bedingungen ersetzen kann.

1. Senkrechtfahrt, Parallelfahrt, Schwenk und Zoom:
Potentielle Bewegungsinformation über den dreidimensionalen Raum

Kamerabewegungen können in zwei Kategorien eingeteilt werden. Es gibt jene, die seitliche Bewegungen der Szene auf Leinwand oder Bildschirm erzeugen - Schwenk und Parallelfahrt, wie in Abbildung 4 (a) bzw. 4 (b) dargestellt -, und jene, die Größenveränderungen bewirken - Aufnahmen mit Zoom und Senkrechtfahrt, wie in Abbildung 4 (c) bzw. 4 (d). Innerhalb dieser Kategorien liefert jeweils eine der beiden Bewegungen Bewegungsinformationen über die Tiefenrelationen, während die andere dies nicht tut. (Diese Begriffe werden hier als spezifische Fachtermini gebraucht, sollten aber trotzdem auch für Filmemacher verständlich bleiben.)



Abb. 4

Abb. 4. Die verschiedenen Kamerabewegungen. (a): Der Schwenk. Die Kamera schwenkt auf ihrem Stativ von links nach rechts. Man beachte, daß innerhalb der Szene keine relativen Bewegungen stattfinden und daß das, was im einen Bild verdeckt ist, im nächsten auch verdeckt bleibt. (b): Die Parallelfahrt. Die Kamera fährt von links nach rechts parallel zur Treppe (im rechten Winkel zur Blickrichtung des Objektivs). Vgl. diese Sequenz mit dem Schwenk in (a). Wir haben einen Gradienten der Bewegungsperspektive innerhalb der Szene, und Objekte, die im einen Bild verdeckt sind, werden in den anderen sichtbar. (c): Der Zoom. Die Brennweite des Objektivs wird von Weitwinkel zu Teleobjektiv vergrößert, und wir erhalten Bilder von der Totalen bis hin zur Nahaufnahme. Wir haben es wiederum nur mit einer Vergrößerung zu tun, nicht aber mit relativer Bewegung von einem Bild zum nächsten. (d): Die Senkrechtfahrt. Dieser Terminus steht hier für die Bewegung der Kamera in die Szene hinein oder aus ihr heraus und zwar entlang der Achse des Objektivs. Wenn man diese Sequenz mit dem Zoom in (c) vergleicht, stellt man fest, daß hier - wie in (b) - relative Bewegung innerhalb der Szene von Bild zu Bild stattfindet.

Die Kamera kann ihr Objektiv über eine Szene gleiten lassen, indem sie sich auf einer Schiene rechtwinklig zur Blickrichtung des Objektivs bewegt - in der Parallelfahrt (Abbildung 4 (b)) -, oder sie kann sich um die Achse eines festen Punktes drehen - beim Schwenk (Abbildung 4 (a)). Bei der Betrachtung der beiden Bildfolgen stellen wir fest, daß bei beiden Methoden zwar dieselben Elemente der Szene beteiligt sind, im Schwenk aber keine Bewegungsparallaxe auftritt. Die Abstände zwischen den Objekten haben keinen Einfluß auf deren relative Position in den aufeinanderfolgenden Einzelbildern des Schwenks. In ähnlicher Weise verschafft uns die Bewegung bei der Senkrechtfahrt in Abbildung 4 (d) reichlich Information über den Abstand zwischen den dargestellten Objekten. Hier bewegt sich die Kamera auf einer Schiene in das Bild hinein, wohingegen in der Bildfolge, die bei einem Zoom produziert wird, das Dargestellte nur unterschiedlich vergrößert wird (Abbildung 4 (c)).
Senkrecht- und Parallelfahrten enthalten also das gesamte Spektrum an Tiefeninformationen bezüglich der Position der Gegenstände in einer Szene. Der Zuschauer erhält sämtliche Informationen (außer jenen des Gleichgewichtssinnes im Ohr und anderer Körperempfindungen), die er zusätzlich erhalten würde, wenn er die Route, die von der Kamera verfolgt wird, tatsächlich abschreiten würde. $e In der Tat, wenn das Blickfeld sehr groß ist (wie zum Beispiel bei Cinerama 3D-Projektionen, oder wenn man nah an einem Breitwandbild sitzt), interagiert das periphere Sehen des Zuschauers mit seinem Gleichgewichtssinn (was laut den Untersuchungen von Held, Ditchgans & Bower, 1975 und Wist et al., 1975 auch passieren muß). Der Zuschauer meint dann, sich zu bewegen.
Für die Herstellung von Parallel- und Senkrechtfahrten muß der Filmemacher allerdings gleitende Kamerabewegungen ermöglichen und das Set so einrichten, daß es derartige Bewegungen erlaubt. Oft ist dies unmöglich, und immer ist es teuer. Aus diesem Grunde werden oft Schwenk und Zoom (bei dem einfach die Brennweite des Objektivs einer stationären Kamera verändert wird) eingesetzt. Einerseits können so die Informationen über die gesamte Szene fließend eingefangen werden (einschließlich Totale und Nahaufnahmen sowie weit auseinanderliegende Teilszenen innerhalb einer einzigen zusammenhängenden Aufnahme). Andererseits wird visuelle Bewegung auf dem Bildschirm erzeugt (was, wie wir weiter unten (S. $f-$g) sehen werden, aus anderen wahrnehmungstheoretischen Gründen erstrebenswert ist). Von einem Gibsonschen Standpunkt aus betrachtet müssen diese Hilfsmittel aber schlimmer sein, als wenn man gar keine Information vermittelt, da gerade das Fehlen der Bewegungsparallaxe schon eine Information an sich ist, und zwar darüber, daß alle Teile der Szene in derselben Ebene liegen. Dadurch müßten Schwenk und Zoom an sich schon platter aussehen als eine entsprechende stationäre Aufnahme.
Nichtsdestotrotz werden Schwenk und Zoom viel benutzt, und bestimmt kommen sie öfter zum Einsatz als Kamerafahrten. Herauszufinden, was genau die negativen Wirkungen dieser beiden Techniken sind, und - sollte es welche geben - wie sie minimiert werden können, ist Aufgabe der Forschung. Diese Forschung wäre nicht nur interessant für Filmemacher, sondern sie würde auch dem Wahrnehmungspsychologen bemerkenswerte Informationen liefern. Denn wenn man, wie Brunswik (1956) - ohne großen Erfolg - kritisierte, mit sehr beschränkten Reizanordnungen beginnt, zum Beispiel mit Punkten auf einer Kathodenstrahlröhre, um sie dann allmählich zu gegenständlicheren Darstellungen aufzubauen, macht man seine Forschung der eigenen Theorie über die Wirksamkeit bestimmter Informationen untertan. Dahingegen garantiert der Einsatz von filmischen Aufnahmen realer Szenen wenigstens ein Minimum ökologischer Repräsentativität. Die Tatsache, daß Filmemacher Schwenk und Zoom meist so behandeln, als wenn sie mit den Fahrten problemlos austauschbar wären, zeigt schon daß einiger theoretischer Ärger in Sicht ist.

Natürlich gibt es auch andere Gründe als den Wunsch, Tiefe im Bild zu erzeugen, die den Filmemacher dazu veranlassen, diese Techniken zu verwenden. Und diese anderen Gründe mögen so wichtig sein, daß der Verlust der Tiefeninformation trivial dagegen erscheint. Zwei von ihnen sollen hier besprochen werden: erstens die Konstruktion von Raum durch sukzessive Darstellung und zweitens die Motivierung visueller Aufmerksamkeit.

B. Der Raum jenseits der Leinwand und der sich vermeintlich bewegende Beobachter

Ganz deutlich zu erkennen bei Schwenk und Parallelfahrt (und vielleicht weniger offensichtlich doch ebenso zutreffend bei Zoom und Senkrechtfahrt) ist das Vermögen des Films, visuelle Informationen über eine Szene oder eine Anordnung zu liefern, die vielfach größer ist als die Leinwand bzw. der Bildschirm (vgl. Burch, 1973). Teile der Szene oder des Objekts werden nacheinander auf der Leinwand gezeigt und können so im Verlaufe kurzer Zeit zu einem Gesamtbild des Raumes zusammengefügt werden.
Von besonderem Interesse für den Wahrnehmungspsychologen ist hier der Fakt, daß diese Methode einer Aufgabe gleicht, die wir viele Male in jeder Minute eines jeden Tages verrichten, und es ist sehr wahrscheinlich, daß uns die Einsicht in das Wesen und die Grenzen des Raumes jenseits der Leinwand sich für das Verständnis dieses alltäglichen Vorganges als nützlich erweist. Unsere Fovea, mit der wir klar und scharf sehen, deckt nur einen sehr kleinen Teil unseres Gesichtsfeldes ab. Wenn wir die visuelle Welt mit Hilfe unserer Fovea erfahren, indem wir unsere Augen und unseren Kopf bewegen, müssen wir die visuellen Teilinformationen einzelner Blicke zu einem Ganzen zusammenfügen und so unsere Wahrnehmung der Welt konstruieren.
Welche Regeln gelten bei der Verknüpfung (Integration) der einzelnen aufeinanderfolgenden Blicke?

1. Das klassische Problem von Kompensation und Reafferenz

Ein Erklärungsansatz, der seit Helmholtz und James diskutiert wird, behauptet, daß entweder die efferenten
10 Signale, die die Muskelkontraktion für die Blickveränderung auslösen, entscheidend für die Interpretation wechselnder visueller Informationen sind, oder aber die afferenten Signale, die von den Muskeln selbst abgegeben werden. Für diese "Kompensation visueller Führung" gibt es einige Vorschläge bezüglich ihrer spezifischen Form (Festinger, Ono, Burnham, & Bamber, 1967; Held, 1961; Holst, 1954). Es gibt zahlreiche Untersuchungen zu dieser Frage, doch haben wir noch keine klare Antwort darüber, wie solche nichtvisuelle Information über Augenbewegungen gebraucht wird.

Auf jeden Fall steht fest, daß wir die visuelle Information, die uns von der veränderlichen Kamera geliefert und auf einer stationären Leinwand oder Fernsehbildschirm vorgeführt wird, verstehen können. Diese Tatsache beweist, daß nichtvisuelle Informationen über Augenbewegungen und -richtungen nicht notwendig sind, um das Wahrnehmungsproblem zu lösen. Obschon die Kamera selbst sich ja im Grunde unbegrenzt bewegen und ihre Position verändern kann, ist die Projektion normalerweise auf eine kleine Fläche beschränkt, nämlich auf die Leinwand beziehungsweise den Fernsehbildschirm. Dies bietet dem Filmemacher (und dem Wahrnehmungspsychologen) interessante Möglichkeiten, bringt aber auch Schwierigkeiten mit sich. Ob die Kamera nun erhöht aufgebaut wird, um einen Berg hinauf oder hinunterzuschauen, oder ob sie etwas von links, rechts oder gegenüber Kommendes aufnimmt - der Zuschauer erlebt die Begegnung jedesmal frontal. Weiterhin kann die Brennweite der Kamera verändert werden, und das Bild kann ein kleines Objekt in Nahaufnahme oder ein großes in der Ferne (oder mit anderer Brennweite ein kleines Objekt in der Ferne) zeigen. Der Abstand des Betrachters von der Leinwand bleibt aber immer unveränderlich, und die räumlichen Informationen, die er normalerweise benutzt, werden ihm nichts anderes angeben. Oder, was für uns hier am wichtigsten ist, die Kamera kann zu unterschiedlichen Zeiten in unterschiedliche Richtungen schauen, die aufgenommenen Szenen werden aber immer frontal gesehen.
Das einzige, was uns die genaueste nichtvisuelle Information über unsere Blickrichtung vermitteln kann, ist, daß alle aufeinanderfolgendenen Bilder in einem Film an derselben Stelle (auf der Leinwand) erscheinen. Wir brauchen aber mehr, um die Integration von sukzessiver visueller Information im Film zu erklären. Und es scheint zweckmäßig anzunehmen, daß die Erhellung dieses Vorgangs uns auch beim Verständnis der Integration der Blickfolgen, die wir von der Welt alltäglich erlangen, helfen wird.
Hierfür gibt es zwei alternative Ansätze. Der erste hat den Vorteil, daß er recht präzise formuliert werden kann, wohingegen der zweite sich noch in einer etwas unzusammenhängenden, sich ausprägenden Phase befindet. Wir wollen sie im folgenden besprechen.

2. Optische Kinästhesie als Alternative zu nonvisueller Propriozeption
11

Gibson (1954b) schlug für die Reaktion auf die Bilder, die wir beim Betrachten der Welt erhalten und die sich mit der Zeit verändern, folgendes vor. $o Wir extrahieren aus den fortlaufenden Transformationen im Netzhautbild die invariante Struktur (diese spiegelt die Struktur der stationären Oberflächen in der Welt wider). Weiter oben haben wir diesen Vorschlag schon in Verbindung mit der Wahrnehmung von Bewegung besprochen. An dieser Stelle interessiert er uns, weil er eine Alternative zur nichtvisuellen Information über die Blickrichtung liefern könnte.

Wir können hier drei Fragen stellen:

1. Können wir direkte oder indirekte Beweise finden, die obige Annahme bestätigen?
2. Haben wir es, wie Gibson meint, mit einem Vorgang direkter Wahrnehmung zu tun, also mit autonomer Diskriminierung der informativen Reizvariablen höherer Ordnung, die potentiell direkte Informationen über Bewegungen und die zugrundeliegende Struktur liefern?
3. Wird die Theorie in der Lage sein zu verdeutlichen, wie wir den Raum jenseits der Leinwand - den Raum im geistigen Auge (Hochberg, 1968) - konstruieren? Dies ist ja der Bereich, in dem (zumindest) Filme hauptsächlich ablaufen.

Wir werden zur ersten Frage, der Überprüfbarkeit des Modells, zurückkehren, nachdem wir das Spektrum des zu Erklärenden betrachtet haben. Was die zweite Frage betrifft, ob der Vorgang als automatisches Informationssammeln gesehen werden sollte, oder ob die Absichten des Zuschauers (und jene mentalen Strukturen, die er zum Einsatz bringen kann), in die Erklärung eingefügt werden müssen, so können wir feststellen, daß eine Wahl diesbezüglich nicht wirklich möglich ist, solange wir nur Filmsequenzen untersuchen, in denen alle Bildwechsel kontinuierlich sind.
12 Wir werden also zunächst die dritte Frage näher untersuchen, nämlich ob die Theorie prinzipiell den Raum im geistigen Auge erklären kann.
Gibson nimmt an, daß wir lernen, jene Eigenschaften einer Umgebung, die von einem Ort zum anderen führen - die Sequenzen visueller Transformation - als vierdimensionale Invarianten zu unterscheiden. Es ist allerdings schwer, einzusehen, wie diese Beschreibung wirklich erklären soll, wie wir einen Raum, der manipuliert werden kann, und durch den wir Abkürzungen nehmen können, extrahieren können. Solche Abkürzungen können einfach demonstriert werden. Nehmen wir beispielsweise folgende Versuchsanordnung. Das Bild eines Kreuzes wird stückchenweise so abgebildet, daß jedesmal nur ein Winkel in Nahaufnahme gezeigt wird, und zwar so, daß die Kamerabewegung kontinuierlich entlang des Umfanges der Figur entlangläuft. Bevor die Kamera das Umkreisen beendet hat, also bevor sie den letzten Balken erreicht hat, macht sie nun eine Abkürzung vom vorletzten zum ersten Balken des Kreuzes. Der Betrachter wird diese Abkürzung sofort als solche erkennen (insbesondere, wenn der Sequenz eine Totale vorausging. (Hochberg, 1968); vgl. S. $h). $m Es ist offensichtlich, daß es schwer ist, über derartige Phänomene zu sprechen, wenn man nicht eine Art kognitive Karte in die Diskussion bringt. Eine solche Karte kann man sich räumlich und analog vorstellen, aber auch als Merkmalsliste (Pylyshyn, 1973). Eine andere Möglichkeit wäre ein Set kontingenter Erwartungen oder "sensomotorischer Pläne", d.h. Vorraussagen darüber, was der Betrachter sehen würde, wenn er zu diesem oder jenen Punkt des Objektes oder der Szene schauen würde (Hochberg, 1968, 1970).
Wir werden zu dieser Frage, der Beschaffenheit und der Entwicklung des mentalen Inhalts, zurückkehren, wenn wir jene Methode im Film eingeführt haben, die diese Problematik am eindringlichsten ans Licht bringt, nämlich den Filmschnitt.


III. ÜBER DISKONTINUIERLICHE SCHNITTE UND DEREN AUSWIRKUNGEN AUF MENTALE STRUKTUREN SOWIE AUF DEN VISUELLEN ANREIZ

A. Die verschiedenen diskontinuierlichen Bildwechsel (Schnitte) und ihre Anwendung im Film

Ein Schnitt ist der Wechsel vom Ende der einen Einstellung zum Beginn der nächsten. Doch bevor wir die Wahrnehmung von Schnitten besprechen, wollen wir zunächst die Einstellungen, zwischen denen Schnitte gemacht werden, klassifizieren, um ihre Anwendung ein wenig beschreiben zu können und eine Terminologie einzuführen.

1. Klassifizierung und Terminologie

Eine Einstellung ist ein Einzellauf der Kamera und der daraus resultierende Film. Wenn dies die Einheit der Filmkonstruktion sein soll, lassen sich die Hauptunterschiede zwischen einzelnen Einstellungen wie folgt beschreiben.

a. Die Größe des Objekts innerhalb des Bildes. Dies ist ein Hauptkriterium. Zur Beschreibung benutzt man gewöhnlich Weit, Total, Halbtotal, Amerikanisch, Halbnah, Nah, Groß und Detailaufname (vgl. Abbildung 4
13). Entscheidend ist dabei normalerweise die Brennweite des Objektivs. Die verschiedenen "perspektivischen Verzerrungen", wie wir sie von statischen Bildern her kennen, treten hier auf und werden von entsprechenden "Geschwindigkeitsverzerrungen" begleitet.14 $a

b. Einstellungswinkel. Ein Ereignis kann sich über mehrere Einstellungen hinweg abspielen, zum Beispiel wenn die Kameraposition während eines ablaufenden Ereignisses von einem Blickwinkel zu einem anderen, nicht allzu weit entfernten hinüberschneidet. Dies ist ein einfacher Einstellungswechsel. Wenn sich der Kamerablickwinkel aber um beinahe 180° verändert, handelt es sich um einen Wechsel von Schuß zu Gegenschuß. (Bei Veränderungen, die über 180° hinausgehen, spricht man davon, daß "über die Kameraachse gesprungen" wird. Aus Gründen, die wir weiter unten erörtern werden (S. $i), verursachen diese Sprünge oft Verwirrung).

c. Anwendung des Schnitts. Ein Schnitt zwischen zwei Einstellungen wird aus verschiedenen Gründen gemacht. Beispielsweise kann man Ereignisse zeigen, die länger dauern, als man sie mit einem Mal auf der Leinwand darstellen kann (oder Ereignisse, die nicht an einem einzigen Ort stattfinden). Zudem kann man ergänzende Informationen geben, einen Rhythmus unterlegen und die Aufmerksamkeit des Zuschauers fesseln. Außerdem gibt es natürlich auch Schnitte rein technischer oder zufälliger Natur, die uns hier aber nicht weiter interessieren sollen.
Im folgenden werden wir die Anwendung des Schnitts bei der Darstellung von einzelnen Begebenheiten innerhalb eines größeren Ereignisses besprechen und einige weitere Termini einführen.


Abb. 5. Diskontinuierliche Wechsel (Schnitte). Die zeitliche Abfolge ist jeweils von oben nach unten (siehe Text).

Da der Betrachter die Bildfolge ja nicht selbst hergestellt hat, wird meist eine einführende Einstellung benutzt, um ihm einen generellen Überblick über Zeit, Ort und Situation usw. zu geben. In einer Totalen kann der Betrachter die Beziehungen zwischen Objekten erkennen, die in späteren Aufnahmen detaillierter gezeigt werden. Mit einem Schnitt zu einer Halbnahen und dann zu einer Nahaufnahme kann die Aufmerksamkeit des Betrachters gezielt gelenkt werden. Die Einzelheiten, die in der Totalen nicht entdeckt werden, können nun in der Nahaufnahme hervorgehoben werden (dies gilt insbesondere für das Fernsehen, wo wir es ja mit einem sehr kleinen Bildschirm und zudem einer schlechten Auflösung zu tun haben). Wenn eine Sequenz schon eine Weile gelaufen ist, und insbesondere nach einem Cutaway, der den Verlauf anderer Ereignisse an einem anderen Ort (normalerweise eine Parallelhandlung) erzählt, kann eine unterstützende Einstellung (wiederum in der Regel eine Totale) eingefügt werden. Eine Folge kurzer Einstellungen, die oft einen bestimmten Rhythmus und einen beschleunigenden oder verlangsamenden Fluß aufweist, nennt man Montage.

B. DIE VERKNÜPFUNG (INTEGRATION) DISKONTINUIERLICHER SUKZESSIVER BILDER DURCH DEN BETRACHTER $b

1. Vergleich zum Sehen in Sakkaden

In vielen Fällen verändert sich der Blickwinkel der Kamera kaum. Die aufeinanderfolgenden Bilder überlappen dann gehörig (vgl. Abbildung 6). Da auch kleine Sakkaden, d.h. schnelle seitliche, sprunghafte Augenbewegungen, überlappen, können wir jene Erklärungen sakkadischer Integration, die ausschließlich auf visueller Information basiert sind, auch für überlappende Schnitte benutzen.


Abb. 6. Zwei sich überlappende Ansichten derselben Szene. (a): Die Abschnitte, die durch die beiden Positionen der Kamera abgedeckt werden. (b, c): Die beiden Bilder, die nacheinander auf der Leinwand gezeigt werden. (d): Der Verschiebungsvektor, der für alle Punkte innerhalb des Bilds gilt, wenn (c) auf (b) folgt.

Wie wir weiter oben gesehen haben, behaupteten Gibson und Johansson, daß der Wahrnehmungsapparat direkt auf die Invariante in einer veränderlichen Anordnung reagieren kann. Dieser Vorschlag war ursprünglich aus der Untersuchung von Phänomenen kontinuierlicher Transformationen erwachsen. In einer Sakkade ist die Transformation jedoch eine genaue Parallelverschiebung (Translation) - beispielsweise in Richtung des Pfeil in Abbildung 6 (d). Wird dies entdeckt und daraufhin unberücksichtigt gelassen, wird die scheinbare räumliche Position des gemeinsamen Ausschnitts der beiden Bilder durch die Verschiebung nicht verändert. Weiterhin führt die exakte Translation der nichtüberlappenden Bildteile dazu, daß diese automatisch ihrer ungefähren Position in der Gesamtbildfläche zugeordnet werden. In Johanssons Worten hieße dies, daß der Wahrnehmungsapparat den gemeinsamen Vektor aller Elemente der Gesamtbildfläche extrahiert. Der Vektor stellt sozusagen den Rahmen (die Translationsbewegung des Blickes). Gibt es keine anderen Vektoren, erscheint die Szene trotz der Veränderung im Netzhautbild stationär (Johansson, 1950, 1974). Diesen Vorschlag haben wir keineswegs speziell für Veränderungen, wie sie in Abbildung 6 zu sehen sind, erdacht. Sie sind den Phänomenen, mit denen Johansson begonnen hatte, wie z.B. jene in Abbildung 3(d), sehr ähnlich. Bevor wir diese Vorschläge jedoch ernsthaft zu Rate ziehen, muß festgestellt werden, ob die Grundphänomene selbst wirklich diesen Annahmen entsprechen, oder ob sie vielleicht nur Nebenprodukte der Augenbewegung sind (z.B. könnte es sich in Abbildung 3 (d) auch um eine unkompensierte Verfolgung durch das Auge entlang des horizontalen Pfeils handeln, wie Stoper (1973) vorgeschlagen hat). Tatsache ist, daß wir inzwischen Beweise dafür haben, daß diese Phänomene durchaus nicht nur Nebenerscheinungen sind (Hochberg & Fallon, 1976). Wir müssen aber auch nachweisen, daß die Phänomene nicht nur bei kontinuierlicher Bewegung, sondern ebenso bei einer Folge separater Bilder auftreten (letztendlich sind sakkadische Blicke und diskontinuierliche Schnitte ja nichts anderes). In der Tat, das Johanssonsche Phänomen tritt auch bei der saltatorischen Präsentation statischer Bilder bei einem Tempo von 6 Bildern pro Sekunde auf (Hochberg, Fallon, & Brooks, 1977). Daher scheint es nicht zu weit hergeholt zu sein, den Vorschlag zu akzeptieren, nach dem wir überlappende, aufeinanderfolgende Einstellungen zusammenbringen, indem wir die Invariante in der Transformation herausfiltern. Es wird sich jedoch erweisen, daß diese Formulierung in vielerlei Hinsicht nicht ausreichend ist. Sie reicht nicht aus, da sie uns nichts über die Eigenschaften des Raumes im geistigen Auge sagt. Außerdem erlegt sie der Art der Reizinformation keine Grenzen auf. Dasselbe gilt für die Aufgaben des Wahrnehmenden. Wenn diese Erklärung so gelten würde, wie sie oben steht, wären alle überlappenden Schnitte gleich gut, was deutlich nicht der Fall ist, wie wir gleich sehen werden.

2. Schlechte Schnitte - Die Grenzen der Transformationstheorie

Natürlich gibt es unzählige Weisheiten darüber, was ein Schnittmeister tun muß, damit Schnitte verständlich sind. Sehen wir uns einige der Faustregeln an (vgl. Reisz & Millar, 1968; Vorkapich, 1972), und betrachten wir die Forschung auf diesem Gebiet. Anschließend wollen wir erörtern, in welches Modell unsere Beobachtungen integriert werden können.

Es gibt im wesentlichen vier Arten von Faustregeln:

1. Der Betrachter sollte schon das erwarten, was ihm nach dem Schnitt auch gezeigt wird (Reisz & Millar, 1968).
2. Der Schnitt sollte nicht mitten in einer Bewegung kommen, sondern zu Beginn oder am Ende der Bewegung stattfinden (Reisz & Millar, 1968).
3. Ein Wechsel von einer Brennweite zu einer anderen sollte merklich groß sein (z.B. Totale zu Halbnah), nicht nur eine geringfügige Veränderung (Reisz & Millar, 1968).
4. Achsensprünge (vgl. Abschnitt III, A, 1) sind schwer verständlich. (Reisz & Millar, 1968; Vorkapich, 1972).

Die erste Regel betrifft kognitive Fragen. Wir werden später darauf zurückkommen und untersuchen, warum die Regel nötig ist. Die übrigen Regeln sind eher mechanischer Natur. Sie werden meist nicht als unantastbare Verbote, sondern als Vorsichtsmaßregeln betrachtet, die vermeiden sollen, daß der Zuschauer ohne weiteres Zutun seitens des Filmemachers etwas als unverständlich und ungereimt empfindet.
Wir sind der Ansicht, daß die meisten oder sogar alle schlechten Schnitte genau zwei Dinge gemeinsam haben. Sie verursachen zum einen eine anfängliche Verwechslung eines Objektes mit einem anderen und zum anderen eine Scheinbewegung von einem Bild zum nächsten, die sich von der Richtung der Kamerabewegung unterscheidet. Natürlich können auch andere Faktoren eine Rolle spielen. Beispielsweise haben Shepard und seine Kollegen (Cooper & Shepard, 1973, 1976; Shepard & Judd, 1976; Shepard & Metzler, 1971) gezeigt, daß für eine "mentale Rotation" Zeit benötigt wird. Das würde bedeuten, daß die Zeit für das Verstehen eines Schnittes zwischen zwei Bildern bei ansonsten konstanten Bedingungen proportional zum Winkel der Kamerabewegung ist. Die Möglichkeit der Verwechslung (s.o.) ist jedoch durchdringender und sie erfolgt schneller. Aus diesem Grunde wollen wir diese Frage hier zuerst behandeln.

a. Objektverwechslung und Scheinbewegung über einen Schnitt hinweg. Wie wir in unserer Diskussion der stroboskopischen Bewegung (S. $j) gesehen haben, gibt es wahrscheinlich schnelle und von der Form relativ unabhängige Reaktionen, $d die eine Scheinbewegung produzieren zwischen Objekten egal welcher Form und Gestalt, welche in aufeinanderfolgenden Bildern nah beieinander liegen. Eine kurze Scheinbewegung in eine Richtung, die durch zwei Objekte, die in aufeinanderfolgenden Bildern nah beieinander liegen, vorgegeben ist, die sich aber von der Richtung der Kamerabewegung unterscheidet, verursacht in der Regel einen kurzen Orientierungsverlust (vgl. Vorkapich, 1972). Betrachten wir einen konkreten Fall, wie zum Beispiel einen Achsensprung wie in Abbildung 5(a). $i Nach einer geruhsamen Betrachtung ist uns völlig klar, daß der Kamerastandpunkt verändert wurde. Beim ersten, flüchtigen Blick aber identifiziert man den Mann x des ersten Bildes mit der Frau y im zweiten Bild und die Frau y im ersten mit dem Mann x im zweiten Bild. Man nimmt die Kamerabewegung zunächst nicht wahr.
Vor demselben Hintergrund können auch andere schlechte Schnitte erklärt werden. Bei einer zu geringfügigen Veränderung der Brennweite entsteht eine Scheinbewegung zwischen den Umrissen der aufeinanderfolgenden Bildern desselben Objekts (hinein ins oder hinaus aus dem Bild).
15

Es gibt nicht wenige Phänomene, die dieses Modell unterstützen würden. In Bildfolgen wie in Abbildung 5 (b) stellen Betrachter Bewegungen nach links fest, wenn ihnen die Bilder nur kurz gezeigt werden (333ms pro Ansicht). Wenn sie die Muster länger betrachten können, sehen sie eine Bewegung nach rechts (Hochberg & Brooks, 1974). Die daraus resultierenden Anweisungen für den Filmemacher liegen auf der Hand.
Wenn dieselbe Person oder derselbe Gegenstand in beiden Bildern vorkommt, sollte deren Verschiebung (1) in die entgegengesetzte Richtung zur Kamerabewegung erfolgen (Abbildung 5 (c)). Ist das Hauptobjekt nach dem Schnitt ein anderes als im Bild vor dem Schnitt, sollten die beiden Objekte weit entfernt voneinander liegen, und weitere Hinweise bezüglich der Richtung des Schnittes sollten gegeben werden. Filmemacher vermeiden oft den "Sprung", den eine derartige Diskontinuität mit sich bringt, indem sie das neue Objekt (oder dasselbe Objekt in einer neuen Umgebung) einrahmen, so daß seine Umrisse durch den Schnitt so weit wie möglich unberührt bleiben (vgl. Abbildung 5 (d)). Dadurch erspart man sich zwar den Sprung, andererseits kann es natürlich nun auch länger dauern, bis der Zuschauer merkt, daß sich etwas verändert hat. Es scheint sinnvoller, dem Prinzip in Abbildung 5 (c) zu folgen, wo der Betrachter wenigstens die richtige Information über die Richtung der Kamerabewegung erhält, wenn auch nicht über ihr Ausmaß. Jedenfalls gilt, daß der Filmemacher, wenn er nicht dem Prinzip in 5 (b) folgen kann, mehr Zeit für das Betrachten jeder Einstellung einrechnen (d.h. eine geringere Schnittfrequenz anwenden) sollte. (Mehr dazu auf Seite $k f.). $p
Die Ergebnisse bringen für den Filmemacher zwar keine spektakulären Einsichten, sie können aber eine Reihe sonst scheinbar voneinander unabhängiger Hinweise und Faustregeln (von denen einige gegen jede Intuition zu sprechen scheinen) sinnvoll miteinander verbinden. Die Erkenntnisse für den Wahrnehmungspsychologen sind dahingegen sehr ernst zu nehmen, insbesondere wenn es sich um Wahrnehmungspsychologen handelt, die große Hoffnungen auf Erklärungen in der Transformationsschiene für die Integration aufeinanderfolgender Bilder setzen.

b. Die begrenzte Anwendbarkeit vollständiger transformationaler Information: Schnitte ohne auffällige Objekte und die Rolle von Schemata. Wenn in einem Schnitt zwischen zwei Bildern die kontrastreichen (jedoch nicht detaillierten) Elemente anfänglich eine falsche Scheinbewegung provozieren (vgl. Abbildung 5 (b)), dann könnten wir auch sagen, daß diese erste flüchtige Reaktion ein Irrtum ist, der auf die künstliche Filmsituation (im Gegensatz zum alltäglichen Wahrnehmungsprozeß) zurückzuführen ist. Wir könnten die transformationale Erklärung immer noch retten, indem wir darauf hinweisen, daß - wie wir gesehen haben - diese vorläufigen flüchtigen Informationen bei einem langsameren Schnittrhythmus verdrängt und durch die tatsächliche Transformation dominiert werden.


Abb. 7. Zwei überlappende Bilder desselben Labyrinths.

Die Erklärung genügt jedoch nicht. Wenn die Bildfolge aus einem zufälligen Muster besteht, wie zum Beispiel bei dem visuellen Labyrinth in Abbildung 7(a) oder wie in einem zufälligen Punktmuster, kann der Betrachter immer noch die Richtung einer sehr kleinen Verschiebung (etwa 3,5°) erkennen, bei der ja die meisten Umrisse im zweiten Bild ihre Position gegenüber dem ersten Bild kaum verändern. Die Kontrast- und örtlichen Faktoren bleiben also ausschlaggebend. Bei einer größeren Verschiebung hat der Betrachter keine Chance auch nur einen Teil des Labyrinths wiederzuerkennen. Die Richtungsbestimmung wird eine Frage des Zufalls (Hochberg, Brooks, & Roule, 1977). Wir können also folgendes feststellen. Obwohl die mathematische Transformation sowohl in einem Labyrinth als auch in einer einfacheren und vertrauteren Anordnung, in der der Betrachter seine Aufmerksamkeit auf einen auffälligen Gegenstand richten kann, in jedem Punkt gleich präzise definiert ist, reicht die mathematische Information über die Transformation, sobald sie den Funktionsbereich der - nennen wir sie - Bewegungsdetektoren für Minimalveränderungen (vgl. Fußnote S. $l) überschritten hat, allein nicht aus. Der Betrachter benötigt ein auffälliges Merkmal, an dem er die Transformation festmachen kann, und an dem er seine Erwartungen testen kann.
Kurz gesagt, weder die ersten flüchtigen noch die etwas langlebigeren Effekte können in einem transformationalen Modell erklärt werden. Doch welche Alternativen gibt es?
Gegenwärtig besteht die einzige Alternative in einem viel weniger klaren Ansatz, der mit schematischen Karten oder sensomotorischen Erwartungen, d.h. darüber, was ich sehen würde, wenn ich in eine bestimmte Richtung blickte, arbeitet. Diese These ist unserer Meinung nach überzeugender, insbesondere, wenn die kognitiven Fähigkeiten in Betracht gezogen werden, die bei der Wahrnehmung nichtüberlappender aufeinanderfolgender Blicke eine Rolle spielen. In den meisten Schnitten gibt es keine bemerkenswerten Überlappungen. Wenn wir erklären können, wie der Betrachter hier die Bilder integriert, sollten wir auch in der Lage sein, diese Erklärung auf Bildfolgen mit Überlappungen anzuwenden.

3. Nichtüberlappende Bildfolgen

Bei wenigen Schnittstellen werden überlappende Einstellungen miteinander verbunden. In der Tat, genau das, was viele Filmtheoretiker (Colpi, 1966; Eisenstein, 1942; Godard, 1966; Pudowkin, 1958; Spottiswoode, 1933) als das typischste filmische Mittel betrachten - nämlich die Montage (vgl. Abschnitt III, A, 1) -, produziert Bildfolgen, die weder durch Überlappungen noch durch gemeinsamen Hintergrund miteinander verbunden sind. Die Transformationstheorie kann mit dieser Situation genauso wenig umgehen wie der Ansatz der Reafferenz, den wir weiter oben schon verworfen hatten. Betrachten wir die Bildreihe in Abbildung 8. Es ist eine Bildsequenz mit einem Kreuz, das seinen Umfang in statischen, nichtüberlappenden Segmenten umkreist. Wenn dem Betrachter nur die Bilder 2 bis 12 gezeigt werden, sieht er entweder die sich sprunghaft bewegenden Zeiger einer Uhr oder eine ebenso unregelmäßige Bildfolge mit einem Viereck. Wenn es eine einführende Einstellung für das Kreuz gäbe, d.h. wenn die Reihe bei Bild 1 begänne, würde man die Sequenz viel eher wie eine kontinuierliche Bewegung wahrnehmen (S. $m). So würde der Betrachter bei Bild 10 in Abbildung 8 eine Abkürzung über den rechten Balken des Kreuzes hinweg sehen.

Abb. 8. Nichtüberlappende Bildfolge eines Kreuzes. $h

Ganz deutlich haben wir es hier mit einer mentalen Struktur zu tun. Der Stimulus selbst liefert keinerlei Information über den Zusammenhang der einzelnen Bilder, wenn der Betrachter nicht sein Schema testen würde. Obwohl es keine sicheren Untersuchungen zu diesem Problem gibt, scheinen zufällige Beobachtungen zu bestätigen, daß dieser Vorgang recht langsam verläuft (mindestens 200ms pro Bild). An diesem Punkt kommt die Frage der stroboskopischen Bewegung wieder ins Spiel. Im folgenden wollen wir versuchen, zumindest ansatzweise eine Alternative zum Transformationsmodell zu entwerfen, die mit den gegenwärtigen Mitteln machbar ist. $c

4. Die Komponenten der Filmwahrnehmung $k

Es können drei Arten von Vorgängen, die für die Wahrnehmung von Filmsequenzen entscheidend sind, unterschieden werden. Diese werden von bestimmten Faktoren, die wir zumindest grob definieren können, bedingt. Wir werden im folgenden auch versuchen, den zeitlichen Aspekt für diese Faktoren zu erörtern.

a. Typ I. Schnelle reizabhängige Prozesse. Scheinbewegung, die ja eindeutig mit Beta- und Phi-Bewegung verwandt ist, tritt auf zwischen den Objekten, die sich nacheinander in aneinandergrenzenden Flächen am nächsten liegen. Dies passiert sehr schnell. Dabei wird ein kurzer flüchtiger Impuls ausgesendet (S. $n). Wenn die Schnitthäufigkeit in einer Bildfolge im Verhältnis zur Dauer dieser flüchtigen Impulse nicht zu groß ist (mit einer SOA (Stimulusbeginn-Asynchronie) von 33-350 ms), bestimmen diese Prozesse die Scheinbewegung. Wenn die SOA jedoch größer ist, operieren die langsameren Prozesse (Typ II und III). Möglicherweise passiert dies, weil der Betrachter mehr Zeit hat, um sich von den flüchtigen Impulsen zu erholen. Da die schnellen Prozesse im lokalen Bereich arbeiten (d.h. sie scheinen nur zu wirken, wenn die Konturen der Objekte nicht weiter als 4° voneinander entfernt liegen), und da sie darüber hinaus unempfindlich gegenüber kleinen Einzelheiten sein können, operieren sie oft zwischen Objekten, die einander nur sehr grob ähneln.

b. Typ II: Langsame reizabhängige Prozesse. Die konkreten Formen der Objekte spielen erst dann eine Rolle bei der Richtungsbestimmung eines scheinbaren Ortswechsels, wenn die Zeit für die Betrachtung eines Bildes lang genug ist (350-500 ms). Möglicherweise kann etwas in der Art des Gibsonschen Transformationsmodells (S. $o) für die Erklärung dieser verhältnismäßig langsamen Prozesse herangezogen werden. Es müßten jedoch gründliche Modifizierungen vorgenommen werden. Die mathematische Übereinstimmung zwischen Bildern oder Bildteilen allein ist für die Bestimmung der perzeptuellen Invarianten in der Transformation unzureichend.

Die Bilder müssen auffällige Objekte (“landmarks“) enthalten, die der Betrachter von Bild zu Bild wiedererkennen kann. Gibt es diese Erkennungszeichen nicht, dann rückt die Chance, daß der Betrachter die Richtung der Verschiebung bestimmen kann, in folgendem Falle in den Bereich des Zufälligen: nämlich dann, wenn der Abstand des verschobenen Bildabschnitts zu einem anderen, entfernt ähnlichen Bildabschnitt kleiner ist als sein Abstand zur Originalposition. Der Betrachter wird hier Schwierigkeiten haben, zu sagen, welcher Bildabschnitt sich in welche Richtung bewegt hat (Abbildung 7). Wenn es aber ein auffälliges Kennzeichen in der Anordnung gibt, an das sich der Betrachter halten kann, liegt die benötigte Stimulusbeginn-Asynchronie sehr grob geschätzt um 500 ms pro Bild. Diese Zahl hängt aber wiederum davon ab, wie hervorstechend das Kennzeichen tatsächlich ist, d.h. wie lange der Betrachter braucht, um es zu entdecken, und ob es plump genug ist und sich hinreichend von seiner Umgebung unterscheidet, damit es eine schnelle Basis (Typ I) für eine Scheinbewegung bilden kann.16 In Anbetracht dieser Bedingungen ist es unmöglich, die benötigten Zeiten guten Gewissens genauer zu bestimmen.

c. Typ III: Schnelle reizunabhängige (kognitive) Prozesse. Wenn aufeinanderfolgende Bilder keine Objekte oder andere Erkennungszeichen gemeinsam haben, wie das ja bei nichtüberlappenden Schnitten der Fall ist, muß die relative Lage der aufeinanderfolgenden Bilder mit Hilfe anderer Mittel festgelegt werden. Zuerst muß der Betrachter natürlich gewillt sein anzunehmen, daß ein Bild zur selben räumlichen Anordnung gehört, die von den vorausgegangenen Bildern (oder einem einzigen Bild) gezeigt wurde, und nicht einen Schnitt zu einer anderen Szene birgt.
17 Wenn der Zuschauer also annimmt, daß die nächste Einstellung Teil desselben Ereignisses ist, muß er auch einige generelle Erwartungen hegen bezüglich der Objektposition verglichen mit der vorausgegangenen Einstellung (wenn eine Einstellung beispielsweise eine Nahaufnahme eines nach rechts blickenden Schauspielers zeigt, wird die nächste Einstellung in der Regel dahingehend interpretiert, daß sie den Ort präsentiert, wohin der Schauspieler geschaut hat). Zumindest muß der Betrachter aber generelle Vorstellungen über den Aufbau der Szene haben (zum Beispiel von einer einführenden Totale gezeichnet, wie in Abbildung 8 gezeigt).
Diese Prozesse haben im Gegensatz zu den oben beschriebenen längerfristige Auswirkungen (d.h. eine einführende Einstellung kann eine lange Sequenz verschiedener Einstellungen miteinander verknüpfen, wie zum Beispiel in Abbildung 8). Die Zeit, die der Betrachter benötigt, um jede Einstellung einer solchen Sequenz aufzunehmen, müßte in etwa mit der für die langsamen reizabhängigen Prozesse (Typ II) übereinstimmen. Doch die Vorgänge, die uns hier interessieren, müssen nicht unbedingt visueller Natur sein. In Abbildung 8 könnte man das Kreuz vermutlich auch mit verbalen Mitteln kennzeichnen, vorausgesetzt der Zuschauer erhält auch Hinweise über die Positionierung des Kreuzes im ersten Bild und vorausgesetzt, er hat auch Zeit, (etwa 500 ms) um ein mentales Bild des Kreuzes, eine Merkmalliste oder eine schematische Karte wieder zu aktivieren (Posner, Boises, Eichelman, & Taylor, 1969; Pylyshyn, 1973 beziehungsweise Hochberg, 1968). Kurz gesagt, wir haben hier schon den rein wahrnehmungstheoretischen Kontext verlassen und den allgemeineren Bereich der narrativen Bedeutung betreten.

C. Sequenzeffekte außerhalb des gegenständlichen (ikonischen) Bereiches:
Syntax, Affekt, Anreiz

Im vorigen Kapitel haben wir vorgeschlagen, daß die Wahrnehmung von Bildfolgen von drei Gruppen von Faktoren bzw. Prozessen abhängt: (a) schnelle sensorische Prozesse, die örtlich und/oder bei groben Formen, nicht aber Details operieren; (b) langsame muster- oder objektabhängige Prozesse, die die Information größerer Bildabschnitte benutzen und wiedererkennbare Kennzeichen (Erkennungszeichen) benötigen um zu funktionieren; und (c) langsame reizunabhängige Faktoren (mentale Karten, Schemata etc.), wie zum Beispiel das Wissen, daß das World Trade Center südlich des Empire State Building steht, oder wo in einer einführenden Einstellung die Earp Brüder und die Clantons waren, um im OK Korral eingesetzt zu werden. Das Zeitmaß muß bei diesen Prozessen recht variabel sein. Wenn der Zuschauer beispielsweise eine einigermaßen genaue Karte im Kopf hat, und ihm daraufhin Bildfolgen in erwarteter Reihenfolge und Geschwindigkeit vorgeführt werden, sollten ein paar kurze Blicke für die Verarbeitung des Gesehenen genügen, vorausgesetzt den ersten Faktoren (Typ I) wurde so Rechnung getragen, daß sie diesen Vorgang nicht beeinträchtigen (vgl. S. $p).
Irgendwo zwischen Typ II und Typ III verlassen wir den Bereich der reinen Wahrnehmung. Wenn wir die visuelle Sequenz auch mit verbalen Mitteln beschreiben können und trotzdem die gleiche perzeptuelle Interpretation der darauffolgenden Sequenz erhalten, kann die Information nicht mehr rein visueller oder gar sensorischer Natur sein. Wir haben es also nicht mehr mit einem Wahrnehmungsprozeß im herkömmlichen Sinne zu tun. Diese Unterscheidung ermöglicht eine Arbeitsdefinition einerseits dessen, was visuell-perzeptuell und typisch filmisch ist, und andererseits des Allgemeineren, Konzeptuellen, das auch von anderen Erzähltechniken geteilt wird.
Leider sind uns keine Untersuchungen bekannt, die anhand solcher Kriterien geprüft haben, was denn nun das Typische beim Medium Film sei. Tatsächlich ist es so, daß es trotz der recht umfangreichen Literatur zu den grandioseren Aspekten dieser Frage keine Untersuchungen dieser Art überhaupt mit irgendwelchen Kriterien versucht zu haben scheinen. Im folgenden können wir daher nur raten, zu welchen Ergebnissen wir kämen, wenn es experimentelle Grundlagen für die Anwendung dieses Kriteriums für die verschiedenen Fragen des filmischen Gebrauchs gäbe.

1. Das Lenken der Zuschauergedanken und die Frage einer Filmgrammatik

Wir haben weiter oben schon festgestellt, daß die Gedanken des Zuschauers durch einen Schnitt auf eine Sache gerichtet werden können, zum Beispiel indem man eine Nahaufnahme von dieser Sache zeigt. Diese Herangehensweise an Fragen des Denkens und Problemlösens wird im wesentlichen noch immer ausgespart. Die Vorschläge der beiden klassischen russischen Theoretiker Eisenstein (1942, 1949) und Pudowkin (1958) zum Einfluß von Filmsequenzen auf den Gedankengang des Zuschauers sind widersprüchlich und eher vorsichtig formuliert. Für Pudowkin werden Ideen entsprechend der Reihenfolge der Darreichung ihrer Elemente entwickelt. Nach Eisenstein entstehen neue Ideen aus dem Konflikt von Bildern die in einer Montage tatsächlich gezeigt werden.

In der Praxis scheinen sich diese beiden Filmemacher in ihrer Arbeitsweise nicht wirklich unterschieden zu haben. Um eine Erzählung voran zu bringen, hatte Eisenstein keine andere Wahl, als Pudowkins Ansicht zu folgen. Und wenn man Pudowkins Arbeit genau unter die Lupe nimmt, wird klar, daß er sehr stark mit der Dialektik von Ideen arbeitete, wenn auch nur um durch Kontraste zu kommentieren. Obwohl es nicht unvernünftig scheint anzunehmen, daß es zumindest grobe Regeln für die Kombination von Ideen durch den Zuschauer gibt, besteht in beiden Fällen ernsthafter Zweifel, ob diese Regeln wirklich typisch für den Film wären.
Die meisten Untersuchungen, die sich mit dieser Frage befassen, haben sich auf Schnitte zwischen nur wenigen Einstellungen beschränkt. Sie werden von Isenhour (1975) besprochen. Dabei wurde das wohl berühmteste Experiment von Kuleshov und Pudowkin (Pudowkin, 1958) durchgeführt. Die beiden stellten ähnliche Nahaufnahmen eines Schauspielers, der einen gefühlsneutralen Gesichtsausdruck aufsetzen sollte, Aufnahmen einer Suppenschüssel, einer Frauenleiche in einem Sarg und einem spielenden Kind gegenüber. Die Einschätzung des Gesichtsausdrucks des Schauspielers durch das Publikum variierte entsprechend dem Kontext. In einem Gedankenexperiment wies Pudowkin darauf hin, daß die Interpretation einer Einstellung auch von der Reihenfolge abhängt. Eine Sequenz mit drei Einstellungen von einem lächelndem Mann, einer gerichteten Pistole, und schließlich dem Mann in angstvoller Pose sagt ganz bestimmt etwas anderes über den Mann, als es die umgekehrte Reihenfolge tun würde. Spätere Experimente bestätigten Pudowkins Annahmen. Sie zeigten, daß die Einschätzung des Gesichtsausdrucks eines Schauspielers manipuliert werden kann, und zwar zum einen durch eine Veränderung des vorherigen Kontexts (Goldberg, 1951; Kuiper, 1958), zum anderen auch durch die Veränderung sowohl des vorherigen als auch des nachfolgenden Kontexts oder zum dritten durch eine Veränderung der Reihenfolge (Foley, 1966). Mit abstrakten geometrischen Formen (zum Beispiel Kreisen und Dreiecken) wies Worth (1968) nach, daß die Reihenfolge einer Sequenz deren Interpretation beeinflußt. Für die Messung benutzte er ein angepaßtes semantisches Differential. Er stellte fest, daß mit zunehmender Ähnlichkeit der Elemente einer Sequenz der Einfluß der Reihenfolge auf die Interpretation wuchs. Mit Worths (1968) Worten zeigten Foleys Experimente (und Pudowkins Gedankenexperiment), daß (AB ( BA) mit A und B als separate Einstellungen.
Entgegen Eisensteins Behauptung (1949), daß bei der Kombination zweier Filmstücke egal welcher Art unweigerlich eine neue Vorstellung oder ein neuer Aspekt aus ihrer Gegenüberstellung erwachsen, gibt es keinen Grund anzunehmen, daß dies ein automatischer Vorgang ist. Wenn der Zuschauer nicht eifrig versucht, diese Stücke zusammenzubringen, und wenn er nicht annimmt, daß der Grund, aus dem der Filmemacher die beiden Stücke zusammengestellt hat, auf diese Weise zu ergründen sei, gibt es keinen Anlaß zu glauben, daß der Zuschauer mehr als nur eine bedeutungslose Menge visueller Fragmente wahrnimmt, erlöst durch gelegentlichen Sinn, der die Montage in ein erinnerungswürdiges Gefüge zusammenbringt.
18

Der Zuschauer bemüht sich also, die Einstellungen zu gruppieren, sie so wahrzunehmen, daß sie sich gegenseitig den Kontext liefern. Wenn auf die Mann-Pistole-Mann-Sequenz in Pudowkins Experiment eine Mutter-Kind-Sequenz folgt, muß es einen Faktor für den Zuseher geben, der ihn zwischen den beiden Sequenzen eine Grenze ziehen läßt. Um wieder mit Worths Formulierung zu arbeiten, unter welchen Bedingungen wird eine bestimmte Sequenz A, B, C als (A, B) (C) oder aber als (A) (B, C) gesehen? Das Problem ähnelt natürlich dem des Sprachwissenschaftlers, wenn er die Mechanismen untersucht, die die Grenzen von Wort, Phrase und Satz bestimmen. Wo genau sind die Grenzen zu ziehen?
Gregory (1961) folgt der Annahme Osgoods, Sucis & Tannenbaums (1957), daß die jeweilige Bedeutung zweier Zeichen (in unserem Falle Einstellungen) einander nur beeinflussen werden, wenn sie durch eine "Behauptung" verbunden sind. Er schlägt daraufhin vor, daß assoziative Hinweise die Basis für diese Verbindung oder Behauptung bilden. Dies können zum Beispiel die Werkzeuge sein, die in zwei Einstellungen an der Wand hängen, und damit zeigen, daß die beiden Einstellungen in einer Werkstatt spielen. Eine weitere Möglichkeit sind die Beschäftigungen, denen Menschen nachgehen, so daß wir beispielsweise eine Einstellung mit einem hämmernden Mann als zu einer Nahaufnahme von einem Hammerkopf, der in der nächsten Einstellung auf einen Nagel schlägt, dazugehörig betrachten. Isenhour meint, daß der räumliche, helligkeits- und bewegungsbezogene Inhalt, der zwei Einstellungen in Beziehung setzt, schon ausreicht, um die beiden Einstellungen zu verbinden. Er schlägt vor, daß Osgoods Kongruenzprinzip (principle of congruity) auf jede Sequenz verbundener Einstellungen anwendbar ist. Die Bedeutung einer jeden Einstellung verschiebt sich zugunsten der nächsten, und der Grad, in dem sie sich verändert, ist umgekehrt proportional zur Intensität ihrer ursprünglichen Bedeutung.
Bedeutung kann auch auf andere Art und Weise von der Folge der Bilder beeinflußt werden. Wenn eine Bildfolge zu schnell läuft, bekommt der Zuschauer nichts mit. Es gibt eine Reihe möglicher Gründe hierfür, von denen wir einige in Abschnitt III, B, 2 umrissen haben. Wenn die Dauer der Einstellungen erst einmal lang genug ist, so daß jede deutlich erkannt werden kann, und wenn ein bestimmter Rhythmus eingestellt ist, ist jede Abweichung von diesem Rhythmus, wie zum Beispiel das Einfügen einer besonders langen Einstellung, ein bedeutendes Signal. Dasselbe gilt für Detailgrößen. Wenn eine Sequenz begonnen hat, durchgehend mit einer bestimmten Detailgröße zu arbeiten, ist die Darstellung von Information in genaueren Einzelheiten beispielsweise ein wichtiges Signal. Ein Beispiel für sowohl bedeutende Rhythmus- als auch Größenveränderung ist die Milchglasszene in Hitchcocks Suspicion (Truffaut, 1967, S. 103). In das Milchglas wurde eine Lampe gestellt, um die Helligkeit des Glases zu erhöhen und die Aufmerksamkeit des Zuschauers daruf zu lenken. Durch diesen Effekt erhielt der Betrachter den Hinweis, über das Glas und alle Möglichkeiten und Hintergründe (Gift, Mordabsichten etc.) nachzudenken, die den Filmemacher veranlaßt haben könnten, es zu betonen.
Es ist offensichtlich, daß wir es hier mit einer Art Sprache zu tun haben müssen.
19 Doch ist es eine filmische Sprache? Oder gar eine Sprache der Wahrnehmung?

Einige Aspekte einer solchen Kommunikation sind ganz deutlich visueller Art. Zum Beispiel ist die plötzliche Veränderung einer in einer bestimmten Sequenz konstant gehaltenen Beleuchtung ein Zeichen dafür, daß eine neue Sequenz beginnt. Unserer Meinung nach ist dies aber nur ein Mittel, so wie ein Absatz in einem sprachlichen Text ein Mittel ist. Die Syntax an sich ist nicht auf den Film beschränkt. Gerade das Beispiel, mit dem wir unsere Überlegungen begannen - das Gedankenexperiment der Mann-Pistole-Mann-Sequenz -, war kein rein visuelles Experiment. Tatsächlich war es eine verbale Demonstration der Verbalität oder zumindest Amodalität, aber eben nicht Visualität der beteiligten Komponenten. Selbst die Effekte überdeutlicher Betonung wie durch extrem lange Einstellungen, übertrieben helle Beleuchtung (vgl. die Milchglaseinstellung) und durch unnötig genaue Einzelheiten ist weder nur dem Film noch der visuellen, bildlichen Kommunikation zueigen. Genau diese Phänomene bei Hervorhebungen können wir auch beim Sprechen finden. Erst kürzlich sind diese Abläufe in der Sprechaktforschung in den Mittelpunkt gerückt worden (Grice, 1968; Searle, 1969). Und zwar verstehen wir die allgegenwärtigen Kommunikationsmodi "nicht nur, weil wir über gemeinsames Wissen über die syntaktischen und semantischen Konventionen zum Gebrauch der Worte verfügen, sondern auch, weil wir gemeinsames Wissen über die Formen des Lebens und der sozialen Realität, in der wir leben und handeln, haben [Schmidt, 1975]". Das soll nicht heißen, daß es sich nicht lohnen würde, diesen Aspekt der Kommunikation zu untersuchen, ganz im Gegenteil. (Um einen Vorschlag für ein mögliches Motivlexikon zu nennen: vgl. Durgnat, 1971, S. 229-235.) Nichtsdestotrotz, solange nicht gezeigt wird, daß die Gedankengänge, die durch filmisches Schneiden ausgelöst werden, grundsätzlich verschieden sind von jenen, die bei der Übermittlung derselben Nachricht beispielsweise in einer verbalen Erzählung (was das Mann-Pistole-Mann-Experiment ja letztendlich ist) entstehen, gibt es keinen Anlaß dafür, diese Prozesse als Wahrnehmungsprozesse zu betrachten.
Es gibt noch andere Eigenarten des Filmschnitts, die nichts mit der Darstellung von Dingen und Ereignissen oder dem narrativen Aufbau von Gedanken zu tun haben. Diese wollen wir als nächstes untersuchen.

2. Affektive und konnotative Auswirkungen des Schnittempos

Auch wenn Eisenstein und Pudowkin sich vielleicht nicht eins über die kognitiven Effekte des Schnitts waren, so waren sie sich doch (wie viele ihrer Nachfolger) einig über seine emotionalen Wirkungen. Da jeder Schnitt einen momentanen Erregungszustand erzeugt, sollten sich Schnittempo und -rhythmus im physiologischen Zustand des Zuschauers widerspiegeln. Obwohl es nur wenige experimentelle Untersuchungen zu dieser Frage gibt, sind die wenigen, die es gibt, doch vielversprechend. Einiges weist darauf hin, daß ein höheres Schnittempo einen Film aktiver werden läßt (Gregory, 1961; Malpass, Dolan, & Coles, 1976). Penn (1971) hat demonstriert, daß die konnotative Bedeutung eines Films (gemessen mit einem semantischen Differential) und seine Sinnhaftigkeit für den Betrachter (Nobles Maß (1952)) durch das Thema des Films, das Schnittempo und die Beständigkeit des Tempos beeinflußt werden können. Diese Abhängigkeiten können in einem Graphen dargestellt werden, die Ergebnisse sind allerdings nicht einfach zusammenzufassen.
20 Trotzdem wurde gezeigt, daß eben Abhängigkeiten bestehen.

Was wir an diesem Punkt brauchen, sind vereinfachende, jedoch spezifische theoretische Modelle und Meßskalen, die aussagekräftiger sind als die Abbildung konnotativer Bedeutung durch ein semantisches Differential.
Ein einigermaßen überzeugendes und unkompliziertes Modell könnte ausgehend von der Attributionstheorie der Sozialpsychologie entwickelt werden. Schachter und Mitarbeiter (Schachter & Singer, 1962) haben dargelegt, daß die Wahrnehmung unserer Gefühle aus dem Versuch resultiert, die Signale, die uns über unseren inneren Zustand berichten, zu deuten. Was die kognitive Seite betrifft, läßt sich dies recht leicht für die Erklärung der Effekte des Schnittempos übertragen. Man könnte mit den flüchtigen Erregungsimpulsen, die ein jeder Bildwechsel hervorruft, ein Reaktionsmuster imitieren, das bei einem bestimmten Gefühl auch von den Signalen für den inneren Gefühlszustand geliefert werden würde. Wenn der kognitive Inhalt des Films eine solche Attribution erlaubt, müßte der Zuschauer sich in diesem Gefühlszustand wahrnehmen. Wenn also eine Szene in einem brüsken und beschleunigten Rhythmus gefilmt ist, so wie der eigene Herzschlag bei großer Angst klingen würde, oder wenn man einen erwarteten und starken Rhythmus plötzlich unterbricht, kann im Zuseher vermutlich dieselbe Emotion ausgelöst werden. Obzwar es für derlei Vorgänge keine uns bekannten Untersuchungen gibt, sollten sie sich experimentell leicht überprüfen lassen. Ein Experiment Valins (1966) ist zwar nicht direkt auf diese Problematik gerichtet, es ist aber doch sehr vielversprechend. Valin fragte seine Versuchspersonen, wie schön sie eine Anzahl von Pin-Up-Postern fanden und manipulierte ihre Beurteilungen dadurch, daß er ihnen mitteilte, daß er ihnen ihren verstärkten Herzschlag vorspielen würde.


[Abbildung 9. oben, von links nach rechts:] Gehühlston (Anreiz); s; Zehntel der Gesamtfixierungen; s
Abb. 9. Der Zeitverlauf von Gefühlston und visuellem Impuls. (a): Spottiswoodes Diagramm des Gefühlstons als Funktion des Bildinhalts. (b, c): Auf der Ordinate ist die Zahl der Blicke pro Sekunde abgetragen (sakkadische Frequenz F); Die Abszisse stellt die Wanderung der Augen dar, gemessen in Zehnteln der Gesamtfixierungen. Die x-Kurve in (b) zeigt den Zeitverlauf beim Ansehen eines statischen Bildes (Antes, 1974). Die y-Kurve in (b) sagt voraus, was bei einem wiederholten Bildwechsel passieren müßte. Die s- und c-Kurven in (c) zeigen, wie das ganze bei einfachen bzw. aufmerksamkeitsfordernden komplexen Bildern aussehen müßte. (d): Die Ordinate mißt die sakkadische Frequenz und die Abszisse die Ansichtszeit in Sekunden. Die s- und c-Kurven zeigen den Zeitverlauf für eine einfache bzw. eine komplexe Bilderfolge mit einer Ansichtszeit von 4 Sekunden pro Bild. y ist eine Bildfolge von vier einfachen Bildern, die jeweils 1 Sekunde lang gezeigt werden.


Abbildung 9 (a) zeigt einen Vorschlag Spottiswoodes, den er 1962 ausschließlich aus der gründlichen Beobachtung der Wirkung des Schnittempos auf sein eigenes Erleben der Montage, entwickelte. Das Diagramm zeigt den affektiven oder Gefühlston (seine Einschätzung des Maßes an emotionaler Wirkung) als eine Funktion der Zeit (in Sekunden). Der affektive Ton wird nach einem Schnitt bei einer jeden neuen Einstellung ausgelöst. Er variiert in Abhängigkeit von zwei unabhängigen Variablen, dem Schnittempo und dem eigentlichen Bildinhalt. Kurve a stellt den Zeitverlauf des Affekts nach dem Zeigen einer einfachen und eindrucksvollen Einstellung dar. Kurve b zeigt die Wirkung einer komplexeren, in sich sehr schönen oder sinnhaften Einstellung. Trotzdem das Modell sowohl nützlich als auch spezifisch genug zu sein scheint, ist es noch nicht experimentell überprüft worden. Dies ist teilweise sicherlich auf das Fehlen einer akzeptablen Meßmethode für den momentanen Gefühlston zurückzuführen. Doch sollte man annehmen, daß die Kurven für den Zeitverlauf einer anderen Reaktion, nämlich des visuellen Interesses oder dem visuellen Anreiz, der bei jedem Schnitt ausgelöst wird, ähnlich aussehen. Die abhängige Variable könnte also durchaus greifbarer und überprüfbar gemacht werden.

3. Visuelles Momentum und Erhalt visueller Aufmerksamkeit $f

Obwohl das Sammeln visueller Informationen im allgemeinen so mühelos erscheint wie das Atmen, hängt es doch auch wie die Atmung von einer Reihe erprobter zielgerichteter Handlungen ab. Wenn dem Betrachter ein statisches Bild oder eine Szene zum ersten Mal vorgeführt wird, erkundet er mit ein paar kurzen Blicken die Art der optischen Anordnung vor ihm. Die Intensität des Betrachtens wird dann abnehmen, wie es in Kurve x in Abbildung 9 (b) dargestellt ist (Antes, 1974). Die ersten Blicke werden auf jene Bereiche des Blickfeldes gerichtet, die entweder mit großer Wahrscheinlichkeit informativ sind oder die von Versuchspersonen als besonders hervorstechend beschrieben werden (Antes, 1974; Brooks, 1961; Hochberg & Brooks, 1962; Loftus, 1976; Mackworth & Morandi, 1967; Pollack & Spence, 1968).

Wie kann aber die Intensität des Betrachtens für eine längere Zeit aufrechterhalten werden? Zum einen kann man dem Betrachter einfach mehr zum Ansehen geben. Eine eng bedruckte Seite kann den Betrachter wesentlich länger beschäftigen als ein einfaches Bild. Berlyne hat als Teil jener Forschungslinie, die die Zusammenhänge zwischen Komplexität und Reiz des Neuen einerseits und ästhetischem Wert andererseits untersucht (vgl. Berlyne, 1971; Birkhoff, 1933; Rashevsky, 1960; Vitz, 1966 etc.), nachgewiesen, daß Betrachter sich neuere und komplexere Reizmuster länger ansehen (Berlyne, 1958; Faw & Nunally, 1967). Eine andere Möglichkeit besteht darin, dem Betrachter kurz bevor er sein erstes Überfliegen der Vorlage beendet hat, diese wegzunehmen. Der Bildwechsel ist das Herzstück des Films. Mit diesen Fakten im Gepäck wollen wir nun einen weiteren Blick auf Spottiswoodes Modell werfen.
Spottiswoodes Abszisse wird ersetzt durch eine, auf der der Anreiz zu visueller Erkundung abgetragen wird, in unserer Terminologie der visuelle Anreiz (Brooks & Hochberg, 1976; Hochberg & Brooks, in Druck). Dieser hängt von zwei voneinander unabhängigen Variablen ab, dem Schnittempo und dem konkreten Inhalt. Jeder dieser beiden Faktoren kann auch in Abwesenheit des anderen wirken. (Selbst wenn überhaupt kein Schnitt stattfindet, kann der Inhalt allein das Auge dazu animieren, weiter zu schauen, da es immer noch Neues entdecken kann. Wenn der Inhalt dagegen für den Betrachter überhaupt nicht interessant ist, gibt es immer noch einen gewissen Schnittrhythmus, durch den der Bildwechsel allein die visuelle Erkundungstour des Zuschauers aufrechtzuerhalten vermag).
Das Schnittempo hat vermutlich den folgenden Effekt auf den visuellen Impuls. Jeder Bildwechsel löst eine Erregung oder "Überraschung" aus. Der Inhalt einer bestimmten Einstellung kann schnell erfaßt und die Information, wenn sie einfach, vertraut oder erwartet ist, zügig in ein zu entwickelndes Schema eingebaut werden. Die a-Kurve in Abbildung 9 (a) zeigt unsere Voraussage in Anlehnung an Spottiswoodes Modell für den Fall, daß der Inhalt nichts zum visuellen Impuls beiträgt. Spottiswoode nimmt an, daß dies der Minimumeffekt ist, den ein Inhalt ausüben kann. Eine solche einfache Einstellung kann für eine nur sehr kurze Zeit (bspw. 500 ms) gezeigt werden. Sie sollte auch nicht viel länger gezeigt werden, da die Erregung mit der Gewöhnung an das Bild oder einsetzender Langeweile abnimmt. Bedeutungsvollere, unerwartetere und komplexere Einstellungen müssen länger gezeigt werden. Das Schnittempo kann hier langsamer sein. Graphen b und c in Abbildung 9 (a) stellen die Reaktionen auf Sequenzen einfacher bzw. komplexer Bilder dar.
Dieses Modell birgt noch andere differenzierte und komplexe Möglichkeiten.
21 Es kann eindeutig weiter spezifiziert und modifiziert werden. Bevor wir aber derlei Möglichkeiten in Betracht ziehen, müssen wir ermitteln, ob die generellen Eigenschaften des Modells quantitativ, empirisch untermauert werden können.


In gewissem Maße ist die Antessche Kurve in Abbildung 9 (b) ein Test für eine Kombination von Tempo und Inhalt. Nehmen wir an, daß die Häufigkeit der Augenbewegungen (mit einigen Vorbehalten bezüglich der Enden der Skala, vgl. Potter & Levy, 1969) ein gutes Maß für den visuellen Anreiz ist. Kurve x in Abbildung 9 (b) gibt den erwarteten Zeitverlauf der Häufigkeit der Augenbewegungen für ein Einzelbild an. Wenn dieses Einzelbild nun durch ein anderes ersetzt wird, bevor die Kurve (y) weit absinkt, müßte die durchschnittliche Häufigkeit höher bleiben. Wenn das Schnittempo konstant ist, beeinflußt der Inhalt den Anreiz wahrscheinlich ebenfalls. Wenn ein Bild beispielsweise mehr Aufmerksamkeitszentren (d.h. mehr Stellen zum Anschauen) hat, müßte die Kurve langsamer abfallen, vgl. Abbildung 9 (c).
Diese Erwartungen werden auch recht gut erfüllt (Brooks & Hochberg, 1976; Hochberg & Brooks, in Druck). In einem Experiment wurden abstrakte Bilder mit einem, zwei oder vier Aufmerksamkeitszentren zu Filmsequenzen zusammengesetzt, die dann mit Geschwindigkeiten von 1 Bild pro 1 Sekunde bis zu 1 Bild pro 4 Sekunden vorgeführt wurden. Dabei wurden die Augenbewegungen der Betrachter registriert. Der Verlauf der Sehintensität bei den einfachsten (s) und bei den komplexesten (c) Bildfolgen ist in Abbildung 9 (d) mit den durchgezogenen Kurven dargestellt. In diesem Diagramm ist auch die Wirkung des Schnittempos abzulesen. Die gestrichelte y-Kurve zeigt den Verlauf für ein Tempo von 1 Schnitt pro 1 Sekunde, und die durchgezogene s-Kurve zeigt den Verlauf bei der gleichen Bildfolge bei 1 Schnitt pro 4 Sekunden. Sehr ähnliche Ergebnisse wurden mit Sequenzen bedeutungsvoller Bilder erzielt. Die Intensität der Augenbewegungen als Reaktion auf Folgen abstrakter und bedeutungsvoller Bilder kann also mit den einfachen Modellen in Abbildung 9 (b) und 9 (c) als eine erste semiquantitative Voraussage bezüglich des Zeitverlaufs der Reaktion auf den filmischen Schnitt betrachtet werden. Der Begriff des visuellen Anreizes ist jedoch nicht einfach ein anderes Wort für die Intensität der Augenbewegungen. Eine Einstellungssequenz, die einen höheren visuellen Anreiz hervorruft, sollte auch in der Lage sein, den Blick des Zuschauers für eine längere Zeit zu fesseln. Dies ist auch tatsächlich der Fall, zum Beispiel wenn zwei Sequenzen nebeneinander projiziert werden, und der Betrachter die freie Wahl hat, welche der Sequenzen (wenn überhaupt eine) er anschaut (Hochberg & Brooks, in Druck).
Zumindest eine der Konsequenzen des Filmschnitts, die mit der gegenständlichen Darstellung erst einmal nichts zu tun hat, der visuelle Anreiz, scheint demnach mit einer gewissen Vorhersagbarkeit bestimmten Gesetzen zu folgen, die quantitativ auch überprüfbar sind. Spottiswoodes gedankliche semiquantitative Analyse des affektiven Schnittons deckt einige Zusammenhänge auf, die für den Filmemacher von Interesse sind. Eine nützliche Herangehensweise ist die über die Werte des visuellen Anreizes. Für den Psychologen können diese Zusammenhänge eine On-Line Methode für das Messen von Verarbeitungszeiten stützen (und damit für das Messen von Komplexität, Verständlichkeit sowie Erwartung und Vorbereitung). Außerdem stellen sie eine Gelegenheit dar, den Verlauf zielgerichteten Sehverhaltens zu manipulieren und zu untersuchen, und damit zu einem Thema mit zunehmender theoretischer Tragweite beizutragen. $g



IV: ZUSAMMENFASSUNG UND SCHLUSSFOLGERUNG

Wir haben einige Probleme von theoretischer Bedeutung für den Wahrnehmungspsychologen untersucht, die gewinnbringend anhand von Filmen erforscht werden können und von praktischem Interesse für den Filmemacher sind. Vier der in diesem Aufsatz aufgestellten Forschungsgebiete erwachsen aus der im Film typischerweise reichlich angewendeten Veränderung des Kamerastandpunktes. Da die fortlaufenden Veränderungen auf dem Bildschirm oder der Leinwand nicht Ergebnis der eigenen perzeptomotorischen Handlungen des Zusehers sind, kann er diese Veränderungen nicht über seine efferente Kontrolle oder Propriozeptoren verstehen. Es ist auch eine Theorie vonnöten, die die Wahrnehmung von Filmen über das Niveau der stroboskopischen Bewegung hinaus (mit der sich die meisten Analysen zufrieden geben) erklärt.
Zwei allgemeine Erklärungen haben wir in Betracht gezogen. Die erste, die recht genau formuliert werden kann, besagt, daß der Zuschauer direkt auf die visuelle Information über die invariante Szene reagiert, deren Transformation auf der Leinwand mathematisch bestimmbar ist (Gibson, 1966; Johansson, 1974). Die zweite Erklärung, die viel weniger spezifisch daherkommt, meint, daß der Zuschauer beim Betrachten einer Sequenz sensorischer Muster (wie zum Beispiel Bildfolgen), schematische Karten oder Ereignisse, d.h. Strukturen perzeptomotorischer Erwartungen, konstruiert bzw. an den Daten überprüft. Der zweite der vier untersuchten Bereiche, die wir als besonders wichtig erachten, scheint sich am besten dafür zu eignen, die Vorteile der Transformationstheorie zu demonstrieren. Der dritte und vierte Bereich hingegen, scheinen sich naturgemäß besser für die Erforschung der Entwicklung und Überprüfung der visuellen Schemata durch die Zuschauer verwenden zu lassen.
Man kann flüchtige Erstreaktionen auf Bilder (oder Muster) von länger andauernden Reaktionen unterscheiden und sie durch Variationen der Geschwindigkeit, mit der Bildfolgen vorgeführt werden, untersuchen. Wenn diese Erstreaktionen vom Filmemacher außer acht gelassen werden, können unbeabsichtigte Effekte entstehen, wie die Wahrnehmung von Scheinbewegung, Verwechslung von Objekten und zeitweise unverständliche Schnitte. Wenn der Filmemacher aber auf die entsprechenden Phänomene eingeht, kann er diese Wirkungen minimieren. Da die flüchtigen Reaktionen unabhängig sind von den feineren Informationen im Reizmuster, sind die von ihnen hervorgerufenen Effekte nicht durch die Transformationstheorie erklärbar.
Einige Kamerabewegungen liefern optische Informationen über den dreidimensionalen Raum, vorausgesetzt der Zuschauer ist in der Lage, jene Information über die dreidimensionale Anordnung zu nutzen, die in der Transformation invariant ist. Andere Kamerabewegungen tun das nicht. Im Gegenteil, sie können durch Bewegungsparallaxe sogar Informationen über die Flachheit der Anordnung vermitteln, die jeglichen anderen statischen Tiefenhinweisen, die die Anordnung noch enthalten könnte, widersprechen. Und die Freimütigkeit, mit der diese nichtinformativen Kamerabewegungen von Filmemachern eingesetzt werden, fordert auf jeden Fall die Transformationstheorie heraus. Gegenwärtig fehlen uns allerdings noch die experimentellen Daten um festzustellen, wieviel bei der Verwendung dieser Verfahren verlorengeht.
Im Film werden typischerweise sukzessive (kontinuierliche oder diskontinuierliche) sich überlappende Bilder benutzt, um Szenen darzustellen, die größer als die Leinwand oder der Bildschirm sind. Es ist ein Leichtes, die Transformationstheorie auf diese Darstellungen anzuwenden, doch sehen die Fakten anders aus, als es die Theorie gern haben würde. Schnelle Bildfolgen werden von den Erstreaktionen dominiert und können recht willkürlich korrekt oder inkorrekt wahrgenommen werden. Damit langsame Bildfolgen korrekt wahrgenommen werden, müssen in allen Bildern bestimmte Erkennungszeichen auftauchen, die der Zuseher identifizieren kann.

Mathematische Invarianz genügt also nicht, um die Wahrnehmung aufeinanderfolgender überlappender Bilder zu erklären. Selbst wenn sie genügen würde, ist es doch so, daß die meisten Filmsequenzen aus nichtüberlappenden Bildern bestehen und somit keine Informationen enthalten, die die Invariante charakterisieren könnten. In diesen Sequenzen verläßt sich der Filmemacher auf das Weltwissen des Zuschauers oder aber auf einführende Einstellungen. Diese Vorgehensweise muß sich auf Fähigkeiten berufen, die wir in der richtigen Welt anwenden, um unsere zielgerichteten perzeptiven Erkundungen durchzuführen. Jene Handlungen, mit denen wir Wahrnehmungsinformationen (zum Beispiel ballistische Sakkaden) für unsere größeren Handlungen (zum Beispiel Bewegung) sammeln, müssen durch Erwartungen, was das Auge als nächstes sehen wird, geleitet sein. Tatsache ist, daß Schnittmeister meinen, daß ein guter, schnell verständlicher Schnitt einer ist, der dem Zuschauer die Antwort auf die visuelle Frage gibt, die er beim alltäglichen Wahrnehmen selbst beantworten könnte.
Beim normalen visuellen Erkunden von Orten oder Ereignissen kontrolliert der Betrachter den Vorgang. Dieser ist jedoch viel zu schnell und verborgen, als daß er Augenblick für Augenblick studiert werden könnte. In Filmen können wir aber in den aktiven Sehvorgang eingreifen und ihn somit untersuchen. Ein Verfahren, um dies zu tun, ist die Filmmontage.
Wenn statische Bilder zum ersten Mal vorgeführt werden, schaut der Betrachter zunächst auf den informativsten Bereich. Die Blickintensität ist anfangs hoch und sinkt dann schnell ab. In unserer Terminologie würde das heißen, daß der Betrachter rasch eine schematische Karte der Szene entwickelt und sie überprüft. Danach nimmt der Anreiz, um weitere sensorische Tests vorzunehmen, der momentane visuelle Anreiz, ab.
Der visuelle Anreiz (gemessen anhand des Zeitverlaufs sakkadischer Augenbewegungen und anhand der Neigung des Betrachters eine Sequenz zu verfolgen, wenn er die Möglichkeit hat, sich eine andere anzuschauen) müßte sich daher mit dem Tempo, in dem ein Bild das andere ersetzt, und mit der aufmerksamkeitsfordernden Komplexität eines jeden Bildes (und freilich auch mit der Aufgabe bzw. der Absicht des Betrachters) verändern. Dies ist auch tatsächlich der Fall. Die mathematischen Funktionen, die den visuellen Anreiz und diese Reizvariablen verbinden, sind im Einklang mit Spottiswoodes semiquantitativer, auf eigenen Reaktionen basierenden These über seinen affektiven Schnitton in der Filmmontage. Für den Filmemacher ist es der visuelle Anreiz, der (wenn wir recht haben) ununterbrochene Aufmerksamkeit motiviert und aufrechterhält sowie den Film sozusagen lebendig macht. Für den Psychologen spiegelt der visuelle Anreiz den Verlauf aufmerksamen Betrachtens wieder, und zwar hoffentlich so, daß dieser Vorgang letztendlich modelliert und erforscht, und eine unabhängige Variable für die aufmerksamkeitsrelevante Komplexität der Bilder in einer Reizsequenz gefunden werden kann.
Dem Filmemacher verspricht die Wahrnehmungsforschung Hilfestellung derart zu leisten, wie die Prinzipien geometrischer Perspektive dem Maler dienlich waren. Das soll heißen, daß die Forschung ein kompaktes Paket von Prinzipien erstellen kann (die manchmal auch gegen die Intuition laufen) um eine große Anzahl von ad hoc Regeln und Tricks zu ersetzen. Natürlich können diese Prinzipien nicht für Kreativität, Erfahrung oder Phantasie aufkommen.
Für den Psychologen sind Filme besonders gut geeignet, um die dynamischen und zielgerichteten Aspekte der Wahrnehmung zu ergründen. Neben den rein perzeptiven Aspekten des Films, auf die wir uns in dieser Diskussion beschränkt haben, bietet der Film auch einen visuellen Ansatz für Fragen von Narration und Diskurs, die parallel zu der bisher fast ausschließlich sprachlich orientierten Forschung erörtert werden müssen.



1 * Die Vorbereitung dieses Artikels wurde teilweise gefördert durch: NICHHD 1RO1-HD-06768-01A2.

2 Hier soll noch angemerrktwerden, daß der Schwellenwert für den Kontrast bei der Mustererkennung wahrscheinlich sinkt, sobald sich die Frequenz der 30-Hz-Marke nähert (Kesey, 1972). Dieser Punkt wird noch eine Rolle spielen, wenn wir die Auswirkungen eines abrupten Bildwechsels (d.h. des Schnitts) untersuchen.

3 Vgl. Matin (1975) zur Frage des Verdeckens. Arbeiten zu einem Off-Signal sind in der Forschung zur sukzessiven Verknüpfung der Bilder durch den Betrachter zu finden. Und zwar ergeben zwei Stimulusfelder, die jeweils ein zufälliges Punktmuster enthalten, nur dann eine deutlich erkennbare Struktur (wie z.B. ein Wort, das die Versuchsperson vorlesen soll, oder eine vollständige Matrix, in der nur ein Punkt fehlt und dessen Position die Versuchsperson bestimmen muß), wenn die beiden Strukturen mit der Zeit verschmelzen (Eriksen & Collins, 1967; Cohene & Bechtoldt, 1975; Hogben & Di Lollo, 1974).

4 Freilich gibt es gelegentlich auch andere Ursachen, wie zum Beispiel bei dem klassischen Wechselspiel, in dem stroboskopische Ausschnitte der Realbewegung von Rädern oder Propellern eine scheinbare Rückwärtsbewegung der Drehung erzeugen. In anderen Fällen werden wahrscheinlich ähnliche Fragen relevant, beipsielsweise bei der Zeitlupe oder beim Zeitraffer.

5 Zum Beispiel können wir grob zwischen Reaktionen auf absolute und relative Bewegung unterscheiden, die über sehr verschiedene Mechanismen geregelt werden. Eine absolute Netzhautbewegung kann, wenn sie schnell genug ist, festgestellt werden, und sie hat Nachwirkungen. Solche Bewegungen können ziemlich problemlos einer Art Bewegungsdetektoren zugeschrieben werden. Eine relative Bewegung muß nicht so schnell sein, um entdeckt zu werden. Wenn die beiden Gegenstände, zwischen denen sich der Abstand verändert, im Netzhautbild nah beieinander liegen, könnten schon recht periphere Mechanismen als Verschiebungsdetektoren fungieren (eine neuere Übersicht in Sekuler, 1975). Wenn die Gegenstände im Netzhautbild weit auseinander liegen, müssen zentralere Mechanismen wirken. Wichtig in diesem Zusammenhang ist, daß einige Prozesse die Netzhaut und das optische Bild betreffen, andere aber über Entscheidungen geregelt werden, die sich auf tatsächlichen dreidimensionalen Raum oder auch scheinbaren Raum beziehen, wie zum Beispiel die im vorigen Abschnitt beschriebenen.

6 Die einzige visuelle Methode, mit der wir diese beiden auseinanderhalten können, besteht darin, unseren Blick in eine bestimmte Richtung zu verschieben (z.B. können wir feststellen, ob wir unsere Augen bewegen müssen, um das eine oder das andere Objekt weiterhin zu fokussieren). Obwohl wir mit einiger Sicherheit wissen, in welche Richtung eine Sakkade erfolgt, ist unser Wissen bezüglich der Richtung und des Grads verfolgender Augenbewegungen mehr mit Zweifel behaftet (Festinger & Easton, 1974, Mack & Herman, 1973; Stoper, 1973). Und natürlich ist die Genauigkeit, mit der wir die Wirkungen von Veränderungen in unserer Körperhaltung oder gar des Ortes an dem wir uns befinden, feststellen, um vieles schlechter (vgl. die Illusion des sich bewegenden Zuges etc.). Wir müssen die Entscheidung darüber, welches der beiden Objekte sich in Abbildung 3 (a) bewegt, also anders begründen. Diese Unsicherheit in unserem Urteil ermöglicht wahrscheinlich erst die typischste Eigenschaft des Kinos, nämlich die Ausdehnung von Raum jenseits der Leinwand bzw. dem Bildschirm. Natürlich könnte auch Unverständnis, das vom Filmemacher nicht beabsichtigt war, entstehen (vgl. Vorkapich, 1972).

7 Wie bei den unmöglichen Figuren (Hochberg, 1968) könnte die Trennung der Bewegungen vor allem eine lokale Angelegenheit sein. Die Wirkung des Hintergrundes auf das Objekt würde dann nicht mit den weiter entfernten Rahmen interagieren.

8 Eine solche Interpretation würde sowohl den Untersuchungsergebnissen von Held et al. (1975) als auch Wist et al. (1975) entsprechen, die z.B. besagen, daß die Rotation von Streifen u.a. in der visuellen Peripherie das Orientierungsgefühl des Betrachters bzw. dessen scheinbare Richtung verändert. Außerdem weist das periphere Sehen eine unterschiedliche Empfindlichkeit für sich bewegende und für stationäre Objekte auf, d.h. das periphere Sehen des Betrachters könnte empfindlicher auf die Bewegung des Inhalts eines Rahmens reagieren als auf die Unbeweglichkeit des Rahmens selbst.

9 Eine Direktübertragung im Fernsehen erfährt eine Toleranz seitens des Betrachters, die ein vom Menschen bearbeiteter Streifen, wie zum Beispiel eine Wiederholungssendung über dasselbe Ereignis oder freilich ein montierter Film nicht erleben würden. „Die rhythmischen Erfordernisse eines neuinszenierten Ereignisses sind ganz verschieden von denen des echten Ereignisses. Die Zusammenfassung eines Ereignisses auf seine 'Höhepunkte' gibt oft den notwendigen Neuantrieb, wenn das Ereignis zu einem späteren Zeitpunkt wiederholt wird“ (Zettl, 1973, S. 265).

10 d.Ü.: efferent: wegführend vom Zentralnervensystem (z.B. effektorische, motorische Nerven), afferent: zuleitend zum Zentralnervensystem

11 d.Ü.: Kinästhesie: Bewegungsempfinden für Muskeln, Sehnen und Gelenke; Propriozeption: das Bewußtsein der körperlichen Existenz (z.B. einer bestimmte Körperposition), ermöglicht durch Propriozeptoren, d.h. Sinnesorgane, die Körperreize verarbeiten und bspw. die Bewegung von Organen kontrollieren.

12 Ein entscheidender Mangel an diesem Modell besteht darin, daß die "mathematische" Formulierung die Unterschiede zwischen Peripherie und Fovea vernachlässigt. Diese Unterschiede sind jedoch gravierend, wenn man die Fähigkeit des Auges beachtet, exakt jene räumliche Informationen zu nutzen, die Gibson (1957, 1966) als durch den Reiz angeboten bezeichnete. Fovea und Peripherie unterscheiden sich außerdem in ihren Möglichkeiten, den Zuschauer die eigenen Bewegungen wahrnehmen zu lassen (Wist et al., 1975; Held et al., 1975). Genau dieser Frage war diese Analyse visueller Propriozeption gewidmet.

13 d.Ü.: Im Englischen werden nur Totale, Halbtotale und Nahaufnahme unterschieden, die anderen Einstellungen werden als Zwischenstufen betrachtet, daher auch Abb. 4.

14 Senkrechte wie auch seitliche Bewegungen auf der Leinwand bewirken geringere Größenveränderungen und nehmen weniger Platz im Bild ein, wenn die Brennweite groß (bei Totale oder Teleobjektiv) oder mittelgroß ist, als dies bei Nahaufnahmen (Weitwinkel) der Fall ist. Das heißt, daß die Bewegung auf der Leinwand in der Totalen verlangsamt, in der Nahaufnahme aber beschleunigt wird. Diese Effekte sind nicht nur theoretische Varianten, sie beeinflussen die Einschätzung von Geschwindigkeit auf dem Bildschirm durch den Betrachter (Brooks). Wenn diese Effekte nicht beabsichtigt sind, und der Filmemacher keine Rücksicht darauf nimmt, können die Folgen mit Sicherheit recht verblüffend und grotesk sein.

15 Wenn in den beiden Einstellungen, zwischen denen eine Schnitt erfolgt, eine Bewegung stattfindet, scheint diese auch die Verständlichkeit zu beeinflussen. Wenn also zwischen zwei Einstellungen, die Bewegung enthalten, ein Schnitt gemacht wird, und wenn diese Bewegungen sozusagen nebeneinander liegen, nicht aber ineinander übergehen und auch nicht gleich schnell in der zweidimensionalen Projektion sind, dann ist diese Ungleichheit möglicherweise ein schneller und entscheidender Faktor bei der Wahrnehmung einer dritten Bewegung (nämlich der Beschleunigung, die die eine Bewegung in die andere umwandelt). Diese Annahme ist gegenwärtig nur auf persönliche Beobachtungen beim Filmsehen basiert.

16 Um als auffällig zu gelten, muß ein Merkmal auch aus der Ferne erkennbar sein, d.h. selbst wenn der Betrachter in eine andere Richtung schaut, und das Merkmal somit in den peripheren Sehbereich fällt, muß es immer noch zu erkennen sein (Hochberg & Gellman, 1977). Daher muß das Erkennungszeichen bestimmte physikalische Kriterien erfüllen, wie zum Beispiel in Bezug auf Größe und Kontrast. Wenn das Erkennungszeichen auf diese Weise vom Rest des Blickfeldes enorm hervorgehoben wird, kann es den schnellen Faktoren unterliegen. Die Abstände, über welche diese operieren, sind uns allerdings nicht bekannt.

17 Diese Grundannahme kann teilweise durch visuelle Verschiedenheit überwunden werden (zum Beispiel wenn sich der Gesamtcharakter einer Landschaft oder die Tageszeit verändern). Ferner können auch konventionelle Mittel eingesetzt werden (zum Beispiel Aus- oder Überblendung). Das Bringen von Informationen, die völlig inadequat sind für das, was der Zuschauer bis dahin über das verfolgte Ereignis erfahren hat, erzielt die gleiche Wirkung.

18 Genauso wie in der verbalen Kommunikation muß der Zuschauer solche Einstellungssequenzen als irgendwie miteinander verbunden sehen. Natürlich ist da die unausweichliche Tatsache, daß derjenige Zuschauer, der überhaupt darüber nachdenkt, weiß, daß die Bilder, die ihm gezeigt werden, in dieser Reihenfolge und mit diesen Eigenschaften von einem berechnenden Filmemacher angeordnet worden sind, der auf diese Art und Weise dem Zuseher etwas mitteilen möchte (vgl. Metz, 1974, S. 47). Selbst Zuschauer, die nicht über dergleichen nachdenken (genauso wenig, wie sie sich vor Augen führen, daß eine Seifenoper oder ein Comic für einen bestimmten Zweck produziert wurden, und nicht nur ein Fenster auf die Welt sind), wissen, daß ihnen, wenn sie ihre Aufmerksamkeit auf die flackernden Bilder richten, Dinge gezeigt werden und daß Ereignisse passieren. Und sie werden versuchen, die Sequenzen in eine schematische Karte oder eine schematische Ereignissequenz einzuordnen (Hochberg, 1968, 1970).

19 Wenn Kontext, Reihenfolge und Hervorhebung also wichtig für die Bedeutung einer Reihe von Einstellungen sind, werden ja die meisten Kriterien für eine Sprache erfüllt. Man kann nun überlegen, ob es genügend Ansatzpunkte gibt, um von einer systematischen Grammatik zu sprechen (Pryluck & Snow, 1967). Ob es gegenwärtig einen Regelapparat gibt, der den Anforderungen des Psycholinguisten gerecht werden würde, oder nicht - auf jeden Fall gibt es Grund genug, um anzunehmen, daß mit der zunehmenden Kunstfertigkeit und technischen Weiterentwicklung filmischer Mittel auch ein komplexerer Regelapparat entstehen wird (Pryluck, 1968; Worth, 1968, 1969). Das Entstehen einer solchen Filmsprache wäre zweifellos von Vorteil, da es ja reale Dokumente in unseren Archiven (die meisten Filme) sozusagen als Vorgeschichte gibt, doch können wir hinterfragen, ob der sprachliche Aspekt typisch für die visuelle Wahrnehmung ist.

20 Penn hat Filme entworfen, in denen zwei Objekte entweder stationär waren oder sich langsam oder schnell aufeinander zu bewegten. Diese Objekte waren einmal Autos, dann Personen und schließlich Rechtecke. Das Schnittempo war entweder konstant (8, 2 und 0,5 s c-1) oder veränderlich (beschleunigt oder verlangsamt von 0,25 bis 5 s c-1 oder umgekehrt). Die Autos fuhren mit zwei unterschiedlichen Geschwindigkeiten. Die Schauspieler gingen oder rannten. Und die Rechtecke wurden in induzierte Bewegung gesetzt, indem der Hintergrund bewegt wurde (siehe Abschnit II, A, 2, e). Die Versuchspersonen mußten aus jedem Film Begriffe (z.B. weißes Auto, schwarzes Auto, Paar, die gesamte Szene) auf einem semantischen Differential einordnen und innerhalb von 60 Sekunden so viele Wörter zu jedem Begriff wie möglich aufschreiben, mit dem Ziel ein Maß an Sinnhaftigkeit zu produzieren (Noble, 1952). Bewegung und Objektart interagierten in signifikanter Weise in ihren Auswirkungen auf die Intensitäts- und Aktivitätsskalen in den Filmen mit Autos und Personen. Darüberhinaus waren ein paar andere Einzelvergleiche signifikant.

21 Da Spottiswoode davon ausging, daß die Mindestzeit für das Vermerken einer Einstellung 200ms beträgt, nahm er an, daß ein Großteil des Anfangs einer jeden Vorführung wirkungslos bleibt, daß die Erregung dann aber rasch ansteigt und vermutlich langsamer abnimmt, als sie gestiegen ist. Wenn der nächste Schnitt sofort erfolgt, nachdem der Erregungslevel, den der vorherige Schnitt erhöht hatte, zu Null zurückgekehrt ist, findet kein Gesamtanstieg des visuellen Anreizes statt. Bei längeren Einstellungen fällt die Erregung insgesamt. Bei kurzen Einstellungen ist ein Gesamtanstieg zu erwarten, und der Anreiz erhöht sich weiter. (Natürlich muß der Anreiz eine obere Grenze haben, da die Sakkaden nicht häufiger als vier bis fünf mal pro Sekunde ausgeführt werden können. Spootiswoodes Gefühlston dahingegen, muß nicht begrenzt werden.) Freilich, nach den ersten paar Schnitten beginnt der Zuschauer, die Schnitte zu erwarten. Sie werden weniger überraschend. Die Erregungszunahme wird geringer. Um einen anwachsenden Anreiz weiterhin zu garantieren, müßte das Schnittempo stets erhöht werden.