Hochberg, Julian / Brooks, Virginia (1978) The
Perception of Motion Pictures. In: Carterette, E. C. / Friedman, M.
P. 1978 Handbook of Perception. Vol. X, Chapt 11, S. 259-304.
Übersetzung: Sophie Repp.
Kapitel 11
ÜBER DIE WAHRNEHMUNG BEIM
FILM1*
JULIAN HOCHBERG UND VIRGINIA BROOKS
I. Einleitung
A. Das Wesen des Mediums: Was ist ein Film?
II. Über Kamerabewegungen und die Darstellung von Raum
A. Die verschiedenen kontinuierlichen Bildwechsel und deren
räumliche Information: Bewegungsperspektive, dynamische
Verdeckung und transformationale Invarianten
B. Der Raum jenseits der Leinwand und der sich vermeintlich bewegende
Beobachter
III. Über diskontinuierliche Schnitte und deren Auswirkungen auf
mentale Strukturen sowie auf den visuellen Anreiz
A. Die verschiedenen diskontinuierlichen Übergänge
(Schnitte) und deren Anwendung im Film
B. Die Verknüpfung (Integration) diskontinuierlicher sukzessiver
Bilder durch den Betrachter
C. Sequenzeffekte außerhalb des gegenständlichen
(ikonischen) Bereichs: Syntax, Affekt und Anreiz
IV. Zusammenfassung und Schlußfolgerung
Literaturverzeichnis
I. EINLEITUNG
In der Welt von Film und Fernsehen können die meisten Ergebnisse
der Wahrnehmungsforschung direkt angewendet und überprüft
werden. Die allererste Herausforderung für die klassische
Forschung und Theoriebildung waren statische Bilder und die Analyse
der Darstellung von Tiefe im Bild (die lineare Perspektive) durch Da
Vinci. Für Psychologen wenigstens ebenso interessant verspricht
die Erforschung der Gesetzmäßigkeiten bei der Wahrnehmung
bewegter Bilder zu werden. Denn hier bieten sich sowohl das
Instrumentarium als auch die Gelegenheit für die Untersuchung
der flüchtigen Eigenschaften des normalen Wahrnehmungsprozesses.
Gerade diese fllüchtigen Eigenschaften gehen ja bei dauerhaften
Präsentationen so oft verloren, und in Tachistoskopversuchen
werden sie dadurch, daß vom Betrachter ununterbrochene
Aufmerksamkeit gefordert wird, verschleiert. Das Verständnis der
Prozesse, die unsere die Welt erkundenden Blickfolgen auslösen
und aufrechterhalten, das Verständnis der Mechanismen, mit denen
wir den informativen Inhalt dieser Blickfolgen zusammenfassen, sind
von grundlegender Bedeutung für jede allgemeine Theorie
perzeptueller Organisation und Aufmerksamkeit. Der Film öffnet
eine wichtige Pforte auf dem Weg zu einem solchen
Verständnis.
Der Film (im folgenden soll dieser Terminus Fernsehbilder
einschließen) hat gegenüber statischen Bildern mindestens
fünf entscheidende Vorteile von theoretischem Interesse wie auch
von praktischem Wert:
1. Er kann mittels Bewegungen Informationen über
dreidimensionale räumliche Anordnungen liefern, die es in
unbewegten Bildern nicht gibt (Bewegungsperspektive). Die Abwesenheit
dieser Bewegungsperspektive kann im Widerspruch stehen zu jeglicher
Perspektive, die sonst im stationären Bild dargestellt ist.
2. Eine Szenerie, die viel größer ist als die Leinwand
(oder der Fernsehbildschirm), kann in aufeinanderfolgenden Bildern
dargestellt werden, da von der Speicherkapazität für
visuelle Informationen, die wir auch bei der normalen Wahrnehmung
nutzen müssen, Gebrauch gemacht wird.
3. Der Film erlaubt, ja er hängt sogar ab von Veränderung,
wodurch auf einer besonderen Ebene Aufmerksamkeit und Interesse
gebunden werden können, was mit einem entsprechenden einzelnen
Bild nicht erreicht werden könnte.
4. Der Film ermöglicht die stückweise Darstellung von Orten
und Ereignissen. Er kann Bilder von Gegenständen einander
gegenüberstellen, die sich bei der Aufnahme nicht am selben Ort
befanden.
5. Redundantes in Handlungen, zeitlichen Abfolgen oder
räumlichen Anordnungen kann ausgelassen werden, womit
Ereignisfolgen auf ihre minimalen kommunikativen Eigenschaften
reduziert werden können.
Im folgenden werden wir zunächst kurz das Wesen des Mediums Film
besprechen und danach die relevanten sensorischen und perzeptorischen
Fragen betrachten.
Der ungeheure Erfolg des Films als eine Art des Zeitvertreibs,
insbesondere in der Form des Fernsehens, ist weithin anerkannt (vgl.
Lyle & Hoffman, 1971; Rutstein, 1974; Winn, 1977). Über die
Wahrnehmung dieser Darstellungsform ist vieles geschrieben worden,
das gewichtig ist, jedoch begrenzte Möglichkeiten der
experimentellen Überprüfung bietet (besonders McLuhan,
1964, 1969). Auch weniger ehrgeizige Fragen sind immer wieder in der
Forschung gestellt worden, wie zum Beispiel bei pädagogischen
Filmen bezüglich der Auswirkung variierender
Präsentationsformen auf den pädagogischen Effekt des Films
(vgl. Grover, 1975; Minter, Albert & Powers, 1961; Salomon, 1972;
VanderMeer, 1954) - eine Literatur, die wir in diesem Rahmen nicht
besprechen können (Findahl, 1971; Guba, Wolf, de Groot,
Knemeyer, Van Atta & Light, 1964). Weiterhin beschäftigt
sich ein großer Teil der pädagogisch orientierten
Untersuchungen mit verschiedenen Fragen, von denen angenommen wurde,
daß sie mehr oder weniger eng mit dem Film zusammenhängen
(vgl. Grover, 1975).
Andererseits widmen sich verhältnismäßig wenige
Arbeiten den grundlegenden Aspekten der Wahrnehmung beim Film, d.h.
den allgemeinen theoretischen Fragen, die sowohl Bestandteil der
Film- als auch der Wahrnehmungstheorie sind, oder auch der
praktischen Frage, wie Erkenntnisse und Methoden der einen Theorie
der anderen dienlich sein können. Dies erscheint
merkwürdig, da die Verflechtungen sowohl offensichtlich als auch
bedeutend sind.
A. Das Wesen des Mediums
Was ist ein Film?
1. Der Film als Surrogat: Abstand, Größe und
Auflösung
Zum ersten besteht der Film natürlich aus bewegten Bildern. In
einem gewissen Sinne ist er ein Surrogat des dargestellten Ortes oder
Ereignisses. Er funktioniert zum Beispiel, indem er dem Auge eine
optische Anordnung anbietet, eine Fläche von strukturiertem
Licht, die in ihren wesentlichen Zügen der Struktur, die vom Ort
oder Ereignis selbst erzeugt würde, ähnlich ist. Somit
scheint zumindest prinzipiell eine unproblematische Definition von
Wiedergabetreue (Gibson, 1947, 1954a) im Film möglich, wie auch
eine Anwendung gleichermaßen unproblematischer Fragen
bezüglich der Bildschärfe im Auge. Man könnte auch den
optimalen Abstand des Zuschauers zum Bild, die optimale
Publikumsgröße (McVey, 1970) und die
Auflösungsgrenzen, die beim Fernsehen beispielsweise vom Raster
der Bildpunkte abhängen, bestimmen etc. Einige wenige
Forschungsarbeiten haben sich tatsächlich mit dem einen oder
anderen dieser Probleme befaßt (vgl. Enoch, 1959; Meister,
1966; Wadsworth, 1969). Von McVey (1970) wurde der Versuch
unternommen, diese Ergebnisse miteinander zu verbinden. Leider ist es
jedoch so, daß die Frage der Auflösung und der Leinwand-
bzw. Bildschirmgröße nicht ohne weiteres zu klären
ist.
Der Bildschärfeverlust, der im Netzhautbild aufgrund der Breite
des Punktrasters auftritt (man sieht die Punkte selbst), ist im
fovealen Bereich zweifellos größer als in der Peripherie.
Unschärfe in der Peripherie kann sogar als Tiefpaßfilter
für die Rekonstruktion von Einzelheiten, die foveal nicht
unterschieden werden können, fungieren (vgl. Harmon &
Julesz, 1973). Eine Verkleinerung des Gesichtswinkels gegenüber
dem Bildschirm bzw. der Leinwand verringert nun aber notwendigerweise
den Anteil des peripheren Sehens des Betrachters. Dies kann dazu
führen, daß die Bereitschaft des Betrachters, das
nächste Bild aufzunehmen, sinkt. Außerdem kann es auch die
Wirksamkeit des ganzen Filmausschnitts überhaupt
einschränken (vgl. Hochberg & Brooks, 1973; Wist, Dienes,
Dichganz, & Brandt, 1975). Ohne weitere Untersuchungen kann man
die Bildauflösung also nicht einfach mit dem Betrachterabstand
gleichsetzen (bei gleichbleibender Bildgröße).
Auch für den Betrachterabstand können wir wohl kaum ein
scheinbar so naheliegendes Kriterium festlegen, wie zum Beispiel,
daß der Gesichtswinkel zur Leinwand mit dem der Kamera
identisch sein sollte, um die Lichtstruktur des Surrogats am Auge der
der ursprünglichen Szene möglichst weit anzunähern.
Diese Idee entspringt natürlich der Definition des Bildes als
Reizsurrogat. Tatsache jedoch ist, daß der Zuschauer nicht nur
Unterschiede des Betrachtungswinkels und der -entfernung, die eine
erhebliche Form- und Perspektivenverzerrung auf der Netzhaut mit sich
bringen, tolerieren kann (Pirenne, 1970), sondern daß
außerdem kanonische Darstellungen (Gombrich, 1960; Hochberg,
1972), wie sie von Teleobjektiven erzeugt werden, scheinbar bevorzugt
werden, (d.h. Darstellungen, in denen der Bündelungsgrad
für ein Objekt einer bestimmten Größe weit geringer
ist als der, den der korrekte Betrachterabstand bewirken würde
(Hagen & Elliott, 1976)).
Diese Fragen bezüglich bildlicher Wahrnehmung im allgemeinen
sind gerade im Film so überaus wichtig, da sie mit den Merkmalen
des Mediums interagieren: Kino und Fernsehen arbeiten (in
unterschiedlichem Ausmaß) bewußt mit Veränderungen
des tatsächlichen Abstands zwischen Szene und Kamera
(Nahaufnahme vs. Totale etc.). Einige Konsequenzen für die
Wahrnehmung diesbezüglich werden wir auf S. $af.
diskutieren.
Im folgenden wollen wir betrachten, wie Bilder sich "bewegen".
2. Stroboskopische Bewegung und damit verbundene Fragen der
Wahrnehmung
Wie jeder weiß, besteht der Film aus einer Folge statischer
Einzelbilder, gewöhnlich 24 Bilder pro Sekunde bei Tonfilmen und
generell 30 Bilder pro Sekunde beim amerikanischen Fernsehen. Im
ersten Falle befindet sich die Bildfrequenz gerade noch im Bereich
wahrnehmbaren Flimmerns, doch eine Flügelblende unterbricht
jedes Bild noch ein- oder mehrmals, womit eine wirkliche Frequenz von
72 bis 120 Hz erreicht wird. Im Fall des Fernsehens wird das Bild von
einem beschleunigten Elektronenstrahl erzeugt, der alternierende
Zeilen mit einer Frequenz von 30 Hz anordnet (die modulierten hellen
Linien werden auf dem Leuchtschirm der Kathodenstrahlröhre
zusammengesetzt). Auf diese Art und Weise wird das Gesamtbild durch
alternierende Zeilen bei einer Frequenz von 60Hz
verstärkt.2
Film- und Fernsehbilder werden also auf sehr unterschiedliche Art
erzeugt. Dieser Unterschied im zugrundeliegenden
Darstellungsprozeß soll nach Ansicht mancher Autoren für
die zu vermittelnde Nachricht und ihre Ästhetik bedeutend sein
(McLuhan, 1964; Zettl, 1973). Da die Prozesse jedoch in beiden
Fällen im Bereich des zeitlichen Auflösungsvermögens
des visuellen Systems liegen, ist der Unterschied, der aus der
Erzeugungsmethode resultiert (im Gegensatz zu Unterschieden
bezüglich der Konturenstabilität, der Auflösung, des
Kontrasts, der Leuchtdichte etc.), als ästhetische Frage ganz
irrelevant (Layer, 1974).
Wichtig aber für beide Verfahren ist die Tatsache, daß
eine kleine Verschiebung eines Musters von einem Bild zum
nächsten nicht als Folge statischer Einzelbilder wahrgenommen
wird, sondern als Bewegung des Musters von einem Ort zum anderen.
Dies ist das Kernstück des Vorgangs, der allerdings in
populärwissenschaftlichen und auch Fachtexten über Film und
Fernsehen oft falsch interpretiert wird.
Wenn fortschreitend kleine Veränderungen von einem Bild zum
nächsten vorgenommen werden, reagiert das Wahrnehmungssystem,
als ob ihm sich fließend bewegende Stimuli angeboten worden
wären. (Obwohl dies natürlich nicht in jeder Hinsicht
zutrifft - man kann zum Beispiel mit der Hilfe von Sonden zeigen,
daß die Netzhaut in solchen Fällen nicht wirklich einen
sich bewegenden Stimulus empfängt; vgl. Kolers, 1963). Dieses
Phänomen wird in der Regel als stroboskopische (oder Beta-)
Bewegung bezeichnet.
Manchmal wird es noch immer irrtümlicherweise auf die "visuelle
Persistenz" zurückgeführt, d.h. auf das, was in der
Literatur zur Informationsverarbeitung heute oft Icon genannt wird
(Neisser, 1967). Natürlich ist es nichts dergleichen, denn
visuelle Persistenz allein würde nur dazu führen, daß
die aufeinanderfolgenden Einzelbilder sich im resultierenden
Blickfeld überlagern würden.
In der Tat, um erklären zu können, warum visuelle
Persistenz nicht alle statischen Zwischenbilder bewahrt, die ein sich
bewegendes Objekt in der filmischen Darstellung durchläuft,
muß wahrscheinlich entweder eine Art sukzessives Verdecken oder
aber ein "Off-"Signal angenommen werden.3
Auf jeden Fall sind Persistenz und Bewegung aber nicht identisch.
a. Stroboskopische Bewegung: Fakten und Fragen. In sehr wenigen
Untersuchungen zur stroboskopischen Bewegung sind Stimuli verwendet
worden, die derartig vielfältig, kompliziert und komplex sind
wie jene, die im Film gebraucht werden. Es liegt eine Reihe Arbeiten
mit einfachen Reizmustern vor, die wahrscheinlich einige aber nicht
alle relevanten Vorgänge erklären.
Wenn zwei Lichtpunkte oder andere einfache identische Muster, die
durch den Abstand s sowie ein zeitliches Intervall t,
währenddessen keiner der Stimuli gezeigt wird, getrennt sind,
gilt für bestimmte Werte von s und t, daß der Betrachter
eine räumliche Bewegung sieht. Die physikalischen Variablen
scheinen simpel und einleuchtend zu sein. Die Reaktionen des
Betrachters (vgl. Kenkel, 1919; Wertheimer, 1912) reichen von der
Wahrnehmung einer einfachen Phi-Bewegung (d.h. Objekte werden nicht
erkannt, aber ein starker und unabhängiger Bewegungsreiz wird
beschrieben) über eine Beta-Bewegung (d.h. man sieht ein Objekt
sich von einem Ort zu einem anderen bewegen) bis hin zu einer
diskreten Abfolge von Einzelbildern. Unter bestimmten Bedingungen
kann Beta-Bewegung nicht von richtiger Bewegung unterschieden werden
(DeSilva, 1929; Dimmick & Scahill, 1925; Stratton, 1911;
Wertheimer, 1925). Wenn ein Hindernis zwischen a und b
plaziert wird, oder wenn die zwei Reizmuster Spiegelbilder
voneinander sind, die den Abstand s auf der Netzhaut nur dann
zurücklegen können, wenn sie durch die dritte Dimension
schwingen (vgl. Abbildungen 1 (b) und 1 (c)), dann sehen wir die
entsprechende Bewegung im dreidimensionalen Raum. Generell gilt,
daß unsere Wahrnehmung eine Abfolge von einzelnen Bildern bei
einer genügend feinen zeitlichen Auflösung genauso
behandelt wie eine kontinuierliche Bewegung, die diese Bildfolge
gewöhnlich als zeitlichen Ausschnitt erzeugen würde.
Dadurch wird der Film natürlich erst möglich: Der
Kameramann muß seine Kamera normalerweise bloß auf eine
Szene richten, und die Scheinbewegung, die bei der Vorführung
des Films entsteht, ist im wesentlichen die gleiche wie bei einer
irgendwie kontinuierlichen (statt einer springenden) Aufzeichnung des
Ereignisses.
Abb. 1. Stroboskopische Bewegung. (a): Wenn
der Abstand s und das Zeitintervall t (oder die
Stimulusbeginn-Asynchronie S) mit bestimmten Werten belegt werden,
werden a und b als ein sich durch den Raum bewegender, einzelner
Punkt wahrgenommen. Oben sind die beiden aufeinanderfolgenden
Einzelbilder dargestellt, darunter die zeitliche Abfolge. (b, c):
Wenn a und b nacheinander gezeigt werden, nimmt man sie als ein (und
dasselbe) Objekt wahr, das sich durch einen dreidimensionalen Raum
bewegt. Oben die beiden Einzelbilder; unten werden sie aus der
Vogelperspektive gezeigt, wobei die Bewegung mit gestrichelten
Pfeilen angedeutet ist. (d): Da auf a sowohl b als auch b
folgen können, ist klar, daß die Richtung der
Scheinbewegung während des Intervalls t2 --t1 erst nach Ablauf
des Intervalls bestimmt werden kann (d.h. die Bewegung wird der
Reizsequenz im Nachhinein zugeordnet).
Normale stroboskopische Bewegung verlangt also kaum Wissen über
die Wahrnehmung von Bewegung. Nur wenn die normale stroboskopische
Aufnahme unterbrochen wird, wie das beim Schnitt der Fall ist (vgl.
S. $b-$c), kommt das Wissen um die ausschlaggebenden Faktoren bei der
Scheinbewegung ins Spiel.4
b. Kortes Gesetze und Ternussche Phänomene: Das Problem der
Reizidentifizierung. Wenn a und b also einfache, identische Muster
meßbarer Leuchtstärke und s und t unabhängige, sowie
die Beta-Bewegung abhängige Variablen sind, ergeben sich
interessante Ansätze für die psychophysische Forschung
(Korte, 1915; Neuhaus, 1930; Sgro, 1963; vgl. Zusammenfassungen in
Hochberg, 1971, sowie Kaufman, 1974). Im wesentlichen bestätigen
die Ergebnisse die Helmholtzsche Regel, nämlich daß wir
dasjenige Ereignis wahrnehmen, das mit großer
Wahrscheinlichkeit die Reize produziert haben könnte. Das
heißt, für eine längere Zwischenzeit t müssen a
und b (bei gleicher Geschwindigkeit) weiter voneinander entfernt
sein, bzw. dichter beieinander für eine kürzere Zeit. Bei
einer normalen Filmdarbietung ist die Zeit zwischen zwei Bildern
gewöhnlich sehr kurz. Sie liegt entweder zwischen 8 bis 21 ms
oder zwischen 33 bis 42 ms, je nach dem ob die relevante Variable die
Zeit zwischen den Reizen (das Interstimulusintervall = ISI) oder die
Zeit von einem Reizanfang zum nächsten (die
Stimulusbeginn-Asynchronie, engl.: = SOA), dargestellt durch S in
Abbildung 1 (a), ist. Letzteres ist wahrscheinlich passender. In
beiden Fällen sind die Verschiebungen, die eine
gleichmäßige Bewegung erzeugen, auf jeden Fall
verhältnismäßig klein, wie man es im Film auch
erwarten würde.
In vier Punkten ist die Materie jedoch weit weniger simpel und somit
interessanter für die Wahrnehmungs- und die kognitive
Psychologie, als es auf den ersten Blick erscheinen mag.
Erstens, unabhängig von den Vorgängen, denen die
Wahrnehmung von Bewegung in diesen Fällen unterliegt, kann
Bewegung nicht unmittelbar, d.h. On-Line, wahrgenommen werden. Denn
die Richtung, in die sich a in Abbildung 1 (d) bewegt, kann
frühestens dann wahrgenommen werden, wenn entweder b oder b'
gezeigt werden. Eine Bewegung kann also erst dann festgestellt
werden, nachdem die Bildsequenz beendet ist. Dies ist weniger
wichtig, solange nur einzelne Bildpaare betroffen sind, also bei
einer Dauer von 67 bis 83 ms (für zwei Video- bzw. Filmbilder).
Wenn länger dauernde Bewegungen (ab etwa 1500 ms) dargestellt
werden, ergeben sich jedoch einige interessante Aspekte. Sicherlich
gibt es eine Zwischenzeit t, die länger als (ca.) 1500 ms
dauert, und nach der die wahrgenommene Bewegung keine Reaktion mehr
auf die gesamte Sequenz, einschließlich der ersten Bilder, ist.
Das wahrgenommene Ereignis muß einerseits darin bestehen, dem
ersten Teil der Gesamtsequenz ein mentales Schema zuzuweisen und
andererseits auch darin, zu testen, was dieses Schema voraussagt.
Zwar sind unmittelbar zu dieser Problematik keine Untersuchungen
durchgeführt worden, wir werden im Abschnitt zu schlechten
Schnitten aber auf einige Phänomene eingehen, die mittelbar
damit verbunden sind.
Zweitens muß eine Reizidentität in Betracht
gezogen werden, die über die physikalische Unterscheidbarkeit
der Reizvariablen unter Umständen hinausgeht: In Abbildung 2
beispielsweise ist die Sequenz mehrdeutig. Die Bewegung kann entweder
wie in Abbildung 2 (b) oder wie in 2 (c) wahrgenommen werden, oder 2
(b) und 2 (c) können einander abwechseln, wobei das
Verhältnis von den Reizbedingungen abhängen würde
(Petersik & Pantle, 1976). Wenn die Zwischenzeit t für die
beiden mittleren Punkte b und c gleich 0,0 ist, wird die
Scheinbewegung nach dem Muster 2 (c) wahrgenommen (Ternus, 1938).
Dies hängt vermutlich davon ab, ob die Punkte b und c in beiden
Bildern als identisch wahrgenommen werden d.h. konstant sind, womit a
und d auch identisch wären, oder ob a, b und c als mit b, c bzw.
d identisch betrachtet werden. Hier ist übrigens die Zeit
zwischen den Reizen (ISI) wichtiger als die Zeit zwischen den
Reizanfängen (SOA), wahrscheinlich weil das
Interstimulusintervall ein Off-Signal abgibt (vgl. Eriksen &
Collins, 1967, 1968). Ob die Reizidentität hier nun
tatsächlich als unabhängige Variable betrachtet werden
kann, oder ob sie nur eine abhängige Variable ist, die von den
gleichen Faktoren beeinflußt wird, die auch die Bewegungsroute,
die wahrgenommen wird, bestimmen, konnte noch nicht festgestellt
werden. Weiter unten werden wir jedoch sehen, daß es Fälle
gibt, in denen es sinnvoll scheint, von einem derartigen
Kausalzusammenhang zu sprechen.
Abb. 2. Reizidentifizierung: (a): Das Modell
(Ternus, 1938) besteht aus drei Lichtpunkten (a, b und c), denen eine
weitere Kombination dreier Lichtpunkte folgt (b, c und d). (b): Wenn
zwischen den beiden Anordnungen eine Dunkelzeit geschaltet wird
(oberer Teil der Abbildung), scheint es, als ob a sich zu b bewegt, b
zu c und c zu d, wie im unteren Teil zu sehen ist. (c): Wenn die
Lichtpunkte b und c aber durchgehend leuchten (oberer Teil der
Abbildung), dann scheint a sich durch die dritte Dimension zu d zu
bewegen (unterer Teil der Abbildung).
Drittens können Scheinbewegungen zwischen recht
unterschiedlichen Figuren stattfinden, die Idee der
Reizidentität darf daher nicht überbewertet werden. Die
Figuren scheinen sich zudem nicht nur von einem Ort zum anderen
bewegen zu können, sie ändern dabei auch allmählich
ihre Form oder Farbe (Pomerantz, 1971; Kolers & von Grünau,
1976; Navon, 1976; Orlansky, 1940). Dies ist analog zu den von
Penrose & Penrose entworfenen unmöglichen Bildern (1958).
Wenn die Helmholtzsche Regel, daß wir das, was einem
sensorischen Schema am ehesten entspricht, sehen, tatsächlich
zutrifft, muß dem Theoretiker dieses "am ehesten" nicht
unbedingt vor dem Sichten der Daten offensichtlich und vorwegnehmbar
sein (Hochberg, 1968, 1974a, b). Außerdem erfolgt die Reaktion
auf sensorische Muster auf verschiedenen Ebenen, so daß
kognitive Erklärungen, zum Beispiel darüber was "am
ehesten" paßt, sicher nicht in allen Bereichen gelten
(Hochberg, 1968). Beispielsweise wird die Situation in Abbildung 2
bei bestimmten Frequenzen mehrdeutig und wechselt zwischen den
Varianten 2 (b) und 2 (c) (Petersik, 1975). Die Varianten können
unabhängig voneinander adaptiert werden, und die
Helligkeitsadaptation wirkt sich unterschiedlich auf sie aus.
(Helligkeitsadaptation bevorzugt die "Gruppenbewegung" von (b),
Dunkeladaptation die "Einzelelementbewegung" von (c); Petersik &
Pantle, 1976).)
Schließlich müssen wir noch bestimmen, wie s und t
gemessen werden sollen. Wenn der Betrachter sich in einer
festgelegten Entfernung vom Bildschirm, auf dem die Objekte
dargestellt werden, befindet, scheint das Messen unproblematisch. Es
ist jedoch unklar, ob der Abstand im Bild der Netzhaut (dem optischen
Bild) oder aber der wirkliche Abstand (im physikalischen Objekt)
entscheidend ist. Mit anderen Worten, wir müssen also
feststellen, an welcher Stelle s und t gemessen werden.
c. Das Medium, in dem die stroboskopische Bewegung sich
ereignet. Nehmen wir an, daß wir den Blickwinkel gegenüber
zwei Objekten a und b konstant halten, den Abstand s zwischen
Betrachter und Bildschirm, auf dem die Objekte a und b in Abbildung 1
(a) erscheinen, aber verändern. Im Netzhautbild soll der Abstand
s zwischen a und b also konstant sein, während der wirkliche
Abstand zwischen den Gegenständen a und b mit dem
Betrachterabstand zunimmt. Wenn Scheinbewegung ein Phänomen
wäre, das von der Peripherie des Auges bestimmt wird,
würden wir erwarten, daß die Zwischenzeit t, die
benötigt wird, um eine gute Beta-Bewegung zu erzeugen, allein
von der Größe des optischen Bildes auf der Netzhaut
abhinge. Wenn die Scheinbewegung andererseits aber zwischen
scheinbaren Orten in einem scheinbaren Raum stattfände, und wenn
der scheinbare Abstand zwischen den Objekten in etwa dem
tatsächlichen Abstand entspräche (d.h. wenn
Größengleichheit herrschte), dann müßte die
Zwischenzeit t, die für eine gute Beta-Bewegung nötig ist,
vom tatsächlichen Abstand zwischen a und b abhängen.
Es gibt in der Tat eine zunehmende Anzahl von Arbeiten, die diese
letztere Interpretation zu bestätigen scheinen (Attneave &
Block, 1973; Corbin, 1942; Rock & Ebenholtz, 1962; Shepard &
Judd, 1976). Shepard und Judd bauten beispielsweise eine
Endlosschleife mit zwei perspektivischen Bildern desselben
dreidimensionalen Gegenstandes. Sie berechneten die Mindestdauer der
Zweierfolge, die nötig ist, um eine deutliche Rotation des
Gegenstandes wahrnehmen zu können.
Dabei kamen sie zu dem Ergebnis, daß das
Intervall sich proportional zur Veränderung der Ausrichtung der
beiden Formen verhielt, und daß der Anstieg der Kurve aus
Ausrichtung und Mindestdauer der Zweierfolge immer der gleiche blieb,
unabhängig davon, ob die Rotation im dreidimensionalen Raum
stattfand oder (scheinbar) auf der Bildfläche. Es gibt einige
Gründe (siehe S. $d), die dafür sprechen, daß
für die Geschwindigkeit, mit der ein Filmschnitt wahrgenommen
wird, ähnliche Bedingungen gelten.
Wir sollten diese Daten jedoch nicht überbewerten. Es gibt
wahrscheinlich mehrere, recht unterschiedliche Reaktionen, die
möglicherweise auch unabhängig voneinander sind, die in der
Wahrnehmung von Scheinbewegung eine Rolle spielen. Mit großer
Wahrscheinlichkeit hängen einige dieser Vorgänge
entscheidend von den Parametern des Netzhautbildes ab. Wir werden
weiter unten sehen, daß diese Parameter äußerst
wichtig für das Verständnis vom Filmschnitt sind (und
daß das Studium des Filmschnitts uns wiederum helfen wird, jene
Vorgänge besser zu verstehen).
d. Die unterschiedlichen Prozesse, die bei Scheinbewegungen ablaufen:
Erstreaktionen (Transients), Kleckse
(Blobs) und Detailerkennung. Wenn verschiedene Formen
nacheinander an derselben Stelle erscheinen, entsteht der Eindruck,
daß die Formen sich ineinander verwandeln (Berliner, 1948).
Wenn verschiedene Formen an verschiedenen Stellen gezeigt werden,
entsteht der Eindruck, daß sich die Formen bewegen (Hochberg
& Brooks, 1974; Kolers & Pomerantz, 1971; Navon, 1976;
Orlansky, 1940). Formkonstanz scheint also kein wesentlicher Aspekt
bei stroboskopischer Bewegung zu sein. Wir haben aber bereits
gesehen, daß zumindest einige Arten der Scheinbewegung durch
"Entscheidungen" über scheinbare Reizidentität bestimmt
werden. Und wir haben auch gesehen, daß Bewegung auch in
Abhängigkeit bestimmter Parameter scheinbaren dreidimensionalen
Raumes stattfindet, wobei letzterer das Ergebnis nicht unwesentlicher
Verarbeitungsvorgänge sein und auf Informationen über die
Form aufbauen muß. Es könnte hier durchaus ein Problem
geben, das aber kein Paradox darstellen muß, da die
verschiedenen Prozesse bei der stroboskopischen Bewegung recht
unterschiedlich sein können.5
$l
Generell sollten mindestens zwei Arten von Faktoren unterschieden
werden. Ein Modell, das sowohl mit der experimentellen Forschung als
auch mit unseren Untersuchungen zum Filmschnitt (vgl. S. $d)
vereinbar ist, ist das folgende: Auf einen abrupten Bildwechsel folgt
eine schnelle, flüchtige Erstreaktion in Form einer
Scheinbewegung zwischen Bereichen mit der gleichen Leuchtstärke,
die in den aufeinanderfolgenden Bildern ihre Position nur wenig
verändern. Wie der Reiz genau aussehen muß, damit eine
solche Erstreaktion hervorgerufen wird, ist gegenwärtig noch
nicht bekannt.
Die Vorstellung, daß eine schnelle Reaktion
auf "Kleckse" im allgemeinen erfolgt, d.h. auf jene Aspekte des
Reizes, die mit niedriger räumlicher Häufigkeit auftreten,
stimmt mit den vorhandenen Daten überein (Saucer, 1954;
Breitmeyer & Ganz, 1976; Breitmeyer & Julesz, 1975;
Breitmeyer, Love & Wepman, 1974). Die Reaktionszeiten für
die Wahrnehmung von Mustern, die unterschiedliche räumliche
Häufigkeiten aufweisen, liegen also zwischen 200 ms für
Muster von 0,5 c°-1 bis zu 350 ms für Muster von 10
c°-1 (Breitmeyer, 1975). Die unterschiedlichen Reaktionszeiten
spiegeln die unterschiedlichen Geschwindigkeiten bei der sensorischen
Verarbeitung wider und nicht die verschiedenen Entscheidungs- oder
Ausführungszeiten. Dies kann durch zwei Fakten belegt werden.
Zum einen können die Reaktionszeiten (Latenzen) im Sehzentrum
der Großhirnrinde durch dieselbe Kurve dargestellt werden
(Williamson, Kaufman & Brenner, 1977). Zum zweiten kann eine
Scheinbewegung, die durch eine Bildfolge produziert wird, die
für Entscheidungen oder offene Reaktionen auf einzelne Bilder zu
schnell abläuft, als der eigentlichen Bewegung entgegenlaufend
wahrgenommen werden, wenn verschiedene Gegenstände entsprechend
in nacheinander benachbarte Position gebracht werden (S. $d). Ob
"niedrige räumliche Frequenzen" eine passende Beschreibung
darstellt, können wir hier noch nicht feststellen (z.B.
könnte dasselbe Phänomen der Formenunabhängigkeit bei
Scheinbewegungen auch auf lokale Beziehungen zwischen
aufeinanderfolgenden Konturteilen sein). Zumindest kann sie uns im
Moment aber als eine nützliche Metapher dienen. $j
Unter welchen Reizbedingungen diese flüchtige Erstreaktion auch
hervorgerufen wird, sie ist zwar eine kurzlebige aber doch eine recht
beeindruckende Empfindung von Bewegung. $n
Zusätzlich zur muster-unabhängigen Erstreaktion
(transient, form-independent response) gibt es
natürlich auch langsamere Reaktionen auf die Verschiebung von
Objekten zwischen zwei Bildern. Es scheint plausibel, daß sie
parallel zu den Erstreaktionen ausgelöst werden. Langsamere
Reaktionen lassen die Gesamtform der Objekte und die kleinen
entscheidenden Details jedoch nicht außer acht. Solche
formabhängigen Reaktionen (form-dependent responses)
scheinen wesentlich länger zu dauern - von 500 ms an
aufwärts (Hochberg & Brooks, 1974).
Höchstwahrscheinlich sind die Phänomene stroboskopischer
Bewegung, die in scheinbarem Raum stattfinden, in diese Klasse der
langsamen Reaktionen einzuordnen.
An dieser Stelle können wir die Fakten mit ziemlicher Sicherheit
zu einer groben Regel zusammenfassen. Elemente mit niedriger
räumlicher Häufigkeit dominieren, wenn der Betrachter
Bildfolgen hoher zeitlicher Schnittfrequenz verknüpfen
(integrieren) muß, und Informationen hoher räumlicher
Häufigkeit herrschen vor bei niedriger Schnittfrequenz.
Wenn Augen- und Kamerabewegungen klein sind (letztere in Bezug auf
den Abstand zwischen den wichtigsten Umrissen der aufgenommenen
Szene) verlaufen beide Prozesse in derselben Richtung und behindern
sich also nicht. Dagegen stimmen größere Sakkaden oder
größere Bewegungen der Kamera selten überein und, wie
wir später bei der Diskussion von überlappenden Schnitten
sehen werden, könnte dies die Übergänge schwer
verstehbar machen.
e. Die Teilung relativer Bewegung: Induzierte Bewegung,
"Systemtrennung" und die Wahrnehmung von Invarianten bei
Transformationen. Die Reizschwelle für relative Bewegung ist
niedriger als die für absolute Bewegung (Aubert, 1886; Brown
& Conklin, 1954). Das läßt vermuten (bedeutet aber
nicht zwangsweise), daß der Betrachter bei einer Reihe von
Ereignissen sicher ist, eine Bewegung gesehen zu haben, jedoch nicht
sagen kann, welches der beiden Objekte sich bewegt hat und damit auch
nicht die Richtung der Bewegung angeben kann.6
Abb. 3. Die Trennung von wahrgenommener
Bewegung. (a): Induzierte Bewegung. Wenn in einem leeren Bereich a
feststehend ist und b sich bewegt, scheint a sich zu bewegen und b
scheint fest zu sein. (b): "Systemtrennung" (siehe Text) (c, d) Der
Johanssoneffekt. Bewegen sich in einem dunklen Raum drei Lichtpunkte
entlang der Pfeile in Bild (c), dann sieht der Betrachter die
Bewegungen in Bild (d).
Wenn ein fester Punkt a von einem sich bewegenden Rahmen b in einem
ansonsten dunklen oder ohne besondere Merkmale ausgezeichneten Raum
umgeben ist, erscheint der Rahmen fest, während der Punkt sich
zu bewegen scheint (Duncker, 1929), vgl. Abbildung 3 (a). Im
allgemeinen scheint sich das kleinere der beiden Objekte zu bewegen,
insbesondere wenn es sich innerhalb des größeren
befindet.
Wir neigen dazu, Objekte, von denen wir erwarten, daß sie sich
bewegen können (Autos, Flugzeuge, Menschen), eher als sich
bewegend wahrzunehmen (Brosgole & Whalen, 1967; Comalli, Werner
& Wapner, 1957; Duncker, 1929; Jensen, 1960). Dies muß aber
nicht so sein, beispielsweise wenn das fixierte Objekt von einem sich
bewegenden Rahmen umgeben ist (Brosgole & Whalen, 1967).
Wenn ein feststehendes, stationäres Objekt innerhalb eines
festen Rahmen liegt, und ein strukturierter Hintergrund sich
kontinuierlich hinter dem Objekt bewegt, wird der Betrachter dem
Objekt Bewegung zuschreiben, und zwar in entgegengesetzter Richtung
zur wirklichen Bewegung des Hintergrundes. Da das Objekt
bezüglich des Rahmens fixiert ist, sich aber doch zu bewegen
scheint, ist logisch (und in gewissem Maße perzeptuell) daraus
zu schließen, daß sich der Rahmen gemeinsam mit dem
Objekt bewegt. Dieses anscheinend paradoxe Phänomen ist
entscheidend für die filmische Darstellung von Bewegungen, die
einigermaßen lang andauern (denn ein Objekt, das sich im Grunde
relativ zur Leinwand bewegt, wird sie letztendlich verlassen). Wie
läßt sich dies mit dem Phänomen induzierter Bewegung,
das wir oben beschrieben haben, vereinen?
Es gibt vier mögliche Erklärungen für diesen
bedeutenden filmischen Effekt. Erstens könnte die induzierende
Wirkung des Rahmens dadurch außer Kraft gesetzt werden,
daß das Objekt dem sich bewegenden Hintergrund unmittelbar
benachbart, der Rahmen aber weiter entfernt vom Objekt ist, wodurch
nur eine örtlich begrenzte relative Bewegung erzeugt würde
(vgl. Gogel, 1977).7
Zweitens könnte die Bewegung des Hintergrunds in der Peripherie
des Netzhautbildes den Betrachter dahingehend irreführen, als
daß er meint, seine Blickrichtung zu verändern (siehe S.
$e).8
Traditionell würde man argumentieren, daß der Betrachter
den sich bewegenden Hintergrund innerhalb des Rahmens als die
angedeutete Umgebung akzeptiert (so wie eine Szene, deren Rahmen ein
Zugfenster bildet, Teil der allgemeinen, festen Umgebung ist; vgl.
Koffka, 1935). Schließlich schlägt Wallach (1959) vor,
daß eine allgemeine Regel der Systemtrennung die Erklärung
des Phänomens ist. Nach dieser wird Scheinbewegung stets durch
den nächsten das Objekt umgebenden Rahmen bestimmt. In Abbildung
3 (b) (nach einem von Wallach beschriebenen Versuch) induziert die
tatsächliche Bewegung des inneren Rechtecks b die Scheinbewegung
des Punktes a in die entgegengesetzte Richtung, trotzdem a
bezüglich c fixiert ist.
Jede einzelne oder alle diese Erklärungen könnten
zutreffen. Es gibt wenige Untersuchungen auf diesem Gebiet, obwohl
dies prinzipiell nicht kompliziert sein sollte, da die verschiedenen
Interpretationen unterschiedliche Auswirkungen im Film haben. Zum
Beispiel müßte nach der ersten Erklärung eine
Verringerung des Effekts mit Verkleinerung des Blickwinkels auf die
Leinwand oder den Bildschirm auftreten. Die letzten beiden
Erklärungen würden dies hingegen nicht vorhersagen. Man
kann in der Tat hinterfragen, ob die Scheinbewegungen in Abbildung 3
(b) wirklich derart zuverlässig eintreten, so daß man das
filmische Phänomen erklären kann (Farber & McConkie,
1977). Dies führt uns zu einem generellen Problem bezüglich
der Erscheinungen in diesem und im nächsten Kapitel: sie alle
sind uneindeutig. Die Konstellation in Abbildung 3 (b) kann
unterschiedlich betrachtet werden: zwei feste Objekte (a und c) mit
einem beweglichen (b); zwei bewegliche Objekte und ein festes (a und
c bewegen sich nach links, b verändert seine Position nicht,
oder aber a bewegt sich auf b zu nach links, welches sich wiederum
hinter einer feststehenden Öffnung c nach rechts bewegt). Es
mögen auch ganz andere Bruchteile relativer Bewegungen
stattfinden. Gewöhnlich ist es bei Experimenten mit
uneindeutigen Reizsituationen schwierig, zu bestimmen, nach welchem
Kriterium die Versuchsperson entscheidet, welches Objekt sich in
welche Richtung bewegt. Es liegt auf der Hand, daß wir die
Bedingungen bestimmen müssen, unter denen Betrachter mehrdeutig
auf Stimuli wie in Abbildung 3 (b) und 3 (c) (siehe weiter unten)
reagieren, bevor wir sicher sein können, daß diese
Mechanismen auf denselben Prinzipien beruhen wie die konkreteren
Phänomene des Films, wie man ihn im Kino erlebt.
In Zusammenhang mit seinem Bestreben eine allgemeine
Wahrnehmungstheorie zu entwickeln, hat Gibson behauptet, daß
unser Wahrnehmungsapparat die invariante Struktur (d.h. die
Konstanten) aus den Transformationen, die im Netzhautbild ablaufen,
herausfiltert (extrahiert) (1954b, 1957, 1966). Johansson (1950,
1974) hat diesen Vorschlag noch präzisiert, indem er meinte,
daß das visuelle System die Bewegung heraussucht, die allen
sich bewegenden Elementen im Blickfeld gemein ist, und daß
diese Bewegung dann das Raster ist, an dem die übrige Bewegung
gemessen wird. Wenn die Lichtpunkte in Abbildung 3 (c) sich in einem
ansonsten dunklen Raum wie durch die gestrichelten Pfeile angegeben
bewegen, sieht der Betrachter die Bewegungen in Abbildung 3 (d).
Dieses Prinzip wird uns noch bei der Diskussion der Wahrnehmung sich
überlappender aufeinanderfolgender Bilder interessieren.
3. Der Film als Surrogat für Ereignisse in Zeit und Raum
Die oben besprochenen Probleme sind zum Teil unabhängig vom Film
untersucht worden. Im folgenden wollen wir nun die Anwendung dieser
Prinzipien diskutieren und jene Aspekte betrachten, bei denen der
Film über das bisherige Interesse der Psychologen an den
zugrunde liegenden Prozessen hinausgeht.
a. Die Geschichte der sich bewegenden Bilder. Versuche, Bilder sich
bewegen zu lassen, gibt es nicht erst seit hundert Jahren (vgl. Cook,
1963; Pratt, 1973). Und neuere Apparate gibt es im
Überfluß: das Zöotrop, das Projektions-Praxinoskop
oder auch Muybridges fotografische Reihenaufnahmen, wo jede Kamera
ein Bild machte, wenn ein sich bewegender Akteur einen Draht
berührte. Freilich sind diese Apparaturen vom Filmstreifen mit
seinen aufeinanderfolgenden Fotos (bzw. durch die magnetische
Speicherung eines elektrischen Signals, das die Stärke der
Bildsignale moduliert) abgelöst worden.
Die Filmtechnik ist für die Wissenschaft und Technik aber auch
für die Unterhaltung entwickelt worden. Einer der Gründe,
die diese Technik so interessant machen, ist die Art und Weise, in
der Filme den Betrachter von seinen eigenen Wahrnehmungsgrenzen in
Zeit und Raum befreien.
b. Die Ausdehnung und Verkürzung der Zeit im Film. Muybridge
(1882) verfolgte mit seinen Versuchen ein bestimmtes Ziel. Er baute
seine Kameras in einer Reihe auf und nahm die aufeinanderfolgenden
Bilder eines schnellen Pferdes auf, um feststellen zu können,
wie ein galoppierendes Pferd seine Beine bewegt. Dies kann man mit
dem bloßen Auge ja nicht erkennen. Umgekehrt kann man
Vorgänge, die normalerweise zu langsam ablaufen, um wahrgenommen
werden zu können, erkennbar machen, indem man nur wenige Bilder
in großen Abständen (beispielsweise 1 pro Tag) aufnimmt
und sie dann bei einer normalen Projektionsgeschwindigkeit abspielt
(wie zum Beispiel das Wachsen einer Pflanze). Diese
Veränderungen auf der Zeitskala werden vielfältig
angewendet, doch es gibt noch eine dritte Methode, die noch viel
gebräuchlicher ist: Der Filmemacher kann ja mit seiner Kamera
ein Ereignis oder selbst nur ein Teil eines Ereignisses in normaler
Geschwindigkeit drehen (zum Beispiel das Aussähen von Samen in
einem Blumentopf), die Kamera ausschalten und dann zurückkommen,
um - wieder mit normaler Geschwindigkeit - weiter zu filmen, nur eben
viel später (beispielsweise wenn die Pflanze begonnen hat zu
sprießen). Nach einer kurzen Weile, wenn sich der Betrachter
von dem abrupten Bildwechsel erholt hat, kann er problemlos den Faden
wieder aufnehmen und die Streichung der (überflüssigen)
Zwischenzeit akzeptieren. Der Filmemacher ist also in der Lage, nur
jene Aspekte aus dem Lauf der Zeit herauszuschneiden, die er zeigen
möchte. Wie wir gleich sehen werden, kann der Filmemacher im
Film Zeit und Raum absolut kontrollieren. Er kann so drastisch von
jeder Auffassung von Wiedergabetreue abweichen, daß der Begriff
im Grunde nutzlos wird.
c. Die Konstruktion von Zeit und Raum: Parallele, Wiederholte und
Vielfachbilder. Wie wir gesehen haben, kann der Filmemacher beliebig
lange Zeitabschnitte ausklammern, in dem er sie einfach nicht filmt
(oder sie aus dem Filmmaterial herausschneidet). Er kann auch zwei
Ereignisse, die örtlich getrennt voneinander verlaufen,
nebeneinanderstellen, ohne den sie trennenden Abstand
tatsächlich zu überwinden (zum Beispiel kann eine Szene in
New York unmittelbar auf eine Szene in Paris folgen). Auf diese Weise
kann er deutlich machen, daß die beiden Ereignisse, die
nacheinander gezeigt werden, eigentlich zur selben Zeit stattfinden.
Im Gegensatz zum Theater, das zumindest einige Ereignisse in Realzeit
zeigen muß, da ja die Schauspieler, die diese Ereignisse
darstellen, selbst nur in der Realzeit spielen können, ist der
Film in der Lage, nur jene Teile einer Szene auszuwählen, die
von Interesse sind. Diese Ökonomie, die das Wesen der Kunstform
Film ist, erlegt dem Medium, von dem der Betrachter weiß,
daß es eine Aufnahme vergangener Ereignisse darstellt, ihre
eigenen Bestimmungen auf.9
Indem der Filmemacher Bilder versammelt, die ursprünglich nicht
vom selben Ort oder Ereignis stammen, kann er ein Ereignis oder eine
Situation darstellen, die im Grunde nur in seiner und in der Fantasie
und der Wahrnehmung der Zuschauer existieren. Er kann dafür
sogar Bilder nehmen, die nur Bruchstücke von Szenen sind,
Bruchstücke, von denen niemand vor Porters epochemachender
Konstruktion The Life of an American Fireman aus dem Jahre 1903
geglaubt hätte, daß sie verständlich sein
könnten (Pratt, 1973). Seitdem ist es ganz normal geworden, Zeit
und Raum zusammenzuziehen, zu konstruieren oder gar auszudehnen. Wenn
im Film abwechselnd zwei Ereignisse gezeigt werden, die gleichzeitig
ablaufen sollen (der Zuschauer braucht einen Hinweis auf diese
besondere Situation, da er sonst annimmt, daß die Zeit einfach
weiterläuft (Arnheim, 1960, S. 21)), kann der Zuschauer sie ohne
Probleme verfolgen, genauso wie er die wechselnden Kapitel in den
Romanen von Edgar Rice Burroughs verfolgen kann. Im Film wie auch
beim Lesen einer Geschichte hängt die Interpretation sowie die
Einbettung eines Bildes in die Gesamtbedeutung vom Kontext ab. Die
zunehmende Anwendung von Bild-im-Bild-Darstellungen insbesondere in
pädagogischen Filmen, ermöglicht dem Zuseher einen
kompakteren Simultanvergleich. Es ist jedoch nicht gesagt, daß
sich hier neue theoretische Fragen ergeben.
Die wichtigsten Eigenschaften der filmischen Kommunikation, jene, die
nur auf den Film zutreffen und auch für die
Wahrnehmungspsychologie von Bedeutung sind, haben nichts zu tun mit
dem Gebrauch von Rückblenden und Parallelhandlungen. Diese gibt
es auch in der Literatur. Die wahrnehmungstheoretisch einzigartigen
Eigenschaften des Films ergeben sich zum ersten aus der Tatsache,
daß die Kamera sich gegenüber einer Szene bewegt,
während der Betrachter seine Position gegenüber der
Leinwand oder dem Bildschirm nicht verändert, und zum zweiten
aus der massiven Anwendung diskontinuierlicher Schnitte zwischen
Szenen, die örtlich oder/und zeitlich voneinander getrennt sind.
Wir werden diese nun nacheinander besprechen.
II. ÜBER KAMERABEWEGUNGEN UND DIE DARSTELLUNG VON RAUM
Wie wir gesehen haben, erwachsen aus der Tatsache, daß sich die
Kamera frei bewegen und ihren Standpunkt abrupt verändern kann,
vier Effekte: Erstens wird Tiefe im Raum geschaffen. Zweitens
konstruiert eine Art mentales Auge einen Raum, der um ein Vielfaches
größer sein kann als der auf der Leinwand dargestellte
Ausschnitt. Drittens entstehen für den feststehenden Betrachter
Schwierigkeiten bei der Bestimmung relativer Bewegungsrichtung. Und
viertens kann visuelles Interesse leicht aufrechterhalten werden.
Zuerst wenden wir uns den Haupttypen der Kamerabewegung zu und deren
Informativität bezüglich räumlicher Tiefe.
A. Die verschiedenen kontinuierlichen Bildwechsel und deren
unterschiedliche räumliche Information: Bewegungsperspektive,
dynamische Verdeckung und transformationale Invarianten
Schon Leonardo Da Vinci wies in seiner Analyse der Tiefenperspektive
im Bild darauf hin, daß das feste Bild keine
bewegungsabhängigen Informationen über Entfernungen liefern
kann. Bei der Wahrnehmung von statischen Bildern ist also immer eine
gewisse Mehrdeutigkeit, wie auch eine Toleranz gegenüber
Verzerrungen vorhanden, die im Film wahrscheinlich nicht anzutreffen
sind. Es ist bekannt, daß der Zuschauer für einige
Informationen über die visuelle Welt, die sich in den
Transformationen sich bewegender Muster auf einer Leinwand oder einem
Bildschirm widerspiegeln können, empfänglich ist (vgl.
Green, 1961; Braunstein, 1966, 1968). Über die Gültigkeit
der statischen Gestaltgesetzte, durch die bestimmt ist, wie
versteckte Figuren entdeckt werden oder eben nicht, gibt es in den
Transformationstheorien wie zum Beispiel der Gibsons keine Hinweise.
Man trifft auf Bemerkungen wie "das Tier muß sich nur bewegen
und seine Tarnung ist dahin", die andeuten, daß die
traditionellen Erklärungen zu beschränkt sind. Die Sache
ist allerdings nicht so klar, wie es scheint, insbesondere wenn es um
kurze Einstellungen geht.
Schon der bloße Fakt, daß in der Animation - wenn
möglich - Objekte auf ihre einfachsten Formen und Muster
reduziert werden (Caldwell, 1973) legt nahe, daß mit der
Bewegungsparallaxe nicht automatisch Klarheit geschaffen wird.
Des Vogels Tarnung durch Farbe und Umgebung
wären völlig nutzlos, wenn er sofort als erkennbares,
stillsitzendes Objekt durch den sich bewegenden Jäger
wahrgenommen würde. Um das ganze auf den Punkt zu bringen, es
gibt Laborversuche, die zeigen, daß gerade statische Faktoren
entscheidend sein können, selbst wenn andere Informationen
über Entfernungen durch Bewegung erlangt wurden. Beispielsweise
scheinen die Teile eines Necker-Würfels unter normalen
Bedingungen zueinander zu gehören (gute Fortsetzung). Dadurch
entsteht das vertraute dreidimensionale Aussehen des Würfels.
Wenn dieser Würfel nun aber derart auf Glasplatten gelegt wird,
daß seine Teile in unterschiedlichen Entfernungen, ganz
unabhängig voneinander plaziert sind, sieht der Betrachter
anscheinend immer noch einen Würfel, selbst wenn er den Kopf
bewegt (Kopfermann, 1930). Oder wenn ein dreidimensionales Modell
eines Hauses in einen Bilderrahmen gesetzt wird, damit es wie ein
Bild aussieht, so ist es in einem Film, der Bewegung enthält,
von einem flachen Bild desselben Hauses nicht zu unterscheiden
(Hochberg, 1962). Am spannendsten ist wohl das Beispiel des
Ames-Fensters, wo die statische Linearperspektive sich gegenüber
der tatsächlichen Form und Bewegung durchsetzt, woraufhin
erstere nicht korrekt und letztere absolut falsch wahrgenommen wird
(Ittelson, 1952). Schließlich haben Hershberger und Starzec
(1974) gezeigt, daß die Information, die dem Auge durch die
Geometrie der Bewegungsparallaxe und -perspektive potentiell zur
Verfügung steht, in ihre Komponenten zerlegt werden kann,
daß der Betrachter aber diese Komponenten nicht
gleichmäßig verwendet. Inzwischen sollte deutlich geworden
sein, daß keine rein mathematische Analyse der potentiell
verfügbaren Informationen in der filmischen Anordnung (bzw. in
der Reizkonstellation, mit der das sich bewegende Betrachterauge
konfrontiert ist) die Untersuchung jener Informationen, die der
Zuschauer tatsächlich benutzt, sowie der damit verbundenen
Bedingungen ersetzen kann.
1. Senkrechtfahrt, Parallelfahrt, Schwenk und Zoom:
Potentielle Bewegungsinformation über den dreidimensionalen
Raum
Kamerabewegungen können in zwei Kategorien eingeteilt werden. Es
gibt jene, die seitliche Bewegungen der Szene auf Leinwand oder
Bildschirm erzeugen - Schwenk und Parallelfahrt, wie in Abbildung 4
(a) bzw. 4 (b) dargestellt -, und jene, die
Größenveränderungen bewirken - Aufnahmen mit Zoom und
Senkrechtfahrt, wie in Abbildung 4 (c) bzw. 4 (d). Innerhalb dieser
Kategorien liefert jeweils eine der beiden Bewegungen
Bewegungsinformationen über die Tiefenrelationen, während
die andere dies nicht tut. (Diese Begriffe werden hier als
spezifische Fachtermini gebraucht, sollten aber trotzdem auch
für Filmemacher verständlich bleiben.)
Abb. 4
Abb. 4. Die verschiedenen Kamerabewegungen.
(a): Der Schwenk. Die Kamera schwenkt auf ihrem Stativ von links nach
rechts. Man beachte, daß innerhalb der Szene keine relativen
Bewegungen stattfinden und daß das, was im einen Bild verdeckt
ist, im nächsten auch verdeckt bleibt. (b): Die Parallelfahrt.
Die Kamera fährt von links nach rechts parallel zur Treppe (im
rechten Winkel zur Blickrichtung des Objektivs). Vgl. diese Sequenz
mit dem Schwenk in (a). Wir haben einen Gradienten der
Bewegungsperspektive innerhalb der Szene, und Objekte, die im einen
Bild verdeckt sind, werden in den anderen sichtbar. (c): Der Zoom.
Die Brennweite des Objektivs wird von Weitwinkel zu Teleobjektiv
vergrößert, und wir erhalten Bilder von der Totalen bis
hin zur Nahaufnahme. Wir haben es wiederum nur mit einer
Vergrößerung zu tun, nicht aber mit relativer Bewegung von
einem Bild zum nächsten. (d): Die Senkrechtfahrt. Dieser
Terminus steht hier für die Bewegung der Kamera in die Szene
hinein oder aus ihr heraus und zwar entlang der Achse des Objektivs.
Wenn man diese Sequenz mit dem Zoom in (c) vergleicht, stellt man
fest, daß hier - wie in (b) - relative Bewegung innerhalb der
Szene von Bild zu Bild stattfindet.
Die Kamera kann ihr Objektiv über eine Szene gleiten lassen,
indem sie sich auf einer Schiene rechtwinklig zur Blickrichtung des
Objektivs bewegt - in der Parallelfahrt (Abbildung 4 (b)) -, oder sie
kann sich um die Achse eines festen Punktes drehen - beim Schwenk
(Abbildung 4 (a)). Bei der Betrachtung der beiden Bildfolgen stellen
wir fest, daß bei beiden Methoden zwar dieselben Elemente der
Szene beteiligt sind, im Schwenk aber keine Bewegungsparallaxe
auftritt. Die Abstände zwischen den Objekten haben keinen
Einfluß auf deren relative Position in den aufeinanderfolgenden
Einzelbildern des Schwenks. In ähnlicher Weise verschafft uns
die Bewegung bei der Senkrechtfahrt in Abbildung 4 (d) reichlich
Information über den Abstand zwischen den dargestellten
Objekten. Hier bewegt sich die Kamera auf einer Schiene in das Bild
hinein, wohingegen in der Bildfolge, die bei einem Zoom produziert
wird, das Dargestellte nur unterschiedlich vergrößert wird
(Abbildung 4 (c)).
Senkrecht- und Parallelfahrten enthalten also das gesamte Spektrum an
Tiefeninformationen bezüglich der Position der Gegenstände
in einer Szene. Der Zuschauer erhält sämtliche
Informationen (außer jenen des Gleichgewichtssinnes im Ohr und
anderer Körperempfindungen), die er zusätzlich erhalten
würde, wenn er die Route, die von der Kamera verfolgt wird,
tatsächlich abschreiten würde. $e In der Tat, wenn das
Blickfeld sehr groß ist (wie zum Beispiel bei Cinerama
3D-Projektionen, oder wenn man nah an einem Breitwandbild sitzt),
interagiert das periphere Sehen des Zuschauers mit seinem
Gleichgewichtssinn (was laut den Untersuchungen von Held, Ditchgans
& Bower, 1975 und Wist et al., 1975 auch passieren muß).
Der Zuschauer meint dann, sich zu bewegen.
Für die Herstellung von Parallel- und Senkrechtfahrten muß
der Filmemacher allerdings gleitende Kamerabewegungen
ermöglichen und das Set so einrichten, daß es derartige
Bewegungen erlaubt. Oft ist dies unmöglich, und immer ist es
teuer. Aus diesem Grunde werden oft Schwenk und Zoom (bei dem einfach
die Brennweite des Objektivs einer stationären Kamera
verändert wird) eingesetzt. Einerseits können so die
Informationen über die gesamte Szene fließend eingefangen
werden (einschließlich Totale und Nahaufnahmen sowie weit
auseinanderliegende Teilszenen innerhalb einer einzigen
zusammenhängenden Aufnahme). Andererseits wird visuelle Bewegung
auf dem Bildschirm erzeugt (was, wie wir weiter unten (S. $f-$g)
sehen werden, aus anderen wahrnehmungstheoretischen Gründen
erstrebenswert ist). Von einem Gibsonschen Standpunkt aus betrachtet
müssen diese Hilfsmittel aber schlimmer sein, als wenn man gar
keine Information vermittelt, da gerade das Fehlen der
Bewegungsparallaxe schon eine Information an sich ist, und zwar
darüber, daß alle Teile der Szene in derselben Ebene
liegen. Dadurch müßten Schwenk und Zoom an sich schon
platter aussehen als eine entsprechende stationäre Aufnahme.
Nichtsdestotrotz werden Schwenk und Zoom viel benutzt, und bestimmt
kommen sie öfter zum Einsatz als Kamerafahrten. Herauszufinden,
was genau die negativen Wirkungen dieser beiden Techniken sind, und -
sollte es welche geben - wie sie minimiert werden können, ist
Aufgabe der Forschung. Diese Forschung wäre nicht nur
interessant für Filmemacher, sondern sie würde auch dem
Wahrnehmungspsychologen bemerkenswerte Informationen liefern. Denn
wenn man, wie Brunswik (1956) - ohne großen Erfolg -
kritisierte, mit sehr beschränkten Reizanordnungen beginnt, zum
Beispiel mit Punkten auf einer Kathodenstrahlröhre, um sie dann
allmählich zu gegenständlicheren Darstellungen aufzubauen,
macht man seine Forschung der eigenen Theorie über die
Wirksamkeit bestimmter Informationen untertan. Dahingegen garantiert
der Einsatz von filmischen Aufnahmen realer Szenen wenigstens ein
Minimum ökologischer Repräsentativität. Die Tatsache,
daß Filmemacher Schwenk und Zoom meist so behandeln, als wenn
sie mit den Fahrten problemlos austauschbar wären, zeigt schon
daß einiger theoretischer Ärger in Sicht ist.
Natürlich gibt es auch andere Gründe als den Wunsch, Tiefe
im Bild zu erzeugen, die den Filmemacher dazu veranlassen, diese
Techniken zu verwenden. Und diese anderen Gründe mögen so
wichtig sein, daß der Verlust der Tiefeninformation trivial
dagegen erscheint. Zwei von ihnen sollen hier besprochen werden:
erstens die Konstruktion von Raum durch sukzessive Darstellung und
zweitens die Motivierung visueller Aufmerksamkeit.
B. Der Raum jenseits der Leinwand und der sich vermeintlich bewegende
Beobachter
Ganz deutlich zu erkennen bei Schwenk und Parallelfahrt (und
vielleicht weniger offensichtlich doch ebenso zutreffend bei Zoom und
Senkrechtfahrt) ist das Vermögen des Films, visuelle
Informationen über eine Szene oder eine Anordnung zu liefern,
die vielfach größer ist als die Leinwand bzw. der
Bildschirm (vgl. Burch, 1973). Teile der Szene oder des Objekts
werden nacheinander auf der Leinwand gezeigt und können so im
Verlaufe kurzer Zeit zu einem Gesamtbild des Raumes
zusammengefügt werden.
Von besonderem Interesse für den Wahrnehmungspsychologen ist
hier der Fakt, daß diese Methode einer Aufgabe gleicht, die wir
viele Male in jeder Minute eines jeden Tages verrichten, und es ist
sehr wahrscheinlich, daß uns die Einsicht in das Wesen und die
Grenzen des Raumes jenseits der Leinwand sich für das
Verständnis dieses alltäglichen Vorganges als nützlich
erweist. Unsere Fovea, mit der wir klar und scharf sehen, deckt nur
einen sehr kleinen Teil unseres Gesichtsfeldes ab. Wenn wir die
visuelle Welt mit Hilfe unserer Fovea erfahren, indem wir unsere
Augen und unseren Kopf bewegen, müssen wir die visuellen
Teilinformationen einzelner Blicke zu einem Ganzen zusammenfügen
und so unsere Wahrnehmung der Welt konstruieren.
Welche Regeln gelten bei der Verknüpfung (Integration) der
einzelnen aufeinanderfolgenden Blicke?
1. Das klassische Problem von Kompensation und Reafferenz
Ein Erklärungsansatz, der seit Helmholtz und James diskutiert
wird, behauptet, daß entweder die efferenten10
Signale, die die Muskelkontraktion für die Blickveränderung
auslösen, entscheidend für die Interpretation wechselnder
visueller Informationen sind, oder aber die afferenten Signale, die
von den Muskeln selbst abgegeben werden. Für diese "Kompensation
visueller Führung" gibt es einige Vorschläge bezüglich
ihrer spezifischen Form (Festinger, Ono, Burnham, & Bamber, 1967;
Held, 1961; Holst, 1954). Es gibt zahlreiche Untersuchungen zu dieser
Frage, doch haben wir noch keine klare Antwort darüber, wie
solche nichtvisuelle Information über Augenbewegungen gebraucht
wird.
Auf jeden Fall steht fest, daß wir die visuelle Information,
die uns von der veränderlichen Kamera geliefert und auf einer
stationären Leinwand oder Fernsehbildschirm vorgeführt
wird, verstehen können. Diese Tatsache beweist, daß
nichtvisuelle Informationen über Augenbewegungen und -richtungen
nicht notwendig sind, um das Wahrnehmungsproblem zu lösen.
Obschon die Kamera selbst sich ja im Grunde unbegrenzt bewegen und
ihre Position verändern kann, ist die Projektion normalerweise
auf eine kleine Fläche beschränkt, nämlich auf die
Leinwand beziehungsweise den Fernsehbildschirm. Dies bietet dem
Filmemacher (und dem Wahrnehmungspsychologen) interessante
Möglichkeiten, bringt aber auch Schwierigkeiten mit sich. Ob die
Kamera nun erhöht aufgebaut wird, um einen Berg hinauf oder
hinunterzuschauen, oder ob sie etwas von links, rechts oder
gegenüber Kommendes aufnimmt - der Zuschauer erlebt die
Begegnung jedesmal frontal. Weiterhin kann die Brennweite der Kamera
verändert werden, und das Bild kann ein kleines Objekt in
Nahaufnahme oder ein großes in der Ferne (oder mit anderer
Brennweite ein kleines Objekt in der Ferne) zeigen. Der Abstand des
Betrachters von der Leinwand bleibt aber immer unveränderlich,
und die räumlichen Informationen, die er normalerweise benutzt,
werden ihm nichts anderes angeben. Oder, was für uns hier am
wichtigsten ist, die Kamera kann zu unterschiedlichen Zeiten in
unterschiedliche Richtungen schauen, die aufgenommenen Szenen werden
aber immer frontal gesehen.
Das einzige, was uns die genaueste nichtvisuelle Information
über unsere Blickrichtung vermitteln kann, ist, daß alle
aufeinanderfolgendenen Bilder in einem Film an derselben Stelle (auf
der Leinwand) erscheinen. Wir brauchen aber mehr, um die Integration
von sukzessiver visueller Information im Film zu erklären. Und
es scheint zweckmäßig anzunehmen, daß die Erhellung
dieses Vorgangs uns auch beim Verständnis der Integration der
Blickfolgen, die wir von der Welt alltäglich erlangen, helfen
wird.
Hierfür gibt es zwei alternative Ansätze. Der erste hat den
Vorteil, daß er recht präzise formuliert werden kann,
wohingegen der zweite sich noch in einer etwas
unzusammenhängenden, sich ausprägenden Phase befindet. Wir
wollen sie im folgenden besprechen.
2. Optische Kinästhesie als Alternative zu nonvisueller
Propriozeption11
Gibson (1954b) schlug für die Reaktion auf die Bilder, die wir
beim Betrachten der Welt erhalten und die sich mit der Zeit
verändern, folgendes vor. $o Wir extrahieren aus den
fortlaufenden Transformationen im Netzhautbild die invariante
Struktur (diese spiegelt die Struktur der stationären
Oberflächen in der Welt wider). Weiter oben haben wir diesen
Vorschlag schon in Verbindung mit der Wahrnehmung von Bewegung
besprochen. An dieser Stelle interessiert er uns, weil er eine
Alternative zur nichtvisuellen Information über die
Blickrichtung liefern könnte.
Wir können hier drei Fragen stellen:
1. Können wir direkte oder indirekte Beweise finden, die obige
Annahme bestätigen?
2. Haben wir es, wie Gibson meint, mit einem Vorgang direkter
Wahrnehmung zu tun, also mit autonomer Diskriminierung der
informativen Reizvariablen höherer Ordnung, die potentiell
direkte Informationen über Bewegungen und die zugrundeliegende
Struktur liefern?
3. Wird die Theorie in der Lage sein zu verdeutlichen, wie wir den
Raum jenseits der Leinwand - den Raum im geistigen Auge (Hochberg,
1968) - konstruieren? Dies ist ja der Bereich, in dem (zumindest)
Filme hauptsächlich ablaufen.
Wir werden zur ersten Frage, der Überprüfbarkeit des
Modells, zurückkehren, nachdem wir das Spektrum des zu
Erklärenden betrachtet haben. Was die zweite Frage betrifft, ob
der Vorgang als automatisches Informationssammeln gesehen werden
sollte, oder ob die Absichten des Zuschauers (und jene mentalen
Strukturen, die er zum Einsatz bringen kann), in die Erklärung
eingefügt werden müssen, so können wir feststellen,
daß eine Wahl diesbezüglich nicht wirklich möglich
ist, solange wir nur Filmsequenzen untersuchen, in denen alle
Bildwechsel kontinuierlich sind.12
Wir werden also zunächst die dritte Frage näher
untersuchen, nämlich ob die Theorie prinzipiell den Raum im
geistigen Auge erklären kann.
Gibson nimmt an, daß wir lernen, jene Eigenschaften einer
Umgebung, die von einem Ort zum anderen führen - die Sequenzen
visueller Transformation - als vierdimensionale Invarianten zu
unterscheiden. Es ist allerdings schwer, einzusehen, wie diese
Beschreibung wirklich erklären soll, wie wir einen Raum, der
manipuliert werden kann, und durch den wir Abkürzungen nehmen
können, extrahieren können. Solche Abkürzungen
können einfach demonstriert werden. Nehmen wir beispielsweise
folgende Versuchsanordnung. Das Bild eines Kreuzes wird
stückchenweise so abgebildet, daß jedesmal nur ein Winkel
in Nahaufnahme gezeigt wird, und zwar so, daß die
Kamerabewegung kontinuierlich entlang des Umfanges der Figur
entlangläuft. Bevor die Kamera das Umkreisen beendet hat, also
bevor sie den letzten Balken erreicht hat, macht sie nun eine
Abkürzung vom vorletzten zum ersten Balken des Kreuzes. Der
Betrachter wird diese Abkürzung sofort als solche erkennen
(insbesondere, wenn der Sequenz eine Totale vorausging. (Hochberg,
1968); vgl. S. $h). $m Es ist offensichtlich, daß es schwer
ist, über derartige Phänomene zu sprechen, wenn man nicht
eine Art kognitive Karte in die Diskussion bringt. Eine solche Karte
kann man sich räumlich und analog vorstellen, aber auch als
Merkmalsliste (Pylyshyn, 1973). Eine andere Möglichkeit
wäre ein Set kontingenter Erwartungen oder "sensomotorischer
Pläne", d.h. Vorraussagen darüber, was der Betrachter sehen
würde, wenn er zu diesem oder jenen Punkt des Objektes oder der
Szene schauen würde (Hochberg, 1968, 1970).
Wir werden zu dieser Frage, der Beschaffenheit und der Entwicklung
des mentalen Inhalts, zurückkehren, wenn wir jene Methode im
Film eingeführt haben, die diese Problematik am eindringlichsten
ans Licht bringt, nämlich den Filmschnitt.
III. ÜBER DISKONTINUIERLICHE SCHNITTE UND DEREN AUSWIRKUNGEN AUF
MENTALE STRUKTUREN SOWIE AUF DEN VISUELLEN ANREIZ
A. Die verschiedenen diskontinuierlichen Bildwechsel (Schnitte) und
ihre Anwendung im Film
Ein Schnitt ist der Wechsel vom Ende der einen Einstellung zum Beginn
der nächsten. Doch bevor wir die Wahrnehmung von Schnitten
besprechen, wollen wir zunächst die Einstellungen, zwischen
denen Schnitte gemacht werden, klassifizieren, um ihre Anwendung ein
wenig beschreiben zu können und eine Terminologie
einzuführen.
1. Klassifizierung und Terminologie
Eine Einstellung ist ein Einzellauf der Kamera und der daraus
resultierende Film. Wenn dies die Einheit der Filmkonstruktion sein
soll, lassen sich die Hauptunterschiede zwischen einzelnen
Einstellungen wie folgt beschreiben.
a. Die Größe des Objekts innerhalb des Bildes. Dies ist
ein Hauptkriterium. Zur Beschreibung benutzt man gewöhnlich
Weit, Total, Halbtotal, Amerikanisch, Halbnah, Nah, Groß und
Detailaufname (vgl. Abbildung 413).
Entscheidend ist dabei normalerweise die Brennweite des Objektivs.
Die verschiedenen "perspektivischen Verzerrungen", wie wir sie von
statischen Bildern her kennen, treten hier auf und werden von
entsprechenden "Geschwindigkeitsverzerrungen"
begleitet.14
$a
b. Einstellungswinkel. Ein Ereignis kann sich über mehrere
Einstellungen hinweg abspielen, zum Beispiel wenn die Kameraposition
während eines ablaufenden Ereignisses von einem Blickwinkel zu
einem anderen, nicht allzu weit entfernten hinüberschneidet.
Dies ist ein einfacher Einstellungswechsel. Wenn sich der
Kamerablickwinkel aber um beinahe 180° verändert, handelt
es sich um einen Wechsel von Schuß zu Gegenschuß. (Bei
Veränderungen, die über 180° hinausgehen, spricht man
davon, daß "über die Kameraachse gesprungen" wird. Aus
Gründen, die wir weiter unten erörtern werden (S. $i),
verursachen diese Sprünge oft Verwirrung).
c. Anwendung des Schnitts. Ein Schnitt zwischen zwei Einstellungen
wird aus verschiedenen Gründen gemacht. Beispielsweise kann man
Ereignisse zeigen, die länger dauern, als man sie mit einem Mal
auf der Leinwand darstellen kann (oder Ereignisse, die nicht an einem
einzigen Ort stattfinden). Zudem kann man ergänzende
Informationen geben, einen Rhythmus unterlegen und die Aufmerksamkeit
des Zuschauers fesseln. Außerdem gibt es natürlich auch
Schnitte rein technischer oder zufälliger Natur, die uns hier
aber nicht weiter interessieren sollen.
Im folgenden werden wir die Anwendung des Schnitts bei der
Darstellung von einzelnen Begebenheiten innerhalb eines
größeren Ereignisses besprechen und einige weitere Termini
einführen.
Abb. 5. Diskontinuierliche Wechsel (Schnitte).
Die zeitliche Abfolge ist jeweils von oben nach unten (siehe
Text).
Da der Betrachter die Bildfolge ja nicht selbst hergestellt hat, wird
meist eine einführende Einstellung benutzt, um ihm einen
generellen Überblick über Zeit, Ort und Situation usw. zu
geben. In einer Totalen kann der Betrachter die Beziehungen zwischen
Objekten erkennen, die in späteren Aufnahmen detaillierter
gezeigt werden. Mit einem Schnitt zu einer Halbnahen und dann zu
einer Nahaufnahme kann die Aufmerksamkeit des Betrachters gezielt
gelenkt werden. Die Einzelheiten, die in der Totalen nicht entdeckt
werden, können nun in der Nahaufnahme hervorgehoben werden (dies
gilt insbesondere für das Fernsehen, wo wir es ja mit einem sehr
kleinen Bildschirm und zudem einer schlechten Auflösung zu tun
haben). Wenn eine Sequenz schon eine Weile gelaufen ist, und
insbesondere nach einem Cutaway, der den Verlauf anderer Ereignisse
an einem anderen Ort (normalerweise eine Parallelhandlung)
erzählt, kann eine unterstützende Einstellung (wiederum in
der Regel eine Totale) eingefügt werden. Eine Folge kurzer
Einstellungen, die oft einen bestimmten Rhythmus und einen
beschleunigenden oder verlangsamenden Fluß aufweist, nennt man
Montage.
B. DIE VERKNÜPFUNG (INTEGRATION) DISKONTINUIERLICHER SUKZESSIVER
BILDER DURCH DEN BETRACHTER $b
1. Vergleich zum Sehen in Sakkaden
In vielen Fällen verändert sich der Blickwinkel der Kamera
kaum. Die aufeinanderfolgenden Bilder überlappen dann
gehörig (vgl. Abbildung 6). Da auch kleine Sakkaden, d.h.
schnelle seitliche, sprunghafte Augenbewegungen, überlappen,
können wir jene Erklärungen sakkadischer Integration, die
ausschließlich auf visueller Information basiert sind, auch
für überlappende Schnitte benutzen.
Abb. 6. Zwei sich überlappende Ansichten
derselben Szene. (a): Die Abschnitte, die durch die beiden Positionen
der Kamera abgedeckt werden. (b, c): Die beiden Bilder, die
nacheinander auf der Leinwand gezeigt werden. (d): Der
Verschiebungsvektor, der für alle Punkte innerhalb des Bilds
gilt, wenn (c) auf (b) folgt.
Wie wir weiter oben gesehen haben, behaupteten
Gibson und Johansson, daß der Wahrnehmungsapparat direkt auf
die Invariante in einer veränderlichen Anordnung reagieren kann.
Dieser Vorschlag war ursprünglich aus der Untersuchung von
Phänomenen kontinuierlicher Transformationen erwachsen. In einer
Sakkade ist die Transformation jedoch eine genaue
Parallelverschiebung (Translation) - beispielsweise in Richtung des
Pfeil in Abbildung 6 (d). Wird dies entdeckt und daraufhin
unberücksichtigt gelassen, wird die scheinbare räumliche
Position des gemeinsamen Ausschnitts der beiden Bilder durch die
Verschiebung nicht verändert. Weiterhin führt die exakte
Translation der nichtüberlappenden Bildteile dazu, daß
diese automatisch ihrer ungefähren Position in der
Gesamtbildfläche zugeordnet werden. In Johanssons Worten
hieße dies, daß der Wahrnehmungsapparat den gemeinsamen
Vektor aller Elemente der Gesamtbildfläche extrahiert. Der
Vektor stellt sozusagen den Rahmen (die Translationsbewegung des
Blickes). Gibt es keine anderen Vektoren, erscheint die Szene trotz
der Veränderung im Netzhautbild stationär (Johansson, 1950,
1974). Diesen Vorschlag haben wir keineswegs speziell für
Veränderungen, wie sie in Abbildung 6 zu sehen sind, erdacht.
Sie sind den Phänomenen, mit denen Johansson begonnen hatte, wie
z.B. jene in Abbildung 3(d), sehr ähnlich. Bevor wir diese
Vorschläge jedoch ernsthaft zu Rate ziehen, muß
festgestellt werden, ob die Grundphänomene selbst wirklich
diesen Annahmen entsprechen, oder ob sie vielleicht nur Nebenprodukte
der Augenbewegung sind (z.B. könnte es sich in Abbildung 3 (d)
auch um eine unkompensierte Verfolgung durch das Auge entlang des
horizontalen Pfeils handeln, wie Stoper (1973) vorgeschlagen hat).
Tatsache ist, daß wir inzwischen Beweise dafür haben,
daß diese Phänomene durchaus nicht nur Nebenerscheinungen
sind (Hochberg & Fallon, 1976). Wir müssen aber auch
nachweisen, daß die Phänomene nicht nur bei
kontinuierlicher Bewegung, sondern ebenso bei einer Folge separater
Bilder auftreten (letztendlich sind sakkadische Blicke und
diskontinuierliche Schnitte ja nichts anderes). In der Tat, das
Johanssonsche Phänomen tritt auch bei der saltatorischen
Präsentation statischer Bilder bei einem Tempo von 6 Bildern pro
Sekunde auf (Hochberg, Fallon, & Brooks, 1977). Daher scheint es
nicht zu weit hergeholt zu sein, den Vorschlag zu akzeptieren, nach
dem wir überlappende, aufeinanderfolgende Einstellungen
zusammenbringen, indem wir die Invariante in der Transformation
herausfiltern. Es wird sich jedoch erweisen, daß diese
Formulierung in vielerlei Hinsicht nicht ausreichend ist. Sie reicht
nicht aus, da sie uns nichts über die Eigenschaften des Raumes
im geistigen Auge sagt. Außerdem erlegt sie der Art der
Reizinformation keine Grenzen auf. Dasselbe gilt für die
Aufgaben des Wahrnehmenden. Wenn diese Erklärung so gelten
würde, wie sie oben steht, wären alle überlappenden
Schnitte gleich gut, was deutlich nicht der Fall ist, wie wir gleich
sehen werden.
2. Schlechte Schnitte - Die Grenzen der Transformationstheorie
Natürlich gibt es unzählige Weisheiten darüber, was
ein Schnittmeister tun muß, damit Schnitte verständlich
sind. Sehen wir uns einige der Faustregeln an (vgl. Reisz &
Millar, 1968; Vorkapich, 1972), und betrachten wir die Forschung auf
diesem Gebiet. Anschließend wollen wir erörtern, in
welches Modell unsere Beobachtungen integriert werden
können.
Es gibt im wesentlichen vier Arten von Faustregeln:
1. Der Betrachter sollte schon das erwarten, was ihm nach dem Schnitt
auch gezeigt wird (Reisz & Millar, 1968).
2. Der Schnitt sollte nicht mitten in einer Bewegung kommen, sondern
zu Beginn oder am Ende der Bewegung stattfinden (Reisz & Millar,
1968).
3. Ein Wechsel von einer Brennweite zu einer anderen sollte merklich
groß sein (z.B. Totale zu Halbnah), nicht nur eine
geringfügige Veränderung (Reisz & Millar, 1968).
4. Achsensprünge (vgl. Abschnitt III, A, 1) sind schwer
verständlich. (Reisz & Millar, 1968; Vorkapich, 1972).
Die erste Regel betrifft kognitive Fragen. Wir werden später
darauf zurückkommen und untersuchen, warum die Regel nötig
ist. Die übrigen Regeln sind eher mechanischer Natur. Sie werden
meist nicht als unantastbare Verbote, sondern als
Vorsichtsmaßregeln betrachtet, die vermeiden sollen, daß
der Zuschauer ohne weiteres Zutun seitens des Filmemachers etwas als
unverständlich und ungereimt empfindet.
Wir sind der Ansicht, daß die meisten oder sogar alle
schlechten Schnitte genau zwei Dinge gemeinsam haben. Sie verursachen
zum einen eine anfängliche Verwechslung eines Objektes mit einem
anderen und zum anderen eine Scheinbewegung von einem Bild zum
nächsten, die sich von der Richtung der Kamerabewegung
unterscheidet. Natürlich können auch andere Faktoren eine
Rolle spielen. Beispielsweise haben Shepard und seine Kollegen
(Cooper & Shepard, 1973, 1976; Shepard & Judd, 1976; Shepard
& Metzler, 1971) gezeigt, daß für eine "mentale
Rotation" Zeit benötigt wird. Das würde bedeuten, daß
die Zeit für das Verstehen eines Schnittes zwischen zwei Bildern
bei ansonsten konstanten Bedingungen proportional zum Winkel der
Kamerabewegung ist. Die Möglichkeit der Verwechslung (s.o.) ist
jedoch durchdringender und sie erfolgt schneller. Aus diesem Grunde
wollen wir diese Frage hier zuerst behandeln.
a. Objektverwechslung und Scheinbewegung über einen Schnitt
hinweg. Wie wir in unserer Diskussion der stroboskopischen Bewegung
(S. $j) gesehen haben, gibt es wahrscheinlich schnelle und von der
Form relativ unabhängige Reaktionen, $d die eine Scheinbewegung
produzieren zwischen Objekten egal welcher Form und Gestalt, welche
in aufeinanderfolgenden Bildern nah beieinander liegen. Eine kurze
Scheinbewegung in eine Richtung, die durch zwei Objekte, die in
aufeinanderfolgenden Bildern nah beieinander liegen, vorgegeben ist,
die sich aber von der Richtung der Kamerabewegung unterscheidet,
verursacht in der Regel einen kurzen Orientierungsverlust (vgl.
Vorkapich, 1972). Betrachten wir einen konkreten Fall, wie zum
Beispiel einen Achsensprung wie in Abbildung 5(a). $i Nach einer
geruhsamen Betrachtung ist uns völlig klar, daß der
Kamerastandpunkt verändert wurde. Beim ersten, flüchtigen
Blick aber identifiziert man den Mann x des ersten Bildes mit der
Frau y im zweiten Bild und die Frau y im ersten mit dem Mann x im
zweiten Bild. Man nimmt die Kamerabewegung zunächst nicht
wahr.
Vor demselben Hintergrund können auch andere schlechte Schnitte
erklärt werden. Bei einer zu geringfügigen Veränderung
der Brennweite entsteht eine Scheinbewegung zwischen den Umrissen der
aufeinanderfolgenden Bildern desselben Objekts (hinein ins oder
hinaus aus dem Bild).15
Es gibt nicht wenige Phänomene, die dieses Modell
unterstützen würden. In Bildfolgen wie in Abbildung 5 (b)
stellen Betrachter Bewegungen nach links fest, wenn ihnen die Bilder
nur kurz gezeigt werden (333ms pro Ansicht). Wenn sie die Muster
länger betrachten können, sehen sie eine Bewegung nach
rechts (Hochberg & Brooks, 1974). Die daraus resultierenden
Anweisungen für den Filmemacher liegen auf der Hand.
Wenn dieselbe Person oder derselbe Gegenstand in beiden Bildern
vorkommt, sollte deren Verschiebung (1) in die entgegengesetzte
Richtung zur Kamerabewegung erfolgen (Abbildung 5 (c)). Ist das
Hauptobjekt nach dem Schnitt ein anderes als im Bild vor dem Schnitt,
sollten die beiden Objekte weit entfernt voneinander liegen, und
weitere Hinweise bezüglich der Richtung des Schnittes sollten
gegeben werden. Filmemacher vermeiden oft den "Sprung", den eine
derartige Diskontinuität mit sich bringt, indem sie das neue
Objekt (oder dasselbe Objekt in einer neuen Umgebung) einrahmen, so
daß seine Umrisse durch den Schnitt so weit wie möglich
unberührt bleiben (vgl. Abbildung 5 (d)). Dadurch erspart man
sich zwar den Sprung, andererseits kann es natürlich nun auch
länger dauern, bis der Zuschauer merkt, daß sich etwas
verändert hat. Es scheint sinnvoller, dem Prinzip in Abbildung 5
(c) zu folgen, wo der Betrachter wenigstens die richtige Information
über die Richtung der Kamerabewegung erhält, wenn auch
nicht über ihr Ausmaß. Jedenfalls gilt, daß der
Filmemacher, wenn er nicht dem Prinzip in 5 (b) folgen kann, mehr
Zeit für das Betrachten jeder Einstellung einrechnen (d.h. eine
geringere Schnittfrequenz anwenden) sollte. (Mehr dazu auf Seite $k
f.). $p
Die Ergebnisse bringen für den Filmemacher zwar keine
spektakulären Einsichten, sie können aber eine Reihe sonst
scheinbar voneinander unabhängiger Hinweise und Faustregeln (von
denen einige gegen jede Intuition zu sprechen scheinen) sinnvoll
miteinander verbinden. Die Erkenntnisse für den
Wahrnehmungspsychologen sind dahingegen sehr ernst zu nehmen,
insbesondere wenn es sich um Wahrnehmungspsychologen handelt, die
große Hoffnungen auf Erklärungen in der
Transformationsschiene für die Integration aufeinanderfolgender
Bilder setzen.
b. Die begrenzte Anwendbarkeit vollständiger transformationaler
Information: Schnitte ohne auffällige Objekte und die Rolle von
Schemata. Wenn in einem Schnitt zwischen zwei Bildern die
kontrastreichen (jedoch nicht detaillierten) Elemente anfänglich
eine falsche Scheinbewegung provozieren (vgl. Abbildung 5 (b)), dann
könnten wir auch sagen, daß diese erste flüchtige
Reaktion ein Irrtum ist, der auf die künstliche Filmsituation
(im Gegensatz zum alltäglichen Wahrnehmungsprozeß)
zurückzuführen ist. Wir könnten die transformationale
Erklärung immer noch retten, indem wir darauf hinweisen,
daß - wie wir gesehen haben - diese vorläufigen
flüchtigen Informationen bei einem langsameren Schnittrhythmus
verdrängt und durch die tatsächliche Transformation
dominiert werden.
Abb. 7. Zwei überlappende Bilder desselben Labyrinths.
Die Erklärung genügt jedoch nicht. Wenn die Bildfolge aus
einem zufälligen Muster besteht, wie zum Beispiel bei dem
visuellen Labyrinth in Abbildung 7(a) oder wie in einem
zufälligen Punktmuster, kann der Betrachter immer noch die
Richtung einer sehr kleinen Verschiebung (etwa 3,5°) erkennen,
bei der ja die meisten Umrisse im zweiten Bild ihre Position
gegenüber dem ersten Bild kaum verändern. Die Kontrast- und
örtlichen Faktoren bleiben also ausschlaggebend. Bei einer
größeren Verschiebung hat der Betrachter keine Chance auch
nur einen Teil des Labyrinths wiederzuerkennen. Die
Richtungsbestimmung wird eine Frage des Zufalls (Hochberg, Brooks,
& Roule, 1977). Wir können also folgendes feststellen.
Obwohl die mathematische Transformation sowohl in einem Labyrinth als
auch in einer einfacheren und vertrauteren Anordnung, in der der
Betrachter seine Aufmerksamkeit auf einen auffälligen Gegenstand
richten kann, in jedem Punkt gleich präzise definiert ist,
reicht die mathematische Information über die Transformation,
sobald sie den Funktionsbereich der - nennen wir sie -
Bewegungsdetektoren für Minimalveränderungen (vgl.
Fußnote S. $l) überschritten hat, allein nicht aus. Der
Betrachter benötigt ein auffälliges Merkmal, an dem er die
Transformation festmachen kann, und an dem er seine Erwartungen
testen kann.
Kurz gesagt, weder die ersten flüchtigen noch die etwas
langlebigeren Effekte können in einem transformationalen Modell
erklärt werden. Doch welche Alternativen gibt es?
Gegenwärtig besteht die einzige Alternative in einem viel
weniger klaren Ansatz, der mit schematischen Karten oder
sensomotorischen Erwartungen, d.h. darüber, was ich sehen
würde, wenn ich in eine bestimmte Richtung blickte, arbeitet.
Diese These ist unserer Meinung nach überzeugender,
insbesondere, wenn die kognitiven Fähigkeiten in Betracht
gezogen werden, die bei der Wahrnehmung nichtüberlappender
aufeinanderfolgender Blicke eine Rolle spielen. In den meisten
Schnitten gibt es keine bemerkenswerten Überlappungen. Wenn wir
erklären können, wie der Betrachter hier die Bilder
integriert, sollten wir auch in der Lage sein, diese Erklärung
auf Bildfolgen mit Überlappungen anzuwenden.
3. Nichtüberlappende Bildfolgen
Bei wenigen Schnittstellen werden überlappende Einstellungen
miteinander verbunden. In der Tat, genau das, was viele
Filmtheoretiker (Colpi, 1966; Eisenstein, 1942; Godard, 1966;
Pudowkin, 1958; Spottiswoode, 1933) als das typischste filmische
Mittel betrachten - nämlich die Montage (vgl. Abschnitt III, A,
1) -, produziert Bildfolgen, die weder durch Überlappungen noch
durch gemeinsamen Hintergrund miteinander verbunden sind. Die
Transformationstheorie kann mit dieser Situation genauso wenig
umgehen wie der Ansatz der Reafferenz, den wir weiter oben schon
verworfen hatten. Betrachten wir die Bildreihe in Abbildung 8. Es ist
eine Bildsequenz mit einem Kreuz, das seinen Umfang in statischen,
nichtüberlappenden Segmenten umkreist. Wenn dem Betrachter nur
die Bilder 2 bis 12 gezeigt werden, sieht er entweder die sich
sprunghaft bewegenden Zeiger einer Uhr oder eine ebenso
unregelmäßige Bildfolge mit einem Viereck. Wenn es eine
einführende Einstellung für das Kreuz gäbe, d.h. wenn
die Reihe bei Bild 1 begänne, würde man die Sequenz viel
eher wie eine kontinuierliche Bewegung wahrnehmen (S. $m). So
würde der Betrachter bei Bild 10 in Abbildung 8 eine
Abkürzung über den rechten Balken des Kreuzes hinweg
sehen.
Abb. 8. Nichtüberlappende Bildfolge eines Kreuzes. $h
Ganz deutlich haben wir es hier mit einer mentalen Struktur zu tun.
Der Stimulus selbst liefert keinerlei Information über den
Zusammenhang der einzelnen Bilder, wenn der Betrachter nicht sein
Schema testen würde. Obwohl es keine sicheren Untersuchungen zu
diesem Problem gibt, scheinen zufällige Beobachtungen zu
bestätigen, daß dieser Vorgang recht langsam verläuft
(mindestens 200ms pro Bild). An diesem Punkt kommt die Frage der
stroboskopischen Bewegung wieder ins Spiel. Im folgenden wollen wir
versuchen, zumindest ansatzweise eine Alternative zum
Transformationsmodell zu entwerfen, die mit den gegenwärtigen
Mitteln machbar ist. $c
4. Die Komponenten der Filmwahrnehmung $k
Es können drei Arten von Vorgängen, die für die
Wahrnehmung von Filmsequenzen entscheidend sind, unterschieden
werden. Diese werden von bestimmten Faktoren, die wir zumindest grob
definieren können, bedingt. Wir werden im folgenden auch
versuchen, den zeitlichen Aspekt für diese Faktoren zu
erörtern.
a. Typ I. Schnelle reizabhängige Prozesse. Scheinbewegung, die
ja eindeutig mit Beta- und Phi-Bewegung verwandt ist, tritt auf
zwischen den Objekten, die sich nacheinander in aneinandergrenzenden
Flächen am nächsten liegen. Dies passiert sehr schnell.
Dabei wird ein kurzer flüchtiger Impuls ausgesendet (S. $n).
Wenn die Schnitthäufigkeit in einer Bildfolge im Verhältnis
zur Dauer dieser flüchtigen Impulse nicht zu groß ist (mit
einer SOA (Stimulusbeginn-Asynchronie) von 33-350 ms), bestimmen
diese Prozesse die Scheinbewegung. Wenn die SOA jedoch
größer ist, operieren die langsameren Prozesse (Typ II und
III). Möglicherweise passiert dies, weil der Betrachter mehr
Zeit hat, um sich von den flüchtigen Impulsen zu erholen. Da die
schnellen Prozesse im lokalen Bereich arbeiten (d.h. sie scheinen nur
zu wirken, wenn die Konturen der Objekte nicht weiter als 4°
voneinander entfernt liegen), und da sie darüber hinaus
unempfindlich gegenüber kleinen Einzelheiten sein können,
operieren sie oft zwischen Objekten, die einander nur sehr grob
ähneln.
b. Typ II: Langsame reizabhängige Prozesse. Die konkreten Formen
der Objekte spielen erst dann eine Rolle bei der Richtungsbestimmung
eines scheinbaren Ortswechsels, wenn die Zeit für die
Betrachtung eines Bildes lang genug ist (350-500 ms).
Möglicherweise kann etwas in der Art des Gibsonschen
Transformationsmodells (S. $o) für die Erklärung dieser
verhältnismäßig langsamen Prozesse herangezogen
werden. Es müßten jedoch gründliche Modifizierungen
vorgenommen werden. Die mathematische Übereinstimmung zwischen
Bildern oder Bildteilen allein ist für die Bestimmung der
perzeptuellen Invarianten in der Transformation unzureichend.
Die Bilder müssen auffällige Objekte
(landmarks) enthalten, die der Betrachter von Bild zu
Bild wiedererkennen kann. Gibt es diese Erkennungszeichen nicht, dann
rückt die Chance, daß der Betrachter die Richtung der
Verschiebung bestimmen kann, in folgendem Falle in den Bereich des
Zufälligen: nämlich dann, wenn der Abstand des verschobenen
Bildabschnitts zu einem anderen, entfernt ähnlichen
Bildabschnitt kleiner ist als sein Abstand zur Originalposition. Der
Betrachter wird hier Schwierigkeiten haben, zu sagen, welcher
Bildabschnitt sich in welche Richtung bewegt hat (Abbildung 7). Wenn
es aber ein auffälliges Kennzeichen in der Anordnung gibt, an
das sich der Betrachter halten kann, liegt die benötigte
Stimulusbeginn-Asynchronie sehr grob geschätzt um 500 ms pro
Bild. Diese Zahl hängt aber wiederum davon ab, wie
hervorstechend das Kennzeichen tatsächlich ist, d.h. wie lange
der Betrachter braucht, um es zu entdecken, und ob es plump genug ist
und sich hinreichend von seiner Umgebung unterscheidet, damit es eine
schnelle Basis (Typ I) für eine Scheinbewegung bilden
kann.16
In Anbetracht dieser Bedingungen ist es unmöglich, die
benötigten Zeiten guten Gewissens genauer zu bestimmen.
c. Typ III: Schnelle reizunabhängige (kognitive) Prozesse. Wenn
aufeinanderfolgende Bilder keine Objekte oder andere
Erkennungszeichen gemeinsam haben, wie das ja bei
nichtüberlappenden Schnitten der Fall ist, muß die
relative Lage der aufeinanderfolgenden Bilder mit Hilfe anderer
Mittel festgelegt werden. Zuerst muß der Betrachter
natürlich gewillt sein anzunehmen, daß ein Bild zur selben
räumlichen Anordnung gehört, die von den vorausgegangenen
Bildern (oder einem einzigen Bild) gezeigt wurde, und nicht einen
Schnitt zu einer anderen Szene birgt.17
Wenn der Zuschauer also annimmt, daß die nächste
Einstellung Teil desselben Ereignisses ist, muß er auch einige
generelle Erwartungen hegen bezüglich der Objektposition
verglichen mit der vorausgegangenen Einstellung (wenn eine
Einstellung beispielsweise eine Nahaufnahme eines nach rechts
blickenden Schauspielers zeigt, wird die nächste Einstellung in
der Regel dahingehend interpretiert, daß sie den Ort
präsentiert, wohin der Schauspieler geschaut hat). Zumindest
muß der Betrachter aber generelle Vorstellungen über den
Aufbau der Szene haben (zum Beispiel von einer einführenden
Totale gezeichnet, wie in Abbildung 8 gezeigt).
Diese Prozesse haben im Gegensatz zu den oben beschriebenen
längerfristige Auswirkungen (d.h. eine einführende
Einstellung kann eine lange Sequenz verschiedener Einstellungen
miteinander verknüpfen, wie zum Beispiel in Abbildung 8). Die
Zeit, die der Betrachter benötigt, um jede Einstellung einer
solchen Sequenz aufzunehmen, müßte in etwa mit der
für die langsamen reizabhängigen Prozesse (Typ II)
übereinstimmen. Doch die Vorgänge, die uns hier
interessieren, müssen nicht unbedingt visueller Natur sein. In
Abbildung 8 könnte man das Kreuz vermutlich auch mit verbalen
Mitteln kennzeichnen, vorausgesetzt der Zuschauer erhält auch
Hinweise über die Positionierung des Kreuzes im ersten Bild und
vorausgesetzt, er hat auch Zeit, (etwa 500 ms) um ein mentales Bild
des Kreuzes, eine Merkmalliste oder eine schematische Karte wieder zu
aktivieren (Posner, Boises, Eichelman, & Taylor, 1969; Pylyshyn,
1973 beziehungsweise Hochberg, 1968). Kurz gesagt, wir haben hier
schon den rein wahrnehmungstheoretischen Kontext verlassen und den
allgemeineren Bereich der narrativen Bedeutung betreten.
C. Sequenzeffekte außerhalb des gegenständlichen
(ikonischen) Bereiches:
Syntax, Affekt, Anreiz
Im vorigen Kapitel haben wir vorgeschlagen, daß die Wahrnehmung
von Bildfolgen von drei Gruppen von Faktoren bzw. Prozessen
abhängt: (a) schnelle sensorische Prozesse, die örtlich
und/oder bei groben Formen, nicht aber Details operieren; (b)
langsame muster- oder objektabhängige Prozesse, die die
Information größerer Bildabschnitte benutzen und
wiedererkennbare Kennzeichen (Erkennungszeichen) benötigen um zu
funktionieren; und (c) langsame reizunabhängige Faktoren
(mentale Karten, Schemata etc.), wie zum Beispiel das Wissen,
daß das World Trade Center südlich des Empire State
Building steht, oder wo in einer einführenden Einstellung die
Earp Brüder und die Clantons waren, um im OK Korral eingesetzt
zu werden. Das Zeitmaß muß bei diesen Prozessen recht
variabel sein. Wenn der Zuschauer beispielsweise eine
einigermaßen genaue Karte im Kopf hat, und ihm daraufhin
Bildfolgen in erwarteter Reihenfolge und Geschwindigkeit
vorgeführt werden, sollten ein paar kurze Blicke für die
Verarbeitung des Gesehenen genügen, vorausgesetzt den ersten
Faktoren (Typ I) wurde so Rechnung getragen, daß sie diesen
Vorgang nicht beeinträchtigen (vgl. S. $p).
Irgendwo zwischen Typ II und Typ III verlassen wir den Bereich der
reinen Wahrnehmung. Wenn wir die visuelle Sequenz auch mit verbalen
Mitteln beschreiben können und trotzdem die gleiche perzeptuelle
Interpretation der darauffolgenden Sequenz erhalten, kann die
Information nicht mehr rein visueller oder gar sensorischer Natur
sein. Wir haben es also nicht mehr mit einem Wahrnehmungsprozeß
im herkömmlichen Sinne zu tun. Diese Unterscheidung
ermöglicht eine Arbeitsdefinition einerseits dessen, was
visuell-perzeptuell und typisch filmisch ist, und andererseits des
Allgemeineren, Konzeptuellen, das auch von anderen
Erzähltechniken geteilt wird.
Leider sind uns keine Untersuchungen bekannt, die anhand solcher
Kriterien geprüft haben, was denn nun das Typische beim Medium
Film sei. Tatsächlich ist es so, daß es trotz der recht
umfangreichen Literatur zu den grandioseren Aspekten dieser Frage
keine Untersuchungen dieser Art überhaupt mit irgendwelchen
Kriterien versucht zu haben scheinen. Im folgenden können wir
daher nur raten, zu welchen Ergebnissen wir kämen, wenn es
experimentelle Grundlagen für die Anwendung dieses Kriteriums
für die verschiedenen Fragen des filmischen Gebrauchs
gäbe.
1. Das Lenken der Zuschauergedanken und die Frage einer
Filmgrammatik
Wir haben weiter oben schon festgestellt, daß die Gedanken des
Zuschauers durch einen Schnitt auf eine Sache gerichtet werden
können, zum Beispiel indem man eine Nahaufnahme von dieser Sache
zeigt. Diese Herangehensweise an Fragen des Denkens und
Problemlösens wird im wesentlichen noch immer ausgespart. Die
Vorschläge der beiden klassischen russischen Theoretiker
Eisenstein (1942, 1949) und Pudowkin (1958) zum Einfluß von
Filmsequenzen auf den Gedankengang des Zuschauers sind
widersprüchlich und eher vorsichtig formuliert. Für
Pudowkin werden Ideen entsprechend der Reihenfolge der Darreichung
ihrer Elemente entwickelt. Nach Eisenstein entstehen neue Ideen aus
dem Konflikt von Bildern die in einer Montage tatsächlich
gezeigt werden.
In der Praxis scheinen sich diese beiden Filmemacher in ihrer
Arbeitsweise nicht wirklich unterschieden zu haben. Um eine
Erzählung voran zu bringen, hatte Eisenstein keine andere Wahl,
als Pudowkins Ansicht zu folgen. Und wenn man Pudowkins Arbeit genau
unter die Lupe nimmt, wird klar, daß er sehr stark mit der
Dialektik von Ideen arbeitete, wenn auch nur um durch Kontraste zu
kommentieren. Obwohl es nicht unvernünftig scheint anzunehmen,
daß es zumindest grobe Regeln für die Kombination von
Ideen durch den Zuschauer gibt, besteht in beiden Fällen
ernsthafter Zweifel, ob diese Regeln wirklich typisch für den
Film wären.
Die meisten Untersuchungen, die sich mit dieser Frage befassen, haben
sich auf Schnitte zwischen nur wenigen Einstellungen beschränkt.
Sie werden von Isenhour (1975) besprochen. Dabei wurde das wohl
berühmteste Experiment von Kuleshov und Pudowkin (Pudowkin,
1958) durchgeführt. Die beiden stellten ähnliche
Nahaufnahmen eines Schauspielers, der einen gefühlsneutralen
Gesichtsausdruck aufsetzen sollte, Aufnahmen einer
Suppenschüssel, einer Frauenleiche in einem Sarg und einem
spielenden Kind gegenüber. Die Einschätzung des
Gesichtsausdrucks des Schauspielers durch das Publikum variierte
entsprechend dem Kontext. In einem Gedankenexperiment wies Pudowkin
darauf hin, daß die Interpretation einer Einstellung auch von
der Reihenfolge abhängt. Eine Sequenz mit drei Einstellungen von
einem lächelndem Mann, einer gerichteten Pistole, und
schließlich dem Mann in angstvoller Pose sagt ganz bestimmt
etwas anderes über den Mann, als es die umgekehrte Reihenfolge
tun würde. Spätere Experimente bestätigten Pudowkins
Annahmen. Sie zeigten, daß die Einschätzung des
Gesichtsausdrucks eines Schauspielers manipuliert werden kann, und
zwar zum einen durch eine Veränderung des vorherigen Kontexts
(Goldberg, 1951; Kuiper, 1958), zum anderen auch durch die
Veränderung sowohl des vorherigen als auch des nachfolgenden
Kontexts oder zum dritten durch eine Veränderung der Reihenfolge
(Foley, 1966). Mit abstrakten geometrischen Formen (zum Beispiel
Kreisen und Dreiecken) wies Worth (1968) nach, daß die
Reihenfolge einer Sequenz deren Interpretation beeinflußt.
Für die Messung benutzte er ein angepaßtes semantisches
Differential. Er stellte fest, daß mit zunehmender
Ähnlichkeit der Elemente einer Sequenz der Einfluß der
Reihenfolge auf die Interpretation wuchs. Mit Worths (1968) Worten
zeigten Foleys Experimente (und Pudowkins Gedankenexperiment),
daß (AB ( BA) mit A und B als separate Einstellungen.
Entgegen Eisensteins Behauptung (1949), daß bei der Kombination
zweier Filmstücke egal welcher Art unweigerlich eine neue
Vorstellung oder ein neuer Aspekt aus ihrer Gegenüberstellung
erwachsen, gibt es keinen Grund anzunehmen, daß dies ein
automatischer Vorgang ist. Wenn der Zuschauer nicht eifrig versucht,
diese Stücke zusammenzubringen, und wenn er nicht annimmt,
daß der Grund, aus dem der Filmemacher die beiden Stücke
zusammengestellt hat, auf diese Weise zu ergründen sei, gibt es
keinen Anlaß zu glauben, daß der Zuschauer mehr als nur
eine bedeutungslose Menge visueller Fragmente wahrnimmt, erlöst
durch gelegentlichen Sinn, der die Montage in ein
erinnerungswürdiges Gefüge zusammenbringt.18
Der Zuschauer bemüht sich also, die Einstellungen zu gruppieren,
sie so wahrzunehmen, daß sie sich gegenseitig den Kontext
liefern. Wenn auf die Mann-Pistole-Mann-Sequenz in Pudowkins
Experiment eine Mutter-Kind-Sequenz folgt, muß es einen Faktor
für den Zuseher geben, der ihn zwischen den beiden Sequenzen
eine Grenze ziehen läßt. Um wieder mit Worths Formulierung
zu arbeiten, unter welchen Bedingungen wird eine bestimmte Sequenz A,
B, C als (A, B) (C) oder aber als (A) (B, C) gesehen? Das Problem
ähnelt natürlich dem des Sprachwissenschaftlers, wenn er
die Mechanismen untersucht, die die Grenzen von Wort, Phrase und Satz
bestimmen. Wo genau sind die Grenzen zu ziehen?
Gregory (1961) folgt der Annahme Osgoods, Sucis & Tannenbaums
(1957), daß die jeweilige Bedeutung zweier Zeichen (in unserem
Falle Einstellungen) einander nur beeinflussen werden, wenn sie durch
eine "Behauptung" verbunden sind. Er schlägt daraufhin vor,
daß assoziative Hinweise die Basis für diese Verbindung
oder Behauptung bilden. Dies können zum Beispiel die Werkzeuge
sein, die in zwei Einstellungen an der Wand hängen, und damit
zeigen, daß die beiden Einstellungen in einer Werkstatt
spielen. Eine weitere Möglichkeit sind die Beschäftigungen,
denen Menschen nachgehen, so daß wir beispielsweise eine
Einstellung mit einem hämmernden Mann als zu einer Nahaufnahme
von einem Hammerkopf, der in der nächsten Einstellung auf einen
Nagel schlägt, dazugehörig betrachten. Isenhour meint,
daß der räumliche, helligkeits- und bewegungsbezogene
Inhalt, der zwei Einstellungen in Beziehung setzt, schon ausreicht,
um die beiden Einstellungen zu verbinden. Er schlägt vor,
daß Osgoods Kongruenzprinzip (principle of congruity) auf jede
Sequenz verbundener Einstellungen anwendbar ist. Die Bedeutung einer
jeden Einstellung verschiebt sich zugunsten der nächsten, und
der Grad, in dem sie sich verändert, ist umgekehrt proportional
zur Intensität ihrer ursprünglichen Bedeutung.
Bedeutung kann auch auf andere Art und Weise von der Folge der Bilder
beeinflußt werden. Wenn eine Bildfolge zu schnell läuft,
bekommt der Zuschauer nichts mit. Es gibt eine Reihe möglicher
Gründe hierfür, von denen wir einige in Abschnitt III, B, 2
umrissen haben. Wenn die Dauer der Einstellungen erst einmal lang
genug ist, so daß jede deutlich erkannt werden kann, und wenn
ein bestimmter Rhythmus eingestellt ist, ist jede Abweichung von
diesem Rhythmus, wie zum Beispiel das Einfügen einer besonders
langen Einstellung, ein bedeutendes Signal. Dasselbe gilt für
Detailgrößen. Wenn eine Sequenz begonnen hat, durchgehend
mit einer bestimmten Detailgröße zu arbeiten, ist die
Darstellung von Information in genaueren Einzelheiten beispielsweise
ein wichtiges Signal. Ein Beispiel für sowohl bedeutende
Rhythmus- als auch Größenveränderung ist die
Milchglasszene in Hitchcocks Suspicion (Truffaut, 1967, S. 103). In
das Milchglas wurde eine Lampe gestellt, um die Helligkeit des Glases
zu erhöhen und die Aufmerksamkeit des Zuschauers daruf zu
lenken. Durch diesen Effekt erhielt der Betrachter den Hinweis,
über das Glas und alle Möglichkeiten und Hintergründe
(Gift, Mordabsichten etc.) nachzudenken, die den Filmemacher
veranlaßt haben könnten, es zu betonen.
Es ist offensichtlich, daß wir es hier mit einer Art Sprache zu
tun haben müssen.19
Doch ist es eine filmische Sprache? Oder gar eine Sprache der
Wahrnehmung?
Einige Aspekte einer solchen Kommunikation sind ganz deutlich
visueller Art. Zum Beispiel ist die plötzliche Veränderung
einer in einer bestimmten Sequenz konstant gehaltenen Beleuchtung ein
Zeichen dafür, daß eine neue Sequenz beginnt. Unserer
Meinung nach ist dies aber nur ein Mittel, so wie ein Absatz in einem
sprachlichen Text ein Mittel ist. Die Syntax an sich ist nicht auf
den Film beschränkt. Gerade das Beispiel, mit dem wir unsere
Überlegungen begannen - das Gedankenexperiment der
Mann-Pistole-Mann-Sequenz -, war kein rein visuelles Experiment.
Tatsächlich war es eine verbale Demonstration der
Verbalität oder zumindest Amodalität, aber eben nicht
Visualität der beteiligten Komponenten. Selbst die Effekte
überdeutlicher Betonung wie durch extrem lange Einstellungen,
übertrieben helle Beleuchtung (vgl. die Milchglaseinstellung)
und durch unnötig genaue Einzelheiten ist weder nur dem Film
noch der visuellen, bildlichen Kommunikation zueigen. Genau diese
Phänomene bei Hervorhebungen können wir auch beim Sprechen
finden. Erst kürzlich sind diese Abläufe in der
Sprechaktforschung in den Mittelpunkt gerückt worden (Grice,
1968; Searle, 1969). Und zwar verstehen wir die allgegenwärtigen
Kommunikationsmodi "nicht nur, weil wir über gemeinsames Wissen
über die syntaktischen und semantischen Konventionen zum
Gebrauch der Worte verfügen, sondern auch, weil wir gemeinsames
Wissen über die Formen des Lebens und der sozialen
Realität, in der wir leben und handeln, haben [Schmidt,
1975]". Das soll nicht heißen, daß es sich nicht
lohnen würde, diesen Aspekt der Kommunikation zu untersuchen,
ganz im Gegenteil. (Um einen Vorschlag für ein mögliches
Motivlexikon zu nennen: vgl. Durgnat, 1971, S. 229-235.)
Nichtsdestotrotz, solange nicht gezeigt wird, daß die
Gedankengänge, die durch filmisches Schneiden ausgelöst
werden, grundsätzlich verschieden sind von jenen, die bei der
Übermittlung derselben Nachricht beispielsweise in einer
verbalen Erzählung (was das Mann-Pistole-Mann-Experiment ja
letztendlich ist) entstehen, gibt es keinen Anlaß dafür,
diese Prozesse als Wahrnehmungsprozesse zu betrachten.
Es gibt noch andere Eigenarten des Filmschnitts, die nichts mit der
Darstellung von Dingen und Ereignissen oder dem narrativen Aufbau von
Gedanken zu tun haben. Diese wollen wir als nächstes
untersuchen.
2. Affektive und konnotative Auswirkungen des Schnittempos
Auch wenn Eisenstein und Pudowkin sich vielleicht nicht eins
über die kognitiven Effekte des Schnitts waren, so waren sie
sich doch (wie viele ihrer Nachfolger) einig über seine
emotionalen Wirkungen. Da jeder Schnitt einen momentanen
Erregungszustand erzeugt, sollten sich Schnittempo und -rhythmus im
physiologischen Zustand des Zuschauers widerspiegeln. Obwohl es nur
wenige experimentelle Untersuchungen zu dieser Frage gibt, sind die
wenigen, die es gibt, doch vielversprechend. Einiges weist darauf
hin, daß ein höheres Schnittempo einen Film aktiver werden
läßt (Gregory, 1961; Malpass, Dolan, & Coles, 1976).
Penn (1971) hat demonstriert, daß die konnotative Bedeutung
eines Films (gemessen mit einem semantischen Differential) und seine
Sinnhaftigkeit für den Betrachter (Nobles Maß (1952))
durch das Thema des Films, das Schnittempo und die Beständigkeit
des Tempos beeinflußt werden können. Diese
Abhängigkeiten können in einem Graphen dargestellt werden,
die Ergebnisse sind allerdings nicht einfach
zusammenzufassen.20
Trotzdem wurde gezeigt, daß eben Abhängigkeiten
bestehen.
Was wir an diesem Punkt brauchen, sind vereinfachende, jedoch
spezifische theoretische Modelle und Meßskalen, die
aussagekräftiger sind als die Abbildung konnotativer Bedeutung
durch ein semantisches Differential.
Ein einigermaßen überzeugendes und unkompliziertes Modell
könnte ausgehend von der Attributionstheorie der
Sozialpsychologie entwickelt werden. Schachter und Mitarbeiter
(Schachter & Singer, 1962) haben dargelegt, daß die
Wahrnehmung unserer Gefühle aus dem Versuch resultiert, die
Signale, die uns über unseren inneren Zustand berichten, zu
deuten. Was die kognitive Seite betrifft, läßt sich dies
recht leicht für die Erklärung der Effekte des Schnittempos
übertragen. Man könnte mit den flüchtigen
Erregungsimpulsen, die ein jeder Bildwechsel hervorruft, ein
Reaktionsmuster imitieren, das bei einem bestimmten Gefühl auch
von den Signalen für den inneren Gefühlszustand geliefert
werden würde. Wenn der kognitive Inhalt des Films eine solche
Attribution erlaubt, müßte der Zuschauer sich in diesem
Gefühlszustand wahrnehmen. Wenn also eine Szene in einem
brüsken und beschleunigten Rhythmus gefilmt ist, so wie der
eigene Herzschlag bei großer Angst klingen würde, oder
wenn man einen erwarteten und starken Rhythmus plötzlich
unterbricht, kann im Zuseher vermutlich dieselbe Emotion
ausgelöst werden. Obzwar es für derlei Vorgänge keine
uns bekannten Untersuchungen gibt, sollten sie sich experimentell
leicht überprüfen lassen. Ein Experiment Valins (1966) ist
zwar nicht direkt auf diese Problematik gerichtet, es ist aber doch
sehr vielversprechend. Valin fragte seine Versuchspersonen, wie
schön sie eine Anzahl von Pin-Up-Postern fanden und manipulierte
ihre Beurteilungen dadurch, daß er ihnen mitteilte, daß
er ihnen ihren verstärkten Herzschlag vorspielen würde.
[Abbildung 9. oben, von links nach
rechts:] Gehühlston (Anreiz); s; Zehntel der
Gesamtfixierungen; s
Abb. 9. Der Zeitverlauf von Gefühlston und visuellem Impuls.
(a): Spottiswoodes Diagramm des Gefühlstons als Funktion des
Bildinhalts. (b, c): Auf der Ordinate ist die Zahl der Blicke pro
Sekunde abgetragen (sakkadische Frequenz F); Die Abszisse stellt die
Wanderung der Augen dar, gemessen in Zehnteln der Gesamtfixierungen.
Die x-Kurve in (b) zeigt den Zeitverlauf beim Ansehen eines
statischen Bildes (Antes, 1974). Die y-Kurve in (b) sagt voraus, was
bei einem wiederholten Bildwechsel passieren müßte. Die s-
und c-Kurven in (c) zeigen, wie das ganze bei einfachen bzw.
aufmerksamkeitsfordernden komplexen Bildern aussehen
müßte. (d): Die Ordinate mißt die sakkadische
Frequenz und die Abszisse die Ansichtszeit in Sekunden. Die s- und
c-Kurven zeigen den Zeitverlauf für eine einfache bzw. eine
komplexe Bilderfolge mit einer Ansichtszeit von 4 Sekunden pro Bild.
y ist eine Bildfolge von vier einfachen Bildern, die jeweils 1
Sekunde lang gezeigt werden.
Abbildung 9 (a) zeigt einen Vorschlag Spottiswoodes, den er 1962
ausschließlich aus der gründlichen Beobachtung der Wirkung
des Schnittempos auf sein eigenes Erleben der Montage, entwickelte.
Das Diagramm zeigt den affektiven oder Gefühlston (seine
Einschätzung des Maßes an emotionaler Wirkung) als eine
Funktion der Zeit (in Sekunden). Der affektive Ton wird nach einem
Schnitt bei einer jeden neuen Einstellung ausgelöst. Er variiert
in Abhängigkeit von zwei unabhängigen Variablen, dem
Schnittempo und dem eigentlichen Bildinhalt. Kurve a stellt den
Zeitverlauf des Affekts nach dem Zeigen einer einfachen und
eindrucksvollen Einstellung dar. Kurve b zeigt die Wirkung einer
komplexeren, in sich sehr schönen oder sinnhaften Einstellung.
Trotzdem das Modell sowohl nützlich als auch spezifisch genug zu
sein scheint, ist es noch nicht experimentell überprüft
worden. Dies ist teilweise sicherlich auf das Fehlen einer
akzeptablen Meßmethode für den momentanen Gefühlston
zurückzuführen. Doch sollte man annehmen, daß die
Kurven für den Zeitverlauf einer anderen Reaktion, nämlich
des visuellen Interesses oder dem visuellen Anreiz, der bei jedem
Schnitt ausgelöst wird, ähnlich aussehen. Die
abhängige Variable könnte also durchaus greifbarer und
überprüfbar gemacht werden.
3. Visuelles Momentum und Erhalt visueller Aufmerksamkeit $f
Obwohl das Sammeln visueller Informationen im allgemeinen so
mühelos erscheint wie das Atmen, hängt es doch auch wie die
Atmung von einer Reihe erprobter zielgerichteter Handlungen ab. Wenn
dem Betrachter ein statisches Bild oder eine Szene zum ersten Mal
vorgeführt wird, erkundet er mit ein paar kurzen Blicken die Art
der optischen Anordnung vor ihm. Die Intensität des Betrachtens
wird dann abnehmen, wie es in Kurve x in Abbildung 9 (b) dargestellt
ist (Antes, 1974). Die ersten Blicke werden auf jene Bereiche des
Blickfeldes gerichtet, die entweder mit großer
Wahrscheinlichkeit informativ sind oder die von Versuchspersonen als
besonders hervorstechend beschrieben werden (Antes, 1974; Brooks,
1961; Hochberg & Brooks, 1962; Loftus, 1976; Mackworth &
Morandi, 1967; Pollack & Spence, 1968).
Wie kann aber die Intensität des Betrachtens für eine
längere Zeit aufrechterhalten werden? Zum einen kann man dem
Betrachter einfach mehr zum Ansehen geben. Eine eng bedruckte Seite
kann den Betrachter wesentlich länger beschäftigen als ein
einfaches Bild. Berlyne hat als Teil jener Forschungslinie, die die
Zusammenhänge zwischen Komplexität und Reiz des Neuen
einerseits und ästhetischem Wert andererseits untersucht (vgl.
Berlyne, 1971; Birkhoff, 1933; Rashevsky, 1960; Vitz, 1966 etc.),
nachgewiesen, daß Betrachter sich neuere und komplexere
Reizmuster länger ansehen (Berlyne, 1958; Faw & Nunally,
1967). Eine andere Möglichkeit besteht darin, dem Betrachter
kurz bevor er sein erstes Überfliegen der Vorlage beendet hat,
diese wegzunehmen. Der Bildwechsel ist das Herzstück des Films.
Mit diesen Fakten im Gepäck wollen wir nun einen weiteren Blick
auf Spottiswoodes Modell werfen.
Spottiswoodes Abszisse wird ersetzt durch eine, auf der der Anreiz zu
visueller Erkundung abgetragen wird, in unserer Terminologie der
visuelle Anreiz (Brooks & Hochberg, 1976; Hochberg & Brooks,
in Druck). Dieser hängt von zwei voneinander unabhängigen
Variablen ab, dem Schnittempo und dem konkreten Inhalt. Jeder dieser
beiden Faktoren kann auch in Abwesenheit des anderen wirken. (Selbst
wenn überhaupt kein Schnitt stattfindet, kann der Inhalt allein
das Auge dazu animieren, weiter zu schauen, da es immer noch Neues
entdecken kann. Wenn der Inhalt dagegen für den Betrachter
überhaupt nicht interessant ist, gibt es immer noch einen
gewissen Schnittrhythmus, durch den der Bildwechsel allein die
visuelle Erkundungstour des Zuschauers aufrechtzuerhalten
vermag).
Das Schnittempo hat vermutlich den folgenden Effekt auf den visuellen
Impuls. Jeder Bildwechsel löst eine Erregung oder
"Überraschung" aus. Der Inhalt einer bestimmten Einstellung kann
schnell erfaßt und die Information, wenn sie einfach, vertraut
oder erwartet ist, zügig in ein zu entwickelndes Schema
eingebaut werden. Die a-Kurve in Abbildung 9 (a) zeigt unsere
Voraussage in Anlehnung an Spottiswoodes Modell für den Fall,
daß der Inhalt nichts zum visuellen Impuls beiträgt.
Spottiswoode nimmt an, daß dies der Minimumeffekt ist, den ein
Inhalt ausüben kann. Eine solche einfache Einstellung kann
für eine nur sehr kurze Zeit (bspw. 500 ms) gezeigt werden. Sie
sollte auch nicht viel länger gezeigt werden, da die Erregung
mit der Gewöhnung an das Bild oder einsetzender Langeweile
abnimmt. Bedeutungsvollere, unerwartetere und komplexere
Einstellungen müssen länger gezeigt werden. Das Schnittempo
kann hier langsamer sein. Graphen b und c in Abbildung 9 (a) stellen
die Reaktionen auf Sequenzen einfacher bzw. komplexer Bilder dar.
Dieses Modell birgt noch andere differenzierte und komplexe
Möglichkeiten.21
Es kann eindeutig weiter spezifiziert und modifiziert werden. Bevor
wir aber derlei Möglichkeiten in Betracht ziehen, müssen
wir ermitteln, ob die generellen Eigenschaften des Modells
quantitativ, empirisch untermauert werden können.
In gewissem Maße ist die Antessche Kurve in Abbildung 9 (b) ein
Test für eine Kombination von Tempo und Inhalt. Nehmen wir an,
daß die Häufigkeit der Augenbewegungen (mit einigen
Vorbehalten bezüglich der Enden der Skala, vgl. Potter &
Levy, 1969) ein gutes Maß für den visuellen Anreiz ist.
Kurve x in Abbildung 9 (b) gibt den erwarteten Zeitverlauf der
Häufigkeit der Augenbewegungen für ein Einzelbild an. Wenn
dieses Einzelbild nun durch ein anderes ersetzt wird, bevor die Kurve
(y) weit absinkt, müßte die durchschnittliche
Häufigkeit höher bleiben. Wenn das Schnittempo konstant
ist, beeinflußt der Inhalt den Anreiz wahrscheinlich ebenfalls.
Wenn ein Bild beispielsweise mehr Aufmerksamkeitszentren (d.h. mehr
Stellen zum Anschauen) hat, müßte die Kurve langsamer
abfallen, vgl. Abbildung 9 (c).
Diese Erwartungen werden auch recht gut erfüllt (Brooks &
Hochberg, 1976; Hochberg & Brooks, in Druck). In einem Experiment
wurden abstrakte Bilder mit einem, zwei oder vier
Aufmerksamkeitszentren zu Filmsequenzen zusammengesetzt, die dann mit
Geschwindigkeiten von 1 Bild pro 1 Sekunde bis zu 1 Bild pro 4
Sekunden vorgeführt wurden. Dabei wurden die Augenbewegungen der
Betrachter registriert. Der Verlauf der Sehintensität bei den
einfachsten (s) und bei den komplexesten (c) Bildfolgen ist in
Abbildung 9 (d) mit den durchgezogenen Kurven dargestellt. In diesem
Diagramm ist auch die Wirkung des Schnittempos abzulesen. Die
gestrichelte y-Kurve zeigt den Verlauf für ein Tempo von 1
Schnitt pro 1 Sekunde, und die durchgezogene s-Kurve zeigt den
Verlauf bei der gleichen Bildfolge bei 1 Schnitt pro 4 Sekunden. Sehr
ähnliche Ergebnisse wurden mit Sequenzen bedeutungsvoller Bilder
erzielt. Die Intensität der Augenbewegungen als Reaktion auf
Folgen abstrakter und bedeutungsvoller Bilder kann also mit den
einfachen Modellen in Abbildung 9 (b) und 9 (c) als eine erste
semiquantitative Voraussage bezüglich des Zeitverlaufs der
Reaktion auf den filmischen Schnitt betrachtet werden. Der Begriff
des visuellen Anreizes ist jedoch nicht einfach ein anderes Wort
für die Intensität der Augenbewegungen. Eine
Einstellungssequenz, die einen höheren visuellen Anreiz
hervorruft, sollte auch in der Lage sein, den Blick des Zuschauers
für eine längere Zeit zu fesseln. Dies ist auch
tatsächlich der Fall, zum Beispiel wenn zwei Sequenzen
nebeneinander projiziert werden, und der Betrachter die freie Wahl
hat, welche der Sequenzen (wenn überhaupt eine) er anschaut
(Hochberg & Brooks, in Druck).
Zumindest eine der Konsequenzen des Filmschnitts, die mit der
gegenständlichen Darstellung erst einmal nichts zu tun hat, der
visuelle Anreiz, scheint demnach mit einer gewissen Vorhersagbarkeit
bestimmten Gesetzen zu folgen, die quantitativ auch
überprüfbar sind. Spottiswoodes gedankliche
semiquantitative Analyse des affektiven Schnittons deckt einige
Zusammenhänge auf, die für den Filmemacher von Interesse
sind. Eine nützliche Herangehensweise ist die über die
Werte des visuellen Anreizes. Für den Psychologen können
diese Zusammenhänge eine On-Line Methode für das Messen von
Verarbeitungszeiten stützen (und damit für das Messen von
Komplexität, Verständlichkeit sowie Erwartung und
Vorbereitung). Außerdem stellen sie eine Gelegenheit dar, den
Verlauf zielgerichteten Sehverhaltens zu manipulieren und zu
untersuchen, und damit zu einem Thema mit zunehmender theoretischer
Tragweite beizutragen. $g
IV: ZUSAMMENFASSUNG UND SCHLUSSFOLGERUNG
Wir haben einige Probleme von theoretischer Bedeutung für den
Wahrnehmungspsychologen untersucht, die gewinnbringend anhand von
Filmen erforscht werden können und von praktischem Interesse
für den Filmemacher sind. Vier der in diesem Aufsatz
aufgestellten Forschungsgebiete erwachsen aus der im Film
typischerweise reichlich angewendeten Veränderung des
Kamerastandpunktes. Da die fortlaufenden Veränderungen auf dem
Bildschirm oder der Leinwand nicht Ergebnis der eigenen
perzeptomotorischen Handlungen des Zusehers sind, kann er diese
Veränderungen nicht über seine efferente Kontrolle oder
Propriozeptoren verstehen. Es ist auch eine Theorie vonnöten,
die die Wahrnehmung von Filmen über das Niveau der
stroboskopischen Bewegung hinaus (mit der sich die meisten Analysen
zufrieden geben) erklärt.
Zwei allgemeine Erklärungen haben wir in Betracht gezogen. Die
erste, die recht genau formuliert werden kann, besagt, daß der
Zuschauer direkt auf die visuelle Information über die
invariante Szene reagiert, deren Transformation auf der Leinwand
mathematisch bestimmbar ist (Gibson, 1966; Johansson, 1974). Die
zweite Erklärung, die viel weniger spezifisch daherkommt, meint,
daß der Zuschauer beim Betrachten einer Sequenz sensorischer
Muster (wie zum Beispiel Bildfolgen), schematische Karten oder
Ereignisse, d.h. Strukturen perzeptomotorischer Erwartungen,
konstruiert bzw. an den Daten überprüft. Der zweite der
vier untersuchten Bereiche, die wir als besonders wichtig erachten,
scheint sich am besten dafür zu eignen, die Vorteile der
Transformationstheorie zu demonstrieren. Der dritte und vierte
Bereich hingegen, scheinen sich naturgemäß besser für
die Erforschung der Entwicklung und Überprüfung der
visuellen Schemata durch die Zuschauer verwenden zu lassen.
Man kann flüchtige Erstreaktionen auf Bilder (oder Muster) von
länger andauernden Reaktionen unterscheiden und sie durch
Variationen der Geschwindigkeit, mit der Bildfolgen vorgeführt
werden, untersuchen. Wenn diese Erstreaktionen vom Filmemacher
außer acht gelassen werden, können unbeabsichtigte Effekte
entstehen, wie die Wahrnehmung von Scheinbewegung, Verwechslung von
Objekten und zeitweise unverständliche Schnitte. Wenn der
Filmemacher aber auf die entsprechenden Phänomene eingeht, kann
er diese Wirkungen minimieren. Da die flüchtigen Reaktionen
unabhängig sind von den feineren Informationen im Reizmuster,
sind die von ihnen hervorgerufenen Effekte nicht durch die
Transformationstheorie erklärbar.
Einige Kamerabewegungen liefern optische Informationen über den
dreidimensionalen Raum, vorausgesetzt der Zuschauer ist in der Lage,
jene Information über die dreidimensionale Anordnung zu nutzen,
die in der Transformation invariant ist. Andere Kamerabewegungen tun
das nicht. Im Gegenteil, sie können durch Bewegungsparallaxe
sogar Informationen über die Flachheit der Anordnung vermitteln,
die jeglichen anderen statischen Tiefenhinweisen, die die Anordnung
noch enthalten könnte, widersprechen. Und die
Freimütigkeit, mit der diese nichtinformativen Kamerabewegungen
von Filmemachern eingesetzt werden, fordert auf jeden Fall die
Transformationstheorie heraus. Gegenwärtig fehlen uns allerdings
noch die experimentellen Daten um festzustellen, wieviel bei der
Verwendung dieser Verfahren verlorengeht.
Im Film werden typischerweise sukzessive (kontinuierliche oder
diskontinuierliche) sich überlappende Bilder benutzt, um Szenen
darzustellen, die größer als die Leinwand oder der
Bildschirm sind. Es ist ein Leichtes, die Transformationstheorie auf
diese Darstellungen anzuwenden, doch sehen die Fakten anders aus, als
es die Theorie gern haben würde. Schnelle Bildfolgen werden von
den Erstreaktionen dominiert und können recht willkürlich
korrekt oder inkorrekt wahrgenommen werden. Damit langsame Bildfolgen
korrekt wahrgenommen werden, müssen in allen Bildern bestimmte
Erkennungszeichen auftauchen, die der Zuseher identifizieren
kann.
Mathematische Invarianz genügt also nicht, um
die Wahrnehmung aufeinanderfolgender überlappender Bilder zu
erklären. Selbst wenn sie genügen würde, ist es doch
so, daß die meisten Filmsequenzen aus nichtüberlappenden
Bildern bestehen und somit keine Informationen enthalten, die die
Invariante charakterisieren könnten. In diesen Sequenzen
verläßt sich der Filmemacher auf das Weltwissen des
Zuschauers oder aber auf einführende Einstellungen. Diese
Vorgehensweise muß sich auf Fähigkeiten berufen, die wir
in der richtigen Welt anwenden, um unsere zielgerichteten perzeptiven
Erkundungen durchzuführen. Jene Handlungen, mit denen wir
Wahrnehmungsinformationen (zum Beispiel ballistische Sakkaden)
für unsere größeren Handlungen (zum Beispiel
Bewegung) sammeln, müssen durch Erwartungen, was das Auge als
nächstes sehen wird, geleitet sein. Tatsache ist, daß
Schnittmeister meinen, daß ein guter, schnell
verständlicher Schnitt einer ist, der dem Zuschauer die Antwort
auf die visuelle Frage gibt, die er beim alltäglichen Wahrnehmen
selbst beantworten könnte.
Beim normalen visuellen Erkunden von Orten oder Ereignissen
kontrolliert der Betrachter den Vorgang. Dieser ist jedoch viel zu
schnell und verborgen, als daß er Augenblick für
Augenblick studiert werden könnte. In Filmen können wir
aber in den aktiven Sehvorgang eingreifen und ihn somit untersuchen.
Ein Verfahren, um dies zu tun, ist die Filmmontage.
Wenn statische Bilder zum ersten Mal vorgeführt werden, schaut
der Betrachter zunächst auf den informativsten Bereich. Die
Blickintensität ist anfangs hoch und sinkt dann schnell ab. In
unserer Terminologie würde das heißen, daß der
Betrachter rasch eine schematische Karte der Szene entwickelt und sie
überprüft. Danach nimmt der Anreiz, um weitere sensorische
Tests vorzunehmen, der momentane visuelle Anreiz, ab.
Der visuelle Anreiz (gemessen anhand des Zeitverlaufs sakkadischer
Augenbewegungen und anhand der Neigung des Betrachters eine Sequenz
zu verfolgen, wenn er die Möglichkeit hat, sich eine andere
anzuschauen) müßte sich daher mit dem Tempo, in dem ein
Bild das andere ersetzt, und mit der aufmerksamkeitsfordernden
Komplexität eines jeden Bildes (und freilich auch mit der
Aufgabe bzw. der Absicht des Betrachters) verändern. Dies ist
auch tatsächlich der Fall. Die mathematischen Funktionen, die
den visuellen Anreiz und diese Reizvariablen verbinden, sind im
Einklang mit Spottiswoodes semiquantitativer, auf eigenen Reaktionen
basierenden These über seinen affektiven Schnitton in der
Filmmontage. Für den Filmemacher ist es der visuelle Anreiz, der
(wenn wir recht haben) ununterbrochene Aufmerksamkeit motiviert und
aufrechterhält sowie den Film sozusagen lebendig macht. Für
den Psychologen spiegelt der visuelle Anreiz den Verlauf aufmerksamen
Betrachtens wieder, und zwar hoffentlich so, daß dieser Vorgang
letztendlich modelliert und erforscht, und eine unabhängige
Variable für die aufmerksamkeitsrelevante Komplexität der
Bilder in einer Reizsequenz gefunden werden kann.
Dem Filmemacher verspricht die Wahrnehmungsforschung Hilfestellung
derart zu leisten, wie die Prinzipien geometrischer Perspektive dem
Maler dienlich waren. Das soll heißen, daß die Forschung
ein kompaktes Paket von Prinzipien erstellen kann (die manchmal auch
gegen die Intuition laufen) um eine große Anzahl von ad hoc
Regeln und Tricks zu ersetzen. Natürlich können diese
Prinzipien nicht für Kreativität, Erfahrung oder Phantasie
aufkommen.
Für den Psychologen sind Filme besonders gut geeignet, um die
dynamischen und zielgerichteten Aspekte der Wahrnehmung zu
ergründen. Neben den rein perzeptiven Aspekten des Films, auf
die wir uns in dieser Diskussion beschränkt haben, bietet der
Film auch einen visuellen Ansatz für Fragen von Narration und
Diskurs, die parallel zu der bisher fast ausschließlich
sprachlich orientierten Forschung erörtert werden
müssen.
1 * Die
Vorbereitung dieses Artikels wurde teilweise gefördert durch:
NICHHD 1RO1-HD-06768-01A2.
2 Hier soll noch
angemerrktwerden, daß der Schwellenwert für den Kontrast
bei der Mustererkennung wahrscheinlich sinkt, sobald sich die
Frequenz der 30-Hz-Marke nähert (Kesey, 1972). Dieser Punkt wird
noch eine Rolle spielen, wenn wir die Auswirkungen eines abrupten
Bildwechsels (d.h. des Schnitts) untersuchen.
3 Vgl. Matin
(1975) zur Frage des Verdeckens. Arbeiten zu einem Off-Signal sind in
der Forschung zur sukzessiven Verknüpfung der Bilder durch den
Betrachter zu finden. Und zwar ergeben zwei Stimulusfelder, die
jeweils ein zufälliges Punktmuster enthalten, nur dann eine
deutlich erkennbare Struktur (wie z.B. ein Wort, das die
Versuchsperson vorlesen soll, oder eine vollständige Matrix, in
der nur ein Punkt fehlt und dessen Position die Versuchsperson
bestimmen muß), wenn die beiden Strukturen mit der Zeit
verschmelzen (Eriksen & Collins, 1967; Cohene & Bechtoldt,
1975; Hogben & Di Lollo, 1974).
4 Freilich gibt
es gelegentlich auch andere Ursachen, wie zum Beispiel bei dem
klassischen Wechselspiel, in dem stroboskopische Ausschnitte der
Realbewegung von Rädern oder Propellern eine scheinbare
Rückwärtsbewegung der Drehung erzeugen. In anderen
Fällen werden wahrscheinlich ähnliche Fragen relevant,
beipsielsweise bei der Zeitlupe oder beim Zeitraffer.
5 Zum Beispiel
können wir grob zwischen Reaktionen auf absolute und relative
Bewegung unterscheiden, die über sehr verschiedene Mechanismen
geregelt werden. Eine absolute Netzhautbewegung kann, wenn sie
schnell genug ist, festgestellt werden, und sie hat Nachwirkungen.
Solche Bewegungen können ziemlich problemlos einer Art
Bewegungsdetektoren zugeschrieben werden. Eine relative Bewegung
muß nicht so schnell sein, um entdeckt zu werden. Wenn die
beiden Gegenstände, zwischen denen sich der Abstand
verändert, im Netzhautbild nah beieinander liegen, könnten
schon recht periphere Mechanismen als Verschiebungsdetektoren
fungieren (eine neuere Übersicht in Sekuler, 1975). Wenn die
Gegenstände im Netzhautbild weit auseinander liegen, müssen
zentralere Mechanismen wirken. Wichtig in diesem Zusammenhang ist,
daß einige Prozesse die Netzhaut und das optische Bild
betreffen, andere aber über Entscheidungen geregelt werden, die
sich auf tatsächlichen dreidimensionalen Raum oder auch
scheinbaren Raum beziehen, wie zum Beispiel die im vorigen Abschnitt
beschriebenen.
6 Die einzige
visuelle Methode, mit der wir diese beiden auseinanderhalten
können, besteht darin, unseren Blick in eine bestimmte Richtung
zu verschieben (z.B. können wir feststellen, ob wir unsere Augen
bewegen müssen, um das eine oder das andere Objekt weiterhin zu
fokussieren). Obwohl wir mit einiger Sicherheit wissen, in welche
Richtung eine Sakkade erfolgt, ist unser Wissen bezüglich der
Richtung und des Grads verfolgender Augenbewegungen mehr mit Zweifel
behaftet (Festinger & Easton, 1974, Mack & Herman, 1973;
Stoper, 1973). Und natürlich ist die Genauigkeit, mit der wir
die Wirkungen von Veränderungen in unserer Körperhaltung
oder gar des Ortes an dem wir uns befinden, feststellen, um vieles
schlechter (vgl. die Illusion des sich bewegenden Zuges etc.). Wir
müssen die Entscheidung darüber, welches der beiden Objekte
sich in Abbildung 3 (a) bewegt, also anders begründen. Diese
Unsicherheit in unserem Urteil ermöglicht wahrscheinlich erst
die typischste Eigenschaft des Kinos, nämlich die Ausdehnung von
Raum jenseits der Leinwand bzw. dem Bildschirm. Natürlich
könnte auch Unverständnis, das vom Filmemacher nicht
beabsichtigt war, entstehen (vgl. Vorkapich, 1972).
7 Wie bei den
unmöglichen Figuren (Hochberg, 1968) könnte die Trennung
der Bewegungen vor allem eine lokale Angelegenheit sein. Die Wirkung
des Hintergrundes auf das Objekt würde dann nicht mit den weiter
entfernten Rahmen interagieren.
8 Eine solche
Interpretation würde sowohl den Untersuchungsergebnissen von
Held et al. (1975) als auch Wist et al. (1975) entsprechen, die z.B.
besagen, daß die Rotation von Streifen u.a. in der visuellen
Peripherie das Orientierungsgefühl des Betrachters bzw. dessen
scheinbare Richtung verändert. Außerdem weist das
periphere Sehen eine unterschiedliche Empfindlichkeit für sich
bewegende und für stationäre Objekte auf, d.h. das
periphere Sehen des Betrachters könnte empfindlicher auf die
Bewegung des Inhalts eines Rahmens reagieren als auf die
Unbeweglichkeit des Rahmens selbst.
9 Eine
Direktübertragung im Fernsehen erfährt eine Toleranz
seitens des Betrachters, die ein vom Menschen bearbeiteter Streifen,
wie zum Beispiel eine Wiederholungssendung über dasselbe
Ereignis oder freilich ein montierter Film nicht erleben würden.
Die rhythmischen Erfordernisse eines neuinszenierten
Ereignisses sind ganz verschieden von denen des echten Ereignisses.
Die Zusammenfassung eines Ereignisses auf seine 'Höhepunkte'
gibt oft den notwendigen Neuantrieb, wenn das Ereignis zu einem
späteren Zeitpunkt wiederholt wird (Zettl, 1973, S.
265).
10 d.Ü.:
efferent: wegführend vom Zentralnervensystem (z.B.
effektorische, motorische Nerven), afferent: zuleitend zum
Zentralnervensystem
11 d.Ü.:
Kinästhesie: Bewegungsempfinden für Muskeln, Sehnen und
Gelenke; Propriozeption: das Bewußtsein der körperlichen
Existenz (z.B. einer bestimmte Körperposition), ermöglicht
durch Propriozeptoren, d.h. Sinnesorgane, die Körperreize
verarbeiten und bspw. die Bewegung von Organen kontrollieren.
12 Ein
entscheidender Mangel an diesem Modell besteht darin, daß die
"mathematische" Formulierung die Unterschiede zwischen Peripherie und
Fovea vernachlässigt. Diese Unterschiede sind jedoch gravierend,
wenn man die Fähigkeit des Auges beachtet, exakt jene
räumliche Informationen zu nutzen, die Gibson (1957, 1966) als
durch den Reiz angeboten bezeichnete. Fovea und Peripherie
unterscheiden sich außerdem in ihren Möglichkeiten, den
Zuschauer die eigenen Bewegungen wahrnehmen zu lassen (Wist et al.,
1975; Held et al., 1975). Genau dieser Frage war diese Analyse
visueller Propriozeption gewidmet.
13 d.Ü.: Im
Englischen werden nur Totale, Halbtotale und Nahaufnahme
unterschieden, die anderen Einstellungen werden als Zwischenstufen
betrachtet, daher auch Abb. 4.
14 Senkrechte
wie auch seitliche Bewegungen auf der Leinwand bewirken geringere
Größenveränderungen und nehmen weniger Platz im Bild
ein, wenn die Brennweite groß (bei Totale oder Teleobjektiv)
oder mittelgroß ist, als dies bei Nahaufnahmen (Weitwinkel) der
Fall ist. Das heißt, daß die Bewegung auf der Leinwand in
der Totalen verlangsamt, in der Nahaufnahme aber beschleunigt wird.
Diese Effekte sind nicht nur theoretische Varianten, sie beeinflussen
die Einschätzung von Geschwindigkeit auf dem Bildschirm durch
den Betrachter (Brooks). Wenn diese Effekte nicht beabsichtigt sind,
und der Filmemacher keine Rücksicht darauf nimmt, können
die Folgen mit Sicherheit recht verblüffend und grotesk
sein.
15 Wenn in den
beiden Einstellungen, zwischen denen eine Schnitt erfolgt, eine
Bewegung stattfindet, scheint diese auch die Verständlichkeit zu
beeinflussen. Wenn also zwischen zwei Einstellungen, die Bewegung
enthalten, ein Schnitt gemacht wird, und wenn diese Bewegungen
sozusagen nebeneinander liegen, nicht aber ineinander übergehen
und auch nicht gleich schnell in der zweidimensionalen Projektion
sind, dann ist diese Ungleichheit möglicherweise ein schneller
und entscheidender Faktor bei der Wahrnehmung einer dritten Bewegung
(nämlich der Beschleunigung, die die eine Bewegung in die andere
umwandelt). Diese Annahme ist gegenwärtig nur auf
persönliche Beobachtungen beim Filmsehen basiert.
16 Um als
auffällig zu gelten, muß ein Merkmal auch aus der Ferne
erkennbar sein, d.h. selbst wenn der Betrachter in eine andere
Richtung schaut, und das Merkmal somit in den peripheren Sehbereich
fällt, muß es immer noch zu erkennen sein (Hochberg &
Gellman, 1977). Daher muß das Erkennungszeichen bestimmte
physikalische Kriterien erfüllen, wie zum Beispiel in Bezug auf
Größe und Kontrast. Wenn das Erkennungszeichen auf diese
Weise vom Rest des Blickfeldes enorm hervorgehoben wird, kann es den
schnellen Faktoren unterliegen. Die Abstände, über welche
diese operieren, sind uns allerdings nicht bekannt.
17 Diese
Grundannahme kann teilweise durch visuelle Verschiedenheit
überwunden werden (zum Beispiel wenn sich der Gesamtcharakter
einer Landschaft oder die Tageszeit verändern). Ferner
können auch konventionelle Mittel eingesetzt werden (zum
Beispiel Aus- oder Überblendung). Das Bringen von Informationen,
die völlig inadequat sind für das, was der Zuschauer bis
dahin über das verfolgte Ereignis erfahren hat, erzielt die
gleiche Wirkung.
18 Genauso wie
in der verbalen Kommunikation muß der Zuschauer solche
Einstellungssequenzen als irgendwie miteinander verbunden sehen.
Natürlich ist da die unausweichliche Tatsache, daß
derjenige Zuschauer, der überhaupt darüber nachdenkt,
weiß, daß die Bilder, die ihm gezeigt werden, in dieser
Reihenfolge und mit diesen Eigenschaften von einem berechnenden
Filmemacher angeordnet worden sind, der auf diese Art und Weise dem
Zuseher etwas mitteilen möchte (vgl. Metz, 1974, S. 47). Selbst
Zuschauer, die nicht über dergleichen nachdenken (genauso wenig,
wie sie sich vor Augen führen, daß eine Seifenoper oder
ein Comic für einen bestimmten Zweck produziert wurden, und
nicht nur ein Fenster auf die Welt sind), wissen, daß ihnen,
wenn sie ihre Aufmerksamkeit auf die flackernden Bilder richten,
Dinge gezeigt werden und daß Ereignisse passieren. Und sie
werden versuchen, die Sequenzen in eine schematische Karte oder eine
schematische Ereignissequenz einzuordnen (Hochberg, 1968, 1970).
19 Wenn Kontext,
Reihenfolge und Hervorhebung also wichtig für die Bedeutung
einer Reihe von Einstellungen sind, werden ja die meisten Kriterien
für eine Sprache erfüllt. Man kann nun überlegen, ob
es genügend Ansatzpunkte gibt, um von einer systematischen
Grammatik zu sprechen (Pryluck & Snow, 1967). Ob es
gegenwärtig einen Regelapparat gibt, der den Anforderungen des
Psycholinguisten gerecht werden würde, oder nicht - auf jeden
Fall gibt es Grund genug, um anzunehmen, daß mit der
zunehmenden Kunstfertigkeit und technischen Weiterentwicklung
filmischer Mittel auch ein komplexerer Regelapparat entstehen wird
(Pryluck, 1968; Worth, 1968, 1969). Das Entstehen einer solchen
Filmsprache wäre zweifellos von Vorteil, da es ja reale
Dokumente in unseren Archiven (die meisten Filme) sozusagen als
Vorgeschichte gibt, doch können wir hinterfragen, ob der
sprachliche Aspekt typisch für die visuelle Wahrnehmung ist.
20 Penn hat
Filme entworfen, in denen zwei Objekte entweder stationär waren
oder sich langsam oder schnell aufeinander zu bewegten. Diese Objekte
waren einmal Autos, dann Personen und schließlich Rechtecke.
Das Schnittempo war entweder konstant (8, 2 und 0,5 s c-1) oder
veränderlich (beschleunigt oder verlangsamt von 0,25 bis 5 s c-1
oder umgekehrt). Die Autos fuhren mit zwei unterschiedlichen
Geschwindigkeiten. Die Schauspieler gingen oder rannten. Und die
Rechtecke wurden in induzierte Bewegung gesetzt, indem der
Hintergrund bewegt wurde (siehe Abschnit II, A, 2, e). Die
Versuchspersonen mußten aus jedem Film Begriffe (z.B.
weißes Auto, schwarzes Auto, Paar, die gesamte Szene) auf einem
semantischen Differential einordnen und innerhalb von 60 Sekunden so
viele Wörter zu jedem Begriff wie möglich aufschreiben, mit
dem Ziel ein Maß an Sinnhaftigkeit zu produzieren (Noble,
1952). Bewegung und Objektart interagierten in signifikanter Weise in
ihren Auswirkungen auf die Intensitäts- und
Aktivitätsskalen in den Filmen mit Autos und Personen.
Darüberhinaus waren ein paar andere Einzelvergleiche
signifikant.
21 Da
Spottiswoode davon ausging, daß die Mindestzeit für das
Vermerken einer Einstellung 200ms beträgt, nahm er an, daß
ein Großteil des Anfangs einer jeden Vorführung
wirkungslos bleibt, daß die Erregung dann aber rasch ansteigt
und vermutlich langsamer abnimmt, als sie gestiegen ist. Wenn der
nächste Schnitt sofort erfolgt, nachdem der Erregungslevel, den
der vorherige Schnitt erhöht hatte, zu Null zurückgekehrt
ist, findet kein Gesamtanstieg des visuellen Anreizes statt. Bei
längeren Einstellungen fällt die Erregung insgesamt. Bei
kurzen Einstellungen ist ein Gesamtanstieg zu erwarten, und der
Anreiz erhöht sich weiter. (Natürlich muß der Anreiz
eine obere Grenze haben, da die Sakkaden nicht häufiger als vier
bis fünf mal pro Sekunde ausgeführt werden können.
Spootiswoodes Gefühlston dahingegen, muß nicht begrenzt
werden.) Freilich, nach den ersten paar Schnitten beginnt der
Zuschauer, die Schnitte zu erwarten. Sie werden weniger
überraschend. Die Erregungszunahme wird geringer. Um einen
anwachsenden Anreiz weiterhin zu garantieren, müßte das
Schnittempo stets erhöht werden.