Capitolo
8
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per il
corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che non
hanno molta dimestichezza con la lingua inglese.
Le traduzioni sono opera degli stessi studenti
del corso di Psicologia della Percezione 1999
- 2000. Nell'utilizzo di questo materiale va tenuto
conto che la correttezza dello stesso va verificata
confrontando le traduzioni con il testo originale.
Per ulteriori domande, clicca
qui.
|
La rappresentazione della forma e della struttura
Di
tutte le proprietà che percepiamo circa l'oggetto
la forma è probabilmente la più importante.
Questa importanza le deriva dal fatto che permette ad
un osservatore di predire più caratteristiche
di un oggetto che ogni altra proprietà ma è
anche la più complessa. Sebbene si tenti di pensare
alla forma come una proprietà unitaria, essa
è sicuramente composta da molte componenti differenti
. Nel capitolo 3, per esempio, abbiamo scoperto che
la superficie colorata può essere analizzata
nelle componenti 3-d di tinta, saturazione e bianchezza.
Questa analisi dettagliata porta dei vantaggi in confronto
a quella unitaria. Per esempio , la somiglianza di due
colori può essere modellata dalla loro prossimità
con lo spazio di colore tridimensionale. Colori simili,
come due differenti sfumature di rosso, sono vicini
tra loro nello spazio dei colori, mentre colori diversi,
per esempio il verde e il rosso, sono distanti.
E' possibile compiere una simile analisi della forma
in semplici componenti? Se si, quali sono i componenti
nei quali può essere analizzata? Se no, può
la forma essere in qualche modo rappresentata in modo
olistico? In entrambi i casi, come può essere
determinata la somiglianza tra due forme? Queste sono
le principali domande che ci porremo in questo capitolo.
Molte di esse sono legate strettamente agli argomenti
che discuteremo nel prossimo capitolo sulla categorizzazione
percettiva. La ragione è che la proprietà
più importante per determinare la categoria alla
quale l'oggetto appartiene è la sua forma. Molte
teorie importanti sulla categorizzazione degli oggetti,
quindi, dipendono dalla posizione che noi prendiamo
rispetto alla loro rappresentazione di forma.
Un'altra tentazione semplicistica circa la percezione
della forma è credere che la rappresentazione
della forma degli oggetti può basarsi sulla superficie
base di 2.5 D. Infatti, il termine inizialmente usato
nella letteratura basata sulla visione computazionale
si riferiva al processo per il quale la rappresentazione
in 2.5 D implica sia così. I moduli principali
dalla rappresentazione 2 d alla 2.5 sono spesso chiamati
"forma dall'ombra", "forma dal movimento"
e così via come se la rappresentazione in 2.5
D contenesse una rappresentazione della forma dell'oggetto.
Sfortunatamente non è così.
Sebbene sia vero che le rappresentazioni in 2.5 D contengono
informazioni sulla forma questo vale solo implicitamente
e localmente. Come detto nel capitolo 5 quello che è
attualmente rappresentato in 2.5 D è la distanza
e l'orientamento della parte della locale superficie
piana e ricordiamo anche che la rappresentazione in
2.5 D non viene differenziata a livello organizzativo:
non viene rappresentata esplicitamente la divisione
delle superfici visibili in oggetti separati e molte
delle loro parti componenti e di inter relazioni, non
contiene informazioni di tutte le superfici nascoste
dell'oggetto che sono coperte dalle loro superfici frontali.
Per tutte queste ragioni è giusto dire che lo
schizzo 2.5 D non contiene un'esplicita rappresentazione
della forma dell'oggetto 3 D. qualcosa di più
globale e complesso viene richiesto nella rappresentazione
delle forme in 3 D come affermato alla fine del capitolo
7 la rappresentazione degli oggetti spesso si sviluppa
attraverso la loro divisione in parti come succede con
gli occhi, il naso e la bocca per la faccia umana come
rappresentazione delle varie caratteristiche globali.
Le parti nelle quali vengono divisi gli oggetti, le
inter relazioni spaziali tra queste parti, e le caratteristiche
globali che li definiscono rappresentano tutti aspetti
importanti della loro forma. Ribadiamo, nessuna di queste
informazioni complesse è disponibile nello schizzo
2.5 D. nella percezione della forma di un oggetto informazioni
locali e pezzi della stessa devono in qualche modo venir
organizzati all'interno della rappresentazione dell'oggetto,
delle sue parti caratteristiche e delle loro complesse
inter relazioni all'interno di una struttura globale
e coerente. Capire come questo potrebbe compiersi è
il obiettivo primario della teoria della percezione
delle forme. In questo capitolo esploreremo i problemi
e le prospettive relative a questa teoria.
8.1
L'EQUIVALENZA DELLA FORMA
Possiamo
cominciare la nostra discussione sulla percezione della
forma degli oggetti affrontando un semplice problema:
la percezione della forma equivalente. Questo problema
implica la comprensione delle condizioni per le quali
due persone percepiscono due oggetti differenti come
aventi la stessa forma.
Il fenomeno delle percezione di forme equivalenti è
strettamente collegato alla costanza della forma. Ricordiamo
dalla sezione 7.2 che la costanza della forma è
definita come il percepire lo stesso oggetto con la
stessa forma malgrado questo presenti delle differenze
nelle condizioni di rappresentazione. Di equivalenza
della forma si parla invece quando due oggetti differenti
sono visti come aventi la stessa forma, malgrado presentino
altre differenze spaziali tra di loro. Un'automobile
di dimensioni normali appare avente la stessa forma
di una miniatura di quel modello nonostante la loro
ovvia differenza di misura, per esempio. Come una sedia
in posizione verticale avrà la stessa forma di
una sedia rovesciata, malgrado la loro differenza di
orientamento.
8.1.1 DEFINIRE LA FORMA OBIETTIVA
Ci
avvicineremo al problema delle forme equivalenti considerando
quali trasformazioni possono essere applicate ad un
oggetto senza cambiarne la forma. Dato che la forma
è una proprietà della nostra percezione
degli oggetti, può sembrare strano parlare di
forma come una proprietà obiettiva. La nozione
di forma può essere definita in modo significativo
come punto d'appoggio nel nostro affrontare il problema
della percezione della forma. Di fatto, l'idea che ogni
oggetto ha una forma obiettiva non è differente
per principio dalla radicata credenza che ogni oggetto
ha una misura, una posizione, un orientamento obiettivamente
definibili.
Consideriamo la semplice figura geometrica che vediamo
nell'immagine 8.1.1 per esempio. Ognuno sarà
d'accordo che le figure nella colonna di destra hanno
la stessa forma di quelle a sinistra malgrado le differenze
nella loro posizione, orientamento, misura o si tratti
della stessa immagine riflessa (come in uno specchio).
Questo fatto ci permette di definire la forma obiettiva
come la struttura spaziale di un oggetto che non cambia
quando gli vengono applicate le seguenti trasformazioni
spaziali:
1.traslazione,
in cui a variare è solo la posizione di un oggetto,
2.rotazione, in cui cambia solo il suo orientamento
3.dilatazione (espansione o contrazione), che cambia
solo la sua misura,
4.riflesso in cui varia il suo senso di presentazione
5.tutte le combinazioni di queste trasformazioni.
In
matematica questo particolare gruppo di trasformazioni
viene chiamato gruppo di similarità ("Similarity
group" è il nome matematico di questo set
di trasformazioni, esso non può indicare nessuna
delle somiglianze tra gli oggetti a cui si riferisce.)
Probabilmente avrai incontrato le trasformazioni similari
in geometria quando per esempio hai dovuto dimostrare
che due triangoli sono "simili", perché
presentato tutti e tre gli angoli corrispondenti come
uguali.
Sebbene
abbiamo dato un esempio del mantenimento della forma
usando una figura bidimensionale, la forma obiettiva
degli oggetti 3D è comunque mantenuta nella versione
tridimensionale dalla stessa gamma di trasformazioni:
traslazione, rotazione, dilatazione e riflessione o
le loro combinazioni. Noi preserviamo la forma obiettiva
in un senso ben definito: cioè quando ogni coppia
di oggetti può essere portata in esatta corrispondenza
applicando alcune sequenze di queste trasformazioni.
Così, le trasformazioni similari forniscono un
test obiettivo per capire se ogni data coppia di oggetti
abbia o no la stessa forma. Se ogni altra trasformazione
spaziale è richiesta per portare l'oggetto in
esatta corrispondenza con un altro - come schiacciarlo,
allungarlo o deformarlo in qualche modo- noi abbiamo
una forma obiettiva differente secondo questa definizione,
anche se le loro forme possono apparire come estremamente
simili.
Il fatto che le persone percepiscano tutti i vari oggetti
nella figura 8.1.1 come aventi la stessa forma ci porta
alla ovvia ipotesi che la percezione che noi abbiamo
della forma obiettiva è generalmente veridica-
cioè due oggetti sono percepiti come aventi la
stessa forma ogni qual volta possiedono una forma obiettiva.
Qualcuno potrebbe pensare che sia sempre così,
ma come vedremo presto ci sono delle importanti eccezioni.
Così noi possiamo prendere questa definizione
di forma equivalente come uno standard obiettivo ed
esaminare come la percezione umana della forma si conformi
ad esso.
La situazione non è dissimile dal definire l'orientamento
oggettivo di una linea rispetto alla gravità,
ed esaminando quanto facilmente la percezione della
gente di questa si conformi a questo standard. La percezione
può provocare varie illusioni o distorsioni,
ma queste possono essere capite in relazione ad orientamenti
definiti in via oggettiva. Così può essere
per la forma.
La definizione di forma equivalente percepita come invarianza
(mancanza di cambiamento) oltre le trasformazioni similari
è un livello della teoria computazionale della
forma equivalente. Non fornisce nessuna pretesa di specificare
quali processi sono coinvolti nel determinare l'equivalenza
della forma nel senso definito nel Capitolo 2. A un
livello algoritmico, tuttavia, la questione nasce su
quali informazioni e operazioni sono implicate nel determinare
se due oggetti hanno la stessa forma. Ci sono alla fine
tre possibilità:
1.Ipotesi
delle caratteristiche invarianti. Questa ipotesi suppone
che l'equivalenza della forma si determini confrontando
alcuni set di "caratteristiche della forma"
dei due oggetti. Se questi due set (o liste) sono uguali,
l'oggetto ha la stessa forma percepita. Per questo schema
di lavoro, le caratteristiche devono rimanere invariate
non solo per la gamma di trasformazioni similari.
2.Ipotesi
delle trasformazioni di allineamento. Questa ipotesi
assume che la forma equivalente sia analizzata per determinare
se due oggetti possano essere portati in esatta corrispondenza
attraverso una della possibili trasformazioni del set
di similarità . Se ciò è possibile,
la forma è equivalente, altrimenti no.
3.Ipotesi
della struttura di riferimento centrata sull'oggetto.
Questa ipotesi ritiene che la forma equivalente sia
accertata confrontando gli oggetti dentro una struttura
di riferimento definita dall'intrinseca proprietà
dell'oggetto. Se gli oggetti sono uguali rispetto alla
loro struttura di riferimento essi sono percepiti come
uguali nella forma.
Ci
sarebbero approcci ibridi e intermedi ma, per semplicità,
noi ora considereremo in dettaglio solo le versioni
"pure" di queste ipotesi.
8.1.2
CARATTERISTICHE INVARIABILI
Questa
ipotesi assume che la percezione della forma dipenda
dal codificare quelle proprietà dell'oggetto
che non cambiano (sono invarianti) quando questo è
trasformato in qualche modo particolare. Adesso noi
esamineremo cosa questo significa e in che modo possa
valere per la percezione della forma equivalente.
Ogni serie di trasformazioni divide il set di tutti
le possibili proprietà degli oggetti in due sotto-serie
mutualmente esclusive: quelle che non cambiano come
risultato della trasformazione (chiamate proprietà
invarianti) e quelle che lo fanno (caratteristiche varianti).
Consideriamo, ad esempio, una traslazione bidimensionale
del set di proprietà che troviamo nella figura
8.1.2. Cambiando la posizione di un oggetto si altera
la posizione assoluta dei suoi componenti come linee,
angoli e così via che sono quindi caratteristiche
che variano con la traslazione, come indicato dal segno
"-" che troviamo nella prima colonna, prima
riga. Questo non influenza la posizione relativa di
coppie di questi componenti e comunque non altera nessuna
delle altre proprietà elencate, come il numero
di linee ed angoli che la figura contiene o l'orientamento
e la misura di queste linee e angoli. Queste caratteristiche
sono quindi invariabili come indicato dal segno "+"
nelle altre colonne della prima riga.
Ora consideriamo cosa succede quando è l'orientamento
dell'oggetto a cambiare . La rotazione altera non solo
la posizione assoluta e relativa dei suoi componenti
ma anche il suo orientamento assoluto, queste sono quindi
le caratteristiche variabili della rotazione. Quello
che invece non cambia è l'orientamento relativo
dei componenti ( cioè la differenza angolare
tra loro), e il numero e la misura di angoli e linee
che sono quindi invarianti.
Collegate con la precedente definizione di forma equivalente
obiettiva nei termini dell'azione del gruppo similare
di trasformazione, l'ipotesi delle caratteristiche invarianti
suggerisce che la forma può essere rappresentata
dalla serie di proprietà che non variano e che
non fanno parte del gruppo similare. La riga superiore
della figura 8.1.2 indica che le caratteristiche che
supportano questa ipotesi sono cose come il numero di
angoli, di linee e varie altre componenti come l'orientamento
relativo, la misura, la vicinanza e la loro connettività.
La ragione è che nessuna di queste caratteristiche
cambiano per nessuna delle trasformazioni similari.
Notiamo che questa lista include poche proprietà
metriche assolute ma molte relative. Questo è
in accordo con le prime osservazioni della psicologia
Gestaltista, che sottolineò l'idea della determinazione
relazionale; cioè l'idea che la percezione sia
dominata dalle relazioni configurate tra parti e proprietà
più che da proprietà assolute.
La definizione reale di un set di caratteristiche immutabili
come quelle proprietà che non cambiano nonostante
l'azione delle trasformazioni, garantisce che ogni due
figure che possono essere sovrapposte mediante una trasformazione
di similarità avranno una identica rappresentazione
di forma in confronto a tali proprietà. Perciò,
fin quando l'equivalenza della forma percepita è
la stessa dell'equivalenza della forma obiettiva - cioè,
come definita dall'azione delle trasformazioni di similarità
- rappresentare la forma in termini di caratteristiche
di similarità-immutabili garantisce di risolvere
il problema della percezione dell'equivalenza di forma.
In una forma o l'altra l'ipotesi delle caratteristiche
invarianti ha dominato le teorie della percezione della
forma dalle prime storiche esposizioni di Pitts e McCullough
(1947) fino a tempi relativamente recenti. Esplicitamente
o implicitamente queste assunzioni sottolineano la teoria
gestaltista della percezione della forma, la teoria
di Gibson sulla costanza della forma e le classiche
"feature list" di riconoscimento del modello
come la teoria di Pandemonio (Selfridge, 1957; Selfridge
& Neisser, 1960).
La teoria basata sulle caratteristiche invarianti è
affascinante in parte anche per la sua semplicità:
la forma può essere rappresentata come una semplice
serie o lista di attributi. Le proprietà all'interno
di tale set possono essere valutate in via differenziale
in relazione alla loro importanza percettiva, ma l'idea
base è che la lista di caratteristiche invarianti
è sufficiente per spiegare perché alcune
coppie di oggetti distinti sono viste come aventi la
stessa forma e altre no.
Sfortunatamente è evidente che questo approccio
è imperfetto come la teoria della percezione
della forma equivalente. Il problema sorge dalle notevoli
differenze tra la forma equivalente percepita e quella
obiettiva. Il fenomeno più danneggiato è
la ben documentata relazione tra l'orientamento percepito
e forma percepita a cui abbiamo accennato brevemente
nel capitolo 7. Una delle prime, più semplici
e più eleganti dimostrazioni di questa relazione
è l'osservazione di Match (1914/1959) che dimostra
come quando un quadrato è ruotato di 45°
le persone lo percepiscono generalmente come un segno
di quadri (come quello delle carte da gioco) o come
un diamante piuttosto che come un quadrato inclinato.
(vedere la fig. 8.1.3). Si può vedere questa
figura come un quadrato inclinato, ovviamente, se solo
si considera il lato ruotato di 45° come superiore.
Ma se si considera il vertice superiore come punto più
alto allora la figura è vista come un diamante.
Il quadrato/diamante di Match pone una serie di problemi
per l'ipotesi delle caratteristiche invarianti. Se la
forma percepita è definita unicamente tramite
gli attributi che non cambiano dopo la rotazione, allora
due figure che vengono ruotate in altre- come il quadrato/diamante
di Match- possono essere percepite come aventi la stessa
forma. Ma ciò non accade. Questo semplice fatto
mina seriamente l'ipotesi delle caratteristiche invarianti
come una teoria a livello algoritmico della percezione
della forma equivalente.
Qualcuno potrebbe pensare che molti problemi potrebbero
essere risolti semplicemente eliminando la rotazione
dal set di trasformazioni che preserva la forma percepita.
Questa soluzione però butta via il bambino con
l'acqua sporca, perché ci sono molti casi in
cui due figure correlate da una rotazione vengono effettivamente
percepite come aventi la stessa forma. Come esempio
possiamo guardare la figura 8.1.1B. Esempi come questi
effettivamente bloccano ogni tentativo di accomodare
questa ipotesi semplicemente tralasciando la rotazione.
8.1.3 ALLINEAMENTO TRAMITE TRASFORMAZIONE (SIMILARE)
Un
secondo modo per stabilire se due oggetti hanno la stessa
forma si basa sul trovare una trasformazione che porti
uno in esatto allineamento con l'altro. Se esiste questa
trasformazione e se proviene dalla serie di cambiamenti
possibili (traslazione, rotazione, ecc.) allora gli
oggetti avranno la stessa forma. Altrimenti no.
Questo approccio alla forma equivalente è plausibile,
non solo perché esso è così simile
all'oggettiva definizione di forma equivalente data
sopra, ma anche per la sua stretta connessione con molti
altri fenomeni visivi. Quando discuteremo la percezione
del moto, nel cap. 10, troveremo che il sistema visivo
ha una forte tendenza a percepire una forma in movimento
come deformata e nel cap.12 scopriremo l'importanza
dell'uso delle trasformazioni mentali per comparare
due oggetti simili. La trasformazione di oggetti e il
processo di allineamento appare essere importante anche
in certe teorie di riconoscimento di oggetti di cui
parleremo nel nono capitolo.
Per illustrare come funziona questo processo immaginate
due oggetti bidimensionali con la stessa forma, posizione,
orientamento e misura, come nella figura 8.1.4 A e B.
entrambi gli oggetti hanno due punti salienti nella
stessa posizione, il puntino bianco e quello nero. I
due oggetti A e B possono esser messi a confronto con
le seguenti procedure:
1.
Trovando la corrispondenza tra puntini: nero con nero
e bianco con bianco.
2.
Determinando la traslazione, rotazione, riflesso e dilatazione
necessari per allineare perfettamente i puntini di B
con quelli di A.
3.
Applicare le stesse trasformazioni a tutta la figura
B, includendo tutti i punti piuttosto che solo quelli
bianchi e neri.
4.
Determinare se le figura B trasformata (figura C) è
identica alla figura A. Se è così, la
figura A e quella B avranno la stessa forma, in caso
contrario no. Questa conclusione è garantita
dal fatto che che comunque le trasformazioni usate fanno
parte del gruppo similare.
Usare
la procedura di allineamento sulle figure reali è
più complicato di quanto questo esempio può
lasciar credere per una serie di motivi. Uno dei più
importanti è che gli oggetti non vengono comodamente
marcati con i puntini neri e bianchi. Nonostante questo,
un piccolo numero di punti salienti, a volte chiamati
punti ancora, possono essere identificati dalla struttura
della figura stessa. Punti di massima concavità
lungo il contorno- dove solo collocati i puntini bianchi
e neri nelle figure 8.1.4- sono dei buoni punti ancora,
così come i punti di massima convessità
al centro della figura (Hutterlocher & Ullman, 1987).Sebbene
due punti ancora siano sufficienti per allineare una
figura 2-D in piano frontale, c'è ne vogliono
tre non collineari per le figure 3-D. poiché
naturalmente i punti ancora non sono colorati non è
subito chiaro quali punti di un oggetto corrispondano
all'altro. Etichettarli per tipo (concavi, convessi,
centrali, ecc.) può aiutare, dal momento che
la convessità in uno non può che corrispondere
alla convessità di un altro. Così, l'esempio
della figura 8.1.4 è ambiguo perché entrambi
i punti ancora si trovano in una zona concava. La procedure
consiste nel trovare tutte le possibili corrispondenze
e determinare così se la figura risulta identica.
Nonostante le sue virtù, l'ipotesi di allineamento
mostra alcune difficoltà. Se per esempio una
figura è complessa e contiene vari potenziali
punti ancora, o se dei metodi di principio devono essere
trovati per eliminare tutte tranne alcune possibilità,
o se sono molte le differenti corrispondenze che devono
essere provate. Senza etichette per aiuto, i punti ancora
n di ogni oggetto sono n! (=n x (n-1) x (n-2) x
x1)
possibili corrispondenze, e possono essere molte. Un
oggetto con 5 punti ancora, per esempio, ha 120 possibili
corrispondenze, e uno con 10 ne ha 3.628.800. La serie
di possibili corrispondenze deve essere testata fino
a quando non si è raggiunto un allineamento accettabile
o tutte le combinazioni sono esaurite.
Un secondo problema è che lo stesso set di punti
ancora può essere visibile in due figure. Questo
non è un problema per le figure bidimensionali
che abbiamo considerato nell'illustrazione 8.1.4 o per
certe classi di oggetti 3-D (come quelle fatte in fil
di ferro dove non compaiono occlusioni), ma diventa
un problema importante con molti altri oggetti 3-D per
i quali i punti ancora possono essere visibili in un
oggetto e non nell'altro.
Un terzo problema consiste nel fatto che esistono degli
oggetti che sono tipicamente percepiti come aventi forme
diverse anche se possono effettivamente essere portati
in perfetto allineamento da una trasformazione similare.
Il quadrato/diamante ne è un esempio perché
le due figure sono identiche, una è solo ruotata
di 45° rispetto all'altra. L'ipotesi di allineamento
tramite trasformazione implica che tali figure possano
sempre essere viste come equivalenti, ma ciò
non accade sempre.
Per render conto di questa discrepanza, questa ipotesi
propone una spiegazione per il mancato riconoscimento
del quadrato/diamante. Il tipo di punti ancora menzionati
sopra - il centro della massa, le convessità
e concavità- rimangono invarianti dopo la rotazione
quindi non forniscono un valore plausibile a questo
fenomeno. Altri tipi di punti ancora e/o schemi di orientamento
non obiettivi per stabilire delle corrispondenze tra
punti ancora potrebbero essere inventati ma si traterebbe
di trucchi. Se l'allineamento fosse definito da un asse
di simmetria, allora il quadrato/diamante potrebbe essere
allineato come mostrato nella figura 8.1.3 e sarebbe
per forza percepito come diverso.
8.1.4 STRUTTURA DI RIFERIMENTO CENTRATA SULL'OGGETTO
Una
terza alternativa per risolvere il problema della forma
equivalente è quello di definire la forma tramite
una struttura di riferimento centrata sull'oggetto.
In molte cose questa ipotesi riprende il processo di
allineamento che abbiamo già discusso ma è
sufficientemente differente da richiedere una descrizione
separata.
Il concetto che la percezione della forma deve coinvolgere
una struttura di riferimento è suggerita dall'osservazione
che una persona può vedere il diamante di Match
come un quadrato inclinato se percepisce un lato diagonale
come superiore. Cosa significa? Che le figure di Match
possono essere percepite una come avente una forma (diamante)relativa
alla verticale gravitazionale e un'altra (quadrato)
relativa a un orientamento diagonale che ridefinisce
la percezione della figura, del sopra, del sotto e dei
lati. E' da notare che queste due alternative sono mutualmente
esclusive così che la figura non può essere
percepita come due figure contemporaneamente. Irvin
Rock (1973) fu tra i primi a suggerire che questa relazione
tra forma e orientamento nasce perché percepire
le forme è una descrizione relativa ad una struttura
di riferimento percettiva sebbene l'idea di una struttura
di riferimento era stata precedentemente usata dai teorici
della Gestalt per spiegare altri fenomeni di percezione
dell'orientamento. Rock propose questa idea specificatamente
per il caso dell'orientamento ma altre teorici (per
esempio Marr & Nishihara, 1978; Palmer, 1975b, 1989)
più tardi la generalizzavano per altre proprietà,
come posizione e misura attraverso l'analogia con le
strutture di riferimento geometriche (vedere sotto).
Nella sua forma generale, questa ipotesi fornisce un'alternativa
alle due precedenti sul tema dell'equivalenza della
forma. E' basata sull'idea che gli effetti delle trasformazioni
similari sulla forma percepita possano essere cancellati
dall'imporre una struttura di riferimento intrinseca
che effettivamente separa la forma rappresentata dall'azione
delle trasformazioni. Per capire come questo sia possibile
esamineremo la situazione analoga in geometria analitica
nella quale il sistema di coordinate gioca un ruolo
di struttura di riferimento degli oggetti geometrici.
SISTEMA
DI COORDINATE GEOMETRICHE
Nella geometria analitica, gli oggetti geometrici come
linee, curve, cerchi ed elissi sono rappresentati in
descrizioni simboliche sotto forma di equazioni. Quello
che rende ciò possibile è un sistema di
coordinate: una struttura formale, creata dal grande
filosofo e matematico francese Renè Descartes,
che permette ad ogni punto in un spazio dimensionale
n di essere rappresentato come un set ordinato di n
numeri chiamato coordinate. La serie di punti che fa
si che l'oggetto geometrico sia descritto può
allora essere specificato da un'equazione che esprima
la relazione tra le coordinate numeriche dei punti che
fanno parte dell'oggetto.
Consideriamo per esempio un sistema di coordinate cartesiane
standard in uno spazio bidimensionale. Esso serve a
stabilire una serie strutturata di riferimenti standard
per rappresentare la posizione in coordinate solitamente
definite (x,y). Un sistema cartesiano include:
1.un
riferimento alla posizione che definisce la sua origine,
2.un riferimento all'orientamento che definisce gli
assi,
3.un riferimento alla distanza che definisce l'unità
di misura, e
4.un riferimento alla direzione (senso) che definisce
la direzione positiva lungo gli assi.
Questi
riferimenti standard sono sufficienti, in uno spazio
bidimensionale, per assegnare una coppia unica di numeri,
(x,y) a ogni punto in un piano 2-d, come illustrato
nella figura 8.1.5.
Come esempio concreto di come un sistema di coordinate
può produrre una descrizione simbolica consideriamo
il cerchio contrassegnato dalla lettera a nella parte
sinistra della figura 8.1.6. in quel caso esso può
essere descritto dall'equazione
x²+
y² = 1.
In questa particolare equazione per descrivere il cerchio
il centro del sistema di coordinate deve essere al suo
centro, e la sua unità di misura deve essere
uguale al raggio del cerchio. (L'orientamento e la direzione
lungo gli assi non è un problema per i cerchi
perché la circonferenza non varia -cioè
è simmetrica- per tutte le rotazioni e riflessioni).
Questa particolare struttura di riferimento permette
a questa circonferenza particolare di essere descritta
simbolicamente da questa particolare equazione.
Può questa equazione essere usata per rappresentare
la forma di tutte le circonferenze? Per scoprirlo consideriamo
come l'altra circonferenza, contrassegnata dalla lettera
b nella parte sinistra della figura 8.1.6, può
essere descritta all'interno dello stesso sistema di
coordinate.
Sebbene simili sotto certi aspetti importanti l'equazione
di b è in qualche modo diversa:
(x-2)²
+ (y-2)²= 4.
La
differenza nasce dal fatto che la posizione e la misura
della circonferenza b è diversa dalla circonferenza
a e usando lo stesso sistema di coordinate per descrivere
entrambi ne consegue che l'equazione si presenta differente.
La chiave di osservazione per capire l'ipotesi della
struttura di riferimento centrata sull'oggetto si basa
sul fatto di non usare lo stesso sistema di coordinate
per descrivere le due circonferenza ma di usufruire
di due sistemi differenti. Se il centro del sistema
di coordinate per la circonferenza b si fosse trovato
al centro della circonferenza stessa e se l'unità
di misura del sistema fosse stato uguale al suo raggio
allora l'equazione di b per questo secondo sistema di
coordinate sarebbe stato esattamente la stessa di a
nell'altro sistema. Questa possibilità è
illustrata nella parte destra della figura 8.1.6 che
mostra le stesse due circonferenze descritte nei due
diversi sistemi di coordinate. L'intuizione importante
che deriva da quest'esempio è che, relativamente
al loro sistema di coordinate definito intrinsecamente,
le due circonferenze hanno la stessa identica equazione.
Così, scegliendo il "giusto" sistema
di coordinate la variazione della misura e dell'orientamento
della circonferenza può essere eliminata dall'equazione.
Queste variazioni sono in qualche modo "assorbite"
dal sistema di coordinate differenti così che
l'equazione non cambia per qualsiasi circonferenza.
STRUTTURA
DI RIFERIMENTO PERCETTIVA. Si ipotizza che una struttura
di riferimento in percezione sia analoga ai sistemi
di coordinate in geometria analitica nel senso che essa
può essere usata per mappare un oggetto spaziale
in un descrizione simbolica percettiva. Un modo in cui
questo può avvenire è tramite la struttura
di riferimento centrata sullo spettatore: un singolo
sistema di coordinate in cui la struttura standard è
scelta in relazione allo spettatore, con il centro che
corrisponde al punto di fissazione, il suo orientamento
e la direzione positiva allineata con l'orientamento
verticale e con il right-ward della retina e la sua
scala (unità di misura) definita da alcuni angoli
di visione della retina scelti in modo arbitrario. Nella
struttura di riferimento centrata sullo spettatore,
è come se la retina avesse una grata cartesiana
disegnata su di essa grazie alla quale tutti gli oggetti
possono essere descritti. Questo è forse il modo
più ovvio per descrivere una struttura di riferimento
percettiva ma non è l'unica.
Un'alternativa è quella di assegnare a ogni oggetto
la sua struttura di riferimento centrata sull'oggetto
scelta sulla base delle proprietà intrinseche
grazie alle quali un oggetto può essere descritto.
Questa ipotesi suggerisce che il sistema di coordinate
usato per descrivere ogni oggetto è, in qualche
modo, fatta su misura per quel oggetto particolare.
Invece, come vedremo, sistemi di coordinate diverse
possono essere usate per descrivere parti dello stesso
oggetto.
Grossolanamente parlando la struttura di riferimento
centrata sull'oggetto tende a produrre descrizioni identiche
per oggetti con forme equivalenti perché molte
(ma non tutte) le forme sono sufficientemente ben strutturate
da indurre il sistema visivo a descriverle dentro la
stessa struttura. Facciamo un esempio, se solo l'orientamento
di due oggetti altrimenti identici è differente,
come una sedia in piedi e una rovesciata, allora l'orientamento
della loro struttura basata sull'oggetto sarà
definita in modo che entrambe abbiano la stessa descrizione.
Ciò vale anche per le differenze di misura come
per esempio un'automobile di dimensioni normali e un
modellino della stessa, le dimensioni delle loro struttura
di riferimento centrata sull'oggetto differiranno in
maniera corrispondente. Purché le differenze
nella struttura di riferimento siano compensate da una
trasformazione similare , la forma equivalente può
essere veridicamente percepita. Invece, se si scelgono
strutture diverse per qualche ragione - come quando
gli assi di simmetria sono allineati con la gravità
nel quadrato/diamante di Match - anche le stesse forme
possono essere percepite in modo diverso. Questa è
l'osservazione chiave che rende questa teoria affascinante
per quel che riguarda la percezione della forma.
La struttura centrata sull'oggetto è così
chiamata perché sceglie di adattare la sua struttura
alle caratteristiche dell'oggetto, come abbiamo visto
nella figura 8.1.6 (parte destra). L'idea generale si
basa sulla convinzione che due forme siano percepite
equivalenti tutte le volte in cui due oggetti hanno
la stessa descrizione simbolica - qualsiasi essa sia
- all'interno della propria struttura di riferimento
centrata sull'oggetto. Così le strutture percettive
possono compensare la differenza nell'orientamento di
due oggetti nello stesso modo di una differenza di misura
o di posizione. Se l'orientamento di due oggetti altrimenti
identici differisce, allora gli oggetti saranno percepiti
come aventi la stessa forma purché l'orientamento
della loro struttura di riferimento corrisponda nello
stesso modo al soggetto. Il risultato finale è
che se la stessa struttura intrinseca viene usata per
la stessa forma in tutte le situazioni allora la forma
equivalente sarà perfettamente percepita per
tutte le trasformazioni del similarity group.
Motivi
di fallimento della percezione di forme equivalenti.
Tutta
la forza e la debolezza della struttura di riferimento
intrinseca di cui abbiamo parlato sopra stà nella
frase condizionale "se la stessa struttura intrinseca
viene usata per la stessa forma in tutte le situazioni".
Questa è una debolezza perché non è
computazionalmente possibile trovare questa situazione.
Come può la struttura scelta essere così
strettamente legata alle proprietà di un oggetto
da essere usata sempre? Questo problema nasce dalla
difficoltà di scelta che talvolta ci porta a
"sbagliare" struttura intrinseca come si può
capire dai fallimenti nella percezione di forme equivalenti.
Come teoria della percezione umana, invece, questa difficoltà
può essere un punto di forza che porta le persone
a sbagliare sempre nelle stesse situazioni.
Possono questi fallimenti essere spiegati dall'ipotesi
della struttura di riferimento basata sull'oggetto?
Palmer (1985) propone tre importanti assunzioni per
il caso di diverso orientamento:
1.descrizione
relativa. La forma è percepita in relazione alla
struttura di riferimento nella quale un orientamento
specifico è standard di descrizione?
Questa
assunzione implica che la forma equivalente è
determinata dal confrontare le descrizioni simboliche
degli oggetti piuttosto che gli oggetti direttamente
grazie le trasformazioni di allineamento.
2.
tendenze intrinseche. Il sistema percettivo usa delle
euristiche (regole empiriche) che sono basate sulla
struttura intrinseca dell'oggetto stesso per assegnare
una struttura di riferimento a un oggetto.
Noi
ci siamo chiesti brevemente cosa queste euristiche possono
essere, alcune possibilità riguardano il fatto
che la struttura di riferimento possa essere stabilita
lungo un asse di simmetria o di proiezione. Così
queste euristiche forniscono percezione veridiche di
forme equivalenti in molti casi perché le stesse
regole applicate agli stessi oggetti generalmente producono
gli stessi risultati. Ma essendo le euristiche sono
imperfette ci possono essere alcune circostanze - come
gli oggetti con molteplici assi di simmetria - in cui
i differenti orientamenti possono essere scelti, portando
a degli errori principalmente nella forma equivalente.
3.tendenze
estrinseche. In aggiunta alla tendenza centrata sull'oggetto
nella selezione dell'orientamento ci sono anche tendenze
a trovare l'orientamento saliente rispetto alle altre
strutture di riferimento o direzione, così come
la verticalità gravitazionale, l'orientamento
del corpo dell'osservatore o l'asse alto-basso della
retina.
Per
un osservatore posto verticalmente, queste sono tutte
coerenti una con l'altra, ma possono essere messe in
conflitto quando la testa dell'osservatore e/o il suo
corpo sono inclinati rispetto alla gravità. Le
tendenze estrinseche sono a volte abbastanza forti da
causare errori nella percezione della forma equivalente.
Queste tre assunzioni insieme implicano che l'orientamento
della struttura percettiva per un dato oggetto sarà
una funzione unita della sua struttura intrinseca, all'orientamento
relativo all'osservatore e all'orientamento relativo
all'ambiente. Se per esempio una figura ha due o più
assi intrinseci per l'orientamento della struttura basata
sull'oggetto e uno di questi viene a trovarsi allineato
con la verticale gravitazionale allora si tende a scegliere
l'asse verticale come risulta da alcune descrizioni
particolari della forma. Se una figura altrimenti identica
è vista con un diverso orientamento cioè
con un asse diverso da quello allineato con la verticale,
questo asse può essere scelto per la struttura
di riferimento. Lo stesso oggetto in un orientamento
ambientale differente può quindi produrre differenti
descrizioni della forma.
Questo è il modo in cui la ipotesi della struttura
di riferimento centrata sull'oggetto spiega il fallimento
della percezione della forma equivalente nel caso del
quadrato/diamante di Match. Esso può portare
alla percezione di due forme differenti se l'asse di
simmetria è allineato orizzontalmente o verticalmente
- cioè con la bisettrice del suo lato o del suo
angolo. Quando è la bisettrice del lato a essere
allineata orizzontalmente e verticalmente le persone
percepiscono la figura come diamante. Così la
violazione dell'equivalenza oggettiva della forma può
risultare dallo stesso meccanismo della struttura di
riferimento che generalmente produce la reale percezione
della forma equivalente.
Perché strutture di riferimento diverse possono
risultare nelle diverse descrizioni dello stesso oggetto?
Palmer (1983) suggerisce che la differente struttura
di riferimento crea differenti proprietà relazionali
disponibili per la percezione come illustrato nella
figura 8.1.7. nel caso del diamante/quadrato, per esempio,
la percezione del quadrato rende chiaro il fatto che
i suoi lati sono paralleli con gli assi della struttura
e l'uno per l'altro come proprietà certe che
nascono dalla simmetria del riflesso circa gli assi
della struttura -per esempio , i lati opposti sono uguali
in lunghezza e gli angoli adiacenti sono di ugual misura
(figura 8.1.7 A). questo implica anche che un quadrato
può essere visto come più simile a
un rettangolo (che ha la stessa struttura) che un rombo
(nel quale gli angoli sono obliqui relativamente all'asse
e gli angoli adiacenti non sono uguali). Questo confronto
è illustrato nella figura 8.1.8 A, basata su
una dimostrazione di Goldmeier. (1936/1972).
La percezione del diamante, invece, rende chiaro che
i lati sono obliqui rispetto agli assi, che gli angoli
opposti hanno la stessa misura e che i lati adiacenti
sono uguali in lunghezza (figura 8.1.8 B). questo implica
che il diamante sembrerà più simile al
rombo che al rettangolo, ribaltando le relazioni di
somiglianza dell'esempio del quadrato. Questo vale anche
se le tre figure sono ruotate di 45° rispetto a
quelle della figura 8.1.8A.
Hinton (1979,1981) ha compiuto alcune osservazioni circa
il fallimento della percezione della forma equivalente
dovuti all'uso di strutture di riferimento differenti.
Egli studiò un compito di immagine mentale usando
un cubo tridimensionale. Prima chiese ai suoi soggetti
di immaginare un cubo appoggiato su di un tavolo di
fronte a loro (figura 8.1.9A). Dopo gli chiese di ruotare
l'immagine di questo cubo così che due vertici
opposti venissero a trovarsi allineati verticalmente,
come se il cubo fosse in bilico su uno due dei suoi
angoli (figura 8.1.9B). Quando i soggetti avevano completato
la trasformazione mentale egli chiese loro di puntare
la posizione del vertice supplementare (immaginario).
Quasi tutti puntarono ai quattro punti che, in una configurazione
di un quadrato, giacciono nel piano orizzontale che
biseca la linea tra i vertici allineati verticalmente.
Infatti questa non definisce un cubo ma una doppia piramide,
come illustrato nella figura 8.1.9C. La risposta corretta
è molto più complicata: ci sono effettivamente
sei vertici che giacciono alternativamente su due piani
paralleli connessi dal bordo che scorre tra essi, come
mostrato in figura 8.1.9B.
Quello che questa analisi e questa dimostrazione suggeriscono
è che l'effetto estremo di selezionare una struttura
di riferimento percettiva è quello di fornire
all'osservatore differenti serie di relazioni geometriche
contenute nella struttura della figura. Poiché
è impossibile estrarre tutte le possibili relazioni
dalle figure - sono molte - e molto di esse sono estremamente
ridondanti, il sistema visivo sceglie la serie più
stabile e pratica che riesce a trovare. Questa serie
è quella delle relazioni potenzialmente percepibili
che, come Palmer (1983) suggerisce, costituiscono la
struttura di una struttura di riferimento percettiva.
Rimane da determinare precisamente come possono queste
relazioni (o se questa è la via migliore) per
caratterizzare la struttura di riferimento percettiva.
ORIENTAMENTO
E FORMA.
Può
sembrare irragionevole fare così tanta confusione
a proposito della dimostrazione sul quadrato/diamante
di Mach, che potrebbe semplicemente essere un'interessante
anomalia. In effetti, comunque, Rock (1973) ha dimostrato
che questo fenomeno è di gran lunga più
pervasivo di quanto si possa supporre in base all'esperienza
quotidiana. L'importanza delle sue scoperte sta nelle
loro implicazioni riguardo al fatto che gli schemi di
riferimento centrati sull'oggetto siano solitamente
chiamati in causa nelle percezioni di equivalenza di
forma. Com'è spesso dimostrato, gli insuccessi
di un sistema a volte si dimostrano essere più
illuminanti per quanto riguarda i meccanismi sottostanti
al sistema stesso di quanto lo siano i successi. Ancora,
non dobbiamo perdere di vista il fatto che una corretta
percezione dell'equivalenza fra forme costituisce la
regola, mentre i fiaschi costituiscono l'eccezione.
In termini di quadro di riferimento delle ipotesi, ciò
significa che il punto di vista è solitamente
stabilito in accordo con gli oggetti, solo raramente
si dimostra essere allineato in maniera diversa.
Rock (1973) ha dimostrato che in determinate condizioni
la percezione di equivalenza di forma riferita a rotazioni
di piano è piuttosto difficile da ottenere. Egli
mostrò ai soggetti una sequenza di alcune forme
amorfe e insolite in un determinato orientamento durante
una fase di presentazione iniziale e successivamente
li testò riguardo alla memoria di riconoscimento
di figure poste nello stesso modo contro figure diversamente
orientate (vedi figura 8.1.10A). I risultati dimostrarono
che le persone riconoscono con minore probabilità
le forme se testate in un orientamento diverso rispetto
all'orientamento iniziale. Le loro povere prestazioni
di riconoscimento, che si avvicinano al caso per rotazioni
di 90 gradi, indicano che i soggetti spesso falliscono
nel percepire equivalenza di forma fra le figure presentate
inizialmente e presentate durante la prova.
In una serie di ulteriori studi Rock dimostrò
che il primo fattore determinante l'orientamento per
queste figure poco strutturate non è retinico,
ma ambientale e/o gravitazionale. Ad esempio, quando
gli osservatori inclinavano le loro teste di 90°
fra la presentazione e la fase di test senza che l'orientamento
delle figure rispetto all'ambiente fosse cambiato, la
prestazione di riconoscimento era assai migliore rispetto
a quando cambiava di 90° l'orientamento delle figure
senza che le teste degli osservatori venissero inclinate.
Rock prese questo e altri risultati collegati come evidenza
del fatto che la forma è percepita in relazione
ad uno schema di riferimento ambientale in cui la gravità
definisce l'orientamento di riferimento, al limite anche
in assenza di assi intrinseci all'oggetto stesso. Se
l'orientamento delle figure in relazione all'ambiente
cambia dal momento della presentazione iniziale a quello
della fase di test, la descrizione della figura presentata
in fase di test non corrisponderà con quella
depositata in memoria, e l'osservatore perciò
spesso commetterà errori nel riconoscere l'equivalenza
fra le due figure.
La spiegazione classica riferita a Rock per gli insuccessi
nella percezione dell'equivalenza fra forme si rifà
alla caratteristica di amorfità propria delle
forme da lui utilizzate. Ma cosa succede quando vengono
utilizzate forme con "buoni" assi intrinseci,
in grado di guidare la scelta di appropriati quadri
di riferimento centrati sull'oggetto? Wiser (1981) analizzò
in modo preciso questo quesito e trovò che le
figure con buoni assi intrinseci vengono riconosciute
allo steso modo sia quando vengono presentate e testate
in orientamenti diversi che quando vengono presentate
e testate nello stesso orientamento (figura 8.1.10B).
Utilizzando figure amorfe come quelle di Rock, comunque,
Wiser replicò i risultati di questo (figura 8.1.10A).
Questi risultati sono completamente in accordo con le
analisi teoriche di Rock (1973), sebbene quest'ultimo
fosse più interessato alla spiegazione dei fallimenti
nella percezione di equivalenza fra forme che nella
spiegazione dei successi.
In ulteriori esperimenti Wiser (1981) dimostrò
che quando una figura ben strutturata viene presentata
inizialmente in modo che il suo asse non sia allineato
con il piano gravitazionale verticale, il conseguente
riconoscimento risulta essere più rapido quando
la figura viene presentata nella fase di test nel suo
orientamento verticale. Essa interpretò questo
risultato a voler significare che la forma è
immagazzinata nella memoria anche se è perpendicolare
in relazione al suo proprio quadro di riferimento centrato
sull'oggetto. Questo risultato è importante soprattutto
perché sconferma la semplicistica ipotesi secondo
la quale il riconoscimento di forme è sempre
migliore nel caso in cui le figure siano presentate
e poi testate nello stesso orientamento. E' comunque
in accordo con una stima in termini di quadri di riferimento.
E' soltanto necessario assumere che il quadro di riferimento
centrato sull'oggetto proprio della figura sia stabilito
dalla sua struttura interna nel caso in cui questa struttura
sia sufficientemente forte. I risultati di Wiser, quindi,
implicano che il processo di riconoscimento operi più
efficacemente quando il quadro di riferimento centrato
sull'oggetto proprio della figura è allineato
con il quadro gravitazionale del suo ambiente circostante.
Da notare il fatto che i risultati di Wiser riferiti
a figure con buoni assi intrinseci dimostrano la corretta
percezione di equivalenza fra forme. La figura è
riconosciuta meglio in un orientamento diverso dal momento
che è percepita come avente la stessa forma.
Comunque, questo succede solo quando la figura è
dotata di un buon asse intrinseco che ne guidi l'orientamento
di riferimento in relazione allo stesso asse entrambe
le volte. Se la figura possiede più di un buon
asse (come il quadrato/diamante di Mach) o è
priva di buoni assi (come gli stimoli di Rock) l'equivalenza
di forma può non venire percepita quando diversi
assi sono in linea con un punto di riferimento estrinseco
saliente sia in fase di presentazione che in fase di
test. Così, sia i risultati degli esperimenti
di Rock che quelli di Wiser supportano le ipotesi di
quadro di riferimento centrato sull'oggetto.
EURISTICHE
NELLA SELEZIONE DI QUADRI DI RIFERIMENTO.
Se la stima di percezione di equivalenza fra forme in
termini di quadri di riferimento centrati sull'oggetto
è esatta, allora è importante considerare
quali fattori potrebbero governare la selezione di schemi
appropriati. Per alcune proprietà la risposta
è piuttosto ovvia, per altre è sorprendentemente
evasiva. La posizione di riferimento per il quadro -corrispondente
al centro di un sistema di coordinate geometriche- potrebbe
essere identificata con il centro di massa dell'oggetto.
Questa è una proprietà dell'oggetto stesso
facilmente calcolata che può essere utilizzata
per definire il centro del suo proprio schema di riferimento
centrato sull'oggetto. La grandezza della scala di riferimento
-corrispondente all'unità di distanza in un sistema
di coordinate geometriche- può essere identificata
con l'estensione dell'oggetto lungo la sua più
lunga dimensione. Anche questa è una proprietà
dell'oggetto facilmente calcolata che perciò
può essere utilizzata per definire la dimensione
di un quadro di riferimento centrato sull'oggetto. Così,
la posizione assoluta e l'ampiezza assoluta sono due
proprietà che possono essere facilmente calcolate
nella percezione di forma di un oggetto con esigua o
nulla ambiguità (questo è vero soltanto
per oggetti 2-D su un piano frontale. Se è chiamata
in causa la percezione 3-D, allora la dimensione più
lunga può variare sostanzialmente a seconda della
prospettiva di vista).
Come si può desumere dalla precedente discussione
sull'interdipendenza fra orientamento e forma, il fatto
di selezionare l'orientamento di riferimento per un
quadro di riferimento intrinseco a un oggetto è
molto complesso. Un certo numero di fattori stimolo
sembrano essere importanti per la sua determinazione:
1. ORIENTAMENTO GRAVITAZIONALE. Siccome la forza di
gravità è un fattore così importante
per determinare la struttura di orientamento in riferimento
all'ambiente risulta essere molto importante anche per
la determinazione di schemi di riferimento centrati
sull'oggetto. L'orientamento gravitazionale verticale
sembra funzionare come difetto di valore per l'orientamento:
l'orientamento che verrà selezionato per uno
schema di riferimento centrato sull'oggetto in assenza
di una forte struttura di orientamento nell'oggetto
stesso. L'orientamento orizzontale è un altro
orientamento ambientale saliente che influisce sulla
selezione dello schema.
2. ASSI DI SIMMETRIA RELATIVI ALLA RIFLESSIONE. Un tipo
di struttura basata sull'oggetto particolarmente utile
nel definire l'orientamento di un quadro di riferimento
interno è l'asse di simmetria di riflessione
(o bilaterale).Se ce n'è solo uno, allora può
essere usato senza ambiguità per definire l'orientamento
del quadro, come mostrato in figura 8.1.10B. Se ce n'è
più di uno -come nell'ambiguo quadrato/diamante
di Mach- allora l'orientamento del quadro risulterà
potenzialmente ambiguo.
3. ASSI DI ALLUNGAMENTO. Un altro tipo di struttura
figurale piuttosto utile nel definire l'orientamento
di uno schema di riferimento interno è l'asse
di allungamento. Ancora, nell'ampiezza in cui c'è
un chiaro asse di allungamento, questo può essere
utilizzato per specificare lo schema senza ambiguità,
come nella figura 8.1.10B. Ma se più di una soluzione
risulta possibile, l'ambiguità rimane.
4. ORIENTAMENTO DEL CONTORNO. Un altro fattore implicato
nell'orientamento di uno schema di riferimento centrato
sull'oggetto è l'orientamento dei contorni dell'oggetto,
soprattutto se questi sono dritti. Un margine inferiore
orizzontale è particolarmente importante dal
momento che suggerisce stabilità gravitazionale,
una proprietà ecologicamente importante che improbabilmente
risulta essere casuale. I contorni in altri orientamenti
possono anche produrre effetti sostanziali sui quadri
di riferimento, soprattutto se sono estesi e/o si trovano
in coppie parallele.
5. ORIENTAMENTO STRUTTURALE. L'orientamento di elementi
strutturali all'interno di una figura, come ad esempio
righe, può essere importante nel definire l'orientamento
di un quadro di riferimento, soprattutto se gli elementi
sono relativamente grossi e spessi rispetto alla figura.
6. ORIENTAMENTO CONTESTUALE. Anche l'orientamento di
oggetti attigui può influenzare l'orientamento
di un quadro di riferimento, soprattutto se sono essi
stessi fortemente orientati e reggono una stretta relazione
strutturale con la figura in questione. Una forte influenza
contestuale è esercitata da un rettangolo che
circonda. Ad esempio la figura 8.1.11 mostra che un
rettangolo inclinato di 45° può provocare
il fatto che il diamante dritto di Mach sia percepito
come un quadrato inclinato. L'orientamento di righe
strutturali nel territorio attorno alla figura può
anche influenzare l'orientamento del quadro di riferimento
percepito.
7. MOVIMENTO. Anche la direzione del movimento di un
oggetto può fortemente influenzare la sua percezione
di orientamento e forma. Presumibilmente questo succede
perché il movimento distingue l'orientamento
allineato con la propria traiettoria da tutti gli altri.
La parte dell'oggetto rivolta nella direzione del movimento
è generalmente concepita come la parte davanti
o sopra dell'oggetto, con uno degli assi del quadro
di riferimento allineati lungo la direzione del movimento.
Questi principi di quadro di selezione sono assimilabili
ai principi di raggruppamento della Gestalt. Cioè
essi sono distorsioni potenzialmente indipendenti che
possono essere utilizzate per predire il quadro di riferimento
esclusivamente in casi puri o in quei casi in cui diversi
fattori convergono per influenzare lo stesso orientamento.
In diverse situazioni, comunque, diversi fattori sono
in conflitto gli uni contro gli altri, come mostrato
in figura 8.1.12. La maggior parte delle persone percepisce
questa figura come un poligono asimmetrico capovolto.
Non c'è nulla di sorprendente in ciò finchè
non viene realizzato che c'è un asse di simmetria
lungo un orientamento obliquo. La ragione più
probabile che fa all'inizio apparire questa figura come
capovolta piuttosto che inclinata è l'orientamento
orizzontale del contorno dello sfondo. La percezione
risultante di stabilità gravitazionale rinforza
così la naturale tendenza a selezionare l'orientamento
verticale come l'orientamento di riferimento.
La figura 8.1.13A mostra la stessa figura significativamente
allungata lungo il suo asse di simmetria. Adesso è
molto più semplice vederla come una figura appuntita
simmetrica e inclinata che punta in giù e a sinistra.
La figura 8.1.13B mostra la stessa figura 8.1.12 ma
ruotata di 180 gradi. In questo orientamento è
più probabile che sia percepita come una figura
simmetrica inclinata che punta all'insù verso
destra dal momento che non è gravitazionalmente
stabile. Cioè, sembra che si inclini in senso
antiorario in modo che il lato più lungo finisca
con l'essere orizzontale e il suo asse di simmetria
verticale. La figura 8.1.13C mostra la stessa figura
con all'interno spesse righe che influenzano la percezione
in direzione di un quadro di riferimento obliquo. La
figura 8.1.13D mostra ancora la stessa figura ma posta
all'interno di un rettangolo che la circonda e che influenza
fortemente un quadro di riferimento in linea con i suoi
bordi. Infine la figura 8.1.13E descrive l'influenza
del muovere la stessa figura lungo il suo asse di simmetria,
che crea una fortissima influenza a percepirla come
una forma simmetrica inclinata. Sfortunatamente, non
c'è ancora un'unica teoria riguardo alla selezione
dei quadri di riferimento in grado di specificare il
modo in cui fattori multipli si combinino in una misura
unica che predica l'orientamento risultante di un quadro
di riferimento centrato sull'oggetto.
E' importante notare che le teorie sull'equivalenza
i forma basate su un quadro di riferimento centrato
sull'oggetto sono in stretta relazione con quelle basate
su allineamenti trasformazionali. La ragione è
che in entrambi i casi viene usata una serie di trasformazioni
per assorbire, cancellare o rilevare differenze fra
i due oggetti. Nelle teorie sull'allineamento uno degli
oggetti viene trasformato in esatta corrispondenza con
l'altro laddove nelle teorie sui quadri di riferimento
il quadro di riferimento viene trasformato in corrispondenza
con la struttura dell'oggetto. Questo non significa
che le due teorie sono uguali. L'allineamento trasformazionale
è basato sull'accoppiamento di due immagini,
mentre i confronti di schemi di riferimento sono basati
su descrizioni simboliche di forma all'interno dello
schema di riferimento. Inoltre, le teorie sull'allineamento
sono spesso basate su conteggi su punti fissi, mentre
le teorie sullo schema di riferimento sono solitamente
basate sulla ricerca di un orientamento intrinseco,
attraverso simmetrie, assi di prolungamento, texture
e così via, come appena detto. Non è ancora
chiaro quale approccio si avvicini maggiormente alla
percezione delle forme propria dell'essere umano.
TEORIE
SULLA RAPPRESENTAZIONE DELLA FORMA.
L'equivalenza fra forme è solo uno degli aspetti
della percezione di forme. Si occupa del problema di
decidere quando due oggetti sono identici come forma
ma non affronta il problema cruciale della similarità
di forma fra oggetti che non sono identici. La somiglianza
fra forme è un problema molto più complesso
perché richiede una teoria che specifichi come
rappresentare la forma in un modo che fornisca una misura
graduata corrispondente alla similarità percepita.
Da notare che non c'è molto da dire circa la
rappresentazione della forma nella nostra discussione
sull'equivalenza fra forme perché viene richiesta
soltanto una decisione con due alternative: due oggetti
hanno o non hanno la stessa forma? Questa semplificazione
ci permette di definire le condizioni sotto le quali
due oggetti hanno la stessa forma senza però
dover proporre una teoria completa sulla percezione
della forma. In questa sezione considereremo varie proposte
teoriche riguardo a come la forma degli oggetti e le
loro parti possano effettivamente venire rappresentate
nel sistema di visione umano e come due di queste rappresentazioni
possano essere comparate per somiglianza.
Il lettore è preavvisato che tutte le teorie
che stiamo considerando risultano inadeguate al fine
di catturare il sorprendente potere, la versatilità
e la finezza della percezione umana di forme. Il modo
in cui le persone percepiscono la forma è sicuramente
fra i problemi di più difficile soluzione all'interno
della percezione visiva, di così difficile soluzione
che nessuna teoria soddisfacente è ancora stata
proposta. Ancora, sono stati fatti progressi significativi,
e molto può essere appreso considerando le teorie
già proposte. Dal momento che non c'è
accordo riguardo la soluzione, il nostro intento sarà
quello di imparare il più possibile analizzando
sia i punti di forza che le debolezza di tutte le maggiori
teorie.
TEMPLATES.
L'idea sottostante a quella di templates è semplicemente
rappresentare la forma come forma, come farebbe uno
strutturalista non corretto. Nelle rappresentazioni
templates la forma è specificata dalla concatenazione
di cellule recettrici sulle quali l'immagine di un particolare
oggetto cade. Un template di quadrato può essere
formato, ad esempio, associando insieme tutti i recettori
che stimolerebbe più i recettori circostanti
che non verrebbero stimolati. Il modo più ovvio
per implementare questa idea è costruire una
"cellula rilevatrice di quadrato" la cui struttura
di campo recettiva incorpori la forma in questione -in
questo caso quella di un quadrato contro il suo territorio
circostante. Come illustrato nella figura 8.2.1 ciò
significa che la regione centrale del quadrato del campo
recettivo sarebbe connessa in modo eccitatorio con il
rilevatore di quadrato. La regione di fondo attorno
al quadrato sarebbe connessa in modo inibitorio al rilevatore
di quadrato in modo da penalizzare le partenza che non
c'entrano con il quadrato, la maggior parte dei campi
recettivi corticali hanno dintorni inibitori. Così,
un quadrato bianco su sfondo nero ecciterà al
massimo queste cellule rilevatrici di quadrato dal momento
che la sua struttura spaziale corrisponde in modo ottimale
a quelle del campo recettivo. Chiameremo queste rappresentazioni
STANDARD TEMPLATES per differenziarle da quelle alternative
più complesse che proporremo in seguito in risposta
a certi problemi.
Gli elementi atomici di cui i templates sono composti
vengono tipicamente rappresentati come sistemi dalle
caratteristiche binarie corrispondenti al fatto che
particolari recettori vengano scaricati o meno. Questo
significa che ogni elemento all'interno del campo del
template è sia eccitatorio (ad esempio risponde
positivamente alla presenza di luce) che inibitorio
(ad esempio risponde negativamente alla presenza di
luce). Questo sistema a due valori non è comunque
l'unica possibilità. Si può costruire
in modo semplice un template "su scala di grigio"
convertendo la rappresentazione di ciascun elemento
spaziale da un sistema con caratteristiche binarie (bianco
versus nero in un determinato recettore) in una dimensione
continua sulla scala del grigio variando i pesi delle
connessioni in modo continuo da +1 (legame eccitatorio)
a -1 (legame inibitorio). Così, una persona potrebbe
costruire un insieme di templates per reticoli locali
a onde sinusoidali come base per una teoria della percezione
di forma a frequenza spaziale locale. Una persona potrebbe
persino costruire un template "rilevatore della
nonna" che risponde massimamente all'immagine del
viso della nonna sotto particolari condizioni visive:
da un particolare angolo visivo e distanza con fonti
di luce in particolari collocazioni ambientali. Il fatto
che templates su scala di grigio siano possibili non
significa necessariamente che possano risolvere i problemi
di percezione della forma comunque, come si può
notare.
Per poter determinare la somiglianza fra due forme abbiamo
bisogno di un metodo per confrontare le rappresentazioni.
Due templates possono essere paragonati semplicemente
calcolando una misura della loro corrispondenza puntuale
o grado di adattamento. Uno schema particolarmente semplice
per templates è calcolare la correlazione fra
l'immagine in input e il template. Questa misura va
da +1.0 per la massima corrispondenza positiva (fra
due immagini identiche) a -1.0 per la massima corrispondenza
negativa (fra un'immagine e la sua versione al negativo).
Il valore atteso per due immagini non correlate è
zero. Questa misura comparativa può essere utilizzata
sia per templates con sistema binario che per templates
su scala di grigio.
PUNTI
DI FORZA.
I templates sono tipicamente ridicolizzati nei libri
di testo e negli articoli di ricerca, e grossolanamente
inadeguati per la rappresentazione di forme. Comunque
hanno molte potenti argomentazioni in loro favore: i
templates devono per forza essere utilizzati ad un certo
punto nel processo di visione per convertire immagini
strutturate nello spazio in rappresentazioni simboliche.
I templates sono sempre il punto di inizio per discutere
a proposito della rappresentazione di forme per il semplice
fatto che essi sono il più ovvio meccanismo per
eseguire questa conversione. Le teorie sulla rilevazione
di linee e margini ad opera di semplici cellule in area
V1 sono rappresentazioni template benchè molto
semplici. Ciascuna cellula per la rilevazione di linee,
ad esempio, risponde massimamente ad una linea in una
specifica posizione, orientamento e contrasto (luce
e buio versus buio e luce). La percentuale di scaricamento
decresce in rapporto al modo in cui ciascuno di questi
parametri cambia rispetto al proprio valore ottimale,
fornendo così una misura del grado di somiglianza
fra la struttura locale dell'immagine che cade all'interno
del suo campo e la struttura spaziale del suo campo
recettivo. Questa minima percentuale di scaricamento
avviene per via della distribuzione opposta della luce
all'interno del suo campo recettivo.
Lo stesso ragionamento vale per l'approccio alla frequenza
spaziale locale della funzione delle cellule in V1 che
abbiamo discusso nella sezione 4.2.2. Ciascuna cellula
è deputata al calcolo di una misura della somiglianza
fra la struttura spaziale locale dell'immagine in input
e la funzione Gabor codificata nel suo campo recettivo.
In questo caso la conversione è stata fatta a
partire da immagini a componenti a frequenza spaziale
locale piuttosto che da linee e margini, ma la rappresentazione
di base può ancora essere accuratamente caratterizzata
come una forma di template matching. La differenza più
grande è che i componenti a frequenza spaziale
locale non sono presi per essere aspetti significativi
della forma di un oggetto, mentre margini e linee lo
sono.
Sappiamo con un certo margine di certezza, allora, che
il sistema visivo fa uso di templates per rappresentare
forme molto semplici, come linee e margini o frammenti
locali di reticoli sinusoidali. La domanda è
se ci sono ragioni di principio per le quali questo
approccio non possa essere esteso ad includere forme
più complesse di oggetti reali, come quadrati,
Wolkswagens o il viso della nonna.
PUNTI
DEBOLI.
Dopo aver riconosciuto ai templates ciò che gli
spetta in quanto primo passo necessario nella creazione
di una rappresentazione simbolica di forma, deve essere
riconosciuto che i loro punti deboli in quanto teoria
generale di rappresentazione di forma sono parecchi
e profondi. Consideriamo ora in dettaglio alcune delle
più importanti obiezioni, dal momento che potranno
anche servire come paragone nei confronti delle altre
teorie che potranno essere esaminate.
1. Il problema dei canali sensoriali multipli. Alcuni
fattori visivi hanno poco, se non nessuno, impatto nella
forma percepita, tuttavia influenzano fortemente la
correlazione fra due rappresentazioni template. Forse
il fattore più ovvio è rappresentato dalle
differenze nei colori. Un quadrato verde su sfondo giallo
è visto avere la stessa forma di un quadrato
blu su sfondo rosso o di qualsiasi altra combinazione
di colori. Questo pone un problema per le rappresentazioni
standard template dal momento che queste sono definite
in termini di recettori di output specifici. Un template
rappresentante un quadrato verde su sfondo giallo non
sarà uguale ad un altro identico template per
un quadrato blu su sfondo rosso dal momento che gli
elementi colorati sottostanti sono diversi. Il problema
generale è che le rappresentazioni retiniche
basate su template non sono invarianti rispetto ai colori,
mentre la percezione di forma lo è.
Come si può vedere, il problema del colore è
solo la punta di un enorme iceberg. Ci sono molte altre
differenze nei canali visivi all'interno dei quali un
quadrato può essere rappresentato, in grado di
influenzare profondamente qualsiasi rappresentazione
standard template pur avendo pochi o addirittura nulli
effetti nella percezione della forma quadrata. Considera
il fatto che i quadrati possano venire percepiti per
mezzo di contorni illusori, segmenti a tratti e differenti
textures, come illustrato in figura 8.2.2. Nemmeno questo
esaurisce i possibili canali attraverso i quali un quadrato
può venire rappresentato. Il destino comune può
fare in modo che una regione quadrata costituita da
punti venga vista in contrapposizione sia a uno sfondo
statico che a uno sfondo che si muove in una direzione
diversa. La disparità binoculare può fare
in modo che una regione quadrata costituita da punti
emerga in profondità in contrapposizione a uno
sfondo di punti messi in modo casuale, come abbiamo
visto nel capitolo 5 (vedi figura 5.3.8). I contorni
di un quadrato possono anche venire rilevati da una
piccola apertura che ne rivela i bordi (vedi sezione
10.2.4) e così via. Il problema generale è
che esiste una grande varietà di canali visivi
diversi attraverso i quali i contorni di un quadrato
possono venire rappresentati, facendo uso di metodi
radicalmente diversi di stimolazione sensoriale. La
nozione che templates di forma possa essere assicurata
mettendo insieme un gruppo di unità di input
periferiche è perciò problematica.
Esistono due modi per far fronte a questa difficoltà.
Un modo è quello di costruire un template separato
per ogni canale sensoriale. Il problema è che
ci sarebbero allora una molteplicità di quadrati
templates invece che uno solo. Il secondo modo per far
fronte al problema dei canali sensoriali è quello
di definire templates per la rappresentazione della
forma ad un livello più astratto nel sistema
visivo, dopo che tutti i canali di estrazione dei contorni
(per esempio colore, texture, disparità binoculare,
movimento, contorni illusori) hanno avuto i loro effetti.
Ciò che è necessario è un template
che in qualche modo rappresenti le differenze fra figura
(il quadrato) e sfondo (il suo sfondo) indifferentemente
rispetto al canale sensoriale che porta le informazioni
dei contorni. Una rappresentazione del genere risulterebbe
adeguata in accordo con i canali sensoriali.
2. Il problema delle trasformazioni spaziali. Nella
prima sezione di questo capitolo abbiamo discusso l'importante
evidenza che la forma rimane invariata nonostante le
trasformazioni di somiglianza: traslazioni, rotazioni,
dilatazioni, riflessioni e le loro varie combinazioni.
Uno dei problemi maggiori riguardo agli schemi standard
template è che confrontando le rappresentazioni
template di due oggetti aventi la stessa forma non si
ottiene un buon risultato se questi differiscono esclusivamente
rispetto ad una di queste trasformazioni.
La figura 8.2.3, ad esempio, mostra che se un secondo
quadrato template viene paragonato con un quadrato iniziale
cambiandone posizione, orientamento e forma questo ha
devastanti conseguenze nella correlazione. Dal momento
che tutti questi oggetti hanno la stessa forma obiettiva,
come abbiamo definito nella sezione 8.1.1, il semplice
calcolo della correlazione fra due templates non da
una misura ragionevole della somiglianza di forma.
Questi sono due metodi per risolvere questo problema
per le rappresentazioni template: REPLICAZIONE e NORMALIZZAZIONE.
La replicazione è la strategia di costruire un
template diverso per ogni forma in ogni possibile posizione,
orientamento, dimensione e senso. Poi il template con
la corrispondenza migliore rispetto al target costituirà
una ragionevole approsimazione della loro "vera"
somiglianza all'interno di questo schema di somiglianza
di forma. Questo è l'approccio che il sistema
visivo utilizza per linee e margini (e/o per componenti
a frequenza spaziale locale) nell'area V1, ripetendo
la stessa struttura recettiva di campo in continuazione
per tutte le possibili posizioni retiniche, orientamenti,
dimensioni e sensi. Come si può immaginare, questo
approccio è attuabile solo se l'insieme di forme
template è molto piccolo. Linee e margini (o
funzioni Gabor in fase seno e coseno) sono infatti un
insieme molto piccolo. Ma se tutte le forme che la gente
riesce a discriminare dovessero venire ripetute in ogni
posizione, orientamento, dimensione e senso, la proliferazione
di templates che ne risulterebbe -chiamata ESPLOSIONE
COMBINATORIA- farebbe inorridire la mente. La replicazione
di templates, perciò, non è una soluzione
da poter essere presa in considerazione in riferimento
al problema generale della rappresentazione di forme,
sebbene possa invece essere sufficiente per un insieme
minimo di templates molto semplici come linee e margini.
Quello della normalizzazione è un approccio un
po' diverso per risolvere il problema delle trasformazioni
spaziali, in stretta connessione con due idee che abbiamo
già discusso: allineamenti trasformazionali e
schemi di riferimento intrinseci. L'assunzione è
che una teoria ragionevole della somiglianza di forme
basata su template può essere costruita senza
replicare i templates se l'immagine in input può
prima venire trasformata o "normalizzata"
in conformità a un insieme di modelli referenziali.
Ad esempio, la posizione di una figura può essere
normalizzata in relazione al suo centro di massa, al
suo orientamento relativo alla sua dimensione più
lunga e così via, come discusso nella sezione
8.1.4 considerando gli schemi di riferimento centrati
sull'oggetto. Introdurre un tale processo di normalizzazione
all'interno del sistema prima di confrontare i templates
per somiglianza risolverebbe il problema di trasformazione
spaziale per le trasformazioni di somiglianza. E' comunque
improbabile riuscire a fornire una soluzione generale
per il problema della somiglianza fra forme, a causa
degli ulteriori problemi che altre trasformazioni spaziali
introducono.
Le trasformazioni di somiglianza sembrano essere sufficienti
per definire le basi di ciò che abbiamo chiamato
equivalenza di forma oggettiva, ma ulteriori trasformazioni
spaziali devono essere incluse se vogliamo parlare del
problema più generale di somiglianza di forma.
Prendiamo in considerazione deformazioni plastiche come
stiramenti, schiacciature o tagli. Come mostrato dalla
figura 8.2.4 queste trasformazioni possono alterare
la forma "quantitativa" di una figura pur
mantenendo molti aspetti della sua forma "qualitativa".
Confronti semplici fra queste figure trasformate utilizzando
rappresentazioni standard template non produrranno generalmente
sovrapposizioni sufficientemente ampie da adeguarsi
all'alta somiglianza percepita fra tali figure. Buone
copie possono essere ottenute utilizzando templates
normalizzati in accordo a queste trasformazioni ulteriori,
ma fare questo causa nuovi e imprevisti problemi.
Un esempio del tipo di problemi che la normalizzazione
estesa comporta è che alcune trasformazioni plastiche,
come lo stiramento, possono cambiare proprietà
importanti della figura, come ad esempio la sua dimensione
più lunga. Questo cambierà l'orientamento
scelto come orientamento di riferimento, cambierà
il processo di normalizzazione dell'orientamento. Ad
esempio, se la dimensione più lunga dell'oggetto
in figura 8.2.4 fosse usata per normalizzare l'orientamento,
la prima versione (schiacciata) non andrebbe d'accordo
con il campione perché la sua più lunga
dimensione è orizzontale e non verticale. Si
potrebbe evitare questo problema provando tutte le possibili
trasformazioni di normalizzazione, ma questa soluzione
eviterebbe la proliferazione di templates solo scambiandoli
con un'enorme complessità nel processamento di
trasformazioni. Infatti, nessuno schema completo di
normalizzazione generale è stato ancora inventato
per le rappresentazioni template in grado di produrre
predizioni ragionevoli di somiglianza di forma percepita
senza alcun tipo di esplosione combinatoria. Sono stati
inventati sistemi più sofisticati basati sulla
trasformazione di immagini in linea le une con le altre,
come dicevamo descrivendo allineamenti trasformazionali
(vedi sezione 8.1.3), ma il processo di accoppiamento
è basato su qualità salienti, come contorni
concavi e convessi, piuttosto che templates indifferenziati.
Considereremo sistemi di questo tipo più in dettaglio
nel capitolo 9 quando esploreremo approcci basati sul
punto di vista.
3. Il problema della struttura delle parti. Alla fine
del capitolo 7 abbiamo passato in rassegna alcune evidenze
sul fatto che le persone percepiscono la maggior parte
degli oggetti come aventi una struttura gerarchica delle
parti. Dove è, qualcuno potrebbe ragionevolmente
chiedersi, questa struttura delle parti in una rappresentazione
template? La risposta è che semplicemente standard
templates non ce l'hanno. Esistono solo due livelli
nella rappresentazione template -quello dell'intero
template e quello degli elementi atomici (recettori
o pixels) che sono associati all'interno del template-
e non esiste nient'altro fra questi due. E' perciò
difficile vedere come una rappresentazione di forma
template possa avere la possibilità di predire
la prestazione nel compito di verifica delle parti di
Palmer (1977) per il quale la struttura delle parti
è cruciale ( vedi sezione 7.6.1).
La mancanza di struttura delle parti in standard templates
diventa anche problematica nel considerare la natura
di accoppiamenti parziali. Ad esempio, prendiamo in
considerazione due modi diversi in cui metà degli
elementi di un quadrato template possono accoppiarsi
con quelli di un altro template. Il triangolo nella
figura 8.2.5A accoppia più o meno metà
degli elementi del quadrato template così come
fa il "quadrato puntinato" della figura 8.2.5B.
Ma nessuna persona che ci vede direbbe che queste due
figure sono ugualmente simili come forma rispetto al
quadrato rappresentato nel template originale. La forma
del triangolo è molto diversa, mentre quella
del quadrato puntinato è virtualmente identica.
Questo problema nasce dalla mancanza di un'appropriata
struttura delle parti nel quadrato template. L'unica
cosa che conta è il numero degli elementi che
si accoppiano e questo è sostanzialmente lo stesso
per entrambi i casi illustrati nella figura 8.2.5.
Ciò che è necessario è un qualche
metodo generale per costruire una struttura di parti
esplicita nelle rappresentazioni template. Questo può
essere fatto attraverso la costruzione di templates
gerarchici: templates complessi costruiti concatenando
templates più semplici piuttosto che unità
elementari. Un quadrato, ad esempio, può essere
rappresentato combinando gli output di quattro templates
di margini separati in una collocazione spaziale appropriata,
come illustrato in figura 8.2.6. Presa dalle attuali
teorie sulla struttura del sistema visivo nervoso, templates
gerarchici sembrano essere l'unica versione possibile
della proposta template. Solo un numero molto limitato
di templates spaziali sembra essere rappresentato nell'area
V1 della corteccia, e ulteriori processi spaziali sembrano
prendere parte all'output a partire da questa regione
come descritto in dettaglio nel capitolo 4, la struttura
di campo recettiva delle cellule in area V1 viene generalmente
considerata sia come templates di linea e margine che
templates a frequenza spaziale locale. Se è così,
allora altri e più complessi analizzatori di
forma a livelli corticali più alti è probabile
che vengano costruiti a partire da questi primitivi.
Studi sull'area V4 hanno trovato cellule altamente selettive
ad altri patterns oltre che a semplici linee, margini
e reticoli a frequenza spaziale, ad esempio, includendo
anche reticoli concentrici, radiali, spirali e iperbolici
(vedi figura 4.4.3) ma non è ancora chiaro il
modo in cui questi campi recettivi siano derivati dall'output
delle cellule in V1.
I templates gerarchici hanno alcune caratteristiche
attrattive. Primo, sono psicologicamente plausibili
dal momento che sono compatibili con il fatto che l'antico
sistema visivo nervoso sia ampiamente gerarchico. Campi
recettivi più complessi sembrano essere costruiti
mettendo insieme campi recettivi a partire dal livello
più basso più vicino. Standard templates
non sono compatibili con la psicologia della visione
dal momento che presumono che tutte le forme possano
essere rappresentate direttamente concatenando elementi
retinici atomici. Secondo, se solo poche semplici parti
fossero richieste -ad esempio linee rette, margini e
le loro terminazioni , come nel disegno originale di
Marr (1982)- sembrerebbe che i templates gerarchici
possano potenzialmente risolvere il problema delle trasformazioni
di somiglianza permettendo la replicazione delle parti
necessarie in tutte le possibili posizioni, orientamenti,
dimensioni e sensi. Come abbiamo affermato, questo sembra
essere ciò che il sistema visivo nervoso fa nell'area
V1 ripetendo le stesse strutture di campo recettive
attraverso il campo visivo. Terzo, i templates gerarchici
possono essere estesi fino a comprendere strutture delle
parti di complessità arbitraria semplicemente
permettendo incastramenti gerarchici di livelli addizionali.
Gli angoli possono essere composti da linee e margini,
forme semplici come quadrati e triangoli da linee e
angoli, forme più complesse da quadrati e triangoli
e così via, all'infinito. Per queste ed altre
ragioni, i fisiologi spesso assumono che qualcosa che
assomiglia ad uno schema di template gerarchico è
il modo in cui il sistema visivo codifica la forma di
oggetti complessi.
E' importante rendersi conto, comunque, che questi benefici
comportano il costo di considerevole complessità
in più nella rappresentazione di forme. Non abbiamo
più a che fare con la semplice codifica di "forma
come forma", ma con una versione complessa di questa.
Questo porta importanti conseguenze. Ad esempio, la
semplice misura di somiglianza di forma di cui abbiamo
discusso all'inizio in termini di correlazione non è
più appropriata. Può ancora essere utilizzata
al livello più basso in cui si trovano standard
templates, ma gli accoppiamenti a livelli più
alti richiedono alcune integrazioni più complesse
degli input componenti che si ricevono dalle unità
di livello più basso. Inoltre una qualche via
di principio risulta necessaria per specificare la "collocazione
appropriata" di templates a livello più
basso. Se i template fondamentali per margine e linea
sono semplicemente hard-wired per le unità dei
livelli più alti, lo stesso problema di forma
generalizzata oltre le trasformazioni di somiglianza
si presenterà, per cui sarà ancora necessario
che ci sia un template ad alto livello diverso per ogni
forma in ogni posizione, orientamento, dimensione e
così via. Per evitare questo problema deve essere
trovata qualche via che specifichi la sistemazione dei
templates fondamentali in maniera più generale.
Una possibilità è di posizionare i templates
a basso livello attraverso le loro coordinate in un
singolo schema di riferimento centrato sull'oggetto.
Un'altra soluzione è specificare la posizione
delle parti in relazione l'una con l'altra. Gli schemi
più utili per fare questo ci porteranno oltre
il dominio delle rappresentazioni template, comunque.
Descriveremo più tardi un approccio quando considereremo
la classe di rappresentazioni di forma conosciute come
descrizioni strutturali.
4. Il problema della tridimensionalità. Oltre
ad essere problematici per la rappresentazione delle
forme di semplici quadrati e triangoli, i templates
sono persino meno soddisfacenti per rappresentare la
forma di sedie, cani e corpi umani. Il nuovo importante
problema che nasce da questi esempi è che i templates
sono bidimensionali mentre la maggior parte delle forme
degli oggetti è tridimensionale. I templates
abbracciano l'apparentemente semplice approccio del
rappresentare la forma come forma, ma questa semplice
idea diventa meno attraente quando la rappresentazione
d forma ha più bassa dimensionalità rispetto
alla forma che si vuole rappresentare.
Ci sono solo due modi per far corrispondere la dimensionalità
dei templates a quella 3-D degli oggetti, e nessuno
dei due risulta particolarmente soddisfacente. Uno è
quello di rendere i templates stessi tridimensionali
come gli oggetti. Questo renderebbe uguali la dimensionalità
degli oggetti e quella dei templates, ma sfortunatamente
il processo di accoppiamento deve essere mediato dalla
retina, che è soltanto bidimensionale. Ciò
significa che i templates 3-D dovrebbero essere costruiti
a partire da un processo più complesso che integri
diverse visioni 2-D in una singola rappresentazione
3-D. L'altra soluzione è rendere la rappresentazione
interna di oggetti 3-D bidimensionale rappresentando
proiezioni 2-D delle loro forme. Qui l'apparente difficoltà
è che molti templates diversi sarebbero necessari
-al limite uno per ogni distinta prospettiva visiva-.
Questo porterebbe ad una proliferazione di templates
per complessi oggetti 3-D, sarebbero necessari forse
decine o addirittura centinaia di templates per un singolo,
ragionevolmente complesso oggetto 3-D.
Nonostante questi problemi, il valore di rappresentazioni
template simili ad uno specifico punto di vista è
stato esplorato recentemente da teorici computazionali
che hanno dimostrato che alcuni templates possono essere
immagazzinati se esistono processi che consentono che
punti di vista intermedi derivino da quelli immagazzinati
più vicino. Sfortunatamente, questa soluzione
è possibile solo a spese di un considerevole
incremento nella complessità del processamento,
e non fa nulla per risolvere gli altri problemi inerenti
alle rappresentazioni simili a template che abbiamo
menzionato prima, come la loro mancanza di struttura
delle parti (vedi Hummel, in corso di stampa) o la loro
sensibilità a diversi modi di input o canali
sensoriali. Ritorneremo sul problema della tridimensionalità
molte volte, dal momento che è un ostacolo per
tutte le teorie sulla rappresentazione di forma, non
solo per i templates.
8.3 BONTÀ DELL'IMMAGINE E PREGNANZA
Gli
psicologi della Gestalt identificarono un aspetto dell'esperienza
percettiva che deriva dalla forma dell'oggetto e lo
chiamarono "buona Gestalt", letteralmente
"buona forma".
Nella letteratura moderna il termine più usato
per rappresentare la stessa idea è bontà
dell'immagine.
La bontà dell'immagine è l'aspetto dell'esperienza
percettiva che forse è meglio descritto come
un composto di semplicità, ordine e regolarità
di un oggetto.
Alcune forme come il cerchio in fig.8.3.1A sembrano
più semplici e regolari rispetto a figure come
B. I motivi per cui la bontà dell'immagine può
essere importante per la percezione di forme, a prescindere
dalla sua componente fenomenologica, possono essere
diversi.
Una possibilità è che le figure "buone"
possono essere elaborate più efficientemente
delle figure "cattive" dal sistema visivo.
Lo psicologo Wendell Garner (1974) dell'Università
di Yale fece degli studi su come le persone percepiscono,
descrivono e ricordano semplici patterns visivi, ed
eseguì molti esperimenti a dimostrazione che
la performance umana in diversi lavori è strettamente
connessa con la valutazione, che le persone danno, riguardo
la soggettiva "bontà" delle figure.
Per esempio, egli trovò che le persone possono:
1) accoppiare 2 figure "buone" per identità
fisica più velocemente rispetto a 2 figure "cattive";
2) ricordare figure "buone" più accuratamente
di quelle "cattive";
3) descrivere figure "buone" con meno parole
rispetto a quelle "cattive", e
4) apprendere figure "buone" più velocemente
di quelle "cattive".
Sembra che il sistema visivo sia particolarmente sensibile
al tipo di struttura che i patterns "buoni"
possiedono, e fa uso di esso nell'elaborazione dell'informazione
sulla forma.
I teorici della Gestalt, nelle loro teorie sulla percezione
visiva, diedero molta importanza alla bontà dell'immagine,
loro credevano che essa determinasse il modo in cui
tutta la percezione è organizzata.
Questo punto di vista è stato espresso nel loro
"Principio della pregnanza": la percezione
sarà tanto "buona" quanto permettono
le condizioni predominanti.
In effetti, essi affermarono che sono possibili molte
percezioni diverse per ogni figura data e la bontà
dell'immagine determina quale di queste è effettivamente
percepita.
Sfortunatamente, i teorici della Gestalt non riuscirono
mai a formulare una teoria esplicita sulla percezione
della forma basata su tale nozione, ma più tardi
lo fecero altri.
8.3.1
TEORIE SULLA BONTÀ DELL'IMMAGINE
Il
principale fattore che influenza la bontà dell'immagine
è il numero di parti che compongono un oggetto.
La fig.8.3.2 dimostra come l'aumento di complessità
di una figura ha effetto sulla bontà dell'immagine;
le figure con meno lati tendono ad essere percepite
migliori di quelle con più lati.
Comunque, il numero di parti non è tutto, dato
che alcuni oggetti possono differire nella bontà
dell'immagine persino se hanno lo stesso numero di componenti
fisiche.
Per esempio si consideri il set di figure a quattro
lati rappresentato in fig.8.3.3: è una dimostrazione
di come l'aumento d'irregolarità pregiudica la
bontà dell'immagine; sebbene tutte queste figure
abbiano esattamente lo stesso numero di lati le persone
generalmente concordano che c'è una progressione
dalla forma più semplice sulla sinistra a quella
più complessa sulla destra.
(I numeri rappresentati sotto le figure corrispondono
alla loro informazione caricata in accordo con la teoria
dell'informazione strutturale, esposta nel paragrafo
8.3.2).
Sicuramente le differenze dipendono dal modo in cui
sono disposte le linee.
I teorici della Gestalt credevano che la bontà
dell'immagine fosse fondamentalmente irriducibile a
proprietà frammentarie come il numero di componenti
o le loro interrelazioni, se essa doveva essere analizzata
nella sua interezza, loro pensavano che doveva essere
fatto in termini di proprietà globali come la
simmetria bilaterale.
TEORIA
DELL'INFORMAZIONE CLASSICA
La prima avanzata significativa nelle teorie oggettive
della bontà dell'immagine arriva dall'impiego
di concetti di base della teoria dell'informazione di
Claude Shannon.
La teoria dell'informazione è una teoria matematica
della comunicazione che misura ?a commodity
(in bit) che dipende dal grado di predicibilità
o di certezza associati ad un dato segnale in un determinato
contesto comunicativo. (Bit è un'abbreviazione
di cifra binaria, definito come l'ammontare delle informazioni
necessarie per ridurre a metà il numero di alternative
ugualmente probabili.
)
Shannon chiamò questa commodity "informazione",
sebbene la relazione con la comune nozione di informazione
è forse meno ovvia di quanto potrebbe sembrare.
Le relazioni tra la teoria dell'informazione e il concetto
di bontà dell'immagine della Gestalt sono state
formulate da Attneave (1954) e da Hochberg e McAlister
(1953).
Essi capirono che se il sistema percettivo codifica
ottimamente le figure attraverso l'eliminazione di tutte
le ridondanze -per esempio, simmetrie e ripetizioni-
le figure "buone" possono essere codificate
e immagazzinate molto più efficientemente di
quelle "cattive".
Il termine "efficienza" qui si riferisce alla
codifica della forma di una figura con minor numero
di "bit" d'informazione.
In effetti, essi proposero che le buone figure fossero
descritte con meno bit di quelle cattive.
L'analisi informazionale sulla bontà dell'immagine
era basata sulla scomposizione in componenti periferiche
come angoli e linee e sull'analisi delle loro regolarità
strutturali, come l'uguaglianza delle grandezze degli
angoli oppure le lunghezze delle linee all'interno della
stessa figura.
Un quadrato e un quadrilatero irregolare, come quelli
illustrati in fig.8.3.3, sono formati entrambi da quattro
linee e quattro angoli, ma il quadrato è "migliore"
del quadrilatero irregolare perché tutti i suoi
lati hanno la stessa lunghezza, e tutti i suoi angoli
misurano 90°.
Queste regolarità significano che sono richiesti
meno bit d'informazione per descriverlo, sebbene i teorici
dell'informazione non sono mai stati tanto chiari riguardo
a cosa le descrizioni dovevano assomigliare o quanti
bit d'informazione conteneva una figura data.
Queste analisi informazionali furono generalmente considerate
un progresso delle idee della Gestalt, perché
essi mostrarono che le figure "buone" erano
oggettivamente più semplici di quelle "cattive"
in un senso ben definito.
SOTTOINSIEMI
DI ROTAZIONE E RIFLESSIONE
Sebbene i teorici dell'informazione abbiano cercato
di spiegare il costrutto Gestaltista della bontà
dell'immagine in termini oggettivi, le loro idee non
si sono ben inserite nello stile Gestaltista di spiegazione,
il quale generalmente opponeva le teorie ?piecewise
della percezione (Wertheimer 1924/1950).
Una formulazione che è più in accordo
con l'approccio olistico della teoria Gestaltista fu
proposta da Garner (1974). Egli propose che le figure
sono "buone" nel limite in cui esse sono uguali
alla versione trasformata di loro stesse. Garner formulò
questa nozione nella sua teoria dei sottoinsiemi di
rotazione e di riflessione (R & R).
Quando un set di trasformazioni spaziali è applicato
ad una figura, esso produce un set di varianti trasformazionali
di quella figura.
L'osservazione chiave nella teoria di Garner sulla bontà
dell'immagine è che le figure migliori producono
minori varianti trasformazionali.
Nella formulazione originale di questa teoria Garner
e Clement (1963) usarono dei semplici patterns consistenti
in cinque puntini contenuti in un quadrato e applicarono
a questi un set di otto possibili trasformazioni: quattro
rotazioni centrali (attraverso angoli di 0°, 90°,
180° e 270°) e quattro riflessioni centrali
(sull'asse verticale, orizzontale, diagonale sinistro
e destro).
Applicando queste trasformazioni ad una data figura
si definiscono il suo set di rotazione e quello di riflessione,
all'interno dei quali vi è un sottoinsieme di
diverse figure distinguibili chiamato sottoinsieme R&
R (sottoinsieme di rotazione e riflessione), rappresentato
in fig.8.3.4 con il numero di varianti trasformazionali.
La fig.8.3.4 rappresenta gli stimoli usati per studiare
la bontà dell'immagine: la bontà dell'immagine
di ognuno dei cinque patterns nella prima colonna a
sinistra può essere predetta dalla grandezza
del suo sottoinsieme di rotazione e di riflessione (R
& R), come proposto da Garner e Clement (1963),
e dalle trasformazioni nel suo sottogruppo di simmetria
come proposto da Palmer (1983). Garner e Clement scoprirono
che i patterns considerati "buoni", come il
primo in alto a sx, avevano meno varianti trasformazionali
rispetto a quelli valutati "cattivi", come
l'ultimo in basso.
Perciò essi proposero che la bontà dell'immagine
fosse una funzione inversa della misura del loro sottoinsieme
R & R.
Quest'analisi è molto attraente dal punto di
vista della Gestalt perché si applica a tutte
le figure, non c'è un criterio secondo il quale
i patterns devono essere scomposti in piccoli parti
per poterla applicare; infatti, i paterna che rimangono
uguali anche dopo essere stati riflessi rispetto una
linea posta al loro centro sono proprio quelli che possiedono
simmetria bilaterale, il prototipo della Gestalt per
la bontà dell'immagine.
Garner non espresse la sua teoria in termini di simmetria
perché egli scoprì che anche l'invarianza
rotazionale era importante, e questo non sembrava accordarsi
con l'idea di simmetria, almeno nel senso comune del
termine.
Comunque, l'invarianza rotazionale concorda perfettamente
con la moderna definizione matematica di simmetria,
un fatto che costituisce la prima pietra della rianalisi
di Palmer sulla bontà dell'immagine in termini
di sottogruppi di simmetria.
SOTTOGRUPPI
DI SIMMETRIA
La teoria di Garner basata sulla misura del sottoinsieme
R & R è capace di giustificare una grande
porzione di differenze che risultano dalle stime della
bontà di questi patterns, ma c'è da osservare
che questa misura accumula insieme diversi tipi di strutture
qualitativamente differenti.
Per esempio, si considerino le figure delle tre righe
al centro in fig.8.3.4: hanno tutte esattamente quattro
diverse varianti trasformazionali nel loro insieme R
& R, ma, la prima è simmetrica bilateralmente
rispetto l'asse verticale, la seconda lo è rispetto
l'asse diagonale destro e la terza non è simmetrica
bilateralmente.
Molte persone trovano la figura verticalmente simmetrica
migliore delle altre due e anche molte ricerche supportano
quest'idea (ad es. Chipman, 1977; Palmer, 1991; Palmer
& Hemenway,1978; Royer,1981), la conclusione è
quindi, che non tutte le differenze possono essere espresse
in termini di sottoinsieme R& R, perché alcune
figure hanno lo stesso numero di varianti trasformazionali.
Una possibile soluzione è suggerita dalla struttura
di simmetria: ogni figura può essere caratterizzata
dal tipo di simmetria che possiede, e quindi si differenzia
tra simmetria bilaterale rispetto l'asse verticale,
orizzontale e diagonale.
Ma cosa si può dire della figura nella 4°
riga (fig. 8.3.4) che non possiede simmetria bilaterale?
Succede che alcune figure sono altresì simmetriche,
ma di un tipo diverso.
Nella matematica moderna l'analisi della simmetria è
data in termini di invarianza trasformazionale (Weyl,1952),
quindi, una figura è simmetrica rispetto ad una
data trasformazione se applicando questa trasformazione
la figura non cambia.
Per l'esempio standard di simmetria bilaterale (o immagine
allo specchio), la trasformazione basilare è
riflessione di una figura rispetto l'asse di simmetria;
così, un pattern verticalmente simmetrico, come
una A o una T, è lo stesso prima e dopo essere
stato riflesso rispetto una linea verticale che passa
per il suo centro. In questo quadro generale, la simmetria
rotazionale ha esattamente la stessa forma della simmetria
bilaterale, eccetto il fatto che la trasformazione coinvolta
è una rotazione centrale attraverso uno specifico
angolo, ad es. patterns che hanno una simmetria rotazionale
di 180° (come S, N e Z) rimangono gli stessi anche
dopo essere stati ruotati di 180° rispetto i loro
centri, oppure, patterns con una simmetria rotazionale
di 90°, come una svastica, rimangono inalterati
anche dopo essere stati ruotati di 90° rispetto
il loro centro.
(Da notare che patterns con due simmetrie di riflessione
(come H, O e X) hanno sempre una simmetria rotazionale
di 180°).
Il sottogruppo di simmetria di una data figura può
perciò essere considerato il sottoinsieme di
trasformazioni spaziali che la lasciano invariata.
nota [Risulta che i sottoinsiemi così costruiti
hanno alcune particolari proprietà strutturali,
il cui effetto è che non tutti i possibili sottoinsiemi
di trasformazione possono essere dei sottoinsiemi di
simmetria (es. H o X) senza avere anche una simmetria
rotazionale di 180°. Allo stesso modo, un pattern
non può avere una simmetria di rotazione di 90°
(es. svastica), senza avere anche una simmetria rotazionale
di 180° e 270°. Questa struttura addizionale
di sottoinsiemi simmetrici li qualifica come casi di
gruppi e sottogruppi matematici piuttosto che insiemi
e sottoinsiemi.]
La colonna più a destra in fig.8.3.4 mostra i
sottogruppi di simmetria per i patterns, costituiti
da cinque puntini, di Garner. Da notare che i patterns
"migliori" hanno più simmetrie (cioè
più trasformazioni nei loro sottogruppi di simmetria)
rispetto quelli "poveri"; per questa ragione
Palmer (1991) propose che la bontà dell'immagine
fosse identificata attraverso il suo sottogruppo di
simmetria. Data la stretta relazione tra il sottoinsieme
R& R di Garner e i sottogruppi di simmetria di Palmer
non sorprende che anche la loro struttura quantitativa
sia strettamente collegata, infatti, il numero di trasformazioni
nel sottogruppo di simmetria di un pattern è
l'inverso della misura del suo sottoinsieme R &
R, rispettando il set completo di trasformazioni : R*S=T,
dove R è la misura del sottoinsieme R&R,
S è la misura del sottogruppo di simmetria, e
T è la misura del gruppo totale di trasformazioni.
Questa relazione ha senso perché le due teorie
differiscono unicamente per quanto riguarda una teorica
inversione figura/sfondo: Garner si focalizzò
sui patterns generati dal gruppo di trasformazioni,
mentre Palmer si focalizzò sulle trasformazioni
che lasciano invariati i patterns.
Nonostante questa stretta relazione, ci sono importanti
vantaggi nell'analisi in termini di sottogruppi di simmetria.,
la differenza cruciale è che gli elementi costitutivi
di tali sottogruppi provengono da un set di trasformazioni
fisse, che sono le stesse per tutte le possibili figure.
I sottogruppi di simmetria possono perciò, essere
confrontati direttamente attraverso differenti figure
per possibili effetti dell'identità delle trasformazioni
nel sottogruppo; questo non è possibile con il
sottoset R& R, perché i suoi elementi sono
figure che non possono essere significativamente comparate
attraverso differenti figure. Solo il numero di figure
nel sottoset R& R può essere confrontato
attraverso figure, questo è il motivo per cui
le tre figure nel mezzo della fig.8.3.4 hanno la stessa
la stessa grandezza nel sottoinsieme R& R- e lo
stesso numero di simmetrie- ma diverse trasformazioni
nei loro sottogruppi di simmetria.
8.3.2
TEORIA DELL'INFORMAZIONE STRUTTURALE
Questa
teoria inizialmente chiamata teoria dei codici, formulata
dallo psicologo olandese Emanuel Leeuwenberg (1971),
fornisce un metodo per costruire differenti descrizioni
della forma di uno stesso oggetto e per rapportarle
alla percezione per mezzo del principio di Pregnanza
della Gestalt.
Le descrizioni della forma sono ricavate dalla teoria
dell'informazione strutturale attraverso la produzione
e la semplificazione di descrizioni percettive chiamate
codici, che sono sufficienti per creare la figura. La
bontà dell'immagine e la Pregnanza sono poi introdotte
nella teoria attraverso una misura chiamata carico d'informazione,
che è usata per identificare il "miglior"
codice possibile. Leuweenberg sostiene che l'alternativa
percepita da molti osservatori è l'unica ad avere
il codice più semplice (o rappresentazione della
forma) come misurato dal più basso carico d'informazione.
Non solo la teoria fornisce buone spiegazioni circa
la bontà dell'immagine, ma ha spiegato con successo
un gran numero di effetti, come la percezione oggetti
parzialmente occlusi e di oggetti trasparenti. Lo schema
generale della teoria dell'informazione strutturale
è il seguente:
1. Costruire un codice primitivo tracciando il contorno
della figura e descrivendolo come una sequenza di segmenti
di linee e di angoli tra essi contenuti.( Questa descrizione
è molto simile alla rappresentazione della figura
nel linguaggio del computer della "turtle geometry",
LOGO).
2. Usare un set di operatori semantici (o regole riscritte)
per semplificare il codice primitivo attraverso la rimozione
di più ridondanze strutturali possibili. I codici
semplificati che risultano sono chiamati codici ridotti.
3. Calcolare il carico d'informazione di ogni codice
ridotto contando il numero di parametri (valori numerici)
in esso contenuti. Questo valore corrisponde approssimativamente
alla bontà dell'immagine della percezione che
contiene la struttura specificata del codice ridotto.
4. Il codice ridotto con il minor carico d'informazione,
chiamato codice minimo, è l'unico che la teoria
dell'informazione strutturale prevede sarà percepito
più spesso. Gli altri potranno essere percepiti
con una probabilità che dipende dal loro carico
d'informazione.
Con i termini di Marr questa si può definire
una teoria computazionale, non algoritmica, perché
descrive solamente la relazione tra i patterns in input
e le possibili rappresentazioni della loro forma, piuttosto
che il processo attraverso il quale questi risultati
sono raggiunti.
CODICI
PRIMITIVI
Per capire come la teoria dell'informazione strutturale
produce descrizioni della forma, si può prendere
in esempio la codificazione di un quadrato (fig. 8.3.5).
La stringa di simboli del codice primitivo consiste
in una sequenza di numeri (1) rappresentanti la lunghezza
della linea disegnata nella direzione presente e (2)
gli aggiustamenti angolari fatti dopo che il precedente
segmento di linea è stato disegnato. Perciò
il codice primitivo per un quadrato di lunghezza di
lato L, che inizia dall'angolo superiore sinistro e
prosegue verso il basso, sarà la stringa di simboli:
L 90 L90 L90 L90.
Questo codice è un caso speciale della descrizione
generale di ogni arbitrario quadrilatero, che può
essere espressa come
W a X b Y c Z d,
dove W,X,Y e Z rappresentano le lunghezze dei quattro
lati e a,b,c e d rappresentano le grandezze dei quattro
angoli. Sostituendo queste variabili con gli appropriati
valori si potrebbe descrivere ogni quadrilatero della
figura 8.3.3.
RIMOZIONE
DI RIDONDANZE
Il più semplice e regolare quadrilatero riceve
una semplice descrizione nella teoria dell'informazione
strutturale attraverso la rimozione di ridondanze nel
codice primitivo. Per esempio, il codice per il quadrato
contiene quattro ripetizione della sequenza (L90); questa
regolarità può essere eliminata dalla
stringa applicando l'operatore di iterazione, una regola
riscritta
che riduce il codice primitivo ad una più semplice
e corta stringa di simboli.
L'operatore di iterazione sostituisce una stringa di
simboli, S, che consiste di n ripetizioni di una sottosequenza,
X, con una stringa di simboli, n*X. La regola riscritta
di iterazione può essere specificata come segue:
S-->n*(X), dove la freccia significa "è
riscritto come".
Nel caso della descrizione di un quadrato, questo significa
che il codice primitivo può essere riscritto
come il codice ridotto
L90 L90 L90 L90--> 4* (L90).
Questo codice corrisponde al percepire la simmetria
rotazionale di 90° del quadrato, ma non le simmetrie
bilaterali; ci sono differenti operatori semantici (o
regole riscritte) nella teoria dell'informazione strutturale
che permettono di ridurre la complessità in stringhe
di simboli.
I tre più importanti sono:
1. Iterazione: l'operatore d'iterazione elimina le sequenza
ripetute e le sostituisce con un parametro, n, che indica
il numero d'iterazioni e una specificazione della substringa
ripetuta:
S-->n*(X).
Un esempio di questa applicazione potrebbe essere il
seguente:
a b c a b c a b c -->3*(a b c).
2.
Simmetria: l'operatore di simmetria elimina la simmetria
di immagini allo specchio in sequenze e la sostituisce
attraverso un simbolo, SYM, che indica l'operazione
di simmetria e la sottostringa alla quale è applicato:
S-->SYM (X).
Può essere illustrato nel seguente esempio:
a b c c b a --> SYM (a b c ).
3.
Distribuzione: l'operatore di distribuzione elimina
l'alternanza tra una sottostringa e una serie di altre
sottostringhe e la sostituisce con un paio di sottostrighe
tra parentesi angolari indicanti le due sottostringhe
interposte:
S--> <X><Y>.
Un esempio potrebbe essere la seguente riduzione:
a b a c a d --> <a> <b c d>.
CARICO D'INFORMAZIONE
Intuitivamente, la semplicità o la "bontà"
di un codice ridotto corrisponde alla compattezza della
sua descrizione , finché le regole riscritte
permettono a stringhe molto lunghe di essere riscritte
più corte. Nei termini della teoria dell'informazione
strutturale, la bontà può essere definita
come misura del carico d'informazione di una particolare
stringa di codici, scritta come I(S), che corrisponde
al numero di parametri contenuti nella descrizione.
Nel caso del codice primitivo per il quadrato, il carico
d'informazione è 8, una unità per ogni
lunghezza ed una per ogni angolo contenuti nella descrizione;
nel caso del codice ridotto, 4*(L 90), il carico d'informazione
è 3: un'unità rappresenta il numero d'iterazioni
(4), una rappresenta la lunghezza (L), e un'altra la
misura dell'angolo (90). Perciò questo codice
ridotto è molto più semplice del codice
primitivo, e corrisponde ad un "miglior" percetto
nella teoria della Gestalt, perché riflette la
percezione di regolarità sotto forma di simmetria
rotazionale.
Ma è il codice ridotto il più semplice
di tutti i possibili codici per il quadrato?
Questa è una domanda importante perché,
in armonia con il principio Gestaltista della Pregnanza,
la teoria dell'informazione strutturale propose che
il percetto più facilmente percepito è
quello con il minor carico d'informazione.
Ci sono molti altri codici per un quadrato che corrispondono
al vedere aspetti differenti della sua struttura; il
codice (4*(L 90)), esplicitamente codifica la simmetria
rotazionale di 90° di un quadrato, ma non cattura
la più saliente delle sue proprietà globali:
le sue quadruplici simmetrie di riflessione, come invece
potrebbe fare un altro codice.
Per vedere come una descrizione può essere generata,
si inizia dal centro di un lato e si codificano tutti
i lati come segmenti adiacenti di lunghezza L/2 e gli
angoli come due adiacenti rotazioni di 45°; il codice
primitivo sarebbe
L/2 45 45 L/2 L/2 45 45 L/2 L/2 45 45 L/2 L/2 45 45
L/2 , sebbene questo codice primitivo è più
lungo di quello inizialmente considerato per il quadrato,
può essere codificato in un più semplice
codice ridotto tramite tre applicazioni interrelate
dell'operatore simmetrico:
(SYM (SYM (SYM (L/2 45)))).
Questa descrizione ha un carico d'informazione di 2
unità: una per il parametro lunghezza, L/2, e
l'altra per il parametro angolo, 45°. (L'operatore
di simmetria, SYM, non conta nel carico d'informazione
perché non ha un parametro associato, al contrario
dell'operatore d'iterazione.)
Il codice ridotto che specifica le simmetrie di riflessione
di un quadrato è il suo codice minimo, e questo
corrisponde bene con le simmetrie bilaterali che molte
persone percepiscono in un quadrato.
La teoria dell'informazione strutturale può essere
applicata ad ogni quadrilatero della figura 8.3.3 per
predirne la bontà dell'immagine; il carico d'informazione
del codice minimo delle figure è rappresentato
sotto ognuna: il quadrato ha il minor carico d'informazione
(2), seguito dal rettangolo e dal rombo (4), dal parallelogramma
(5), dal trapezio (6), e infine dal quadrilatero irregolare
(8).
L'ordine in cui è disposto il carico d'informazione
corrisponde bene con l'ordine della bontà percepita
per queste figure.
APPLICAZIONI
ALL'ORGANIZZAZIONE PERCETTIVA
La teoria dell'informazione strutturale è usata
non soltanto per percepire la bontà dell'immagine
delle forme, ma anche per esprimere un'organizzazione
percettiva in un numero di potenziali situazioni ambigue,
come il completamento di figure parzialmente occluse
e la trasparenza.
Esamineremo il caso di un quadrato parzialmente occluso
da un altro (fig.8.3.6); per prima cosa considereremo
tre delle possibili interpretazioni percettive di quest'immagine:
la più usuale consiste nel vedere un quadrato
più scuro dietro uno più chiaro, l'interpretazione
a mosaico consiste nel vedere un quadrato confinante
con una figura a forma di L rovesciata, e la terza consiste
nel percepire un quadrato con l'angolo tagliato dietro
un altro quadrato.
Il codice per il quadrato bianco è uguale per
tutte e tre le interpretazioni, mentre quello per la
figura scura cambia: il codice minimo ha un carico d'informazione
minore per il quadrato della 1° interpretazione
(2), rispetto a quello delle altre due, che corrisponde
allo stesso valore (5); questo significa che, la teoria
dell'informazione strutturale è capace di predire
che le persone percepiscono quest'immagine scura come
un quadrato parzialmente occluso piuttosto che nel modo
descritto dalle altre due interpretazioni.
È interessante il fatto che la teoria dell'informazione
strutturale è capace di predire anche, che le
persone tenderanno a completare l'ottagono in fig.6.4.7A,
ma non le croci in fig. 6.4.7B, perché la simmetria
delle croci è sufficiente a rendere il loro codice
minimo più semplice di quello che avrebbe la
loro alternativa completata.
La teoria dell'informazione strutturale è strettamente
in relazione con le tre teorie esposte in precedenza,
infatti:
· come l'analisi teoretica dell'informazione
di Attneave (1953) e Hochberg e McAlister (1953), identifica
le figure "buone" tramite le descrizioni di
queste ottenute dopo la rimozione delle ridondanze;
· come sia la teoria del sottoinsieme R&R
di Garner (1974) e sia la teoria del sottogruppo di
simmetria di Palmer (1991), le rindondanze che essa
rimuove dai codici sono in relazione con le simmetrie
di rotazione e riflessione.
Ma la teoria dell'informazione strutturale va significativamente
oltre queste altre teorie perché specifica anche
una rappresentazione attuale della forma e la usa per
predire cosa le persone percepiscono in situazioni ambigue.
FORZE
La teoria dell'informazione strutturale può facilmente
trattare del problema di trasformazioni di somiglianza
perché il codice minimo è indipendente
dalla posizione, misura, orientamento e riflessione
di una figura. Queste variabili sono effettivamente
scomposte nella iniziale posizione, direzione e lunghezza
del lato della variabile usate nel generare il codice.
DEBOLEZZE
La teoria dell'informazione strutturale affronta anche
un numero di serie difficoltà:
1. non può essere direttamente applicata ad immagini
su scala di grigio, come molte teorie psicologiche essa
lavora su ideali disegni lineari. Essa perciò
richiede un pre-elaboratore che riduca l'immagine su
scala di grigio ad immagini contenenti solo contorni
puliti, perciò eliminando il problema di differenti
canali di immissione.
2. Non contiene nessuna codificazione esplicita di parti
eccetto semplici linee o curve; concavità e convessità
sono trattate essenzialmente allo stesso modo e a dispetto
di tutte le strutture rappresentate nei codici minimi
nessuna di queste è in relazione con le parti.
La figura 8.3.7 illustra tre figure di cui i numeri
differenti di parti non potrebbero essere riflessi nei
loro codici minimi. ( Fig 8.3.7 le persone generalmente
percepiscono queste figure come contenenti una (A),
due (B) e tre (C) parti, tuttavia i loro codici minimi
non riflettono questo fatto nella teoria dell'informazione
strutturale).
3. E' facile vedere come si applica la teoria dell'informazione
strutturale a figure bidimensionali ma è più
difficile per quelle tridimensionali, queste ultime
possono essere generate facendo scorrere la figura bidimensionale
lungo un'asse.
4. L'unico modo per garantire che l'interpretazione
percettiva è la sola con il minor carico d'informazione
è confrontare tutti i possibili codici. Questo
è difficile, ed in molti casi impossibile, per
esempio, nel caso del quadrato parzialmente occluso
ci sono un numero infinito di completamenti logicamente
possibili, ed ovviamente non possono essere tutti calcolati
e confrontati.
5. La simmetria approssimata come l'esempio in fig.8.3.8
non può essere catturata dalla teoria dell'informazione
strutturale usando l'operatore di simmetria perché
la sua simmetria è imprecisa; per questo motivo
molte persone spontaneamente la percepiscono come approssimatamente
simmetrica rispetto il suo asse verticale.
6. La teoria dell'informazione strutturale non è
una teoria d'elaborazione, non specifica l'attuale elaborazione
o algoritmo che il sistema visivo dovrebbe usare per
derivare il codice ridotto con il minor carico d'informazione.
Molto più problematico è, però,
il fatto che non c'è un metodo computazionale
per la costruzione di codici minimi, eccetto sotto condizioni
molto ristrette.
|