Capitolo
6
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per
il corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che
non hanno molta dimestichezza con la lingua
inglese. Le traduzioni sono opera degli stessi
studenti del corso di Psicologia della Percezione
1999 - 2000. Nell'utilizzo
di questo materiale va tenuto conto che la correttezza
dello stesso va verificata confrontando le traduzioni
con il testo originale. Per ulteriori domande,
clicca
qui.
|
INTRODUZIONE
Il
mondo che conosciamo e percepiamo è popolato
da oggetti in larga scala come le persone, le cose,
gli alberi e non da margini, ostacoli o macchie. L'organizzazione
percettiva è così pervasiva e profondamente
integrata nell'esperienza visiva che è spesso
difficile apprezzarne l'importanza. Quando osserviamo
l'ambiente spesso percepiamo invariabilmente interi
oggetti integrati nello spazio tridimensionale e lo
facciamo in maniera così automatica e con una
sicurezza tale che è difficile immaginare che
ogni cosa è costituita in un modo terribilmente
complesso. Se la percezione non fosse organizzata affatto,
l'ambiente sarebbe caratterizzato da superfici estese
ed oggetti senza nessuna struttura a larga scala. Forse
la migliore descrizione per una percezione visiva destrutturata
è una "tempesta" di input percettivi
dal moto vorticoso e multicolorati risultante dall'output
di milioni di recettori retinici non correlati.
I teorici della percezione, nella tradizione empirista,
suppongono che questa dovrebbe essere l'esperienza di
un bambino appena nato. Poiché gli empiristi
credono che tutta la struttura visiva è appresa
dall'esperienza, ne consegue che il mondo di un neonato
deve essere completamente non strutturato.
Il noto filosofo - psicologo W. James, chiama questa
una "blooming - buzzing confusion" cioè
una "fiorente e ronzante confusione". Infatti
non sappiamo esattamente quella che è l'esperienza
visiva di un neonato, perché costui non ce lo
dice, non direttamente almeno.
Recentemente è sono state sviluppate delle tecniche
interessanti ed innovative; esse hanno permesso di inferire
quello che dovrebbe essere il mondo visivo di un infante.
Dalle scoperte fatte appare chiaro che anche un bambino
presenta un certo tipo di organizzazione percettiva,
il resto sembra svilupparsi dal sesto all'ottavo mese
di vita durante il quale il piccolo apprende dall'interazione
con l'ambiente.
PROBLEMA DELL'ORGANIZZAZIONE PERCETTIVA:
Sono stati gli psicologi della Gestalt all'inizio del
secolo a coniare il concetto di organizzazione percettiva.
Esso costituiva uno dei concetti centrali nel loro attacco
alle assunzioni atomistiche dello strutturalismo. Come
discusso nel capitolo 2, gli strutturalisti concepiscono
la percezione visiva come una semplice concatenazione
di atomi sensoriali consistenti in una sorta di punti
colorati.
Questa visione della percezione visiva è estremamente
localizzata nel senso che ogni atomo è definito
da una particolare posizione sulla retina e considerato
indipendente dagli altri, per lo meno finche essi venivano
insieme all'interno di complessi spaziali più
grandi attraverso il processo di apprendimento associativo.
I Gestaltisti, contrariamente, pensavano che percezione
visiva risultasse dalle interazioni globali all'interno
del sistema nervoso visivo e dalla struttura complessiva
della stimolazione visiva stessa.
Max Wertheimer, uno dei padri fondatori della psicologia
della Gestalt, per primo propose la questione dell'organizzazione
percettiva. Il suo punto di vista può essere
compreso considerando che l'output del mosaico retinico
favorirebbe una semplice ma più strutturata immagine.
La figura 6.1.1A illustra un output come una matrice
numerica nella quale ogni numero rappresenta il responso
neurale di un singolo recettore retinico. In questa
struttura numerica è pressoché impossibile
cogliere la struttura e l'organizzazione dell'immagine.
La situazione è molto simile al sistema di riconoscimento
delle facce, poiché la struttura che percepiamo
in modo così diretto non è esplicitamente
fornita dall'immagine stimolo, ma deve essere scoperta
dal sistema nervoso. Infatti c'è un numero potenzialmente
illimitato di possibili organizzazioni in un'immagine,
ma ne percepiamo solo una. Quale di esse percepiamo
e perché ne percepiamo una piuttosto che un'altra
sono domande che richiedono spiegazioni.
La struttura dell'immagine numerica diviene completamente
ovvia quando si possono osservare quei stessi valori
come livelli luminosi, come illustrato dall'immagine
6.1.1B.Una figura di molti quadrati bianchi e neri organizzati
su quattro righe orizzontali su sfondo grigio.
Ma perché l'immagine dei quadrati appare così
ovvia, mentre la struttura sotto forma di matrice numerica
risulta così oscura? La ragione è che
il sistema visivo umano si è sviluppato apprendendo
come riconoscere bordi, regioni, oggetti, gruppi e modelli
delle strutture di luminanza e colori nell'immagine
ottica. L'immagine della scala di grigio comprende appieno
questo meccanismo, mentre la matrice numerica lo fa
molto scarsamente.
Perché l'esperienza visiva è organizzata
in questo modo?
La risposta più ovvia è che semplicemente
riflette la struttura del mondo esterno. L'ambiente
fisico consiste di cose come superfici ed oggetti disposti
nello spazio piuttosto che punti e colori; questo perché
la percezione è organizzata così com'è.
L'ERRORE D'ESPERIENZA.
Il sistema visivo non ha un diretto accesso ai fatti
sull'ambiente, ma solo ai fatti circa l'immagine proiettata
sulla retina. Cioè un organismo non può
presumere di conoscere come l'ambiente è strutturato
se non attraverso l'informazione sensoriale. I Gestaltisti
parlano di errore esperienziale circa il problema dell'organizzazione
percettiva poiché si suppone che la struttura
dell'esperienza percettiva è in qualche modo
direttamente fornita dagli assetti ottici che cadono
sul mosaico retinico.
La confusione che sta alla base dell'errore esperienziale
è supporre che il punto di partenza per la visione
è lo stimolo distale piuttosto che quello prossimale.
E' molto facile cadere in errore poiché lo stimolo
distale è una componente essenziale nella catena
casuale di eventi che solitamente producono le esperienze
visive. Prendendo lo stimolo distale come punto di partenza
per la visione si sottovaluta pericolosamente la difficoltà
della percezione visiva perché si presuppone
che determinate informazioni giungano in modo diretto.
Ma la struttura dell'ambiente va considerata come il
risultato della percezione visiva piuttosto che il suo
punto di partenza.
6.1 RAGGRUPPAMENTI PERCETTIVI
L'approccio iniziale di Wertheimer al problema dell'organizzazione
percettiva fu quello di studiare i fattori stimolo che
producono raggruppamenti percettivi . Egli ha affrontato
questo problema costruendo matrici di elementi geometrici
molto semplici e variando le relazioni tra gli stimoli
per determinare quali fossero responsabili della percezione
di elementi raggruppati.
6.1.1 I PRINCIPI CLASSICI DI RAGGRUPPAMENTO
Wertheimer iniziò con una singola linea di punti
equidistanti. Questi non erano raggruppati insieme in
alcun modo, eccetto il gruppo costituito dall'intera
striscia di punti. Successivamente notò che quando
alternava lo spazio tra i punti adiacenti ( fig. 6.1.2B
), allora era più facile concepire i punti raggruppati
per coppie. Tale fattore di relativa vicinanza, chiamato
da Wertheimer prossimità", fu la prima delle
sue famose LEGGI DEL RAGGRUPPAMENTO.
Wertheimer illustrò altri principi come quello
della "similarità": pur essendo uguali,
gli elementi più simili (per colore, misura ed
orientamento) tendono ad essere raggruppati insieme.
La similarità può essere considerata un
principio generale di raggruppamento poiché ricopre
proprietà assai diverse.
Un altro fattore è ciò che Wertheimer
chiamava "sorte comune". Pur essendo uguali,
gli elementi che si muovono nella stessa direzione,
vengono raggruppati insieme. Va notato che la sorte
comune può essere considerata un caso speciale
di similarità, nel quale la proprietà
similare è la velocità del movimento.
Gli psicologi della Gestalt hanno descritto alcuni fattori
che influenzano il raggruppamento di elementi.
La "simmetria" (fig. 6.1.2G) ed il "parallelismo"
(fig. 6.1.2H) sono fattori che influenzano il raggruppamento
di curve e linee.
Un altro fattore è quello di "continuità"
di linee e bordi: essendo tutti uguali, gli elementi
possono essere visti come continuazioni lineari l'una
dell'altra che tendono ad essere raggruppati insieme
(fig. 6.1.2I).
Il fattore della "chiusura" (fig. 6.1.2J)
è presente quando gli elementi formano una figura
chiusa ed essi tendono ad essere raggruppati insieme.
L'effetto di chiusura può rievocare la continuità
perché le stesse linee che erano organizzate
come intersecanti, sono ora organizzate come due angoli
che si incontrano in un punto unico.
Ciò accade perché segmenti non continui
ora costituiscono parti della stessa figura chiusa.
Le dimostrazioni di continuità e chiusura illustrano
una importante limitazione nelle conoscenze sui principi
di raggruppamento. Come sostenuto dagli psicologi gestaltisti,
le regole possono predire l'esito dei raggruppamenti
con certezza solo quando ogni cosa è sullo stesso
livello, cioè, quando non esistono altri fattori
di raggruppa- mento che influenzano gli esiti. Per esempio
abbiamo visto che la continuità determina l'effetto
di
raggruppamento quando gli elementi non formano una figura
chiusa, ma la continuità stessa può essere
soppiantata dall'effetto di chiusura.
Tali regole hanno il problema di non disporre di schemi
che possono integrare i fattori di raggruppamento sopra
menzionati.
Se abbiamo un caso in cui la prossimità svolge
un ruolo di raggruppamento e allo stesso tempo anche
il colore svolge lo stesso ruolo, percepiamo l'effetto
che si manifesta più decisamente.
6.1.2 NUOVI PRINCIPI DI RAGGRUPPAMENTO
Recentemente sono stati proposti 3 nuovi principi di
raggruppamen-
to: "sincronia", "regione comune",
ed "elementi connessi".
Il principio di sincronia sostiene che, essendo tutti
uguali, gli elementi visivi che si manifestano nello
stesso momento vengono percepiti insieme.
Tale fattore è stato studiato in relazione alla
percezione acustica e solo recentemente in campo visivo.
Nell'esempio dato (fig. 6.1.5) una striscia di punti
bianchi e neri equamente distanziati mutano nel colore
l'uno dell'altro in un tempo dato. Metà dei punti
cambiano colore allo stesso tempo e l'altra metà
in un tempo diverso. Quando il tempo di alternanza è
circa di 25 cambiamenti per secondo o meno, l'osservatore
vedrà i punti fortemente raggruppati in coppie
in base alla sincronia. Ad un tempo più veloce,
non è possibile osservare l'effetto di raggruppamento
dei punti. Ad un tempo molto basso invece, si osserva
il raggruppamento al momento dei cambiamenti, ma esso
si dissolve durante l'intervallo tra i salti da un colore
all'altro.
Un altro principio recente è quello della "
regione comune". Esso sostiene che, essendo tutti
gli elementi uguali, quelli chiusi all'interno di una
regione comune sono raggruppati insieme ( fig. 6.1.6
).
Il terzo principio di raggruppamento è la "connessione
di elementi":
essendo tutti uguali, gli elementi connessi sono raggruppati
insieme. Palmer e Rock ( 1994 ) fornirono una serie
di dimostrazioni, una delle quali analoga a quella classica
di Wertheimer.
Una linea di punti ugualmente distanziati è maggiormente
costituita in gruppi quando elementi come linee orizzontali
uniscono i punti tra di loro (fig.6.1.7).
Wertheimer considerava questo un caso limite di prossimità;
Palmer e Rock invece distinguevano la prossimità
dalla connessione di elementi per diverse ragioni:
1) esiste un importante distinzione qualitativa tra
la connessione e la mera prossimità.
2) essi notarono che "going together" è
più adatto agli elementi connessi piuttosto che
a quelli solamente vicini.
3) esiste una importante differenza fenomenologica tra
oggetti connessi e oggetti vicini. Gli elementi connessi
risultano nella percezione di un singolo oggetto unificato
costituito da parti differenti; mentre la sola prossimità
consiste in un aggregato approssimativo di molti oggetti
separati ma in relazione.
6.1.3 MISURAZIONE QUANTITATIVA DEGLI EFFETTI DI
GRUPPO
Le dimostrazioni della Gestalt sui raggruppamenti sono
adeguate per spiegare le regole del "ceteris paribus",
ma non lo sono per spiegare in che maniera possono essere
integrati tali fattori.
Sono stati adottati due metodi recentemente, uno basato
direttamente sui raggruppamenti stessi, e l'altro basato
su un compito indiretto ma oggettivamente definito.
Kubovny e Wagenmans hanno misurato la relazione che
intercorre tra diversi raggruppamenti.
Gli sperimentatori mostrarono ai soggetti un reticolo
di punti per circa 300ms; quindi chiesero ai soggetti
di indicare, scegliendo tra altri quattro reticoli di
punti che evidenziavano orientamenti diversi, a quale
reticolo corrispondesse l'orientamento di quello assegnato
(fig. 6.1.9 ). In accordo con il principio della prossimità,
i risultati mostrarono una preferenza per l'organizzazione
nella quale i punti erano più strettamente vicini.
Dopo molte prove venne calcolata la probabilità
di percepire ogni raggruppamento. I dati
vennero trattati in un modello matematico nel quale
l'attrazione tra i punti decresceva esponenzialmente
in funzione della distanza.
Un altro metodo quantitativo per lo studio dei raggruppamenti
è il cosiddetto compito di discriminazione e
ripetizione proposto da Palmer e Beck.
Si tratta di un quadro nel quale ci sono file di cerchi
e quadrati che si alternano eccetto per una coppia adiacente
di quadrati o cerchi. Il compito dei soggetti e di determinare
se la coppia ripetuta è composta da quadrati
o cerchi; i soggetti devono rispondere premendo un bottone
più velocemente possibile. Le risposte sono misurate
in tre differenti condizioni ( fig. 6.1.10 ): la prova
within group, nella quale c'è un gruppo formato,
per prossimità, dalla coppia ripetuta; la prova
between group, nella quale gli oggetti ripetuti fanno
parte di gruppi diversi; la prova neutrale nella quale
non ci sono distorsioni rispetto al target. Ci si aspetta
che il target venga riconosciuto più velocemente
quando fa parte dello stesso gruppo, piuttosto che faccia
parte di gruppi diversi.
Effettivamente i risultati dimostrarono una risposta
più veloce nel within group ( 719ms ), piuttosto
che nel between group ( 1144ms ).
I metodi quantitativi come questi hanno il vantaggio
di fornire una precisa misurazione degli effetti di
raggruppamento quando la fenomenologia non è
chiara.
6.1.4 IL RAGGRUPPAMENTO E' UN PROCESSO PRECOCE O TARDIVO
?
La questione su dove è situato il raggruppamento
nel processo visivo è molto importante. E' un
processo che lavora a livello di struttura dell'immagine
o lo fa più tardi, dopo che le informazioni di
profondità sono state estratte ed è stata
raggiunta la costanza percettiva?
Wertheimer sosteneva che i raggruppamenti avvenissero
ad un livello molto basso, corrispondente a ciò
che è rappresentato dal processamento dell'immagine
base. Ciò nonostante questa visione è
stata spesso messa in discussione, anche recentemente.
Le dimostrazioni della Gestalt sul raggruppamento non
seguivano questo assunto perché nei quadri impiegati,
la profondità e la costanza erano irrilevanti;
venivano mostrati quadri bidimensionali sul piano frontale
con illuminazione omogenea. Su queste basi non era possibile
determinare se il fattore critico di raggruppamento
operasse a livello bidimensionale o tridimensionale.
Il primo esperimento che era volto a separare esplicitamente
le predizioni di organizzazione ai due livelli concerneva
il raggruppamento per prossimità.(Rock e Brosgole
).
La questione era se le distanze che governano i raggruppamenti
per prossimità erano definite su un'immagine
piana bidimensionale o nello spazio tridimensionale.
Un quadro di perle luminose(fig.6.1.12 ) veniva mostrato
dapprima su due dimensioni all'interno di uno sfondo
scuro; successivamente lo stesso quadro veniva presentato
in profondità ( in 3D ). I soggetti sostenevano
di percepire nel primo caso ( bidimensionale ) le perle
raggruppate per colonne. Nel secondo caso invece (visione
tridimensionale) le perle venivano percepite come raggruppate
per righe, orizzontalmente se l'osservazione dello stimolo
era monoculare; altrimenti, con l'ausilio dell'informazione
binoculare, i soggetti riportavano di vedere le perle
raggruppate per colonne. Tutto ciò supporta l'ipotesi
che il raggruppamento avvenga dopo la percezione stereoscopica
di profondità.
Alcuni risultati mostrano che i raggruppamenti non possono
essere attribuiti interamente a un processamento visivo
precoce, prima di aver raggiunto la costanza visiva.
Ad ogni modo essi sono compatibili con la possibilità
che il raggruppamento è un processo temporalmente
esteso che include componenti ad un livello sia precoce
sia successivo di processamento.
6.1.5 EFFETTO DELL'ESPERIENZA PASSATA
Il concetto della past experience si riferisce all'idea
che se alcuni elementi sono stati associati in precedenza
prima dell'osservazione diretta, essi tenderanno ad
essere associati. Un esempio chiaro di tale principio
è quello relativo alla figura nella quale, dopo
attenta osservazione, si può vedere un dalmata
che annusa la strada. Così, una volta percepito
il soggetto della figura, sarà quasi impossibile
non vederlo. Il principio della past experience è
fondamentalmente differente dagli altri fattori discussi
da Wertheimer poiché non riguarda proprietà
geometriche della configurazione dello stimolo stesso.
Proprio forse per questo la Gestalt ha ignorato tale
principio.
6.2 Analisi regionale
L'attento lettore può aver notato un'importante
lacuna nella storia dell'organizzazione della percezione.
Secondo i Gestaltisti: essi trascuravano di spiegare
come gli elementi della loro analisi sorgessero in primo
luogo. Wertheimer sembra aver semplicemente accettato
l'esistenza di tali elementi come se fosse fenomenologicemente
ovvio che l'analisi non era necessaria. Se è
così questo è un esempio dell'errore di
esperienza per il quale spesso i Gestaltisti criticano
gli altri. Gli elementi delle dimostrazioni di Wertheimer
non sono dati direttamente dalla struttura della disposizione
dello stimolo, ma richiedono una spiegazione comprendente
un'analisi dei fattori che ne governano l'esistenza
come oggetti di percezione. La base ovvia per gli elementi
delle esperienze di percezione che Wertheimer presupponeva
nei suoi principi di raggruppamento è un'analisi
delle regioni: determinate da confini, aree a 2-D che
costituiscono sottosezioni spaziali dell'immagine. Per
quanto fondamentale sia il concetto di regione per l'elaborazione
delle immagine, non ne abbiamo ancora discusso esplicitamente,
essendoci concentrati principalmente sui concetti monodimensionali
di linee e margini. Nel cap. 4, per es., abbiamo discusso
ampiamente sulle modalità con cui possono essere
localizzati i margini a 1-D, ma abbiamo detto
molto poco riguardo al motivo per cui tali margini possono
essere importanti. Nel cap. 5 abbiamo visto che i margini
erano interessati a diversi aspetti cruciali della percezione
di profondità, come l'interpretazione dei margini
e l'informazione di prospettiva. Ora considereremo un
altro importante aspetto della funzione percettiva:
come i confini che determinano regioni a 2-D. Regioni
definite sono centrali per l'organizzazione percettiva
perché possono ben definire il primo livello
di unità pienamente bidimensionale sul quale
è basata l'elaborazione successiva.
6.2.1. Connessione uniforme
Palmer e Rock (1994a) danno un'analisi esplicita della
modalità con cui gli elementi presupposti da
Wertheimer potessero essere formati in termini di un
principio di organizzazione che si definiscono di connessione
uniforme: le tendenze a percepire le regioni connesse
di proprietà uniformi di immagine- vale a dire
per esempio luminosità, colore, la struttura
dell'immagine, moto e disparità come le unità
iniziali di organizzazione percettiva. Come vedremo,
il principio di connessione uniforme, forma anche un
collegamento cruciale tra la letteratura sull'avvertimento
di immagini discusso nel cap.4 e quello riguardante
l'organizzazione percettiva e i raggruppamenti discussi
in questo capitolo.
Ora considereremo gli elementi nella dimostrazione originale
di Wertheimer come esempio di come l'organizzazione
in regioni per mezzo di connessione uniforme possa avvenire
come uno stadio iniziale nella organizzazione percettiva.
I punti, le linee, e i rettangoli nella fig.6.12A,6.12F
sono tutte regioni connesse di luminanza uniforme, e
corrispondono agli elementi ai quali Wertheimer faceva
riferimento nella sua analisi dei raggruppamenti. Le
lettere V nella fig.612G e612H, i disegni a forme di
X nella figura 612I,e l'aspetto a contorno di clessidra
nella fig.612J sono anche regioni uniformi connesse
sulla base dell'analisi di Palmer e Rock, ma la loro
relazione agli elementi di Wertheimer è leggermente
più complessa e sarà considerata più
tardi completamente.
Il potente effetto della connessione uniforme sull'organizzazione
percettiva può essere rappresentata in semplici
dimostrazioni di punti come quelli usati da Wertheimer,
illustrati nella figura 6.2.1. La parte A mostra che
una fila di punti di diversa luminosità spaziati
uniformemente si vedono come entità unitarie
e la parte B mostra che la stessa cosa è vera
per le regioni che vengono definiti come elementi orientati
differentemente nella loro struttura. La parte C e D
mostra che tali regioni si fondono in più ampi
e più complessi unitari quando essi sono collegati
da regioni definite dalle stesse proprietà, laddove
la parte E F mostrano che quando esse sono collegate
dalle regioni di proprietà diverse, esse non
vengono più percepite come degli elementi pienamente
unitari. Si potrebbe dapprima pensare che la connessine
uniforme sia niente di più che un principio di
similarità che funziona sulla base di luminosità
e colore. Per es., se una piccola macchia di luce, che
cade su ciascun recettore della retina fosse considerata
come elemento, potrebbero le regioni uniformemente connesse
non essere spiegate raggruppando questi elementi sulla
base di luminosità e colore? Forse, questo è
ciò che Wertheimer spesso pensava a proposito
dell'organizzazione degli elementi. Ma l'identicità
del colore non è sufficiente per spiegare l'unità
percettiva di regioni uniformemente connesse, perché
non dà spiegazioni sulle differenze tra le regioni
connesse di colore omogeneo e quelle disconnesse. Vale
a dire, senza l'addizionale vincolo della connessione,
non c'è una base per prevedere che due aree nere
entro lo stesso punto o sbarretta, non sono più
strettamente correlate rispetto a delle aree compa rabili
nere entro due diversi punti o sbarrette.
Nota 2: Un altro modo per spiegare questo fatto è
quello di fare appello al raggruppamento associato (Geissler
in stampa) l'idea del raggruppamento associato riguarda
il fatto che, se A è raggruppata con B e B con
C, allora A sarà raggruppato con C. Questa ipotesi
può essere usata per spiegare perché i
punti entro una regione uniformemente connessa sono
raggruppati più fortemente l'uno con l'altro,
rispetto ad altri punti in altre regioni.
Fenomenologicamente non c'è dubbio, che ogni
punto individuale è più strettamente organizzato
come oggetto percettivo rispetto ad ogni paio di punti
separati. Questa osservazione suggerisce l'ipotesi che
la connessione uniforme è un importante principio
dell'organizzazione percettiva.
Palmer e Rock (1994a, 1994b) sostengono che la connessione
uniforme non può essere ridotta a nessun principio
di raggruppamento in quanto la connessione uniforme
non è per nulla un princi-
pio di raggruppamento. Questo loro modo di ragionare
riguarda il fatto che il principio di raggruppamento
presuppone l'esistenza di elementi indipendenti che
devono essere raggruppati insieme, laddove la connessione
uniforme è definita su di un'immagine non segregata.
Per questa ragione, la connessione uniforme deve logicamente
operare prima che ogni principio di ragguppamento possa
avere effetto. Questo è solamente un altro modo
di dire, poiché la connessione uniforme è
il processo responsabile per la formazione di elementi
in primo luogo, che deve avvenire prima dell'operare
di ogni processo su tali elementi.
Se la connessione uniforme è così fondamentale
nell'organizzazione percettiva, è importante
capire perché Palmer e Rock sostengono che ciò
avviene a causa del suo valore informativo per designare
oggetti connessi (o parti di oggetti) nel mondo. Come
regola generale, se un'area
dell'immagine retinica costituisce una regione omogeneamente
connessa, essa quasi certamente proviene dalla luce
riflessa da un singolo oggetto collegato nell'ambiente.
Questo non è invaria- bilmente vero, naturalmente,
poiché qualche volta il modello su un animale
camuffato si fonde con una regione ugualmente colorata
nello sfondo del suo habitat naturale, come illustrato
nella fig. 6.1.8. Questo è un altro esempio di
un caso nel quale la percezione viene sballata ogni
volta che le assunzioni euristiche che sottointendono
un processo percettivo vengono meno. Anche così,
tali situazioni sono piuttosto rare e la connessione
uniforme è davvero un eccellente eurismo per
trovare le regioni di immagine corrispondenti a parti
di oggetti connessi nell'ambiente. Allora ha senso,
per il sistema visivo, fare un primo passo nell'organizzare
un'immagine in oggetti, dividendola in regioni uniformemente
connesse.
Sulla base di questo ragionamento, Palmer e Rock suggeriscono
che la connessione uniforme è il primo principio
dell'organizzazione percettiva a 2-D da operare, è
il fondamento sul quale è basata tutta la organizzazione
percettiva. L'obiettivo di questa analisi iniziale è
quello di dividere la immagine in un set di regioni
reciprocamente esclusive - chiamata una partizione della
immagine molto simile ad un vetro cattedrale o a un
modello dipinto a numeri. La regione così identificata
può essere ulteriormente organizzata con altri
processi come ad esempio discriminare delle figure dallo
sfondo, raggruppando due o più regioni insieme,
e dividendo una singola regione in due o più
subregioni. Un diagramma di flusso che rappresenti l'idea
di Palmer e Rock (1999a) delle relazioni dei processi
organizzativi è rappresentato nella fig.6.2.2.Più
avanti in questo capitolo considereremo la addizionale
processo di organizzazione di determinazione figura/sfondo,
e nel capitolo successivo considereremo questa divisione.
Ma prima di farlo dobbiamo analizzare in dettaglio come
una immagine possa essere divisa in regioni uniformemente
connesse.
6.2.2. Segmentazione delle regioni
Il processo di divisione di un'immagine in aree mutualmente
esclusive, basate sull'uniformità di proprietà
di immagini base, come la luminanza, il colore cromatico,
la struttura, il movimento, o la disparità binoculare,
viene chiamata segmentazione regionale. E' il processo
che sotto intende il principio della connessione uniforme.
Ci sono due modi ovvi di affrontare questo compito.
Uno è quello di individuare esplicitamente l'identità
o la similarità delle porzioni adiacenti dell'immagine.
Sebbene questa sia una logica possibilità sulla
quale torneremo presto, ci sono buone ragioni per credere
che in realtà il sistema visivo avverte le differenze
(o i gradienti) in proprietà visive locali che
dividono una regione da un'altra e che questa sia alla
base della segmentazione per regione.
Gli approcci basati sui confini: meno rettamente abbiamo
già discusso un possibile meccanismo per l'approccio
basato sulla segmentazione delle regioni: gli algoritmi
dell'identificazione dei margini (vedi 4.3.2.). Ogni
qualvolta i bordi di luminosità formano un contorno
chiuso, essi necessariamente definiscono due regioni:
quella completamente chiusa dentro e quella parzialmente
chiusa fuori. Un'immagine può quindi essere segmentata
in una serie di regioni connesse usando un algoritmo
di detenzione dei margini per individuare i contorni
chiusi. Questa idea forma un collegamento teorico effettivo
tra il lavoro ben noto di calcolo fisiologico sull'individuazione
dei margini e il lavoro della Gestalt sull'organizzazione
percettiva. Specificatamente, suggerisce che la percezione
a 1-D dei margini possa essere il primo passo nell'organizzazione
percettiva come parte del processo di segmentazione
di regioni a 2-D, il cui proposito è quello di
trovare delle regioni con delle aree grossolanamente
connesse, nell'immagine in modo uniforme.
Abbiamo descritto l'algoritmo zero-crossing di Marr
e Hildreth (1980) per la detenzione dei margini in un
certo dettaglio, nella sezione 4.3. Ci sono anche algoritmi
che producono risultati simili, come quello di Canny
(1986) per la detenzione dei margini, poiché
tutti funzionano individuando esplicitamente un gradiente
(o dei cambi graduali) di luminosità.
Nell'algoritmo di Marr-Hildreth, questo si compie attraverso
un'immagine con un set di operatori di margine di secondo
ordine e individuando lo zero-crossing nel risultato.
Un vantaggio nello schema di Marr e Hildreth della prospettiva
corrente si nota nei margini definiti da questo zero-crossing
che necessariamente formano dei contorni chiusi. Essi
quindi definiscono, implicitamente, una parte dell'immagine
come definita nella figura 6.2.3. Dati questi margini,
ogni punto può essere assegnato a una sola regione
d'immagine. Gli algoritmi per individuare i margini
di luminanza possono così essere usati come partizione
dell'immagine in regioni connesse, di luminanza approssimativamente
uniforme. Per alcuni schemi geometrici senza interferenza,
estremamente semplici come quelli usati per dimostrare
i principi classici di raggruppamento, nella fig.6.1.2.
gli algoritmi di luminanza di margine sarebbero sufficienti
per dividere l'immagine negli stessi oggetti che la
gente avverte guardandoli. Nelle immagini che si presentano
più naturalmente, tuttavia, molti altri fattori
devono essere presi in considerazione per determinare
le regioni che un osservatore umano potrebbe identificare
come tali. Considerate più attentamente l'esempio
mostrato nella figura 6.2.3. La parte A mostra l'immagine
originale, e la parte B mostra la sua segmentazione
in regioni con lo zero-crossing. Notate che questo operatore
di margine ha individuato molte regioni percettivamente
spurie. Alcune di loro risultano da differenze relativamente
piccole nella luminanza, che possono essere eliminate
semplicemente fondendo regioni adiacenti tra le quali
ci sia un sufficiente margine basso di contrasto (Yakimovsky,
1976).
Più importante, tuttavia, ci sono anche delle
regioni distinte definite da delle differenze di luminanza
relativamente ampie che corrispondono a differenti regioni
dello stesso oggetto percepito.
Molti casi risultano dalla interazione di luce e superficie
come ombre e luci forti riflesse. Tali regioni devono
essere unificate da dei processi di costanza di luce.
Per esempio, ci sono delle regioni piuttosto ampie di
alta luminosità nella fig. 6.2.3. che sono raggruppate
insieme con delle regioni su
re adiacenti, tutte costituiscono la superficie scura
della scultura. Questa percezione di una superficie
scura e luminosa, risultano dalle regioni di luce che
sono interpretate come luci alte che sorgono dalla luce
riflessa.
Altri esempi di regioni distinte nell'immagine che appartengono
allo stesso oggetto percepito ven-
gono dall'occlusione. Quando un oggetto è davanti
ad un altro, che occlude parte di esso dalla vista,
due o più regioni distinte possono essere presenti
nell'immagine che noi percepiamo come parte dello stesso
oggetto. Processi di raggruppamento devono essere allora
usati per metterli insieme nuovamente. I fenomeni come
le ombre, le occlusioni indicano che molti processi
aldilà della segmentazione regionale sono richiesti
per determinare l'organizzazione finale dell'immagine
realistica negli oggetti che le persone percepiscono.
Considereremo più tardi alcuni di questi punti
in questo capitolo.
Approcci basati sulle regioni
Forse vale la pena di menzionare il fatto che questi
algoritmi basati sui confini per la segmentazione delle
regioni sono piuttosto differenti da quella sorta di
processi che i teorici della Gestalt presero in esame
quando parlavano dei fenomeni di raggruppamento. Le
dimensioni di Wertheimer e le discussioni sul raggruppamento
per similarità suggerisce un processo globale
più complesso che riunisca una serie di elementi
discreti forse con dei processi di mutua attrazione
dovuta a proprietà comuni. Questo è piuttosto
diverso dall'approccio della ricerca dei confini alla
segmentazione delle regioni che avviene come sottoprodotto
della individuazione dei margini. Le idee della Gestalt
suggeriscono che ci possono essere altri approcci alla
segmentazione delle regioni che avviene come sottoprodotto
della individuazione dei margini. Le idee della Gestalt
suggeriscono che ci possono essere altri approcci alla
segmentazione delle regioni che non dipendono da un
processo precedente di individuazione del margine locale
ma trovano regioni più direttamente. In verità
è persino possibile che la detenzione dei margini
sia il risultato di una segmentazione regionale piuttosto
che la sua causa. Vale a dire, se un processo trova
regioni uniformemente connesse per mezzo di un processo
globale di attrazione, i margini vengono definiti implicitamente
dai confini tra le regioni. Questo è l'opposto
dell'approccio basato sul margine.
Sebbene virtualmente tutti gli algoritmi per trovare
i margini tra le regioni che sono stati immaginati fina
ad oggi sono essenzialmente processi locali, può
essere preferibile per essi essere determi- nati più
globalmente. Gli operatori di margine definiti da Marr
e Hildreth, Canny e altri, tutti trovano dei gradienti
di luminanza facendo dei calcoli su parti molto ristrette
dell'immagine.
Questi margini locali devono essere integrati in un
set di contorni chiusi per trovare le regioni nelle
quali l'immagine sarà segmentata.
Questo processo può essere difficile dal punto
di vista del calcolo e di rado produce delle segmentazioni
intuitivamente soddisfacenti della scena in regione
(per es. la fig. 6.2.4 D, che illustra il prodotto di
un individuatore del margine di Canny sull'immagine
del pinguino delle fig. 6.2.4.A).
Una procedura più globale basata sulla regione
è stata recentemente immaginata da Malik e i
suoi colleghi (Lenng e Malik 1998; Shi e Malik,1997).
Il loro approccio di teoria grafica non comincia per
nulla trovando margini e linee, piuttosto divide direttamente
l'immagine in regioni trovando quel set di punti che
sono simultaneamente più simili entro una certa
regione e più diversi tra le regioni. La similarità
è definita nel loro algoritmo dall'integrazione
di un numero di fattori di Gestalt, come la similarità
di luminanza, colore, strutture e
movimento.
La fig. 6.2.4. mostra un esempio di un'immagine di pinguino
(parte A) e le regioni nelle quali il loro algoritmo
lo divide (parte B). I confini di queste regioni che
sono illustrati in parte C, sono piuttosto differenti
rispetto a questi tipi di margini locali che si trovano
con gli individuatori standard di margine (parte D).Notate,
per esempio, che il risultato dell' individuatore di
margine Canny produce di rado delle regioni non connesse,
laddove l'approccio basato su regioni di Malik e colleghi
lo introduce attraverso il disegno. La partizione regionale,
sebbene non perfetta, è piuttosto plausibile
e trova dapprima le regioni importanti, con la minima
preferenza di margini sconnessi
non sequenziali che affliggono la maggior parte degli
altri metodi. Seppure non sia ancora chiaro come un
tale approccio teorico possa essere implementato nel
cervello, questo lavoro è un importante ricordo
che l'approccio basato sui margini alla segmentazione
delle regioni, non è l'unico modo, e certamente
non il migliore, per separare un'immagine in regioni
uniformemente connesse.
La prova di immagini stabilizzate
Abbiamo suggerito che la detenzione dei margini, per
quanto possa attualmente essere calcolata, è
un probabile meccanismo per dividere la immagine in
regioni differenti, ma non abbiamo ancora fornito alcuna
prova per questa affermazione. Sulle modalità
di verifica, esiste un contributo impressionante di
ciò da esperimenti riguardanti la percezione
di immagini stabilizzate: immagi- ni presentate in modo
che esse siano completamente stazionarie sulla retina
(vedere sez.111).
Per quanto possa apparire strano, il sistema visivo,
attualmente, smette di adattarsi alle strutture ottiche
nell'immagine retinica se non si verifica cambiamento
nel tempo.(Ricordare dal cap.1 che questo è il
motivo per cui noi non percepiamo il punto cieco o i
vasi sanguigni nella nostra retina).Lo straordinario
risultato degli elementi sulle immagini stabilizzate
lo verifichiamo dopo averne osservata una per più
di pochi la quale scompare completamente!
La rilevanza di immagini stabilizzate secondo l'affermazione
che la detenzione dei margini è la
base della segmentazione regionale e sostiene la conclusione
che le persone fanno esperienza
della forma e colore delle regioni solamente sulla base
dell'informazione di margine. Forse la più significativa
dimostrazione deriva da un semplice ma elegante esperimento
di Krauskopf (1963).
Egli ha presentato degli osservatori con un circolo
centrale rosso circondato da un anello verde. In condizioni
normali di visione, esso appare come un circolo rosso
dentro un anello verde. Ma Krauskopf ha stabilizzato
il contorno interno tra le porzioni rosse e verdi del
campo visivo senza stabilizzare quello esterno. Il risultato
stupefacente è dimostrato dal fatto che il disco
rosso interno scompare e si riempie la parte di quello
verde per creare la percezione di un grande e unico
anello verde!
Si può sperimentare un fenomeno strettamente
correlato guardando nel punto della fig.6.2.5 per un
minuto o circa. Perché dato che, non si possono
tenere gli occhi fermi abbastanza per stabilizzare completamente
interno, è stato disegnato così "confuso"
che i piccoli movimenti oculari involontari hanno solamente
poco effetto sul sistema visivo. Come risultato, dopo
aver guardato il punto nero centrale abbastanza a lungo
per fare in modo che il sistema visivo si adatti al
contorno incerto interno, la regione luminosa centrale
scompare ed è riempita dal grigio scuro circostante.
Allora se si compie un grande movimento del l'occhio
la regione interna riappare perché il bordo indistinto
è nuovamente percepito.
I risultati di Krauskopf sono proprio quello che uno
si può aspettare se, i colori e i contorni percepiti
e i contorni delle regioni fossero determinati esclusivamente
dall'informazione di margine.
Solo quando l'adattamento al bordo interno è
completo (a causa della sua stabilizzazione sulla retina),
il margine esterno ha un effetto sul sistema visivo.
Così, la situazione è la stessa come quando
è presente solo un grande circolo verde: la presenza
di un bordo esterno verde senza altri margini intorno
ad esso. Questo è precisamente ciò che
le persone percepiscono quando il bordo interno è
stabilizzato, nonostante la continua presenza fisica
del cerchio rosso sulla retina.
Questo è precisamente ciò che le persone
percepiscono quando il bordo interno è stabilizzato,
nonostante la continua presenza fisica del cerchio rosso
sulla retina.
Questo notevole fenomeno può sembrare una semplice
curiosità di laboratorio ma in realtà
avviene nella visione normale di tutti i giorni. Come
abbiamo menzionato nella sezione 1.3.2,esistono due
tipi di fenomeni di filling-in che producono esperienze
visive: nel punto cieco e dove i vasi sanguigni cadono
sui recettori. Queste sono delle immagini naturalmente
stabilizzate, poiché essi collaborano continuamente
con la retina. Come risultato, siamo letteralmente ciechi
ad essi in condizioni normali di visione.
Le parti e il parsing
Ora abbiamo discusso due processi fondamentali di organizzazione
percettiva: la segmentazione regionale e i raggruppamenti.
Inoltre abbiamo ipotizzato che la segmentazione regionale
sia, il processo più antico e primitivo in quanto
definisce gli elementi sui quali operano i processi
di raggruppamento. Ma un altro interessante processo
è interessato all'organizzazione dei oggetti
percettivi che non abbiamo ancora considerato: la divisione
in parti di un singolo elemento. Questo elemento si
definisce parsing.
Il parsing è un importante aspetto del l'organizzazione
percettiva in quanto determina quali subregioni di unità
percettiva sono percepite come "raggruppate insieme"
più coerentemente. Per comprendere, considerate
nuovamente le figure connesse uniformemente 6.2.1.C.
Il principio di connessione uniforme definisce ciascuna
regione come singola, e questo si conforma alla nostra
esperienza con essa come oggetti singoli. Ma li sperimentiamo
anche come possessori di parti chiare e ovvie: vale
a dire, due parti circolari connesse da una sbarretta.
Consideriamo anche la figura a forma di X nella fig.6.1.2.I.
Nonostante la sua unità globale, l'analisi della
sua organizzazione in due linee intersecanti in accordo
con una buona continuazione richiede che sia costituita
da quattro elementi, dei quali, come sosteneva Wertheimer,
le coppie vengono raggruppate insieme. In accordo con
l'analisi di Palmer e Rock (1994a), tuttavia, l'unità
dell'intera figura si presenta in un primo momento,
seguita dalla divisione nei quattro segmenti. I quattro
segmenti, allora, possono essere raggruppati attraverso
una buona continuazione come suggerisce Wertheimer.
Attraverso quale modalità il parsing divide gli
oggetti in parti? Per prima cosa potete notare che ciò
dipende dalla forma dell'oggetto. Un circolo completo
o una linea dritta, per es., non hanno
un parsing naturale, nel quale due circoli o due linee
che si intersecano l'uno sull'altro come il-
lustrato nella fig.6.2.6.Se esaminiamo i luoghi nei
quali è naturale dividere tali figure emerge
che esse si dividono in cavità profonde: punti
nei quali il contorno è oggetto di una marcata
piega verso l'interno della regione.(Hoffman e Richards,1994).Nella
fig. 6.2.6, i punti di freccia indicano le discontinuità
concave.
Illustra come il parsing avvenga dove sono presenti
coppie di tali discontinuità. Avremo ancora molto
da dire riguardo le parti di parsing nel cap.7 e 8 quando
discuteremo in dettaglio la forma degli oggetti. Per
ora la questione importante è relativa alle modalità
attraverso le quali questo parsing si collega alla segregazione
regionale e ai processi di raggruppamento dei quali
abbiamo già trattato. Come raggruppamento, logicamente,
il parsing deve avvenire successivamente alla segregazione
regionale, poiché il parsing presuppone l'esistenza
di un elemento da dividere e noi abbiamo presupposto
che la segregazione regionale formi tali elementi.
Notate che il parsing è essenzialmente l'opposto
del raggruppamento, poiché usufruisce di una
singola unità percettiva e la suddivide in due
o più unità, piuttosto che raggrupparle
unicamente. Ma non esiste un vincolo specifico relativo
al l'ordine attraverso il quale il parsing e il raggruppamento
debbano manifestarsi; potrebbero avvenire simultaneamente.
Questo avviene perché il diagramma di flusso
delle teorie di Palmer e Rock (fig.6.2.2) dimostrano
che il raggruppamento e il parsing avvengono contemporaneamente
dopo la definizione delle due regioni.
La fig.6.2.7.da un esempio relativo a Palmer e Rock
(1994a) delle modalità attraverso le quali questi
tre processi organizzativi - segregazione regionale,
raggruppamento e parsing - si collegano l'uno con l'altro
per arrivare ad una organizzazione percettiva connessa.
La disposizione degli stimoli la cui organizzazione
sarà considerata, è rappresentata sopra
alla figura. In un linguaggio normale, qualcuno potrebbe
descriverla come una fila costituita da tre paia di
figure a doppio lobo. In un primo momento, notate che
la descrizione implica una gerarchia di livelli. Al
più alto livello è presente la figura
intera, al secondo livello più basso ci sono
tre paia di figure. Al livello sottostante le stesse
figure. In basso sono presenti i "lobi" nei
quali le figure possono essere percepite come divise.
Attraverso quali modalità questo tipo di organizzazione
gerarchica potrebbe essere ottenuta attraverso processi
organizzativi?
In accordo con le spiegazioni teoriche di Palmer e Rock,
la segregazione regionale deve operare dal principio
in quanto è l'unico processo organizzativo che
funziona su immagini meno organizzate. I processi relativi
ad alcuni tipi di immagine regionale dividono l'immagine
in una serie di regioni connesse, uniformi, e non sovrapposte.
A questo punto, un altro processo organizzativo, definito
"organizzazione figura-sfondo" deve funzionare,
ma definiremo la discussione più tardi nel capitolo.
L'organizzazione figura-sfondo indica quali regioni
devono essere prese come oggetto (o figura) e quali
invece come sfondo (o base) assegnando ogni contorno
come appartenente ad un lato o all'altro (lato della
figura).Allora, le regioni designate come figure costituiscono
le prime unità dell'organizzazione percettiva
e danno l'entrata iniziale della gerarchia parte - intero,
come indicato nella figura 6.2.7.Palmer e Rock definiscono
questo livello come una unità a livello di entrata.
Dopo aver stabilito l'ordine delle unità a livello
di entrata, il resto della gerarchia partetutto può
essere costruita dal l'applicazione di processi di raggruppamento
e di divisione. Vale a dire, le unità a livello
di entrata possono essere o aggregate in unità
sovraordinate ad un livello più alto dall' operazione
di processi di raggruppamento divise in unità
subordinate ad un livello più basso
dall'operazione di processi di divisione. La logica
non determina l'ordine attraverso il quale questi due
processi devono essere applicati. In verità,
essi possono operare simultaneamente per estendere la
gerarchia parte tutto simultaneamente in entrambi le
direzioni. Nell'esempio presente, il
raggruppamento unifica delle coppie di figure a livello
di entrata in due gruppi di due unità e poi
unifica le tre paia nell'intera fila di figure. Il livello
subordinato al livello di entrata è costruito
facendo la divisione di ciascuna figura connessa uniformemente
in due parti circolari alla coppia di dis-continuità
concave nel centro di ciascuna unità a livello
di entrata.
Palmer e Rock (1994a) e la loro analisi teorica tenta
di fare un collegamento nell'in- tervallo tra le idee
classiche della Gestalt riguardo l'organizza- zione
percettiva e le teorie di calcolo moderne nella scienza
della visione. Sebbene adempiano a questa funzione ragionevolmente
bene, esisto-
no certamente altre possibilità (per esempio
Geissler, nel suo; Rensink e Enns, 1995).Il fatto che
non ci sia ancora una prova che le unità a livello
di entrata sono elaborate prima rispetto ad altri livelli
nella gerarchia parte tutto suggerisce che le proposte
di Palmer e Rock devono essere viste con cautela.
Segregazione della struttura
Palmer e Rock (1994a) sostenevano che le regioni connesse
uniformemente potevano essere definite da proprietà
di ordine più alto rispetto alla luminanza e
al colore. Questa tesi è basata largamente sull'ampia
letteratura della segregazione della struttura che dimostra
che le regioni possono essere percepite solamente sulla
base della informazione strutturale. A questo punto,
sarebbe appropriato dare una definizione chiara e non
ambigua di struttura, ma, come vediamo, non è
una questione facile.
La segregazione della struttura viene solitamente studiata
in immagini composte da molti elementi
distinti, come è rappresentato nella figura 6.2.8.Il
quadrante in basso a destra viene percepito senza sforzo
come diverso dal resto del circolo, anche senza percepire
coscientemente le forme degli elementi individuali che
comprende. La segregazione per struttura sembra chiaramente
cor-
relata sia al ragruppamento classico che alla segmentazione
regionale ma in diversi modi. La sua connessione al
raggruppamento classico è relativa al fatto che
può essere considerata il risultato
di elementi di raggruppamento testuale secondo il principio
di similarità della Gestalt. Come abbiamo già
notato, tuttavia, non tutte le similarità sono
valide nel raggruppamento(vedere fig.6.1.3), e Wertheimer
non aveva studiato la rilevanza di similitudini diverse.
La segregazione strutturale può essere anche
compresa come un caso speciale di segmentazione regionale;
uno nel quale gli operatori di margine individuano dei
gradienti spaziali di alcune dimensioni ancora indefinite
di struttura, analoghe all'identificazione dei cambi
repentini di luminanza che abbiamo discusso
nel cap.4.Come vedremo, i recenti progressi teorici,
nella comprensione della segregazione per
struttura sono stati fatti attraverso questo ultimo
approccio, estendendo le tecniche di segmentazione regionale
alle proprietà strutturali.
Scoprire le caratteristiche della struttura
Le prime grandi scoperte della natura di queste percezioni
strutturali furono effettuate da Jacob
Beck, uno psicologo della percezione dell' Università
di Oregon. Egli aveva fatto in modo che i soggetti compissero
delle operazioni tali da individuare quali regioni in
un modello di molti elementi di struttura potessero
apparire diversi rispetto al resto, come illustrato
nella figura 6.2.9.A.
Per esempio, si percepiscono le T inclinate nella regione
più a sinistra della figura 6.2.9A rispet-
to alle T diritte nella regione centrale e si nota ciò
più rapidamente e facilmente di quanto non si
percepiscano le L diritte nella regione più a
destra essendo diverse rispetto alle T diritte al centro
Verificando le modalità attraverso le quali le
persone riuscivano in questo compito, Beck iniziò
con l'ipotesi che l'esempio contenente un gran numero
di elementi sarebbe stato raggruppato sulla base della
similarità di forme come si potrebbe prevedere
dal processo di similarità della Gestalt.
Ma presto scoprì che i fattori che regolavano
la segregazione strutturale non sono necessariamente
gli stessi rispetto a quelli che determinano la similarità
di forma degli stessi elementi quan-
do essi sono percepiti come figure individuali. Per
esempio, la segregazione strutturale evidente nella
fig.6.2.9A risulta essere l'opposto rispetto a ciò
che risulterebbe prevedibile dalla semplice classificazione
della similarità di forma. Quando i soggetti
giudicavano questi stessi elementi con forma simile
come figure individuali (vedi fig. 6.2 9B), una T inclinata
veniva giudicata come più simile di quanto fosse
una L dritta. Dai risultati di molti esperimenti simili,
Beck (1972, 1982) con classe che la segregazione per
struttura risultava dall'avvertimento di caratteristiche
- diverse per unità di area - di alcuni attributi
semplici, come l'orientamento delle linee, la luminanza
generale, il colore, la forma e il movimento.
Segregazione di struttura come un processo parallelo
Altre importanti idee riguardo la segregazione strutturale
furono introdotti da Bela Julesz, lì inventore
di stereogrammi a punti casuali. Egli precisò
che le strutture potevano essere discriminate in uno
dei due modi: attraverso una normale spiegazione strutturale,
che avviene senza sforzo e simultaneamente su tutto
il campo visivo, o attraverso quello che egli definì
"uno scrutinio conscio".
In accordo con Julesz, lo scrutinio implica la focalizzazione
dell' attenzione sequenziale sulle parti differenti
dell'esibizione nel tentativo di trovare differenze
di forme tra gli elementi individuali. Egli sostenne
quindi che la normale segregazione strutturale era un
processo preattentivo, ma che avviene prima della focalizzazione
dell' attenzione.(Nella sezione 11.2.5 sosterremo che,
sebbene questa elaborazione funzioni prima della focalizzazione
dell' attenzione per gli oggetti individuali, non avviene
in genere prima del processo di attenzione).Nella sua
ricerca riguardo la segregazione strutturale, inoltre
Julesz discoprì anche che molte di queste strutture
costruite intelligentemente non potevano essere segregate
in parallelo, nonostante le ben definite diversità
fisiche negli elementi dai quali esse erano composte.
La fig.6.2.10A illustra un esempio: delle R normali
a sinistra non possono essere discriminate dalle R riflesse
attraverso uno specchio a destra se esse sono
orientate casualmente. Egli formulò la congettura
che le strutture fisicamente diverse potessero essere
segregate solo ed esclusivamente se possedevano delle
diverse proprietà statistiche basate sulla leggerezza
di coppie di punti - che egli definì statistiche
di polo dell'immagine -e molti esperimenti sembravano
sostenere la sua ipotesi (vedere Julesz,1975). Infine
scoprì dei modelli come quelli rappresentati
nella fig. 6.2.10B,che presentano le stesse statistiche
di secondo ordine e terzo ordine e tuttavia, sono facilmente
discriminabili come strutture. Tali esempi portarono
Julez a tralasciare a tralasciare la sua analisi basata
sulle proprietà statistiche e a proseguire con
una teoria come quella di Beck. Egli, infine, propose
che le strutture fossero segregate individuando i cambiamenti
nella densità di certe semplici caratteristiche,
locali e strutturali che egli definì textous(Julesz,
1981).
Secondo Julesz (1981), ci sono tre tipi di textous:1)
relativo a dei cumuli allungati definiti dai loro
colori, lunghezza, larghezza, orientamento, disparità
binoculare, tasso di apparizione.2) terminatori di linee;
e 3) incroci o intersezioni di linee. Egli suggerì
anche che esistono dei detentori nel sistema visivo
che sono sensibili a questi textous e che la segregazione
strutturale avviene attraverso l'attivazione di questi
detentori di textous. Notate che questi detentori di
struttura di Julesz appaiono simili rispetto a quelle
caratteristiche fondamentali assegnate alle cellule
corticali in V1 da Hubel e Wiesel (1968) e come alcuni
dei primitivi elementi di quel disegno primitivo di
Marr (1982), come descritto nel cap.4.Questo lavoro
sulla segregazione strutturale da parte sia di Julesz
che di Back fu importante perchè cominciò
a formare un collegamento teorico attraverso
tre argomenti interrelati: i dati percettivi sulla segregazione
strutturale, la fisiologia della corteccia visiva, e
le teorie computazionali della visione. Da questi indizi,
sono sorte nuove teorie che tentano di rappresentare
un resoconto unificato delle loro interelazioni.
Teoria sulla segmentazione di struttura
Gli scienziati della visione Jutendra Malik e Pietro
Perona (1990) hanno proposto una teoria biologicamente
plausibile; teoria computazionale di segregazione strutturale
basata sulla individuazione di margini nelle produzione
di tipi conosciuti di cellule corticali. La loro teoria-
che menzioniamo nella sezione 4.3.3.- consiste in tre
stadi illustrati nella fig.6.2.11: uno stadio di filtro,
uno stadio di inibizione laterale e uno stadio di computazione
a gradiente (o di individuazione di margini).Consideriamo
questo modello attraverso alcuni dettagli per due ragioni:
Primo, viene finora considerata una delle teorie di
maggior successo della segregazione di struttura. Secondo,
è un buon esempio di approccio interdisciplinare
alla visione. Contributi alle scienze percettive biologiche
e computazionali furono prodotti per produrre un progresso
significativo rispetto a quanto si sarebbe ottenuto
solamente entro un singolo approccio individuale. I
modelli relativi allo sta-
dio di filtro iniziale della produzione delle cellule
V1 come descritto nella sezione 4.1. I filtri usati
da Malik e Perona includono i campi recettivi centro-bordo
(fig.6.2.12A e 6.2.12B) e vari campi di recettori a
sbarra orientati in vari modi (fig.6.2.12C). Ciascuno
di questi tipi di filtro presenta una
dimensione strutturale che il sistema visivo può
usare per dividere delle regioni sulla base della
struttura. Molti tipi di filtri sono densamente distribuiti
sul campo visivo, cosicchè alla produzione di
un set completo si approssima ad ogni posizione la circonvoluzione
dell' immagine con il campo recettivo di questo tipo
di filtro(vedere sezione 4.3 per una spiegazione delle
circonvoluzioni).
La fig. 6.2.13A rappresenta una struttura di forme allungate
a orientamenti diversi. La fig.6.2.13B
rappresenta l'uscita di questa immagine ad ogni posizione
e del set di filtri a sbarra scura il cui campo percettivo
viene raffigurato negli angoli in basso a destra. Queste
immagini in output rappresentano le circonvoluzioni
delle immagini in entrata (parte A) con l' appropiato
tipo di filtro.
Secondo una implementazione neurofisiologica del modello,
la luminanza indica ad ogni posi-
zione in questa immagine in uscita, l' ammontare di
una attività neuronale, che risulterebbe in cellula
una cellula entro il campo di recezione, dato dalla
corrispondente posizione nel campo visivo. Quindi l'immagine
in output corrisponde approssimativamente ad una mappa
retinotopica
relativa a quei campi di cellule attivate che possiedono
uno specifico campo recettivo.
Notate che il filtro a sbarra lucente ( alla base della
fig.6.2.13) produce una uscita ben più ampia
di struttura rispetto alla parte destra. Poichè
il filtro a sbarra lucente (alla base della fig.6.2.13)
è centrato con un orientamento molto simile a
quello relativo alla macchie a sinistra e, parecchio
diverso dalle macchie a destra. Così, esiste
una grande difficoltà (o gradiente) tra le metà
sia di sinistra che di destra per il campo visivo di
questo filtro. Nell'immagine in output questa differen-
za è rappresentata da una ampia diversità
della luminanza generale nel campo di sinistra e di
destra.(Notate che, sebbene questa differenza esista
implicitamente nell'output relativo allo stadio di filtro,
questa non viene identificata esplicitamente fino allo
stadio finale del modello).Per contrasto, i filtri a
sbarra scura producono , con lo stesso orientamento,
solo una debole risposta(fig. 6.2.13B.) verso la parte
sinistra e quindi solamente un gradiente molto leggero
per la stessa immagine in input. La seconda fase del
modello Malik-Perona impone un'inibizione laterale tra
delle cellule spazialmente contigue che possiedono diversi
campi recettivi. Il proposito di questa inibizione laterale
è quello di eliminare o ridurre le risposte deboli
spurie. Attraverso questo meccanismo, per esempio, le
risposte deboli dei filtri a sbarra scura (fig.6.2.13B)
verrebbero soppressi dalle forti risposte dei filtri
a barra chiara (fig.6.2.13C). Sebbene non siano conosciute
esattamente quali interconnessioni inibitorie esistano
nella corteccia visiva, il modello di Malik-Perona non
contraddice alcun fatto biologico conosciuto, e ciò
è plausibile, data l'attuale conoscenza della
corteccia visiva. Il terzo e ultimo stadio del modello
calcola esplicitamente la forza dei gradienti di struttura.
Prende l'output dello stadio di interazione inibitoria
per ciascun tipo di filtro e lo analizza attraverso
un set di operatori grezzi di detentori di immagine
a bassa risoluzione con diversi orientamenti e posizioni,
proprio come discusso nella sezione 4.3.2 nella qual
abbiamo considerato le teorie computazionali di potenziale
di margini. L'operatore di margine di Malik e Perona
è abbastanza grande relativamente agli elementi
di struttura che si determinano nella media verso l'uscita
di molti filtri individuali con gli stessi campi di
recezione. Analisi separate di questo tipo sono eseguite
per ciascun set di questi filtri di campi recettivi.
Nel gradiente finale di struttura viene definito il
massimo gradiente sopra tutti i tipi di filtro. I confini
di struttura sono allora localizzati al massimo locale
dell'uscita di questo stadio di calcolo del gradiente.
La teoria di Malik-Perona ha molti attributi desiderabili
:
1. differentemente dalla teoria caratteristica di Beck
e di quella del texton di Julesz, viene completamente
specificata in termini computazionali espliciti. Questo
significa che può essere - ed è stata
messa - in funzione su un programma di computer che
compie tutte le segregazioni di struttura delle immagini.
2. Differentemente dalla teoria di Beck e di Julesz,
si applica a qualsiasi tipo di immagine, non solo ad
una unica composta da elementi distinti. Per illustrare
questo fatto, Malik e Perona usarono l'implementazione
con il computer, per trovare dei confini di struttura
di una porzione di un dipinto di Gusatv Klimt, come
illustrato nella fig.6.2.14. Sebbene si possa discutere
di piccole deviazioni rispetto a quelle percepite normalmente
dalle persone, il modello compie un valido lavoro nel
catturare margini di struttura essenziali da questa
immagine complessa.
3. Una misura di quanto fortemente diverse strutture
siano discriminate dal modello, corrisponde di molto
alle performance umane riguardo la stessa struttura.
La fig.6.2.15 raffronta la performance umana e quella
del computer su dieci strutture ampiamente differenti.
Illustra i dati relativi ai risultati ottenuti dalle
performance umane in un compito di segregazione di struttura
(Kròse, 1986,1987) e le predizioni in unità
del modello che sono regolati per corrispondere ai dati
umani. Esiste spazio per il miglioramento , ma la rispondenza
generale risulta impressionante.
4. Il modello di Malik-Perona per le segregazione della
struttura integra numerosi fattori differenti in una
predizione generale da ogni immagine arbitraria di stimolo.
E' vero che riguarda solo un piccolo subset di principi
classici del raggruppamento di Wertheimer - vale a dire
delle similitudini correlate in forma e forse colore-
ma è tuttavia un importante primo passo.
5. Finalmente, le dimensioni del loro modello corrispondono
più strettamente alla struttura del campo recettivo
delle cellule che essi rappresentano , piuttosto che
alle caratteristiche naturali del loro ambiente. Così
il modello suggerisce che il sistema di elaborazione
della struttura possa essere uno dei molti moduli diversi
basati sulla produzione delle prime cellule corticali,
come suggerito nella fig.4.3.20.
E' ancora una questione aperta se gli algoritmi di segmentazione
della struttura come quelli di Malik-Perona possano
anche essere validi per casi di raggruppamento classici
per similitudine come discussi da Wertheimer. Siamo
dell'opinione che la segregazione per struttura possa
essere più utilmente vista come un caso di segmentazione
regionale basata sulle proprietà strutturali
piuttosto che un esempio di raggruppamento di similitudini
classiche, ma questa distinzione potrebbe risultare
infondata. Se è così, gli algoritmi come
quelli di Malik e Perona possono essere estendibili
per spiegare entrambi i tipi di fenomeni, come suggerito
da Nothdurft (1992). Ancora è chiaro come altri
fenomeni di raggruppamento, in particolar modo quelli
di formazione di unità basati sulla chiusura,
sulla continuità, e in certi casi di destino
comune, sono di un tipo del tutto differente e richiedono
un tipo di teoria differente. Considereremo questo tentativo
in questa direzione più tardi nel capitolo.
6.4 INTERPOLAZIONE VISIVA
Uno dei più importanti fattori di complicazione
nel portare a termine la corretta organizzazione è
che le superfici sono opache,quindi nascondono meccanicamente
porzioni di oggetti alla vista.Come noi ci muoviamo
attorno nel mondo tridimensionale,le superfici sono
continuamente sottoposte a continue occlusioni e disocclusioni
da parte dei bordi delle superfici chiudenti (vedi sezione
5.4.4).E' necessario quindi ,per far fronte a tali situazioni,inferire
in qualche modo la natura delle parti nascoste partendo
da quelle visibili.Nel sistema visivo si sono evoluti
dei meccanismi,che noi chiameremo processi di interpolazione
visiva ,in grado di fare tali inferenze.Naturalmente
questi meccanismi hanno dei limiti,principalmente perché
tutto quello che possono fare è proporre la migliore
supposizione su qualcosa che non possono vedere.
Prima di passare a descrivere il fenomeno dell'interpolazione,deve
essere fatta una distinzione tra il tipo di completamento
percettivo che avviene quando parti di superfici sono
occluse e il letterale filling in che avviene nella
macula cieca.
Il filling-in (= riempimento) si riferisce ai casi in
cui l'osservatore ha tutte le esperienze visive di appropriate
qualità sensoriali nella porzione mancante dell'immagine.
L'interpolazione visiva,invece,non include esperienze
visive di superfici completate ma solo la conoscenza
percettiva - o meglio le credenze - sulle sue proprietà.
6.4.1 COMPETAMENTO VISIVO
Il fenomeno del completamento visivo ( o completamento
amodale ) è dato dal fatto che il sistema visivo
percepisce spesso automaticamente superfici e oggetti
parzialmente occlusi come interi e completi,includendo
solitamente anche la loro forma,trama e colore.Un semplice
esempio è fornito nella fig.6.4.1.
6.4.1
Un soggetto percepisce spontaneamente un cerchio pieno
dietro un quadrato (come in 6.4.1B ) anche se un quarto
di quest'area non è visibile.Sebbene i termini
"amodale" e "visivo" possano sembrare
contraddittori,entrambi sono appropriati per i diversi
aspetti del fenomeno del completamento.Infatti può
giustamente essere chiamato "amodale"perché
la porzione completata dell'immagine non è supportata
da locali stimolazioni sensoriali in nessuna modalità.Inoltre
può essere definito "visivo"perché
la porzione completata è supportata indirettamente
da informazioni visive presenti altrove nell'immagine.
Come abbiamo visto nel Cap.1,il completamento visivo
è logicamente indeterminato.Il vero stato dell'evento
corrispondente alla fig.6.4.1 può essere un quadrato
che copre un cerchio intero (B),un mosaico formato da
un quadrato adiacente a tre-quarti di cerchio(o Pac-man)
come nella parte C ,o un quadrato di fronte ad un cerchio
con bizzarre sporgenze (D),o un infinito numero di altre
possibilità.Il sistema visivo appare dunque avere
forti preferenze sul modo in cui completare oggetti
parzialmente occlusi,e queste preferenze sono chiaramente
indirizzate a portare a termine una percezione veridica
di tutti gli oggetti nel mondo.
Come può succedere?
Sono state avanzate differenti teorie del completamento
amodale e noi ne considereremo i tre tipi principali.
Teorie della familiarità della figura.Una possibilità
è che noi completiamo il cerchi dietro al quadrato
a causa di esperienze precedenti nella visione di cerchi
pieni.Quindi le persone completano figure parzialmente
occluse in accordo con la forma più frequentemente
incontrata che sia compatibile con le informazioni dello
stimolo visivo.Un problema e però che noi sembriamo
in grado di completare oggetti che non abbiamo mai visto
prima con la stessa facilità di quelli familiari.Un
esempio è nella fig.6.4.2A.
6.4.2
Questa obiezione non vuole però provare che la
familiarità non ha alcun effetto:semplicemente
indica che qualcos'altro,oltre ad essa,deve essere coinvolto
nel processo.Infatti ci sono alcuni inequivocabili esempi
dell'effetto della familiarità sul completamento:la
fig.6.4.2B mostra una lettera parzialmente occlusa in
un contesto di altre lettere.La maggior parte delle
persone la completa come una "R" ,sebbene
potrebbe essere logicamente percepita come una "P"
o una "B" o un qualche altro pattern geometrico
che non abbia forma di lettera.Il fatto che "R","P"
o "B" siano lettere familiari e che la parola
"WORD" sia una parola familiare in inglese
-mentre "WOPD" o "WOBD" non lo siano
- sembra essere un fattore importante in questo esempio.
Teorie della semplicita' della figura.Una seconda possibilità
è che le figure parzialmente occluse sono completate
in modo che risultino le "più semplici"
figure percepite.Per esempio il quadrato occludente
il cerchio nella fig.6.4.1A è intuitivamente
la più semplice fra le alternative possibili.
L'idea di spiegare il fenomeno dell'organizzazione percettiva
in termini di massimizzazione della semplicità
è stato l'approccio teorico favorito dagli psicologi
della Gestalt che chiamarono la loro ipotesi ,secondo
la quale il sistema visivi percepisce la maggior semplicità
possibile,il principio di Pregnanza ( definito da altri
più tardi il principio minimo ).Esso afferma
che il percetto è tanto più buono più
le condizioni prevalenti lo concedono,dove il termine
"buono" si riferisce al livello di semplicità
e regolarità della figura, e le condizioni prevalenti
alla struttura dell'attuale immagine dello stimolo.Il
problema principale di tale approccio è però
la mancanza di un'esatta definizione di "bontà".Alcuni
teorici hanno ipotizzato che la "bontà"
di una figura può essere misurata contando il
numero degli assi di simmetria bilaterale,quindi ad
un maggior numero di assi corrisponde una maggior bontà
della figura.Secondo tale definizione la percezione
di un quadrato che occlude un cerchio è la più
semplice perché il cerchio è bilateralmente
simmetrico rispetto agli assi passanti per il suo centro;
l'interpretazione del mosaico ne ha uno solo e il cerchio
con protuberanze non ne ha per niente.
Sebbene tali considerazioni e ipotesi possano rendere
conto di molti esempi,ce ne sono altri per i quali non
sembrano in grado di fare previsioni corrette.Un contro-esempio
è mostrato nella fig.6.4.3A : la percezione usuale
è un quadrato posto di fronte ad un altro quadrato
al quale manca il più basso angolo a destra.In
base alla definizione di simmetria,il completamento
più semplice dovrebbe essere l'esagono ( fig.6.4.3C
) perché questo ha 2 assi di simmetria laddove
il quadrato senz'angolo ne ha uno solo.
6.4.3
Ovviamente questo contro-esempio può semplicemente
indicare un'incrinatura nella definizione di "bontà"
della figura:per esempio il numero dei lati può
essere un fattore cruciale per la bontà.Infatti
definendola esclusivamente in termini di numero di lati
si riesce a dare la risposta corretta anche in questo
caso:il quadrato senz'angolo,che è stato preferito,
ha solo 5 lati quando l'esagono ne ha 6.E' anche possibile
che più fattori insieme determinino la bontà
di una figura.Questo esempio rivela però un problema
generale delle teorie del completamento basate sul principio
di pregnanza:la loro validità varia a seconda
della misura di bontà e semplicità che
è stata assunta.Quindi cambiando definizione
si possono spiegare risultati dei quali prima non si
riusciva a render conto e che,anzi,inficiavano la teoria.Il
cambiamento di definizione può ovviamente corrispondere
al raggiungimento della definizione più corretta,ma
rende tali teorie difficili da falsificare.
Teorie dei limiti ecologici.Cercano di spiegare il completamento
visivo ricorrendo direttamente all'evidenza ecologica
dei contorni occlusi.Per esempio, quando il contorno
di un oggetto è occluso da un altro,si forma
tipicamente un'intersezione nota come giunzione a T
( T-junction ).Il contorno continuo ( la stanghetta
della T ) è interpretato come il contorno occludente,la
superficie del quale occlude l'altro bordo ( la gamba
della T ).Un'ulteriore assunzione è che il bordo
occluso ( e la superficie delimitata da esso ) in qualche
modo si connette con un altro bordo della scena.
Una delle teorie di questo gruppo è la teoria
della relazionabilità di Kellman e Shipley,e
si può considerare come una più complessa
e specifica estensione del classico principio della
buona continuazione.La teoria si basa sui seguenti quattro
assunti:
1.La discontinuità dei bordi è condizione
necessaria ma non sufficiente per l'interpolazione visiva
di contorni amodali.
Intuitivamente la discontinuità del bordo è
un repentino cambiamento nella direzione del contorno,ed
è presente in tutte le intersezioni tra contorni,come
i vertici di un triangolo o gli angoli di un quadrato.Quindi
le discontinuità da sole non sono in grado di
produrre completamento amodale perché esso dipende
dalla possibilità che la discontinuità
ha di essere relazionata con altre presenti nell'immagine
- da qui il nome della teoria -.
2.I contorni completati amodalmente sono percepiti quando
i bordi dominanti nella discontinuità
sono relazionabili ad altri ( fig.6.4.4B ).
6.4.4
Per Kellman e Shipley due bordi sono relazionabili se
e solo se:
. le loro este
|