Capitolo
5
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per il
corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che non
hanno molta dimestichezza con la lingua inglese.
Le traduzioni sono opera degli stessi studenti
del corso di Psicologia della Percezione 1999
- 2000. Nell'utilizzo di questo materiale va tenuto
conto che la correttezza dello stesso va verificata
confrontando le traduzioni con il testo originale.
Per ulteriori domande, clicca
qui.
|
Traduzione
a cura di Francesca Polmonari
LA PERCEZIONE DI SUPERFICI ORIENTATE IN PROFONDITA'
Le caratteristiche dell'immagine 2-D, come i bordi le
linee e gli elementi strutturali, sono importanti per
la visione perché ci forniscono l'informazione
sul mondo che ci circonda. Ma devono essere interpretati
in termini di struttura 3-D per fare il salto deduttivo
dall'immagine all'ambiente. Questo salto è richiesto
perché gli organismi che percepiscono non sono
interessati ai contorni tra regioni di differente luminanza,
colore o tessitura a livello retinico; sono interessati
ai bordi tra differenti superfici di oggetti nell'ambiente.
Due
delle tre dimensioni spaziali dell'ambiente sono presenti
esplicitamente nelle immagini bidimensionali delle retine:
queste due dimensioni possono essere concepite come
specificanti la direzione dall'osservatore alla superficie.
La
terza dimensione, la distanza della superficie dall'osservatore,
cioè la profondità, viene persa nel processo
di proiezione ottica dalle superfici del mondo tridimensionale
alle retine bidimensionali; cioè dalla disposizione
delle superfici nello spazio, propria della tridimensionalità
dell'ambiente circostante, alla proiezione di tali superfici
in un piano bidimensionale, ossia le retine. Una volta
che questa informazione è persa non può
essere recuperata con certezza assoluta ma di fatto
la gente riesce a percepire bene il proprio ambiente
tridimensionale. Come è possibile?
Ci sono due problemi strettamente legati che devono
essere risolti:
1.
Determinare la profondità: la distanza della
superficie dall'osservatore nell'ambiente 3-D;
2. Il percepire l'orientamento della superficie: "slant"
e "tilt" della superficie rispetto alla traiettoria
visiva dell'osservatore. Sebbene i termini "slant"
e "tilt" siano spesso usati come sinonimi
tecnicamente si riferiscono a due parametri diversi.
"Slant" si riferisce alla grandezza dell'angolo
tra la linea della visuale (cioè la traiettoria
visiva) e la normale alla superficie; che è quella
linea virtuale che esce dalla superficie nel punto dato,
cioè la perpendicolare in quel punto. Quindi
avremo una "slant" pari a 0 se consideriamo
il piano frontale dell'oggetto; sarebbe infatti come
considerare una superficie bidimensionale. La "slant"
corrisponde anche alla lunghezza della proiezione della
normale alla superficie sul piano frontale. Proiezioni
più lunghe corrispondono a "slant"
maggiori .Maggiore è l'angolo maggiore sarà
la superficie "slant". In figura 5.0.1 "slant"corrisponde
all'allungamento delle ellissi proiettate, maggiore
è l'allungamento maggiore sarà lo slant
relativo al piano frontale. Tilt si riferisce alla direzione
del gradiente di profondità relativo al piano
frontale. Nella figura corrisponde all'orientamento
dell'ellisse proiettata nel piano frontale e alla direzione
della normale alla superficie proiettata sul piano frontale.
La
profondità e l'orientamento delle superfici sono
interdipendenti.
L'orientamento 3-D di una superficie determina quanto
lontane sono le sue diverse parti dall'osservatore,
parimenti la distanza delle sue varie parti determina
il suo orientamento 3-D.
Un
modo di formulare il problema è vedere che il
sistema visivo calcola, per ogni direzione esterna al
punto di vista dell'osservatore, l'orientamento e la
distanza - detta anche profondità - della superficie
che ha riflesso la luce in quella particolare direzione.
Questa concezione della percezione della superficie
come determinata dalla sua distanza e orientamento (orientamento
a una distanza) fu originariamente formulata da J.J.Gibson
(1950). Egli si riferisce alla percezione del "layout
di superficie"; l'idea di recuperare l'orientamento
a una distanza fu più tardi riformulata più
precisamente in termini computazionali da Marr e Nishihara
(1978), con il concetto del "2.5 - D sketck"
(= modello).
Una
rappresentazione delle superfici orientate in profondità
è indispensabile alla visione ed è necessaria
per capire molti livelli più elevati di fenomeni
percettivi.
La percezione delle superfici, quindi, è importante
dal momento che essa costituisce la fonte di tutte le
informazioni visibili circa le strutture tridimensionali:
la proiezione delle superfici sulle retine è
il primo passo, tutte le successive astrazioni che portano
l'osservatore a trarre informazioni sull'ambiente dipendono
da questo.
5.1
IL
PROBLEMA DELLA PERCEZIONE DELLA PROFONDITÀ.
Il problema di recuperare la distanza da una superficie
deriva dal fatto che la percezione di profondità
proveniente dalle immagini 2-D è relativamente
ambigua. La ragione di questa ambiguità è
che i processi ottici di riflessione di una superficie
e di formazione di un'immagine proiettano luce da un
mondo 3-D a una superficie 2-D in fondo all'occhio.
La percezione della profondità è quindi
l'esempio paradigmatico della ambiguità logica
della percezione.
5.1.1
ASSUNZIONI
EURISTICHE.
Questa analisi sembra portare alla conclusione che una
veridica percezione della profondità sia impossibile.
Questo non concorda con il fatto che la gente percepisce
correttamente la profondità ogni minuto di ogni
giorno.
La risposta è che solo un'infallibile percezione
di profondità in tutte le possibili circostanze
è logicamente impossibile; ma non c'è
contraddizione logica dal momento che la percezione
umana della profondità è difficilmente
infallibile in tutte le circostanze considerabili.
Infatti,
ci sono molte situazioni in cui le persone vengono "ingannate"
vedendo la profondità; da molte immagini bidimensionali
noi ricaviamo informazioni circa gli oggetti rappresentati,
che nella realtà sono tridimensionali. La percezione
di profondità è possibile nella vita di
ogni giorno perché il nostro sistema visivo implicitamente
fa uso di certe assunzioni euristiche riguardo alla
natura del mondo esterno e alle condizioni dell'osservazione
visiva. Insieme con le informazioni specifiche disponibili
nelle due immagini retiniche queste assunzioni sono
sufficienti per recuperare l'informazione di profondità.
L'ambiguità logica dell'informazione di profondità
è comunque importante perché ci aiuta
a capire le condizioni sotto le quali il sistema visivo
viene ingannato nella percezione della profondità.
5.1.2
LO
SCHEMA 2.5-Ddi MARR.
Come può l'informazione visiva riguardo alla
disposizione della superficie nella profondità
ad essere rappresentata?
La proposta più rilevante è da attribuire
alla concezione dello schema 2.5-D di David Marr (figura
5.1.2).
Questo
schema, come implica il nome, sta da qualche parte tra
le proprietà 2-D di una rappresentazione basata
sull'immagine e le proprietà 3-D di una rappresentazione
basata sull'oggetto.
Riassume
gli output di differenti elaborazioni che portano l'informazione
riguardo all'orientamento e alla profondità di
parti della superficie nell'ambiente in una conveniente
rappresentazione di orientamento a una distanza. La
teorizzazione di Marr va oltre il contributo di Gibson
poiché propone come una rappresentazione può
essere ricavata da un'immagine reale.
Questo modello sottolinea che ci sono molti moduli di
elaborazione indipendenti che calcolano l'informazione
di profondità a partire da fonti diverse (fig.5.1.3).
Ogni modulo elabora un diverso tipo di informazione
e alla fine porta diversi vincoli all'interpretazione
finale della profondità dello schema 2.5-D.
Ci
sono molte differenti fonti di informazione di profondità,
che possono essere classificati in modi diversi come
indicati in figura 5.1.4. Una distinzione è se
l'informazione in questione riguarda lo stato degli
occhi (informazione oculare) o la struttura della luce
che entra negli occhi (informazione ottica). La seconda
è se l'informazione richiede entrambi gli occhi
(informazione binoculare) o è disponibile a un
solo occhio (informazione monoculare). La terza è
se l'informazione è disponibile in un'immagine
immobile (informazione statica) o se richiede il movimento
dell'osservatore e/o dell'oggetto (informazione dinamica.
Il quarto è se la fonte determina la reale distanza
dall'oggetto (informazione assoluta) o se specifica
soltanto quanto sono distanti gli oggetti tra loro (informazione
relativa). L'ultimo è se l'informazione specifica
relazioni di distanza numeriche (informazione quantitativa)
o solamente relazioni ordinali di vicino/lontano (informazione
qualitativa).
5.2
L'INFORMAZIONE
OCULARE.
L'informazione
oculare riguardo alla distanza da una superficie fissata
dipende sia dallo stato di entrambi gli occhi sia dai
loro vari componenti. Di particolare importanza sono
la messa a fuoco delle lenti (accomodazione) e l'angolo
tra le linee di vista dei due occhi (convergenza).
5.2.1
L'ACCOMODAZIONE.
L'accomodazione
è il processo attraverso il quale i muscoli ciliari
nell'occhio controllano la messa a fuoco delle lenti
cambiando la loro forma. E' un'informazione di profondità
monoculare perché è disponibile anche
mediante un occhio solo.
Le
lenti dell'occhio umano hanno una capacità variabile
di messa a fuoco, diventando più sottili per
focalizzare la luce proveniente da oggetti distanti
e più spesse per focalizzare quella proveniente
da oggetti vicini. Se il sistema visivo ha l'informazione
riguardo alla tensione dei muscoli che controllano la
forma delle lenti allora ha l'informazione sulla distanza
dall'oggetto focalizzato.
Sebbene
l'accomodazione è di solito considerata come
una fonte debole di informazione di profondità
studi sperimentali indicano che la gente la usa quando
le distanze sono piccole e la usa per inferire la grandezza
degli oggetti.
L'accomodazione fornisce informazione sulla profondità
assoluta; può specificare la reale distanza dall'oggetto
fissato, ma è necessario che l'oggetto sia a
fuoco sulla retina per ottenere risultati accurati.
Questo implica che il sistema visivo deve in qualche
modo conoscere quando un oggetto è a fuoco. Una
delle migliori indicazioni per capire se un oggetto
è a fuoco è la presenza di bordi netti
anziché sfumati. Così l'immagine offuscata
è lo stimolo effettivo che guida l'accomodazione.
E' probabile che il sistema visivo controlla l'accomodazione
aggiustando la tensione dei muscoli ciliari. A causa
del suo ristretto raggio d'azione l'accomodazione è
raramente usata come indizio cruciale di informazione
di profondità negli umani.
5.2.2
CONVERGENZA.
La convergenza è la misura con cui gli occhi
sono rivolti verso l'interno (uno verso l'altro) quando
fissano un oggetto. Gli occhi fissano un punto dato
nello spazio esterno quando entrambi guardano direttamente
un punto così che la luce da esso proveniente
cade sui centri di entrambe le fovee simultaneamente.
Poiché ogni fovea ha solo un centro solo un punto
può essere fissato con esattezza in un dato momento.
L'angolo formato dalle due linee di vista cambia sistematicamente
con la distanza tra l'osservatore e il punto fissato.
Quando
fissiamo un oggetto vicino si forma un grande angolo
di convergenza, se l'oggetto è lontano l'angolo
è piccolo (figura 5.2.2). Siccome la convergenza
dipende dall'uso di entrambi gli occhi, è una
fonte di informazione di profondità binoculare,
diversa dall'accomodazione, ma come l'accomodazione
fornisce informazione sulla distanza assoluta dall'oggetto
fissato. Convergenza e accomodazione, di norma, covariano.
Però, sebbene siano importanti fonti di informazione
per quanto riguarda la profondità, sia nel caso
di grandi distanze che in quello di visione binoculare,
i loro rapporti e il loro contributo risultano essere
solamente parziali.
5.3
INFORMAZIONE
STEREOSCOPICA.
La
"stereopsi" è il processo di percezione
della relativa distanza dagli oggetti basata sul loro
spostamento laterale nelle due immagini retiniche, cioè
la percezione della terza dimensione che si ha con la
normale visione binoculare. La stereopsi è possibile
perché abbiamo due occhi separati lateralmente
e i loro campi visivi si sovrappongono nella regione
centrale. A causa della distanza tra i due occhi le
due immagini retiniche di molti oggetti sono leggermente
diverse nella zona di sovrapposizione. Infatti lo stesso
punto nell'ambiente proietta a diverse posizioni nelle
retine destra e sinistra che sono spostate in un modo
che dipende da quanto è vicino o lontano il punto
dal punto di fissazione. Questo spostamento laterale
relativo si chiama disparità binoculare.
5.3.1
DISPARITA'
BINOCULARE.
Le
due immagini retiniche sono abbastanza simili così
che non noti la differenza se le paragoni chiudendo
un occhio alla volta.
L'informazione
data dalla disparità binoculare è molto
precisa. La direzione della disparità fornisce
l'informazione su quali punti sono così vicini
e quali più lontani dal punto fissato. La grandezza
della disparità fornisce informazioni su quanto
questi sono vicini o lontani. La natura quantitativa
della disparità binoculare è importante
dal punto di vista percettivo, anche se fornisce solo
informazione di profondità relativa, specifica
i rapporti di distanza dagli oggetti piuttosto che specificare
quale è più lontano e quale più
vicino.
POSIZIONI RETINICHE CORRISPONDENTI.
Il
primo passo per capire la geometria della disparità
binoculare è definire posizioni corrispondenti
nelle due retine: posizioni che coinciderebbero se le
due fovee venissero sovrapposte da un semplice spostamento
laterale.
La
disparità binoculare si ha quando un punto nel
mondo esterno non proietta a posizioni corrispondenti
nella retina destra e in quella sinistra .
Per esempio, considera il diagramma di due occhi che
fissano un punto P in figura 5.3.2. Il punto P cade
nelle fovee di entrambi gli occhi e così stimola
punti corrispondenti.
Ora considera le proiezioni di un punto C più
vicino mentre gli occhi stanno ancora fissando il punto
P. Come indicato in figura essi non cadono su punti
corrispondenti nelle retine poiché quello nella
retina destra è a destra della fovea e quello
nella retina sinistra è a sinistra della fovea.
Si parla di disparità crociata per le due immagini
del punto C che indica che questo è più
vicino del punto fissato P. Quanto vicino dipende da
quanto sono lontani i punti disparati nella direzione
crociata.
Ora considera le proiezioni della retina di un punto
F più lontano del punto fissato P; anche questo
punto cade in punti diversi delle retine ma questa volta
quello dell'immagine destra è a sinistra della
fovea e quello nell'immagine sinistra è a destra
della fovea. Questa direzione interna è chiamata
disparità non crociata, indica che il punto che
l'ha creata è più distante del punto fissato
P.
L'OROPTERO.
L'insieme
dei punti dell'ambiente che stimola punti corrispondenti
sulle due retine si chiama oroptero. Ci sono due modi
di definirlo. Teoricamente mediante in maniera geometrica
ed empiricamente mediante esperimenti. L'oroptero teorico
può essere definito geometricamente proiettando
coppie di punti retinici corrispondenti esternamente
verso il punto nodale dell'occhio. Alcune di queste
paia di linee si intersecono in un punto dell'ambiente
che, per definizione, proietta alle corrispondenti posizioni
retiniche.
L'insieme di tutti i punti costituisce l'oroptero. Nel
piano orizzontale dell'occhio l'oroptero teorico è
un cerchio chiamato il cerchio di Vieth-Muller, che
passa attraverso il punto di fissazione e i punti nodali
di entrambi gli occhi. La disparità di ogni punto
in questo cerchio è pari a 0. Nel piano verticale
le posizioni ambientali che proiettano a punti corrispondenti
nelle due retine stanno lungo una linea dritta perpendicolare
alla linea di vista (figura 5.3.4).
L'oroptero
empirico è definito dai risultati di esperimenti
psicofisici. Questi indicano che l'oroptero empirico
nel piano orizzontale sta leggermente più indietro
rispetto all'oroptero teorico. L'oroptero empirico nel
piano verticale è inclinato lontano dall'osservatore
sopra il punto di fissazione e verso l'osservatore sotto
tale punto, come indicato in figura 5.3.4.Nonostante
non si conoscano i motivi di tale disparità,
la differenza tra i due oropteri è così
piccola da poter essere ignorata per propositi pratici.
La
percezione stereoscopica di profondità proviene
così da diverse direzioni e gradi di disparità
retinica per punti dell'ambiente che stanno davanti
e dietro all'oroptero.
La disparità binoculare è una fonte relativa
di informazione di profondità. La direzione e
la quantità di profondità specifica quanto
è più vicino o più lontano un punto
dato in relazione all'oroptero. La distanza assoluta
dei punti lungo l'oroptero varia al variare della distanza
del punto fissato.
Una
domanda che sorge spontanea dopo aver parlato della
disparità tra le due immagini retiniche è
perché non abbuiamo normalmente l'esperienza
di immagini doppie (diplopia ). Dopo tutto ogni punto
nel mondo esterno che cade in una porzione binoculare
del campo visivo produce due immagini retiniche e noi
raramente abbiamo una visione doppia. La risposta ha
due parti. Una è che i punti su o vicino all'oroptero
vengono fusi nella percezione in una immagine sperimentata
singolarmente. La regione intorno all'oroptero nella
quale le immagini vengono fuse si chiama area fusionale
di Panum (figura 5.3.5). La seconda parte della risposta
è che per punti che stanno fuori dall'area di
Panum la disparità viene di solito percepita
come profondità. Si può sperimentare la
visione di immagini doppie quando l'ammontare della
disparità è abbastanza grande (ad esempio
incrociando gli occhi) o se si considera la disparità
come una "doppiezza" (percettiva). Generalmente,
comunque, la normale visione stereoscopica è
limitata alla regione centrale del campo visivo dove
le due immagini retiniche si sovrappongono, per cui
la disparità risulta essere talmente piccola
da non venir percepita come "doppiezza" dell'immagine.
STEREOGRAMMI.
Forse
la più potente dimostrazione che la disparità
binoculare possa produrre l'esperienza di superfici
con differente profondità viene dagli stereogrammi:
paia di immagini che differiscono nello spostamento
laterale relativo degli elementi così che quando
sono visti stereoscopicamente producono delle irresistibile
illusioni di profondità provenienti da una pagina
piatta.
Gli
stereogrammi furono inventati da Charles Wheatstone
quando analizzò la geometria della disparità
binoculare nel 1838. Egli realizzò che se l'occhio
sinistro e l'occhio destro possono essere stimolati
con immagini che differiscono solo per uno spostamento
laterale appropriato di oggetti altrimenti identici,
questi possono essere percepiti come sistemati a differenti
profondità. La caratteristica di uno stereogramma
è che oggetti corrispondenti nelle immagini sinistra
e destra sono spostati lateralmente, e così producono
la disparità binoculare. La direzione della disparità
e la sua grandezza determinano la profondità
che viene percepita.
La
figura 5.3.6 mostra degli esempi.
Per avere l'esperienza percettiva adeguata con gli stereogrammi
è necessario che entrambi gli occhi registrino
un'immagine diversa e che quindi il cervello fonda queste
due immagini distinte in una sola. Esistono due modi
per ottenere l'effetto: il "metodo della convergenza
crociata" e quello della "convergenza non
crociata".
Utilizzando il primo, bisogna incrociare gli occhi fino
a "vedere" una terza immagine in mezzo alle
due presentate. Questa terza "immagine" avrà
le caratteristiche proprie della profondità in
quanto deriva dal processo di fusione del cervello,
reso possibile dall'aggiustamento operato sulla convergenza.
Nel secondo procedimento, senza incrociare gli occhi,
è necessario semplicemente aggiustare la distanza
dall'osservatore alle due immagini, finchè tra
di esse verrà percepita la terza immagine, frutto
della fusione delle prime due.
5.3.2
IL
PROBLEMA DELLA CORRISPONDENZA.
Il problema della corrispondenza è quello di
determinare quali caratteristiche in un'immagine retinica
corrispondono a caratteristiche nell'altra.
Per
molti anni i teorici hanno ritenuto che questo problema
venisse risolto da una specie di analisi della forma
che veniva prima della stereopsi. L'ambiguità
deriva dal fatto che un punto luminoso tra migliaia
di punti debba corrispondere ad un altro punto, sempre
rintracciabile tra migliaia di altri, nella retina opposta.
Questa ambiguità può essere enormemente
ridotta se consideriamo la teoria per cui l'analisi
della forma venga per prima, indipendentemente, in ogni
occhio e solo successivamente si abbia la fusione delle
due immagini monoculari. Figura 5.3.7 B.
STEREOGRAMMI DI TIPO "RANDOM DOT".
Bela
Julesz (1971), cercò di verificare la teoria
secondo cui viene elaborata prima la forma costruendo
quelli che chiamò stereogrammi "random dot"
(=a punti casuali).
Si tratta di una coppia di immagini formate da migliaia
di puntini distribuiti casualmente il cui spostamento
laterale produce una convincente percezione di profondità
quando vengono visti in modo stereoscopico cioè
quando un'immagine stimola un occhio e l'altra immagine
stimola l'altro. La figura 5.3.8 mostra un esempio di
queste coppie di immagini da cui dovrebbe emergere un
quadrato che fuoriesce dalla pagina.
Quando
ogni immagine di questo stereogramma viene vista da
sola, i punti sembrano distribuiti casualmente nel senso
che non è presente una forma globale. Secondo
la teoria della forma riguardo alla corrispondenza stereoscopia
dovrebbe essere impossibile percepire la profondità
focalizzando le immagini "random- dot" stereoscopicamente
perché questa teoria assume che la corrispondenza
deve essere basata su una informazione monoculare riguardante
una figura riconosciuta.
Dal
momento che non ci sono figure monoculari da essere
accoppiate nelle due immagini retiniche, la conclusione
è che questa teoria non è corretta.
Il
sistema stereoscopico sembra capace di risolvere il
problema della corrispondenza senza l'informazione monoculare
sulla forma perché gli stereogrammi di Julesz
contengono solo una piccola o nessuna informazione sulla
forma. E' importante non esagerare la conclusione raggiunta,
il fatto che le persone possono percepire la profondità
in questi stereogrammi non prova che non c'è
una analisi della forma precedente alla stereopsi. Mostra
solo che la profondità stereoscopia può
essere percepita senza l'informazione monoculare della
forma.
AUTOSTEREOGRAMMI.
Un altro tipo di stereogrammi, diventato popolare negli
ultimi anni non richiede particolari apparecchiature
per essere visto. Tyler e Chang (1967) li hanno chiamati
autostereogrammi, ma sono più conosciuti come
stereogrammi "magic eye". La figura 5.3.12
mostra un esempio.
L'illusione di profondità viene creata quando
i due occhi fissano due oggetti dversi e li fondono
come fosse lo stesso oggetto. Incrociando i tuoi occhi
puoi fare in modo che il tuo sistema visivo fissi oggetti
diversi con i due occhi. Gli oggetti nella stessa traiettoria
sono identici per forma e rendo possibile il verificarsi
di questo "errore di fusione". Infatti, quando
vengono fissati, essi appaiono come un singolo oggetto
nel piano della profondità sul quale gli oggetti
convergono (questo piano sta davanti a quello reale)
La figura 5.3.13 è un autostereogramma molto
semplice se paragonato al primo creato dal computer,
ma i principi di base sono gli stessi; superfici sempre
più complesse possono essere costruite usando
dense strutture di elementi casuali.
RIVALITÀ BINOCULARE,
Immagini
diverse nei due occhi appaiono all'osservatore che guarda
solo un'immagine alla volta; questo fenomeno è
conosciuto come rivalità binoculare o soppressione
binoculare. Tu puoi sperimentare la rivalità
binoculare guardando la figura 5.3.15 e usando il metodo
della convergenza crociata o non crociata. Fondere le
immagini in un singolo, stabile oggetto percepito è
quasi impossibile, ma guardando per un po' si può
notare come l'immagine percepita cambi, in diverse aree
del quadrato e in tempi diversi. Questa alternanza presumibilmente
accade perché i neuroni responsabili di una percezione
si affaticano dopo una stimolazione prolungata, lasciando
il posto alla percezione dei neuroni non affaticati.
La rivalità binoculare sembra un fenomeno innaturale
tuttavia ci sono molti casi in cui condizioni normali
producono immagini diverse su punti corrispondenti della
retina, soprattutto quando esiste una grande disparità
tra punti corrispondenti delle immagini. Dato che raramente
percepiamo le immagini doppie, una spiegazione è
che la rivalità binoculare è al lavoro,
permettendo la percezione di una singola immagine sotto
condizioni che dovrebbero far risultare due immagini
disparate.
5.3.3
TEORIE
COMPUTAZIONALI
Ritorniamo
a una questione precedente: come può il sistema
visivo risolvere il problema della corrispondenza negli
stereogrammi "random-dot" quando non c'è
informazione sulla forma globale?
Esistono teorie computazionali diverse per questo problema
di corrispondenza alcune collegano punti individuali
(pixel), altre linee e bordi, altre ancora collegano
regioni localizzate di una forma con un'altra.
IL PRIMO ALGORITMO DI MARR E POGGIO.
Un
interessante e conosciuto algoritmo è stato progettato
da David Marr e Tomasso Poggio nel 1977. È un
esempio interessante di come una rete neurale dinamica
può essere costruita per risolvere un difficile
compito visivo. È anche un buon esempio di come
le assunzioni euristiche possono essere implementate
in queste reti. L'idea base di questo algoritmo è
quella di risolvere il problema della corrispondenza
accoppiando pixels individuali nelle immagini di destra
e di sinistra. Il punto di partenza per capire come
questo viene fatto è il concetto di proiezione
inversa dalle due immagini retiniche verso il mondo
esterno, come si vede in figura 5.3.16. Questo diagramma
mostra una vista dall'alto di due superfici a strisce
nero-bianco nell'ambiente, una piccola e situata davanti
a una più grande, come mostrato in alto. La luce
riflessa da queste superfici viene registrata nelle
immagini retiniche a sinistra e a destra. Per formare
una proiezione inversa ogni pixel di queste immagini
deve essere proiettato indietro in un'immagine ambientale
riflessa, mostrata sotto. Le celle ombreggiate in questa
matrice rappresentano posizioni nelle quali ci sono
colori accoppiati tra i pixel nelle due immagini. I
punti sono accoppiati (e ombreggiati) se entrambi i
pixel sono bianchi o entrambi sono neri; non vengono
accoppiati (e non sono ombreggiati) se uno è
bianco e l'altro è nero. Tra questi numerosi
accoppiamenti ce ne sono alcuni corretti che corrispondono
alla porzione visibile della superficie reale nel mondo
reale. Queste coppie sono più scure nella figura
5.3.16 per differenziarle dai falsi accoppiamenti. Il
fatto che ci sono sia coppie false che vere riflette
il fatto che questo problema inverso è forzato,
e ha molte possibili soluzioni. Il problema per il sistema
visivo è determinare quali accoppiamenti sono
corretti e quali no. Marr e Poggio hanno proposto una
rete neurale dinamica capace di portare a termine questo
compito (fig 5.3.17). Questo mostra le immagini di destra
e di sinistra della figura 5.3.16 che attivano nodi
interni in una rete neurale, che rappresenta l'insieme
di tutte le possibili corrispondenze. Così ogni
nodo rappresenta un potenziale accoppiamento tra due
pixel. Solo le intersezioni che provengono dai pixel
di uguale colore sono accoppiamenti possibili perché
solo i pixel che vengono proiettati dallo stesso punto
nell'ambiente devono avere lo stesso colore. Questi
colori accoppiati costituiscono il maggior vincolo nella
risoluzione del problema della corrispondenza perché
tutti i nodo bianchi possono essere eliminati dalla
considerazione. Accoppiandoli in base al colore non
possiamo giungere ad un'unica soluzione del problema
della corrispondenza perché ci sono ancora molti
accoppiamenti di colore per ogni punto nelle immagini
sinistra e destra. Bisogna trovare ulteriori euristiche
in grado di portarci a una formulazione del problema
che ci porterà a un'unica corretta soluzione.
Marr e Poggio hanno proposto due ulteriori euristiche:
1.
Opacità della superficie: la costrizione (ostacolo)
data dall'opacità stabilisce che, poiché
la maggior parte delle superfici nel mondo sono opache,
può essere vista solamente quella più
vicina.
2. Continuità della superficie: la costrizione
della continuità stabilisce che, poiché
le superfici nel mondo tendono ad essere localmente
continue in profondità, la corretta soluzione
sarà quella in cui gli accoppiamenti sono "vicini
insieme" (fusi, uniti) nella profondità,
come se fossero situati su di una superficie continua.
Queste
euristiche di solito sono vere ma non sempre; se sono
vere la soluzione trovata dall'algoritmo sarà
corretta. Marr e Poggio hanno implementato questi due
vincoli nelle connessioni tra nodi di una rete neurale
nella fig 5.3.17. Il modello lavora attivando inizialmente
tutti i nodi nella rete di intersezione che rappresenta
i pixel colorati nelle immagini destra e sinistra. I
nodi ombreggiati indicano che sono stati attivati nella
fase iniziale dell'algoritmo. Questo set di possibili
corrispondenze è soggetto ai vincoli di opacità
e continuità a causa delle connessioni tra i
nodi nella rete. L'opacità è implementata
da un'inibizione reciproca tra tutti i nodi lungo la
stessa linea di vista nella rete. Questa parte di architettura
è chiamata "winner-take-all network"
(rete del tipo chi vince prende tutto) perché
fa in modo che solo un nodo in ogni linea diagonale
rimanga attivo dopo che l'attivazione ha raggiunto uno
stadio stabile. Il vincolo di continuità è
implementato nella rete da una eccitazione reciproca
tra i pixel negli stessi o nei vicini piani di profondità.
Queste interazioni tra i nodi sono indicate in figura
da connessioni orizzontali più dense.
Corrispondenze
possibili nello stesso piano di profondità tendono
ad attivarsi l'un l'altra mediante reciproca facilitazione.
L'effetto congiunto di questi due vincoli è di
ridurre il set di possibili accoppiamenti a un singolo
set compatibile con:
1.
L'informazione di disparità disponibile nell'immagine
sensoriale;
2. Il vincolo di opacità;
3. Il vincolo di continuità.
La
rete manda attivazione e inibizione avanti e indietro
attraverso la connessioni eccitatorie e inibitorie finché
non raggiunge uno stato di equilibrio. Lo stato finale
della rete di solito corrisponde al reale stato di cose
nell'ambiente. Questo significa che, dopo l'iniziale
stadio in cui l'attivazione coinvolge gli elementi che
coincidono per colore, si ha l'effetto dei vincoli di
opacità e continuità con l'interazione
eccitatoria o inibitoria dei neuroni.
Questo
algoritmo è un esempio interessante di come un
processo di inferenza inconscia può essere implementato
in una rete neurale. Un insolubile problema inverso
è stato risolto introducendo delle assunzioni
euristiche che portano soluzioni corrette quando sono
vere. In questo caso il problema è di trovare
corrette corrispondenze in uno stereogramma "random-dot",
viene risolto facendo certe assunzioni riguardo alla
struttura delle superfici nel mondo come ad esempi che
sono opache e continue. Queste assunzioni sono euristiche
perché sono solo probabilisticamente vere. Così
l'algoritmo è un esempio di come l'inferenza
inconscia può essere compiuta nella percezione
senza usare deduzioni basate su calcoli numerici o logica
simbolica.
Questo
algoritmo è anche un esempio di reti neurali
dinamiche come Gestalt fisiche. I Gestalisti ritengono
che il minimo stato di energia rifletta il principio
di Pregnanza: cioè che il percepito sarà
tanto "buono" o "semplice" quanto
lo permettono le condizioni prevalenti. Esso propone
che la base per scegliere tra diverse interpretazioni
sia data dalla bontà o dalla semplicità
delle alternative. Anche nell'algoritmo di Marr e Poggio
si nota questo principio.
ALGORITMI
BASATI SUI BORDI
Dopo
la pubblicazione del primo algoritmo, Marr e Poggio
(1979) hanno proposto un secondo algoritmo che differisce
dal primo in alcuni aspetti importanti:
1.
Accoppiamento basato sui bordi: questo secondo algoritmo
trova corrispondenze stereoscopiche accoppiando bordi
invece che pixel nelle due immagini destra e sinistra.
Questo è più efficiente perché
permette di ricavare un tipo di informazione che non
è disponibile quando si accoppiano pixel individuali.
I bordi che non si accoppiano per orientamento e polarità
possono non essere considerati; abbiamo un ulteriore
vincolo nella soluzione.
2. Scale multiple: questo secondo algoritmo usa canali
di grandezza multipla ( o scala, o frequenza spaziale)
nel sistema visivo, iniziando col cercare bordi corrispondenti
su larga scala e successivamente su scala ridotta. Questo
significa che l'elaborazione su larga scala questa volta,
non lavora con punti individuali, ma con regioni più
grandi dell'immagine.
3. Operazione in un singolo passo: questo algoritmo
non richiede molti cicli di interazione, semplicemente
trova la migliore corrispondenza basata sui bordi in
un singolo passo attraverso un'operazione multistadio.
L'implementazione di questo secondo algoritmo è
più veloce del primo.
Molti
dei benefici di questo algoritmo derivano dal fatto
che l'operazione di accoppiamento viene effettuata sull'output
dei rilevatori di bordi piuttosto che su pixel individuali.
Questo è più plausibile dal punto di vista
biologico perché l'elaborazione binoculare inizia
nell'area V1 della corteccia, dopo che gli output dei
recettori individuali sono stati ricombinati in aree
percettive più complesse della corteccia.
Questo secondo algoritmo è più vicino
ai risultati di esperimenti psicofisici con soggetti
umani. Purtroppo ci sono importanti risultati che nessuno
dei due algoritmi riesce a spiegare. Un problema è
dato dal fatto che è scarsa l'informazione di
profondità perché l'algoritmo basato sui
bordi specifica le corrispondenze solo ai bordi. Questo
non è il caso dell'algoritmo basato sui pixel
che specifica una densa corrispondenza per ogni pixel
nell'immagine. Nel secondo algoritmo l'informazione
di profondità che riguarda gli spazi tra i bordi
deve essere ricavata con processi additivi di interpolazione
(elaborazione).
ALGORITMI BASATI SUL CONCETTO DI FILTRO.
Più recentemente Jones e Malik (1992) hanno proposto
un algoritmo che accoppia regioni locali intorno al
punto in questione.
Non accoppia regioni locali dell'immagine direttamente,
perché sarebbe troppo costoso in termini computazionali.
Piuttosto questo algoritmo è basato sull'accoppiamento
dell'output di una serie di filtri spaziali che differiscono
nella loro risposta alla misura e all'orientamento.
Jones e Malik hanno capito che l'output di questi filtri
a multiorientamento e a multiscala (MOMS) veramente
provvedono ad ottenere un più efficiente punto
di inizio per l'accoppiamento in stereo rispetto ai
pixel individuali o ai bordi orientati. Essi non prendono
posizione riguardo all'esatta natura dei campi recettivi
che potrebbero essere funzioni Gabor,funzioni sinusoidali
funzioni differenziali di Gauss o altre possibilità.
Il punto di partenza di questa teoria è il fatto
che ci sono molte cellule in una singola colonna corticale
i cui campi recettivi sono centrati sulla stessa posizione
della retina, ogni cellula risponde diversamente a diversi
orientamenti e diverse misure.
Il pattern di attività in questa ipercolonna
di cellule può essere modellato matematicamente
come un vettore: un set ordinato di numeri corrispondenti
a lle stimolazioni di ognuna di queste cellule.
Il
vettore contiene una ricca rappresentazione della struttura
spaziale in una regione centrata in quella posizione.
La figura 5.3.19 mostra due esempi nei quali la posizione
è il centro delle immagini a sinistra.
Le immagini a destra mostrano la ricostruzione della
informazione spaziale nel vettore che rappresenta l'out
put di circa 60 cellule in una ipercolonna ipotetica.
Chiaramente queste cellule catturano una grande quantità
di informazioni riguardo alla struttura spaziale dell'immagine
nelle vicinanze della posizione centrale.
Il cuore di questo modello MOMS è il processo
di accoppiamento del vettore che rappresenta un punto
dato in un occhio con ognuno dei vettori che rappresentano
posizioni spostate lateralmente nell'altro occhio. La
cosa importante è che la posizione spostata lateralmente
nell'altro occhio che ha il vettore più simile
specifica la corrispondenza più probabile per
quella posizione. Quando si ha uno stesso paragone per
tutte le posizioni ad ogni possibile disparità,
il risultato ci porta a una ben definita soluzione del
problema della corrispondenza. Gli accoppiamenti che
trova questo algoritmo sono di solito migliori di quelli
trovati dall'algoritmo basato sui pixel e da quello
basato sui bordi perché i vettori MOMS ci danno
molto in dettaglio informazione spaziale riguardo alla
struttura dell'immagine locale.
Come risultato si evince che tutte queste teorie incontrano
delle difficoltà nella risoluzione degli stereogrammi
di tipo "random dot", per quanto riguarda
la risoluzione di superfici che si presentano localmente
discontinue. Esistono dei problemi da risolvere per
le teorie computazionali della corrispondenza, come
per esempio il fatto che il sistema visivo umano sia
in grado di raggiungere la percezione stereoscopica
mediante la fusione dei contorni di luminanza in un
occhio con la tessitura o i contorni di colore nell'altro
occhio. Di sicuro, per poter venire a capo di tali dilemmi,
sono necessarie del concettualizzazioni di tipo astratto
che prendano in considerazione livelli più alti
di elaborazione.
5.3.4
MECCANISMI
FISIOLOGICI.
Il
fatto che la visione umana sia migliore di qualunque
altro schema computazionale per la stereopsi rende necessario
capire come il cervello umano lo fa.
La
risposta non è conosciuta in dettaglio ma sono
stati scoperti dei fatti interessanti. Le prime cellule
sensibili alla binocularità furono scoperte da
Hubel e Wiesel (1962) mediante la registrazione nell'area
V1 della corteccia dei gatti. Essi trovarono delle cellule
che rispondevano maggiormente se stimolate con lo bordo
in entrambi gli occhi simultaneamente piuttosto che
quando tale caratteristica stimolava solo un occhio.
Comunque le cellule trovate nell'area V 1 sembrano essere
regolate in base a caratteristiche che appaiono in posizioni
corrispondenti nelle retine dei due occhi, piuttosto
che a posizioni differenti binocularmente.
Così, sebbene queste cellule fossero binoculari,
non sembravano sensibili alla disparità binoculare.
Alcuni anni dopo Barlow, Blakemore e Pettigrew (1967)
trovarono che alcune cellule binoculari in area V 1
rispondevano in modo ottimale alla stimolazione in punti
disparati delle due retine.
Un'ulteriore
ricerca di Hubel e Wiesel (1970) questa volta sulle
scimmie ha confermato i loro primi risultati cioè
che le cellule in V 1 erano sensibili ad una disparità
pari a 0 o quasi 0. Hanno anche riportato un ulteriore
conferma del fatto che le cellule in V 2 rispondono
ottimamente alla presenza delle caratteristiche della
stessa immagine in posizioni ad una distanza relativamente
grande. La disputa tra questi ricercatori riguardo alla
diversa risposta delle cellule binoculari risulta essere
il risultato di una serie di difficoltà metodologiche.
Forse la più affascinante interpretazione di
questi risultati è che due sistemi fisiologici
separati siano coinvolti nella percezione stereoscopica
della profondità: uno situato nell'area V1, altamente
sensibile a disparità piccole o nulle. L'altra
localizzata in area V 2, sensibile a grandi disparità.
5.3.5
DISPARITA'
VERTICALE.
Esiste
anche la disparità binoculare verticale, sebbene
non abbia ricevuto molta attenzione fino a poco tempo
fa. Forse è più facile capire perché
la disparità verticale è presente nelle
immagini binoculari se si considerano le differenze
in dimensioni che esistono tra le immagini dello stesso
oggetto nei due occhi. La figura 5.3.22 A mostra una
visione geometrica della situazione per un oggetto target
che sta a destra dell'osservatore. Se entrambi gli occhi
fissano il centro dell'oggetto target l'immagine nell'occhio
destro sarà più grande di quella dell'occhio
sinistro perché l'occhio destro è più
vicino.
5.3.6
STEREOPSI
DI dA VINCI.
C'è
un ulteriore fonte di informazione strereoscopica; riguarda
il fatto che nella visione binoculare di superfici a
diverse profondità c'è di solito una parte
della superficie più lontana che è vista
solo da un occhio. Questo sta a indicare che nel caso
di regioni "viste" da un solo occhio non può
esserci un'adeguata soluzione al problema della corrispondenza,
semplicemente perché non ci sono punti corrispondenti
nell'immagine dell'altro occhio. La figura 5.3.23 mostra
un esempio: Nakayama e Shimojo (1990) hanno chiamato
questa forma di informazione di profondità stereopsi
di da Vinci in onore di Leonardo da Vinci. L'informazione
di profondità deriva dalla geometria visiva (visibile)
adiacente ai bordi occludenti la profondità.
La regione vista monocularmente è sempre parte
di una superficie più lontana. Se questa regione
vista monocularmente è presente nell'immagine
di destra necessariamente si troverà immediatamente
a destra del bordo occludente (bordo appartenente alla
superficie più vicina all'osservatore, cioè
quello che determina geometricamente l'area occlusa,
nascosta, all'occhio opposto, in questo caso il sinistro);
se la regione visibile monocularmente è situata
nell'immagine sinistra (cioè l'immagine la cui
proiezione cade sulla retina sinistra) si troverà
a sinistra del bordo occludente. Questi ricercatori
hanno dimostrato sperimentalmente questa forma di stereopsi;
Hanno trovato che produce la percezione prevista di
profondità relativa quando viene presentata in
modo appropriato appena descritto, ma non quando le
relazioni geometriche vengono invertite artificialmente.
5.4
INFORMAZIONE
DINAMICA
L'informazione
visiva dinamica si riferisce ai cambiamenti nella struttura
visiva che accadono a causa di certi tipi di movimento
di immagine, chiamati da Gibson "optic flow"
(= il fluire, lo scorrere ottico). Quando un osservatore
si muove rispetto all'ambiente, la direzione e la velocità
alle quali differenti oggetti vengono rappresentati
sulla retina non solo dal movimento dell'osservatore
ma anche da quanto sono lontani questi oggetti e da
dove si trova l'osservatore. L'informazione di profondità
a partire dal movimento deriva dalla parallasse di movimento:
la differenza di movimento di una coppia di punti dovuta
alla loro diversa profondità relativa al punto
di fissazione.
5.4.1
PARALLASSE
DI MOVIMENTO.
Nota: parallasse= angolo sotto cui si vede un corpo
osservato da due punti di vista diversi. Fenomeno per
cui quando un oggetto è visto da due luoghi diversi
sembra cambiare posizione rispetto agli oggetti più
lontani.
La parallasse di movimento è strettamente legata
alla disparità binoculare; nel caso della disparità
binoculare l'osservatore, stando fermo, compara l'immagine
retinica di destra con quella di sinistra mentre entrambe
sono normalmente disponibili nello stesso momento. Nel
caso della parallasse di movimento, invece, l'osservatore
si muove e compara una prima immagine con una che viene
dopo. Perciò, mentre la disparità binoculare
coinvolge la differenza tra una coppia di immagini retiniche
che si trovano spostate l'una rispetto all'altra, mentre
però sono disponibili nello stesso momento, la
parallasse di movimento coinvolge la differenza tra
una coppia di immagini retiniche spostate in modo sequenziale,
ossia una prima dell'altra. Esperimenti controllati
hanno mostrato che la parallasse di movimento è
sufficiente per percepire la profondità quando
non è presente nessun altra forma di informazione,
ma solo se l'informazione spaziale è sufficientemente
ricca e complessa.
La
natura della parallasse di movimento nella retina dipende
non solo dalla distanza rispetto all'oggetto ma anche
dal punto di vista dell'osservatore.
Normalmente è difficile percepire la parallasse
di movimento; oggetti stazionari nell'ambiente sono
percepiti come stazionari anche se le loro immagini
nella retina si muovono mentre si muovono gli occhi
rispetto a loro.
Questa tendenza a percepire la reale posizione degli
oggetti nell'ambiente nonostante i cambiamenti nella
loro posizione nella retina viene chiamata "costanza
di posizione".
La
parallasse di movimento è anche simile alla disparità
binoculare per il fatto che fornisce informazione relativa
sulla profondità. Non specifica la reale distanza
da un oggetto, ma solo quanto è più vicino
o più lontano rispetto all'oggetto fissato. Ma
al contrario della disparità, la parallasse fornisce
informazioni di profondità anche su oggetti situati
a grandi distanze.
5.4.2
FLUSSO
OTTICO DETERMINATO DAL MOVIMENTO DI UN OSSERVATORE.
In
naturali condizioni percettive, la parallasse di movimento
di due punti isolati avviene di rado. Come Gibson (1966)
ha enfatizzato nei suoi importanti lavori, gli osservatori
di solito si muovono ed esplorano attivamente ambienti
disordinati, occupati in diverse attività che
fanno emergere complessi pattern di flusso ottico.
Gibson ha intuito, abbastanza correttamente, che il
movimento dell'immagine risultante dal movimento dell'osservatore
non è caotico, ma altamente strutturato in un
modo che dipende precisamente sia dalla disposizione
delle superfici nell'ambiente 3 - D sia dal movimento
dell'osservatore. Ha anche capito che questo pattern
globale di flusso ottico può essere usato per
percepire la posizione spaziale delle superfici. I cambiamenti
sistematici nel movimento dell'immagine che avvengono
sopra regioni estese di flusso ottico ambientale chiamati
da Gibson gradienti di movimento, per enfatizzare il
fatto che spesso sono cambiamenti graduali nella velocità
e nella direzione. La figura 5.4.2 mostra degli esempi;
si vedono i punti di un'immagine che cambiano a causa
del movimento dell'osservatore .
Un
altro pattern di flusso ottico preso in considerazione
da Gibson è l'espansione ottica o "looming",
come illustrato in figura 5.4.2B. Si ha quando un osservatore
si muove direttamente verso una superficie nel piano
frontale fissando il punto verso il quale si dirige.
Per esempio l'espansione oculare si presenta quando
camminiamo verso un muro e guardiamo dritto in avanti.
Il punto fissato è sempre stazionario sulla retina
e gli altri punti della superficie scorrono esternamente
ad una velocità che aumenta se aumenta la distanza
dal punto di fissazione sul piano frontale.
Questi
gradienti di movimento sono solo dei casi speciali di
semplici pattern di flusso ottico che si creano da movimenti
molto semplici rispetto a una singola superficie ambientale.
Pattern di flusso ottico diventano troppo complessi
quando la situazione si avvicina alle condizioni naturali.
Un complicato flusso è causato da cambiamenti
nella direzione dello sguardo.
I
pattern realistici che producono il flusso ottico nel
corso di normale attività in normali situazioni
ambientali sono così complessi che non possono
essere catalogati in termini di tipi semplici; la loro
struttura può essere scoperta solo con sofisticate
analisi matematiche.
5.4.3
FLUSSO
OTTICO PROVOCATO DA MOVIMENTI DEGLI OGGETTI.
L'informazione
di profondità riguardo a oggetti specifici diventa
disponibile non solo quando l'osservatore si muove rispetto
ad essi, ma anche quando essi si muovono rispetto all'osservatore.
Se differenti parti dell'oggetto sono posizionate a
differenti distanze dall'osservatore e se queste parti
cambiano la loro distanza relativa all'osservatore durante
il movimento, allora ci sarà movimento relativo
tra i punti della superficie dell'oggetto quando questo
si muove. Questo movimento relativo fornisce informazione
riguardo a quali punti della superficie sono più
vicini e quali più lontani. Questa abilità
di percepire la profondità dal movimento dell'oggetto
fu dimostrata da Wallach e O'Connell (1953) in un fenomeno
chiamato effetto cinetico di profondità (KDE).
La figura 5.4.3 mostra questo effetto; un oggetto 3
- D è illuminato da dietro, e la sua ombra si
proietta su uno schermo translucido visto da un osservatore.
Quando è stazionario sembra una figura piatta
bidimensionale, ma se ruota l'oggetto ruotante è
percepito in tre dimensioni.
Quando
le condizioni di stimolazione sono logicamente sottodeterminate
il sistema visivo deve implicitamente o esplicitamente
compiere delle assunzioni addizionali per raggiungere
un'interpretazione. In questo caso sembra che il sistema
visivo usi una euristica della rigidità: una
tendenza verso la percezione di movimenti rigidi piuttosto
che verso deformazioni plastiche, che fa sì che
la stimolazione sensoriale sia consistente con l'interpretazione.
Perché il sistema visivo è più
disposto selettivamente a percepire movimenti rigidi
piuttosto che plastici? La risposta più ovvia
è quella empirica: movimenti rigidi sono più
probabili dei corrispondenti movimenti plastici se il
movimento dell'immagine è consistente con un
movimento rigido. I teorici della Gestalt giungerebbero
alla stessa conclusione applicando il principio della
Pregnanza: il sistema visivo preferisce le interpretazioni
più semplici date da prevalenti condizioni di
stimolazione.
L'interpretazione
"rigida" può essere considerata più
semplice perché non induce cambiamenti nella
forma dell'oggetto e così è più
facile rappresentarlo ed elaborarlo. Questo è
un altro esempio del fatto che i principi di probabilità
e di pregnanza predicono la stessa cosa.
5.4.4
COMPARSA
E SCOMPARSA DI TESSITURA.
Un'ulteriore
fonte di informazione di profondità proviene
dagli eventi provocati dal movimento dell'immagine:
la comparsa e la scomparsa di tessitura dietro a un
bordo in movimento. Il bordo appartiene necessariamente
alla superficie più vicina e la tessitura che
appare e scompare alla superficie più lontana.
Quando il movimento della figura più vicina viene
a cessare, infatti, i bordi di quest'ultima non risultano
più tali e la trama della figura viene inglobata
in quella dello sfondo, dando origine a un oggetto percepito
come unitario e non più come due oggetti posizionati
a distanze diverse dall'osservatore.
La comparsa e la scomparsa (aggiunta e cancellazione)
di tessitura dovuta all'osservatore in moto sono in
relazione con la stereopsi di da Vinci, allo stesso
modo in cui la parallasse di movimento è correlata
alla disparità binoculare. Ossia: "accretion"
e "deletion" della tessitura sono fonti dinamiche,
non statiche, di informazione sulla profondità,
informazione questa ottenibile in tempi diversi; e concettualmente
è uguale a dire che l'informazione statica è
rintracciabile binocularmente attraverso lo spazio nelle
stereopsi di da Vinci.
5.5
INFORMAZIONE
PITTORICA.
Sebbene
la visione stereoscopia e il movimento producano irresistibili
esperienze di profondità, non significa che siano
le uniche fonti da cui ricavare questa informazione.
Ulteriori fonti di informazione di profondità
sono raggruppate sotto il nome di informazione pittorica
perché sono tutte potenzialmente in disegni statici
visti monocularmente. L'informazione pittorica può
essere molto potente; infatti spesso abbiamo una buona
percezione di profondità in disegni 2 D.
5.5.1
PROIEZIONE
IN PROSPETTIVA.
Nel
capitolo 1 abbiamo parlato del fatto che la luce viaggia
in linea retta ed è riflessa sulla retina dalle
superfici ambientali. La geometria meglio applicabile
a questo processo si chiama proiezione in prospettiva
e produce profonde differenze tra gli oggetti nel mondo
reale e le immagini ottiche nelle retine.
La
più ovvia di queste differenze sta nella dimensionalità:
oggetti tridimensionali producono immagini bidimensionali.
La dimensione persa è la profondità.
Fortunatamente
le immagini bidimensionali formate dalle proiezioni
in prospettiva contengono un gran numero di informazioni
riguardo a questa dimensione "persa" che può
essere recuperata anche se non perfettamente.
L'importanza
della proiezione in prospettiva per la percezione della
profondità fu scoperta quando un artista tentò
di dipingere la profondità in modo realistico
su delle tele piatte. Nel 1436 un artista di nome Alberti
descrisse un metodo per disegnare dei quadri in prospettiva
che rivoluzionò la rappresentazione artistica
della profondità. L'idea base è semplice
come mostrato in figura 5.5.2. Per disegnare una scena
tridimensionale su una tela bidimensionale è
necessario solamente ricreare l'immagine che passerebbe
attraverso una finestra piatta messa al posto delle
tele. Prendendo questa idea letteralmente l'informazione
di profondità può essere catturata su
una superficie bidimensionale tracciando i contorni
degli oggetti su una pannello di vetro mentre si osserva
la scena attraverso il vetro stesso, da una posizione
vantaggiosa . Se il vetro viene poi messo sopra una
superficie bianca uniforme e guardato monocularmente
dalla stessa posizione relativa la linea disegnata ricreerà
la profondità pittorica.
Questa tecnica è chiamata finestra di Alberti.
5.2.2
CONVERGENZA
DI LINEE PARALLELE.
Un
importante fatto che riguarda la proiezione in prospettiva
è che le linee parallele nell'ambiente tridimensionale
di solito non vengono proiettate come linee parallele
nell'immagine bidimensionale, ma come linee che convergono
in un punto che svanisce nella linea dell'orizzonte
(vanishing point).
Figura 5.5.4
Questo
aspetto della proiezione in prospettiva è spesso
riferito alla prospettiva lineare (convergenza di linee
parallele).
Nella figura 5.5.5si può osservare l'uso del
"vanishing point" per produrre un realistico
senso di profondità.
5.5.3
POSIZIONE
DI UNA SUPERFICIE RELATIVA ALL'ORIZZONTE.
Un'altra
fonte pittorica di informazione di profondità
che deriva dalla proiezione in prospettiva è
l'altezza relativa all'orizzonte degli oggetti in un
disegno piano.
La figura 5.5.6 mostra una semplice scena in cui non
ci sono linee parallele che convergono in un punto all'orizzonte,
ma c'è una forte impressione di profondità.
Nella proiezione in prospettiva di una scena tridimensionale,
gli oggetti su un livello piano che sono più
vicini all'orizzonte, sono percepiti come più
lontani dall'osservatore.
Gli alberi in basso sembrano più vicini di quelli
in alto e anche le nuvole verso l'alto sembrano più
vicine di quelle più lontane in basso.
La ragione di queste percezioni è la disposizione
degli oggetti in un piano relativo alla linea dell'orizzonte.
La regola generale è che per tutti gli oggetti
su un piano quelli più vicini all'orizzonte vengono
percepiti come più lontani.
5.5.4
GRANDEZZA
RELATIVA.
A
parità di altre condizioni oggetti più
distanti proiettano immagini più piccole sulla
retina. La fig 5.5.8 illustra il perché. Quando
la luce proveniente da due oggetti identici posti a
diverse distanze viene riflessa nell'occhio, l'angolo
visivo sotteso dall'oggetto più vicino sarà
necessariamente più grande di quello sotteso
dall'oggetto più lontano. La relazione distanza-grandezza
ci dice che la grandezza dell'immagine retinica di un
oggetto (a) fornisce un importante informazione riguardo
alla distanza dall'osservatore (d). Ma c'è un
problema. Per risolvere questa equazione per la distanza:
la
reale grandezza di un oggetto (h) deve essere conosciuta,
e questa informazione non può essere ottenuta
facilmente dall'immagine retinica perché la grandezza
e la distanza dell'oggetto determinano insieme la grandezza
della sua immagine proiettata. Tu non puoi quindi dire
a partire dalla grandezza di un immagine se stai guardando
un oggetto più piccolo e vicino o uno più
grande e lontano (fig 1.2.9). Infatti c'è un
numero infinito di grandezze possibili dell'oggetto
per un immagine di una particolare grandezza nella retina.
Un'euristica usata dal sistema visivo assume che due
oggetti altrimenti identici abbiano la stessa grandezza
oggettiva cosi che le loro distanze relative possano
essere determinate dalle loro grandezze relative nell'immagine.
Questa situazione è un altro esempio di come
l'inferenza inconscia possa essere usata nella percezione
di profondità a partire dalla grandezza relativa.
5.5.5
GRANDEZZE
FAMILIARI.
Molti
oggetti tendono ad avere una grandezza caratteristica
o a variare entro una certa gamma di valori "familiari"
a coloro che li percepiscono. Questo è importante
perché se è conosciuta la grandezza di
un oggetto, l'equazione grandezza-distanza può
essere risolta determinando la reale distanza dall'osservatore.
L'equazione non viene risolta consciamente, è
un processo inconscio, rapido che accade automaticamente.
5.5.6
GRADIENTI
DI TESSITURA.
(Per texture si intende trama, superficie di un oggetto)
Un'altra
importante manifestazione della struttura della proiezione
in prospettiva per quanto riguarda la percezione di
profondità è quello che Gibson (1950)
ha chiamato gradienti di tessitura: cambiamenti sistematici
di forma e dimensione di piccoli elementi strutturali
che avvengono in molte superfici ambientali.
I gradienti di tessitura possono informare gli osservatori
sull'orientamento di una superficie in profondità
e sulla sua curvatura. Stevens (1979) ha dimostrato
che due aspetti della variazione strutturale (forma
e grandezza) forniscono indipendenti fonti d'informazione
sull'orientamento della superficie. La grandezza totale
degli elementi strutturali (di texture) diminuisce con
la distanza perché tutte le dimensioni diminuiscono
in rapporto all'aumento della distanza dal punto di
vista. La dimensione degli elementi può essere
usata per stimare la distanza relativa tra differenti
parti della superficie e fornire così l'orientamento
della superficie strutturata. Questo sarà vero
solo se gli elementi strutturali saranno della stessa
dimensione. Questo è un altro esempio di assunzioni
euristiche nella percezione di profondità, poiché
la conclusione percettiva sulla distanza dagli elementi
strutturali basata sulla grandezza della loro immagine
sarà accurata solo se gli elementi che formano
la tessitura saranno simili in grandezza. Infatti, se
questi elementi appartenenti alla trama della superficie
differiscono in grandezza, si avrà un ' "illusione"
di profondità (figura 5.5.12): elementi di grandezza
diversa danno l'impressione di profondità e forma,
seppur appartenendo a un'immagine bidimensionale; invece
oggetti visti nell'ambiente, cioè nello spazio
3 - D, hanno superfici la cui struttura è formata
da elementi uguali, che vengono percepiti come più
grandi o più piccoli in base alla reale distanza
dall'osservatore e in questo modo danno informazione
sulla profondità.
La forma proiettata degli elementi strutturali (cioè:
la grandezza ed la forma delle proiezione retiniche
di tali oggetti) può anche portare informazione
riguardo all'orientamento della superficie (fig 5.5.12).
Di nuovo questa informazione può essere recuperata
dall'immagine solo se le assunzioni addizionali riguardano
le forme reali degli elementi strutturali nell'ambiente.
Stevens usò l' "aspect ratio" (il rapporto
tra la dimensione più lunga e quella più
corta) degli elementi strutturali per stimare l'orientamento
degli stessi elementi e della superficie sulla quale
si trovano. La sua analisi si basa sull'assunzione che
le dimensioni degli elementi strutturali del mondo reale
sono approssimativamente uniformi sotto diversi orientamenti.
Kender
(1979) sviluppò altri algoritmi per stimare l'orientamento
della superficie a partire dalla forma strutturale facendo
assunzioni lievemente diverse: che gli elementi strutturali
sono per la maggior parte regolari, omogenei e simmetrici.
Witkin
(1981) propose un altro algoritmo basato sull'assunzione
che i bordi degli elementi strutturali tendono ad essere
distribuiti isotropicamente, cioè che la quantità
di contorno a diversi orientamenti sarà la stessa
o quasi. Questa è un'euristica utile quando gli
elementi strutturali isotropici sono visti tenendo conto
della "slant" i loro bordi allora non saranno
isotropici nell'immagine piana.
Piuttosto, i margini saranno inclinati nel senso dell'orientamento
di ognuno, orientamenti questi che sono perpendicolari
alla direzione del "tilt" a causa dell'accorciamento
anteriore lungo l'asse del "tilt".
I programmi per computer di Stevens, Kender, e Witkin
falliscono nella simulazione della percezione di superfici
che presentano strutture allungate come un prato o un
campo di grano. Essi assumono che le strutture allungate
degli elementi dell'immagine dipendano dal fatto che
essi sono inclinati in profondità non dal fatto
che sono semplicemente allungati. Se il sistema visivo
facesse lo stesso sbaglio sarebbe un punto a favore
di questa teoria, ma la gente fa raramente questo errore.
Malik
e Rosenholtz (1994) hanno proposto una migliore soluzione
computazionale a questo problema. Hanno progettato un
algoritmo per recuperare lo "slant "e il "tilt"
di piccoli pezzi della struttura di una superficie,
basato solo su una debole assunzione che gli elementi
strutturali sono approssimativamente gli stessi se ci
sono solamente piccoli spostamenti lungo la superficie.
Così assumono che tutti gli elementi strutturali
abbiano uguale forma e grandezza e differiscano solo
nella trasformazione nel piano strutturale. Questa assunzione
permette all'algoritmo di ottenere un vantaggio da tutte
le informazioni disponibili nella struttura senza ulteriori
vincoli.
5.5.7
INTERPRETAZIONE
DEI BORDI.
Un
tipo molto importante di informazione pittorica sulla
profondità viene dall'interpretazione di bordi
o contorni. Un semplice esempio, considerato nel cap
1, è dato dall'occlusione (o interposizione).
In fig 5.5.14, per esempio, la gente percepisce un quadrato
dietro ad un cerchio parzialmente occluso. Quello che
è realmente presente è una configurazione
2-D di regioni circondate da bordi, e noi percepiamo
questi bordi come se indicassero una relazione di profondità:
il cerchio è davanti al quadrato.
Come fonte di informazione di profondità, i bordi
hanno sia punti forti che punti deboli. I punti di debolezza
riguardano il fatto che l'informazione dei bordi è
relativa piuttosto che assoluta e qualitativa piuttosto
che quantitativa, così fornisce solo relazioni
ordinali di profondità. I punti di forza invece
riguardano il fatto che è capace di ottenere
l'informazione a partire da distanze virtualmente illimitate.
È solo necessario che gli oggetti siano visibili
e che quello più vicino, che occlude l'altro,
sia opaco.
CLASSIFICAZIONE
DEI VERTICI.
La
teoria computazionale dell'interpretazione dei bordi
è iniziata con il programma SEE di Guzman (1968,1 |