Capitolo
5
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per il
corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che non
hanno molta dimestichezza con la lingua inglese.
Le traduzioni sono opera degli stessi studenti
del corso di Psicologia della Percezione 1999
- 2000. Nell'utilizzo di questo materiale va tenuto
conto che la correttezza dello stesso va verificata
confrontando le traduzioni con il testo originale.
Per ulteriori domande, clicca
qui.
|
Traduzione
a cura di Francesca Polmonari
LA PERCEZIONE DI SUPERFICI ORIENTATE IN PROFONDITA'
Le caratteristiche dell'immagine 2-D, come i bordi le
linee e gli elementi strutturali, sono importanti per
la visione perché ci forniscono l'informazione
sul mondo che ci circonda. Ma devono essere interpretati
in termini di struttura 3-D per fare il salto deduttivo
dall'immagine all'ambiente. Questo salto è richiesto
perché gli organismi che percepiscono non sono
interessati ai contorni tra regioni di differente luminanza,
colore o tessitura a livello retinico; sono interessati
ai bordi tra differenti superfici di oggetti nell'ambiente.
Due
delle tre dimensioni spaziali dell'ambiente sono presenti
esplicitamente nelle immagini bidimensionali delle retine:
queste due dimensioni possono essere concepite come
specificanti la direzione dall'osservatore alla superficie.
La
terza dimensione, la distanza della superficie dall'osservatore,
cioè la profondità, viene persa nel processo
di proiezione ottica dalle superfici del mondo tridimensionale
alle retine bidimensionali; cioè dalla disposizione
delle superfici nello spazio, propria della tridimensionalità
dell'ambiente circostante, alla proiezione di tali superfici
in un piano bidimensionale, ossia le retine. Una volta
che questa informazione è persa non può
essere recuperata con certezza assoluta ma di fatto
la gente riesce a percepire bene il proprio ambiente
tridimensionale. Come è possibile?
Ci sono due problemi strettamente legati che devono
essere risolti:
1.
Determinare la profondità: la distanza della
superficie dall'osservatore nell'ambiente 3-D;
2. Il percepire l'orientamento della superficie: "slant"
e "tilt" della superficie rispetto alla traiettoria
visiva dell'osservatore. Sebbene i termini "slant"
e "tilt" siano spesso usati come sinonimi
tecnicamente si riferiscono a due parametri diversi.
"Slant" si riferisce alla grandezza dell'angolo
tra la linea della visuale (cioè la traiettoria
visiva) e la normale alla superficie; che è quella
linea virtuale che esce dalla superficie nel punto dato,
cioè la perpendicolare in quel punto. Quindi
avremo una "slant" pari a 0 se consideriamo
il piano frontale dell'oggetto; sarebbe infatti come
considerare una superficie bidimensionale. La "slant"
corrisponde anche alla lunghezza della proiezione della
normale alla superficie sul piano frontale. Proiezioni
più lunghe corrispondono a "slant"
maggiori .Maggiore è l'angolo maggiore sarà
la superficie "slant". In figura 5.0.1 "slant"corrisponde
all'allungamento delle ellissi proiettate, maggiore
è l'allungamento maggiore sarà lo slant
relativo al piano frontale. Tilt si riferisce alla direzione
del gradiente di profondità relativo al piano
frontale. Nella figura corrisponde all'orientamento
dell'ellisse proiettata nel piano frontale e alla direzione
della normale alla superficie proiettata sul piano frontale.
La
profondità e l'orientamento delle superfici sono
interdipendenti.
L'orientamento 3-D di una superficie determina quanto
lontane sono le sue diverse parti dall'osservatore,
parimenti la distanza delle sue varie parti determina
il suo orientamento 3-D.
Un
modo di formulare il problema è vedere che il
sistema visivo calcola, per ogni direzione esterna al
punto di vista dell'osservatore, l'orientamento e la
distanza - detta anche profondità - della superficie
che ha riflesso la luce in quella particolare direzione.
Questa concezione della percezione della superficie
come determinata dalla sua distanza e orientamento (orientamento
a una distanza) fu originariamente formulata da J.J.Gibson
(1950). Egli si riferisce alla percezione del "layout
di superficie"; l'idea di recuperare l'orientamento
a una distanza fu più tardi riformulata più
precisamente in termini computazionali da Marr e Nishihara
(1978), con il concetto del "2.5 - D sketck"
(= modello).
Una
rappresentazione delle superfici orientate in profondità
è indispensabile alla visione ed è necessaria
per capire molti livelli più elevati di fenomeni
percettivi.
La percezione delle superfici, quindi, è importante
dal momento che essa costituisce la fonte di tutte le
informazioni visibili circa le strutture tridimensionali:
la proiezione delle superfici sulle retine è
il primo passo, tutte le successive astrazioni che portano
l'osservatore a trarre informazioni sull'ambiente dipendono
da questo.
5.1
IL
PROBLEMA DELLA PERCEZIONE DELLA PROFONDITÀ.
Il problema di recuperare la distanza da una superficie
deriva dal fatto che la percezione di profondità
proveniente dalle immagini 2-D è relativamente
ambigua. La ragione di questa ambiguità è
che i processi ottici di riflessione di una superficie
e di formazione di un'immagine proiettano luce da un
mondo 3-D a una superficie 2-D in fondo all'occhio.
La percezione della profondità è quindi
l'esempio paradigmatico della ambiguità logica
della percezione.
5.1.1
ASSUNZIONI
EURISTICHE.
Questa analisi sembra portare alla conclusione che una
veridica percezione della profondità sia impossibile.
Questo non concorda con il fatto che la gente percepisce
correttamente la profondità ogni minuto di ogni
giorno.
La risposta è che solo un'infallibile percezione
di profondità in tutte le possibili circostanze
è logicamente impossibile; ma non c'è
contraddizione logica dal momento che la percezione
umana della profondità è difficilmente
infallibile in tutte le circostanze considerabili.
Infatti,
ci sono molte situazioni in cui le persone vengono "ingannate"
vedendo la profondità; da molte immagini bidimensionali
noi ricaviamo informazioni circa gli oggetti rappresentati,
che nella realtà sono tridimensionali. La percezione
di profondità è possibile nella vita di
ogni giorno perché il nostro sistema visivo implicitamente
fa uso di certe assunzioni euristiche riguardo alla
natura del mondo esterno e alle condizioni dell'osservazione
visiva. Insieme con le informazioni specifiche disponibili
nelle due immagini retiniche queste assunzioni sono
sufficienti per recuperare l'informazione di profondità.
L'ambiguità logica dell'informazione di profondità
è comunque importante perché ci aiuta
a capire le condizioni sotto le quali il sistema visivo
viene ingannato nella percezione della profondità.
5.1.2
LO
SCHEMA 2.5-Ddi MARR.
Come può l'informazione visiva riguardo alla
disposizione della superficie nella profondità
ad essere rappresentata?
La proposta più rilevante è da attribuire
alla concezione dello schema 2.5-D di David Marr (figura
5.1.2).
Questo
schema, come implica il nome, sta da qualche parte tra
le proprietà 2-D di una rappresentazione basata
sull'immagine e le proprietà 3-D di una rappresentazione
basata sull'oggetto.
Riassume
gli output di differenti elaborazioni che portano l'informazione
riguardo all'orientamento e alla profondità di
parti della superficie nell'ambiente in una conveniente
rappresentazione di orientamento a una distanza. La
teorizzazione di Marr va oltre il contributo di Gibson
poiché propone come una rappresentazione può
essere ricavata da un'immagine reale.
Questo modello sottolinea che ci sono molti moduli di
elaborazione indipendenti che calcolano l'informazione
di profondità a partire da fonti diverse (fig.5.1.3).
Ogni modulo elabora un diverso tipo di informazione
e alla fine porta diversi vincoli all'interpretazione
finale della profondità dello schema 2.5-D.
Ci
sono molte differenti fonti di informazione di profondità,
che possono essere classificati in modi diversi come
indicati in figura 5.1.4. Una distinzione è se
l'informazione in questione riguarda lo stato degli
occhi (informazione oculare) o la struttura della luce
che entra negli occhi (informazione ottica). La seconda
è se l'informazione richiede entrambi gli occhi
(informazione binoculare) o è disponibile a un
solo occhio (informazione monoculare). La terza è
se l'informazione è disponibile in un'immagine
immobile (informazione statica) o se richiede il movimento
dell'osservatore e/o dell'oggetto (informazione dinamica.
Il quarto è se la fonte determina la reale distanza
dall'oggetto (informazione assoluta) o se specifica
soltanto quanto sono distanti gli oggetti tra loro (informazione
relativa). L'ultimo è se l'informazione specifica
relazioni di distanza numeriche (informazione quantitativa)
o solamente relazioni ordinali di vicino/lontano (informazione
qualitativa).
5.2
L'INFORMAZIONE
OCULARE.
L'informazione
oculare riguardo alla distanza da una superficie fissata
dipende sia dallo stato di entrambi gli occhi sia dai
loro vari componenti. Di particolare importanza sono
la messa a fuoco delle lenti (accomodazione) e l'angolo
tra le linee di vista dei due occhi (convergenza).
5.2.1
L'ACCOMODAZIONE.
L'accomodazione
è il processo attraverso il quale i muscoli ciliari
nell'occhio controllano la messa a fuoco delle lenti
cambiando la loro forma. E' un'informazione di profondità
monoculare perché è disponibile anche
mediante un occhio solo.
Le
lenti dell'occhio umano hanno una capacità variabile
di messa a fuoco, diventando più sottili per
focalizzare la luce proveniente da oggetti distanti
e più spesse per focalizzare quella proveniente
da oggetti vicini. Se il sistema visivo ha l'informazione
riguardo alla tensione dei muscoli che controllano la
forma delle lenti allora ha l'informazione sulla distanza
dall'oggetto focalizzato.
Sebbene
l'accomodazione è di solito considerata come
una fonte debole di informazione di profondità
studi sperimentali indicano che la gente la usa quando
le distanze sono piccole e la usa per inferire la grandezza
degli oggetti.
L'accomodazione fornisce informazione sulla profondità
assoluta; può specificare la reale distanza dall'oggetto
fissato, ma è necessario che l'oggetto sia a
fuoco sulla retina per ottenere risultati accurati.
Questo implica che il sistema visivo deve in qualche
modo conoscere quando un oggetto è a fuoco. Una
delle migliori indicazioni per capire se un oggetto
è a fuoco è la presenza di bordi netti
anziché sfumati. Così l'immagine offuscata
è lo stimolo effettivo che guida l'accomodazione.
E' probabile che il sistema visivo controlla l'accomodazione
aggiustando la tensione dei muscoli ciliari. A causa
del suo ristretto raggio d'azione l'accomodazione è
raramente usata come indizio cruciale di informazione
di profondità negli umani.
5.2.2
CONVERGENZA.
La convergenza è la misura con cui gli occhi
sono rivolti verso l'interno (uno verso l'altro) quando
fissano un oggetto. Gli occhi fissano un punto dato
nello spazio esterno quando entrambi guardano direttamente
un punto così che la luce da esso proveniente
cade sui centri di entrambe le fovee simultaneamente.
Poiché ogni fovea ha solo un centro solo un punto
può essere fissato con esattezza in un dato momento.
L'angolo formato dalle due linee di vista cambia sistematicamente
con la distanza tra l'osservatore e il punto fissato.
Quando
fissiamo un oggetto vicino si forma un grande angolo
di convergenza, se l'oggetto è lontano l'angolo
è piccolo (figura 5.2.2). Siccome la convergenza
dipende dall'uso di entrambi gli occhi, è una
fonte di informazione di profondità binoculare,
diversa dall'accomodazione, ma come l'accomodazione
fornisce informazione sulla distanza assoluta dall'oggetto
fissato. Convergenza e accomodazione, di norma, covariano.
Però, sebbene siano importanti fonti di informazione
per quanto riguarda la profondità, sia nel caso
di grandi distanze che in quello di visione binoculare,
i loro rapporti e il loro contributo risultano essere
solamente parziali.
5.3
INFORMAZIONE
STEREOSCOPICA.
La
"stereopsi" è il processo di percezione
della relativa distanza dagli oggetti basata sul loro
spostamento laterale nelle due immagini retiniche, cioè
la percezione della terza dimensione che si ha con la
normale visione binoculare. La stereopsi è possibile
perché abbiamo due occhi separati lateralmente
e i loro campi visivi si sovrappongono nella regione
centrale. A causa della distanza tra i due occhi le
due immagini retiniche di molti oggetti sono leggermente
diverse nella zona di sovrapposizione. Infatti lo stesso
punto nell'ambiente proietta a diverse posizioni nelle
retine destra e sinistra che sono spostate in un modo
che dipende da quanto è vicino o lontano il punto
dal punto di fissazione. Questo spostamento laterale
relativo si chiama disparità binoculare.
5.3.1
DISPARITA'
BINOCULARE.
Le
due immagini retiniche sono abbastanza simili così
che non noti la differenza se le paragoni chiudendo
un occhio alla volta.
L'informazione
data dalla disparità binoculare è molto
precisa. La direzione della disparità fornisce
l'informazione su quali punti sono così vicini
e quali più lontani dal punto fissato. La grandezza
della disparità fornisce informazioni su quanto
questi sono vicini o lontani. La natura quantitativa
della disparità binoculare è importante
dal punto di vista percettivo, anche se fornisce solo
informazione di profondità relativa, specifica
i rapporti di distanza dagli oggetti piuttosto che specificare
quale è più lontano e quale più
vicino.
POSIZIONI RETINICHE CORRISPONDENTI.
Il
primo passo per capire la geometria della disparità
binoculare è definire posizioni corrispondenti
nelle due retine: posizioni che coinciderebbero se le
due fovee venissero sovrapposte da un semplice spostamento
laterale.
La
disparità binoculare si ha quando un punto nel
mondo esterno non proietta a posizioni corrispondenti
nella retina destra e in quella sinistra .
Per esempio, considera il diagramma di due occhi che
fissano un punto P in figura 5.3.2. Il punto P cade
nelle fovee di entrambi gli occhi e così stimola
punti corrispondenti.
Ora considera le proiezioni di un punto C più
vicino mentre gli occhi stanno ancora fissando il punto
P. Come indicato in figura essi non cadono su punti
corrispondenti nelle retine poiché quello nella
retina destra è a destra della fovea e quello
nella retina sinistra è a sinistra della fovea.
Si parla di disparità crociata per le due immagini
del punto C che indica che questo è più
vicino del punto fissato P. Quanto vicino dipende da
quanto sono lontani i punti disparati nella direzione
crociata.
Ora considera le proiezioni della retina di un punto
F più lontano del punto fissato P; anche questo
punto cade in punti diversi delle retine ma questa volta
quello dell'immagine destra è a sinistra della
fovea e quello nell'immagine sinistra è a destra
della fovea. Questa direzione interna è chiamata
disparità non crociata, indica che il punto che
l'ha creata è più distante del punto fissato
P.
L'OROPTERO.
L'insieme
dei punti dell'ambiente che stimola punti corrispondenti
sulle due retine si chiama oroptero. Ci sono due modi
di definirlo. Teoricamente mediante in maniera geometrica
ed empiricamente mediante esperimenti. L'oroptero teorico
può essere definito geometricamente proiettando
coppie di punti retinici corrispondenti esternamente
verso il punto nodale dell'occhio. Alcune di queste
paia di linee si intersecono in un punto dell'ambiente
che, per definizione, proietta alle corrispondenti posizioni
retiniche.
L'insieme di tutti i punti costituisce l'oroptero. Nel
piano orizzontale dell'occhio l'oroptero teorico è
un cerchio chiamato il cerchio di Vieth-Muller, che
passa attraverso il punto di fissazione e i punti nodali
di entrambi gli occhi. La disparità di ogni punto
in questo cerchio è pari a 0. Nel piano verticale
le posizioni ambientali che proiettano a punti corrispondenti
nelle due retine stanno lungo una linea dritta perpendicolare
alla linea di vista (figura 5.3.4).
L'oroptero
empirico è definito dai risultati di esperimenti
psicofisici. Questi indicano che l'oroptero empirico
nel piano orizzontale sta leggermente più indietro
rispetto all'oroptero teorico. L'oroptero empirico nel
piano verticale è inclinato lontano dall'osservatore
sopra il punto di fissazione e verso l'osservatore sotto
tale punto, come indicato in figura 5.3.4.Nonostante
non si conoscano i motivi di tale disparità,
la differenza tra i due oropteri è così
piccola da poter essere ignorata per propositi pratici.
La
percezione stereoscopica di profondità proviene
così da diverse direzioni e gradi di disparità
retinica per punti dell'ambiente che stanno davanti
e dietro all'oroptero.
La disparità binoculare è una fonte relativa
di informazione di profondità. La direzione e
la quantità di profondità specifica quanto
è più vicino o più lontano un punto
dato in relazione all'oroptero. La distanza assoluta
dei punti lungo l'oroptero varia al variare della distanza
del punto fissato.
Una
domanda che sorge spontanea dopo aver parlato della
disparità tra le due immagini retiniche è
perché non abbuiamo normalmente l'esperienza
di immagini doppie (diplopia ). Dopo tutto ogni punto
nel mondo esterno che cade in una porzione binoculare
del campo visivo produce due immagini retiniche e noi
raramente abbiamo una visione doppia. La risposta ha
due parti. Una è che i punti su o vicino all'oroptero
vengono fusi nella percezione in una immagine sperimentata
singolarmente. La regione intorno all'oroptero nella
quale le immagini vengono fuse si chiama area fusionale
di Panum (figura 5.3.5). La seconda parte della risposta
è che per punti che stanno fuori dall'area di
Panum la disparità viene di solito percepita
come profondità. Si può sperimentare la
visione di immagini doppie quando l'ammontare della
disparità è abbastanza grande (ad esempio
incrociando gli occhi) o se si considera la disparità
come una "doppiezza" (percettiva). Generalmente,
comunque, la normale visione stereoscopica è
limitata alla regione centrale del campo visivo dove
le due immagini retiniche si sovrappongono, per cui
la disparità risulta essere talmente piccola
da non venir percepita come "doppiezza" dell'immagine.
STEREOGRAMMI.
Forse
la più potente dimostrazione che la disparità
binoculare possa produrre l'esperienza di superfici
con differente profondità viene dagli stereogrammi:
paia di immagini che differiscono nello spostamento
laterale relativo degli elementi così che quando
sono visti stereoscopicamente producono delle irresistibile
illusioni di profondità provenienti da una pagina
piatta.
Gli
stereogrammi furono inventati da Charles Wheatstone
quando analizzò la geometria della disparità
binoculare nel 1838. Egli realizzò che se l'occhio
sinistro e l'occhio destro possono essere stimolati
con immagini che differiscono solo per uno spostamento
laterale appropriato di oggetti altrimenti identici,
questi possono essere percepiti come sistemati a differenti
profondità. La caratteristica di uno stereogramma
è che oggetti corrispondenti nelle immagini sinistra
e destra sono spostati lateralmente, e così producono
la disparità binoculare. La direzione della disparità
e la sua grandezza determinano la profondità
che viene percepita.
La
figura 5.3.6 mostra degli esempi.
Per avere l'esperienza percettiva adeguata con gli stereogrammi
è necessario che entrambi gli occhi registrino
un'immagine diversa e che quindi il cervello fonda queste
due immagini distinte in una sola. Esistono due modi
per ottenere l'effetto: il "metodo della convergenza
crociata" e quello della "convergenza non
crociata".
Utilizzando il primo, bisogna incrociare gli occhi fino
a "vedere" una terza immagine in mezzo alle
due presentate. Questa terza "immagine" avrà
le caratteristiche proprie della profondità in
quanto deriva dal processo di fusione del cervello,
reso possibile dall'aggiustamento operato sulla convergenza.
Nel secondo procedimento, senza incrociare gli occhi,
è necessario semplicemente aggiustare la distanza
dall'osservatore alle due immagini, finchè tra
di esse verrà percepita la terza immagine, frutto
della fusione delle prime due.
5.3.2
IL
PROBLEMA DELLA CORRISPONDENZA.
Il problema della corrispondenza è quello di
determinare quali caratteristiche in un'immagine retinica
corrispondono a caratteristiche nell'altra.
Per
molti anni i teorici hanno ritenuto che questo problema
venisse risolto da una specie di analisi della forma
che veniva prima della stereopsi. L'ambiguità
deriva dal fatto che un punto luminoso tra migliaia
di punti debba corrispondere ad un altro punto, sempre
rintracciabile tra migliaia di altri, nella retina opposta.
Questa ambiguità può essere enormemente
ridotta se consideriamo la teoria per cui l'analisi
della forma venga per prima, indipendentemente, in ogni
occhio e solo successivamente si abbia la fusione delle
due immagini monoculari. Figura 5.3.7 B.
STEREOGRAMMI DI TIPO "RANDOM DOT".
Bela
Julesz (1971), cercò di verificare la teoria
secondo cui viene elaborata prima la forma costruendo
quelli che chiamò stereogrammi "random dot"
(=a punti casuali).
Si tratta di una coppia di immagini formate da migliaia
di puntini distribuiti casualmente il cui spostamento
laterale produce una convincente percezione di profondità
quando vengono visti in modo stereoscopico cioè
quando un'immagine stimola un occhio e l'altra immagine
stimola l'altro. La figura 5.3.8 mostra un esempio di
queste coppie di immagini da cui dovrebbe emergere un
quadrato che fuoriesce dalla pagina.
Quando
ogni immagine di questo stereogramma viene vista da
sola, i punti sembrano distribuiti casualmente nel senso
che non è presente una forma globale. Secondo
la teoria della forma riguardo alla corrispondenza stereoscopia
dovrebbe essere impossibile percepire la profondità
focalizzando le immagini "random- dot" stereoscopicamente
perché questa teoria assume che la corrispondenza
deve essere basata su una informazione monoculare riguardante
una figura riconosciuta.
Dal
momento che non ci sono figure monoculari da essere
accoppiate nelle due immagini retiniche, la conclusione
è che questa teoria non è corretta.
Il
sistema stereoscopico sembra capace di risolvere il
problema della corrispondenza senza l'informazione monoculare
sulla forma perché gli stereogrammi di Julesz
contengono solo una piccola o nessuna informazione sulla
forma. E' importante non esagerare la conclusione raggiunta,
il fatto che le persone possono percepire la profondità
in questi stereogrammi non prova che non c'è
una analisi della forma precedente alla stereopsi. Mostra
solo che la profondità stereoscopia può
essere percepita senza l'informazione monoculare della
forma.
AUTOSTEREOGRAMMI.
Un altro tipo di stereogrammi, diventato popolare negli
ultimi anni non richiede particolari apparecchiature
per essere visto. Tyler e Chang (1967) li hanno chiamati
autostereogrammi, ma sono più conosciuti come
stereogrammi "magic eye". La figura 5.3.12
mostra un esempio.
L'illusione di profondità viene creata quando
i due occhi fissano due oggetti dversi e li fondono
come fosse lo stesso oggetto. Incrociando i tuoi occhi
puoi fare in modo che il tuo sistema visivo fissi oggetti
diversi con i due occhi. Gli oggetti nella stessa traiettoria
sono identici per forma e rendo possibile il verificarsi
di questo "errore di fusione". Infatti, quando
vengono fissati, essi appaiono come un singolo oggetto
nel piano della profondità sul quale gli oggetti
convergono (questo piano sta davanti a quello reale)
La figura 5.3.13 è un autostereogramma molto
semplice se paragonato al primo creato dal computer,
ma i principi di base sono gli stessi; superfici sempre
più complesse possono essere costruite usando
dense strutture di elementi casuali.
RIVALITÀ BINOCULARE,
Immagini
diverse nei due occhi appaiono all'osservatore che guarda
solo un'immagine alla volta; questo fenomeno è
conosciuto come rivalità binoculare o soppressione
binoculare. Tu puoi sperimentare la rivalità
binoculare guardando la figura 5.3.15 e usando il metodo
della convergenza crociata o non crociata. Fondere le
immagini in un singolo, stabile oggetto percepito è
quasi impossibile, ma guardando per un po' si può
notare come l'immagine percepita cambi, in diverse aree
del quadrato e in tempi diversi. Questa alternanza presumibilmente
accade perché i neuroni responsabili di una percezione
si affaticano dopo una stimolazione prolungata, lasciando
il posto alla percezione dei neuroni non affaticati.
La rivalità binoculare sembra un fenomeno innaturale
tuttavia ci sono molti casi in cui condizioni normali
producono immagini diverse su punti corrispondenti della
retina, soprattutto quando esiste una grande disparità
tra punti corrispondenti delle immagini. Dato che raramente
percepiamo le immagini doppie, una spiegazione è
che la rivalità binoculare è al lavoro,
permettendo la percezione di una singola immagine sotto
condizioni che dovrebbero far risultare due immagini
disparate.
5.3.3
TEORIE
COMPUTAZIONALI
Ritorniamo
a una questione precedente: come può il sistema
visivo risolvere il problema della corrispondenza negli
stereogrammi "random-dot" quando non c'è
informazione sulla forma globale?
Esistono teorie computazionali diverse per questo problema
di corrispondenza alcune collegano punti individuali
(pixel), altre linee e bordi, altre ancora collegano
regioni localizzate di una forma con un'altra.
IL PRIMO ALGORITMO DI MARR E POGGIO.
Un
interessante e conosciuto algoritmo è stato progettato
da David Marr e Tomasso Poggio nel 1977. È un
esempio interessante di come una rete neurale dinamica
può essere costruita per risolvere un difficile
compito visivo. È anche un buon esempio di come
le assunzioni euristiche possono essere implementate
in queste reti. L'idea base di questo algoritmo è
quella di risolvere il problema della corrispondenza
accoppiando pixels individuali nelle immagini di destra
e di sinistra. Il punto di partenza per capire come
questo viene fatto è il concetto di proiezione
inversa dalle due immagini retiniche verso il mondo
esterno, come si vede in figura 5.3.16. Questo diagramma
mostra una vista dall'alto di due superfici a strisce
nero-bianco nell'ambiente, una piccola e situata davanti
a una più grande, come mostrato in alto. La luce
riflessa da queste superfici viene registrata nelle
immagini retiniche a sinistra e a destra. Per formare
una proiezione inversa ogni pixel di queste immagini
deve essere proiettato indietro in un'immagine ambientale
riflessa, mostrata sotto. Le celle ombreggiate in questa
matrice rappresentano posizioni nelle quali ci sono
colori accoppiati tra i pixel nelle due immagini. I
punti sono accoppiati (e ombreggiati) se entrambi i
pixel sono bianchi o entrambi sono neri; non vengono
accoppiati (e non sono ombreggiati) se uno è
bianco e l'altro è nero. Tra questi numerosi
accoppiamenti ce ne sono alcuni corretti che corrispondono
alla porzione visibile della superficie reale nel mondo
reale. Queste coppie sono più scure nella figura
5.3.16 per differenziarle dai falsi accoppiamenti. Il
fatto che ci sono sia coppie false che vere riflette
il fatto che questo problema inverso è forzato,
e ha molte possibili soluzioni. Il problema per il sistema
visivo è determinare quali accoppiamenti sono
corretti e quali no. Marr e Poggio hanno proposto una
rete neurale dinamica capace di portare a termine questo
compito (fig 5.3.17). Questo mostra le immagini di destra
e di sinistra della figura 5.3.16 che attivano nodi
interni in una rete neurale, che rappresenta l'insieme
di tutte le possibili corrispondenze. Così ogni
nodo rappresenta un potenziale accoppiamento tra due
pixel. Solo le intersezioni che provengono dai pixel
di uguale colore sono accoppiamenti possibili perché
solo i pixel che vengono proiettati dallo stesso punto
nell'ambiente devono avere lo stesso colore. Questi
colori accoppiati costituiscono il maggior vincolo nella
risoluzione del problema della corrispondenza perché
tutti i nodo bianchi possono essere eliminati dalla
considerazione. Accoppiandoli in base al colore non
possiamo giungere ad un'unica soluzione del problema
della corrispondenza perché ci sono ancora molti
accoppiamenti di colore per ogni punto nelle immagini
sinistra e destra. Bisogna trovare ulteriori euristiche
in grado di portarci a una formulazione del problema
che ci porterà a un'unica corretta soluzione.
Marr e Poggio hanno proposto due ulteriori euristiche:
1.
Opacità della superficie: la costrizione (ostacolo)
data dall'opacità stabilisce che, poiché
la maggior parte delle superfici nel mondo sono opache,
può essere vista solamente quella più
vicina.
2. Continuità della superficie: la costrizione
della continuità stabilisce che, poiché
le superfici nel mondo tendono ad essere localmente
continue in profondità, la corretta soluzione
sarà quella in cui gli accoppiamenti sono "vicini
insieme" (fusi, uniti) nella profondità,
come se fossero situati su di una superficie continua.
Queste
euristiche di solito sono vere ma non sempre; se sono
vere la soluzione trovata dall'algoritmo sarà
corretta. Marr e Poggio hanno implementato questi due
vincoli nelle connessioni tra nodi di una rete neurale
nella fig 5.3.17. Il modello lavora attivando inizialmente
tutti i nodi nella rete di intersezione che rappresenta
i pixel colorati nelle immagini destra e sinistra. I
nodi ombreggiati indicano che sono stati attivati nella
fase iniziale dell'algoritmo. Questo set di possibili
corrispondenze è soggetto ai vincoli di opacità
e continuità a causa delle connessioni tra i
nodi nella rete. L'opacità è implementata
da un'inibizione reciproca tra tutti i nodi lungo la
stessa linea di vista nella rete. Questa parte di architettura
è chiamata "winner-take-all network"
(rete del tipo chi vince prende tutto) perché
fa in modo che solo un nodo in ogni linea diagonale
rimanga attivo dopo che l'attivazione ha raggiunto uno
stadio stabile. Il vincolo di continuità è
implementato nella rete da una eccitazione reciproca
tra i pixel negli stessi o nei vicini piani di profondità.
Queste interazioni tra i nodi sono indicate in figura
da connessioni orizzontali più dense.
Corrispondenze
possibili nello stesso piano di profondità tendono
ad attivarsi l'un l'altra mediante reciproca facilitazione.
L'effetto congiunto di questi due vincoli è di
ridurre il set di possibili accoppiamenti a un singolo
set compatibile con:
1.
L'informazione di disparità disponibile nell'immagine
sensoriale;
2. Il vincolo di opacità;
3. Il vincolo di continuità.
La
rete manda attivazione e inibizione avanti e indietro
attraverso la connessioni eccitatorie e inibitorie finché
non raggiunge uno stato di equilibrio. Lo stato finale
della rete di solito corrisponde al reale stato di cose
nell'ambiente. Questo significa che, dopo l'iniziale
stadio in cui l'attivazione coinvolge gli elementi che
coincidono per colore, si ha l'effetto dei vincoli di
opacità e continuità con l'interazione
eccitatoria o inibitoria dei neuroni.
Questo
algoritmo è un esempio interessante di come un
processo di inferenza inconscia può essere implementato
in una rete neurale. Un insolubile problema inverso
è stato risolto introducendo delle assunzioni
euristiche che portano soluzioni corrette quando sono
vere. In questo caso il problema è di trovare
corrette corrispondenze in uno stereogramma "random-dot",
viene risolto facendo certe assunzioni riguardo alla
struttura delle superfici nel mondo come ad esempi che
sono opache e continue. Queste assunzioni sono euristiche
perché sono solo probabilisticamente vere. Così
l'algoritmo è un esempio di come l'inferenza
inconscia può essere compiuta nella percezione
senza usare deduzioni basate su calcoli numerici o logica
simbolica.
Questo
algoritmo è anche un esempio di reti neurali
dinamiche come Gestalt fisiche. I Gestalisti ritengono
che il minimo stato di energia rifletta il principio
di Pregnanza: cioè che il percepito sarà
tanto "buono" o "semplice" quanto
lo permettono le condizioni prevalenti. Esso propone
che la base per scegliere tra diverse interpretazioni
sia data dalla bontà o dalla semplicità
delle alternative. Anche nell'algoritmo di Marr e Poggio
si nota questo principio.
ALGORITMI
BASATI SUI BORDI
Dopo
la pubblicazione del primo algoritmo, Marr e Poggio
(1979) hanno proposto un secondo algoritmo che differisce
dal primo in alcuni aspetti importanti:
1.
Accoppiamento basato sui bordi: questo secondo algoritmo
trova corrispondenze stereoscopiche accoppiando bordi
invece che pixel nelle due immagini destra e sinistra.
Questo è più efficiente perché
permette di ricavare un tipo di informazione che non
è disponibile quando si accoppiano pixel individuali.
I bordi che non si accoppiano per orientamento e polarità
possono non essere considerati; abbiamo un ulteriore
vincolo nella soluzione.
2. Scale multiple: questo secondo algoritmo usa canali
di grandezza multipla ( o scala, o frequenza spaziale)
nel sistema visivo, iniziando col cercare bordi corrispondenti
su larga scala e successivamente su scala ridotta. Questo
significa che l'elaborazione su larga scala questa volta,
non lavora con punti individuali, ma con regioni più
grandi dell'immagine.
3. Operazione in un singolo passo: questo algoritmo
non richiede molti cicli di interazione, semplicemente
trova la migliore corrispondenza basata sui bordi in
un singolo passo attraverso un'operazione multistadio.
L'implementazione di questo secondo algoritmo è
più veloce del primo.
Molti
dei benefici di questo algoritmo derivano dal fatto
che l'operazione di accoppiamento viene effettuata sull'output
dei rilevatori di bordi piuttosto che su pixel individuali.
Questo è più plausibile dal punto di vista
biologico perché l'elaborazione binoculare inizia
nell'area V1 della corteccia, dopo che gli output dei
recettori individuali sono stati ricombinati in aree
percettive più complesse della corteccia.
Questo secondo algoritmo è più vicino
ai risultati di esperimenti psicofisici con soggetti
umani. Purtroppo ci sono importanti risultati che nessuno
dei due algoritmi riesce a spiegare. Un problema è
dato dal fatto che è scarsa l'informazione di
profondità perché l'algoritmo basato sui
bordi specifica le corrispondenze solo ai bordi. Questo
non è il caso dell'algoritmo basato sui pixel
che specifica una densa corrispondenza per ogni pixel
nell'immagine. Nel secondo algoritmo l'informazione
di profondità che riguarda gli spazi tra i bordi
deve essere ricavata con processi additivi di interpolazione
(elaborazione).
ALGORITMI BASATI SUL CONCETTO DI FILTRO.
Più recentemente Jones e Malik (1992) hanno proposto
un algoritmo che accoppia regioni locali intorno al
punto in questione.
Non accoppia regioni locali dell'immagine direttamente,
perché sarebbe troppo costoso in termini computazionali.
Piuttosto questo algoritmo è basato sull'accoppiamento
dell'output di una serie di filtri spaziali che differiscono
nella loro risposta alla misura e all'orientamento.
Jones e Malik hanno capito che l'output di questi filtri
a multiorientamento e a multiscala (MOMS) veramente
provvedono ad ottenere un più efficiente punto
di inizio per l'accoppiamento in stereo rispetto ai
pixel individuali o ai bordi orientati. Essi non prendono
posizione riguardo all'esatta natura dei campi recettivi
che potrebbero essere funzioni Gabor,funzioni sinusoidali
funzioni differenziali di Gauss o altre possibilità.
Il punto di partenza di questa teoria è il fatto
che ci sono molte cellule in una singola colonna corticale
i cui campi recettivi sono centrati sulla stessa posizione
della retina, ogni cellula risponde diversamente a diversi
orientamenti e diverse misure.
Il pattern di attività in questa ipercolonna
di cellule può essere modellato matematicamente
come un vettore: un set ordinato di numeri corrispondenti
a lle stimolazioni di ognuna di queste cellule.
Il
vettore contiene una ricca rappresentazione della struttura
spaziale in una regione centrata in quella posizione.
La figura 5.3.19 mostra due esempi nei quali la posizione
è il centro delle immagini a sinistra.
Le immagini a destra mostrano la ricostruzione della
informazione spaziale nel vettore che rappresenta l'out
put di circa 60 cellule in una ipercolonna ipotetica.
Chiaramente queste cellule catturano una grande quantità
di informazioni riguardo alla struttura spaziale dell'immagine
nelle vicinanze della posizione centrale.
Il cuore di questo modello MOMS è il processo
di accoppiamento del vettore che rappresenta un punto
dato in un occhio con ognuno dei vettori che rappresentano
posizioni spostate lateralmente nell'altro occhio. La
cosa importante è che la posizione spostata lateralmente
nell'altro occhio che ha il vettore più simile
specifica la corrispondenza più probabile per
quella posizione. Quando si ha uno stesso paragone per
tutte le posizioni ad ogni possibile disparità,
il risultato ci porta a una ben definita soluzione del
problema della corrispondenza. Gli accoppiamenti che
trova questo algoritmo sono di solito migliori di quelli
trovati dall'algoritmo basato sui pixel e da quello
basato sui bordi perché i vettori MOMS ci danno
molto in dettaglio informazione spaziale riguardo alla
struttura dell'immagine locale.
Come risultato si evince che tutte queste teorie incontrano
delle difficoltà nella risoluzione degli stereogrammi
di tipo "random dot", per quanto riguarda
la risoluzione di superfici che si presentano localmente
discontinue. Esistono dei problemi da risolvere per
le teorie computazionali della corrispondenza, come
per esempio il fatto che il sistema visivo umano sia
in grado di raggiungere la percezione stereoscopica
mediante la fusione dei contorni di luminanza in un
occhio con la tessitura o i contorni di colore nell'altro
occhio. Di sicuro, per poter venire a capo di tali dilemmi,
sono necessarie del concettualizzazioni di tipo astratto
che prendano in considerazione livelli più alti
di elaborazione.
5.3.4
MECCANISMI
FISIOLOGICI.
Il
fatto che la visione umana sia migliore di qualunque
altro schema computazionale per la stereopsi rende necessario
capire come il cervello umano lo fa.
La
risposta non è conosciuta in dettaglio ma sono
stati scoperti dei fatti interessanti. Le prime cellule
sensibili alla binocularità furono scoperte da
Hubel e Wiesel (1962) mediante la registrazione nell'area
V1 della corteccia dei gatti. Essi trovarono delle cellule
che rispondevano maggiormente se stimolate con lo bordo
in entrambi gli occhi simultaneamente piuttosto che
quando tale caratteristica stimolava solo un occhio.
Comunque le cellule trovate nell'area V 1 sembrano essere
regolate in base a caratteristiche che appaiono in posizioni
corrispondenti nelle retine dei due occhi, piuttosto
che a posizioni differenti binocularmente.
Così, sebbene queste cellule fossero binoculari,
non sembravano sensibili alla disparità binoculare.
Alcuni anni dopo Barlow, Blakemore e Pettigrew (1967)
trovarono che alcune cellule binoculari in area V 1
rispondevano in modo ottimale alla stimolazione in punti
disparati delle due retine.
Un'ulteriore
ricerca di Hubel e Wiesel (1970) questa volta sulle
scimmie ha confermato i loro primi risultati cioè
che le cellule in V 1 erano sensibili ad una disparità
pari a 0 o quasi 0. Hanno anche riportato un ulteriore
conferma del fatto che le cellule in V 2 rispondono
ottimamente alla presenza delle caratteristiche della
stessa immagine in posizioni ad una distanza relativamente
grande. La disputa tra questi ricercatori riguardo alla
diversa risposta delle cellule binoculari risulta essere
il risultato di una serie di difficoltà metodologiche.
Forse la più affascinante interpretazione di
questi risultati è che due sistemi fisiologici
separati siano coinvolti nella percezione stereoscopica
della profondità: uno situato nell'area V1, altamente
sensibile a disparità piccole o nulle. L'altra
localizzata in area V 2, sensibile a grandi disparità.
5.3.5
DISPARITA'
VERTICALE.
Esiste
anche la disparità binoculare verticale, sebbene
non abbia ricevuto molta attenzione fino a poco tempo
fa. Forse è più facile capire perché
la disparità verticale è presente nelle
immagini binoculari se si considerano le differenze
in dimensioni che esistono tra le immagini dello stesso
oggetto nei due occhi. La figura 5.3.22 A mostra una
visione geometrica della situazione per un oggetto target
che sta a destra dell'osservatore. Se entrambi gli occhi
fissano il centro dell'oggetto target l'immagine nell'occhio
destro sarà più grande di quella dell'occhio
sinistro perché l'occhio destro è più
vicino.
5.3.6
STEREOPSI
DI dA VINCI.
C'è
un ulteriore fonte di informazione strereoscopica; riguarda
il fatto che nella visione binoculare di superfici a
diverse profondità c'è di solito una parte
della superficie più lontana che è vista
solo da un occhio. Questo sta a indicare che nel caso
di regioni "viste" da un solo occhio non può
esserci un'adeguata soluzione al problema della corrispondenza,
semplicemente perché non ci sono punti corrispondenti
nell'immagine dell'altro occhio. La figura 5.3.23 mostra
un esempio: Nakayama e Shimojo (1990) hanno chiamato
questa forma di informazione di profondità stereopsi
di da Vinci in onore di Leonardo da Vinci. L'informazione
di profondità deriva dalla geometria visiva (visibile)
adiacente ai bordi occludenti la profondità.
La regione vista monocularmente è sempre parte
di una superficie più lontana. Se questa regione
vista monocularmente è presente nell'immagine
di destra necessariamente si troverà immediatamente
a destra del bordo occludente (bordo appartenente alla
superficie più vicina all'osservatore, cioè
quello che determina geometricamente l'area occlusa,
nascosta, all'occhio opposto, in questo caso il sinistro);
se la regione visibile monocularmente è situata
nell'immagine sinistra (cioè l'immagine la cui
proiezione cade sulla retina sinistra) si troverà
a sinistra del bordo occludente. Questi ricercatori
hanno dimostrato sperimentalmente questa forma di stereopsi;
Hanno trovato che produce la percezione prevista di
profondità relativa quando viene presentata in
modo appropriato appena descritto, ma non quando le
relazioni geometriche vengono invertite artificialmente.
5.4
INFORMAZIONE
DINAMICA
L'informazione
visiva dinamica si riferisce ai cambiamenti nella struttura
visiva che accadono a causa di certi tipi di movimento
di immagine, chiamati da Gibson "optic flow"
(= il fluire, lo scorrere ottico). Quando un osservatore
si muove rispetto all'ambiente, la direzione e la velocità
alle quali differenti oggetti vengono rappresentati
sulla retina non solo dal movimento dell'osservatore
ma anche da quanto sono lontani questi oggetti e da
dove si trova l'osservatore. L'informazione di profondità
a partire dal movimento deriva dalla parallasse di movimento:
la differenza di movimento di una coppia di punti dovuta
alla loro diversa profondità relativa al punto
di fissazione.
5.4.1
PARALLASSE
DI MOVIMENTO.
Nota: parallasse= angolo sotto cui si vede un corpo
osservato da due punti di vista diversi. Fenomeno per
cui quando un oggetto è visto da due luoghi diversi
sembra cambiare posizione rispetto agli oggetti più
lontani.
La parallasse di movimento è strettamente legata
alla disparità binoculare; nel caso della disparità
binoculare l'osservatore, stando fermo, compara l'immagine
retinica di destra con quella di sinistra mentre entrambe
sono normalmente disponibili nello stesso momento. Nel
caso della parallasse di movimento, invece, l'osservatore
si muove e compara una prima immagine con una che viene
dopo. Perciò, mentre la disparità binoculare
coinvolge la differenza tra una coppia di immagini retiniche
che si trovano spostate l'una rispetto all'altra, mentre
però sono disponibili nello stesso momento, la
parallasse di movimento coinvolge la differenza tra
una coppia di immagini retiniche spostate in modo sequenziale,
ossia una prima dell'altra. Esperimenti controllati
hanno mostrato che la parallasse di movimento è
sufficiente per percepire la profondità quando
non è presente nessun altra forma di informazione,
ma solo se l'informazione spaziale è sufficientemente
ricca e complessa.
La
natura della parallasse di movimento nella retina dipende
non solo dalla distanza rispetto all'oggetto ma anche
dal punto di vista dell'osservatore.
Normalmente è difficile percepire la parallasse
di movimento; oggetti stazionari nell'ambiente sono
percepiti come stazionari anche se le loro immagini
nella retina si muovono mentre si muovono gli occhi
rispetto a loro.
Questa tendenza a percepire la reale posizione degli
oggetti nell'ambiente nonostante i cambiamenti nella
loro posizione nella retina viene chiamata "costanza
di posizione".
La
parallasse di movimento è anche simile alla disparità
binoculare per il fatto che fornisce informazione relativa
sulla profondità. Non specifica la reale distanza
da un oggetto, ma solo quanto è più vicino
o più lontano rispetto all'oggetto fissato. Ma
al contrario della disparità, la parallasse fornisce
informazioni di profondità anche su oggetti situati
a grandi distanze.
5.4.2
FLUSSO
OTTICO DETERMINATO DAL MOVIMENTO DI UN OSSERVATORE.
In
naturali condizioni percettive, la parallasse di movimento
di due punti isolati avviene di rado. Come Gibson (1966)
ha enfatizzato nei suoi importanti lavori, gli osservatori
di solito si muovono ed esplorano attivamente ambienti
disordinati, occupati in diverse attività che
fanno emergere complessi pattern di flusso ottico.
Gibson ha intuito, abbastanza correttamente, che il
movimento dell'immagine risultante dal movimento dell'osservatore
non è caotico, ma altamente strutturato in un
modo che dipende precisamente sia dalla disposizione
delle superfici nell'ambiente 3 - D sia dal movimento
dell'osservatore. Ha anche capito che questo pattern
globale di flusso ottico può essere usato per
percepire la posizione spaziale delle superfici. I cambiamenti
sistematici nel movimento dell'immagine che avvengono
sopra regioni estese di flusso ottico ambientale chiamati
da Gibson gradienti di movimento, per enfatizzare il
fatto che spesso sono cambiamenti graduali nella velocità
e nella direzione. La figura 5.4.2 mostra degli esempi;
si vedono i punti di un'immagine che cambiano a causa
del movimento dell'osservatore .
Un
altro pattern di flusso ottico preso in considerazione
da Gibson è l'espansione ottica o "looming",
come illustrato in figura 5.4.2B. Si ha quando un osservatore
si muove direttamente verso una superficie nel piano
frontale fissando il punto verso il quale si dirige.
Per esempio l'espansione oculare si presenta quando
camminiamo verso un muro e guardiamo dritto in avanti.
Il punto fissato è sempre stazionario sulla retina
e gli altri punti della superficie scorrono esternamente
ad una velocità che aumenta se aumenta la distanza
dal punto di fissazione sul piano frontale.
Questi
gradienti di movimento sono solo dei casi speciali di
semplici pattern di flusso ottico che si creano da movimenti
molto semplici rispetto a una singola superficie ambientale.
Pattern di flusso ottico diventano troppo complessi
quando la situazione si avvicina alle condizioni naturali.
Un complicato flusso è causato da cambiamenti
nella direzione dello sguardo.
I
pattern realistici che producono il flusso ottico nel
corso di normale attività in normali situazioni
ambientali sono così complessi che non possono
essere catalogati in termini di tipi semplici; la loro
struttura può essere scoperta solo con sofisticate
analisi matematiche.
5.4.3
FLUSSO
OTTICO PROVOCATO DA MOVIMENTI DEGLI OGGETTI.
L'informazione
di profondità riguardo a oggetti specifici diventa
disponibile non solo quando l'osservatore si muove rispetto
ad essi, ma anche quando essi si muovono rispetto all'osservatore.
Se differenti parti dell'oggetto sono posizionate a
differenti distanze dall'osservatore e se queste parti
cambiano la loro distanza relativa all'osservatore durante
il movimento, allora ci sarà movimento relativo
tra i punti della superficie dell'oggetto quando questo
si muove. Questo movimento relativo fornisce informazione
riguardo a quali punti della superficie sono più
vicini e quali più lontani. Questa abilità
di percepire la profondità dal movimento dell'oggetto
fu dimostrata da Wallach e O'Connell (1953) in un fenomeno
chiamato effetto cinetico di profondità (KDE).
La figura 5.4.3 mostra questo effetto; un oggetto 3
- D è illuminato da dietro, e la sua ombra si
proietta su uno schermo translucido visto da un osservatore.
Quando è stazionario sembra una figura piatta
bidimensionale, ma se ruota l'oggetto ruotante è
percepito in tre dimensioni.
Quando
le condizioni di stimolazione sono logicamente sottodeterminate
il sistema visivo deve implicitamente o esplicitamente
compiere delle assunzioni addizionali per raggiungere
un'interpretazione. In questo caso sembra che il sistema
visivo usi una euristica della rigidità: una
tendenza verso la percezione di movimenti rigidi piuttosto
che verso deformazioni plastiche, che fa sì che
la stimolazione sensoriale sia consistente con l'interpretazione.
Perché il sistema visivo è più
disposto selettivamente a percepire movimenti rigidi
piuttosto che plastici? La risposta più ovvia
è quella empirica: movimenti rigidi sono più
probabili dei corrispondenti movimenti plastici se il
movimento dell'immagine è consistente con un
movimento rigido. I teorici della Gestalt giungerebbero
alla stessa conclusione applicando il principio della
Pregnanza: il sistema visivo preferisce le interpretazioni
più semplici date da prevalenti condizioni di
stimolazione.
L'interpretazione
"rigida" può essere considerata più
semplice perché non induce cambiamenti nella
forma dell'oggetto e così è più
facile rappresentarlo ed elaborarlo. Questo è
un altro esempio del fatto che i principi di probabilità
e di pregnanza predicono la stessa cosa.
5.4.4
COMPARSA
E SCOMPARSA DI TESSITURA.
Un'ulteriore
fonte di informazione di profondità proviene
dagli eventi provocati dal movimento dell'immagine:
la comparsa e la scomparsa di tessitura dietro a un
bordo in movimento. Il bordo appartiene necessariamente
alla superficie più vicina e la tessitura che
appare e scompare alla superficie più lontana.
Quando il movimento della figura più vicina viene
a cessare, infatti, i bordi di quest'ultima non risultano
più tali e la trama della figura viene inglobata
in quella dello sfondo, dando origine a un oggetto percepito
come unitario e non più come due oggetti posizionati
a distanze diverse dall'osservatore.
La comparsa e la scomparsa (aggiunta e cancellazione)
di tessitura dovuta all'osservatore in moto sono in
relazione con la stereopsi di da Vinci, allo stesso
modo in cui la parallasse di movimento è correlata
alla disparità binoculare. Ossia: "accretion"
e "deletion" della tessitura sono fonti dinamiche,
non statiche, di informazione sulla profondità,
informazione questa ottenibile in tempi diversi; e concettualmente
è uguale a dire che l'informazione statica è
rintracciabile binocularmente attraverso lo spazio nelle
stereopsi di da Vinci.
5.5
INFORMAZIONE
PITTORICA.
Sebbene
la visione stereoscopia e il movimento producano irresistibili
esperienze di profondità, non significa che siano
le uniche fonti da cui ricavare questa informazione.
Ulteriori fonti di informazione di profondità
sono raggruppate sotto il nome di informazione pittorica
perché sono tutte potenzialmente in disegni statici
visti monocularmente. L'informazione pittorica può
essere molto potente; infatti spesso abbiamo una buona
percezione di profondità in disegni 2 D.
5.5.1
PROIEZIONE
IN PROSPETTIVA.
Nel
capitolo 1 abbiamo parlato del fatto che la luce viaggia
in linea retta ed è riflessa sulla retina dalle
superfici ambientali. La geometria meglio applicabile
a questo processo si chiama proiezione in prospettiva
e produce profonde differenze tra gli oggetti nel mondo
reale e le immagini ottiche nelle retine.
La
più ovvia di queste differenze sta nella dimensionalità:
oggetti tridimensionali producono immagini bidimensionali.
La dimensione persa è la profondità.
Fortunatamente
le immagini bidimensionali formate dalle proiezioni
in prospettiva contengono un gran numero di informazioni
riguardo a questa dimensione "persa" che può
essere recuperata anche se non perfettamente.
L'importanza
della proiezione in prospettiva per la percezione della
profondità fu scoperta quando un artista tentò
di dipingere la profondità in modo realistico
su delle tele piatte. Nel 1436 un artista di nome Alberti
descrisse un metodo per disegnare dei quadri in prospettiva
che rivoluzionò la rappresentazione artistica
della profondità. L'idea base è semplice
come mostrato in figura 5.5.2. Per disegnare una scena
tridimensionale su una tela bidimensionale è
necessario solamente ricreare l'immagine che passerebbe
attraverso una finestra piatta messa al posto delle
tele. Prendendo questa idea letteralmente l'informazione
di profondità può essere catturata su
una superficie bidimensionale tracciando i contorni
degli oggetti su una pannello di vetro mentre si osserva
la scena attraverso il vetro stesso, da una posizione
vantaggiosa . Se il vetro viene poi messo sopra una
superficie bianca uniforme e guardato monocularmente
dalla stessa posizione relativa la linea disegnata ricreerà
la profondità pittorica.
Questa tecnica è chiamata finestra di Alberti.
5.2.2
CONVERGENZA
DI LINEE PARALLELE.
Un
importante fatto che riguarda la proiezione in prospettiva
è che le linee parallele nell'ambiente tridimensionale
di solito non vengono proiettate come linee parallele
nell'immagine bidimensionale, ma come linee che convergono
in un punto che svanisce nella linea dell'orizzonte
(vanishing point).
Figura 5.5.4
Questo
aspetto della proiezione in prospettiva è spesso
riferito alla prospettiva lineare (convergenza di linee
parallele).
Nella figura 5.5.5si può osservare l'uso del
"vanishing point" per produrre un realistico
senso di profondità.
5.5.3
POSIZIONE
DI UNA SUPERFICIE RELATIVA ALL'ORIZZONTE.
Un'altra
fonte pittorica di informazione di profondità
che deriva dalla proiezione in prospettiva è
l'altezza relativa all'orizzonte degli oggetti in un
disegno piano.
La figura 5.5.6 mostra una semplice scena in cui non
ci sono linee parallele che convergono in un punto all'orizzonte,
ma c'è una forte impressione di profondità.
Nella proiezione in prospettiva di una scena tridimensionale,
gli oggetti su un livello piano che sono più
vicini all'orizzonte, sono percepiti come più
lontani dall'osservatore.
Gli alberi in basso sembrano più vicini di quelli
in alto e anche le nuvole verso l'alto sembrano più
vicine di quelle più lontane in basso.
La ragione di queste percezioni è la disposizione
degli oggetti in un piano relativo alla linea dell'orizzonte.
La regola generale è che per tutti gli oggetti
su un piano quelli più vicini all'orizzonte vengono
percepiti come più lontani.
5.5.4
GRANDEZZA
RELATIVA.
A
parità di altre condizioni oggetti più
distanti proiettano immagini più piccole sulla
retina. La fig 5.5.8 illustra il perché. Quando
la luce proveniente da due oggetti identici posti a
diverse distanze viene riflessa nell'occhio, l'angolo
visivo sotteso dall'oggetto più vicino sarà
necessariamente più grande di quello sotteso
dall'oggetto più lontano. La relazione distanza-grandezza
ci dice che la grandezza dell'immagine retinica di un
oggetto (a) fornisce un importante informazione riguardo
alla distanza dall'osservatore (d). Ma c'è un
problema. Per risolvere questa equazione per la distanza:
la
reale grandezza di un oggetto (h) deve essere conosciuta,
e questa informazione non può essere ottenuta
facilmente dall'immagine retinica perché la grandezza
e la distanza dell'oggetto determinano insieme la grandezza
della sua immagine proiettata. Tu non puoi quindi dire
a partire dalla grandezza di un immagine se stai guardando
un oggetto più piccolo e vicino o uno più
grande e lontano (fig 1.2.9). Infatti c'è un
numero infinito di grandezze possibili dell'oggetto
per un immagine di una particolare grandezza nella retina.
Un'euristica usata dal sistema visivo assume che due
oggetti altrimenti identici abbiano la stessa grandezza
oggettiva cosi che le loro distanze relative possano
essere determinate dalle loro grandezze relative nell'immagine.
Questa situazione è un altro esempio di come
l'inferenza inconscia possa essere usata nella percezione
di profondità a partire dalla grandezza relativa.
5.5.5
GRANDEZZE
FAMILIARI.
Molti
oggetti tendono ad avere una grandezza caratteristica
o a variare entro una certa gamma di valori "familiari"
a coloro che li percepiscono. Questo è importante
perché se è conosciuta la grandezza di
un oggetto, l'equazione grandezza-distanza può
essere risolta determinando la reale distanza dall'osservatore.
L'equazione non viene risolta consciamente, è
un processo inconscio, rapido che accade automaticamente.
5.5.6
GRADIENTI
DI TESSITURA.
(Per texture si intende trama, superficie di un oggetto)
Un'altra
importante manifestazione della struttura della proiezione
in prospettiva per quanto riguarda la percezione di
profondità è quello che Gibson (1950)
ha chiamato gradienti di tessitura: cambiamenti sistematici
di forma e dimensione di piccoli elementi strutturali
che avvengono in molte superfici ambientali.
I gradienti di tessitura possono informare gli osservatori
sull'orientamento di una superficie in profondità
e sulla sua curvatura. Stevens (1979) ha dimostrato
che due aspetti della variazione strutturale (forma
e grandezza) forniscono indipendenti fonti d'informazione
sull'orientamento della superficie. La grandezza totale
degli elementi strutturali (di texture) diminuisce con
la distanza perché tutte le dimensioni diminuiscono
in rapporto all'aumento della distanza dal punto di
vista. La dimensione degli elementi può essere
usata per stimare la distanza relativa tra differenti
parti della superficie e fornire così l'orientamento
della superficie strutturata. Questo sarà vero
solo se gli elementi strutturali saranno della stessa
dimensione. Questo è un altro esempio di assunzioni
euristiche nella percezione di profondità, poiché
la conclusione percettiva sulla distanza dagli elementi
strutturali basata sulla grandezza della loro immagine
sarà accurata solo se gli elementi che formano
la tessitura saranno simili in grandezza. Infatti, se
questi elementi appartenenti alla trama della superficie
differiscono in grandezza, si avrà un ' "illusione"
di profondità (figura 5.5.12): elementi di grandezza
diversa danno l'impressione di profondità e forma,
seppur appartenendo a un'immagine bidimensionale; invece
oggetti visti nell'ambiente, cioè nello spazio
3 - D, hanno superfici la cui struttura è formata
da elementi uguali, che vengono percepiti come più
grandi o più piccoli in base alla reale distanza
dall'osservatore e in questo modo danno informazione
sulla profondità.
La forma proiettata degli elementi strutturali (cioè:
la grandezza ed la forma delle proiezione retiniche
di tali oggetti) può anche portare informazione
riguardo all'orientamento della superficie (fig 5.5.12).
Di nuovo questa informazione può essere recuperata
dall'immagine solo se le assunzioni addizionali riguardano
le forme reali degli elementi strutturali nell'ambiente.
Stevens usò l' "aspect ratio" (il rapporto
tra la dimensione più lunga e quella più
corta) degli elementi strutturali per stimare l'orientamento
degli stessi elementi e della superficie sulla quale
si trovano. La sua analisi si basa sull'assunzione che
le dimensioni degli elementi strutturali del mondo reale
sono approssimativamente uniformi sotto diversi orientamenti.
Kender
(1979) sviluppò altri algoritmi per stimare l'orientamento
della superficie a partire dalla forma strutturale facendo
assunzioni lievemente diverse: che gli elementi strutturali
sono per la maggior parte regolari, omogenei e simmetrici.
Witkin
(1981) propose un altro algoritmo basato sull'assunzione
che i bordi degli elementi strutturali tendono ad essere
distribuiti isotropicamente, cioè che la quantità
di contorno a diversi orientamenti sarà la stessa
o quasi. Questa è un'euristica utile quando gli
elementi strutturali isotropici sono visti tenendo conto
della "slant" i loro bordi allora non saranno
isotropici nell'immagine piana.
Piuttosto, i margini saranno inclinati nel senso dell'orientamento
di ognuno, orientamenti questi che sono perpendicolari
alla direzione del "tilt" a causa dell'accorciamento
anteriore lungo l'asse del "tilt".
I programmi per computer di Stevens, Kender, e Witkin
falliscono nella simulazione della percezione di superfici
che presentano strutture allungate come un prato o un
campo di grano. Essi assumono che le strutture allungate
degli elementi dell'immagine dipendano dal fatto che
essi sono inclinati in profondità non dal fatto
che sono semplicemente allungati. Se il sistema visivo
facesse lo stesso sbaglio sarebbe un punto a favore
di questa teoria, ma la gente fa raramente questo errore.
Malik
e Rosenholtz (1994) hanno proposto una migliore soluzione
computazionale a questo problema. Hanno progettato un
algoritmo per recuperare lo "slant "e il "tilt"
di piccoli pezzi della struttura di una superficie,
basato solo su una debole assunzione che gli elementi
strutturali sono approssimativamente gli stessi se ci
sono solamente piccoli spostamenti lungo la superficie.
Così assumono che tutti gli elementi strutturali
abbiano uguale forma e grandezza e differiscano solo
nella trasformazione nel piano strutturale. Questa assunzione
permette all'algoritmo di ottenere un vantaggio da tutte
le informazioni disponibili nella struttura senza ulteriori
vincoli.
5.5.7
INTERPRETAZIONE
DEI BORDI.
Un
tipo molto importante di informazione pittorica sulla
profondità viene dall'interpretazione di bordi
o contorni. Un semplice esempio, considerato nel cap
1, è dato dall'occlusione (o interposizione).
In fig 5.5.14, per esempio, la gente percepisce un quadrato
dietro ad un cerchio parzialmente occluso. Quello che
è realmente presente è una configurazione
2-D di regioni circondate da bordi, e noi percepiamo
questi bordi come se indicassero una relazione di profondità:
il cerchio è davanti al quadrato.
Come fonte di informazione di profondità, i bordi
hanno sia punti forti che punti deboli. I punti di debolezza
riguardano il fatto che l'informazione dei bordi è
relativa piuttosto che assoluta e qualitativa piuttosto
che quantitativa, così fornisce solo relazioni
ordinali di profondità. I punti di forza invece
riguardano il fatto che è capace di ottenere
l'informazione a partire da distanze virtualmente illimitate.
È solo necessario che gli oggetti siano visibili
e che quello più vicino, che occlude l'altro,
sia opaco.
CLASSIFICAZIONE
DEI VERTICI.
La
teoria computazionale dell'interpretazione dei bordi
è iniziata con il programma SEE di Guzman (1968,1969)
,che cercava di interpretare le linee di una semplice
configurazione di blocchi.(fig.5.5.15) Egli realizzò
che le intersezioni di bordi erano cruciali per determinare
quali bordi erano occlusi da altri.. Sviluppò
una classificazione standard dei bordi (o vertici o
giunzioni) :T's, Y's, K's, X's, L's e così via.
Le giunzioni T sonno quelle maggiormente collegate alle
situazioni di occlusione. La parte alta della T corrisponde
al bordo occluso e il gambo al bordo che occlude. Altri
tipi di giunzioni hanno diversi tipi di interpretazioni.
Questo programma ha lavorato molto bene considerando
le sue modeste basi teoriche.
Huffman e Clowes (1971) hanno proposto una completa
catalogazione dei tipi di vertici che provengono dalla
vista di angoli "triedici" (angoli solidi
circondati da tre facce piane) da ogni punto di vista.
Essi furono capaci di spiegare come dei vincoli locali
in ogni vertice e le loro rapporti riducono il numero
delle possibili interpretazioni di ogni bordo.
Molti programmi sofisticati sono in grado di interpretare
correttamente i bordi in quasi tutte le linee disegnate
e in semplici solidi geometrici.
QUATTRO
TIPI DI BORDI.
1.
Bordi di orientamento: si riferiscono ai luoghi dell'ambiente
nei quali ci sono discontinuità nell'orientamento
della superficie. Questo accade quando due superfici
di differente orientamento si incontrano lungo un bordo
nel mondo 3-D.
2.
Bordi di profondità: si riferiscono ai posti
dove c'è una discontinuità spaziale in
profondità tra le superfici; cioè i posti
nell'immagine dove una superficie occlude un'altra che
si trova dietro.
3.
Bordi di illuminazione: si formano dove c'è una
differenza nella quantità di luce che cade su
una superficie omogenea (come bordi creati da un'ombra,
da alta luminosità o da un punto luminoso. Fig.
5.5.16).
4.
Bordi di riflettanza: si formano quando c'è un
cambiamento nella luce riflessa da parti della superficie
di diverso materiale.
5.
Figura 5.5.16
DEFINIZIONI
DEI BORDI.
I
bordi di orientamento e di profondità negli oggetti
con superfici piatte si escludono reciprocamente. Se
un bordo nell'immagine è causato da due superfici
diversamente orientate che si incontrano, è un
bordo di orientamento; se è causato da una superficie
che occlude un'altra è un bordo di profondità.
Ogni bordo di una linea disegnata è o un bordo
di orientamento o un bordo di profondità. La
teoria deve scoprire un processo che classifica i bordi
nello astesso modo in cui la gente percepisce i bordi
della stessa scena.
I due tipi di bordi di orientamento sono chiamati convessi
e concavi, e forniscono importanti informazioni sulla
profondità del bordo relativo alla superficie.
1.
Bordi con orientamento convesso: si hanno quando due
superfici si incontrano lungo un bordo e circondano
un volume corrispondente a un angolo "diedrico"
minore di 180°.
2.
Bordi a orientamento concavo: si hanno quando due superfici
si incontrano lungo un bordo e circondano un volume
corrispondente a un angolo "diedrico" maggiore
di 180°.
Possiamo anche distinguere due tipi di bordi di profondità:
nel primo la superficie che occlude si trova da una
parte del bordo e nell'altro caso sta dall'altra parte.
I bordi di profondità vengono classificati con
delle punte dei frecce che corrono lungo il bordo; la
convenzione per questa direzione è la "regola
della mano destra". La freccia è cioè
rivolta nella direzione in cui la superficie più
vicina (quella che occlude) si trova a destra del bordo
nell'immagine. In altre parole, se immagini di muoverti
in avanti lungo il bordo nella direzione della freccia
la superficie più vicina è sempre alla
tua destra. Queste due possibili classificazioni per
ogni bordo di profondità si escludono reciprocamente,
poiché il bordo occludente può stare solo
da una parte. La corretta classificazione fornisce un'importante
classificazione dell'informazione di profondità
perché rivela quale superficie è più
vicina all'osservatore.
Abbiamo quindi 4 possibili classificazioni per ogni
bordo presente in una linea disegnata, che contiene
solo bordi di orientamento e profondità.
VINCOLI FISICI.
Huffmann
e Clowes hanno basato le loro analisi sul fatto che
non tutte le classificazioni possibili logicamente sono
possibili fisicamente. Hanno esaminato vincoli locali
ai vertici di oggetti "triedrici" e hanno
trovato che solo una piccola parte delle possibili classificazioni
logiche potevano essere fisicamente realizzabili.
Consideriamo per esempio tutte le possibili combinazioni
di "vettori" ( arrow=freccia
), in cui
tre bordi si congiungono a formare un angolo minore
di 180° nella superficie piana. Dato che ogni bordo
può essere classificato in rispetto di ognuna
delle quattro direzioni (descritte sopra), risulta esistere
4*4*4*=64 possibili classificazioni logiche per la congiunzione
di questi vettori. Ma i ricercatori hanno trovato che
solo tre di queste 64 classificazioni sono fisicamente
possibili.
Essi hanno evidenziato l'esistenza di ulteriori vincoli
che operano a un livello globale nell'interpretazione
dei bordi, risultanti dal fatto che, considerando solidi
i cui bordi delimitano superfici, ogni bordo ha un'interpretazione
costante lungo la sua intera lunghezza. I bordi convessi
non possono diventare concavi e quelli che risultano
occludenti dalla parte destra nono lo possono essere
dalla parte sinistra.
Imponendo vincoli fisici il numero di classificazioni
possibili si riduce drasticamente. Perciò, gli
unici oggetti per i quali è possibile considerare
tutte le possibili classificazioni logiche, sono quelli
cosiddetti "impossibili", ossia oggetti che,
disegnati, sembrano reali, ma sono fisicamente impossibili.
ESTENSIONI
E GENERALIZZAZIONI.
David Waltz (1975) ha ampliato le analisi di Huffmann
e Clowes includendo 11 tipi di bordi, come quelli provocati
da ombre e spaccature. Questa espansione ha fatto aumentare
il catalogo dei vertici fisicamente possibili a migliaia
di tipi, ma drasticamente diminuito il numero delle
interpretazioni possibili che può essere assegnato
a una data linea disegnata che cade nell'ombra.
Nonostante il suo successo l'algoritmo di Waltz non
si avvicina ai livelli di competenza umani perché
la sua applicazione è limitata a poliedri piani.
Non funziona per superfici curve o per oggetti che contengano
lastre sottili piuttosto che volumi.
L'analisi della classificazione dei bordi fu estesa
a oggetti curvi da Malik. La sua analisi richiede di
differenziare un nuovo tipo di bordo di profondità
chiamato bordo estremo o "limb", che si forma
quando una superficie si curva e occlude parzialmente
se stessa. I "limb" vengono etichettati con
doppie punte di freccia che corrono lungo il bordo nella
direzione per la quale la superficie occludente sta
a destra. Gli oggetti curvi creano delle complicazioni
perché il bordo fisico può avere diverse
interpretazioni in differenti punti lungo la sua estensione.
Barrow e Tennenbaum (1978) hanno messo in evidenza l'importante
fatto che quando un bordo occludente viene formato da
una superficie liscia, che occlude se stessa, l'orientamento
della superficie lungo il bordo può essere recuperato
con precisione. In ogni punto lungo il bordo estremo
la superficie è perpendicolare sia alla linea
di vista sia alla tangente della curva auto-occlusa,
come si vede in Fig. 5.5.24. I vincoli sono più
deboli per quanto riguarda gli altri bordi occludenti
e così devono essere fatte ulteriori assunzioni
per giungere a una soluzione unica. Questi due vincoli
specificano l'orientamento della superficie lungo i
bordi estremi come indicato dalle normali alla superficie.
Barrow e Tennenbaum hanno evidenziato altre due assunzioni:
1.
L'assunzione di levigatezza: si ha se un bordo occludente
nell'immagine è levigato e così il contorno
della superficie che lo produce. Questo non è
sempre vero, perché una superficie con bordi
discontinui può essere vista da un preciso angolo
dove il suo bordo proiettato sarà liscio nell'immagine
piana.
2.
L'assunzione del punto di vista generale: richiede che
il punto di vista sia generale, nel senso che piccoli
cambiamenti nel punto di vista non produrranno differenze
qualitative nell'immagine.
Date queste condizioni, Barrow e Tennenbaum mostrarono
che è possibile recuperare la forma tridimensionale
della superficie che occlude con una curvatura più
uniforme e con una torsione minima. Anche i bordi estremi
e altri bordi occludenti possono dare informazioni specifiche
circa l'orientamento delle superfici curve ai propri
margini. In questo caso, i teorici hanno postulato un
processo di interpolazione reso dalla superficie che
si "adatta" in modo migliore e che passa attraverso
i punti dati minimizzando un qualche tipo di quantità
energetica. Questa è una metafora del trovare
una sottile superficie o membrana che va lungo i punti
dati con l'orientamento appropriato e che richiede quindi
una forza minima per essere ricondotta nella data forma.
Queste analisi computazionali identificano l'informazione
ottenibile dalle immagini 2 - D come interpretazione
dei bordi esistenti nel mondo 3 - D, ma no mostrano
come le persone giungano a tale interpretazione.
5.5.8
INFORMAZIONI RIGUARDANTI L'OMBREGGIATURA.
Un'altra
utile fonte d'informazione sulla forma di superfici
curvate in profondità viene dall'ombreggiatura:
variazioni nella quantità di luce riflessa da
una superficie derivanti da variazioni nell'orientamento
della superficie relative alla fonte di luce. Si consideri
la Fig. 5.5.25: la sfera è fatta di materiale
omogeneo che diffonde la luce in modo uniforme in tutte
le direzioni - è chiamata superficie Lambertiana
- ed è illuminata da un singolo punto distante.
LA PERCEZIONE DELL'ORIENTAMENTO DELLE SUPERFICI IN BASE
ALLE OMBRE.
L'abilità
degli osservatori umani di recuperare l'orientamento
e la profondità delle superfici a partire da
oggetti ombreggiati e da disegni è stata studiata
sperimentalmente da Koenderink, Van Doorn e Kappers
(1992,1996,). Hanno mostrato a dei soggetti figure del
torso umano (Fig. 5.5.26).
In questi esperimenti sono state usate delle figure
consistenti in ovali con sopra un piccolo segmento di
linea. Queste figure sono state usate per indicare l'orientamento
della superficie, in quanto esse possono essere percepite
in modo facile e accurato come certi orientati in profondità
rispetto a particolari valori di "slant" e
"tilt". Quindi, aggiustando la curvatura di
ogni cerchio, i soggetti dovevano rendere l'idea di
cerchi posati sulla superficie di un oggetto, con il
segmento di linea fuoriuscente perpendicolarmente dalla
superficie stessa.
In questi esperimenti hanno trovato che diversi soggetti
sono molto simili nella loro percezione qualitativa
di queste superfici, ma molto diversi nella percezione
quantitativa della profondità. Un'altra importante
conclusione è che gli osservatori non usano rigorosamente
l'informazione locale nelle loro risposte, ma una visione
globale dell'oggetto. Queste conclusioni non dipendono
dal fatto che la figura sia familiare; simili risultati
sono stati ottenuti usando sculture non familiari.
Le analisi visive delle ombre spesso restano a livello
di assunzioni euristiche. Forse la più sorprendente
di queste euristiche è che il nostro cervello
assume implicitamente che l'illuminazione provenga dall'alto.
Questa assunzione è molto importante perché
il nostro ambiente quasi sempre viene illuminato dall'alto.
LE
ANALISI COMPUTAZIONALI DI HORN.
Sebbene la relazione tra l'ombreggiatura e l'orientamento
della superficie è conosciuta da parecchio tempo
ed è stata utilizzata da molti artisti nei loro
quadri, Berthold Horn (1975) fu il primo a capire le
sue implicazioni per la visione da un punto di vista
computazionale.
Horn ha mostrato che la percentuale di cambiamento nella
luminanza dell'immagine è direttamente proporzionale
alla percentuale di cambiamento nell'orientamento della
superficie. (Più precisamente la percentuale
di cambiamento nella luminanza dell'immagine è
proporzionale alla percentuale di cambiamento del coseno
dell'orientamento della superficie.) Questa informazione
non è sufficiente per recuperare l'orientamento
della superficie ma solo per calcolare l'angolo tra
la luce incidente e la superficie normale. Per determinare
l'orientamento della superficie devono esserci dei punti
di orientamento conosciuti su cui basare la computazione.
Un'altra condizione importante riguarda i confini terminali
tra regioni illuminate e ombreggiate, come mostrato
in fig. 5.5.29 . Qui la superficie normale è
perpendicolare alla direzione della luce incidente.
Horn ha mostrato che usando questi vincoli addizionali
può essere scoperto l'orientamento di una superficie
Lambertiana .Gli algoritmi basati sulle ombre sono ben
adattati a certi tipi ristretti di situazioni. La gente
è capace di risolvere una varietà di condizioni
più ampia rispetto agli algoritmi di Horn. I
teorici ancora non sanno come le persone siano in grado
di usare delle
informazioni complesse per percepire la forma delle
superfici a partire da un pattern di ombreggiatura,
ma è chiaro che possono farlo.
L'ASPETTO
DELLE OMBRE.
Un'altra
rilevante informazione per recuperare l'informazione
di profondità proviene dall'aspetto delle ombre:
le ombre di un oggetto che cadono sulla superficie di
un altro oggetto. La figura 5.5.30 mostra un esempio.
L'aspetto
delle ombre può fornire informazione sulla distanza
da un oggetto.
5.5.9
PROSPETTIVA
AEREA.
La
prospettiva aere si riferisce a certe differenze sistematiche
nel contrasto e nel colore di oggetti che accade quando
vengono visti da distanze elevate.
Puoi
aver notato che i palazzi e altri oggetti grandi sembrano
sfuocati e sbiaditi quando sono visti da lontano. Il
loro contrasto viene ridotto dall'atmosfera in aggiunta
attraverso la quale essi sono visti, perché contiene
particelle di polvere, acqua ecc. che disperdono la
luce. Questi particolari aggiungono confusione perché
disperdono la luce ed effettivamente i contorni dell'immagine
appaiono meno distinti e il contrasto diventa più
basso.
Un
esempio fotografico è disponibile nel Color Plate
5.1.
Gli artisti hanno a lungo usato la prospettiva atmosferica
per disegnare paesaggi distanti. Le differenze nel contrasto,
risoluzione e colore che ne risultano non forniscono
sufficiente informazione di profondità da sole,
ma solo quando sono usate insieme ad altre danno un
aggiuntivo senso di profondità.
5.5.10
L'INTEGRAZIONE
DI DIVERSE FONTI DI INFORMAZIONE.
Abbiamo
esaminato un gran numero di differenti fonti di informazione
per percepire la profondità di una scena, poiché
riguardano tutte la stessa interpretazione percettiva
di superfici orientate nello spazio, devono in qualche
modo unirsi in una rappresentazione coerente. Come fa
il sistema visivo a compiere questa integrazione? In
normali condizioni visive l'integrazione di queste fonti
non è un problema perché sono altamente
correlate. Convergono in maniera naturale in una singola
coerente e accurata rappresentazione della distanza
e dell'orientamento della superficie in relazione all'osservatore.
In laboratorio,
comunque, diversi fattori possono essere manipolati
indipendentemente così da entrare in conflitto.
Per sapere cosa accade in questi casi, consideriamo
tre diverse possibilità:
DOMINANZA.
Forse
la più semplice possibilità è che
una fonte di informazione risulta dominante sulle altre
con il risultato che queste vengono ignorate. Questa
forma di integrazione implica una gerarchia di fonti
di profondità, così che quelle più
in alto nella gerarchia risulteranno dominare quelle
più in basso.
Un
esempio molto conosciuto si ha nell' "Ames room"
che oppone l'informazione della prospettiva alla dimensione
familiare degli oggetti. L'Ames room è una stanza
distorta che sembra normale da un particolare punto
di vista.
La figura 5.5.32 mostra un' Ames room insieme a un pavimento
piano. Anche se non è rettangolare sembra rettangolare
dal punto di vista disegnato. Quando oggetti sono conosciuti
come aventi una misura approssimativamente uguale sono
disposti lungo il muro dietro la stanza, come le tre
persone in figura 5.5.32, gli osservatori da uno speciale
punto di vista percepiscono due illusioni:: 1 - le persone
sembrano ugualmente distanti, 2 - sono viste grandi
differenze nelle loro dimensioni. Informazione in prospettiva
riguardo alla profondità nell'immagine bidimensionale
dell'Ames room da un particolare punto di vista porta
alla percezione di una normale stanza rettangolare con
gli angoli ad eguale distanza..
L'informazione
della grandezza familiare suggerisce che gli uomini
hanno circa la stessa dimensione ma questa possibilità
viene eliminata dall'evidenza della prospettiva, che
appare completamente determinante in questo caso.
COMPROMESSO.
Una
seconda possibilità per risolvere i conflitti
tra diverse fonti di profondità è che
il sistema visivo possa integrare informazioni di diversa
provenienza, trovando una soluzione di compromesso che
è compatibile con nessuna fonte da sola ma sta
da qualche parte tra loro. Il modo più ovvio
di fare questo, per il sistema visivo, è quello
di fare delle stime indipendenti di profondità,
prendendo ogni fonte singolarmente e poi integrare i
risultati secondo una qualche regola matematica. Bruno
e Cutting (1988) per esempio hanno costruito stimoli
nei quali quattro fonti di profondità variavano
in modo indipendente. Trovarono evidenze a favore del
fatto che i soggetti compiono un'integrazione nella
loro percezione di profondità, piuttosto che
contare solamente su una di queste fonti. Trovarono
anche che la regola di integrazione dell'informazione
era additiva. Infatti i soggetti semplicemente sommavano
gli effetti dei diversi fattori così più
fonti di informazione fornivano una migliore indicazione
di profondità. Massaro (1988) analizzò
gli stessi dati e suggerì che per rendere conto
di questi dati era meglio un modello moltiplicativo.
Sono possibili altre regole matematiche e bisogna ancora
stabilire quale è quella usata dal sistema visivo.
Questa posizione teorica è stata chiamata "fusione
debole" perchè assume che non c'è
interazione tra diverse fonti di profondità.
L'idea base è che valutazioni di profondità
diverse siano compiute in modo indipendente e in parallelo,
e che producano una differente stima di profondità
ad ogni punto in una "mappa di profondità".
Queste mappe multiple di profondità vengono poi
integrate facendo una media, addizionando, moltiplicando
o usando altre regole matematiche.
INTERAZIONE.
Sembra
abbastanza probabile che diversi tipi di informazioni
non siano presi separatamente ma interagiscono arrivando
ad una singola e coerente rappresentazione della distanza
da superfici visibili.
Le interazioni tra differenti fonti sono così
utili che è quasi impensabile che esse falliscano.
Comunque esse sono complesse e disordinate se paragonate
alla semplicità modulare della "fusione
debole". Landy e collaboratori (1995) hanno formulato
una versione della fusione debole che hanno chiamato
fusione debole modificata che tiene conto di certi di
tipi limitati di interazioni tra le fonti di profondità.
La
questione di come fonti differenti vengono combinate
in una singola e coerente rappresentazione della posizione
tridimensionale di una superficie visibile è
complessa e difficile. L'evidenza percettiva è
scarsa, le ricerche computazionali sono solo all'inizio
e non c'è una sistematica evidenza fisiologica.
Si sa che una certa forma di integrazione esiste ma
non si di preciso come avviene.
5.6.
LO
SVILUPPO DELLA PERCEZIONE DI PROFONDITA'.
Molti
esperimenti con bambini hanno cercato di fornire una
risposta sulla problematica questione "innato-acquisito"
Alcuni di questi studi hanno dimostrato che i bambini
hanno una percezione di profondità; i ricercatori
hanno impiegato un apparecchio chiamato precipizio visivo
(figura 5.6.1); si tratta di un grande tavolo di vetro
circondato da una barriera. Al centro vi è una
pista leggermente rialzata, ai due lati vi sono lastre
di vetro un po' più basse. Ad un'estremità,
immediatamente sotto il vetro c'è una scacchiera,
mentre dal lato opposto, il lato del precipizio, la
scacchiera si trova alcuni centimetri sotto la superficie
trasparente. Se un bambino non ha la percezione di profondità
dovrebbe muoversi in egual modo da una parte all'altra
del ripiano, ma se in grado di percepirla dovrebbe dimostrarsi
restio ad avventurarsi sul lato del precipizio.
In
questi esperimenti, condotti da E. Gibson e R.Walk le
madri mettevano il loro bambino sul lato centrale e
tentavano di istigarlo a camminare carponi, sia sulla
parte piana, sia sulla parte profonda. Se il bambino
percepisse la profondità non dovrebbe raggiungere
la madre sul lato del precipizio.
I
risultati di questi esperimenti mostrano che i bambini
tra i sei e i dodici mesi hanno una funzionale percezione
di profondità.
Campos, Langer e Krowitz (1970), per trovare se i bambini
più piccoli, troppo giovani per camminare carponi,
hanno una percezione di profondità, hanno registrato
i loro battiti cardiaci in prossimità di un precipizio
visivo. Quando i bambini erano posti sul lato del precipizio
i loro battiti cardiaci rallentavano significativamente;
questo significa che i bambini non avevano paura del
precipizio ma erano molto attenti alla profondità,
Sembra quindi che bambini di due mesi siano già
capaci di percepire la profondità ma che non
abbiano imparato ad avere paura di una situazione pericolosa,
rappresentata dal precipizio.
Un problema di questi studi è che non specificano
qual è la fonte di informazione che i bambini
stanno usando.
5.6.1
INFORMAZIONE
OCULARE.
L'informazione
oculare sulla profondità dipende dal controllo
dei muscoli, un'abilità che i neonati hanno solo
in forma rudimentale.
L'accomodazione e la convergenza hanno bisogno di un
certo periodo per svilupparsi. Banks (1980) ha studiato
l'accomodazione nei bambini tra uno e tre mesi usando
un "retinoscopio": un dispositivo che permette
all'esaminatore di determinare come l'occhio focalizza
la luce. Egli trovò che bambini di un mese erano
capaci di usare debolmente l'accomodazione mentre quelli
di tre mesi erano molto vicini agli adulti. Questo non
significa necessariamente che usano l'informazione proveniente
dall'accomodazione per percepire la profondità;
questo richiede un'assunzione aggiuntiva, cioè
che l'accomodazione è una effettiva fonte di
informazione di profondità nei bambini. Se la
convergenza binoculare è o non è presente
alla nascita dipende da come viene studiata. R. Aslin
(1977) ha misurato direttamente il movimento degli occhi
dei bambini mentre uno stimolo visivo si muoveva da
vicino e da lontano. Quando erano capaci di convergere
binocularmente i loro occhi dovevano ruotarsi verso
l'esterno mentre lo stimolo indietreggiava e verso l'interno
quando si avvicinava. Aslin trovò che sebbene
essi sembravano capaci di usare la convergenza in modo
appropriato abbastanza presto la capacità di
seguire accuratamente una traiettoria mediante la fissazione
binoculare non era presente prima dei tre mesi.
Queste
misure della performance oculare non possono accertare
se i bambini usano questa abilità per ricavare
l'informazione di profondità, stabilisce solo
che potrebbero farlo.
Metodi indiretti hanno invece suggerito che l'informazione
basata sulla convergenza è presente alla nascita.
5.6.3
INFORMAZIONE
STEREOSCOPICA.
Una
volta che i bambini sono capaci di convergere i loro
occhi possono sviluppare la visione stereoscopica. Negli
esperimenti di Fox, Aslin, Shea e Dumais (1980) venivano
mostrati ai bambini tra due e mezzo e sei mesi di età
gli stereogrammi di tipo "random dot" usando
occhiali speciali. La figura in profondità era
un rettangolo che si muoveva sia a destra che a sinistra
e i ricercatori hanno scoperto la presenza di percezione
di profondità registrando l'estensione della
traiettoria visiva degli infanti nei confronti del rettangolo.
Hanno trovato che bambini di tre mesi non seguono la
traiettoria del rettangolo ma quelli di tre mesi e mezzo
sì. Nota che questi risultati mostrano che gli
infanti davvero percepiscono la profondità, non
solo che potrebbero farlo.
L'abilità di percepire la profondità in
questi stereogrammi è una prova convincente del
fatto che esiste la percezione stereoscopica della profondità
in questi bambini. Altri metodi mostrano una percezione
stereoscopica ancora più precoce. Gli esperimenti
basati sul paradigma di preferenza hanno trovato "la
soglia di stereoacuità": la più piccola
differenza che i bambini sono capaci di risolvere.
5.6.3
INFORMAZIONE
DINAMICA.
Il
problema è ancora quello riguardante l'innatismo
vs empirismo.
Forse il miglior candidato per l'informazione di profondità
dinamica innata è ciò che viene chiamato
"looming" (il gradiente di movimento di una
superficie in avvicinamento) perché si applica
a oggetti che si muovono verso un osservatore immobile.
I neonati non si possono muovere abbastanza per produrre
un flusso ottico generato da loro stessi, ma oggetti
biologicamente significativi (come la mamma) si muovono
verso i bambini o lontano da loro sin dalla nascita.
I bambini da uno a due mesi rispondo al loming degli
oggetto con appropriate azioni difensive.
Queste ricerche hanno scoperto che l'informazione di
profondità derivante da looming è presente
molto presto forse già alla nascita.
5.6.4
INFORMAZIONE
PITTORICA.
Ci
sono molte fonti di informazione pittorica e non tutte
sono state studiate da una prospettiva di sviluppo.
L'evidenza disponibile suggerisce che grandezza, occlusione,
ombreggiatura, prospettiva lineare e gradienti strutturali
si sviluppano tutti tra i cinque e i setti mesi.
Risultati
di ingenui esperimenti sullo sviluppo hanno mostrato
che la maggior parte delle fonti di informazione di
profondità non sono presenti alla nascita ma
si sviluppano in differenti momenti nel corso del primo
anno di vita. E' possibile che misure più sensibili
rivelino una maggiore precocità di queste capacità,
comunque la controversia natura vs educazione nella
percezione della profondità non è stato
ancora risolta.
|