Capitolo
4
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per il
corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che non
hanno molta dimestichezza con la lingua inglese.
Le traduzioni sono opera degli stessi studenti
del corso di Psicologia della Percezione 1999
- 2000. Nell'utilizzo di questo materiale va tenuto
conto che la correttezza dello stesso va verificata
confrontando le traduzioni con il testo originale.
Per ulteriori domande, clicca
qui.
|
"ELABORAZIONE
DELLE STRUTTURE DELL'IMMAGINE"
SINTESI
CURATA DA:
SUSANNA
CARGNEL
MARCO GARZITTO
FABIO CAMPANELLA
ELABORAZIONE
DELLE STRUTTURE DELL'IMMAGINE
Indice
4.1 Meccanismi fisiologici
4.1.1 Neuroni retinici e del nucleo genicolato laterale
Neuroni gangliari
Cellule bipolari
Nucleo genicolato laterale
4.1.2 Corteccia striata
La scoperta di Hubel e Wiesel
Cellule semplici
Cellule complesse
Cellule ipercomplesse
4.1.3 Architettura della corteccia striata
Le mappe retinotopiche
Lastre di dominanza oculare
Struttura colonnare
4.1.4 Sviluppo dei campi recettivi
4.2 Canali psicofisici
4.2.1 Teoria della frequenza spaziale
Analisi di Fourier
Canali di frequenza spaziale
Funzioni di sensibilità di contrasto
Adattamento selettivo dei canali
Effetti consecutivi della frequenza spaziale
Soglie per reticoli sinusoidali versus quadrati
Sviluppo dei canali di frequenza spaziale
4.2.2 Fisiologia dei canali di frequenza spaziale
4.3 Approcci computazionali
4.3.1 Gli schemi primari di Marr
4.3.2 Individuazione dei bordi
Individuatori di bordi e convoluzioni
L'algoritmo dello zero-crossing di Marr e Hildreth
Implementazione neurale
Integrazione di scale
Lo schema primario grezzo
4.3.3 Teorie computazionali alternative
Analisi della trama
La struttura dall'ombreggiatura
4.3.3 Una sintesi teoretica
Filtri di frequenza spaziale locale
Utilizzare la struttura delle immagini naturali
4.4 Vie visive
4.4.1 Prove fisiologiche
4.4.2 Prove percettive
In questo capitolo tratteremo della percezione della
struttura spaziale, e cioè la forma, la localizzazione,
le dimensioni e l'orientamento nello spazio dell'oggetto
percepito.
La visione spaziale comprende quattro tipi di processi:
basati sull'immagine, basati sulla superficie, basati
sull'oggetto e basati sulle categorie. Qui si tratterà
del primo tipo, cioè dei processi visivi che
concernono in primo luogo la computazione degli aspetti
spaziali delle immagini retiniche bidimensionali; questo
è il primo passo per l'interpretazione dei percetti
in termini di entità del mondo reale (oggetti).
Gli approcci principali allo studio dei processi basati
sull'immagine sono tre: computazionale, psicofisico,
fisiologico. Questo sarebbe l'ordine logico da seguire
secondo Marr, ma il capitolo seguirà l'ordine
inverso, per rispettare la sequenza cronologica delle
scoperte, e anche perché l'argomento non è
ancora sufficientemente chiarito.
4.1
MECCANISMI FISIOLOGICI
4.1.1
Neuroni retinici e del nucleo genicolato laterale
Esaminiamo
le cellule che elaborano i segnali neuronali dopo che
hanno lasciato l'occhio.
Neuroni
gangliari (retina)
Sono le prime cellule retiniche investigate successivamente
(Kuffler, Barlow), distinte in seguito in neuroni on-center
(eccitabili al centro del loro campo recettivo e inibiti
in periferia) e neuroni off-center (inversi). La figura
4.1.1 mostra la risposta di una on-cell, in cui si vede
l'antagonismo tra la parte interna eccitatoria e l'anello
attorno inibitorio. La rappresentazione delle on-cells
in tre dimensioni (spazio-eccitazione) è chiamata
a sombrero; quella delle off-cells a sombrero rovesciato
(fig. 4.1.2).
Neuroni
bipolari (retina)
Furono studiate in seguito per la necessità di
introdurre una metodologia di registrazione intracellulare
(sono cellule ad effetto modulatorio con scarica lenta,
continua, graduale). Si sono rivelate avere analogie
con i neuroni gangliari: il loro campo recettivo è
di tipo on-center /off-surround o viceversa. Nella figura
4.1.3 si vede l'architettura neurale di una cellula
on-center. Le cellule bipolari ricevono due tipi di
afferenze: dai recettori retinici e dalle cellule orizzontali
(a loro volta inibite dai recettori. Le afferenze dirette
hanno segno positivo, quelle indirette negativo; sommandole,
questo meccanismo dà luogo al sombrero di attivazione
anche per queste cellule. (Nel caso delle off-center
i segni sono invertiti e il sombrero è rovesciato)
Nucleo
genicolato laterale (talamo posteriore)
Si tratta di una struttura tridimensionale che riceve
globalmente afferenze binoculari (per quanto ogni neurone
riceva afferenze unicamente monoculari). Tale struttura
è suddivisa in 6 strati (o lamine) ripiegati
di cui i 2 più profondi sono costituiti da neuroni
di grandi dimensioni (strati magnocellulari) e i 4 più
superficiali da neuroni di piccole dimensioni (parvocellulari)
(vedi fig. 4.1.4). Le differenze fisiologiche tra neuroni
magnocellulari e parvocellulari comprendono: una specializzazione
dei primi per le differenze di contrasto e dei secondi
quelle cromatiche; un campo recettivo di dimensioni
doppie per i neuroni magnocellulari, una risposta transitoria
agli stimoli rapidi per i magnocellulari e più
sostenuta per i parvocellulari (vedi tab. 4.1.1). In
base a questa distinzione fisiologica, si è supposto
che la componente magnocellulare sia adibita all'analisi
dell'informazione di movimento e profondità mentre
quella parvocellulare elabori informazioni di forma
e colore.
E' interessante notare come i neuroni del LGN ricevono
due tipi di afferenze dalle cellule gangliari di tipo
M (che proiettano agli strati magnocellulari) e di tipo
P (strati parvocellulari). I due tipi di neuroni gangliari
hanno diverse afferenze dai recettori e diversa sensibilità:
i neuroni P sono più sensibili al colore che
al bianco e nero e ricevono afferenze solo dai coni;
i neuroni M sono sensibili al bianco e nero e ricevono
sia dai coni che dai bastoncelli.
Ciascuno strato del LGN riceve afferenze monoculari
così che nei 4 strati parvocellulari si hanno
alternate afferenze controlaterali e ipsilaterali (dall'esterno:
contro-ipsi-contro-ipsi), e così pure nei due
strati magnocellulari (ipsi-contro) (vedi fig. 4.1.5).
Ogni strato presenta un'organizzazione retinotopica
(preserva le posizioni relative tra gli input arrivati
dalla retina) e, pur non essendosi osservate interazioni
tra strati si nota un allineamento delle mappe retinotopiche
fra i vari strati. Dal LGN l'informazione passa alla
corteccia visiva primaria (V1) tramite radiazione ottica
(mantenendo la retinotopicità).
4.1.2
Corteccia striata
La
corteccia striata è una lamina di neuroni spessa
2 mm circa ma contenente 200 milioni di neuroni (rappresenta
la più vasta area corticale monofunzionale nei
primati).
La
scoperta di Hubel e Wiesel
Essi trovarono delle cellule della corteccia visiva
con un campo recettivo sensibile a determinate direzioni.
In seguito vengono classificati tre tipi di cellule
corticali: cellule semplici, complesse e ipercomplesse.
Cellule
semplici
Il campo recettivo di questi neuroni è investigabile
tramite piccoli fasci di luce che stimolano la retina,
e la loro risposta a stimoli più complessi è
prevedibile a partire dal comportamento con quelli più
semplici. Questi neuroni mostrano in genere una porzione
eccitatoria nel loro campo recettivo (che aumenta, se
stimolata, la frequenza di scarica) ed una inibitoria
(che se stimolata da sola porta la frequenza di scarica
sotto il livello spontaneo).
Gli studi sulle cellule semplici hanno portato a classificarne
diversi tipi (vedi fig. 4.1.6): in particolare, i individuatori
di bordi, in cui il campo recettivo ha una regione eccitatoria
e una inibitoria affiancate con varie angolazioni, ed
il neurone è eccitato al massimo da un bordo
che cade a metà fra le due porzioni; ed i individuatori
di linee, in cui la regione centrale del campo recettivo
è una barra eccitatoria /inibitoria e ha ai lati
regioni antagoniste, ed il neurone è massimamente
eccitato da linee chiare /scure. Forse i individuatori
di linee e bordi sono presenti grazie all'azione di
diverse on-cells e off-cells del LGN i cui campi recettivi
sono opportunamente allineati secondo l'orientamento
preferenziale (fig. 4.1.7).
Quindi sembra che un primo passo dell'elaborazione di
immagini comporti il riconoscimento di linee e bordi,
e le proprietà più complesse vengano costruite
sommando linee e bordi locali.
Le ricerche più recenti (De Valois e De Valois)
hanno portato a complicare il modello delle cellule
semplici scoprendo diverse classi di campi recettivi
grandi o piccoli, con ulteriori zone inibitrici- eccitatrici
affiancate a quelle primarie, più numerose per
i campi recettivi piccoli (vedi fig. 4.1.8).
Cellule
complesse
Sono i neuroni più numerosi della corteccia striata,
e presentano un campo recettivo allungato come le cellule
semplici.
Le loro caratteristiche distintive sono:
1. Non linearità: il comportamento è altamente
non lineare e questi neuroni rispondono difficilmente
agli stimoli puntiformi statici.
2. Sensibilità al movimento: rispondono fortemente
a linee e bordi in movimento, in genere con una direzione
preferenziale.
3. Insensibilità alla posizione: gli stimoli
in diverse posizioni non elicitano risposte molto diverse.
4. Estensione spaziale: i campi recettivi sono più
ampi di quelli delle cellule semplici.
Le cellule complesse sono probabilmente costruite dall'integrazione
di molte cellule semplici (vedi fig. 4.1.9.), benché
alcune di loro ricevano afferenze talamiche (dal LGN)
dirette.
Cellule
ipercomplesse
Il campo recettivo di questi neuroni è più
selettivo di quello delle cellule complesse: sembra
che rispondano al massimo per linee o bordi di una certa
lunghezza diminuendo la frequenza di scarica per lunghezze
inferiori o superiori (vedi fig. 4.1.11), e perciò
sono dette cellule end-stopped.
Si è proposto che si tratti in realtà
di cellule semplici e complesse end-stopped, e forse
il grado di end-stopping è un continuum anziché
un fenomeno tutto-o-nulla. Nella figura 4.1.12 si vede
un possibile schema di una cellule ipercomplessa che
riceve afferenze da due (o più) cellule complesse
di cui una (che rappresenta la fine) manda input inibitorio.
4.1.3
Architettura della corteccia striata
I
neuroni della corteccia visiva rispondono ad un numero
limitato di caratteristiche spaziali dello stimolo:
orientamento, direzione, dimensioni, colore e movimento
rispetto all'occhio a cui lo stimolo è presentato.
A questo punto è importante capire quale sia
l'organizzazione (architettura) dei neuroni che rispondono
a tali caratteristiche.
Le
mappe retinotopiche
Le posizioni relative degli stimoli sulla retina sono
mantenute dalla corteccia visiva primaria (V1), con
alcune distorsioni significative, primo fra tutte lo
sproporzionato ingrandimento corticale delle centrali
(foveali) dello stimolo, come si vede dalla figura 4.1.13.
Lastre
(colonne) di dominanza oculare
Ciascun emisfero in V1 comprende afferenze provenienti
da ciascun occhio: ora bisogna comprendere se ci si
troverà di fronte ad una mappa unica (integrazione
delle afferenze) o a mappe distinte. Sono state trovate
delle lastre di dominanza oculare perpendicolari alla
superficie della corteccia visiva, le quali appaiono
piuttosto irregolari, benché non casuali, e sono
mostrate nella figura 4.1.14. La tendenza è a
raggruppare le cellule con afferenze dallo stesso occhio,
ma ciò avviene con una certa libertà nel
modo in cui ciò viene realizzato, a causa della
complessità dei patterns risultanti.
Struttura
colonnare
La mappa retinotopica è composta da unità
colonnari con una superficie di 1x1 mm e attraversanti
tutti e sei gli strati corticali, perpendicolari alla
superficie corticale: tali unità vengono chiamate
ipercolonne (figura 4.1.15). Ciascuna ipercolonna è
divisibile in due parti nel senso della lunghezza: una
riceve afferenze dall'occhio destro, l'altra dal sinistro.
All'interno di ogni ipercolonna (per entrambe le zone)
esiste un'organizzazione delle cellule sensibili all'orientamento:
l'orientamento ottimale per tali cellule varia su un
continuum lungo l'ipercolonna. Meno chiare sono le prove
(De Valois e De Valois) riguardanti una sensibilità
preferenziale per piccole dimensioni nella parte superficiale
di ogni ipercolonna e per grandi dimensioni in quella
più profonda (secondo un altro continuum).
4.1.4
Sviluppo dei campi recettivi
La
scoperta di neuroni sensibili a determinate direzioni
dello stimolo ha portato a posizioni diverse sulla questione
innatismo-empirismo della visione, spostando l'interesse
a livello cellulare.
Hubel e Wiesel portarono prove a favore della presenza
dei neuroni selettivi per l'orientamento fin dalla nascita;
si nota però anche uno sviluppo post-natale ulteriore.
Allora resta da chiarire se questo sviluppo è
preprogrammato (ipotesi innatista) o se è dovuto
alla stimolazione ambientale (ipotesi empirista).
I primi esperimenti hanno portato a osservare la presenza
di neuroni selettivi in gatti privati della vista, ma
meno sensibili della norma ad orientamento dei bordi
e direzione del movimento. La differenza del numero
di neuroni orientati tra animali sani e ciechi aumenta
notevolmente nell'arco delle prime 5 settimane di vita
(vedi fig. 4.1.16).
Il sistema visivo mostra quindi un periodo critico per
gli effetti della stimolazione ambientale sul suo sviluppo;
prima e dopo di questo gli effetti della stimolazione
sono minimi. In particolare in seguito al periodo critico
è impossibile recuperare eventuali problemi verificatisi
durante questo. Più corretto è concludere
che ci siano più periodi critici per lo sviluppo
del sistema visivo: ad esempio nei gatti il periodo
critico per le cellule specifiche per l'orientamento
è di circa 5 settimane, mentre tra le 5 e le
10 settimane di vita si ha lo sviluppo della dominanza
oculare. Si può dire in pratica che i primi livelli
del sistema visivo hanno periodi critici precedenti
ai livelli successivi: sia perché i secondi devono
necessariamente attendere lo sviluppo dei primi, sia
per osservazioni empiriche congruenti a questa ipotesi.
4.2 CANALI PSICOFISICI
C'è
un secondo approccio allo studio della costruzione delle
immagini, ed è quello psicofisico: esso studia
le relazioni tra le esperienze soggettive e le proprietà
fisiche del mondo usando metodologie comportamentali,
ovvero misurando la performance del soggetto per inferire
i meccanismi sottostanti. Nell'ambito della visione
spaziale le teorie psicofisiche hanno portato a risultati
molto diversi dall'approccio fisiologico.
4.2.1
Teoria della frequenza spaziale
Secondo
questa teoria i componenti primitivi che costituiscono
ogni immagine non sono linee o bordi, bensì reticoli
sinusoidali, cioè disegni bidimensionali estesi
in cui su una dimensione la luminanza è variabile
secondo una sinusoide e sulla dimensione perpendicolare
è costante.
I reticoli si distinguono per quattro parametri (vedi
fig. 4.2.1):
1) Frequenza spaziale: è una quantità
che varia inversamente all'ampiezza delle bande chiare
e scure. Si specifica in termini di numero di cicli
chiaro/scuro per grado di angolo visivo.
2) Orientamento: è l'angolo delle bande definito
in gradi in senso antiorario rispetto alla verticale.
3) Ampiezza (o contrasto): è la differenza di
luminanza tra la parte più chiara e quella più
scura tra i picchi e le valli nel profilo di luminanza).
E' definita come percentuale rispetto alla massima ampiezza
possibile (il 100% è la differenza tra il bianco
più luminoso e il nero più scuro, lo 0%
è un campo grigio uniforme).
4) Fase: è la posizione della sinusoide rispetto
a un punto di riferimento. Si definisce in gradi, cosicché
se nel punto di riferimento si trova il punto in cui
la sinusoide sta passando dal negativo al positivo,
allora la fase è 0° (seno), se nel punto
di riferimento si trova il picco più alto allora
la fase è 90° (coseno), se vi si trova il
punto in cui la sinusoide passa dal positivo al negativo
la fase è 180° (anti-seno), se vi si trova
la valle la fase è 270° (anti-coseno).
Analisi
di Fourier
Il fatto di prendere come primitivi componenti di ogni
immagine dei reticoli sinusoidali è basato su
una ragione matematica più che empirica: il teorema
di Fourier. A partire da esso si costruisce l'analisi
di Fourier, che è un metodo per scomporre ogni
immagine bidimensionale in una somma di reticoli.
Esempi:
Fig. 4.2.2: Costruzione di un reticolo quadrato con
contorni netti di frequenza f, ottenuto sommando un
reticolo sinusoidale di frequenza f con un reticolo
alla terza armonica (3f) di ampiezza 3a, con uno alla
quinta armonica (5f) di ampiezza 5a, e così via.
Fig. 4.2.3: Costruzione di un reticolo a quadri sommando
un reticolo quadrato di orientamento orizzontale con
uno verticale.
Fig. 4.2.4: Analisi di una figura complessa (foto di
Groucho Marx) in due versioni, una con basse frequenze
e l'altra con alte frequenze.
L'analisi di Fourier consiste di due parti:
- lo spettro di potenza specifica l'ampiezza di ogni
reticolo componente ad una particolare frequenza spaziale
ed orientamento;
- lo spettro di fase specifica la fase di ogni reticolo
costituente ad una particolare frequenza spaziale e
orientamento.
Se i componenti primitivi, con la giusta ampiezza e
fase, vengono sommati, l'immagine originale viene ricreata.
Perciò questo metodo può essere invertito
attraverso la sintesi di Fourier per ricostruire l'immagine
a partire dagli spettri di fase e di potenza.
Ora verranno esaminate alcune evidenze empiriche a sostegno
di questa teoria.
Canali
di frequenza spaziale
Un canale psicofisico è un meccanismo ipotetico
selettivamente sensibile a una gamma limitata di valori
posti su un continuum.
L'ipotesi è che il sistema visivo sia composto
di molti canali psicofisici sovrapposti, sensibili a
diverse frequenze e orientamenti. Anche nell'ambito
del colore, ad esempio, si ipotizza un meccanismo simile,
con tre canali corrispondenti ai tre diversi tipi di
coni, ciascuno con maggiore sensibilità per una
diversa lunghezza d'onda. Nel caso della frequenza spaziale,
ogni canale è determinato dalla frequenza spaziale
e dall'orientamento del reticolo a cui è più
sensibile.
Funzioni
di sensibilità di contrasto
Un prova importante a sostegno della teoria della frequenza
spaziale venne fornita da Blakemore e Campbell. Essi
determinarono la curva della soglia di distinzione di
un reticolo da una superficie uniforme rispetto alla
frequenza, determinata dal contrasto minimo a cui si
distingue il reticolo. Per far ciò si usa il
metodo dell'aggiustamento: il soggetto, per ogni frequenza,
aggiusta il contrasto del reticolo fino a trovare il
punto in cui ciò che vede cessa di essere un
reticolo e diventa un campo uniforme.
La curva della soglia è l'inversa della funzione
di sensibilità di contrasto (CSF), che definisce
il contrasto in cui la sensibilità è massima
rispetto al continuum delle frequenze spaziali. (Fig.
4.2.5A e 4.2.5B).
Fig. 4.2.5C: CSF comparate tra umani, bambini umani
e macachi.
Le CSF mostrano una maggiore sensibilità per
frequenze medie (4-5 cicli/grado di angolo visivo);
inoltre la sensibilità è molto bassa in
condizioni scotopiche, poiché non ci sono bastoncelli
in fovea.
Adattamento
selettivo dei canali
Blakemore e Campbell, dopo aver determinato la CSF di
ogni soggetto, lo fecero adattare ad una particolare
frequenza spaziale facendogli fissare un reticolo per
un po'. Dopo di che, misurarono la CSF di nuovo. La
CSF di post-adattamento mostra che la sensibilità
diminuisce, ma solo a quella frequenza. Questo suggerisce
l'esistenza di un'alta selettività per la frequenza
del reticolo di adattamento; perciò si può
dire che i canali psicofisici sono caratterizzati da
un adattamento selettivo.
Per spiegare questi risultati, gli autori propongono
questa teoria: la CSF rappresenta la combinazione di
molte bande ristrette parzialmente sovrapposte, che
sarebbero i canali sensibili ognuno a un diverso intervallo
di frequenza; perciò, se si affatica un canale
gli altri non vengono intaccati (vedi fig. 4.2.8). Da
notare che non si tratta di un effetto dovuto all'immagine
consecutiva, perché i soggetti muovevano gli
occhi lungo il reticolo.
La figura 4.2.9 mostra che l'adattamento selettivo ha
effetti simili anche sull'orientamento.
Effetti
consecutivi della frequenza spaziale
I reticoli ad una particolare frequenza e orientamento
producono anche effetti consecutivi. La figura 4.2.10
è un esempio: fissando per un po' i reticoli
a sinistra muovendo gli occhi lungo la riga orizzontale,
guardate poi la riga di destra e vedete se i reticoli
a destra sembrano ancora uguali.
La spiegazione di questo effetto è simile a quella
per le immagini consecutive dei colori, solo che qui
le cellule rispondono a bande di diversa frequenza spaziale
anziché a diverse lunghezze d'onda. La prolungata
osservazione produce affaticamento delle cellule sensibili
a una frequenza spaziale bassa nella parte superiore
del campo visivo, e di quelle sensibili a un'alta frequenza
spaziale nella parte inferiore: quindi a destra in alto
le cellule che rispondono alle alte frequenze sono relativamente
più sensibili, e viceversa in basso, e i due
reticoli sembrano diversi.
Una dimostrazione analoga per l'effetto consecutivo
dell'orientamento si trova nella figura 1.1.3.
Soglie
per reticoli sinusoidali versus quadrati
Graham e Nachmias portarono solide prove a sostegno
dell'ipotesi della frequenza spaziale. I loro esperimenti
si basano sull'ipotesi che un reticolo quadrato di frequenza
f viene scomposto dal sistema visivo in molti reticoli
sinusoidali, e cioè uno di frequenza f e ampiezza
a, più uno di frequenza 3f e ampiezza a/3, più
uno di frequenza 5f e ampiezza a/5, e così via
(v. fig. 4.2.2).
Essi formularono due ipotesi, che poi vennero confermate
da due esperimenti. La prima è che la soglia
di contrasto per discriminare un reticolo quadrato da
un campo uniforme è la stessa che per discriminare
un reticolo sinusoidale con la stessa f fondamentale.
Ciò è controintuitivo, perché si
penserebbe che il reticolo quadrato sia più facile
da discriminare (cioè abbia una soglia più
bassa) dato che il gradiente di luminanza è più
brusco, mentre in quello sinusoidale è graduale.
Questo viene spiegato dalla teoria della frequenza spaziale
in quanto il reticolo quadrato viene scomposto nelle
sue componenti sinusoidali, e la sua soglia di contrasto
diviene quindi quella della componente con la soglia
più bassa, che è la f fondamentale.
La seconda ipotesi è che la soglia di contrasto
per discriminare tra un reticolo sinusoidale e uno quadrato
sia la stessa che per discriminare tra un campo grigio
uniforme e un reticolo sinusoidale la cui frequenza
spaziale è la terza armonica (3f) del quadrato.
Questo perché, se si pensa che un reticolo quadrato
sia scomposto nella f fondamentale e tutte le sue armoniche
dispari (3f, 5f, 7f
), allora la differenza tra
un reticolo quadrato e uno sinusoidale è solo
la presenza di queste armoniche, e per individuare questa
differenza bisogna trovare la soglia di una di esse:
la terza (3f), che ha l'ampiezza più alta e quindi
la soglia più bassa. Questa soglia, secondo la
previsione, deve trovarsi allo stesso contrasto a cui
la terza armonica si può discriminare da un campo
uniforme.
Questi due esperimenti sono estremamente concordanti
con la teoria della frequenza spaziale.
Sviluppo
dei canali di frequenza spaziale
Nello studio dei bambini, si usa generalmente il paradigma
di Fanz sulla fissazione preferenziale: al bambino si
mostra un reticolo da una parte e un campo uniforme
dall'altra, della stessa luminanza; se il bambino li
differenzia, guarda più a lungo il reticolo perché
è uno stimolo più interessante.
La figura 4.2.5C mostra le CSF di bambini a diverse
età: i bambini sono meno sensibili in generale
ai reticoli, e in particolare alle alte frequenze, perciò
hanno minore acuità visiva. Nella figura 4.2.11
si vede un volto come appare a un adulto (A) e come
appare a un bambino (B), eliminando tutte le frequenze
alte a cui sono insensibili.
4.2.2
Fisiologia dei canali di frequenza spaziale
I
canali psicofisici sono dei meccanismi ipotetici, che
però se esistono devono avere un substrato fisico
nel sistema nervoso visivo.
Molti sostengono che le cellule di Hubel e Wiesel effettuano
un'analisi di frequenza spaziale locale: locale perché
è limitata a pochi gradi del campo visivo. Questi
campi recettivi locali si costruiscono con piccole porzioni
di reticoli che sfumano allontanandosi verso il centro.
Un campo di questo tipo è detto funzione di Gabor
(o piccola onda): essa è costruita moltiplicando
un reticolo sinusoidale globale per una funzione gaussiana
(vedi fig. 4.2.12).
[ Nota 2: Le "piccole onde" sarebbero in realtà
particolari funzioni di Gabor in cui la varianza della
gaussiana è un numero costante di cicli della
sinusoide. Qui ci riferiremo genericamente ad esse come
se fossero funzioni di Gabor. ]
De Valois, Albrecht e Thorell trovarono che molte cellule
semplici e complesse sono nettamente sensibili a piccoli
intervalli di frequenza. La figura 4.2.13 mostra le
CSF per 6 cellule della corteccia striata del macaco.
Le cellule non hanno tutte lo stesso grado di specificità:
in genere quelle sensibili alle alte frequenze hanno
un intervallo più piccolo di risposta, e così
anche le cellule semplici. Anche per l'orientamento
c'è un continuum di specificità, e queste
due caratteristiche di selettività sono correlate:
le cellule con una gamma più ampia di selettività
per la frequenza di solito ce l'hanno anche per l'orientamento.
La figura 4.2.14 mostra la disposizione spaziale nello
strato corticale delle cellule con diversa sensibilità
alla frequenza e all'orientamento (De Valois e De Valois).
Per i gatti la dimensione della frequenza e quella dell'orientamento
si trovano su due assi cartesiani ortogonali all'interno
di ogni ipercolonna. Per le scimmie queste due dimensioni
corrispondono invece a coordinate polari, cioè
l'orientamento è rappresentato dalla direzione
dal centro dell'ipercolonna, la frequenza dalla distanza
dal centro.
La teoria della frequenza spaziale e quella proposta
da Hubel e Wiesel hanno implicazioni molto differenti.
Secondo la prima, le cellule della V1 non rispondono
a caratteristiche come linee e bordi, ma sono filtri
che analizzano l'immagine in modo più generale
scomponendola nelle sue componenti. Queste due teorie
sono compatibili se si suppone che le cellule che riconoscono
linee e bordi si trovano ad un livello superiore, ma
non con la pretesa che questo riconoscimento è
implementato già nell'area V1.
4.3
APPROCCI COMPUTAZIONALI
Il
punto di vista dominante tra le teorie computazionale
è quello di Marr e colleghi, i quali si sono
focalizzati su come si individuano le caratteristiche
naturali di un immagine non a colori, come le linee
e i bordi; ciò è in stretta relazione
con gli studi di Hubel e Wiesel sulle cellule della
corteccia striata.
Esistono altri approcci alternativi: ad esempio, uno
è basato sulla teoria della frequenza spaziale,
quindi si concentra sui filtri nella visione. Inoltre
un importante campo emergente è il connessionismo,
che utilizza tecniche di apprendimento per far sì
che una rete neurale si programmi da sola per eseguire
un compito, e poi studiare in che modo ciò è
stato fatto. Questo metodo ha portato tra l'altro alla
creazione di unità neuronali simili alle cellule
di Hubel e Wiesel.
4.3.1
Gli schemi primari di Marr
Nella
visione computazionale, la prima cosa che va cercata
in un'immagine sono le linee e i bordi. Marr propose
una teoria strutturata su due schemi primari (primal
sketches) : lo schema primario grezzo (raw) e quello
completo (full).
Il raw primal sketch è il primo passaggio che
avviene dai dati che arrivano alla retina ad una rappresentazione
simbolica dell'immagine (vengono dette simboliche perché
si tratta di classi discrete). Nel primal sketch esistono
4 tipi di caratteristiche dell'immagine: bordi, linee
(o barre), macchie e terminazioni.
Il raw primal sketch contiene anche alcuni parametri
di informazioni sulle 4 classi: posizione, grandezza,
orientamento e contrasto. Anche se Marr non ne parla,
si possono aggiungere ad essi anche movimento e colore.
Il full primal sketch è un'elaborazione ulteriore
del precedente, in cui ad esempio si collegano linee
e bordi e si raggruppano elementi simili.
4.3.2
Individuazione dei bordi
I
bordi sono gli elementi più studiato tra i costituenti
dell'immagine. Essi sono importanti perché indicano
un cambiamento di luminanza tra due superfici, che può
avere varie cause: cambiamento di riflettanza, di illuminazione
o di orientamento della superficie.
Individuatori
di bordi e convoluzioni:
Un individuatore di bordi è una schema computazionale
che serve a integrare i valori nella scala di grigi
di pixel adiacenti in una qualche zona per produrre
un singolo numero che rappresenta la probabilità
che ci sia un bordo di luminanza in quella zona dell'immagine.
La figura 4.3.1 rappresenta 5 semplici individuatori
di bordi. I valori (pesi) servono a integrare zone locali
di pixel per rappresentare bordi di luminanza. I individuatori
di primo ordine (A e B) calcolano la differenza tra
pixel adiacenti, quelli di secondo ordine calcolano
differenze di differenze. In tutti i casi la somma dei
pesi è zero.
I bordi vengono individuati per mezzo della convoluzione
di un individuatore di bordi con un'immagine. Una convoluzione,
in termini matematici, è ciò che fa uno
strato di cellule corticali, con organizzazione retinotopica
e campi recettivi con struttura come quella dei individuatori
di bordi, con un'immagine in arrivo. Ogni cellula calcola
la somma degli impulsi eccitatori e inibitori, e il
risultato di tutte le cellule è la convoluzione
del loro campo recettivo con l'immagine. Un esempio
di convoluzione di un'immagine con un individuatore
di primo ordine verticale e uno orizzontale è
dato dalla figura 4.3.2.
Queste cellule non rispondono alle regioni di luminanza
uniforme e poco ai cambiamenti graduali, ma hanno una
risposta massima per i cambiamenti bruschi di luminanza.
La figura 4.3.3 mostra una rete neurale che attua la
convoluzione di un individuatore di bordi verticale
con l'immagine della figura 4.3.2. I computer implementano
le convoluzioni in serie (spostando il individuatore),
ma il sistema visivo lo fa in parallelo, quindi più
velocemente.
I individuatori delle figura 4.3.2. e 4.3.3 sono detti
di primo ordine, perché individuano semplici
differenze tra pixel adiacenti, cioè calcolano
la pendenza della funzione di luminanza lungo una particolare
direzione. I individuatori di secondo ordine invece
calcolano le differenze tra individuatori di primo ordine
adiacenti: qui i bordi non sono indicati dai valori
estremi, ma dallo zero affiancati da valori estremi.
L'algoritmo
dello zero-crossing di Marr e Hildreth:
Un bordo di luminanza unidimensionale viene individuato
da un individuatore di bordi di primo ordine come il
valore estremo, cioè la massima pendenza della
funzione di luminanza. La pendenza per ogni punto descrive
a sua volta una funzione, chiamata la derivata prima
della funzione di luminanza (vedi fig. 4.3.4). Il bordo
è appunto il picco della derivata prima.
Marr e Hildreth criticarono questo modello come dispendioso
e poco pratico per il numero di cellule richieste. Ne
proposero uno più economici: l'algoritmo dello
zero-crossing ( passaggio dello zero) della derivata
seconda della funzione di luminanza. La derivata seconda
è la funzione di pendenza della derivata prima,
cioè la pendenza della pendenza della funzione
di luminanza (fig. 4.3.4D e 4.3.4E). In questa funzione
la posizione del bordo è sullo zero tra un valore
estremo positivo e uno negativo. La derivata seconda
viene calcolata dai individuatori di bordi di secondo
ordine (fig. 4.3.1C, 4.3.1D, 4.3.1E).
I individuatori di secondo ordine orizzontali e verticali
(4.3.1C e 4.3.1D) possono essere combinati in quelli
omnidirezionali (4.3.1E). Il risultato è equivalente
a quello della derivata prima (entrambe riescono ad
individuare correttamente i bordi), ma questo algoritmo
è molto più vantaggioso perché
una sola cellula calcola i bordi in tutti gli orientamenti
contemporaneamente. Nella figura 4.3.5 si vede una versione
di un tale individuatore non più discreto ma
continuo, e si può notare la somiglianza di questa
struttura con il campo recettivo a sombrero delle cellule
gangliari della retina e quelle del LGN.
La figura 4.3.6 mostra l'applicazione dell'algoritmo
dello zero-crossing su un'immagine naturale in bianco
e nero.
Una complicazione è che i bordi di luminanza
hanno proporzioni diverse, alcuni più bruschi
e altri più graduali. Marr e Hildreth propongono
perciò 3 diversi tipi di individuatori: grandi
(per risoluzione bassa), medi (per risoluzione media)
e piccoli (per risoluzione alta). I tre output vengono
poi integrati in un'unica rappresentazione. La figura
4.3.7 è un esempio dei tre tipi di risoluzione.
In un'immagine naturale è comunque più
facile trovare i bordi più importanti sia ad
un livello basso che ad uno più alto, ed il trovare
un bordo a più livelli rende più probabile
che ci sia davvero quel bordo nell'immagine originale
(vedi fig. 4.3.8).
Marr e Hildreth costruirono questo modello non dal nulla,
ma integrando elementi che già esistevano, come
la convoluzione con i individuatori (Duda e Hart), l'individuazione
dello zero-crossing (Horn), i livelli di risoluzione
(Rosenfeld, Thurston e Lee).
Implementazione
neurale:
Marr e Hildreth posero particolare attenzione alla plausibilità
biologica del loro algoritmo (si occuparono di come
questo poteva effettivamente venire implementato nell'hardware
neurale); chiaramente la convoluzione dell'immagine
con i individuatori di bordi di II ordine corrisponde
all'operato delle cellule retiniche ganglionari e di
quelle del LGN, proprio l'output del LGN corrisponde
al risultato della convoluzione (fig.4.3.6B): infatti
tali cellule presentano un campo recettivo analogo ai
individuatori di bordi omnidirezionali di II ordine
(on-cells/off-cells). L'output dl LGN non presenta ancora
una detezione esplicita dello zero-crossing (che dovrà
essere effettuata a livelli successivi ).
Lo zero-crossing può venire individuato esplicitamente
a partire dall'output dei individuatori di secondo ordine
(che presenta valori positivi e negativi elevati ) tramite
un operatore in grado di implementare la congiunzione
logica (AND ) tra le afferenze di on-cells e off-cells
(fig.4.3.9 ); tali unità corrisponderebbero alle
cellule semplici di Hubel-Wiesel (situate nell'area
V1 ). Le cellule semplici della corteccia striata sarebbero
quindi deputate alla detezione esplicita dello zero-crossing
dall'output dei individuatori di II ordine.
Canny (1986 ) propose un nuovo e più efficace
algoritmo per la detezione dei bordi basato su elaborazioni
matematiche che, a partire da individuatori di bordi
di I ordine, ricavavano un individuatore ottimale (buona
approssimazione delle cellule semplici di Hubel-Wiesel
)(fig4.3.10 ).
In seguito altri ricercatori (Deriche, 1987; Spacek,1985
) proposero altre soluzioni ricavate da tecniche di
massimizzazione analoghe a quelle utilizzate da Canny.
Integrazione
di scale:
Gli algoritmi per la detezione di bordi presentati non
risolvono il problema dell'integrazione di scale di
differenti dimensioni, in pratica il sistema visivo
deve essere in grado di integrare informazioni a diverse
definizioni dell'immagine visiva per trovare le corrispondenze
dei bordi a diverse scale (fig.4.3.12). Ad ogni scala/definizione
si trovano più bordi (in numero maggiore per
le alte definizioni, minore per le basse definizioni)
e risulta non banale riconoscere lo stesso bordo su
più scale (a seconda della definizione a cui
sono analizzati i bordi possono cambiare non solo posizione
ma addirittura orientamento ).
Witkin (1983 ) propose un algoritmo basato sul concetto
di spazio delle scale: dall'idea di 3 livelli diversi
di definizione/dimensione degli individuatori di bordi
(Marr-Hildreth ) si passa a considerare un continuum
(spazio delle scale ) dalle più alte definizioni
a quelle più basse. Tramite questo continuum
è possibile "seguire" un bordo fra
le diverse scale, riconoscendoli (fig.4.3.13 ).
L'algoritmo dello spazio delle scale può venir
implementato in qualche forma dal sistema visivo umano
solo supponendo una rappresentazione delle dimensioni
molto completa. Effettivamente dati compatibili con
tale supposizione vengono dallo studio dei campi recettivi
delle cellule corticali (sono state osservate dense
rappresentazioni delle dimensioni a diverse frequenze
spaziali ).
Schema
primario grezzo:
Nello schema primario grezzo per Marr sarebbero stati
codificati simbolicamente non solo i bordi ma anche
barre, macchie, terminazioni (tutti considerati elementi
primitivi ). (Le figg.4.3.14A-B mostrano lo zero-crossing
a due scale diverse della fig.4.3.6A; le figg.4.3.14C-D-E
mostrano invece rispettivamente macchi, bordi e barre
individuati tramite un algoritmo automatico ).
Le barre sono definite come corti segmenti terminanti
fuori dal campo recettivo, le terminazioni come parti
finali di bordi e barre, le macchie sono barre brevi
con terminazioni su entrambi i lati. Come l'individuazione
di bordi è svolta da cellule semplici, così
dovrebbe essere anche per l'individuazione barre, l'individuazione
di terminazioni dovrebbe invece essere operata dalle
cellule ipercomplesse.
Le terminazioni vengono inserite nello schema primario
grezzo (pur non essendo oggetti ma parti di oggetti)
per il ruolo importante che sembrano rivestire in alcuni
forti effetti percettivi. I contorni illusori (fig.4.3.15
) sono contorni percepiti senza che vi sia un bordo
di luminanza fisico: sembrano dovuti al ruolo dei terminatori
che possono indicare occlusione (di linee o bordi da
parte di altri bordi).
Lo schema primario grezzo è la prima rappresentazione
simbolica del modello di Marr: aspetti di un'immagine
(analogica ) sono trasformati in un insieme (discreto
) di barre, bordi, terminazioni, macchie. Queste quattro
categorie di aspetti di dell'immagine vengono considerati
nella rappresentazione simbolica tipi (types ) ed ogni
singolo bordo, macchia, barra, terminazione è
detto segno (token ) di quel tipo. Ciascun segno, per
essere distinto dagli altri segni dello stesso tipo,
viene distanziato tramite alcuni parametri: posizione,
orientamento, contrasto di luminanza e dimensioni ).
Le posizioni (sugli assi x-y ) sono rappresentate grazie
alla retinotopicità della mappa- output dello
schema primario grezzo; molte computazioni successive,
basate sullo schema primario grezzo, sono rese possibili
all'interno di regione specifiche proprio dalla disposizione
retinotopica (che mantiene, per definizione, le posizioni
reciproche fra elementi ), per questo è necessario
a tale livello il mantenimento della struttura 2-D dell'immagine.
Lo schema primario completo del modello di Marr deriva
da quello grezzo tramite processi organizzanti i segni:
legami tra segmenti, raggruppamenti di elementi, divisioni
in regioni in base a gruppi di texture (trama ).
4.3.3: "Teorie computazionali alternative"
Più
spiegazioni computazionali sono state avanzate sulla
funzione delle cellule di Hubel-Wiesel. Una possibilità
è che tali neuroni rappresentino un passaggio
cruciale per l'analisi dell'informazione data dalle
texture; un'altra è che servano a ricavare le
curvature delle superfici a partire dall'ombreggiatura
di queste.
Analisi
di texture (Malik e Perona, 1990 )
Attraverso il processo di analisi delle texture il sistema
visivo può distinguere aree/regioni distinte
spazialmente da proprietà statistiche. L'area
V1 sarebbe per alcuni autori deputata alla segregazione
di regioni dell'immagine visiva in base all'informazione
ricavabile da texture (fig.4.3.16 ). La teoria può
spiegare in modo economico molti risultati sulla percezione
di texture assumendo i campi recettivi dei neuroni di
V1 analizzino texture tramite l'informazione sull'orientamento
e la frequenza spaziale. L'algoritmo proposto non individua
bordi di luminanza ma produce solo quello che sarà
l'input per un successivo riconoscimento di discontinuità
nelle superfici; se questa fosse vera si dovrebbe pensare
ad un coinvolgimento delle cellule di Hubel-Wiesel in
più funzioni.
Strutture
dell'ombreggiatura (Lehky e Sejnowski, 1988-1990 )
Sulla base della ricerca con reti neurali è stata
proposta una differente funzione dei neuroni presenti
in V1. Il problema studiato è la capacità
di ricavare da differenze di luminanza dovute alla struttura
degli oggetti (ombre), la struttura medesima. Le figure
4.3.17 A e B dimostrano come rappresentazioni 2-D di
oggetti 3-D non sia in grado di far comprendere la sua
struttura se privato di ombre/bordi di luminanza.
Una rete neurale a 3 strati in grado di riconoscere
la curvatura di un oggetto a partire dalle differenze
di luminanza presentate dall'immagine (fig.4.3.18) è
stata ricavata tramite backpropagation (algoritmo di
correzione automatica dei pesi sulle connessioni tra
nodi su diversi livelli).
L'input della rete è stato dato come immagine
filtrata da on-cells (61) e off-cells (61); l'output
come caratteristiche codificanti la curvatura dell'immagine;
tramite backpropagation si andavano a modificare i pesi
delle unità nascoste (strato intermedio). Il
risultato interessante è che i campi recettivi
delle unità nascoste ricordavano quelli dei neuroni
presenti in V1 (fig.4.13.19). I campi recettivi trovati
erano allungati e costituiti da più lobi (probabilmente
per le caratteristiche dell'immagine da gestire).
Un'analisi formale delle strutture a partire dalle ombreggiature
(Pentland,1989) ha mostrato che sotto certe condizioni
un set di filtri di Gabor può essere sufficiente
a ricostruire strutture di oggetti da loro proiezioni.
Tali filtri comprendono una campionatura di frequenze
spaziali e orientamenti secondo fasi di seno e coseno
in diverse posizioni: questo è il set di campi
recettivi di cellule di V1 secondo alcuni autori: potrebbe
quindi darsi che l'output delle cellule di V1 sia il
primo passo per arrivare dall'ombreggiatura alla forma
(come sostiene l'ipotesi di Lehky e Sejnowsky).
4.3.4 Sintesi teorica
Si
tenterà di fare il punto sui risultati inerenti
le cellule scoperte da Hubel-Wiesel
Filtri
locali di frequenza spaziale:
Queste cellule potrebbero rappresentare l'implementazione
fisiologica dei canali per la frequenza spaziale 8IPOTIZZATI
DA Campbell e Robson,1968), con la differenza che i
neuroni suddetti avrebbero campi retinici localizzati
(riguardanti piccole porzioni retiniche), mentre i canali
per la frequenza spaziale si ipotizzavano distribuiti
per tutto il campo recettivo. Ogni ipercolonna di V1
analizzerebbe quindi solo una piccola porzione di campo
recettivo tramite le cellule semplici (sensibili a particolari
frequenze spaziali e direzione dello stimolo, come ipotizzato
dalla teoria della frequenza spaziale). Le cellule semplici
svolgerebbero una analisi di Fourier locale.
Dal punto di vista computazionale le cellule di V1 svolgerebbero
un ruolo di individuatori di bordi su diverse scale
(Marr-Hildreth,Witkin) con ipotesi anche di un ruolo
di queste stesse cellule nell'analisi di texture (Malik-Perona)
e sulla loro appartenenza a un sistema di analisi della
struttura basato sulla ombreggiatura (Lehky e Sejnowsky).
Riuscire a concludere qualcosa sul reale significato
funzionale delle cellule di V1 implica il riconoscere
una qualche compatibilità sulle osservazioni
fatte in diversi ambiti; forse le diverse descrizioni
rappresentano solo una risposta adeguata relativa a
livelli di analisi differenti (fig.4.3.20). Il punto
di vista psicofisico è generale e specifica solo
che i campi recettivi di questi neuroni richiamano caratteristiche
delle funzioni di Gabor, ciò è compatibile
con l'ipotesi che gli output di queste cellule vengano
utilizzati per successivi processi di detezione dei
bordi, suddivisioni secondo texture e riconoscimento
di forme 3-D a partire dall'ombreggiatura (processi
che potrebbero anche essere svolti tutti in parallelo),
nonché per altre funzioni non ipotizzate. Da
V1, dove avvengono le elaborazioni primarie) si passerebbe
così ad altre aree deputate a elaborazioni più
specifiche (tutte basate però sugli output delle
cellule di Hubel-Wiesel).
Marr aveva ipotizzato uno schema primari grezzo simbolico
(costituito de barre, bordi, macchie e terminatori)
visto come rappresentazione basata sull'immagine necessaria
ad elaborazioni successive: V1 rappresenta l'immagine
visiva piuttosto in termini di output continuo di analizzatori/filtri
(sensibili a posizioni, orientamenti, scale, fasi),
ma la sua funzione appare analoga a quella ipotizzata
per lo schema primario grezzo (tale rappresentazione
è sufficientemente generale ed efficiente). Questo
inficia tuttavia la supposizione di Marr che il sistema
visivo "diventi simbolico" a livelli iniziali:
una quantità maggiore di informazione (necessaria
a livelli successivi di analisi) di un set di primitive
simboliche (premature a questo livello).
Sfruttamento
della struttura delle immagini naturali:
La rappresentazione delle immagini visive è costruita
in questo modo probabilmente per permettere di gestire
al meglio la struttura delle immagini naturali (Barlow,1961),
cioè delle immagini di ambienti naturali visti
in condizioni naturali. Sfruttare la struttura significa
eliminare la ridondanza permettendo di rappresentare
efficientemente l'informazione visiva. Per dimostrare
la veridicità di questa ipotesi è necessario
controllare se l'output dei filtri di Gabor è
in qualche modo preferibile ad altri: alcune prove vengono
da studi computazionali sulla struttura statistica di
immagini naturali (Field,1993,1994) e sulla possibilità
di ottimizzare i campi recettivi delle cellule di V1
per l'estrazione di informazione di questo tipo (Olshausen
e Field,1996).
La
comprensione del concetto di struttura statistica delle
immagini naturali presuppone la spiegazione del concetto
di spazio degli stati in un array di recettori. Dato
un array di n recettori (ciascuno dei quali possa rappresentare
valori in un certo intervallo di luminanza), ogni possibile
immagine rappresentabile in tale array corrisponde a
un punto nello spazio n-dimensionale detto "spazio
degli stati". Ogni dimensione di tale spazio corrisponde
all'output di un singolo recettore (luminanza del singolo
pixel corrispondente). Ogni immagine corrisponde a un
punto, sullo spazio, individuato dai valori di tutti
i suoi pixel (un valore per dimensione).
Lo spazio degli stati rappresenta ogni immagine ( che
può venire registrata dall'array di recettori)
come un singolo punto; lo spazio degli stati rappresenta
a sua volta il set di tutte le immagini che l'array
può codificare.
Il set delle immagini naturali rappresenta, a questo
punto, un subset delle immagini che possono essere rappresentate
dallo spazio degli stati e, siccome è molto piccolo
rispetto a questo, andrà a occupare una piccola
parte dello spazio degli stati: il problema è
capire come si presenta la distribuzione di immagini
naturali. Considerando un caso molto semplificato (un
array di 2 recettori codificanti a livello di luminanza)(fig.4.3.22)
si può subito notare la differenza fra distribuzioni
casuali (fi.4.3.22 B) e strutturate (fig.4.3.22 C).
E' importante notare che il sistema visivo potrebbe
servirsi di eventuali strutture statistiche di immagini
naturali per risultare più efficiente. Effettivamente
le immagini naturali hanno una struttura statistica
(seppur molto complessa) nello spazio degli stati.
Un altro problema è come avvenga lo sfruttamento
della struttura statistica delle immagini naturali da
parte del sistema visivo. Sono state proposte 2 possibilità:
la codifica compatta (che prevede la registrazione degli
output degli array di recettori per minimizzare le unità
utilizzate (fig.4.3.23 A) e la codifica distribuita
(secondo cui la registrazione degli output dei recettori
porterebbe a minimizzare le unità attivate) (fig.4.3.23);
i due metodi hanno diverse implicazioni riguardo ai
campi recettivi che verrebbero utilizzati per la registrazione
di immagini.
Un metodo per ottenere una codifica compatta è
l'analisi dei princìpi componenti (PCA).
La PCA è una procedura che ricava un set ridotto
di vettori ortogonali (funzioni di base) sufficienti
a comprendere la varianza dei punti rappresentanti le
immagini naturali nello spazio degli stati (i vettori
divengono assi); questo metodo è particolarmente
economizzante: se le immagini naturali avessero una
struttura statistica analizzabile dalla PCA, si potrebbe
averne una codifica molto compatta. Questa ipotesi è
stata vagliata utilizzando algoritmi di apprendimento
non supervisionato (in reti neurali); lo scopo era ricavare
campi recettivi ottimali (in accordo con la PCA). La
fig. 4.3.24 mostra un set di campi recettivi 8x8 prodotti
secondo la PCA (simulanti quelli dei neuroni presenti
in V1); tali campi recettivi non approssimano però
sufficientemente quelli corticali.
Un altro metodo di codifica della struttura delle immagini
naturali è la codifica distribuita, con cui la
rappresentazione minimizza il numero di unità
attive (non quello di unità distribuite). Un
esempio semplificato a due recettori (fig.4.3.25) mostra
una struttura statistica (designante un subset di immagini)
nello spazio degli stati; tra gli assi (recettori A
e B) non c'è una correlazione semplice ma sicuramente
una forte relazione di qualche tipo. Mappando indipendentemente
su A e B le distribuzioni di punti (che si possono considerare
livelli di luminanza) si ottiene sia per A che per B
un istogramma con un valore atteso di luminanza media
(grigio intermedio) ma si osservano anche alte probabilità
di trovare luminanze minime (scuro) o massime (chiaro).
Se a questo punto si fanno ruotare gli assi di 45°
e si osservano nuovamente gli istogrammi di A e B si
osserverà un picco maggiore sui valori intermedi
e proprio tal aspetto (KURTOSIS=CURVATURA?) è
caratterizzato dalla codifica distribuita. Nella registrazione
distribuita si avranno poche unità attive (per
risposte lontane dal valore modale, altamente probabile)
e molte unità inattive (per risposte limitrofe
al valore medio). Esperimenti basati su apprendimento
non supervisionato usato per modellare i campi recettivi
delle unità in modo che producano codifica distribuita
(Olhausen e Field,1996) hanno portato buoni risultati
(fig.4.3.26): usando immagini naturali di 16 x16 pixel
per addestrare una rete di 192 unità di registrazione
in modo da effettuare correzioni penalizzanti le rappresentazioni
non distribuite si ottiene un set di campi recettivi
simile a quello dei neuroni di V1. Tali campi recettivi
sono molto simili alle funzioni di Gabor e comprendono
campi di differente grandezza.
L'algoritmo di apprendimento che è riuscito a
produrre tali campi recettivi si basa su solo due istruzioni
teoriche: l'informazione portata dall'immagine viene
preservata nell'output delle unita di registrazione
(tanto da poter ricostruire con buona approssimazione
l'immagine iniziale, non perdendo informazione); la
registrazione è distribuita (risparmiando unità
attive). La codifica distribuita sembra perciò
preferita sulla corteccia visiva; questo è giustificato
dal bisogno di economizzare unità (ma la codifica
compatta sarebbe ancora più economica; Field
(1994) propone 3 possibilità sul perché
la codifica distribuita venga preferita nei sistemi
visivi:
1. Proporzione di segnale su rumore (migliora nella
codifica distribuita piuttosto che compatta)
2. Individuazione di caratteristiche specifiche (è
meglio assistita da una codifica distribuita per cui
meno unità sono attivate e queste unità
sono più attivate che nella codifica compatta).
3. Immagazzinamento e recupero della memoria associativa
(reti neurali artificiali sembrano immagazzinare più
dati e recuperarli più efficacemente con codifica
distribuita).
Gli studi presentati sulla struttura statistica delle
immagini naturali sono molto promettenti ma ancora in
fase iniziale: manca la possibilità di calcolare
la codifica distribuita ottimale per un set di immagini;
non si è in grado di ipotizzare un meccanismo
neurale plausibile per la implementazione della codifica
distribuita.
4.4 VIE VISIVE
Recentemente
è stato studiato un nuovo aspetto dell'architettura
generale dei processi visivi primari. L'idea è
che il sistema visivo sia organizzato in diverse vie
per il processamento concorrente di diverse proprietà
visive (forma, colore, movimento, profondità
stereoscopica). Tali vie sono strutture neurali più
grosse, incorporate in popolazioni di cellule interconnesse.
4.4.1
Prove fisiologiche
L'idea
che ci siano rappresentazioni neurali diverse per diverse
proprietà nasce dagli studi sulle aree visive
superiori. I primi studi (Zeki,1974) suggerivano che
l'area MT (medio temporale) fosse specializzata nell'analisi
di informazioni di movimento e l'area V4 (visiva IV°)
nelle informazioni sul colore. Ma poiché i recettori
portano con sé tutte le informazioni, il sistema
visivo deve separarle a qualche livello delle vie visive
o nelle aree corticali. Dove?
Vi sono prove anatomiche e fisiologiche di differenze
funzionali nella retina, mantenute anche negli strati
Magno- e Parvocellulare del LGN e poi ulteriormente
suddivise in V1.
Livingstone e Hubel (1987) formularono interessanti
ipotesi sul loro ruolo funzionale. La loro idea è
schematizzata nella fig.4.4.1. La prima distinzione
è fra le cellule gangliari M (cerchi pieni) e
cellule gangliari P (cerchi vuoti), nella retina. La
loro ipotesi è che le cellule M portino l'informazione
riguardo al movimento e alla profondità stereoscopica
e le cellule P l'informazione relativa al colore e alla
forma. Ogni gruppo proietta selettivamente ai neuroni
Magno e Parvocellulare del LGN, dove continua la separazione
funzionale. Una ulteriore separazione avviene al livello
dell'area V1. Livingstone e Hubel osservarono innanzitutto
che i neuroni Magno e Parvocellulare terminano in diverse
regioni dello strato 4 in V1. I neuroni Magnocellulari
sinaptano nello strato 4Ca e i Parvocellulari in 4Cb.
Questi substrati proiettano a loro volta selettivamente
agli strati 4B e 2 &3.
Vi sono inoltre 2 diverse subregioni negli strati 2&3
per ogni ipercolonna di V1: le regioni "blob"
(chiazzate) al centro dell'ipercolonna, e le regioni
"interblob" intorno ad esse. Le regioni blob
sono ricche dell'enzima citocromo ossidasi, infatti
le porzioni superiori di V1 hanno un caratteristico
aspetto maculato dopo essere state trattate con colorante,
come appare nella parte superiore della fig.4.4.2 (sezione
tangenziale della corteccia di una scimmia). Anche l'area
V2 produce un pattern caratteristico se trattata: si
alternano strie grosse e sottili intervallate da strie
pallide (parte inferiore fig.4.4.2). Lo strato 4B in
V1 proietta alle strie grosse in V2, i blobs alle strie
sottili, gli interblobs alle strie pallide. Le altre
vie principali vanno direttamente da 4B a MT. Questa
organizzazione descrive 4 vie con funzioni percettive
potenzialmente diverse. Risultano così 4 sottoinsiemi
funzionali: le strie grosse per la percezione binoculare
di profondità; le strie sottili per la percezione
del colore, le strie pallide per la forma; le proiezioni
dirette per il movimento.
Tale divisione è tutt'altro che chiara (in ogni
strato ci sono più cellule differenti), in ogni
caso va intesa in termini di preponderanza di un tipo
di cellula per ogni via. Le 4 vie sarebbero così
composte:
1. Via del colore: Cellule P in retinaàneuroni
parvocellulari LGNàV1-4Cbà blobs in V1
àV2-strie sottiliàV4... e così
via
2. Via della forma:Cellule P in retinaàLGN-parvoàV1-4Cbàinterblobs
in V1àV2-strie pallideà V4à...
3. Via binoculare: Cellule M della retinaàLGN-magnoàV1-4CaàV1-4BàV2-strie
grosseàMT...
4. Via del movimento: Cellule M in retinaàLGN-magnoàV1-4CaàV1-4BàMTàMST...
Tale ipotesi è controversa. Anche se è
probabilmente errata nel dettaglio (la distinzione funzionale
non è completa), è comunque una ipotesi
integrativa che potrebbe generare interessanti studi.
Anche se la distinzione è fondamentalmente corretta,
è tutt'altro che chiaro come le analisi percettive
necessarie siano attuate. Ad esempio: la via della forma
risponde a stimoli altamente complessi (mani, facce,
ecc.), però non abbiamo idea di come i filtri
locali di frequenza spaziale orientati, in V1, siano
elaborati per arrivare al riconoscimento di una mano.
Gli studi sull'area V4, ad esempio hanno trovato cellule
altamente selettive per pattern diversi dai reticoli
di frequenza spaziale, includendo reticoli radiali,
spiraliformi e iperbolici, ma il loro significato funzionale
è tutt'altro che chiaro (fig.4.4.3 : reticoli
Cartesiani e non-Cartesiani. Questo diagramma indica
la risposta di una singola cellula dell'area V4 a una
varietà di pattern-stimolo. L'intensità
della risposta è codificata in termini di grado
di contrasto. Questa cellula risponde più intensamente
a pattern concentrici).
4.4.2
Prove percettive
Dato
che le nostre esperienze percettive risultano del tutto
integrate, l'idea che ogni componente dell'informazione
venga analizzata in modo separato ci può sembrare
assurda, ma da un altro punto di vista essa è
del tutto naturale. Se si chiede di elencare diversi
aspetti dell'esperienza percettiva, molto probabilmente
le persone affermeranno che forma, colore e movimento
sono caratteristiche separate. Entrambi i punti di vista
possono essere integrati assumendo che i diversi attributi
siano inizialmente elaborati indipendentemente, ma in
seguito uniti a un qualche livello successivo. Secondo
un'influente teoria l'unificazione si ottiene mediante
l'azione dell'attenzione visiva . Essa agirebbe come
una ipotetica "colla percettiva" che leghi
le diverse caratteristiche in oggetti coerenti.
Questa teoria è supportata da una gran quantità
di esperimenti percettivi. Se questi processi sono realmente
separati, dovrebbero esserci chiari e misurabili effetti
nell'esperienza percettiva. E questo è vero almeno
in determinate ristrette circostanze. Una importante
fonte di prove viene dall'analisi di alcune lesioni
selettive della corteccia visiva. Alcuni pazienti presentano
una perdita selettiva della capacità di percepire
il movimento, senza danni alle altre componenti percettive.
In altri, la lesione riguarda selettivamente la percezione
del colore. Tali fenomeni sono facilmente spiegabili
se si considera separata l'analisi delle diverse componenti
del percetto.
Un altro tipo di prove deriva da effetti psicofisici.
Nel 1978 Ramachandran e Gregory ipotizzarono che, se
l'informazione relativa al movimento è processata
nella via magnocellulare e l'informazione relativa al
colore in quella parvocellulare, ci dovrebbero essere
condizioni in cui le persone dovrebbero essere incapaci
di percepire il movimento in stimoli definiti solo da
differenze di colore.
Essi scoprirono che, se punti rossi e verdi di uguale
luminanza posizionati casualmente venivano presentati
alternativamente in posizioni leggermente diverse in
condizioni che avrebbero prodotto normalmente una percezione
di movimento, gli osservatori non potevano percepire
il movimento.
Effetti correlati sono stati trovati nel movimento continuo
di reticoli a bassa frequenza spaziale.
Reticoli di uguale luminanza possono essere ottenuti
costruendo un reticolo sinusoidale che varia fra il
rosso e il verde anziché nero e bianco. Facendo
scorrere questo reticolo attraverso il campo visivo
la sua velocità percepita è molto minore
che se fosse costruito in bianco e nero. Tali reticoli
possono anche apparire fermi, e questo effetto "paradossale"
può essere spiegato solo se il sistema per il
colore è "cieco per il movimento".
Le stesse affermazioni sono state fatte riguardo la
separazione fra colore e informazioni di profondità.
Alcune informazioni di profondità dipendono dalla
luminanza più che dal colore. Le ombre e sfumature
(che forniscono informazioni relative alla luminanza)
sono importanti per percepire la profondità.
Se le gradazioni di chiaroscuro di una fotografia sono
cambiate in differenze cromatiche con uguale luminanza
(ad Es: gradazioni dal rosso al verde) la percezione
di profondità dovuta alla sfumatura diminuisce
o scompare.
Ulteriori studi hanno dimostrato che anche la separazione
percettiva, come quella fisiologica, è tutt'altro
che completa. Il colore sembra contribuire alla percezione
del movimento. Molte evidenze supportano le affermazioni
di Livingstone e Hubel, ma molto poche sono definitive.
Un grosso problema deriva dal fatto che, non è
facile ottenere un'assoluta equiluminanza e molti dei
loro effetti si basano su questa tecnica. Quindi, se
si fallisce nel trovare effetti chiari di separazione,
questo potrebbe essere attribuito sia alla incompleta
separazione delle vie, sia a errori nell'ottenere l'equiluminanza.
Dato che fisiologicamente la separazione è incompleta,
sembra improbabile un chiaro effetto percettivo.
Un altro problema deriva dal fatto che le conoscenze
fisiologiche cambiano di continuo. Ad esempio Livingstone
e Hubel avevano identificato l'area V4 come parte della
via del colore e non della forma (ipotesi basata sui
primi risultati di Zeki,1983). Studi più recenti
dimostrano che lesioni selettive in V4 nelle scimmie,
producono deficit nel riconoscimento di pattern più
che del colore. Inoltre singole cellule in V4 hanno
mostrato selettività per aspetti complessi della
forma. Considerando tutto ciò, possiamo dire
che la teoria delle 4 vie è una semplificazione,
al massimo.
Forse sarà necessaria una nuova, completa riconcettualizzazione
dell'architettura percettiva della corteccia. Attualmente
l'idea delle 4 vie rimane comunque un concetto interessante
che merita ulteriori approfondimenti.
|