Capitolo
2
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per il
corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che non
hanno molta dimestichezza con la lingua inglese.
Le traduzioni sono opera degli stessi studenti
del corso di Psicologia della Percezione 1999
- 2000. Nell'utilizzo di questo materiale va tenuto
conto che la correttezza dello stesso va verificata
confrontando le traduzioni con il testo originale.
Per ulteriori domande, clicca
qui.
|
Approcci
Teorici alla Visione
tradotto
e curato da:
Laura Bortolossi
Cristina Silvestri
Elena Vittone
Elena Burlon
Cristina Zomero
Approcci teorici alla visione 2
2.1
Teorie classiche sulla visione
2.1.1 Strutturalismo
2.1.2 Gestaltismo
Olismo
Isomorfismo Psicofisico
2.1.3 Ottica Ecologica
Analisi della struttura dello stimolo
Percezione diretta
2.1.4 Costruttivismo
Inferenza Inconscia
Interpretazione euristica
2.2 Una breve storia dell'Information Processing
2.2.1 Computer Vision
L'invenzione dei computer
Mondo dei blocchi
Approccio computazionale all'Ottica Ecologica
Connessionismo e Reti Neurali
2.2.2 Psicologia dell'Information Processing
Primi Sviluppi
Registrazione di una singola cellula
Autoradiografia
Tecniche di Brain Imaging
2.3 Teorie dell'Information Processing
2.3.1 La metafora del computer
2.3.2 Tre livelli dell'Information Processing
Il livello computazionale
Il livello algoritmico
Il livello implementazionale
2.3.3 Tre assunzioni sull'Information Procesing
Descrizioni informazionali
Decomposizione ricorsiva
Incorporazione Fisica
2.3.4 Rappresentazioni
2.3.5 Processi
Informazioni Implicite versus Esplicite
Processamento come Inferenza
Assunzioni Nascoste
Processamento Euristico
Assunzioni Nascoste versus Validità Ecologica
Processi Top-down versus Validità Ecologica
2.4 Quattro Stadi della Percezione Visiva
2.4.1 Immagine Retinica
2.4.2 Stadio Basato sull'Immagine
2.4.3 Stadio Basato sulle Superfici
2.4.4 Stadio Basato sugli Oggetti
2.4.5 Stadio Basato sulle Categorie
Gli
scienziati della visione cercano di capire come la conoscenza
dell'ambiente può essere estratta dalla luce
che entra negli occhi. Il sapere scientifico di un dominio
complesso, quale è quello della percezione visiva,
richiede molto di più che una semplice conoscenza
dei fatti; richiede una teoria. Una teoria è
un integrato set di asserzioni (chiamate ipotesi) sui
meccanismi costitutivi o principi che, non solo organizzano
e spiegano i fatti, ma fanno anche delle predizioni.
Esamineremo molte teorie in questo libro. Molte di queste
hanno qualcosa in comune: non sono corrette. Conoscere
teorie diverse, anche incomplete o sbagliate, è
importante perché anch'esse possono contenere
importanti elementi veri o possono proporre un nuovo
e illuminante punto di vista.
Come decidere qual è la teoria migliore? Gli
scienziati usano un principio chiamato rasoio di Ockham:
la miglior teoria è quella più parsimoniosa,
cioè la teoria che spiega i risultati empirici
con meno assunzioni. Alla parsimonia, come criterio
di valutazione, va aggiunta alla consistenza logica
e all'adeguatezza empirica.
________________________________________________________________________________
2.1 TEORIE CLASSICHE DELLA VISIONE
Kurt
Koffka (1935), psicologo gestaltista, enucleò
meglio di chiunque altro il problema della percezione
visiva in una semplice domanda: "Perché
le cose appaiono come appaiono?" Ecco tre classiche
risposte che formano il cuore di teorie psicologiche
della percezione visiva:
1. Ambiente versus organismo. Una possibile risposta
al quesito di Koffka è "Perché il
mondo è fatto così". Questa frase
rimanda all'analisi delle condizioni esterne per capire
la percezione. In particolare, suggerisce che si potrebbe
esaminare se il tipo di informazione dello stimolo prossimale
corrisponde a quella dello stimolo distale. Una risposta
alternativa potrebbe essere "Perché il nostro
sistema nervoso della visione è fatto così".
Qui si richiama all'analisi della natura dell'organismo
piuttosto che alla natura esterna del mondo. Facendo
un compromesso è possibile trovare una posizione
intermedia: sia la struttura degli stimoli esterni,
che la struttura interna dell'organismo sono importanti.
2. Acquisito versus innato. "Perché abbiamo
imparato a vedere in quel modo": è la visione
empirista in accordo con il fatto che noi vediamo in
quel modo grazie alle conoscenze accumulate con la nostra
personale interazione con il mondo. Una risposta alternativa
è "Perché siamo nati per vedere in
quel modo", questo è il punto di vista innatista
per cui noi non abbiamo bisogno di acquisire specifiche
conoscenze durante la nostra vita perché l'evoluzione
ci ha forniti del necessario meccanismo neuronale. Questa
spiegazione in termini di maturazione può considerarsi
innatista.
3. Atomismo versus olismo. "In funzione del modo
in cui appare ogni piccolo pezzo del campo", questa
è la visione atomistica per cui la percezione
dell'intero campo visivo si può raggiungere semplicemente
mettendo insieme ogni pezzo dell'esperienza visiva di
ogni regione locale. Ciò contrasta con la risposta
" In funzione del modo in cui è organizzato
l'intero campo visivo ": questa è la visione
olistica che suggerisce che pezzi singoli non possono
essere semplicemente messi insieme ma devono essere
integrati globalmente.
4. Introspezione versus comportamento. Questa controversia
concerne se la teoria della percezione può derivare
dalle osservazioni fenomenologiche della nostra esperienza
conscia (introspezione) o da misurazioni obiettive della
performance umana (comportamento). Koffka presupponeva
un approccio introspettivo chiedendosi "Perché
le cose appaiono come appaiono?", infatti "come
appaiono " presuppone l'esperienza cosciente. Un
comportamentista si sarebbe chiesto "Che cosa ci
rende capaci di fare la visione?"
Con
queste domande in mente analizziamo ora quattro teorie
diverse della percezione visiva; tre di queste, strutturalismo,
gestaltismo e ottica ecologica, sono facilmente identificabili
con le quattro questioni chiave, l'ultima, il costruttivismo
è una specie di mix delle altre tre. Il costruttivismo
rappresenta la corrente dominante e ci porta direttamente
al moderno punto di vista dell'Information Processing.
TEORIA INNATISMO VSEMPIRISMO ATOMISMO VS OLISMO ORGANISMO
VS AMBIENTE PRINCIPALE ANALOGIA METODO
Strutturalismo Empirismo Atomismo Organismo Chimica
Introspezione
Gestaltismo Innatismo Olismo Organismo Fisica Introspezione
Ottica Ecologica Innatismo Olismo Ambiente Risonanza
meccanica Analisi dello stimolo
2.1.1 STRUTTURALISMO
Il
primo approccio psicologico alla teoria della percezione
è chiamato strutturalismo: mette radici nella
scuola filosofica dell'empirismo inglese (Locke , Berkeley,
Hume). Queste idee furono introdotte in psicologia dal
suo padre fondatore, W.Wundt in Germania e furono più
tardi portate negli Stati Uniti da uno dei suoi allievi,
E.Titchener.
Lo strutturalismo vede la percezione come un processo
che sorge da atomi sensoriali base, primitivi, indivisibili
elementi dell'esperienza specifica di una modalità
(visiva, uditiva), che rimandano a ricordi di altri
atomi sensoriali che sono stati associati (raggruppati
assieme) nella memoria attraverso avvenimenti ripetuti
precedentemente. Queste associazioni si verificano quando
l'esperienza sensoriale è abbastanza chiusa in
uno spazio e in un tempo e dopo un sufficiente numero
di presentazioni. Nel caso della visione gli atomi sensoriali
sono le esperienze visive di colore in ogni piccola
regione del campo visivo risultanti presumibilmente
dall'attività di ogni fotorecettore nella retina.
Queste locali sensazioni sono assunte come combinazione
da semplici concatenazioni in percezioni: immaginiamo
di unire assieme pagine trasparenti ognuna delle quali
contiene una piccola macchia di colore ad una singola
locazione al fine di creare un disegno unitario.
Inoltre le esperienze visive suscitano ricordi di altre
modalità sensoriali tramite associazione. Ad
esempio la memoria di com'è un cane può
essere associata a come abbaia, al suo odore, etc.;
e una parte del cane, ad esempio la testa, può
essere associata ad un'altra parte del corpo come le
gambe, il corpo e la taglia. La percezione è
concepita come un processo di associazione molto rapido
e inconscio che permette l'accesso alla memoria attraverso
l'esperienza con il mondo. Secondo il Strutturalismo,
un osservatore apprende sempre di più grazie
alle associazioni, e le sue percezioni diventano più
ricche, più accurate, e più complesse.
Le sensazioni sono tenute assieme in percetti più
complessi, che sono il risultato di associazioni nella
contiguità spazio-temporale delle esperienze
passate.
Un altro fondamento su cui il strutturalismo è
costruito è il metodo dell'introspezione "allenata".
Gli strutturalisti ritengono che uno può scoprire
le unità elementari della percezione spostando
l'attenzione all'interno (introspezione) e osservando
la sua stessa esperienza. Prima la persona deve essere
addestrata ma, ad ogni modo, rimane un metodo poco credibile
in quanto ha forti influenze rilevabili nei risultati
ottenuti
Comunque il strutturalismo può essere visto come
una fase di transizione tra il periodo filosofico all'inizio
della storia della teoria della percezione e un periodo
psicologico più sofisticato. Senza benefici per
le scoperte dei nuovi scienziati, il strutturalismo
ha cercato di tradurre la visione filosofica degli empiristi
inglesi più o meno direttamente nell'emergente
disciplina della psicologia.
2.1.2
GESTALTISMO
Storicamente
il movimento gestaltista è considerato una reazione
contro il strutturalismo; i suoi leader furono Max Wertheimer,
Wolfang Kohler, Kurt Koffka.
Olismo.
Gestalt è una parola tedesca che significa "forma
intera" o "configurazione". Come il nome
suggerisce, l'idea strutturalista che i gestaltisti
rifiutarono più veemente è quella secondo
cui la percezione e costruita da atomi di sensazioni
uniti da una semplice concatenazione. Infatti il loro
grido di battaglia era "L'intero è diverso
dalla semplice somma delle parti"; un esempio sono
le configurazioni che hanno delle proprietà emergenti
che non sono divisibili in nessuna delle loro parti
locali. I Gestaltisti rifiutano le idee strutturaliste
perché la semplice concatenazione delle parti
può raramente catturare la struttura percepita
dell'intero. Il merito dei psicologi Gestaltisti fu
quello di teorizzare quegli aspetti della percezione
che dipendono dalla qualità della figura intera
o dalla configurazione.
Ovviamente i Gestaltisti rifiutano l'analogia classica
del strutturalismo con la chimica perché è
una visione troppo atomistica. Preferiscono riferirsi
ai processi mentali come una analogia alle forze dei
campi magnetici della fisica. L'aspetto cruciale dei
campi magnetici a cui si appellano i gestaltisti è
la loro natura olistica. Per esempio, una singola particella
caricata positivamente definisce un campo magnetico
che si estende in uno spazio. Ma se si aggiunge una
seconda particella, la struttura dell'intero campo magnetico
cambierà, è cambierà in relazione
alla carica delle due particelle. Questo esempio è
conforme all'idea gestaltista della struttura delle
configurazioni come un intero, piuttosto che come una
concatenazione di parti.
Come ulteriore reazione contro lo strutturalisno i Gestaltisi
rifiutano l'empirismo come base della percezione. Per
esempio, essi credevano che il meccanismo dell'organizzazione
percettiva non richiede apprendimento dall'esperienza,
ma avviene grazie all'interazione delle strutture del
cervello con la struttura dello stimolo. Comunque, la
posizione innatista nella teoria gestaltista è
meno centrale di quella olistica.
Isomorfismo
Psicofisiologico. I Gestaltisti formularono la loro
posizione nella relazione tra mente e cervello nella
loro dottrina dell'isomorfismo psicofisico. Esso consiste
nel fatto che le esperienze percettive sono strutturalmente
le stesse (isomorfiche) ai sottostanti eventi mentali
(fisiologici). Un esempio è la teoria dell'isomorfismo
psicofisiologico della teoria dell'opponent process
(Hering): cioè ci sono sei colori primari strutturati
come tre paia di opposti: rosso vs verde, blu vs giallo,
nero vs bianco. Questa analisi è basata su osservazioni
intuitive grazie alle esperienze visive del colore.
La dottrina Gestaltista dell'isomorfismo psicofisiologico,
asserisce che ci potrebbero essere delle strutture neurali
corrispondenti che governano la percezione del colore.
Ci sono delle evidenze sperimentali che confermano questa
ipotesi: nel sistema visivo umano ci sono tre tipi di
neuroni che codificano il colore in tre paia di opposti
rosso/verde, blu/giallo, nero/bianco, proprio come l'analisi
dell'esperienza del colore di Hering suggerisce. Questa
corrispondenza tra esperienze del colore e eventi neuronali
opposti supporta la dottrina Gestaltista dell'isomorfismo
psicofisiologico.
Ma l'isomorfismo psicofisiologico non è sufficiente
a definire una teoria neurologica delle funzioni mentali.
Wolfang Kohlerhikkokkh (1920/1950), esplorò in
modo più approfondito le connessioni tra le idee
della teoria della Gestalt e i meccanismi del cervello
sottostanti. Il cervello stesso è un esempio
di ciò che chiamiamo Gestalt fisica: un sistema
fisico dinamico che converge verso uno stato di equilibrio
spendendo energia il meno possibile. I Gestaltisti usano
spesso la metafora della bolla di sapone: esse hanno
l'interessante proprietà per cui, non importa
la loro forma iniziale, esse inevitabilmente si evolveranno
in una sfera perfetta. I cambiamenti avvengono perché
la distribuzione locale della tensione allo sforzo si
propaga in tutta la superficie finché la bolla
di sapone raggiungerà lo stato di stabilità
globale. Ci sono molte altre "gestalten" fisiche
definibili con questa proprietà dinamica, e i
Gestaltisti credono che il cervello sia il primo esempio.
Il secondo, più specifico principio di Kohler
dice che i meccanismi del cervello che sottostanno alla
percezione sono campi elettromagnetici generati da milioni
di neuroni. Molti esperimenti per testare questa ipotesi
fallirono e, ne conseguì che la teoria della
Gestalt perse i favori della comunità scientifica.
Oggigiorno però le idee gestaltiste hanno avuto
un ritorno nella forma di teorie dinamiche connessioniste,
come vedremo più avanti.
2.1.3
OTTICA ECOLOGICA
Questa
teoria della visione è il risultato primariamente
di un uomo: James.J,Gibson della Cornell University.
Anche Gibson si oppose vigorosamente agli strutturalisti
e, allo stesso tempo, fu influenzato fortemente dal
movimento Gestaltista, in particolare per l'enfasi olistica.
Diversamente dai gestaltisti essi però, rifiutava
l'idea che la struttura organismica è alla base
della percezione. Gibson propose invece che la percezione
può essere capita meglio analizzando la struttura
dell'ambiente in cui è inserito l'organismo.
Questa è l'ecologia.
L'ottica ecologica è più una teoria sulle
basi informazionali della percezione dell'ambiente piuttosto
che sulle basi del meccanismi nel cervello. Questo approccio
segna una drastica divisione dalle teorie precedenti
e precede di un bel po' i moderni lavori nella visione
computazionale.
Analisi
della struttura dello stimolo. La meta della teoria
ecologica della visione di Gibson è sottolineare
che come il mondo viene strutturato dalla luce nell'ambiente
dell'optic array (AOA), così le persone sono
capaci di percepire l'ambiente campionando informazione.
In termini diversi Gibson si propose di trovare quali
caratteristiche dello stimolo prossimale producono l'informazione
sullo stimolo distale. In particolare l'intero pattern
di stimolazione prossimale contiene molta più
informazione sullo stimolo distale di quanto si sospettava.
Per esempio Gibson teorizzò il gradiente di tessitura
ovvero un graduale cambiamento in termini di diminuzione
di grandezza, di aumento di densità e di proiezione
in 2-D in corrispondenza all'allontanamento delle superfici.
Molte superfici nel mondo hanno un'approssimativa tessitura
uniforme: prati erbosi, muri di pietra, pareti tappezzate,
piastrelle
solo per nominarne alcune. Gibson identifica
nel gradiente di tessitura l'origine dell'informazione
sulla profondità, l'inclinazione, e la grandezza
degli oggetti nell'ambiente e dimostra come i soggetti
possono percepire queste proprietà.
La teoria ecologica è anche importante perché
enfatizza il ruolo della visione come attività
esploratrice del mondo, con le relative conseguenze
di tipo informazionale. Quando l'osservatore si muove
attorno al mondo il pattern spaziale di stimolazione
della retina cambia costantemente nel tempo (concetto
di optic flow e di AOA dinamica). Infatti, il sistema
visivo degli organismi si evolve con il movimento adattivo:
cercare cibo, acqua, compagni, riparo. L'ottica ecologica
cerca anche di specificare, per un osservatore in movimento,
quali informazioni ricavate dall'ambiente sono utilizzabili.
Un altro dei più importanti insight nello studio
della "informazione utile" nella dinamica
AOA è che la stessa informazione ottica che specifica
l'informazione ambientale specifica anche la traiettoria
dell'osservatore.
Gibson credeva che l'informazione sufficiente ricavabile
dalla stimolazione della retina permette ad un organismo
di esplorare attivamente l'ambiente e di percepirlo
senza ambiguità. Questo processo, che si completa
nel cervello, si chiama information pick up e si basa
sulla metafora della risonanza, per specificare come
avviene questo processo. Semplicemente, l'informazione
nello stimolo produce l'attivazione delle appropriate
strutture neuronali appropriate, analogamente al modo
in cui una data vibrazione meccanica dell'aria mette
in vibrazione un diapason con la stessa frequenza caratteristica.
Percezione
diretta. L'aspetto più controverso della teoria
di Gibson è l'assunto della percezione diretta:
l'idea che la percezione visiva dell'ambiente è
pienamente specificata dall'informazione ottica ricavabile
dalla retina in movimento, dall'esplorazione di un organismo
attivo senza nessun processo di mediazione di rappresentazioni
interne. Gibson infatti era contrario all'idea che la
percezione è possibile solo facendo delle "inferenze
inconsce" in aggiunta all'informazione strettamente
percettiva. Egli rifiuta questa influenza aggiunta alla
percezione, sostenendo invece che non c'è nessun
bisogno di quelle inferenze se si considerano le molte
potenzialità dell'informazione ottica, in particolare
quella ricavata dall'optic flow dell'organismo che esplora
l'ambiente.
Sfortunatamente, la brillante analisi dell'informazione
ricavabile nella dinamica AOA ha dei limiti nel spiegare
la fondamentale indeterminazione nella ricostruzione
del mondo reale a 3-D dalla piatta informazione retinica
2-D (the inverse problem, sezione 1.2.3.). Gibson enfatizza
ancora una volta il ruolo dell'osservatore esplorativo,
che risolve il problema aggiungendo la dimensione temporale
allo stimolo prossimale. Ma nella dinamica AOA, questa
informazione aggiunta è ancora insufficiente
in quanto gli eventi ambientali sono effettivamente
a quattro dimensioni (tre spaziali più una temporale)
e l'informazione nella dinamica AOA è solo tridimensionale
(due dimensioni spaziali e una temporale), anche quando
sono usati i due occhi contemporaneamente. L'informazione
addizionale della dimensione temporale vincola le soluzioni
al problema inverso (cioè restringe il numero
delle soluzioni valide), ma non lo risolve completamente.
2.1.4
COSTRUTTIVISMO
Molti
teorici della percezione, discutendo sul problema inverso,
hanno concluso che, nel processo della visione, ci deve
essere qualche tipo addizionale di informazione in aggiunta
all'immagine retinica. In un modo o nell'altro, il nostro
sistema visivo dalle informazioni che contribuiscono
a formare l'immagine retinica arriva alla soluzione
più idonea tra quelle logicamente infinite. Questa
è la posizione a cui si rifà il costruttivismo.
Il costruttivismo, che è il classico approccio
dominante alla teoria della visione, combina i più
diversi aspetti delle teorie precedenti; per questo
si può definirla una teoria eclettica.
Il moderno costruttivismo intende essere primariamente
una teoria del meccanismo interno della percezione,
piuttosto che centrata sull'ambiente esterno. Comunque
il meccanismo interno delle teorie costruttiviste si
basa spesso sull'estrazione di informazioni ambientali
dai pattern di stimolazione ottica che Gibson ha descritto
all'interno dell'ottica ecologica. Il costruttivismo
perpetua l'idea che i percetti globali sono costruiti
dall'informazione locale. Allo stesso tempo sottolinea
l'importanza delle proprietà emergenti quali
linee, bordi, angoli e anche le figure intere dei gestaltisti.
Rispetto alla controversia innato-acqusito, il moderno
costruttivismo è neutrale. Per certi aspetti
il processo percettivo deve essere sicuramente innato
per altri, invece, sono appresi attraverso l'interazione
con il mondo. Definire quali aspetti sono innati e quali
acquisiti è un problema che deve essere affrontato
studiando lo sviluppo infantile. Infine i più
moderni costruttivisti sono, metodologicamente parlando,
comportamentisti. Cioè, essi estraggono inferenze
sui processi percettivi studiando misure quantitative
di comportamenti umani e animali piuttosto che ( o in
aggiunta) introspettivamente. In questo essi si scontrano
sia con i strutturalisti che con i gestaltisti, anche
se non ci sono dubbi che l'analisi introspettiva è
il primo passo importante nella teoria costruttivista;
la differenza è che i costruttivisti poi procedono
nella raccolta di misure comportamentali per dimostrare
la loro ipotesi oggettivamente.
Inferenze
inconsce. Il padre della teoria costruttivista è
Hermann von Helmholtz, brillante fisico, matematico
e psicologo tedesco. Molte delle sue idee base sono
state pubblicate già nel 1867, nel libro Trattato
di Ottica Fisiologica, e sono sorprendentemente rimaste
intatte. Nonostante i molti contributi significativi
allo studio della percezione visiva, uno dei concetti
helmholtziani più "duraturi", è
l'idea centrale che la percezione dipende da inferenze
inconsce. Diversamente da Gibson, Helmholtz conosceva
il buco esistente tra l'informazione ottica direttamente
ottenuta dalla stimolazione retinica e la conoscenza
percettiva che ne deriva (gap(=buco, divario) richiama
la natura indeterminata dell'inverse problem). Helmholtz
sosteneva che il buco poteva essere coperto. Egli sosteneva
che la visione richiede un processo di inferenze, o
qualcosa di molto simili ad esse, che trasformi le informazioni
insufficienti a 2-D, in un'interpretazione percettiva
dell'ambiente a 3-D. Il processo di inferenza percettiva
è inconscio perché le persone non hanno
coscienza di come , quando, perché, avvengano.
Più recentemente, Richard Gregory(1970), Julian
Hochberg (1964), e Irvin Rock (1983), hanno rimodernizzato
e rielaborato l'idea helmholtziana.
Se il sistema visivo fa inferenze sulla natura dell'ambiente
dalle informazioni ottiche derivanti dalla stimolazione
retinica, è importante conoscere le basi sulle
quali vengono fatte queste inferenze. Questo proposito
viene chiamato likelihood principle: è un modo
probabilistico di vedere la percezione per cui il sistema
visivo computa l'interpretazione con la più alta
probabilità determinata dalla stimolazione retinica.
Il likelihood principle è spesso confuso con
il principio della Gestalt di Pregnanza (chiamato anche
principio del minimo), che sta alla base della selezione
sopra le possibili interpretazioni secondo la "bontà"
e la "semplicità" tra le alternative.
Per esempio, il fatto che le persone percepiscono la
prima figura come un cerchio dietro un quadrato, piuttosto
che come un quadrato dietro tre quarti di cerchio (terza
figura), viene spiegato dal likelihood principle costruttivista
come conseguenza del fatto che è molto più
probabile che un cerchio intero sia in parte occluso
da un quadrato. Lo stesso esempio può essere
spiegato dal principio gestaltista della Pregnanza,
per cui un cerchio intero è una figura "migliore"
di tre quarti di cerchio nella direzione di una forma
più regolare, semplice, e più simmetrica.
Interpretazione euristica. La prospettiva teorica di
questo libro fa riferimento largamente alla nozione
helmholtziana dell'inferenza inconscia. In particolare
svilupperemo l'idea che il sistema visivo va oltre l'informazione
ottica facendo un alto numero di possibili assunzioni
sulla natura dell'ambiente e sulle condizioni sotto
le quali è visto. Quando queste assunzioni vengono
"accoppiate" con l'immagine sensoriale, danno
come risultato un processo di interpretazione euristica,
con cui il sistema visivo fa inferenze sulla migliore
condizione ambientale che può aver prodotto l'immagine.
Questo processo è euristico perché usa
le regole probabilistiche che sono spesso, anche se
non sempre, vere. Se, per esempio l'inferenza è
falsa, avremo delle conclusioni sbagliate, le illusioni
visive (sezione 2.3.5).
Il likelihood principle è strettamente in connessione
con la nozione costruttivista della percezione come
processo euristico. L'utilità evoluzionistica
della visione è massimizzata dall'uso della più
probabile ipotesi per arrivare ad una interpretazione
corretta della realtà esterna.
Le ipotesi "nascoste" fatte dal sistema visivo
sono molte e varie. Un esempio è il fatto che
gli ambienti interni, quali soffitti, piani, muri sono
tutti allineati verticalmente e perpendicolarmente dalla
forza gravitazionale.
Un'interpretazione letterale dell'inferenza inconscia
è che la percezione è accompagnata da
un modo sequenziale di applicare le regole della logica
simbolica o risolvendo equazioni matematiche. Inoltre,
questo è il tipo di processo che Helmholtz sembrava
avere in mente quando propose la sua interpretazione
di inferenza inconscia. Fortunatamente, oggigiorno ci
sono interpretazioni più plausibili che utilizzano
il modello computazionale che si adatta allo schema
generale inferenziale dei costruttivisti. Per esempio
reti connessioniste possono arrivare a conclusioni percettive
basate parzialmente su dati sensoriali in entrata e
con l'aggiunta di elementi inclusi in pattern di interconnessioni
di elementi simili ai neuroni. Tali reti sono in grado
di "fare inferenze" sulla base di assunzioni
euristiche senza operazioni né logiche né
matematiche.
2.2 UNA BREVE STORIA DELL' INFORMATION PROCESSING (elaborazione
delle informazioni).
La
scienza della visione nasce negli anni 1950-60, quando
tre importanti cambiamenti hanno modificato il modo
di concepire la visione:
l'uso della simulazione al computer
l'applicazione delle concezioni base dell'elaborazione
delle informazioni alla psicologia
l'emergere dell'idea che il cervello è un elaboratore
biologico di informazioni.
2.2.1
LA VISIONE NEL COMPUTER.
Nello
sviluppo della scienza della visione ha avuto un ruolo
centrale l'idea che i moderni computer digitali potevano
venire usati per simulare la complessa elaborazione
percettiva. In precedenza la visione era considerata
una funzione esclusiva degli organismi viventi e gli
scienziati testavano le ipotesi che formulavano solo
su esseri viventi. L'avvento della simulazione al computer
ha radicalmente cambiato la situazione: gli scienziati
lavoravano così su sistemi le cui regole di funzionamento
erano conosciute in anticipo ed utilizzavano il computer
per confrontare il comportamento del computer con quello
degli organismi viventi.
L'INVENZIONE
DEL COMPUTER. Il computer è stato inventato nel
1930 da un brillante matematico inglese : Alan Turing.
Egli inventò una serie di macchine ipotetiche,
che noi conosciamo ora come le macchine universali di
Turing. Queste macchine potevano essere programmate
per elaborare in maniera automatica le informazioni.
La macchina di Turing era ipotetica nel senso che era
un'astrazione matematica.
Nel 1946 il matematico John von Neumann costruì
il primo computer digitale, che fu chiamato ENIAC.
Da allora il computer è stato sempre più
perfezionato, comunque i moderni computer digitali sono
tutti degli esempi delle macchine universali di Turing.
Sin dal 1940 Turing capì le incredibili capacità
della sua macchina per simulare il pensiero intelligente.
E' proprio questa idea che da origine all'INTELLIGENZA
ARTIFICIALE, la branca della scienza del computer nella
quale i programmi vengono scritti con lo scopo di simulare
il comportamento intelligente. All'inizio i teorici
dell'intelligenza artificiale cercavano di simulare
dei compiti cognitivi difficili, come giocare a scacchi
e dimostrare i teoremi matematici. Solamente in seguito
vennero creati dei programmi che consentivano una simulazione
della percezione visiva.
Questo sforzo porta alla nascita di quella branca della
scienza della visione, che si occupa di come il computer
può essere programmato ad estrarre dall'immagine
ottica informazioni sulle condizioni ambientali.
Lo studio della visione al computer(computer vision)
ha promosso due importanti cambiamenti:
1) IMMAGINI REALI: le teorie della visione simulate
al computer possono venire applicate ad immagini su
scala grigia, ottenute registrando con una videocamera
scene del mondo reale. Le teorie classiche della percezione
visiva sono state generalmente costruite per tenere
conto di condizioni stimolo che non esistono nella situazione
reale.
Le teorie della visione simulate al computer sono applicate
ad immagini reali di oggetti reali.
2) TEORIE ESPLICITE: prima della simulazione al computer,
le teorie della percezione visiva erano vaghe, informali
ed incomplete, puntavano su leggi concettuali e tutto
ciò portava a tralasciare importanti dettagli.
La simulazione al computer ha cambiato questo stato
di cose, perché una delle qualità caratteristiche
della programmazione al computer è quella di
cercare di rendere esplicita ogni cosa.
Questi cambiamenti hanno portato alla consapevolezza
che la visione è qualcosa di estremamente difficile:
è difficile far si che il computer "veda"
le cose più semplici. Inoltre tutte le concezioni,
che gli psicologi avevano precedentemente studiato,
hanno richiesto un'enorme fatica per essere tradotti
in termini computazionali.
MONDO
DEI BLOCCHI (blocks world). All'inizio le teorie della
visione simulate al computer consideravano le scena
come un mondo composto da blocchi: un micromondo nel
quale tutti gli oggetti che possono essere percepiti
sono dei solidi geometrici, semplici, colorati uniformemente
e posti su una superficie. Una delle prime simulazioni
significative della visione fu un programma di Roberts
(1965).
Fig. 2.2.2:Una immagine video di una configurazione
in blocchi (parte a) viene elaborata nei bordi locali
(parte c), che vengono poi uniti in contorni continui
(d,e). Questa configurazione di linee viene poi uniformato
attraverso l'individuazione di volumi, che dovrebbero
condurre insieme alla creazione di una forma corretta
(f) e dovrebbero predire la sua apparenza in un'altra
prospettiva (b).
L'APPROCCIO
COMPUTAZIONALE ALL'OTTICA ECOLOGICA: i progressi più
recenti nello studio della visione al computer sono
il risultato di un'analisi formale dell'informazione
disponibile nell'immagine ottica. Questo approccio fu
sostenuto dai lavori sull'ottica ecologica di Gibson.
Viene posta una nuova enfasi sull'analisi di come la
struttura ambientale è riflessa in una struttura
immaginativa. Il risultato di questo cambiamento fu
che i teorici cercarono di capire i modi di recuperare,
direttamente dall'immagine, delle informazioni complete
sulla scena visiva (particolarmente sulla profondità
e sulle inclinazioni delle superfici nelle condizioni
tridimensionali).
I pionieri di questo approccio furono due psicofisici
olandesi Jan Koenderink e Andrea Van Doorn. Essi applicarono
le sofisticate tecniche matematiche della geometria
differenziale ai problemi come la percezione del movimento
dal flusso ottico, la percezione della profondità
dall'informazione stereoscopica
Loro non crearono
programmi per il computer, ma i loro lavori hanno ispirato
altri a farlo. L'approccio matematico, che ha portato
alla creazione de questi programmi, era stato formulato
all'Istituto di Tecnologia nel Massachusetts (M.I.T.)
da David Marr e dai suoi collaboratori. Questa ricerca
è caratterizzata da analisi matematiche di come
la luminanza nell'immagine bidimensionale porta informazioni
sulla struttura delle superfici e degli oggetti nello
spazio tridimensionale.
CONNESSIONISMO
E RETI NEURALI: I modelli delle reti connesionistiche
e neurali sono basati sull'assunzione che la visione
umana dipende dalla struttura parallela di circuiti
neuronali nel cervello. Questi modelli sono reti composte
da molte unità interconnesse. Lo stato di attivazione
di queste unità, che corrisponde approssimativamente
all'attivazione dei neuroni, avviene attraverso di reti
di connessioni, che, come le sinapsi, sono eccitatorie
o inibitorie.
Fig. 2.2.4. Rete connesionista usata nell'apprendimento
per back propagation(all'indietro) formata da tre layers
(strati): l'input, la trasformazione dall'input all'output
e l'output.
Sebbene questi modelli connessionisti possono essere
specificati matematicamente, il loro comportamento dipende
generalmente da equazioni non lineari, che non sono
facilmente risolvibili in maniera analitica (vd. Appendice
B). Questo significa che per determinare come si comporta
una rete, l'operazione va simulata su un computer.
I precursori storici delle teorie connessionistiche
moderne della percezione sono gli studi sui "perceptrons",
una particolare classe di modelli di reti studiate da
Frank Rosenblatt e coll. Questi perceptrons ci consentono
di apprendere come vengono identificate nuove categorie,
aggiustando dei pesi sulle loro connessioni secondo
delle regole specifiche.
Rosenblatt voleva dimostrare come una semplice regola
di apprendimento era sufficiente alle reti per imparare
a fare una discriminazione categoriale.
In questo stesso periodo lo psicologo Donald Hebb ha
sintetizzato una grande quantità di ricerche
sull'apprendimento umano ed animale in una struttura
neurale in cui le associazioni sono formate all'interno
e tra complessi di cellule, che si attivano nello stesso
tempo. Nonostante questi progressi, Marvin Minsky e
Seymour Papert (1969) indicarono come questi perceptrons
avessero dei seri limiti. Fu proprio la loro critica
ad arrestare la ricerca nel campo delle reti neurali
per più di una decade. Solo pochi ricercatori
tenaci hanno continuato a sostenere l'approccio delle
reti neurali e, nei primi anni del 1980, un gruppo di
scienziati cognitivi, che lavorano nel dipartimento
di psicologia all'università della California,
hanno ottenuto importanti risultati, che hanno rivitalizzato
questo approccio. Chiamando la loro teoria PDP ( modelli
dell'elaborazione distribuita in parallelo), D. Rumelhart,
James McClelland, Geoffrey Hinton, Paul Smolensky, Micheal
Jordan e i loro coll. Hanno dimostrato che i modelli
delle reti neurali hanno importanti vantaggi sui programmi
più tradizionali della scienza al computer.
2.2.2.
L'ELABORAZIONE DELL' INFORMAZIONE IN PSICOLOGIA.
Un
altro importante evento per lo sviluppo della scienza
della visione fu la comparsa dell'approccio basato sull'elaborazione
dell'informazione in psicologia. A partire dal 1920,
gran parte della psicologia era dominata dal comportamentismo.
I comportamentisti credevano che la psicologia doveva
avere come oggetto di studio il comportamento osservabile.
Dal punto di vista metodologico, questo voleva dire
abbandonare il metodo introspettivo; dal punto di vista
teoretico, si doveva purificare le teorie psicologiche
da tutti quei concetti che si riferivano a processi
interni.
Tenendo conto di queste cose, la percezione non è
tanto importante, dato che è un tipo di esperienza
interna del mondo esterno.
Il comportamentismo ha dominato la scena durante gli
anni 1940-1950, soprattutto nel campo dell'apprendimento.
Alla fine del 1950, iniziò ad emergere un nuovo
approccio, che contestò il dogma comportamentista,
considerando importanti i processi e gli stati interni.
L'idea, che contraddistingue questo movimento, era che
i processi interni potevano venire compresi in termini
di elaborazione di informazioni, sulla base di nuovi
concetti che si erano sviluppati nei campi dell'ingegneria
elettrica, della scienza del computer e della teoria
dell'informazione. Questo portò al fatto che
gli psicologi formulavano le loro teorie sulla visione
all'interno di un nuovo, più preciso linguaggio
che era strettamente collegato ai programmi del computer.
A poco a poco l'approccio dell'elaborazione dell'informazione
si consolidò nella psicologia cognitiva, diventando
la struttura dominante per capire la percezione visiva
e molti altri tipi di attività mentali.
Una delle più grandi pubblicazioni in questa
area fu il libro di Broadbent:" Percezione e comunicazione"
1958, nel quale viene analizzato il modo in cui si presta
attenzione all'informazione uditiva, che va da un orecchio
all'altro. Broadbent suggerì che l'attenzione
opera come un filtro che seleziona le informazioni,
attraverso dei canali che elaborano l'informazione dopo
un'iniziale analisi degli aspetti sensoriali ( vd. Fig.
2.2.5).
Broadbent fu tra i primi a proporre una teoria psicologica
nella forma di un diagramma di flusso, che specifica
la struttura temporale degli eventi dell'elaborazione
delle informazioni.
Una pietra miliare nello sviluppo dell'elaborazione
dell'informazione visiva, fu la scoperta da parte i
George Sperling della memoria iconica, un particolare
tipo di memoria visiva a brevissimo termine. I suoi
esperimenti ci hanno fatto vedere molte proprietà
affascinanti di questo sistema di memoria ed hanno generato
centinaia di studi.
Tutti questi sviluppi sono contrapposti all'approccio
del comportamentismo, dato che l'approccio dominante
era quello di capire l'attività cognitiva umana.
Un evento importante fu la pubblicazione del libro di
Neisser " La psicologia cognitiva" nel 1967,
perché ha allontanato definitivamente gli psicologi
dal comportamentismo, indirizzandoli verso lo studio
della cognizione(percezione, attenzione, ecc.).
2.2.3.
ELABORAZIONE DELL'INFORMAZIONE IN BIOLOGIA.
Il
terzo importante sviluppo, che ha contribuito all'emergere
del paradigma dell'elaborazione dell'informazione fu
l'invenzione di una tecnica fisiologica per studiare
l'attività neurale nel sistema visivo. Questo
nuovo metodo ha portato gli studiosi a chiedersi come
l'informazione visiva viene elaborata nella retina e
quali sono i centri coinvolti nel cervello. L'esistenza
di un metodo per lo studio dell'attività neuronale
significa poter tracciare un diagramma funzionale dell'intero
sistema visivo, neurone per neurone, specificando quale
compito ha ciascun neurone. Così anche in campo
biologico si è insediati l'approccio dell'elaborazione
delle informazioni.
PRIMI
SVILUPPI: prima del 1950 il cervello era semplicemente
visto come un organo puramente biologico i cui meccanismi
erano oscuri. Infatti ci sono voluti molti anni di studi
prima che i biologi scoprano che i neuroni non sono
direttamente collegati tra di loro, ma sono delle entità
separate che comunicano tra di loro attraverso trasmissioni
chimiche lungo sinapsi. L'idea del cervello come elaboratore
di informazioni viene accettata solo quando inizia a
prendere piede l'analogia tra computer e cervello.
Il matematico John von Neumann (1951) rese esplicita
l'analogia, dicendo che gli impulsi neurali che viaggiano
lungo gli assoni sono codici digitali, analoghi al processamento
binario (0,1)del computer digitale. Pochi neuroscienziati
presero seriamente questa semplice analogia, affermando
che ci sono molte differenze tra il cervello e i moderni
computer digitali. Ma l'idea che il cervello è
un elaboratore di informazioni ora è universalmente
accettata ed i risultati dei più moderni studi
psicologici delle funzioni cerebrali sono interpretati
all'interno di questo contesto.
I primi studi sulle funzioni cerebrali furono gli esperimenti
sulle lesioni, dove il cervello dell'animale veniva
intenzionalmente lesionato o asportato, che portarono
alla localizzazione delle funzioni cerebrali. Lo stesso
si può dire per le tecniche di stimolazione elettrica
cerebrale, che consistono nell'introduzione nel cervello
dell'animale di elettrodi e nell'emissione di piccole
scosse elettriche, per vedere quale comportamento viene
elicitato.
Entrambe queste tecniche si sono rivelate importanti
per la comprensione delle strutture dei centri visivi
cerebrali, ma nessuna di queste è adeguata per
lo studio dell'elaborazione dell'informazione, che ha
luogo nel normale funzionamento del cervello, perché
esse non misurano il comportamento elettrochimico dei
singoli neuroni.
REGISTRAZIONE
DELLE SINGOLE CELLULE: tecnica fisiologica creata durante
il 1950 per studiare l'elaborazione delle informazioni
eseguito dai singoli neuroni.
Fig.2.2.6. Un microelettrodo viene inserito nel sistema
visivo dell'animale, mentre patterns di luce sono presentati
alla retina. L'attività elettrica degli impulsi
neurali viene registrata dall'elettrodo e monitorata
dal ricercatore.
Pochi elettrodi sono posizionati su un assone del neurone
in modo che possano registrare i piccoli cambiamenti
nel potenziale elettrico, che avvengono ogni volta che
un impulso neuronale passa lungo l'assone. L'output
dell'elettrodo può poi essere registrato ed analizzato
per determinare le condizioni stimolo che attivano il
neurone. Nel caso della visione, questo è stato
scoperto proiettando specifici patterns di luce sulla
retina dell'animale per vedere se la loro presenza rende
il neurone più o meno attivo.
La più importante scoperta è stata fatta
da Stephen Kuffler, David Hubel e Torsten Wiesel all'università
di Harvard. Kuffer (1953) ha usato la tecnica di registrazione
delle singole cellule per determinare i campi recettivi
delle cellule gangliari retiniche: la regione della
retina che influenza l'attivazione base del neurone
aumentandola (eccitazione) o diminuendola (inibizione).
Lo stimolo ottimale per attivare le cellule gangliari
era un punto luminoso al centro del campo recettivo,
circondato da un disco nero oppure il pattern inverso.
Fig. 2.2.7. CAMPI RECETTIVI NELLE CELLULE DEI GANGLI
RETINICI. L'attivazione ON-CENTER, OFF-SURROUND c'è
quando la luce stimola la regione centrale, decresce
quando la luce stimola il contorno ed è immutato
dalla luce fuori dal contorno. L'attivazione dell'OFF-CENTER,
ON-SURROUND avviene nel modo opposto.
Fig. 2.2.8.I premi Nobel Hubel e Wiesel hanno cominciato
a studiare la corteccia visiva, scoprendo molte proprietà
dei campi recettivi delle cellule della corteccia visiva
primaria. Loro usarono la tecnica di registrazione delle
singole cellule.
Fig. 2.2.9.CAMPI RECETTIVI NELLE CELLULE CORTICALI.
Le cellule che si trovano nella prima area della corteccia
visiva si prolungano nei campi recettivi, che rispondono
più vigorosamente, se sono stimolate da un bordo
o da una linea con una particolare posizione ed orientamento.
AUTORADIOGRAFIA:
tecnica usata per studiare simultaneamente l'attività
in un'ampia area di tessuto cerebrale. Nell'animale
viene iniettato uno zucchero radioattivo, che viene
accumulato all'interno dei neuroni attivati. Poi viene
fatto un autoradiogramma, che è un'immagine fotografica
dei pattern di radioattività.
Fig. 2.2.10. Un'autoradiografia di colonne orientate
nella corteccia visiva. Le cellule corticali si colorano
in nero se sono state attivate, mentre vengono presentate
striscie verticali. Le bande verticali nere sono le
colonne orientate negli strati più alti della
corteccia. La banda nera orizzontale è lo strato
4, che riceve l'input dai nuclei genicolati laterali
e risponde a tutto l'orientamento.
I
METODI DI BIOIMMAGINE: metodi non invasivi che costruiscono
delle immagini del cervello umano. Essi sono:
· la TOMOGRAFIA COMPUTERIZZATA (TC)
· la RISONANZA MAGNETICA (MRI)
· la TOMOGRAFIA AD EMISSIONE DI POSITRONI (PET)
· La costruzione dell'immagine TC dipende dalla
trasmissione attraverso una sottile sezione dell'encefalo
di un fascio di raggi X. Questo fascio viene poi misurato
sull'altro lato e tale misurazione viene poi utilizzata
per costruire la struttura tridimensionale del cervello
con l' aiuto di un computer, che usa sofisticati modelli
algoritmici. Alla fine la mappa costruita, rappresenta
una singola sezione del cervello, ma si possono considerare
molti altri livelli, ottenendo così diverse sezioni,
in modo tale che si può ottenere un'immagine
relativamente completa della struttura anatomica del
cervello.
Fig. 2.2.12. Numerose immagini di sezioni del cervello
umano.
Questi diagrammi mostrano le mappe computerizzate di
un cervello, che ha una grande lesione nel lobo parietale
destro. Le scansioni sono state prese dai livelli indicati
nella prima immagine, dove è raffigurato un lato
del cervello.
· Nella MRI il cervello è sottoposto ad
un forte campo magnetico, che polarizza le molecole
al suo interno, così tutti i poli magnetici sono
allineati con i campi magnetici. Poi vengono pulsate
onde radio e così le molecole emettono segnali
radio, che portano l' informazione sulle loro proprietà
chimiche. Questa informazione è ricopiata da
rivelatori posti intorno alla testa. Le loro misurazioni
vengono poi elaborate da algoritmi ed usate per costruire
la struttura tridimensionale del cervello. La MRI produce
delle immagini del cervello molto più dettagliate
di quelle prodotte con la TC, ed inoltre con la MRI
c'è il vantaggio di non esporre il cervello agli
effetti dei raggi X.
· Nel PET viene iniettata nel sangue una sostanza
radioattiva, che entra così nel flusso sanguigno.
Questa sostanza è poi presente nei tessuti cerebrali.
L'isotopo radioattivo emette spontaneamente positroni
e questa emissione di positroni viene poi misurata fuori
dalla testa ed elaborata da un computer che utilizza
algoritmi per costruire una mappa tridimensionale dell'attività
del cervello. La tecnica PET misura l'attività
in modo indiretto, attraverso il flusso cerebrale. Quando
un'area del cervello è attivata, riceve una maggiore
quantità di sangue e questo fatto porta ad un
aumento delle emissioni di positroni.
Uno
dei più recenti sviluppi nelle tecniche di bioimmagine
è stata la modificazione dei metodi MRI, in modo
da tener conto delle misurazioni strutturali e funzionali
dell'attività del cervello. Questa tecnica è
chiamata f-MRI, che significa: risonanza magnetica funzionale.
Come i metodi PET, la f-MRI dipende dal fatto che il
flusso sanguigno aumenta nell'area del cervello attivata,
la misurazione del f-MRI è relazionata alla concentrazione
di ossigeno nel sangue.
2.3 TEORIA DELL'ELABORAZIONE DELL'INFORMAZIONE
In
questa parte del capitolo prepareremo le basi per il
resto del libro. All'inizio esamineremo i fondamenti
teorici dei paradigmi dell'elaborazione dell'informazione
nei quali sono incluse le moderne teorie della visione.
Poi discuteremo i concetti centrali della teoria - rappresentazioni
e processi - e analizzeremo importanti risultati in
merito .Alla fine del capitolo anticiperemo la struttura
teoretica generale che sarà basilare per molte
delle nostre discussioni sulla percezione visiva. Questa
si basa su quattro momenti che partono dall'immagine
retinica per arrivare all'identificazione dell'oggetto.
Si avverte il lettore che il materiale di questa sezione
è astratto e teorico e risulterà forse
difficile perché appare molto presto nel libro,
prima di aver esaminato alcuni esempi specifici.
Il paradigma dell'elaborazione dell'informazione è
un modo di considerare la natura della mente umana come
un processo computazionale. Esso è stato applicato
con considerevole successo non solo nella percezione
visiva ma anche nel vasto ambito dei fenomeni cognitivi
nella percezione uditiva, nella memoria, linguaggio,
giudizi, pensiero e soluzione dei problemi. Infatti
l'approccio dell'elaborazione dell'informazione si è
così imposto su questi argomenti che diversi
scrittori hanno sostenuto che esso costituisce un "paradigma
kuhniano" per la conoscenza (Lachman, Lachman e
Butterfield, 1979; Palmer e Kimchi, 1986).
Il noto filosofo della scienza Thomas Kuhn (1962) definisce
un paradigma scientifico come "un insieme di assunzioni
di lavoro che una comunità di scienziati condivide
(spesso implicitamente) nelle ricerche condotte su un
determinato argomento". Le assunzioni di un paradigma
di solito implicano modi metateorici di concettualizzare
i problemi più importanti e modi rilevanti di
approccio a tali teorie. Kuhn descrive la fisica newtoniana
come un paradigma che sopravvive largamente intatto
dal diciassettesimo secolo fino alla maggior parte del
ventesimo secolo. Sebbene ci siano stati molti sviluppi
teorici seguenti a Newton nessuno di loro pretende di
respingere le assunzioni fondamentali che sottostanno
all'idea di Newton riguardo alla natura del mondo fisico.
Per esempio, Newton e i suoi successori implicitamente
o esplicitamente assumono che c'è una distinzione
qualitativa tra massa ed energia, che il tempo è
assoluto, e che la causalità è deterministica.
Soltanto la meccanica quantistica e la teoria di Einstein
sulla relatività determinarono la morte di questo
paradigma newtoniano e si fece strada un nuovo paradigma
che incorporava una serie di assunzioni quali, per esempio,
che massa ed energia sono equivalenti, che il tempo
è relativo e che la causalità è
connessa con la probabilità.
L'affermazione che l'elaborazione dell'informazione
costituisce un paradigma per le scienze cognitive -
includendo la scienza della visione - è basata
sulla credenza largamente sostenuta che la natura dei
processi mentali può essere colta dalle teorie
che li specificano in termini di eventi dell'elaborazione
dell'informazione (vedi sotto). Sebbene rimanga un piccolo
ma convinto insieme di scienziati della visione che
non vedono la percezione visiva come un processo di
elaborazione - più precisamente proponendo la
teoria di Gibson dell'ottica ecologica - il paradigma
dell'elaborazione dell'informazione è certamente
la struttura dalla quale derivano le più attuali
teorie della percezione visiva.
2.3.1
LA METAFORA DEL COMPUTER
Lo
sviluppo storico delle teorie sulla visione è
stato fortemente influenzato dalle tecniche di ricerca
disponibili. Nel caso della teoria dell'elaborazione
dell'informazione, la forza più significativa
è stata sicuramente l'invenzione dei computer
elettronici. La loro influenza è stata sentita
in due modi distinti ma collegati. Primo, essi sono
diventati lo strumento privilegiato per verificare nuove
teorie sull'elaborazione visiva. Come abbiamo visto
nella sezione 2.2 questo approccio ha fatto emergere
la visione come un settore speciale all'interno della
scienza dei computer. Il suo scopo è programmare
computer così che essi capiscano le parole che
li riguardano nel modo più simile possibile alle
persone.
La seconda influenza dei computer è stata anche
più profonda: essi sono stati usati come la prima
analogia teoretica per i processi mentali all'interno
del paradigma dell'elaborazione dell'informazione. In
poche parole i processi mentali (come tali la percezione
visiva) sostengono la stessa relazione con il cervello
come fanno i programmi con il computer sul quale lavorano;
significa che i processi sono dei "software"
di stime biologiche e i cervelli sono "hardware"
.Il motivo di queste analogie è che molte teorie
della percezione sorpassate da oltre venti o trenta
anni, sono state attualmente implementate dai programmi
di computer e molte di più sono state descritte
all'interno della struttura dell'elaborazione dell'informazione.
In questo capitolo mostreremo quale forma prendono queste
teorizzazioni e perché sono diventate così
popolari.
L'analogia del computer ha largamente sostituito le
analogie teoriche che abbiamo discusso nella sezione
2.1.L'analogia del computer è abbastanza compatibile
con l'analogia deduttiva del costruttivismo.
Alcuni teorici credono che le somiglianze tra mente/cervello
e programma/computer si sono diffuse abbastanza con
una corretta programmazione "vedendo" il computer
come se attualmente avesse l'esperienza di una coscienza
visiva. Questa visione della relazione tra i programmi
di computer e gli eventi mentali è talvolta chiamata
"STRONG AI" (Searle, 1980): vale a dire che
una corretta macchina di programmazione attualmente
esegue processi mentali, includendo esperienze coscienti.
Questa posizione è stata contrastata con la cosiddetta
"WEAK AI", nella quale l'affermazione è
che come una macchina l'intelligenza simula solo gli
eventi mentali, oppure coscienti. Se le affermazioni
della "STRONG AI" siano valide o meno non
si sa, è aperto un serio dibattito, con argomenti
che sostengono entrambi i punti di vista (vedi Searle,
1980 e contributi che seguono).
Senza considerare le più estreme affermazioni
che sono state fatte, se gli eventi mentali accaduti
nel cervello umano sono davvero analoghi ai programmi
di computer, in seguito saranno usati per esaminare
cosa si conosce riguardo all'elaborazione dell'informazione
su dispositivi simili al computer. Questo per cercare
di intuire come la mente può lavorare e come
può essere studiata in modo più vantaggioso.
2.3.2
TRE LIVELLI DELL'ELABORAZIONE DELL'INFORMAZIONE
Nel
suo autorevole libro "Vision" David Marr (1982)
distingue tre differenti livelli di descrizione coinvolti
in un complesso sistema di elaborazione dell'informazione:
COMPUTAZIONALE, ALGORITMICO E IMPLEMENTAZIONALE. Così
facendo egli fornisce un'analisi metateoretica del paradigma
dell'elaborazione dell'informazione. Una metateoria
è una teoria delle teorie, una teoria che cerca
non di analizzare la visione stessa ma di analizzare
la natura delle teorie della visione. Marr dimostra
che ci sono importanti distinzioni concettuali riguardo
a questi tre livelli e che tutti sono essenziali per
comprendere la visione (o qualsiasi altro processo)
come elaborazione di informazioni.
Commento
alla figura 2.3.1 pag.72
La descrizione del livello computazionale di un termostato.
A)Il diagramma mostra gli input e gli output del termostato.
B)Il grafico segna il comportamento di input/output
del termostato per tre particolari misure come una funzione
della temperatura.
IL
LIVELLO COMPUTAZIONALE
La più astratta descrizione che Marr ha proposto
era il livello computazionale. Egli lo definisce come
un insieme di vincoli informazionali disponibili per
rilevare le informazioni in input verso le informazioni
in output. Questo livello di teorizzazione specifica
di che cosa ha bisogno la computazione per essere mostrata
e su quale informazione dovrebbe essere basata, senza
specificare come è realizzata. Per illustrare
questo concetto prenderemo in considerazione un sistema
di elaborazione dell'informazione molto semplice: un
termostato domestico. La "computazione" che
un termostato deve eseguire è la rilevazione
sia del valore della temperatura dell'aria in quel momento,
sia la regolazione su una temperatura preferita (l'informazione
di input) verso un segnale di on/off per la caldaia
(l'informazione di output), che cambia in funzione della
temperatura dell'aria a seconda se è minore o
maggiore del punto di regolazione (vedi fig. 2.3.1A).
La figura 2.3.1B mostra questa doppia misura come una
funzione della temperatura dell'aria: se la temperatura
è sotto il punto di regolazione l'impianto va
su on, se è uguale o sotto l'impianto va su off.
Possiamo riassumere la descrizione di questo livello
computazionale in forma matematica come una funzione
doppia a due variabili
1 se e solo se T<S
0(T,S) =
0 se e solo se T³S
dove
0 è l'output della funzione, T è la temperatura
e S è il punto di regolazione.
Non diremo come questa funzione matematica è
stata ottenuta, abbiamo soltanto definito cosa sono
gli input e come sono stati relazionati formalmente
agli output. Questa è la descrizione del livello
computazionale del termostato.
IL
LIVELLO ALGORITMICO
Il livello che sta nel mezzo della gerarchia di Marr
è il livello algoritmico. Le descrizioni algoritmiche
sono più specifiche di quelle computazionali
nelle quali si specifica come è eseguita una
computazione in termini di elaborazione dell'informazione.
In principio ci sono molti modi diversi nei quali un
dato livello computazionale potrebbe realizzare una
rilevazione dall'input all'output, nello stesso modo
in cui ci sono molti differenti programmi di computer
che potrebbero realizzare lo stesso compito computazionale.
Di conseguenza il livello algoritmico corrisponde più
strettamente al concetto di programma così come
è compreso nella scienza del computer. Per costruire
un algoritmo per un certo compito bisogna decidere prima
una rappresentazione per l'informazione di input e output
e poi costruire una serie di processi che trasformeranno
la rappresentazione dell'input nella rappresentazione
di output in una maniera ben definita. I concetti di
"rappresentazione" ed "elaborazione"
saranno discussi a fondo fra breve, ma per ora, si può
pensare alla rappresentazione come un modo di codificare
l'informazione e l'elaborazione è un modo di
cambiare una rappresentazione in un'altra. Nel nostro
esempio del termostato l'algoritmo più semplice
è usare una variabile continua per codificare
la temperatura e un'altra per codificare il punto di
regolazione; poi mostrare un'operazione di confronto
tra queste due grandezze per determinare se la temperatura
è più alta o più bassa del punto
di regolazione. Un diagramma corrispondente a questo
algoritmo è dato dalla figura 2.3.2. Questo è
l'algoritmo standard per molti termostati, ma ne sono
possibili anche altri. Bisogna infatti sottolineare
che più di un algoritmo può soddisfare
una data descrizione computazionale.
Commento
alla figura 2.3.2 pag. 73
Descrizione del livello algoritmico di un termostato.
Il diagramma mostra una scomposizione del diagramma
computazionale della fig. 2.3.1 nella codificazione,
comparazione e operazioni di output.
Commento
alla figura 2.3.3 pag. 73
Descrizione del livello implementazionale di un termostato.
Un diagramma schematico mostra un dispositivo fisico
che compie l'operazione indicata nello schema del livello
algoritmico in fig.2.3.2
IL
LIVELLO IMPLEMENTAZIONALE
Il più concreto livello di descrizione è
il livello implementazionale. Esso permette di capire
che un algoritmo può essere realizzato come un
processo fisico all'interno di un sistema fisico. Così
come lo stesso programma può essere applicato
su molti computer che si differenziano nella loro struttura
fisica così lo stesso algoritmo può essere
implementato usando materialmente molti diversi dispositivi.
Per illustrare concretamente il livello di implementazione
la figura 2.3.3 mostra un modo per costruire un termostato
fisico usando il primo algoritmo che abbiamo descritto.
La doppia linea curva rappresenta una striscia bimetallica,
costituita dall'unione di due strisce di metallo che
hanno differenti movimenti di dilatazione termica. La
differenza di dilatazione dei due metalli alle diverse
temperature causa la larghezza che piega la striscia
più o meno a seconda dei cambi di temperatura.
Il punto finale, non collegato a nessun altro dispositivo
di questa striscia, è parte di uno scambio di
contatto che completa un circuito elettrico quando tocca
il contatto stesso. La posizione verticale del contatto
è modificata da chi regola il setting del termostato;
sollevandolo aumenta il punto di rilevazione e abbassandolo
diminuisce. Se l'interruttore si chiude o meno dipende
da due fattori: l'altezza della fine della striscia
bimetallica (determinata dalla temperatura) e l'altezza
del contatto (determinata dal setting).
Ci sono innumerevoli modi alternativi per implementare
la funzione continua della temperatura e classificare
le variabili cosicché possano essere paragonate
ad un semplice processo fisico.
2.3.3
TRE ASSUNZIONI SULL'ELABORAZIONE DELL'INFORMAZIONE
Palmer
e Kimchi (1986) hanno fornito una differente analisi
metateorica del paradigma dell'elaborazione dell'informazione
secondo una prospettiva psicologica. Sebbene la loro
analisi all'inizio possa apparire abbastanza diversa
da quella di Marr, vedremo invece che è ad essa
strettamente collegata.
DESCRIZIONE
DELL'INFORMAZIONE
Palmer e Kimchi (1986) analizzarono le assunzioni implicite
che sottolineano le teorie dell'elaborazione dell'informazione
nella psicologia cognitiva. Le tre teorie più
importanti sono elencate in questa e nella seguente
sezione.
1)
Descrizione dell'informazione
Gli eventi mentali possono essere descritti funzionalmente
come eventi informazionali, ciascuno dei quali è
diviso in tre parti: l'informazione in input, l'operazione
rappresentata nell'input, l'informazione di output.
Commento
alla figura 2.3.4 pag.74
Diagramma di una scatola nera. Gli eventi mentali possono
essere descritti come eventi informazionali definiti
dall'informazione di input, output e dalle operazioni
che mappano l'input verso l'output.
Questa
prima assunzione afferma che gli eventi mentali, includendo
la percezione visiva, possono essere considerati come
un'operazione che trasforma un insieme iniziale di informazioni-input
in informazioni-output. Così l'evento informazionale
può essere rappresentato come una "scatola
nera" in un diagramma di flusso, come illustrato
in figura 2.3.4. Se il rilievo dell'input/output è
ben definito, ci sarà un modo di specificare
l'operazione cosicché conoscendo l'input e l'operazione
si determina l'output. Una teoria cognitiva a questo
livello di astrazione corrisponde al livello computazionale
di Marr perché specifica quale informazione è
mappata dall'input all'output ma senza specificare come
questa trasformazione può essere compiuta. Una
funzione matematica che mette in relazione l'input all'output
è il modo ideale di specificare l'operazione,
come abbiamo fatto per l'esempio del termostato, ma
più avanti ne faremo una descrizione migliore.
SCOMPOSIZIONE
RICORSIVA
Sebbene la descrizione informazionale è una condizione
necessaria per una teoria dell'elaborazione dell'informazione,
essa non è sufficiente perché ci sono
teorie che si basano sull'assunzione della descrizione
informazionale ma che non sono tuttavia teorie dell'elaborazione
dell'informazione. La teoria della raccolta dell'informazione
di Gibson, per esempio, specifica le corrispondenze
informazionali tra input e output e quindi soddisfa
l'assunzione della descrizione informazionale. Tuttavia
la teoria di Gibson non è una teoria dell'elaborazione
dell'informazione perché esplicitamente nega
la necessità di analizzare le rappresentazioni
interne o i processi che compiono la mappatura. Palmer
e Kimchi (1986) specificano questa nuova cruciale istanza
delle teorie dell'elaborazione dell'informazione come
assunzione della scomposizione ricorsiva. Essa è
usata per formulare descrizioni più complete
di che cosa deve andare all'interno della scatola nera.
2)
Scomposizione ricorsiva
Alcuni complicati eventi informazionali possono essere
spiegati più completamente a partire da un basso
livello di scomposizione e con un diagramma di flusso
che specifica le relazioni di ordine temporale tra le
componenti. L'importante concetto introdotto da questa
assunzione è che si può definire una scatola
nera in termini di un numero di più piccole scatole
nere dentro di essa, oltre che da una specificazione
di come esse sono interconnesse. Queste più piccole
scatole nere sono spesso chiamate "stages"
e sono indipendenti da altri "stages". Un
piccolo esempio di scomposizione è l'analisi
di un sistema stereo nei suoi componenti funzionali:
sintonizzatore, lettore cd, piastra di lettura/registrazione
cassette, preamplificatore, amplificatore e microfono
(vedi figura 2.3.5). In molti casi, tutti questi componenti
sono protetti da una vetrinetta, in altri casi ognuno
di essi ha una propria chiusura con dei fili collegati
tra loro che corrispondono alle frecce del flusso di
informazioni della figura 2.3.5.
Commento
alla figura 2.3.5 pag.74
Diagramma di flusso di un sistema stereo. La scomposizione
funzionale di un tipico sistema stereo lo separa nelle
diverse componenti e nelle relazioni tra le varie parti.
Dicendo
che la scomposizione è ricorsiva significa che
può derivare dal risultato della scomposizione
precedente. Così tutte le componenti dell'esempio
dello stereo possono essere scomposte ulteriormente
nei suoi circuiti interni in un processo interattivo
di ulteriore scomposizione.
Questi diagrammi di flusso scomposti in singole componenti
di un sistema di elaborazione dell'informazione possono
corrispondere a quello che Marr chiamava "livello
algoritmico". Ma è presente una differenza
tra i due: Marr vedeva questo livello algoritmico come
singolo, di unitaria entità, mentre Palmer e
Kimchi lo concepiscono come composto da molte gerarchie
di livelli incastrati. Anche un programma di computer
può essere visto come una singola entità
o come una gerarchia di incastri di diagrammi di flusso.
Palmer e Kimchi (1986) ritengono che la scomposizione
ricorsiva per gli psicologi giace nel cuore dell'approccio
dell'elaborazione dell'informazione perché riflette
come tipicamente essi lavorano: cercando di specificare
e testare successivamente e più dettagliatamente
i diagrammi di flusso.
Commento
alla figura 2.3.6 pagina 75
La scomposizione ricorsiva nella cognizione umana. La
mente può essere descritta come un evento informazionale
a diversi livelli di dettaglio. Ogni diagramma di flusso
mostra una scomposizione funzionale della scatola nera
sotto (unita dalla linea tratteggiata) in un set di
semplici operazioni e flusso di informazioni fra essi.
Questa
figura illustra un esempio di scomposizione ricorsiva
applicata alla cognizione umana. La mente come "tutto"
è rappresentata da una singola scatola nera nella
figura 2.3.6A. Gli psicologi la scompongono in rapporto
ad un piccolo numero di componenti base illustrati in
fig. 2.3.6B ed evidenziano le loro connessioni. Ricordiamo
che l'argomento di questo libro - la percezione visiva
- è rappresentato come un singolo processo in
questo diagramma di flusso.
La scomposizione ricorsiva ammette che si comprenda
gradualmente la complessità di un sistema di
elaborazione di informazione. È importante ricordare
che gli eventi informazionali al livello più
basso devono anche avere una descrizione informazionale
che specifica cosa fanno quando mappano input e output
ma non hanno bisogno di specificare come lo fanno. Il
"come" si può capire scendendo di livello
nella via gerarchica della nuova scomposizione.
Questa impresa di scomposizione ricorsiva in una gerarchia
di componenti sarà un successo solo nell'estensione
del sistema stesso. Il Nobel Herbert Simon (1969) ha
avanzato diverse argomentazioni sul fatto che il sistema
del processo di elaborazioni di informazioni è
strutturato in questo modo. Egli caratterizza la cognizione
umana come "quasi scomponibile" per distinguerla
da alcuni sistemi costruiti dall'uomo, come lo stereo
del nostro esempio precedente, che sono del tutto scomponibili.
La distinzione di Simon confronta le interazioni che
esistono all'interno delle componenti con quelle che
esistono tra le componenti. Un sistema scomponibile
è uno nel quale le interazioni tra le componenti
sono irrilevanti se confrontate con quelle all'interno
di esse. In una più recente terminologia, questi
sistemi sono chiamati modulari, significando che sono
scomponibili in un set di processi indipendenti: il
filosofo Jerry Fodor (1983) ha confermato la verità
dell'ipotesi modulare del pensiero umano. Un sistema
quasi scomponibile è quello in cui le interazioni
tra le componenti sono deboli ma non irrilevanti, e
un sistema non scomponibile è quello in cui le
interazioni tra le componenti sono tanto forti quanto
quelle all'interno delle componenti.
Alcuni teorici della percezione - in particolare Gestaltisti,
della scuola ecologica e di quella connessionista del
pensiero - sono sensibilmente meno ottimisti di Simon
(1969) e Fodor (1983) riguardo al dominio verso il quale
il pensiero umano è anche quasi scomponibile
in moduli. Molti Gestaltisti credevano che gli eventi
mentali dovessero essere compresi in termini di insieme
di più parti, olistico, come un'area di interazione
che prende posto nel cervello. Questa concezione non
si adatta all'idea che i processi cognitivi formano
un "quasi sistema" scomponibile, caratterizzato
da un diagramma di flusso della scomposizione ricorsiva.
Più recentemente alcuni teorici connessionisti
hanno anche messo in discussione la validità
della scomposizione ricorsiva confermando la spiegazione
dei livelli neurali di percezione e cognizione. Essi
spiegano che alcune descrizioni dei più alti
livelli - che sono dimostrati nei diagrammi di flusso
- sono solo una semplice approssimazione della vera
e propria descrizione del livello neurale (Smolensky,
1988). Gibson e alcuni dei suoi seguaci prendono la
posizione opposta, concentrandosi prima sulla descrizione
informazionale della percezione al più alto livello
computazionale senza cercare di analizzarlo nei suoi
processi interni.
L'idea che la scomposizione possa essere applicata in
modo ricorsivo alle descrizioni informazionali solleva
l'importante questione di quando fermarsi. La risposta
ovvia è che bisogna fermarsi quando un certo
tipo di primitivi eventi informazionali è passato.
Ma questo solleva la nuova questione di come definire
gli eventi "primitivi". Palmer e Kimchi (1986)
distinguono due approcci diversi a questo problema,
uno basato su "software primitivi" e l'altro
su "hardware primitivi".
L'approccio "software" è considerare
come primitivi alcuni set di operazioni plausibili dal
punto di vista computazionale, che sono sufficienti
per mostrare il compito. Essi sono chiamati "software
primitivi" perché le operazioni che mostrano
sono ispirate alle richieste dei "programmi"
che sono scritti nella proposta "dell'elaborazione
dell'informazione linguistica della mente" piuttosto
che dalle operazioni mostrate dalle primitive componenti
fisiche della macchina sulla quale essi funzionano.
I "software primitivi" si sono dimostrati
utili nel modellamento di una varietà nascosta
di alti livelli dei processi cognitivi, come il pensiero
e il problem solving, ma non hanno avuto ancora molto
successo sui modelli percettivi.
L'approccio "hardware" è considerato
come l'insieme delle operazioni primitive mostrate attraverso
le basilari componenti fisiche del sistema. Nel caso
degli eventi mentali, la supposizione corrente è
che le unità di base del cervello siano i neuroni.
Il modello neurale è un approccio più
comune rispetto ai precedenti nella teoria percettiva,
in particolare nella sua prima elaborazione e grazie
ad esso gli scienziati ora conoscono molti dettagli
della struttura neurale.
È importante considerare che anche se si effettua
una scomposizione a livello descrittivo degli "hardware
primitivi", non si giungerà mai realmente
al sistema fisico stesso. L'informazione quindi non
può essere completamente ridotta nella sua particolare
implementazione fisica.
Forse il modo più chiaro per illustrare questo
punto è immaginare che si è scomposto
il sistema stereo dell'esempio della figura 2.3.5 tutto
secondo il modo degli "hardware primitivi".
Tuttavia questa descrizione non si riferisce all'attuale
dispositivo fisico che mostra. Esso si applicherebbe
tanto bene allo standard elettrico quanto l'equivalenza
dell'ottica di alta tecnologia o di alcuni altri dispositivi
implementano la stessa funzione di input/output. Questa
osservazione è strettamente legata alla distinzione
di Marr tra il livello algoritmico e quello implementazionale.
In entrambi i casi il sistema fisico è visto
come un settore fondamentalmente distinto.
TRASFORMAZIONE
FISICA
Palmer e Kimchi (1986) specificano la connessione tra
il livello informazionale e il livello fisico nella
loro terza assunzione.
3)
Trasformazione fisica
Nel sistema fisico il comportamento è stato descritto
come un evento informazionale, l'informazione è
diffusa dagli stati del sistema (chiamati rappresentazioni),
mentre le operazioni che usano queste informazioni sono
diffuse dai cambiamenti di stato (chiamati processi).
Questa terza assunzione costruisce una divergenza tra
il livello funzionale astratto dell'informazione "non
incarnata/non personificata" e le operazioni e
l'attuale attività del reale sistema fisico (o
implementazione nella terminologia di Marr). Seguendo
questo punto di vista le informazioni e le operazioni
sono, in termini tecnici, entità nel dominio
astratto delle descrizioni dell'elaborazione dell'informazione,
mentre le rappresentazioni e i processi sono entità
del mondo fisico quando sono considerati trasformazioni
di informazione e operazioni. Questa è una sottile
distinzione ma che non è comunemente utilizzata
nella letteratura. Molti teorici sembrano usare il termine
"rappresentazione" per riferirsi alle entità
informazionali e ai processi che si riferiscono ai cambiamenti
nel concetto di informazione.
I tre livelli che abbiamo discusso - computazionale,
algoritimico, implementazionale - chiariscono la nostra
discussione sulla teoria visiva dall'inizio alla fine
di questo libro. La maggior parte dei lavori su un livello
computazionale è stata fatta attualmente dalle
ricerche nella visione al computer. Questi teorici cercano
di identificare l'informazione ottica disponibile nelle
immagini retiniche che permettono la percezione dell'ambiente
esterno. Così facendo, essi implicitamente seguono
il programma di Gibson dell'ottica ecologica, studiando
la percezione attraverso un'accurata analisi delle relazioni
matematiche tra lo stimolo prossimale e quello distale.
A livello algoritmico, gli scienziati del computer e
gli psicologi stanno attivamente esplorando come i complessi
problemi computazionali possano essere scomposti in
una serie di semplici componenti e di un flusso di informazione
attraverso di loro. A livello implementazionale, gli
scienziati del computer spesso organizzano i loro algoritmi
in attuali dispositivi elettronici; fisiologici e psicologi
cercano di determinare come i cervelli elaborano realmente
l'informazione visiva a livello neurale. Uno dei principi
centrali nel presente punto di vista interdisciplinare
è che solo affrontando il problema della visione
in tutti e tre i livelli contemporaneamente noi possiamo
raggiungere una comprensione adeguata.
2.3.4
LA RAPPRESENTAZIONE.
Abbiamo
sostenuto che le componenti fondamentali di un sistema
di elaborazione dell'informazione sono le rappresentazioni
e le elaborazioni. Abbiamo ulteriormente definito una
rappresentazione come un'entità fisica che porta
l'informazione riguardo qualcosa ed elaborazione come
trasformazioni fisiche che cambiano una rappresentazione
nell'altra. Ma che tipo d'informazione porta una rappresentazione
visiva e come riesce a realizzarla? E che tipo di elaborazioni
sono compiute da un sistema di elaborazione di informazione
visiva? Queste sono le domande base riguardo la natura
delle teorie del processo di elaborazione che ora considereremo.
Una rappresentazione si riferisce ad uno stato del sistema
visivo che si conserva per una proprietà ambientale,
un oggetto, o evento: esso è un modello di ciò
che rappresenta (Palmer, 1978). In questo modo di pensare,
una rappresentazione si trova solo come parte di un
largo sistema di rappresentazione che include due mondi
collegati ma distinti: il mondo rappresentato fuori
dal sistema di rappresentazione dell'informazione (di
solito chiamato il mondo esterno o ambientale) ed il
mondo rappresentante dentro il sistema di elaborazione
dell'informazione (chiamato di solito rappresentazione
interna o semplicemente la rappresentazione). Che cosa
permette ad un mondo interno di rappresentare un mondo
esterno? Una possibilità è che la rappresentazione
interna preserva l'informazione sulla struttura del
mondo esterno grazie al fatto di avere una struttura
simile. Per questo la struttura dei due mondi deve essere
la stessa fino ad un certo punto. Un sistema di rappresentazione
può essere analizzato come omomorfismo: un'applicazione/rilevamento
da oggetti in un dominio (il mondo esterno) a oggetti
in un altro dominio (il mondo interno) tale che le relazioni
tra gli oggetti nel mondo esterno sono rispecchiati
da relazioni corrispondenti tra oggetti corrispondenti
nella rappresentazione (Tarsky, 1954). Questa applicazione
omomorfica è rappresentata schematicamente in
Figura 2.3.7. Incontriamo qualche semplice esempio di
rappresentazioni nella nostra discussione sui termostati.
Abbiamo detto che la temperatura fu rappresentata dalla
fine "non collegata" della striscia bimetallica.
Ora possiamo vedere che cosa significa più precisamente.
Come la temperatura aumenta nel mondo esterno, causa
la posizione verticale della fine della striscia che
aumenta in proporzione. Come risultato, le relazioni
tra temperature esterne (più freddo di, più
caldo di) sono collegate da relazioni tra altezze dell'ultima
parte della striscia (più basso di, più
alto di). L'altezza della striscia così preserva
l'informazione sulla temperatura esterna dal potere
di questo omomorfismo azionato in modo causale e perciò
rappresenta la temperatura esterna. Il fattore dell'omomorfismo
è importante per due ragioni. Una é che
la rappresentazione deve essere attuale e deve richiedere
un costante aggiornamento. L'altra é che la rappresentazione
deve essere autentica, deve essere un collegamento al
mondo che rappresenta. La Figura 2.3.8 mostra diversi
esempi che illustrano altri aspetti di questa nozione
di rappresentazione (Palmer, 1978). Il "mondo esterno"
rappresentato è l'insieme dei quattro rettangoli
mostrati in Figura 2.3.8A. Nonostante la loro semplicità,
questi oggetti contengono molti differenti aspetti che
potrebbero essere formati o codificati in una rappresentazione,
come la loro altezza, larghezza, area. Le Figure 2.3.8B
e 2.3.8C mostrano come due differenti aspetti di questo
mondo in miniatura potrebbero essere rappresentati dalle
stesse relazioni interne: più lungo di. Nella
Figura 2.3. 8B la lunghezza delle linee nella rappresentazione
riflette l'altezza relativa dei rettangoli nel mondo
esterno: questo è, il fatto che "a"
sia più lungo di "b" nel mondo B riflette
il fatto che "a" è più alto
di "b" nel mondo A. Simili condizioni possono
essere costruite per coppia di rettangoli in A e le
loro corrispondenti linee in B. Dato questo stato di
eventi, possiamo dire che la lunghezza relativa delle
linee in B preserva l'informazione riguardo l'altezza
relativa dei rettangoli in A. Ogni domanda che può
essere posta riguardo l'altezza dei rettangoli in A
può venir confutata dal considerare la lunghezza
delle linee relative in B. E' in questo senso che la
linea relativa alla lunghezza del mondo B rappresenta
l'altezza relativa nel mondo A. La linea della lunghezza
è ancora usata in Figura 2.3.8C per rappresentare
fatti riguardo i rettangoli in A, ma questa volta, è
la larghezza relativa dei rettangoli che è rappresentata,
come in Figura 2.3.8B. La Figura 2.3.8D descrive una
rappresentazione dell'altezza del rettangolo fisiologicamente
plausibile i termini di frequenza di scarica di neuroni,
in cui ciascuna linea verticale indica una punta di
scarico e la linea orizzontale il tempo. Questi ipotetici
neuroni scaricano a una frequenza proporzionale all'altezza
dei rettangoli corrispondenti come i rettangoli più
alti causano frequenza di scarica più alta. Nota
che l'altezza del rettangolo potrebbe essere stata codificata
in opposta maniera: la frequenza di scarica potrebbe
essere inversamente collegata all'altezza del rettangolo,
nel cui caso una frequenza di scarica maggiore potrebbe
corrispondere a rettangoli più corti. Nonostante
le ovvie differenze tra le rappresentazioni della frequenza
di scarica e la lunghezza delle linee codificate in
Figura 2.3.8B, sono equivalenti dal punto di vista informazionale,
nel senso che riflettono gli stessi fatti riguardo al
mondo esterno (Palmer, 1978) e quindi portano informazioni
identiche sui rettangoli. Un modo differente di codificare
relazioni "più alto di" riguardo ai
rettangoli è illustrato in Figura 2.3.8E e 2.3.8F.
Ciascun rettangolo corrisponde ad uno specifico nodo
(cerchio) in questi grafici (o reti), e le relative
relazioni dell'altezza collegate tra loro da frecce.
In Figura 2.3.8E, le frecce sono interpretate direttamente
come relazioni "più alto di". Così,
il fatto che a è più alto di "b"
nella parte A è riflesso dal fatto che "a"
indica direttamente "b" attraverso una delle
frecce nella parte E. In questo caso, tutte le frecce
richieste sono presenti nella rappresentazione, così
nessuna relazione ha bisogno di essere dedotta da un'elaborazione
ulteriore. Le relazioni "più alto di"
nella parte A sono codificate da relazioni di "concatenamento"
nella parte E, dove "x concatena y" significa
che esiste una serie di frecce che parte da x e arriva
ad y. Questa definizione della relazione di concatenamento
e` una rappresentazione economica nel senso che sono
richieste poche frecce per esprimere tutte le potenziali
relazioni. L'informazione richiesta può essere
dedotta dal fatto che "a" concatena "b"
e che "b" concatena "c". Ci sono
molte controversie circa la natura delle rappresentazioni
visive: o la rappresentazione di un fatto dato è
localizzata in un particolare elemento rappresentante
o è distribuita sopra molti elementi, o le rappresentazioni
visive sono analogiche o proposizionali, o un fatto
certo è rappresentato esplicitamente o implicitamente,
o che tutta la rappresentazione visiva possa essere
ricondotta ad un ambiente finito di atomi primitivi
o costituire un sistema aperto-finito.
2.3.5.
LE ELABORAZIONI
Abbiamo
detto che le rappresentazioni sono entità fisiche
in un sistema di elaborazione dell'informazione e che
portano l'informazione. Ma da dove vengono le rappresentazioni?
E come una rappresentazione deriva da un'altra? Per
rispondere dobbiamo esaminare l'altra metà del
sistema: le elaborazioni. Le elaborazioni sono le componenti
attive di un sistema di elaborazione dell'informazione
che trasformano o eseguono un'operazione su un'informazione
combinando un'informazione con la successiva. In altre
parole, le elaborazioni sono l'aspetto dinamico del
sistema che attualmente causano trasformazioni informazionali
perché accadano. Ora dovrebbe essere facile vedere
perché c'è bisogno sia della rappresentazione
sia delle elaborazioni. Nella presente sezione, consideremo
che cosa fanno le elaborazioni e come.
Informazione
implicita contro quella esplicita.
Uno dei più importanti aspetti di cosa fanno
le elaborazioni è quello di rendere l'informazione
che era implicita nella rappresentazione di input in
esplicita in quella di output (e viceversa). Tutta l'informazione
deve essere accessibile ad entrambi nella struttura
ottica che è progettata dall'ambiente sopra la
retina o da sorgenti interne all'interno dell'osservatore.
Le elaborazioni collegano e combinano l'informazione
in modi appropriati, per costruire nuove rappresentazioni
in cui le nuove rappresentazioni avranno facilmente
accesso all'informazione richiesta. Inizialmente l'informazione
esplicita per la visione è l'intensità
di luce che è registrata da ciascun fotorecettore
nel mosaico retinico bidimensionale. Ciò che
sono importanti sono i fatti più complessi come:
dove sono situati i confini tra le zone retiniche proiettate
da differenti superfici, dove queste superfici sono
localizzate nello spazio tridimensionale, come le superfici
sono configurate per formare oggetti significativi,
e a quale uso questi oggetti potrebbero essere messi
a disposizione. Niente di questa informazione è
rappresentata esplicitamente nella reazione della retina
delle immagini ottiche. Inoltre, c'è un senso
in cui tutto di ciò deve essere implicitamente
presente nell'immagine retinica oltre al fatto che colui
che percepisce produca un'ulteriore conoscenza interna
nell'elaborare l'immagine. Il compito della percezione
visiva è combinare le percezioni esterne e interne
per produrre fatti significativi sull'ambiente adatti
all'organismo.
Processo
come inferenza.
L'informazione implicita può essere resa esplicita
progettando una rappresentazione in un'altra. I processi
che si realizzano come trasformazioni possono essere
intesi come inferenze, come propose Hemholtz, sebbene
sia inconscio. Per illustrare la natura dell'inferenza,
consideriamo un classico sillogismo logico. Inizialmente
l'informazione esplicita è data nella forma della
premessa ("Tutte le persone sono mortali e John
è una persona") e la logica provvede che
i ruoli da cui l'informazione che è solo implicita
nella premessa possano essere resi espliciti nella conclusione
("Quindi John è mortale"). Estendendo
questo modo di vedere inferenziale del processo d'informazione
alla visione, potremmo far corrispondere la premessa
all'immagine retinica più qualunque conoscenza
immagazzinata o precedenti assunzioni che il percepente
trattiene per portarla nel corso del processo dì
percezione. Per esempio, data un'immagine retinica in
cui una serie di linee converge verso un punto evanescente
(v. Fig.2.3.9), più l'assunzione della convergenza
della prospettiva lineare (cioè le linee che
convergono ad un punto sull'orizzonte in un'immagine
proiettata sono attualmente parallele e si allontanano
in profondità nel mondo esterno), il sistema
visivo conclude che le linee che convergono nell'immagine
sono, infatti, linee parallele che si allontanano nel
contesto tridimensionale. Nonostante la formale somiglianza
tra inferenze logiche ed elaborazione visiva, ci sono
diverse differenze. Le "reali" inferenze logiche
che la gente fa per risolvere i sillogismi sono di solito
abbastanza ponderate, lente, verbali e consce, poiché
le inferenze visive sono generalmente spontanee, rapide,
non verbali e inconsce. Invece, poca gente è
consapevole che le linee parallele nel mondo proiettano
linee convergenti nelle loro retine. In che modo allora
i processi visivi possono essere considerati meccanismi
d'inferenza?
Ci sono due tipi generali d'inferenza: l'inferenza deduttiva
ed induttiva. Entrambi sono modi di combinare l'informazione
per giungere alle conclusioni, ma differiscono in aspetti
importanti. Altre forme di simbolismo logico sono incluse
nella classe dell'inferenza deduttiva e così
fanno operazioni matematiche standard. Uno degli aspetti
chiave dell'inferenza deduttiva è che le sue
condizioni sono certe a patto che le premesse siano
vere. Se le premesse sono false , qualsiasi inferenza
deduttiva che si basa su di loro non può essere
fondata. Al contrario, le inferenze induttive sono ancora
intrinsecamente incerte e probabilistiche se le affermazioni
su cui si basano sono vere. Esse hanno questo carattere
incerto perché sono basate su un'evidenza incompleta
o probabilistica. La maggior parte delle inferenze nell'elaborazione
visiva sono induttive nel senso che non garantiscono
la verità, a causa della natura sottomessa e
probabilistica del problema inverso che essi cercano
di risolvere.
Le
assunzioni nascoste.
La precedente discussione propone una strategia generale
per l'inferenza visiva. Sebbene molti processi chiave
nella visione sono effettivamente inferenze induttive
piuttosto che deduttive possono essere trattate come
inferenze deduttive col fare assunzioni nascoste (Cutting
1991). Questo è attualmente ciò che noi
abbiamo fatto nell'esempio delle linee convergenti/parallele.
La premessa della convergenza delle linee data esplicitamente
nell'immagine non permette l'inferenza di parallelismo
eccetto nel senso probabilistico di induzione. Comunque,
assumendo la verità della premessa ulteriore
dell'assunzione della convergenza, la conclusione delle
linee parallele può essere estratta deduttivamente
dall'immagine più l'assunzione della convergenza
nascosta della prospettiva lineare. Se le ulteriori
assunzioni della situazione attuale risultano false,
la conclusione non sarà necessariamente valida.
Infatti, questo è il caso nell'esempio della
Fig. 2.3.9. perché le linee attualmente fanno
convergenza nel disegno piuttosto che essere parallele
in profondità. Per esempio, molti teorici credono
all'illusione di Ponzo mostrata nella Fig. 2.3.10. Se
le linee convergenti sono attualmente parallele (v.
Fig.2.3. 10.) e le linee orizzontali si dispongono su
questo piano, allora la linea orizzontale superiore
potrebbe essere in verità più lunga invece
che più bassa; poiché attualmente tutte
le linee si dispongono nella figura, comunque la differenza
in lunghezza è illusoria. Cutting(1991) ha riformulato
il dibattito tra le teorie dirette (gibsoniane) e indirette
(helmholtziane) della percezione. Egli identifica la
posizione di Helmholtz d'inferenza inconscia con l'affermazione
che la percezione è induttivamente basata sull'immagine
e può essere completata solo con l'incremento
di ulteriori assunzioni alcune delle quali saranno violate
in situazioni insolite e quindi produrre illusioni.
Molti teorici dell'elaborazione vedono alcune elaborazioni
che cambiano una sola rappresentazione con un'altra
come implicando un'inferenza induttiva nel senso che
qualcosa di simile deve essere usato per le assunzioni
nascoste. Molte differenti assunzioni nascoste sono
di solito nel percepire la stessa scena visiva. Se questo
fosse vero, si potrebbe concludere che le linee convergenti
non sono parallele in profondità, ma convergono
nel piano della figura(come sono attualmente). Come
può il sistema visivo determinare che un'inferenza
è corretta? Un'assunzione deve essere scelta
per esclusione di altre assunzioni. Comunque ci sono
strutture alternative che sono sembrate compatibili
con la natura probabilistica dell'inferenza visiva.
Una possibilità è formare assunzioni nascoste
con i "soft constraints": limitazioni informazionali
che dovrebbero essere prese in considerazione ma potrebbero
essere sostituite da altre. I "soft constraints"
possono variare da debole a forte e molti, potenzialmente
contrastanti, possono essere integrati arrivando a un'inferenza
visiva. Un'altra alternativa è usare la "fuzzy
logic" che permette alle affermazioni di avere
differenti livelli di verità invece dei due valori
standard di vero e falso. Un altro approccio è
affrontare il problema in termini d'inferenza probabilistica
usando il teorema di Bayes. I vantaggi di lavoro dentro
questa struttura sono che è intrinsecamente probabilistica
e che molte parti evidenti possono essere integrate
dentro una singola struttura matematica.
Processi
euristici.
Procedure che risolvono un problema dato facendo uso
d'informazioni dubbie, probabilistiche sono chiamati
processi euristici. Come abbiamo menzionato prima, le
euristiche sono procedure che di solito, ma non sempre,
portano alla soluzione corretta. Per capire la natura
euristica dei processi visivi, consideriamo ancora le
linee convergenti/parallele nella Fig.2.3.9. Il problema
iniziale era interpretare l'orientamento tridimensionale
di un set di linee che convergono in un'immagine. L'assunzione
delle linee convergenti di essere parallele nella prospettiva
lineare, era così evocata come assunzione euristica
che di solito, ma non sempre, è vera. Era ipotizzato
che un processo d'inferenza di qualche genere potrebbe
combinare questa assunzione con l'informazione dell'immagine
retinica e accettare la conclusione /o "interpretazione")
che le linee convergenti sono attualmente parallele
su un piano che si allontana in profondità.
Assunzioni
nascoste contro validità ecologica
Gibson contestò l'idea che la percezione implica
sia inferenze o qualsiasi cosa di simile, difendendo
invece l'idea che la percezione sia diretta. Egli affermò
che le illusioni sono presenti solo in condizioni ecologicamente
non valide. Egli discusse, abbastanza persuasivamente,
che quando gli psicologi richiedono dei soggetti per
vedere una scena da un singolo punto di vista statico,
la loro forza di indossare insoliti occhiali per vedere
strani video creati dal computer, o mostrare loro figure
bidimensionali che simulano la struttura ottica di una
scena tridimensionale, essi violano le condizioni con
cui il genere umano sviluppò l'abilità
di percepire nel primo piano. Generalmente parlando,
quello che Gibson chiama condizioni ecologiche sono
le assunzioni euristiche d'inferenza basate su teorie
vere: per esempio, che gli osservatori non guardano
da uno speciale punto di vantaggio che entrambi gli
occhi esaminano la stessa scena ambientale, che l'ambiente
è un mondo tridimensionale popolato da oggetti
piuttosto che una proiezione bidimensionale composta
da zone di luce e di buio e così via. Se le condizioni
limite della percezione ecologica sono esattamente le
condizioni in cui le assunzioni euristiche della teoria
inferenziale sono vere, la percezione ecologica sarà
sempre veridica. Gibson fu abile nel difendere questa
teoria della percezione diretta contro l'evidenza della
non veridicità, dall'affermazione che tali situazioni
non erano ecologiche. Questo è perché
Gibson fu così efficace a sviare i criticismi
basati sull'esistenza delle illusioni; egli non ha negato
che le illusioni siano esistite, ma solo che sono esistite
in naturali condizioni ecologiche.
Processi
top-down contro bottom-up.
Un'altra importante distinzione nell'elaborazione dell'informazione
percettiva è il suo "senso" metaforico:
se è bottom-up o top-down. L'elaborazione "bottom-up"-
chiamato più precisamente elaborazione data driven
- si riferisce a elaborazioni che prendono una rappresentazione
di livello più basso come input e creano o modificano
una rappresentazione di livello più alto come
input. L'elaborazione top-down - chiamata anche hyphothesis
driven o expectation driven - si riferisce a elaborazioni
che operano nel senso opposto, prendendo una rappresentazione
di livello più alto come input e producendo o
modificando una rappresentazione di livello più
basso come input. La semplice intuizione di molta gente
è che la visione è essenzialmente un processo
bottom-up. Essa inizia con l'informazione sensoriale
nell'immagine retinica e va "oltre" le interpretazioni
percettive e poi concettuali. La maggior parte dei teorici
è d'accordo che i primi stadi del processo visivo
sono invece strettamente bottom-up. Ma ci sono buone
ragioni per pensare che non può essere vero per
l'intera elaborazione della percezione visiva. Ho discusso
nella sezione 1.1 che la percezione della presente situazione
degli eventi produce aspettative sul futuro. Queste
aspettativa implicano una componente top-down al processo
visivo, perché suggeriscono che le precedenti
interpretazioni di livello più alto influiscono
sull'attuale processo ai livelli più bassi. Quando
noi esaminiamo le teorie della categorizzazione percettiva
nel cap.9, incontreremo ulteriori esempi dell'idea che
l'elaborazione top-down è coinvolta con modelli
immagazzinati che si adattano ad oggetti familiari e
con scene per far entrare i dati sensoriali. Il punto
in cui le elaborazioni top-down cominciano ad aggiungere
qualcosa alle elaborazioni bottom-up è attualmente
una questione controversa. Alcuni teorici credono che
ciò succeda prima nel processo visivo; altri
credono che ciò succeda dopo.
2.4
QUATTRO STADI DELLA PERCEZIONE VISIVA
La
percezione visiva al livello degli algoritmi può
essere suddivisa in 4 stadi, oltre all'immagine retinica
stessa, come e` illustrato nella fig. 2.4.1. E` molto
importante considerare fin dall'inizio questa struttura
teoretica in quanto verra` utilizzata per il resto del
libro.
Ogni stadio viene definito da un tipo diverso di rappresentazione
in uscita e dai processi che sono richiesti per calcolarla
partendo dalla rappresentazione in entrata. I teorici
hanno utilizzato diversi nomi per indicare questi stadi,
ma Palmer non userà nessuno di questi, bensì
uno schema classificatorio generico in cui ogni stadio
e` chiamato in base al tipo di informazione che rappresenta
esplicitamente:
- stadio basato sull'immagine
- stadio basato sulle superfici
- stadio basato sugli oggetti
- stadio basato sulle categorie
Questo tipo di struttura e` stata influenzata da David
Marr (1982) e dai suoi colleghi al M.I.T. Altri schemi
sono stati e continuano ad essere considerati, ma questi
stadi forniscono una struttura generale e robusta per
la comprensione della visione come un processo computazionale.
2.4.1.
L'IMMAGINE RETINICA
Lo
stimolo prossimale e` la coppia di immagini bidimensionali
proiettate dall'ambiente al punto di vista degli occhi
dell'osservatore. La fig. 2.4.2. mostra una scena esternamente
semplice che consiste in una tazza di ceramica posta
su una superficie piatta, bianca, davanti a uno sfondo
nero; in realtà quello che e` presente nel sistema
visivo e` un insieme di luci che variano continuamente
di intensità nello spazio. Infatti l'immagine
ottica che colpisce la retina e` completamente continua,
ma la sua registrazione, attraverso il mosaico dei recettori
retinici, e` discreta. Questa e` la prima rappresentazione
dell'informazione ottica dentro il sistema visivo. I
recettori sono molto più densamente ammassati
nella fovea rispetto alla periferia (si veda fig. 1.3.9)
e i quattro tipi di recettori (tre tipi di coni e un
tipo di bastoncelli) hanno una diversa distribuzione
spaziale sulla retina (si veda la sezione 1.3).
Nelle teorie formali e computazionali della visione
la rappresentazione retinica e` quasi sempre regolarizzata
e semplificata mediante approssimazione, come un insieme
di recettori omogenei e bidimensionali. La locazione
spaziale dei recettori viene identificata in modo unico
dalle coordinate, denominate x e y, poste in un piano.
Il centro si trova nel mezzo della fovea e gli assi
x e y sono allineati retinicamente e definiti rispettivamente
Asse orizzontale e Asse verticale (Ascissa e Ordinata).
Questi elementi quadrati dell'immagine vengono chiamati
PIXEL. Un Pixel e` una piccola parte dell'immagine;
e` la più primitiva e indivisibile parte che
rappresenta esplicitamente un'unita` visiva dell'informazione
in un'immagine, corrispondente ad un recettore nelle
immagini retiniche. In un'immagine come quella di fig.2.4.2
in cui ci sono diverse gradazioni di grigio, il valore
di un dato pixel e` denominato I (x, y) per l'intensità
delle immagini (o luminanza) di uno specifico punto.
Questi aspetti sono illustrati nella fig. 2.4.3 in cui
si vede l'ingrandimento di una piccola parte della fig.
2.4.2 (fig. 2.4.3A) e il suo corrispondente valore di
intensità numerica (fig. 2.4.3B). Il sistema
di coordinate dell'immagine retinica si presume essere
esplicitamente legato alla struttura intrinseca della
retina.
La fig. 2.4.3B indica l'intensità della luce
che cade su ogni recettore con un numero di due cifre
(con un potenziale da 0 a 25). In questa figura e` presente
tutta l'informazione spaziale dell'immagine in fig.
2.4.3A, ma in forma numerica e il nostro sistema visivo
non e` in grado di interpretarla in termini di bordi,
regioni, superfici, oggetti, ecc. Appare incomprensibile
e non interpretabile. Questo non avviene quando guardiamo
la fig. 2.4.2 che mostra l'intera immagine con i vari
gradi di ombre, dalla quale derivano i numeri, e da
cui immediatamente si percepiscono bordi, regioni, superfici,
oggetti e tutti gli aspetti importanti della scena,
che mancavano quando si esaminava l'insieme numerico.
La ragione per cui la visione numerica e` cosi` difficile
da comprendere e` che il nostro sistema visivo e` messo
a punto per elaborare l'informazione contenuta in un'immagine
di intensità e non in un insieme numerico. Viste
le difficoltà a interpretare un'immagine numerica
l'ultima sfida che i teorici della percezione devono
affrontare e` questa: la percezione di oggetti in un
ambiente tridimensionale sulla base di un insieme di
numeri bidimensionali.
2.4.2
LO STADIO BASATO SULL'IMMAGINE
La
maggior parte dei teorici accettano il fatto che la
prima registrazione delle immagini negli occhi non sia
solo una rappresentazione basata su un'organizzazione
retinica bidimensionale. Queste rappresentazioni e questi
processi supplementari vengono chiamati STADIO BASATO
SULL'IMMAGINE. Questo livello e` un insieme di rappresentazioni
e processi che estraggono caratteristiche da un'immagine
bidimensionale, come la scoperta di bordi e linee, l'accoppiamento
di immagini corrispondenti negli occhi sinistro e destro,
la definizione di regioni bidimensionali nell'immagine
e la scoperta di altre caratteristiche bidimensionali,
come le linee terminali. Queste caratteristiche bidimensionali
dell'immagine caratterizzano la sua struttura e la sua
organizzazione, prima di essere interpretate come proprietà
di scene tridimensionali. Per esempio la fig. 2.4.4A
mostra alcuni bordi che potrebbero costituire una parte
della rappresentazione basata sull'immagine per la tazza
vista nella fig. 2.4.2. I bordi della parte A, che possono
essere scoperti con algoritmi computerizzati, non sono
gli stessi che sono disegnati nella parte B. E` interessante
notare che la luminanza dei bordi scoperti nella fig.
2.4.4A non sono gli stessi che la maggior parte delle
persone identifica per la stessa immagine, come illustrato
nella fig. 2.4.4B. Infatti molti dei bordi rappresentati
nella parte A non vengono notati, sia perché
troppo deboli, sia perché sono causa di differenze
nell'illuminazione (ombre e sfumature) piuttosto che
differenze nei bordi della superficie.
Marr (1982) chiama le rappresentazioni che risultano
dai processi di questo stadio PRIMAL SKETCHES (schizzi
primari) e le suddivide in :
* RAW PRIMAL SKETCH (schizzo primario grezzo)
che include la scoperta di bordi, barre, macchie e linee
terminali
* FULL PRIMAL SKETCH (schizzo primario completo)
che include l'organizzazione e il raggruppamento globale
tra le caratteristiche dell'immagine presenti nel RAW
PRIMAL SKETCH.
La struttura generale sottostante di una rappresentazione
basata sull'immagine e` definita da tre proprietà:
1 - PRIMITIVE A LIVELLO DELL'IMMAGINE - Gli elementi
primitivi rappresentano l'informazione della struttura
bidimensionale di un'immagine luminosa ( come bordi
e linee definiti attraverso differenze di intensità
di luce) e non informazioni di oggetti fisici del mondo
esterno che producono questa immagine. Sebbene i due
tipi di informazioni siano correlati, la correlazione
può essere usata solo dopo che le caratteristiche
dell'immagine siano state esplicitate in una rappresentazione
basata sull'immagine.
2 - GEOMETRIA BIDIMENSIONALE - La geometria di informazioni
spaziali in rappresentazioni basate sulle immagini e`
intrinsecamente bidimensionale, e può essere
rappresentata in un formato analogo di insiemi bidimensionali.
3 - STRUTTURA RETINICA DI RIFERIMENTO - Il sistema di
coordinate, dentro cui le caratteristiche bidimensionali
sono localizzate, e` specificato in base alla retina,
nel senso che gli assi principali sono allineati con
gli occhi (piuttosto che con il corpo, la gravita` o
l'ambiente).
2.4.3
LO STADIO BASATO SULLE SUPERFICI
Il
secondo stadio del processo visivo viene chiamato STADIO
BASATO SULLE SUPERFICI. Questo stadio riguarda il recupero
delle proprietà intrinseche delle superfici visive
del mondo esterno, che potrebbero aver prodotto le caratteristiche
che sono state scoperte nello stadio precedente. La
differenza fondamentale tra lo stadio precedente e questo
e` che lo stadio basato sulle superfici rappresenta
l'informazione presa dal mondo esterno in termini di
disposizione spaziale delle superfici visive in tre
dimensioni, mentre lo stadio basato sull'immagine si
riferisce alle caratteristiche dell'immagine in un pattern
bidimensionale di luce caduta sulla retina.
La DISTRIBUZIONE DELLE SUPERFICI e` il nome che Gibson
uso` per riferirsi alla distribuzione spaziale delle
superfici visibili dentro l'ambiente tridimensionale.
Secondo Gibson la percezione di superfici visive era
un compito molto più che importante, anche perché
non essendo un teorico dell'approccio dell'information
processing non credeva nelle rappresentazioni e nei
processi.
Il concetto di una rappresentazione esplicita basata
sulle superfici come uno stadio intermedio nella visione
divento` popolare quando fu formulato quantitativamente
dai teorici computazionali (computer vision) e implementato
in simulazioni al computer. Marr (1978) Barrow e Tennenbaum
(1978) proposero rappresentazioni basate sulle superfici
che potrebbero essere capaci di costruirsi da immagini
con gradazioni di grigi. Marr chiamo` questa rappresentazione
basata sull'immagine SCHIZZO DUE DIMENSIONI E MEZZO
(2.5-D SKETCH) mentre Barrow e Tennenbaum la chiamarono
IMMAGINE INTRINSECA.
La costruzione di una rappresentazione basata sulle
superfici e` il primo passo nel recupero dello spazio
tridimensionale a partire da immagini bidimensionali.
Queste non contengono tutte le informazioni sulle superfici
che sono presenti nell'ambiente, ma solo quelle visibili
dal punto di vista che si ha in quel momento. Come vedremo,
le superfici visive forniscono una gran quantità
di informazioni sensoriali sulla loro distanza e inclinazione
dall'osservatore, ma non le si possono calcolare dall'immagine
retinica se non con calcoli addizionali.
Poiché la rappresentazione basata sulle superfici
include solo porzioni visibili di superficie, può
essere immaginata come un singolo foglio di gomma esternamente
flessibile che e` stato stropicciato le cui superfici
riflettono la luce negli occhi del soggetto che percepisce.
Molti teorici della visione trattano le superfici in
questa rappresentazione come la composizione di molti
piccoli pezzi piani. Questo e` possibile perché
possiamo appianare una superficie fortemente curva e
renderla quasi piatta se consideriamo una regione sufficientemente
piccola, come la terra sferica sembra piana sulla scala
di cui le persone hanno esperienza. Questa semplificazione
permette alla rappresentazione basata sulle superfici
di essere specificata completamente da informazioni
sul colore, l'inclinazione e la distanza dall'osservatore
da ogni parte di superficie localmente piatta.
La fig. 2.4.5 illustra come sarebbe una rappresentazione
della superficie per la scena della tazza. Le superfici
visibili nella fig. 2.4.2 sono rappresentate come un
insieme di stime locali sull'orientamento della superficie
(inclinazione e pendenza) e sulla profondità
rispetto all'osservatore. L'orientamento della superficie
e` rappresentato da un insieme di immaginari cerchi
sulla superficie e da aghi perpendicolari che escono
da questi .
Le proprietà più importanti di questo
tipo di rappresentazione sono:
1 - PRIMITIVE A LIVELLO DELLA SUPERFICE - Gli elementi
primitivi di una rappresentazione basata sulla superficie
sono parti locali di superficie bidimensionale, come
alcune particolari inclinazioni localizzate o come alcune
distanze dall'osservatore dentro lo spazio tridimensionale.
Ogni parte della superficie può essere specificata
dal colore e dalla struttura.
2 - GEOMETRIA TRIDIMENSIONALE - Nonostante le superfici
siano bidimensionali, la loro distribuzione spaziale
e` rappresentata dentro uno spazio tridimensionale.
3 - STRUTTURA DI RIFERIMENTO CENTRATA SULL'OSSERVATORE
- Il sistema di coordinate dentro cui la distribuzione
di superfici tridimensionali e` rappresentata, e` specificato
in termini della direzione e della distanza dal punto
in cui si trova l'osservatore nella superficie, piuttosto
che in termini di retina.
Il diagramma nella fig. 2.4.6 indica che la rappresentazione
delle superfici e` costruita da alcune sorgenti diverse:
stereopsi (la piccola differenza tra la posizione laterale
degli oggetti nelle immagini degli occhi destro e sinistro),
parallasse di movimento (differenze nella velocità
dei punti a varie distanze dovute al movimento di un
osservatore o di un oggetto); sfumatura e ombra, e altre
proprietà pittoriche come la struttura, la misura,
la forma e l'occlusione. Queste sorgenti di informazione
sono discusse in dettaglio nel capitolo 5.
2.4.4
LO STADIO BASATO SUGLI OGGETTI
Chiaramente
la percezione visiva non finisce con una rappresentazione
delle superfici che sono visibili. Se questo accadesse
non ci dovremmo sorprendere se un cambiamento nel punto
di visione rivelasse che la parte più bassa della
tazza, nella fig. 2.4.2, semplicemente non esiste o
che ha forme diverse rispetto a un cilindro liscio che
ognuno di noi percepisce senza sforzo. Il fatto che
abbiamo aspettative su superfici in parte o completamente
nascoste suggerisce che ci sono alcune forme di rappresentazioni
tridimensionali che includono almeno alcune superfici
occluse del mondo visivo. E` nello STADIO BASATO SUGLI
OGGETTI che la rappresentazione visiva include informazioni
tridimensionali. In questo stadio troviamo l'insieme
delle rappresentazioni e dei processi che costruiscono
una rappresentazione visiva di informazioni tridimensionali,
includendo superfici non visibili e forma volumetrica.
La fig. 2.4.7 mostra le linee tratteggiate dei bordi
nascosti che ognuno di noi percepisce guardando la fig.
2.4.2. Il bordo della tavola e` nascosto dalla tazza
e le parti posteriori e inferiori di essa sono occluse
dalle parti che effettivamente possiamo vedere. Il recupero
della struttura tridimensionale degli oggetti di questo
ambiente e` lo scopo del processo basato sugli oggetti.
Ci sono almeno altri due modi in cui una rappresentazione
basata sugli oggetti può essere costruita:
1 - Approccio del confine in cui si estende la rappresentazione
basata sulle superfici per includere facce non visibili
dentro uno spazio tridimensionale.
2 - Approccio volumetrico in cui si immagina gli oggetti
come entità intrinsecamente tridimensionali,
rappresentati come compromessi tra insiemi di forme
primitive tridimensionali. Rappresenta oggetti espliciti
come volumi di una forma particolare in uno spazio tridimensionale.
La fig. 2.4.8 mostra come un corpo umano potrebbe essere
approssimato attraverso una gerarchia di parti, ognuna
delle quali e` rappresentata in termini di forme primitive
basate su volumi cilindrici. Nella figura la forma del
corpo umano, come un volume tridimensionale, e` grezzamente
rappresentato da un insieme di cilindri di appropriata
misura, forma, orientamento e connessione. Ogni quadrato
mostra una parte della configurazione umana: dal corpo
intero, al braccio, all'avambraccio fino alla mano.
Per molti anni l'approccio volumetrico ha dominato rispetto
alle altre teorie. Certamente e` possibile che alcuni
riempimenti di superfici occluse (filling-in) possono
aver luogo in uno stadio intermedio prima della costruzione
di una completa rappresentazione volumetrica.
Ancora una volta e` importante separare la versione
di Marr della rappresentazione basata sugli oggetti
da concetti teorici più astratti di una descrizione
volumetrica.
Le proprietà di questo stadio sono:
1 - PRIMITIVE A LIVELLO DEL VOLUME - Gli elementi primitivi
di una rappresentazione basata sull'oggetto possono
essere descritti da volumi tridimensionali che per mezzo
di ciò includono informazioni sulle superfici
degli oggetti non visibili.
2 - GEOMETRIA TRIDIMENSIONALE - Anche lo spazio dentro
cui le volumetrie primitive sono localizzate e` pienamente
tridimensionale.
3 - STRUTTURE DI RIFERIMENTO BASATE SULL'OGGETTO - Il
sistema di coordinate dentro cui le relazioni spaziali
fra volumetrie primarie sono rappresentate, può
essere definito in termini di strutture intrinseche
dei volumi stessi.
2.4.5
LO STADIO BASATO SULLE CATEGORIE
Visto
che lo scopo finale della percezione e` quello di fornire
al soggetto tutte le informazioni possibili per sopravvivere
e riprodursi, lo stadio finale della percezione deve
essere concepito come il recupero delle proprietà
funzionali degli oggetti. Questo processo viene chiamato
STADIO BASATO SULLE CATEGORIE che non e` altro che l'insieme
delle rappresentazioni e dei processi coinvolti nell'inferire
le proprietà funzionali degli oggetti dalle loro
proprietà fisiche intrinseche, attraverso un
processo di categorizzazione.
L'approccio alla categorizzazione per la percezione
di funzioni evolutivamente importanti propone due operazioni.
1 - Il sistema visivo classifica un oggetto come membro
di un più largo numero di categorie note secondo
le sue proprietà visive, come il colore, la misura,
la forma e la locazione.
2 - Questa identificazione permette di accedere a un
corpo più grande di informazioni immagazzinate
su questo tipo di oggetto, inclusa la sua funzione e
le varie forme di aspettative sul suo comportamento
futuro.
L'oggetto nella fig. 2.4.2 e` conosciuto per essere
utile per contenere liquidi o per bere. Questo schema
ha il vantaggio che ogni proprietà funzionale
può essere associata con ogni oggetto, perché
la relazione tra la forma dell'oggetto e la sua funzione,
la sua storia e il suo uso, può essere puramente
arbitraria a causa della mediazione con il processo
di categorizzazione.
I teorici della Gestalt suggeriscono un modo diverso
nel quale il sistema visivo può essere capace
di percepire una funzione dell'oggetto più o
meno direttamente dalle loro caratteristiche visive
senza prima categorizzarle. Questo approccio viene chiamato
dei CARATTERI FISIOGNOMICI, dove si ha la percezione
di proprietà funzionali degli oggetti dalle loro
caratteristiche visive senza una loro prima categorizzazione.
Cioè se vedo un frutto capisco subito che si
mangia e se vedo una sedia so che serve per sedersi
e sicuramente non si mangia. Più tardi, nel 1979,
Gibson sosterrà un approccio simile espandendo
le sue idee dalla percezione diretta all'inclusione
della funzione. Lui chiamo` le funzioni visive di un
oggetto come AFFORDANCES per chi le percepisce. Le affordance
sono funzioni di un oggetto che un osservatore può
percepire direttamente dalla sua struttura visiva piuttosto
che indirettamente dalla categorizzazione. In accordo
con questo non serve prima classificare qualcosa come
un membro della categoria "sedia" per sapere
che ci si può sedere sopra, perché la
sua affordance e` direttamente percepita senza categorizzazione.
E possibile che le persone usino entrambi i tipi di
processi (diretto e indiretto) nella funzione percettiva.
Ci sono alcuni oggetti, come le sedie e le tazze, che
hanno proprietà funzionali fortemente legate
alla loro struttura visiva e che non occorre categorizzare
per sapere come si usano; mentre esistono altri oggetti,
come il computer o il telefono, che occorre prima categorizzare
per sapere come si usano. Le strategie usate dalla persone
per percepire informazioni rilevanti sugli oggetti sono
sconosciute.
Questi quattro stadi del processo visivo rappresentano
la migliore ipotesi sull'intera struttura della percezione
visiva. Sono stati presentati in un particolare ordine
nel quale devono logicamente essere seguiti, ma questo
non significa necessariamente che il primo stadio debba
essere completato prima dell'inizio del seguente. Le
frecce che tornano indietro, nella fig. 2.4.1, indicano
che i processi seguenti possono influenzare quelli precedenti.
|