Capitolo
9
 |
Le
traduzioni che potrete trovare su questo sito
sono unicamente destinate ad uso interno per il
corso di Psicologia della Percezione dell'Università
degli studi di Trieste. Nascono con l'intento
di fornire un ausilio a quegli studenti che non
hanno molta dimestichezza con la lingua inglese.
Le traduzioni sono opera degli stessi studenti
del corso di Psicologia della Percezione 1999
- 2000. Nell'utilizzo di questo materiale va tenuto
conto che la correttezza dello stesso va verificata
confrontando le traduzioni con il testo originale.
Per ulteriori domande, clicca
qui.
|
La funzione e la categoria percettiva.
Fermiamoci
un momento per riesaminare quello che abbiamo appreso
sulla visione spaziale. Come prima cosa, abbiamo considerato
che l'informazione spaziale è inizialmente astratta
dalle immagini bidimensionali che vengono proiettate
dall'ambiente verso la retina (Cap. 4). Poi esaminammo
come queste immagini possono essere interpretate come
emergenti da superfici, disposte nello spazio tridimensionale;
(cap. 5); quindi, considerammo come le regioni dell'immagine
possano essere organizzate entro gerarchie di parti,
oggetti e gruppi; (cap. 6). Infine, abbiamo investigato
come certi oggetti possono essere analizzati entro le
loro parti e proprietà intrinseche (cap. 7).
Facendo questo, abbiamo analizzato e appreso molto sulla
percezione spaziale ma non abbiamo ancora esaminato
come la percezione raggiunga l'importante traguardo
che le abbiamo attribuito nel cap. 1, ovvero il fornire
all'osservatore l'informazione sull'utilità personale
degli oggetti nel suo ambiente. Ciò che ancora
manca alla nostra analisi è qualsiasi seria considerazione
su come la visione influisca sulla funzione degli oggetti
che vengono percepiti.
Il fine di questo cap. è di capire come ciò
possa essere raggiunto.
9.1
La percezione della funzione
La
percezione visiva della funzione permette di sapere,
semplicemente guardando, che gli oggetti nell'ambiente
sono utili per raggiungere fini usuali. Se potessi percepire
ogni cosa di cui abbiamo discusso fino a questo punto,
senza essere capace di determinare la funzione degli
oggetti attorno te, ti troveresti nella stessa posizione
di uno che venga trasportato su un pianeta alieno popolato
da oggetti sconosciuti. Saresti perfettamente capace
di percepire le loro forme, posizioni, orientamenti,
colori e altre proprietà fisiche e saresti capace
di muoverti, in questo ambiente tridimensionale, senza
sbattere contro le cose e senza precipitare. Se richiesto
forse potresti fornire dei modelli, con requisiti materiali
e abilità strutturali. Ma senza qualche altre
informazione, non potresti farci niente. Quali oggetti
sono "commestibili" e quali no ? C'è
qualcosa che è o che possa essere usato come
abito ? Senza percepire tale informazione funzionale
conosceresti troppe poche informazioni;
Tutte
le cose che abbiamo discusso finora hanno l'importante
ruolo di servire, alla fine, alla percezione della funzione.
Nel caso degli essere umani, naturalmente, l'utilità
di oggetti è un argomento enorme e complesso
che circonda la struttura interpersonale e culturale
della società moderna; non faremo nessuno sforzo
ad analizzare le basi socioculturali della quantità
di informazioni funzionali che le persone apprendono
sugli oggetti familiari, ma assumeremo solamente la
loro esistenza.
Ci focalizzeremo di più sul come le persone si
adoperino per ricavare il significato della funzione
degli oggetti, guardando;
Si
menziona volutamente che molti trattati classici di
percezione escludono l'apprendimento della funzione
dalle proprietà degli oggetti, discutendone invece
come un qualche processo più tardivo che appaia
includendo la memoria associativa. La risposta è
che mentre per la percezione delle proprietà
fisiche degli oggetti si considera che ciò sia
possibile senza esperienza precedente con oggetti specifici,
questo invece non vale per la funzione.
Ignorare la componente funzionale della visione costituisce
una seria mancanza nella spiegazione dell'esperienza
percettiva, come si vide nella situazione del pianeta
alieno.
Quindi, la percezione della funzione è qui inclusa
come un oggetto proprio (e quindi cruciale), per la
scienza della visione;
Ci sono due principali approcci per la percezione visiva
della funzione, che possiamo vedere nella figura 9.
11
figura 9. 11 - Percezione della funzione diretta versus
percezione della funzione mediata. La teoria sulla possibilità
di Gibson asserisce che certe funzioni possano essere
percepite direttamente dalle proprietà visibili
degli oggetti. Nell'approccio alternativo, quello della
categorizzazione, la funzione viene riportata dalla
memoria, dopo che l'oggetto è stato categorizzato.
1)
Affordance: Uno è l'approccio non-mediato o diretto
di James J.Gibson; lui propose che almeno qualche opportunità,
per azione degli oggetti dell'ambiente, fornite a un
osservatore esterno, possano essere percepite direttamente
dalla loro struttura visibile, nel loro assetto ottico
dinamico. Lui denominò queste proprietà
funzionali affordance.
2)
Categorizzazione: Questo è l'approccio indiretto
o mediato, difeso da quasi tutti gli altri teorici della
percezione. Qui si assume che la percezione della funzione
avvenga accoppiando la struttura percettiva dell'oggetto
con le rappresentazioni interne di categorie note di
oggetti. La funzione è poi determinata da associazioni
tra le categorie di un oggetto e tra i suoi conosciuti.
Prima considereremo l'approccio di Gibson alla percezione
della funzione attraverso le affordance, perché
è l'approccio più basilare e semplice;
c'è poco di conosciuto su questo argomento, perché
non è stato molto studiato.
Ci sono molte ragioni per giustificare questa situazione;
una è che Gibson morì subito dopo aver
iniziato la sua teoria; un'altra è che la sua
analisi era troppo poco chiara per certi argomenti e
venivano discussi brevemente.
Una terza è che questo campo è stato dominato
a lungo dall'approccio della categorizzazione e quindi
a quest'altro approccio non è stata data l'attenzione
che meritava.
Il resto del cap. sarà devoluto ad un'esaminazione
estesa sulla categorizzazione degli oggetti, che è
la spina dorsale di tutte le ricerche moderne correlate
alla percezione della funzione ottica.
9.
11 La percezione diretta delle affordance
Storicamente,
l'approccio tradizionale alla percezione della funzione
è quello della categorizzazione, nel modo del
associazionismo e dell'inferenza inconscia. Quindi il
significato di un oggetto veniva pensato come accessibile
attraverso la sua apparenza visiva come attivante una
rappresentazione categoriale, l'uso dell'oggetto veniva
dato da associazioni create con l'ausilio della memoria.
Questo processo può essere visto come un tipo
di inferenza. Ad esempio, se vedo una sedia, penso che
serve a sedervisi sopra, come pensarono vari filosofi
empiristi inglesi come Helmholtz, Wundt e altri loro
contemporanei. Per i gestaltisti, il significato viene
rivelato dall'osservatore in maniera immediata; ciò
viene detto carattere fisiognomico della percezione;
Gibson la riprese (1979) nella sua teoria delle affordance,
che può essere vista come l'opportunità,
per l'azione e l'interazione degli oggetti, di fornire
ad un organismo la loro percezione diretta. In questo
caso "diretta" è la percezione senza
la mediazione di inferenza incoscia o di associazioni
in memoria.
Gibson spiegò che uno può identificare
la funzione di un oggetto, senza prima categorizzarlo
come un oggetto specifico. Malgrado l'importanza delle
nozioni sulla funzionalità delle cose, non abbiamo
sempre categorie standard o espressioni linguistiche
per determinati oggetti.
Ci sono due importanti condizioni che sottostanno alla
percezione diretta delle affordances
1-
la forma funzionale: l'affordance non deve essere legata
arbitrariamente alla struttura dell'oggetto; la relazione
tra forma e funzione deve fare in modo che le qualità
e proprietà rilevanti siano visibili e significative
!
2- la relatività dell'osservatore: le affordances
sono proprietà funzionali di oggetti in interazione
con l'osservatore; ad esempio uno sgabello suggerisce
ad un adulto di sedervisi sopra e ad un bambino piccolo
di arrampicavisi.
Neisser 1989 chiamo "proprietà funzionali"
quelle che si conformano all'affordances fisiche in
questione; attraverso queste proprietà la funzionalità
verebbe percepita direttamente dall'assetto ottico.
Non tutte le affordances che discusse Gibson si conformano
a questo punto di vista; ad esempio nel 1979, scrisse
su come l'informazione visibile non suggerisca la funzionalità
nel caso di una buca per le lettere direttamente, perché
anche un contenitore dell'immondizia potrebbe suggerire
degli usi simili, avendo anche esso un'ampia apertura,
una certa capienza e una certa localizzazione; ma conoscendo
il loro diverso uso attraverso le associazioni in memoria,
non si possono più considerare affordances fisiche
come si definì sopra. Avere una percezione diretta,
senza una categorizzazione, non significa comunque non
sbagliare; ad esempio, una panca o un ceppo potrebbero
suggerire di sedervisi sopra, ma se gli oggetti in questione
fossero marci, non suggerirebbero di sedervisi ad una
persona normale.
Neisser andò oltre a questa concezione, suggerendo
che le affordances e la categorizzazione sono così
differenti da far supporre che siano compiute da sistemi
neurali diversi.
Nel cap. 1 abbiamo fatto una distinzione tra sistemi
"cosa" e sistemi "dove", che si
trovano nella corteccia visiva.
Ungleider e Miskin (1982) suggerirono che il sistema
"cosa" parte dalla corteccia visiva per poi
andare al sistema ventrale e alla corteccia infratemporale
e che il sistema "dove" si trovi nel sistema
dorsale e che passi dalla corteccia visiva verso la
corteccia parietale posteriore. Neisser ha congetturato,
(1989) che il sistema dorsale sottostia alla percezione
ecologica gibsoniana il sistema "cosa" quindi,
sottostà alla categorizzazione e al riconoscimento
ed entrambi richiedono l'accessibilità alla rappresentazioni
categoriale interne in memoria.
Il sistema "dove" è invece un sistema
per la percezione diretta e immediata, proveniente dalla
memoria per categorie conosciute di oggetti.
Goadale e Milner (1995) proposero idee simili a Neisser;
identificarono anche il sistema ventrale come substrato
neurale della percezione visiva conscia, teso alla pianificazione
ad alto livello di azioni volontarie. Il sistema dorsale
è invece un sistema visivo parallelo per eseguire
azioni volontarie immediate, come muovere o afferrare
oggetti; questo sistema può essere anche inconscio
e può funzionare anche se il sistema percettivo
ventrale è danneggiato.
Goadale e Milner riportarono il caso di un paziente
con questo tipo di lesione, ma con il sistema dorsale
intatto; questa persona era capace di eseguire semplice
compiti motori, guidati dalla visione, con facilità
e precisione. I pazienti con lesione sistema dorsale
hanno lo schema opposto di abilità; fanno giudizi
accurati dove con l'altro tipo di lesione è difficile,
ma hanno problemi nel controllare azioni che richiedono
feedback visivo.
Ciò concorda sul fatto che le affordances sono
coinvolte con il sistema dorsale. Questo però
non può valere per tutta l'informazione funzionale,
che necessita di maggiori conoscenze nel caso di oggetti
come videoregistratori, frighi, compact-disk, ecc. che
non sono comprensibili solo attraverso
In
questi casi, è necessario considerare l'approccio
della categorizzazione.
9. 1. 2 Percezione indiretta della funzione attraverso
la categorizzazione
La
categorizzazione richiede di percepire le proprietà
intrinseche di un oggetto attraverso il suo riconoscimento
come membro di una determinata classe e prendendo l'informazione
su quella classe dalla memoria. A volte la connessione
tra la funzione e le categorie sono arbitrariamente
scelte facendo riferimento alle esperienze precedenti.
È molto improbabile pensare che categorizziamo
ogni cosa, attraverso la visione.
L'uso di questo sistema o di quello delle affordances,
dipende dalla relazione tra la forma e la funzione di
oggetti, che può: variare da molto forte a molto
debole; entrambe sono comunque importanti nella percezione
quotidiana del nostro ambiente.
I
quattro componenti della categorizzazione :
1
Rappresentazione dell'oggetto: le caratteristiche degli
oggetti devono essere percepite e rappresentate all'interno
del sistema visivo.
2 Rappresentazione della categoria: a qualunque categoria
appartenga un oggetto, esso deve essere rappresentato
in memoria, in modo che sia accessibile al sistema visivo.
3 Processi di comparazione: tra rappresentazioni categoriali.
4 Processi decisionali: ci deve esser un modo per decidere,
sulla base di risultati dei processi di comparazione,
a quale categoria un dato oggetto appartiene.
L'informazione
sulla forma è uno degli elementi più importante
per la categorizzazione di un oggetto, assieme ai processi
di comparazione e di decisione, che andiamo ora a illustrare;
Processi di comparazione: questi processi accoppiano
dalla presentazione oggetto con la rappresentazione
categoriale, a patto che siano dello stesso tipo anche
se con contenuti differenti. Ad esempio, se abbiamo
una lista di figure o un'informazione strutturale, possiamo
compararle solo con una lista con un informazione strutturale,
a meno che non convertiamo la prima con la seconda,
per paragonarla ad una terza sempre uguale.
Una rilevante questione è stata posta sul fatto
che questi processi vengano svolti in serie o in parallelo;
un primo problema sorge comprando le rappresentazioni
attraverso le categorie; questa rappresentazione dell'oggetto
è accoppiata a solo una rappresentazione categoriale
alla volta o a tutte le categorie simili simultaneamente
?
Secondo Biederman (1987) è un teorico che stimò
lo stesso pensiero in circa oltre trentamila persone,
le categorie vengano accoppiata in parallelo, altrimenti
questo processo sarebbe troppo lento per essere utile,
(un leone ti avrebbe già mangiato prima che tu
te lo sia figurato);
2 elementi comparanti all'interno di una rappresentazione.
Assumendo che ogni rappresentazione dell'oggetto consiste
di vari elementi (forma, orientamento, colore ecc.),
la seconda domanda che si pone è se queste caratteristiche
siano accoppiate ad una data rappresentazione categoriale
serialmente (1 la volta) o in parallelo (tutte in una
sola volta).
Ad esempio, se un oggetto ha 20 caratteristiche percepibili,
verrebbe categorizzato con un tempo doppio rispetto
ad un oggetto di 10 caratteristiche ? O ci metterà
lo stesso tempo come predetto dal sistema di comparazione
in parallelo ? O forse, c'è qualche altro modo
?
La risposta è ancora lontana dall'essere ovvia.
Processi di decisione: per categorizzare un oggetto
in una data categoria, è necessario ottenere,
dai processi di comparazione un dato valore che esprima
il grado di somiglianza maggiore e di adattività
migliore per essa.
Una
volta che abbiamo questo valore, il processo di decisione
serve a vedere come possa essere utilizzato per scegliere
la categoria appropriata.
Per quest'ultima questione, bisogna considerare due
importanti fattori:
1-novità: avviene quando vediamo oggetti che
non sono membri di alcuna categoria conosciuta. Il processo
di decisione dovrebbe riconoscere l'oggetto come nuovo,
per permettere la creazione di una nuova categoria,
piuttosto che categorizzarla non correttamente in un'altra
conosciuta.
2-unicità: questo problema si pone per oggetti
che non hanno membri in comune con altre categorie;
il processo di decisione, idealmente, dovrebbe permettere
che succeda.
Bisogna notare che un oggetto può essere identificato
correttamente come membro di diverse categorie, ma non
determina l'unicità di un oggetto. Due approcci
classici che trattano il processo di decisione sono
i tre che vedremo ora.
1.
La regola della soglia.
L'approccio della soglia è di sistemare un valore
critico come risultato dei processi di comparazione
e di assegnare gli oggetti a qualunque categoria che
ecceda questo valore.
Le regole della soglia permettono di riconoscere degli
oggetti nuovi, se non c'è nessuna categoria che
ecceda soglia. Più di una categoria può
eccedere la soglia allo stesso tempo; quindi le regole
che governano la soglia possono risultare in classificazioni
multiple fra categorie mutualmente esclusive. Per esempio
non c'è nessun modo per assicurare che qualcosa
non venga percepito sia come un cane che come un lupo
contemporaneamente.
2.
La regola del massimo (o del valore più adatto)
Questo approccio consente di scegliere qualunque categoria
che abbia il più alto valore fra tutte le possibili
categorie.
È impossibile che più di una categoria
abbia lo stesso valore massimo, perché c'è
sempre un oggetto che è più adatto e simile
per una determinata categoria. Per assegnare l'oggetto
immanente viene usata la regola di decisione del punto
3.
3.
La regola della soglia oltre il massimo
Sotto una determinata soglia, un oggetto verebbe riconosciuto
come nuovo ma sopra di essa, viene scelta la categoria
con il valore più alto. Questa regola permette
di identificare gli oggetti senza ambiguità.
E ampiamente menzionato che il processo di decisione
non avviene come se un " homunculus" esaminasse
l'output dei processi di comparazione e decidesse se
un dato valore fosse o meno sopra una soglia; è
invece probabile, che le decisione sia un processo interamente
meccanicistico ; praticamente, l'unità con il
valore più alto inibirà tutte le altre
unità con valori più bassi.
9. 2 Il fenomeno della categorizzazione percettiva
Per
arrivare ad una teoria fruibile sulla categorizzazione
visiva, bisognerà tenere conto di alcune mancanze
teoriche e pratiche e risolverle.
9. 2. 1 Gerarchie categoriche
Gli
oggetti non appartengono mai ad una sola categoria,
come a volte pensiamo, ma appartengono a una struttura
gerarchica, che può venire rappresentata con
un diagramma ad albero (dove il nodo più alto
dello schema sovrasta e incorpora i nodi più
bassi, figura 9. 2. 1A), o con il diagramma di ve..,
che illustra categorie come aree circoscritte che racchiudono
membri di una data categoria. Il concetto sotteso si
può spiegare con un esempio che veda un cerchio
per i mammiferi, che ne contiene uno più piccolo
per i cani e poi uno più piccolo per una data
specifica e così via.
Prototipi:
Questa
è una delle questioni fondamentali, che va al
cuore della natura della categorizzazione umana, riguarda
il come le categorie possono essere definite in termini
di rappresentazione percettiva e di status di diversi
loro esemplari.
Una prima risposta fu quella di Aristotele, che postulò
l'esistenza di caratteristiche necessarie e sufficienti
di un oggetto per poter essere incluso in una categoria.
Questa è una relazione binaria, che può
fornire solamente e risposte positive o negative all'inclusione
categoriale. Ciò può essere spiegato anche
con il diagramma di Ve , dove, ad esempio, la categoria
dei triangoli sta in un insieme creatosi dall'intersezione
tra un insieme di poligoni chiusi e da un altro composto
da figure di tre linee.
Per molti anni si assunse che la formulazione aristotelica
fosse adeguata per le questioni logico matematiche sia
per quel che riguarda l'essere umano, ma il celebre
filosofo Ludving Wittglinstein (1953) argomentò
persuasivamente che non esistono caratteristiche necessarie
e sufficienti comuni a tutto il gioco, per quanto riguarda
il mondo reale; ad esempio, spiegò, ciò
non vale per le somiglianze tra i membri di una stessa
famiglia, che non possono essere spiegate attraverso
semplici leggi logiche. Seguendo Wittglinstein, la psicologa
Eleonor Rosch, dell'università di Berkeley, California,
pubblicò una serie di studi negli anni 70. Ciò
che trovò cambiò radicalmente il modo
di pensare di molti scienziati cognitivi sulla natura
della categorizzazione umana. L'idea di base che sottostà
ai vari autori e che esistano dei prototipi, come migliori
esempi di determinate categorie. Ad esempio, un cane
prototipo sarà un membro con caratteristiche
medie a tutti gli altri esemplari, quindi per quanto
riguarda forma, colore, taglia, ecc., questo ragionamento
è lo stesso di quello per gli studi sui colori
focali, dove il rosso, per esempio, per essere prototipo
era quello più puro e saturo. Il punto di vista
di Rosch differisce in due aspetti cruciali, rispetto
quello aristotelico:
1)
Approccio basato su regole versus approccio con rappresentazioni
basate su esempi: il prototipo è definito in
base ad un esempio specifico, piuttosto che su regole
logiche basate su liste di condizioni sufficienti e
necessarie.
2)
Concezione binaria versus concezione per gradi di appartenenza
ad una categoria. La teoria del prototipo permette una
gradazione continua di appartenenza di un gruppo, piuttosto
che una distinzione binaria tra membri o non membri,
come nella concezione aristotelica.
Rosch
testò parecchie implicazioni della sua teoria
sulla struttura prototipa tra le categorie naturali;
ad esempio, sostenne che gli oggetti variano nella "bontà"
di appartenenza alla loro categorie di riferimento.
Quando a dei soggetti fu chiesto di sistemare degli
oggetti in delle categorie, in base alla loro "bontà"
o tipicità riguardo ad esse, nel caso dei cani
identificarono i beaglas come "abbastanza alti"
e il San Bernardi come "abbastanza bassi",
in termini di punteggio. In altri esperimenti i soggetti
rispondevano a un test vero - falso più velocemente
"vero" alla frase:" un petirosso è
un uccello", rispetto alla frase "un pinguino
è un uccello"; quindi il tempo per classificare
un oggetto è dipendente da quanto buono è
un esempio per le categoria in questione.
Le
categorie del livello base
Rosch
si chiese come la tipicità venga riconosciuta
e scoprì che la maggior parte delle persone,
identifichi gli oggetti ad un livello intermedio della
gerarchia categoriale. Lassie, per esempio, verebbe
categorizzato da molti come un cane, prima che un animale
o un collie. Rosch chiamò le categorie a questo
livello di astrazione categorie del livello base, quelle
che invece si trovano al di sotto di quest'ultima sono
categorie subordinate e quelle che si trovano di sopra
sono dette categorie superordinate.
Rosch
le definì con i seguenti tre criteri:
1 - Forma simile: le categorie del livello base sono
quelle per cui i loro membri hanno forma simile, in
maniera maggiore rispetto alle altre.
Ad esempio, i membri della categoria superordinata come
quella degli animali, presentano più tipi di
forme rispetto a quella subordinata della razza canine
2
- Interazioni motorie simili: nelle categorie del livello
base, le persone interagiscono con gli oggetti che gli
appartengono con sequenze motorie simili. Considerando
i movimenti che faresti suonando il piano, piuttosto
che altri strumenti, abbiamo un buon esempio.
All'interno della categoria superordinata di strumenti
musicali, ci sono pochi movimenti in comune, ma al livello
base ci sono molte più somiglianze. Se traciassimo
uno schema per il grado di somiglianza nelle interazioni
motorie, noteremo una rapida caduta tra livello base
e quello superordinato.
3
- Attributi comuni: tra i membri del livello base c'è
il maggior numero di attributi comuni.
I punti uno e due possono essere considerati speciali
casi del criterio più generale di attributi comuni.
Tra tutte queste definizioni del livello base, quella
di somiglianza della forma è la più rilevante
per il problema della classificazione percettiva. Rosch
e i suoi colleghi inizialmente trovarono che la maggior
parte degli oggetti era inizialmente riconosciuta come
un esempio della categoria al livello base. Ricerche
più tarde, comunque, hanno mostrato che la materia
è comunque più complessa.
Poiché
le categorie in cui gli oggetti vengono inizialmente
classificati è a volte differente dal livello
- base, Jolicoeur e altri (1984) le chiamarono categorie
"ENTRY - LEVEL".
I dati mostrano che alcuni membri di una categoria vengono
prima classificati ad un livello base mentre altri sono
classificati ad un livello subordinato.
La classificazione percettiva in categorie entry - level
è chiamata spesso RICONOSCIMENTO DELL'OGGETTO
o IDENTIFICAZIONE DELL'OGGETTO così come CATEGORIZZAZIONE
DELL'OGGETTO o CLASSIFICAZIONE DELL'OGGETO. L'identificazione
dell'oggetto Può essere correlata alla categorizzazione
facendo caso al fatto che oggetti singoli sono categorie
più piccole ma i due processi non sono realizzati
nello stesso procedimento percettivo. Come le categorie
di livello - base, anche la categoria entry - level
di un oggetto può variare a seconda dei differenti
osservatori e dei differenti contesti.
9.2.2. CONDIZIONI DELLA PERCEZIONE VISIVA.
Gli oggetti a 3 - D possono essere identificati da quasi
ogni punto di vista e perché questo è
possibile viene spiegato dalla teoria sulla classificazione
degli oggetti.
Siccome possiamo categorizzare gli oggetti da vari punti
di vista è normale che la categorizzazione non
varia con la prospettiva. Un effetto di "prim'ordine"
dell'influenza del punto di vista nella categorizzazione
percettiva è l'abilità di riconoscere
gli oggetti 3 - D anche con grandi variazioni nella
prospettiva.
Un effetto di "secondo ordine " è che
la particolare prospettiva influenza la velocità
e l'accuratezza con cui gli oggetti possono essere classificati
e riconosciuti. Osservando la figura 9.2.4. è
ovvio che alcuni punti di vista sono più rappresentativi
di altri di come un cavallo appare ai nostri occhi.
PROSPETTIVA CANONICA.
Palmer, Rosch e Chase (1981) hanno documentato gli effetti
della prospettiva nella categorizzazione degli oggetti.
Propongono ai soggetti di guardare una serie di immagini
come quelle della figura 9.2.4. e di attribuire un valore
su di una scala da 1 (moltissimo) a 7 (molto poco) nel
valutare quanto ogni immagine assomigliava all'oggetto
rappresentato.I soggetti lo hanno ritenuto un compito
ragionevole e, in gruppo, hanno fatto le valutazioni
medie indicate sotto la figura 9.2.4..
I particolari punti di vista che hanno ricevuto la miglior
valutazione sono mostrati nella figura 9.2.5..
Palmer e altri (1981) hanno coinvolto altri soggetti
per dare un nome il più velocemente possibile
alle categorie "entry - level" di oggetti
messi in diverse prospettive.
Come indicato nella figura 9.2.6., i risultati mostrano
che le immagini valutate migliori venivano nominate
molto velocemente e che la cadenza del nominarle aumentava,
mentre quelle considerate peggiori venivano nominate
più lentamente e la cadenza declinava.
Palmer e altri hanno chiamato i migliori punti di vista
dell'oggetto come sua PROSPETTIVA CANONICA.I fatto che
questa esista fa capire che noi sbagliamo nel ritenere
di poter riconoscere bene gli oggetti da ogni punto
di vista. Gli effetti della prospettiva possono essere
spiegati in modi differenti. I due più ovvi sono
l'ipotesi della frequenza e l'ipotesi della massima
informazione.
1) IPOTESI DELLA FREQUENZA.
Una Spiegazione è che la velocità nel
nominate sia dovuta al numero di volte in cui abbiamo
visto l'oggetto sotto quel punto di vista.
Da sola questa spiegazione è improbabile. Le
tazze, ad esempio, vengono viste spesso dall'alto eppure
questo punto di vista non è stato identificato
velocemente.
2)
IPOTESI DELLA MASSIMA INFORMAZIONE
Un'altra spiegazione è che gli effetti della
prospettiva riflettono la somma delle informazioni che
i differenti punti di vista forniscono sulla forma e
l'uso dell'oggetto.
Questo può essere spiegato con il fatto che i
punti di vista migliori tendono a mostrare molti lati
dell'oggetto.
Anche questo viene contraddetto dal fatto che ci sono
alcuni oggetti dove il punto di vista migliore rimane
la vista frontale .
E' probabile che entrambe le ipotesi contengano la verità.
I punti di vista canonici possono dare al percettore
l'informazione più "diagnostica" di
un oggetto : quella che lo distingue dagli altri.
Ci sono casi in cui certe superfici di un oggetto contengono
informazioni "negative", che l'oggetto, cioè,
assomigli di più a qualche altro oggetto.
La diagnostica delle differenti parti di una informazione
visiva sarà comunque influenzata dalla sua familiarità.
FIGURA
9.2.4.
Prospettiva canonica. Le vedute prospettiche di un cavallo
differiscono significativamente in quanto assomigliano
all'oggetto che descrivono. I numeri rappresentano le
valutazioni medie dei soggetti in scala da 1 a 7. Le
"etichette" indicano il punto di vista da
cui sono state prese le immagini.
FIGURA
9.2.5.
Prospettiva canonica per 12 oggetti.
I soggetti nominarono queste vedute più velocemente
delle altre come indicato nella figura 9.2.6.
FIGURA
9.2.6.
Effetti prospettici sulle cadenze del nominare. Il tempo
medio che i soggetti hanno preso per nominare gli oggetti
mostrati nella figura 9.2.5. è graficizzato per
4 livelli di canonicità e misurato da valutazioni
soggettive.
Studi recenti hanno esaminato gli effetti della prospettiva
usando oggetti strani.
Edelman e Bultroff ( 1992) trovarono effetti del punto
di vista canonico nel tempo di riconoscimento di graffette
piegate in modo strano (figura 9.2.7.) che inizialmente
erano state presentate in una sequenza di vedute statiche
che producevano una rotazione apparente dell'oggetto.
Ogni singolo punto di vista è stato presentato
una volta in modo che gli effetti della familiarità
non fossero presenti.
FIGURA
9.2.7.
Esempi di stimolazione usti in un esperimento sul riconoscimento
da vari punti di vista. I soggetti dovevano riconoscere
quali dei diversi oggetti era descritto da particolari
vedute di graffette.
Anche così il riconoscimento variò sui
punti di vista replicando gli effetti della prospettiva
canonica riportati da Palmer e altri (1981). Questi
effetti non sono solo funzione della familiarità.
I soggetti possono mantenere specifiche vedute a 2 dimensioni
e uniformare vedute strane attraverso processi che si
deteriorano all'aumentare della disparità tra
le vedute nuove e quelle immagazzinate.
Se le vedute che i soggetti hanno osservato inizialmente
erano messe in rotazione il riconoscimento migliorava
per quelle in rotazione sul loro stesso asse più
che su di un asse ortogonale.
EFFETTI "PRIMING".
Altro metodo che ha prodotto interesse ma risultati
diversi sugli effetti delle visioni prospettiche è
il Paradigma del "PRIMING" usato da Irving
Biederman e i suoi colleghi.
L'idea alla base sviluppata inizialmente da BARTRAM
(1974), è che la categorizzazione di una particolare
immagine i un oggetto sarà più veloce
ed accurata se la stessa immagine è presentata
una seconda volta. La differenza tra i due tempi di
reazione misura l'importanza dell'effetto "priming".
Quello che rende gli esperimenti informativi sulla categorizzazione
è che le ripetizioni nella seconda serie di prove
non devono essere esatte riproduzioni della prima serie.
L'interesse è sul fatto che l'effetto "priming"
nella seconda prova deve essere più piccolo di
quello per le ripetizioni esatte. I risultati dimostrano
che l'importanza dell'effetto "priming" non
diminuisce quando l'oggetto nella seconda presentazione
è lo stesso della prima ma in posizione differente
o dimensione differente. E' stato comunque dimostrato
che mostrare lo stesso oggetto in vedute differenti,
riduce l'effetto "priming".
FIGURA
9.2.8.
Stimoli
per l'esperimento di "priming".
Le latenze nel nominare sono misurate con immagini di
oggetti nella prima parte di prove. Nella seconda parte
sono stati presentati di nuovo gli stessi oggetti o
dalla stessa o da differente prospettiva.
Conclusione di Biederman è che gli effetti "priming"
mostrano che la categorizzazione non è sensibile
ai cambi di misura, posizione, perché l'informazione
discrepante non è mai stata registrata prima.
EFFETTI DELL'ORIENTAMENTO
Cambi di prospettiva possono essere prodotti anche ruotando
un oggetto mentre l'osservatore è immobile. I
cambiamenti nell'orientamento sistematico dell'oggetto
producono effetti sistematici nella sua categorizzazione
? Per molti anni gli scienziati hanno supposto di no.
Studi dello psicologo canadese Pierre Jolicoeur (1985)
hanno dimostrato che i soggetti sono più veloci
nel categorizzare gli oggetti nel loro normale orientamento.
La latenza di risposta aumenta con una deviazione angolare
del loro orientamento diritto. Con presentazioni ripetute
gli effetti diminuiscono.
FIGURA
9.2.9.
Effetti dell'orientamento nella categorizzazione dell'oggetto.
Esperimenti di Tan e Pinker (1989 - 90 - 91) hanno esaminato
perché gli effetti dell'orientamento diminuiscono
con la pratica.
Essi hanno usato oggetti non familiari in modo tale
che gli orientamenti potessero essere controllati con
precisione. La risposta era più veloce con gli
oggetti in orientamento conosciuto e aumentava con la
distanza angolare da questo. Con la pratica le latenze
del nominare sono aumentate in velocità in tutti
gli orientamenti. I risultati dimostrano che le persone
possono immagazzinare rappresentazioni multiple dello
stesso oggetto in differenti orientamenti.
9.2.3. PART STRUCTURE
Gli oggetti naturali più familiari hanno parti
più importanti.
Queste parti giocano un ruolo significativo nel modo
in cui questi oggetti vengono classificati in categorie
entry - level.
Gli studi più significativi sono stati realizzati
da Biederman e Cooper (1991 b) usando una versione del
"PRIMING". Hanno usato disegni di un oggetto
nei quali parti dei suoi contorni venivano cancellate.
Nel primo esperimento hanno costruito due versioni di
disegni di oggetti comuni dove metà dei contorni
di ciascuno venivano cancellati. Sovrapponendo le due
immagini era possibile ricostruire il disegno. Motivo
di interesse era quanto la precedente presentazione
dello stesso oggetto o di un altro, faciliterebbe la
classificazione dell'oggetto nella seconda serie.
Sono
state studiate 3 condizioni :
1) IDENTITY PRIMING.
Sono stati presentati gli stessi contorni nella prima
e nella seconda presentazione (come in figura 9.2.10.A).
Questo è la base per definire il massimo quantitativo
di priming possibile.
2) LINE - COMPLEMENT PRIMING.
Qui la seconda presentazione era dello stesso oggetto
ma conteneva solo i contorni cancellati nella prima
presentazione.
3) DIFFERENT - EXEMPLAR PRIMING.
La seconda presentazione era o un disegno di un oggetto
della stessa categoria entry - level ma differente,
o con punto di vista prospettico differente.
I risultati di questo esperimento erano molto chiari
come mostrano i tempi di reazione sotto la figura 9.2.10..
Il ripetere le parti nella condizione line - complement
priming, ha prodotto quasi esattamente lo stesso quantitativo
di priming del ripetere i segmenti identici nella condizione
identity - priming (170 min./sec.). Il ripetere la stessa
categoria ha prodotto molto meno priming ( solo 93 min./sec.).
Biederman e Cooper hanno concluso che la categorizzazione
degli oggetti era basata sulla percezione delle parti
più che sui segmenti individuali e sui vertici
che le compongono.
La questione cruciale è su che cosa accadrebbe
se la stessa veduta fosse presentata nella seconda parte
di esercizi attraverso parti differenti. Se è
la ripetizione della particolare veduta prospettica
dell'oggetto che da priming i risultati del priming
part- complement che è forte come l'identity
- priming, dovrebbero essere gli stessi. Se è
la ripetizione delle parti componenti che produce priming,
la condizione part- complement dovrebbe produrre molto
meno priming che la condizione di identità perché
non ripete le parti.
I risultati sono stati chiari : il LINE - COMPLEMENT
PRIMING di immagini parzialmente cancellate ha dato
come risultato un effetto priming molto più piccolo
dell'identity - priming. I risultati forniscono l'evidenza
che la percezione delle parti gioca un ruolo cruciale
nella categorizzazione dell'oggetto in questi studi.
FIGURA
9.2.11.
Un esperimento di part - complement priming.
9.2.4. EFFETTI CONTESTUALI
Ci sono anche effetti contestuali nella categorizzazione
: cambiamenti dovuti all'ordine spaziale degli oggetti
che circondano l'oggetto obbiettivo. Questo fenomeno
è spiegato nella figura 9.2.12. dove l'identità
percepita delle lettere è influenzata dalle lettere
che la circondano. Anche la figura 9.2.13. mostra un'altra
dimostrazione dell'importanza del contesto nella categorizzazione
dell'oggetto. È' come se il sistema visivo necessitasse
di percepire due livelli di struttura di parte per categorizzare
un oggetto.
FIGURA
9.2.12.
Determinazione contestuale di uno stimolo ambiguo. L'H
e la A sono fisicamente identiche ma percepite in modo
diverso a causa delle restrizioni contestuali.
FIGURA
9.2.13.
Una illustrazione di contesto parte/intero. Lineamenti
facciali che sono facilmente riconoscibili nella faccia
di profilo, non sono riconoscibili fuori dal contesto.
Una dimostrazione più impressionante della stessa
influenza contestuale è la "faccia di frutta"
della figura 9.2.14.. Qui le forme specifiche dei "
lineamenti facciali " possono essere identificati
come semplici frutti anche perché la loro disposizione
spaziale corrisponde a occhi, naso e bocca. spaziale
Ci sono risultati oggettivi per supportare la conclusione
che il contesto influenza la categorizzazione dell'oggetto
? Esperimenti mostrano che un contesto appropriato facilita
la categorizzazione mentre uno inaropriato
la ostacola.
Palmer ha presentato ai soggetti gli schizzi di oggetti
comuni che seguivano la presentazione di una scena di
contesto come nella figura 9.2.15.
La relazione contestuale tra la scena e l'oggetto variava,
infatti l'oggetto presentato poteva essere appropriato
alla scena, inappropriato o ingannevole nel senso che
l'oggetto poteva essere simile all'oggetto appropriato.
Per la situazione di controllo gli oggetti venivano
presentati in campo neutro invece che in una scena di
contesto.
Risultati graficizzati nella figura 9.2.16.mostrano
che i contesti adeguati facilitano la categorizzazione
mentre il risultato è peggiore quando il contesto
è ingannevole. Questo dimostra che l'accuratezza
del riconoscimento può essere influenzata dalla
natura degli oggetti circostanti.
FIGURA
9.2.14.
Una faccia di frutta.
FIGURA
9.2.15.
Stimoli da un esperimento sugli effetti contestuali
sulla categorizzazione dell'oggetto. Oggetto appropriato
al contesto (A), simile all'oggetto appropriato (B)
o inappropriato (C).
FIGURA
9.2.16.
Risultati dell'esperimento sugli effetti contestuali
sulla categorizzazione.
Biederman (1972) ha usato un metodo differente : aveva
dei soggetti che cercavano la presenza di un dato oggetto
obbiettivo in una scena e ha misurato i loro tempi di
reazione. Nello studio iniziale ha manipolato il contesto
presentando o la normale fotografia o una versione riarrangiata
casualmente.
I soggetti hanno perso più tempo nel trovare
l'oggetto nel contesto riarrangiato.
In altri studi ha indagato sulle relazioni che potrebbero
essere infrante tra l'oggetto obbiettivo e il suo contesto
circostante.
I fattori studiati sono :
1) Quanta probabilità gli oggetti avevano di
apparire nella scena data
2) Se occupavano una posizione probabile o improbabile
(come illustrato nella figura 9.2.17.)
3) Se l'oggetto era più grande o più piccolo
del normale in confronto ad altro oggetti nella scena.
4) Se l'oggetto era visibilmente sostenuto oppure no.
5) Se era conforme a proprie relazioni di occlusioni
o appariva parzialmente trasparente.
Le relazioni tra gli oggetti in una scena sono entrambe
complesse e importanti. E' ovvio che le persone possono
riuscire a categorizzare gli oggetti anche in contesti
strani.
In ogni caso la situazione "normale" viene
trattata velocemente mentre situazioni "anormali"
prendono più tempo.
FIGURA
9.2.17.
Un esempio di stimolo da un esperimento sugli effetti
di contesto.
9.2.5. VISUAL AGNOSIA
Un fenomeno che forza le teorie della categorizzazione
è l'agnosia visuale, il deficit percettivo dovuto
a un danno del cervello nel quale i pazienti non sono
capaci di categorizzare oggetti comuni con cui hanno
familiarizzato precedentemente.
Ci sono forme diverse di agnosia visuale. Alcune sembrano
dovute al danneggiamento degli ultimi stadi del processo
sensoriale (chiamata APERCEPTIVE AGNOSIA da Lissauer
1980/1988). Non riconoscono gli oggetti perché
non li vedono normalmente. Lissauer chiamò Agnosia
associativa quella di pazienti che hanno abilità
percettive intatte ma non possono identificare gli oggetti
che vedono. I pazienti con agnosia visuale accusano
una varietà di sintomi differenti. Alcuni hanno
deficit specifici come nella "PROSOPAGNOSIA"
che è l'incapacità di descrivere i volti
visualmente. Questi pazienti reagivano davanti a un
parente come se fossero davanti ad un completo estraneo
e riuscivano a riconoscerlo solo dalla voce.
Un problema di molti agnosici visuali è l'incapacità
di categorizzare oggetti presentati da punti di vista
prospettici "inusuali".
FIGURA
9.2.18.
Esempi di disegni di un paziente agnosico. Nonostante
la loro incapacità a dare un nome agli oggetti,
possono copiare bene le immagini e questo esclude deficit
sensoriali.
Il fenomeno è simile agli effetti di prospettiva
trovati in persone normali ma le difficoltà maggiori
per gli agnosici sono quelle dove l'asse ottica verticale
dell'oggetto è rappresentata di scorcio. Ci sono
molti altri disordini visuali dovuti a
danni del cervello che sono in relazione con l'agnosia
visuale.
9.3. TEORIE DELLA CATEGORIZZAZIONE DELL'OGGETTO.
Torniamo a spiegare come gli oggetti possono essere
identificati nel sistema visuale. C'è un senso
nel quale la teoria dei 4 stadi della visione (basati
sull'immagine, la superficie, l'oggetto e le categorie)
è stata concepita come una sequenza di stadi
che condurrebbero alle descrizioni volumetriche strutturali
di oggetti a 3 dimensioni per categorizzazione. Delle
molte teorie avanzate considereremo in dettaglio solo
una : la teoria della categorizzazione degli oggetti
del riconoscimento dei componenti di IRVING BIEDERMAN
(1985/87).
FIGURA 9.2.19
Stimoli di prospettiva inusuali.
Riconoscimento
attraverso la teoria dei componenti: RBC theory
Alcune
volte è stata anche chiamata " geon theori
": è un tentativo di integrare molti dei
processi visivi che abbiamo considerato all'interno
di una singola sedia psicologicamente ricca di significato
che riguarda come le persone classificano gli oggetti
come membri di categorie. Questo È basato sull'idea
che gli oggetti possono essere categorizzati come arrangiamenti
spaziali di componenti volumetriche primitive; le quali
Biederman (1985 - 1987) chiamò " geons".
La categorizzazione dell'oggetto avviene attraverso
l'incontro tra la descrizione geon dell'oggetto bersaglio
con le corrispondenti descrizioni geon delle categorie
di oggetti.
geons: la prima importante assunzione dell'RBC theory
che sia le rappresentazioni di categoria che le rappresentazioni
degli oggetti sono descrizioni volumetriche - strutturali.
Questo significa che le rappresentazioni RBC sono essenzialmente
notizie gerarchiche i quali nodi corrispondono alle
parti di tre dimensioni e le cui misure corrispondono
alle relazioni tra queste parti.
I geons sono generalmente cilindri che sono stati divisi
in alcune sedie che sono abbastanza facile da distinguere.
Questo provoca un piccolo insieme di volumi primitivi
distinti del quale un enorme numero di rappresentazioni
di oggetti possono essere costruite mettendone due o
più insieme.
Esempio: figura 9. 3. Un piccolo insieme di geons, attraverso
i quali alcuni comuni oggetti possono essere costruite
mettendo più geons insieme a formare configurazioni
spaziali che possono essere velocemente riconosciute.
Tratti
caratteristici non casuali (?) Sebbene i geons siano
essi stessi entità volumetriche, la teoria RBC
propone l'idea che i geons siano identificati direttamente
dalle (immagine - base casuali ?) Come vertici e bordi.
Le differenze figurali tra l'immagine di un geon "
cilindro" sono illustrate nella figura 9. 3. 3.
Le qualità attraverso le quali i geons solo identificati
sono chiamate (tratti concettuali non casuali ?) Seguendo
la distinzione di Lowe, poiché essi sono aspetti
dell'immagine strutturale che non dipendono dalle rare
casualità del punto di vista.
Relazioni
tra i geons: poiché gli oggetti complessi sono
concepiti nella teoria RBC come configurazioni di due
o più geons in particolari ordinamenti spaziali,
essi sono codificati come descrizioni strutturali che
specificano ambedue i geons presenti e le loro relazioni
spaziali. Se i geons sono l'alfabeto di oggetti solo
tridimensionali complessi, allora le relazioni spaziali
tra i geons sono analoghe all'ordine delle lettere nelle
parole. Finché è possibile costruire diverse
parole usando le stesse lettere in modo diverso (es.
bat / tab), nello stesso modo è possibile costruire
diverse oggetti mettendo insieme di stessi geons in
modo diverso. La tazza e il secchio mostrato nella figura
9. 3. Quattro sono un esempio.
Casi di categorizzazione oggettuale nella teoria RBC.
In molti casi di applicazione della teoria RBC sono
discussi nei capitoli precedenti.
Un'implementazione
di rete neurale: l'attuale meccanismo di questi processi
non è pienamente specificato nella formulazione
originale della teoria RBC.
Hummel e Biederman hanno escogitato un'implementazione
di rete neurale dell'RBC (chiamata JIM), che ne è
mostrato nella figura 9. 3. 6.
Cause
del fenomeno empirico
È utile esaminare come le osservazioni empiriche
menzionate precedentemente in questo capitolo possono
essere spiegate con la teoria RBC.
Effetti
typicality: questi effetti nella teoria RBC corrispondono
a differenze nel grado di attivazione di una rappresentazione
di categoria data (uccello) rispetto diversi esempi
all'interno di questa categoria (pettirosso, passero,
pinguino e struzzo). Ricordiamo che attivazione di rappresentazioni
categoriale vista come una funzione di similitudine
tra la descrizione geon della categoria e la descrizione
geon dell'oggetto bersaglio. Una rappresentazione categoriale
in termini di struttura geon definisce un "rozzo"
prototipo, rozzo perché le relazioni tra "
geons" è " geon" sono solo qualitativamente
specificate. Ne consegue che un esemplare prototipico
(come il pettirosso) attiverà la rappresentazione
categoriale (uccello) più facilmente che un esemplare
atipico (come uno struzzo).
Il
livello di entrata delle categorie: i membri tipici
del livello base delle categorie sono inseriti inizialmente
a livello base, mentre i membri atipici sono inseriti
molto probabilmente a livello subordinato.
Come spiegare questo fenomeno con la teoria RBC? Il
livello di entrata di un oggetto dato della categoria
gerarchica nella RBC potrebbe essere determinato semplicemente
da quale rappresentazione categoriale viene più
fortemente attivata. Non c'è ragione di supporre
per esempio, che tutti i membri livello base (es. tutti
gli uccelli) debbano necessariamente attivare la rappresentazione
dell'uccello con la stessa forza. In realtà c'è
una buona ragione per supporre che la descrizione geon
di un pettirosso attiverà con più forte
della categoria degli uccelli, rispetto al geon di un
pinguino o di uno struzzo.
condizioni di vista: gli effetti di prospettiva possono
presentarsi in due diversi aspetti della teoria era
di RBC: categorizzazioni di geon e / o scontro di categorie.
Guardando una macchina da un lato, per esempio, vedo
soltanto una superficie dei geons che costituiscono
la sua struttura. E più facile capire le relazioni
spaziali tra i geons da certe prospettive che da altre.
struttura
delle parti: gli oggetti sono riconosciuti dall'incontro
delle loro componenti i ( geons).
Effetti
del contesto: gli effetti del contesto non possono essere
spiegati direttamente con la teoria RBC perché
si tratta di una teoria per riconoscere oggetti singoli.
Comunque può essere estesa a quei casi nei quali
produce certi tipi particolari di effetti contestuali.
Per esempio nella figura 9. 3. 7 troviamo quello che
potrebbe essere uno schema parziale della "scena"
di una cucina che contiene descrizioni di " geons"
di fornelli, frigoriferi; ma anche il pane e formaggio
e dei coltelli.
Agnosia
visiva: probabilmente non esiste una singola spiegazione
dell'agnosia visiva, perché al suo interno ci
sono molti sintomi che rientrano nella categoria generale.
Gli strani fenomeni dell'agnosia visiva potrebbero essere
spiegati con gli stessi processi che determinano gli
effetti di prospettiva nei soggetti normali.
Debolezze
e limiti: nonostante le virtù della teoria RBC,
essa presenta alcuni problemi. Il più importante
è stato menzionato nel capitolo 8 e all'inizio
di questo capitolo: la scarsità del potere rappresentazioniale.
Molto di ciò dipende dai limiti dei cilindri
come rappresentazioni primitive per informazioni di
forma. Ma questi problemi sono aggravati della classificazione
dei cilindri in 108 geons è dalla riduzione di
tutte le possibili relazioni tra i geons in solo 108
casi di binari; poiché queste restrizioni riducono
ulteriormente l'ammontare dei dettagli visivi che le
descrizioni dei geons possono definire.
I trilioni di combinazioni logiche non sono sufficienti
per catturare la sottile differenza nella forma che
le persone normalmente usano nell'identificare gli oggetti.
Differenze tra cani e gatti, oppure tra asini e cavalli,
per esempio richiedono delle discriminazioni relativamente
sottili, ambedue nelle forme delle loro parti componenti
e nelle relazioni spaziali fra esse .
Il
caso del punto di vista multipli. In molti modi, il
punto di partenza per questi approcci alternativi è
l'esistenza degli effetti prospettici che sono descritti
all'inizio di questo capitolo.
Aspect
graphs. Abbiamo detto nel capitolo 8 che le sagome non
erano disponibili come rappresentazioni di forme tridimensionali
perché un infinito numero di sagome potrebbero
essere possibili riconoscendo differenti punti di vista
dello stesso concetto. Considerando questa asserzione
è tecnicamente corretta, ma molti punti dello
stesso oggetto sono molto simili, differenziandosi solo
in dettagli metrici. Es. figura 9. 3. 8
punti di vista qualitativamente simili e diversi dello
stesso oggetto; la parte mostrata in A e B rivela le
stesse superfici dell'oggetto all'interno delle stesse
relazioni qualitative, mentre in C rivela differenti
superfici.
Figura 9. 3. 9. Un ( Aspect graph) di un tetraedro.
La struttura di tutte le tre vedute di questo tetraedo
può essere rappresentata con un singolo ( Aspect
graph) che mostra le connessioni dei vari bordi degli
anelli mostrati sotto.
Figura 9. 3. 10.14 aspetti di un tetraedo. Tutti possibili
aspetti di un semplice tetraedo sono rappresentati con
questa rete.
L'una o l'altro di due o tre facce sono visibili simultaneamente;
e le linee tra differenti aspetti mostrano cambiamenti
fisicamente possibili.
Differenti facce sono indicate con diverse ombreggiature.
Figura
9. 3. 11 allineamento con i modelli tridimensionali
?
Allineamento con le combinazioni di viste bidimensionali
Una volta che il problema della corrispondenza tra le
viste bidimensionali e i modelli tridimensionali è
stato risolto, la risoluzione del problema del riconoscimento
degli oggetti bidimensionali a tridimensionali si riduce
soltanto alla sostituzione della funzione del modello
tridimensionale con un certo numero di viste bidimensionali.
Progressi su questo fronte sono stati fatti recentemente
da un certo numero di teoretici computazionali; l'obiettivo
è di trovare un metodo che può derivare
un nuovo numero di viste bidimensionali non ancora trovate
di un oggetto, con un numero minore di viste bidimensionali
già conosciute, baipassando la necessità
di utilizzare un modello tridimensionale nella memoria.
Ullman e Basri (1991 ) quando hanno dimostrato che questo
obiettivo può essere raggiunto almeno sotto certe
condizioni semplicemente provando che tutte le visioni
possibili di un oggetto possono essere ricostruite come
una combinazione lineare di soltanto tre proiezioni
scelte , tre proiezioni ortografiche dello stesso oggetto
tridimensionale.
La figura 9.3.13 mostra alcuni semplici esempi di risultati
ottenuti con questo metodo. Due visioni bidimensionali
reali di una faccia umana, i modelli M1 M2 sono stati
combinati per produrre altre visioni bidimensionali
dallo stesso viso. Una è una visione intermedia
che è stata interpolata tra i due modelli bidimensionali,
cioè la combinazione lineare LC2 e le altre due
visioni sono state estrapolate al di fuori di loro,
da notare la somiglianza molto vicina tra la visione
interpolata LC2 e la vera visione dal punto di vista
corrispondente la nuova vista n questo piuttosto sorprendente
risulta si basa su soltanto un certo numero di condizioni
molto ristrette infatti alcune di queste sono praticamente
non realistiche. Tre requisiti , punti di partenza chiave
di Ullman e Basri sono i seguenti:
1) Tutti i punti che appartengono all'oggetto devono
essere visibili in ognuna delle visioni.
2) La corrispondenza corretta di tutti i punti tra ogni
paio di visioni deve essere nota.
3) Le visioni devono differire soltanto mediante trasformazioni
rigide oppure dilatazioni o restrizioni di dimensione
uniformi.
Il primo requisito richiede che nessuno dei punti dell'oggetto
sia nascosto in nessuna delle tre visioni questa condizione
viene mantenuta per gli oggetti di tipo che sono completamente
visibili da ciascuno dei punti vista, ma non è
rispettata da quasi tutti gli altri oggetti tridimensionali.
Per la maggior parte degli insiemi dei tre punti di
vista, la ragione è semplicemente che la maggior
parte degli oggetti è composta da superfici opache
che oscurano, nascondono tutti i punti lungo le linee
di vista tra loro.
Le combinazioni lineari della faccia in figura 9 313
sono in realtà in qualche modo meno significative
di come in realtà possono sembrare a prima vista,
questo perché il metodo funziona soltanto per
punti che sono visibili in entrambi le visioni c quello
che è stato generato è essenzialmente
soltanto una maschera della superficie facciale stessa
piuttosto che tutta la testa; la differenza può
essere vista osservando attentamente i bordi della faccia
dove finisce la testa in modo piuttosto innaturale molto
netto nella combinazione lineare LC1 e LC3. Il metodo
della combinazione lineare non è in grado di
derivare una vista di profilo della stessa testa, per
il motivo per cui la parte posteriore della testa non
è presente in nessuno dei modelli di vista M1
e M2 dal giorno usati per interpolare le altre viste.
Affinché una combinazione lineare di viste possa
permettere il riconoscimento di un oggetto da qualunque
possibile visione sui oggetti che sono autonascondenti
dovrebbero avere tre modelli bidimensionali differenti
per ogni insieme di visioni in cui in questi punti differenti
siano visibili. Confrontato con la teoria dell'aspect
graph questo significa, che una completa presentazione
di un oggetto tridimensionale con combinazioni lineari
di visioni, richiederebbe tre volte tanto di visioni
bidimensionali a quanti sono agli aspetti dell'oggetto.
2) Il secondo requisito richiede che la corrispondenza
tra i punti nelle visioni bidimensionali salvate sia
noto prima che le visioni possono essere combinate.
Sebbene la risoluzione dei problemi di corrispondenza
sia un problema computazionale di non facile soluzione
per oggetti complessi questa risoluzione di problemi
di corrispondenza può essere risolto a posteriori
piuttosto che durante processo di riconoscimento dell'oggetto.
3) Il terzo requisito significa che il processo di combinazioni
delle visioni non riuscirà a produrre una combinazione
realistica se le diverse visioni bidimensionali includono
deformazioni plastiche dell'oggetto. Se una visione
è una persona che sta in piedi e l'altra è
di una che sta seduta ,per esempio, la loro combinazione,
non costituirà necessariamente una visione possibile
della persona.
Questa descrizione può così causare problemi
per i corpi, i visi di creature inanimate, come anche
di oggetti inanimati fatti con materiali flessibili,
per esempio l'abbigliamento oppure delle strutture unite
come per esempio le forbici.
I teoretici computazionali stanno in questo momento
cercando altre maniere di risolvere questi problemi,
ma ci sono degli importanti limitazioni dell'approccio
della combinazione di lineare. I risultati ottenuti
da Ullman e Basri provano che le visioni bidimensionali
possono essere combinate per produrre nuove visioni
sotto le sopra citate condizioni, ma loro non specificano
come queste visioni possono essere usate per riconoscere
un oggetto quando viene data una data immagine in ingresso.
Ulteriori tecniche richieste per trovare la migliore
combinazione tra la vista in ingresso e la combinazione
lineare dei modelli di visione delle visione di modello
come parte del processo di riconoscimento dell'oggetto.
Un approccio è quello di usare un piccolo numero
di caratteristiche per trovare la miglior combinazione
di visione dell'oggetto tante quanti un piccolo numero
di caratteristiche possono essere usate per allineare
una visione con oggetto tridimensionale, altri metodi
sono inoltre possibili ma sono troppo tecnici per essere
descritti in questo libro.
Poggio e Edelman del, 1990 impiegarono un metodo piuttosto
differente, chiamato funzioni generalizzate a base radiale
per generare delle nuove visioni bidimensionali da un
insiemi di visioni salvate. Il loro metodo non lineare
cerca di approssimare delle viste non note usando le
viste dell'oggetto conosciuto, le viste conosciute dell'oggetto
come restrizioni. ,l'idea di base analoga ad altri metodi
di approssimazione come far corrispondere una curva
precisa a un insieme di punti indicati. Se e noto un
insiemi di punti di una funzione non nota esistono dei
metodi non computazionali per trovare la curva più
corretta che attraversa questi punti o almeno le passa
vicino. Nel metodo di Poggio e Edelman le viste salvate
sono analoghe ai punti dati e l'insieme della nuova
vista non nota è analogo ai punti che la curva
deve attraversare. Le nuove viste derivate dalle viste
note potrebbero non essere esattamente corrette, ma
attendono ad essere delle approssimazioni ragionevoli
e più vicine queste approssimazioni sono alle
viste note più accurate probabilmente lo saranno.
Il metodo GRBF può essere interpretato come una
generalizzazione del metodo di Ullman e Basri delle
combinazioni lineari ma tipicamente richiede un numero
maggiore delle sole tre viste del metodo e dall'altra
parte però è in grado di riconoscere la
posizione dell'oggetto relativo all'osservatore cosa
che la combinazione lineare non può fare.
Debolezze: Malgrado l'eleganza di alcuni dei risultati,
che sono stati ottenuti da questi teoretici, che lavorarono
l'interno dello spazio specifico della vista, quelle
teorie hanno presentato parecchi problemi, seri problemi,
come una spiegazione generale della cognizione visuale
dell'oggetto e la relativa categorizzazione, 5 di questi
problemi più importanti sono i seguenti:
1: Struttura tridimensionale. Gli aspect graph e dell'allineamento
con le combinazioni viste bidimensionali hanno un problema
nel senso che loro non riescono a considerare correttamente
la percezione tridimensionale della struttura tridimensionale
che ha la persona. Soltanto osservando un oggetto noi
generalmente sentiamo di poter avere una buona rappresentazione
di quella che è la sua struttura tridimensionale,
incluso il modo in cui che forma dobbiamo dare alle
nostre mani per cogliere l'oggetto e come dovremo sentirla
se noi dovessimo esplorarlo manualmente. Come potrebbero
succedere cose di questo tipo se noi avessimo soltanto
l'accesso a un insieme strutturato di viste bidimensionali?
Ci si potrebbe appellare alle mappe di profondità
basate sulle informazioni stereoscopiche oppure di paralasse
di movimento, ma le persone sembrano abbiano anche una
buona percezione della struttura tridimensionale anche
per oggetti che vengono visti soltanto con un occhio
stazionario. In un certo senso non ha importanza quante
differenti interpopolazioni bidimensionali o approssimazioni
possono essere generare dalla vista bidimensionali nota
o se esse siano sufficienti per il riconoscimento, il
problema è che sono tuttora soltanto rappresentazioni
bidimensionali e quindi sono assolutamente inadeguate
a rappresentare una struttura tridimensionale.
2
: Oggetti nuovi. La corrispondenza della viste bidimensionali
e modelli tridimensionali nella memoria non soffre il
problema della tridimensionalità proprio nella
stessa maniera, siccome i modelli espliciti tridimensionali
degli oggetti noti sono salvati in memoria. Una volta
che l'oggetto è stato riconosciuto l'intera struttura
tridimensionale è quindi accessibile, ma se l'agente
è nuovo come per esempio un pezzo di una scultura
astratta, oppure un oggetto che non ha senso come, la
figura 9.1.3, sicuramente la persona percepisce questi
oggetti come aventi un ovvia e chiara forma tridimensionale
anche nell'assenza di modello tridimensionale interno
preesistente che si adatta al loro. Questi modelli devono
essere costruiti dall'input visuale, ma non è
chiaro come questo possa essere raggiunto.
3:
Oggetti non rigidi. Tutte e tre queste teorie specificamente
basate sulle vista che abbiamo menzionato, l'associazione
di viste bidimensionali e i modelli tridimensionali
e l'associazione tra viste bidimensionali e combinazioni
di viste bidimensionali, lavorano nel tentativo di riconoscere
un oggetto rigido, ma cosa succederebbe se tentassimo
di riconoscere un corpo umano usando uno schema di questo
tipo, anche se il corpo è proprio stessa persona?
Se uno dovesse far corrispondere le viste bidimensionali
interne ai modelli tridimensionali ci dovrebbero essere
centinaia di modelli tridimensionali diversi, per esempio
per un ballerino che dovrebbe essere presentate in tante
pose differenti e numero di viste che dovrebbero essere
salvate dovrebbe salire fino a migliaia. Uno può
approssimare molte di queste deformazioni con trasformazioni
locali rigide di sotto insiemi dell'oggetto come il
caso del corpo, ma questo introduce gli equivalenti
funzionali delle parti, una complicazione che i teorici
della vista specifica cercano di evitare.
4:
Parte strutturale: alla fine del capitolo 7 abbiamo
osservato che gli oggetti più complessi hanno
una struttura percepita abbastanza chiara in termini
di parti e sotto parti.
Le rappresentazioni basate sulle viste che abbiamo considerato
fino adesso generalmente non contengono nessuna rappresentazione
esplicita di questa struttura, perché esse consistono
di insiemi di punti non articolati caratteristiche di
basso livello come estremi e vertici. Non è chiaro
quindi come queste teorie possano spiegare gli esperimenti
di Biederman e Cooper sulla differenza tra le linee
e le condizioni di cancellazione delle parti negli esperimenti
. Ullman ha suggerito che le parti, esattamente come
interi oggetti, possono essere rappresentate separatamente
nella memoria. Questa idea dovrebbe suggerirci che gli
schemi di riconoscimento basati sulle parti, esattamente
come gli RBC e gli schemi basate sulle viste, non sono
mutualmente esclusivi, ma possono essere combinati in
vari approcci di tipo ibrido.
5:
Variazioni esemplari : Le situazioni alle quali le teorie
basate sulle viste, che sono state fino adesso applicate
con successo, sono limitate a oggetti identici pieni
nei quali varia soltanto il punto di vista,per esempio
il recipiente pieno di rasoi di Lowe oppure il riconoscimento
di viste differenti della stessa faccia. Ma cosa si
può dire a proposito della classificazione di
esempi di categorie di basso livello, variabili di oggetti
come sedie, cani o case? La grande quantità di
variazioni dimensionali attraverso differenti esemplari
in una grande quantità di categorie, rende le
teorie basate sulle viste inadatte a lavorare, per il
problema più generale della categorizzazione
visuale. Per applicare applicare questo tipo di tecniche
alle categorie di basso livello , esse dovrebbero essere
rappresentate in termini di prototipi concreti, vedi
Ullman nel 96, ma anche in questo caso è abbastanza
improbabile che questo potrebbe funzionare . Quanto
bene potrebbero case differenti combinare la rappresentazione
di una singola istanza non ha importanza quanto tipica
o rappresentativa essa possa essere, si provi per esempio
considerare il tentativo di far corrispondere un'immagine
specifica percepita per esempio di un capannone di legno
oppure di un fallingwater (che è una casa molto
particolare costruite negli Stati Uniti ), con le immagini
di questo tipo di casa qualunque possa trattarsi.
Semplicemente non sembra possibile che il processo di
categorizzazione di entrambe le immagini percepite,
sia della casa di legno o di questa casa particolare,
come case possa essere raggiunto semplicemente di livello
in livello per fare corrispondere le immagini. C'è
una controversia in questo momento fra i paladini della
teoria basta sulla descrizione strutturale delle parti
e fra i paladini della teoria dell'allineamento dell'immagine
basate sulle viste come evidenziato da Tarr e Bulthoff
e Bierderman e Gerhardstein a proposito dell'interpretazione
di Bierderman e Gerhardstein.
Il contrasto tra questi approcci è sempre presentato
come una proposizione del tipo outout cioè o
uno o l'altro, ma questo non deve essere il caso. Una
possibile di soluzione potrebbe essere che entrambi
i processi basati sulle parti e sulle viste potrebbero
essere utilizzati per diversi tipi di compiti. Le rappresentazioni
basate sulle viste sembrano soddisfare abbastanza bene
il processo di riconoscimento dello stesso oggetto da
differenti prospettive, perché in questa situazione
non ci sono variazioni nella struttura dell'oggetto,
tutte le differenze tra le immagini possono essere spiegate
con la variazione del punto di vista . Il riconoscimento
di oggetti specifici per le teorie della descrizione
strutturale, siccome le loro rappresentazioni sono raramente
specifiche abbastanza per riuscire discriminare tra
differenti esemplari, in contrasto le teorie di descrizione
strutturale come la RBC sembrano adattarsi di più
, (meglio ) alla categorizzazione di basso livello,
perché esse hanno delle rappresentazioni più
astratte, che sono in grado di interpolare le variazioni
di forma tra differenti esemplari della stessa categoria;
questo è proprio il punto in cui le teorie basate
sulle viste si trovano in difficoltà. Un'altra
possibilità è, che sia gli schemi basati
sulle viste, che quelli basati sulle parti, possono
essere combinati per raggiungere il migliore dei due
mondi. Esse non sono mutualmente esclusive e possono
essere implementate parallelamente, questo approccio
suggerisce che quando la vista corrente corrispondere
a una rappresentazione basata sulla vista nella memoria,
il riconoscimento sarà più veloce e accurato,
nel caso contrario la categorizzazione si deve appoggiare
sul più lento ma anche più complesso processo
di associazione contro la descrizione strutturale. Non
è ancora chiaro quali o se ci sono alcune di
queste possibili soluzioni del conflitto in corso riusciranno
ad essere più produttive, la speranza in questa
controversia è che possa generare delle intuizioni
interessanti che potrebbero essere testate sperimentalmente
allo scopo di fare dei progressi scientifici.
Capitolo
9. 4
Identificazione
di lettere e parole
Fino
adesso abbiamo considerato come gli oggetti tridimensionali
di ogni giorno possono venire categorizzati, adesso
noi ci occuperemo del più ristretto problema
di come il testo linguistico, consistente principalmente
in lettere e parole, venga identificato . Questo è
un caso molto speciale di classificazione visuale a
causa della immensa importanza che la lettura riveste
nella cultura moderna , se riusciamo a capire i processi
visuali che stanno sotto al modo in cui il soggetto
legge il testo, noi saremo in grado di sviluppare delle
tecniche migliori per insegnare agli studenti a leggere,
per aiutare anche le persone che hanno problemi nella
lettura e per programmare i computer che devono leggere
immagini o testi. La tecnologia più nuova sotto
nome di OCRI è già disponibile ma è
molto lontana dalle capacità che può avere
un uomo nella lettura e si basa su tecniche che molto
probabilmente non sono coinvolte nella lettura umana
.
Noi dobbiamo cominciare con una importante distinzione:
|