Dott. Dore Alessio RELAZIONE SULL'ATTIVITA' E LE RICERCHE SVOLTE ALLA CONCLUSIONE DEL I ANNO DEL XXII CICLO DEL CORSO DI DOTTORATO DI RICERCA IN SCIENZE E INGEGNERIA DELLO SPAZIO 1. TEMATICHE DI RICERCA Le tematiche da me sviluppate hanno avuto per oggetto (non più di 2 o 3 righe, numerando gli argomenti, da riportarsi in forma succinta come nell 'esempio seguente: tali argomenti verranno riportati nel verbale dell'eventuale approvazione): 1) 2) 3)
Metodi bio-inspired per l’apprendimento e il modellamento delle interazioni; Algoritmi di inseguimento su sequenze video basati sulla forma; Fusione dati video e radio per la localizzazione e l’inseguimento in Ambienti Intelligenti;
(segue una descrizione di 2-5 pagine al massimo, che illustra le tematiche di cui sopra. Si raccomanda di rispettare la numerazione dei paragrafi sotto riportata). Gli algoritmi e le tecniche descritte nei punti 1.1, 1.2 e 1.3 si configurano come strumenti per la realizzazione di sistemi, detti Smart Space, atti a fornire servizi tramite attuatori (p.e. dispositivi mobili di comunicazione) in modo autonomo, adattivo, dipendente dal contesto ed in base all’esperienza acquisita. Gli ambiti applicativi maggiormente investigati sono gli Smart Space per la sicurezza e per l’Ambient Intelligence. 1.1. Nell’ambito dell’elaborazione video e di segnali multidimensionali, il riconoscimento di azioni è una delle linee di ricerca più attuali e complesse. L’analisi automatica di eventi rilevati in una scena e l’individuazione di quelli di interesse presenta rilevante interesse in diversi domini di applicazione come la sorveglianza intelligente [1]-[3], l’analisi di eventi sportivi e il monitoraggio e controllo di anziani o disabili [4],[6]. Il lavoro è stato incentrato nello sviluppo di un algoritmo in grado di apprendere e modellare le interazioni tra più soggetti o tra un soggetto e un sistema artificiale. Questo approccio presenta vantaggi rispetto alla maggior parte dei lavori in letteratura che si focalizzano sulla rilevazione e sull’analisi di azioni, infatti, in molte situazioni, queste derivano dalle interazioni del soggetto con altri soggetti o con l’ambiente circostante. In questo ambito risulta di particolare interesse sviluppare algoritmi basati sulle osservazioni e sugli studi riguardanti i processi che si svolgono nel cervello umano al fine di imitarne le proprietà cognitive. Gli studi neurofisiologici riguardanti la formazione della coscienza svolti da Antonio Damasio [7] sono risultati una valida fonte di ispirazione per la realizzazione di algoritmi di apprendimento e modellamento delle interazioni. Secondo questi studi la coscienza deriva dalla capacità di distinguere tra ciò che è interno e ciò che è esterno rispetto all’entità cognitiva (cioè all’essere umano), ovvero, rispettivamente, il protoself e il core self. Sono state inoltre osservate strutture neurali che permettono di
memorizzare relazioni causali, dette second-order neural patterns, generati dalla variazione del proto-self (stato interno) determinato da un evento esterno core self. Questo processo è, però, generalmente transiente e solo alcuni second-order neural patterns sono memorizzati generando la cosiddetta core consciousness (ovvero la coscienza di ciò che è altro da sé) e che sono immagazzinati in una struttura detta Autobiographical Memory. Le relazioni causali apprese sono utilizzate tramite un meccanismo detto Autobiographical Self al fine di predire le conseguenze di eventi esterni sullo stato interno dell’entità. In analogia a quanto appena descritto è stato sviluppato un algoritmo in grado di apprendere relazioni causali tra un sistema artificiale e i suoi utenti al fine di predire situazioni future ed essere in grado di operare decisioni anticipative. Questo algoritmo è stato inserito in architetture di sistemi in grado di fornire servizi agli utenti tramite attuatori in modo autonomo, adattivo e dipendente dal contesto (Smart Spaces). Coerentemente con la terminologia degli studi di Damasio si definiscono lo stato interno e quello esterno del sistema rispettivamente come stati proto e core, e gli eventi relativi ovvero le variazioni significative come eventi proto e core. L’Autobiographical Memory è costituita da una collezione di sequenze di eventi proto e core alternati, opportunamente appresi per descrivere statisticamente la frequenza di occorrenza delle relazioni causali che coinvolgono il sistema mentre interagisce con i suoi utenti. A partire da questa descrizione probabilistica è stato realizzato un metodo per predire eventi futuri. L’algoritmo di apprendimento si sviluppa secondo i seguenti passi: 1) Definizione degli stati proto XP e core XC come vettori di dati acquisiti dai sensori relativi al sistema e all’esterno: X P (t ) = { xP1 (t ), xP 2 (t ),… , xPN (t )} (1)
X C (t ) = { xC1 (t ), xC 2 (t ),… , xCM (t )} (2) dove N e M sono il numero totale di segnali provenienti dai sensori relativi allo stato interno e a quello esterno. 2) Definizione degli eventi proto εP e core εC. Gli eventi devono essere significativi per le relazioni causali da immagazzinare. Gli stati in (1) e (2) sono quindi mappati nei cosiddetti super-stati SxP(t) e SxC(t) che definiscono ciò che è rilevato dai sensori tramite etichette semantiche o sub-simboliche lP(t) e lC(t). Questo processo necessita metodi di clustering (p.e. Self Organizing Maps SOMs in [8]) o classificazione dei vettori degli stati. La variazione dei superstati implica un evento che può essere temporalmente identificato: (3) ε P (t ) = lPi (t − ) → lPj (t + )
ε C (t ) = lCi (t − ) → lCj (t + )
(4)
3) Gli eventi sono memorizzati in sequenze di triplette proto-core-proto (εP-,εC, εP+) o core-proto-core (εC-,εP,εC+) per tenere in considerazione le conseguenze di un evento core/proto (esterno/interno) sullo stato proto/core (interno/esterno); nel primo caso si parlerà di memoria passiva, nel secondo di memoria attiva. Un processo di voting viene realizzato per ottenere una
stima della probabilità di occorrenza di un evento interno (o esterno) a seguito di uno esterno (o interno). 4) Memorizzazione della frequenza temporale di occorrenza degli eventi calcolata come t(εP+)-t(εC) (memoria passiva) e t(εC+)-t(εP) (memoria attiva). Un esempio di questo processo è descritto graficamente in Figura 1, dove viene evidenziato il fatto che gli eventi possono essere descritti come sistema di equazioni differenziali in analogia con i second order neural pattern di Damasio, come descritto più in dettaglio in [8].
Figura 1: Esempio di voting nella Autobiographical Memory.
La memorizzazione di queste sequenze di eventi nella struttura descritta può essere realizzato in una fase di training off-line, oppure in modalità on-line in modo incrementale durante il funzionamento del sistema (in questo caso tenendo conto della non rappresentatività statistica dei dati memorizzati). Nella fase operativa del sistema, utilizzando i dati appresi, che rappresentano la memoria del sistema si procederà alla predizione secondo la seguente procedura: 1) Rilevazione di eventi proto εP e core εC in modo analogo a quanto realizzato nella fase di training 2) Investigazione della Autobiographical Memory passiva e attiva rispettivamente per ogni coppia consecutiva {εP-,εC}e{εC-,εP}per determinare l’evento più probabile εP+ ed εC+. 3) Viene stimato il ritardo di occorrenza dell’evento più probabile in base ai dati appresi durante la fase di training. L’algoritmo è stato testato in due diversi scenari: 1) laboratorio intelligente; 2) sorveglianza cognitiva. In entrambi i casi l’obiettivo è l’invio di messaggi di guida su un dispositivo portatile per condurre un utente verso un obiettivo in modo proattivo e dipendente dal contesto e dall’esperienza appresa. In Tabella 1 sono descritti i risultati riguardanti la predizione di eventi inerenti all’evoluzione dello stato interno del
sistema a seguito di azioni eseguite da un utente (p.e. modifica carico computazionale su un PC a seguito di un movimento di un utente verso tale PC). Questo permette al sistema di Tabella 1 : Risultati di predizione nel caso del laboratorio intelligente allocare gli utenti all’interno del laboratorio in modo efficiente. In Tabella 2 sono illustrati i risultati relativi al caso della sorveglianza cognitiva in cui un guardiano è guidato verso un intruso tramite messaggi di guida visualizzati su un palmare. L’Autobiographical Memory è utilizzata per apprendere i comportamenti dei due attori (guardia e ladro) in queste situazioni e predire i movimenti futuri al fine di inviare messaggi efficaci. La realizzazione di un simulatore di comportamento è risultata necessaria per la fase di apprendimento, i cui risultati sono stati poi testati in situazioni realistiche dove guardia e ladro sono rilevati all’interno dell’ambiente tramite metodi di inseguimento (tracking) da sequenze video acquisite da telecamere.
Tabella 2 : Risultati di predizione nel caso della sorveglianza cognitiva
Riferimenti Bibliografici 1.1 [1] C.S. Regazzoni, V. Ramesh and G.L. Foresti, “Scanning the Issue/Technology - special issue on video processing, understanding and communications in third generation surveillance systems”, Proceedings of the IEEE, vol. 89, n. 10, pp. 1355—1359, 2001 [2] N. Robertson and I. Reid “A general method for human activity recognition in video” Computer Vision and Image Understanding, Vol. 104, n. 2, Nov. 2006 [3] S. Park and M. M. Trivedi, Multi-person interaction and activity analysis: a synergistic trackand body-level analysis framework, Machine Vision and Applications: Special Issue on Novel Concepts and Challenges for the Generation of Video Surveillance Systems, August 2007. [4] C. Panagiotakis, I. Grinias, and G. Tziritas, “Automatic human motion analysis and action recognition in athletics videos”, European Signal Processing Conference, EUSIPCO 2006, 2006. [5] S. J. McKenna, P. Gregor and A. F. Newell, "Scenario-based drama as a tool for investigating user requirements with application to home monitoring for elderly-people", F. Marquis-Faulkes, , Human-Centred Computing: Cognitive, Social and Ergonomic Aspects, 3 (2003) (Eds. D. Harris, V. Duffy, M. Smith and C. Stephanidis), pp.512-516. 22-27 June, Crete, Greece. [6] C. N. Scanaill, S. Carew, P. Barralon, N. Noury, D. Lyons, and G. M. Lyons, “A Review of Approaches to Mobility Telemonitoring of the Elderly in Their Living Environment”, Annals of Biomedical Engineering, vol. 34, n. 4, 2006 [7] A. R. Damasio, The Feeling of What Happens-Body, Emotion and the Making of Consciuousness. Harvest Books, 2000.
[8] A. Dore, A. F. Cattoni, and C. S. Ragazzoni “Interaction modeling and prediction in Smart Spaces: a Bio-inspired approach based on Autobiographical Memory”, IEEE Transactions on Systems, Man, and Cybernetics - Part B, submitted
1.2. I sistemi descritti nel punto 1.1 richiedono tipicamente un’analisi contestuale di una scena osservata da telecamere. La precisa localizzazione ed inseguimento (tracking) risulta essere di notevole importanza per le applicazioni descritte. Sono stati perciò investigati diversi metodi di tracking per concentrare l’attenzione su metodi basati sulla forma in modo da ottenere congiuntamente informazioni sulla posizione e sulla posa delle persone (o oggetti) monitorati. La descrizione della forma è ottenuta tramite i corner (cioè i punti ad elevata curvatura nell’immagine) ed è stato sviluppato un algoritmo basato sul Particle Filter per effettuare il tracking. Il Particle Filter [1] è una tecnica che permette di risolvere in modo approssimato il problema della stima dello stato ricorsiva Bayesiana in caso di sistemi non lineari affetti da rumore non Gaussiano. La densità di probabilità a posteriori è approssimata tramite campioni (particelle) che possono essere interpretati come possibili ipotesi dello stato a cui è associato un peso relativo alla sua probabilità. Tre passi fondamentali sono realizzati per ottenere la stima: 1) predizione; 2) aggiornamento; 3) ricampionamento. Nell’algoritmo proposto [2],[3] lo stato è definito come vettore composto dalla posizione nell’immagine di N corner dell’oggetto. La predizione è ottenuta mediante un sistema autoregressivo del second’ordine; l’aggiornamento viene realizzato confrontando la forma e la posizione predette (ovvero lo stato predetto) con i corner estratti tramite cui si assegnano i pesi alle particelle. Il ricampionamento permette di eliminare quelle ipotesi poco probabili che possono condurre ad una stima non accurata replicando quelle più probabili. Risultati (vedi Figura 2) su sequenze reali dimostrano la capacità di inseguire oggetti non Figura 2 : Risultati di tracking basato sulla forma in rigidi (persone) anche in presenza presenza di occlusioni di occlusioni.
Riferimenti Bibliografici 1.2 [1] B. Ristic, S. Arulapalam, and N. Gordon, Beyond the Kalman Filter, Artech House Publishers,
2004. [2] A.Dore, M. Asadi, and C.S. Regazzoni, "Multiple hypothesis shape tracking using particle
filtering and Hough-based observation models," SPIE Electronic Imaging - Visual Communications and Image Processing, VCIP 2007, San Jose, CA, USA, January 2007
[3] A.Dore, M. Musso, and C.S. Regazzoni, "MAP Particle Selection in Shape-Based Object
Tracking," IEEE International Conference on Image Processing, ICIP 2007, San Antonio, TX, USA, 16 - 19 September 2007
1.3. La fusione dati [1] permette di processare congiuntamente i dati acquisiti da molteplici sensori per ottenere una descrizione maggiormente informativa della scena in esame. L’utilizzo combinato di informazioni video e radio per l’inseguimento di persone o veicoli dotati di dispositivi portabili (p.e. palmari) permette lo sfruttamento delle capacità complementari fornite dalle due tipologie di segnali. Infatti il tracking video garantisce un inseguimento di maggior precisione ma in cui il mantenimento dell’identità non è molto robusto a causa delle occlusioni (sovrapposizione di oggetti nel piano immagine). La localizzazione radio presenta prestazioni di precisione decisamente inferiore fornendo però un mantenimento dell’identità certo grazie all’indirizzo MAC/IP associato al dispositivo. L’approccio [2], [3] investigato utilizza la localizzazione video quando disponibile e le osservazioni radio quando l’oggetto è occluso. Il Particle Filter è stato utilizzato per fondere i dati: la predizione è ottenuta da un modello di movimento autoregressivo del second’ordine. L’aggiornamento nel caso video deriva dal confronto tra la posizione predetta e quella rilevata. Nel caso in cui si abbia a disposizione solo osservazione radio una descrizione probabilistica parametrica della potenza ricevuta dal dispositivo in ogni punto dello spazio (mappa radio) è impiegata per determinare l’accuratezza della predizione. In Figura 3 è illustrato un esempio in cui l’utilizzo di informazioni radio permette il tracking anche Figura 3 : Esempio di tracking radio-video durante occlusioni. Riferimenti Bibliografici 1.2 [1] D.L. Hall and J. Llinas, “Handbook of Multisensor Data Fusion” CRC Press, New York, NY,
2004 [2] A.Dore, A. Cattoni, and C.S. Regazzoni, "A Particle Filter-Based Fusion Framework for Video-
Radio Tracking in Smart-Spaces," IEEE International Conference on Advanced Video and Signal based Surveillance, AVSS 2007, London, UK, 5 - 7 September 2007 [3] A.F.Cattoni, A.Dore, and C.S. Regazzoni, "Video-Radio Fusion Approach for Target Tracking in Smart Spaces," International Conference on Information Fusion, FUSION 2007, Québec City, Québec, Canada, 9 - 12 July 2007
2.
ELENCO DELLE PUBBLICAZIONI (dall'inizio dell'attività di ricerca) •
A.Dore, M. Asadi, and C.S. Regazzoni, "Multiple hypothesis shape tracking using particle filtering and Hough-based observation models," SPIE
•
• • •
•
•
Electronic Imaging - Visual Communications and Image Processing, VCIP 2007, San Jose, CA, USA, January 2007 A.Dore, M. Pinasco, and C.S. Regazzoni, "A Bio-inspired Learning Approach for the Classification of Risk Zones in a Smart Space" Online Learning for Classification Workshop, in conjunction with CVPR 2007, Minneapolis, MN, USA, June 2007 A.F.Cattoni, A.Dore, and C.S. Regazzoni, "Video-Radio Fusion Approach for Target Tracking in Smart Spaces," International Conference on Information Fusion, FUSION 2007, Québec City, Québec, Canada, 9 - 12 July 2007 A.Dore, M. Musso, and C.S. Regazzoni, "MAP Particle Selection in ShapeBased Object Tracking," IEEE International Conference on Image Processing, ICIP 2007, San Antonio, TX, USA, 16 - 19 September 2007 A.Dore, A. Cattoni, and C.S. Regazzoni, "A Particle Filter-Based Fusion Framework for Video-Radio Tracking in Smart-Spaces," IEEE International Conference on Advanced Video and Signal based Surveillance, AVSS 2007, London, UK, 5 - 7 September 2007 M. Asadi, A.Dore, A. Beoldo, and C.S. Regazzoni, "Tracking by Using Dynamic Shape Model Learning in the Presence of Occlusion," IEEE International Conference on Advanced Video and Signal based Surveillance, AVSS 2007, London, UK, 5 - 7 September 2007 A.Dore, A. Calbi, L. Marcenaro, and C.S. Regazzoni, "Multimodal Cognitive System for Immersive User Interaction," ICST/ACM First International Conference on Immersive Communications, IMMERSCOM 2007, Bussolengo, Italy, 10 - 12 October 2007
In revisione •
•
3.
A. Dore, A. F. Cattoni, and C. S. Ragazzoni “Interaction modeling and prediction in Smart Spaces: a Bio-inspired approach based on Autobiographical Memory”, IEEE Transactions on Systems, Man, and Cybernetics - Part B, submitted in Oct 2007 A. Dore, M. Pinasco, L. Ciardelli and C.S. Regazzoni “Cognitive VideoSurveillance: anew approach to Intelligent Systems for Security” IEEE Transactions on Circuits and Systems for Video Technology, submitted in Nov. 2007 PIANO DI STUDI (degli anni completati) Primo anno
3.1. Corso (Corsi) di... e/o scuole inserite nel piano di studi • Sistemi e servizi cognitivi per l’Intelligenza d’Ambiente e le Telecomunicazioni (A4) - Prof. C.S. Regazzoni, Università di Genova • Machine Learning (A21) - Dr. Marco Muselli, C.N.R.
• •
4.
International Computer Vision Summer School 2007 – ICVSS 2007- Prof. R. Cipolla, University of Cambridge. Prof. S. Battiato, Università di Catania Tecniche di trasformazione di spazi vettoriali per analisi statistica multidimensionale (A17) - Dr. Gabriele Moser, Università di Genova (da sostenere)
PARTECIPAZIONE A SCUOLE, CORSI, ecc. (eventuale; non riportare la partecipazione a conferenze, convegni ecc.) • International Computer Vision Summer School 2007 – ICVSS 2007, Punta Sampieri, RG