Federico Tombari, ricercatore in computer vision e deep learning

Federico Tombari – computer vision & machine learning

Apr 19

in Blog, News, Ossessioni
Tags computer vision, deep learning, Google, Johns Hopkins University, ossessioni, Stanford, Technische Universitaet Muenchen

Siamo ossessionati con la tecnologia perché crediamo che abbia un ruolo determinante nel migliorare l’economia, la società, ed in ultima analisi la vita delle persone, di noi tutti. Per questo da oggi inauguriamo la nostra rubrica: “ossessioni”, nella quale racconteremo le storie di successo delle persone del nostro territorio che ce l’hanno fatta grazie alla tecnologia, forniremo i dati sullo sviluppo digitale del nostro Paese, e molto altro ancora. Insomma, un appuntamento per guardare avanti insieme.

Federico Tombari Comitato Scientifico ASI Iniziamo con la storia di Federico Tombari, Sammarinese doc con un curriculum di tutto rispetto. Attualmente è Assistant Professor presso il DISI, Università di Bologna e Visiting Professor presso Technische Universitaet Muenchen (TUM).

La sua attività di ricerca è da sempre incentrata su computer vision e machine learning, in particolare su tematiche quali riconoscimento oggetti da dati 2D/3D, visione stereo, ricostruzione 3D, deep learning, con principali ricadute applicative nel settore della robotica e della realtà aumentata.

E’ coautore di più di 100 articoli su riviste e conferenze internazionali, ed ha realizzato collaborazioni di ricerca con istituti internazionali quali Johns Hopkins University, Stanford, Technische Universitat Wien e Chinese University of Hong Kong, e aziende quali Google, Toyota, Canon, BMW.

Abbiamo chiesto a Federico di raccontarci del suo ultimo viaggio negli Stati Uniti recentemente conclusosi. Ne è venuta fuori una storia che permette di viaggiare insieme a lui negli ultimi sviluppi tecnologici.

La prima settimana ha presenziato CVPR, la “flagship conference” di computer vision, organizzata a Las Vegas, per presentare un tutorial dal titolo “3D Keypoint Detection and Feature Description”. Ha anche presentato una live demo in cui ha mostrato alcuni risultati ottenuti recentemente dal team di ricerca che coordina presso TUM [Technische Universitaet Muenchen, università politecnica di Monaco di Baviera]. Tali risultati riguardano una nuova tecnologia per riconoscimento e tracciamento oggetti e stima della posa da dati 3D acquisiti tramite sensori lowcost, che è al momento un problema aperto nel settore della robotica industriale e della realtà aumentata come mostra questo video di esempio.

Alla conferenza sono stati presentati gli ultimi risultati di ricerca in computer vision e machine learning. Alcuni dei lavori più interessanti presentati da altri relatori sono stati:

Apprendimento e trasferimento dello stile artistico tra immagini tramite deep learning (una tecnica che estende il lavoro è mostrato in questo video)
“Face2face”, rievocazione di volti da video, come mostra il girato della Stanford University
Object detection da immagini con deep networks, del quale è possibile vedere un esempio in questa demo

talk computer science stanford computer vision Nei giorni della conferenza, il 29 Luglio, Federico è stato un giorno a Mountain View [andata e ritorno da Las Vegas in giornata] per un invited “Google Tech Talk” presso la divisione Google Tango, con cui sta per iniziare una collaborazione di ricerca che partirà in autunno.

Nel talk, ha presentato lo stato dell’arte relativo alle metodologie di ricostruzione 3D e SLAM [Simultaneous Localization and Mapping] semantico, ovvero tecniche che forniscono una ricostruzione dell’ambiente circostante tramite sensori 3D e, al contempo, estraggono informazioni relative alla semantica dell’ambiente stesso [presenza di oggetti, classificazione della struttura dell’ambiente, etc..]

La divisione Tango di Google si occupa della realizzazione di un sensore 3D “mobile”, ovvero in grado di catturare dati geometrici – relativi alla forma della scena – e che può essere montato su dispositivi mobile come smartphone e tablet. La futura collaborazione si focalizzerà sul porting di alcuni algoritmi sviluppati dal team di ricerca coordinato da Tombari per la computer vision da dati 3d sui dispositivi mobile che utilizzano il sensore 3d da loro sviluppato.

Dal 4 all’8 luglio Federico si è trasferito in Silicon Valley, in visita ad alcuni partner delle sue attività di ricerca. In particolare, ha fatto un altro Google Tech Talk presso il team di robotica di Google “X”, la divisione di Google che sviluppa i progetti più innovativi e ambiziosi dell’azienda [come il veicolo a guida autonoma e i Google Glass]. Il talk si è incentrato sui risultati raggiunti nell’ultimo anno dall’attività di ricerca che Google ha finanziato tramite il Google Faculty Award che ha vinto ad Agosto 2015.

Team Work tech talk google robotics computer vision

Inoltre è stato invitato a fare altri due talk. Il primo presso la divisione di robotica di Toyota a San Josè, con cui collabora ormai da due anni su un progetto di robotica intelligente per domotica. Lo scopo del progetto è lo sviluppo di metodi di percezione e visione per “personal robotics”, ovvero assistenti robotici in grado di aiutare le persone in ambienti domestici. Il secondo presso il “Computational Vision and Geometry Lab” dell’Università di Stanford, con cui porta avanti, da Gennaio, una collaborazione su un progetto di deep learning per riconoscimento di azioni da dati “webly supervised”: lo scopo è quello di istruire una rete neurale a imparare a riconoscere azioni da immagini e video scaricati in maniera autonoma e non supervisionata tramite motori di ricerca e database online come Google, Flicker e Youtube.

divisione di robotica di Toyota machine learning

Un’altra visita interessante è stata presso Intuitive Surgical l’azienda che sviluppa il DaVinci Surgical System, primo robot per chirurgia non invasiva già in uso in ospedali e centri di ricerca. Infine ha visitato alcune startup legate ad augmented reality, computer vision e robotica, interessate alla tecnologia di computer vision e deep learning in via di sviluppo assieme al suo team di ricerca. Una di queste, Fyusion, propone una app basata su tecnologia di computer vision che estrae informazioni 3d a partire da sequenze video acquisite tramite la fotocamera di smartphone e tablet per realizzare “foto 3d”, una via di mezzo tra una ricostruzione 3D ed una immagine convenzionale fruibile tramite app di uno smartphone.

Pare che le opportunità e gli spunti non siano davvero mancati nelle due settimane di viaggio. Speriamo che siano giunte anche a voi le giuste “vibrazioni”. Alla prossima settimana.

Toyota Team Work machine learning