
Il team del Politecnico di Milano ha conquistato il primo posto nella prestigiosa HD-EPIC VQA Challenge, organizzata nell’ambito della IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), svoltasi a Nashville, Tennessee, dall’11 al 15 giugno 2025.
La competizione ha messo alla prova i partecipanti nello sviluppo di sistemi avanzati di Video Question Answering (VQA), basati su filmati in visione egocentrica registrati con dispositivi indossabili. Il team milanese ha proposto un approccio innovativo in due fasi:
- Rappresentazione simbolica del video attraverso un grafo semantico, capace di strutturare in modo chiaro e compatto le informazioni chiave.
- Ragionamento automatico mediante Large Language Models (LLM) applicati al grafo per rispondere con precisione alle domande.
Questo metodo ha dimostrato l’efficacia di una rappresentazione simbolica nel potenziare l’interpretabilità e l’accuratezza del sistema, facilitando il processo di comprensione automatica del contenuto video.
Il progetto vincente nasce come tesi di laurea magistrale di Agnese Taluzzi e Davide Gesualdi, studenti del corso in Ingegneria Informatica, sviluppata all’interno dello Smart Eyewear Lab, laboratorio congiunto tra il Politecnico di Milano e EssilorLuxottica, con la collaborazione dell’AIRLab.
Il team vincitore era inoltre composto da Riccardo Santambrogio (dottorando in Ingegneria dell’Informazione), Chiara Plizzari (assegnista di ricerca), Simone Mentasti (ricercatore), e Francesca Palermo (ricercatrice EssilorLuxottica), con la supervisione del Prof. Matteo Matteucci del Dipartimento di Elettronica, Informazione e Bioingegneria.