
Il progetto Discount Quality for Responsible Data Science: Human-in-the-Loop for Quality Data, coordinato dalla Prof.ssa Barbara Pernici del Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano e realizzato in collaborazione con l’Università di Modena e Reggio Emilia, l’Università degli Studi di Milano-Bicocca e l’Università degli Studi di Roma “La Sapienza”, ha ufficialmente preso il via il 29 novembre 2023.
Il progetto, finanziato da fondi PRIN, si inserisce in uno scenario caratterizzato da numerosi tentativi di costruire “spazi” o “ecosistemi” di dati utili alla ricerca scientifica che ne supportino la pubblicazione e il riutilizzo per alimentare le pipeline, ovvero i processi che gli scienziati dei dati progettano ed eseguono per preparare, trasformare, arricchire e analizzare i dati. Tuttavia, valutare e controllare la qualità dei dati e dei risultati dell’analisi può essere molto costoso in termini di risorse computazionali e di sforzo umano, dal momento che le pipeline completamente automatizzate presentano criticità notevoli dal punto di vista del monitoraggio del ciclo di vita dei dati e rendono spesso molto difficoltoso il controllo dei risultati in termini di qualità, incertezza e spiegabilità
Perciò il progetto intende sfruttare un approccio Human-In-The-Loop – ossia un approccio che prevede l’intervento umano nelle fasi più delicate del processo di trasformazione dei dati – per incrementare la sostenibilità complessiva delle pipeline, sia dal punto di vista computazionale che in termini di sforzo umano. In particolare, Il progetto si concentra sulla fase di preparazione dei dati, che normalmente richiede fino all’80% del tempo complessivo necessario per portare a termine il processo, bilanciando l’esigenza di avere a disposizione dati di alta qualità e quella di ridurre il lavoro impiegato per la loro preparazione.