Un team di esperti in machine learning di Apple, in collaborazione con i ricercatori dell’Università di Nanchino e dell’Università di Scienza e Tecnologia di Hong Kong, ha presentato un modello tridimensionale di intelligenza artificiale estremamente interessante, denominato Matrix3D. Questa nuova tecnologia promette di semplificare e migliorare la ricostruzione di oggetti e ambienti 3D tramite l’uso di poche fotografie bidimensionali, rappresentando un passo significativo nel campo della fotogrammetria.
Indice dei contenuti
La fotogrammetria: un principio fondamentale
La fotogrammetria è una tecnica che utilizza fotografie per effettuare misurazioni e creare modelli o mappe tridimensionali. Tradizionalmente, il processo di fotogrammetria richiede l’applicazione di modelli diversi per fasi specifiche, come la stima della posa e la previsione della profondità. Questo approccio frazionato può portare a inefficienze e a potenziali errori nei risultati finali. Matrix3D ha come obiettivo quello di superare queste limitazioni.
A differenza delle pipeline esistenti, che richiedono operazioni multiple e disgiunte, Matrix3D offre una soluzione integrata. Adotta un’architettura unificata che processa simultaneamente immagini, parametri della telecamera e dati di profondità. Questa innovativa semplificazione del flusso di lavoro non solo snellisce il processo ma aumenta anche la precisione nelle ricostruzioni 3D, un aspetto cruciale che ha destato l’attenzione nel settore.
La formazione del modello Matrix3D
Un aspetto degno di nota è il metodo di formazione adottato per Matrix3D. I ricercatori hanno impiegato una strategia di apprendimento mascherato, simile a quella utilizzata dai primi sistemi di intelligenza artificiale basati su Transformer, che hanno gettato le basi per le versioni iniziali di ChatGPT. Durante la fase di addestramento, alcune parti dei dati d’input venivano nascoste casualmente. Questa tecnica ha obbligato Matrix3D ad imparare a riempire gli spazi vuoti, una caratteristica fondamentale che consente al modello di funzionare in modo efficace anche con set di dati più piccoli o incompleti.
Questa innovativa approccio formativo non solo ha dimostrato di essere efficace ma ha anche migliorato la robustezza del modello, facendolo adattare a diverse condizioni e situazioni. I risultati ottenuti da Matrix3D sono impressionanti: bastano soltanto tre immagini d’ingresso per generare ricostruzioni tridimensionali dettagliate di oggetti e interi ambienti.
Potenziali applicazioni e disponibilità
Le potenzialità di Matrix3D sono notevoli, specialmente considerando l’emergere di dispositivi come Apple Vision Pro, che promettono esperienze immersive. La capacità di generare ambienti 3D ricchi e dettagliati potrebbe rivoluzionare il modo in cui gli utenti interagiscono con la tecnologia e il modo in cui vengono presentati contenuti digitali.
Il team di ricerca ha reso disponibile il codice sorgente di Matrix3D su GitHub, permettendo a sviluppatori e appassionati di esplorare direttamente questa innovazione. Inoltre, è stato pubblicato un documento scientifico su arXiv che illustra in dettaglio le tecniche e i risultati ottenuti. Per coloro che vogliono vedere Matrix3D all’opera, è stata creata anche una piattaforma online dove gli utenti possono visualizzare video dimostrativi e interagire con alcune ricreazioni in punto nube di oggetti e ambienti.
Questa iniziativa rappresenta un promettente passo avanti nell’uso dell’intelligenza artificiale nella fotogrammetria, aprendo nuovi orizzonti per la creazione di contenuti digitali e interazioni visive nel futuro prossimo.