Apple lancia un nuovo modello di intelligenza artificiale
Nel 2025, Apple ha presentato il suo innovativo modello di intelligenza artificiale open source, il SlowFast-LLaVA-1.5, progettato per trasformare l’analisi dei video lunghi. Questo sistema all’avanguardia si propone di ottimizzare i processi di analisi video, adottando un approccio più snello e intelligente, capace di raggiungere risultati superiori con un utilizzo ridotto delle risorse.
Un approccio innovativo all’analisi video
Tradizionalmente, i sistemi di intelligenza artificiale per l’analisi video operano seguendo un metodo lineare: scompongono i filmati in fotogrammi, analizzano ogni singolo frame e aggregano i dati per fornire descrizioni delle scene o rispondere a domande specifiche. Tuttavia, questo approccio presenta un problema significativo: i fotogrammi di un video tendono a essere molto simili tra loro, causando un eccessivo consumo di tempo e risorse hardware. Inoltre, ciò può portare a una saturazione della memoria del modello, compromettendo l’efficacia dell’analisi.
Il modello di Apple si distingue per la sua struttura innovativa, che integra due flussi di analisi: uno “lento”, focalizzato su un numero limitato di fotogrammi per un’analisi approfondita, e uno “veloce”, che esamina un numero maggiore di frame in modo più superficiale. Questo approccio ibrido consente di bilanciare efficienza e dettagli, garantendo una comprensione più completa delle dinamiche video.
Risultati promettenti e versatilità
I risultati ottenuti da SlowFast-LLaVA-1.5 sono già molto promettenti. Disponibile in varianti da 1, 3 e 7 miliardi di parametri, il modello ha superato le performance di sistemi ben più complessi in test di comprensione video come LongVideoBench e MLVU. Sorprendentemente, anche la versione più compatta, con solo 1 miliardo di parametri, ha stabilito nuovi record. Inoltre, il modello dimostra una notevole versatilità, funzionando efficacemente anche con immagini statiche e risultando utile per compiti di OCR, ragionamento logico e analisi di testi complessi.
Limitazioni e sfide
Tuttavia, non mancano delle limitazioni. Per scelta dei ricercatori, il modello può elaborare al massimo 128 fotogrammi per video, selezionati a intervalli regolari. Di questi, 32 vengono analizzati dal flusso “Slow” e 96 dal flusso “Fast”. Considerando che la maggior parte dei video attualmente in circolazione presenta un frame rate che varia tra 24 e 120 fotogrammi al secondo, è evidente che l’algoritmo non riesce a coprire più di pochi secondi di contenuto, rischiando di perdere momenti cruciali in video più lunghi.
Un’innovazione trasparente
Nonostante queste sfide, l’innovazione di Apple è innegabile. L’azienda ha raggiunto risultati all’avanguardia utilizzando esclusivamente dataset pubblici, evitando metodi meno trasparenti adottati da altre realtà nel settore dell’AI. Attualmente, il modello è accessibile su GitHub e Hugging Face, pronto per essere esplorato e testato da sviluppatori e ricercatori di tutto il mondo.