"Apple lancia SlowFast-LLaVA-1.5, un innovativo modello AI open source per l'analisi video."
apple lancia slowfast-llava-1.5, un modello di intelligenza artificiale open source per l'analisi video, rivoluzionando il settore nel 2025

Apple presenta SlowFast-LLaVA-1.5, un modello AI per l’analisi video open source innovativo

Apple lancia un nuovo modello di intelligenza artificiale

Nel 2025, Apple ha presentato il suo innovativo modello di intelligenza artificiale open source, il SlowFast-LLaVA-1.5, progettato per trasformare l’analisi dei video lunghi. Questo sistema all’avanguardia si propone di ottimizzare i processi di analisi video, adottando un approccio più snello e intelligente, capace di raggiungere risultati superiori con un utilizzo ridotto delle risorse.

Un approccio innovativo all’analisi video

Tradizionalmente, i sistemi di intelligenza artificiale per l’analisi video operano seguendo un metodo lineare: scompongono i filmati in fotogrammi, analizzano ogni singolo frame e aggregano i dati per fornire descrizioni delle scene o rispondere a domande specifiche. Tuttavia, questo approccio presenta un problema significativo: i fotogrammi di un video tendono a essere molto simili tra loro, causando un eccessivo consumo di tempo e risorse hardware. Inoltre, ciò può portare a una saturazione della memoria del modello, compromettendo l’efficacia dell’analisi.

Il modello di Apple si distingue per la sua struttura innovativa, che integra due flussi di analisi: uno “lento”, focalizzato su un numero limitato di fotogrammi per un’analisi approfondita, e uno “veloce”, che esamina un numero maggiore di frame in modo più superficiale. Questo approccio ibrido consente di bilanciare efficienza e dettagli, garantendo una comprensione più completa delle dinamiche video.

Risultati promettenti e versatilità

I risultati ottenuti da SlowFast-LLaVA-1.5 sono già molto promettenti. Disponibile in varianti da 1, 3 e 7 miliardi di parametri, il modello ha superato le performance di sistemi ben più complessi in test di comprensione video come LongVideoBench e MLVU. Sorprendentemente, anche la versione più compatta, con solo 1 miliardo di parametri, ha stabilito nuovi record. Inoltre, il modello dimostra una notevole versatilità, funzionando efficacemente anche con immagini statiche e risultando utile per compiti di OCR, ragionamento logico e analisi di testi complessi.

Limitazioni e sfide

Tuttavia, non mancano delle limitazioni. Per scelta dei ricercatori, il modello può elaborare al massimo 128 fotogrammi per video, selezionati a intervalli regolari. Di questi, 32 vengono analizzati dal flusso “Slow” e 96 dal flusso “Fast”. Considerando che la maggior parte dei video attualmente in circolazione presenta un frame rate che varia tra 24 e 120 fotogrammi al secondo, è evidente che l’algoritmo non riesce a coprire più di pochi secondi di contenuto, rischiando di perdere momenti cruciali in video più lunghi.

Un’innovazione trasparente

Nonostante queste sfide, l’innovazione di Apple è innegabile. L’azienda ha raggiunto risultati all’avanguardia utilizzando esclusivamente dataset pubblici, evitando metodi meno trasparenti adottati da altre realtà nel settore dell’AI. Attualmente, il modello è accessibile su GitHub e Hugging Face, pronto per essere esplorato e testato da sviluppatori e ricercatori di tutto il mondo.