Ultime tendenze e sfide nell'Ecosistema delle Intelligenze Artificiali - vol. 5
Ultime tendenze e sfide nell'Ecosistema delle Intelligenze Artificiali - vol. 5

Ultime tendenze e sfide nell'Ecosistema delle Intelligenze Artificiali - vol. 5

Autore: Daniele Grandini

Benvenuti alla nostra rubrica mensile dedicata alle ultime novità nel campo dell'intelligenza artificiale. Anche questo mese esploriamo un panorama molto complesso, con notizie che si sovrappongono e spingono l'intelligenza artificiale verso nuovi orizzonti. Iniziamo subito dai tops of the month.

Tops of the month

In aprile, la sfida tra i nuovi Large Language Models (LLM) e i crescenti Small Language Models (SLM) ha dominato. Iniziamo con Llama 3 di META. 

Secondo i test condotti da Meta, i modelli Llama 3 da 8B e 70B hanno superato altri modelli di dimensioni simili, come il Gemma di Google, Mistral 7B e il Claude 3 Sonnet di Anthropic. I modelli sono stati addestrati su un dataset 7 volte più grande rispetto a Llama 2, contenente 15T token e 4 volte più codice.

Nei prossimi mesi, Meta prevede di rilasciare una versione con oltre 400B di parametri, che sarà competitiva con GPT-4. Llama 3 è accessibile su varie piattaforme tramite l'assistente AI di Meta, inclusi Facebook, Instagram, WhatsApp, Messenger e un nuovo sito meta.ai.

Llama 3 sta affrontando una dura concorrenza nell'arena dei modelli open source da parte dell'ultima novità di Cohere. Command R è appena salito al 9° posto nel LMSYS. Llama è attualmente al 6° posto. L'obiettivo del modello è supportare applicazioni commerciali reali. È ottimizzato per compiti a lungo contesto, come la generazione aumentata da recupero (RAG) e interagisce con database e strumenti software per semplificare i flussi di lavoro e automatizzare i processi aziendali. Command R è multilingue: supporta 10 lingue commerciali principali e oltre 100 lingue con gli strumenti di Cohere. Può ricordare conversazioni più lunghe, ha un limite di contesto di 128k token e offre prezzi competitivi.

Apple, invece, sembra operare su due livelli differenti. Da un lato, il nuovo small language model di Apple, ReALM, è progettato per migliorare l'intelligenza del loro assistente vocale, Siri. Ha superato GPT-4 nella capacità di "vedere" le informazioni sullo schermo e comprendere il contesto. Ad esempio, se un utente sta navigando online e chiede a Siri di chiamare un'azienda, Siri può "vedere" il numero di telefono sullo schermo e effettuare la chiamata. ReALM si è dimostrato migliore nel comprendere il contesto, elaborare contenuti sullo schermo e rispondere a query sfumate rispetto a GPT-4. Tuttavia, c'è ancora molta strada da fare prima che i comandi vocali possano controllare completamente un iPhone.

Dall'altro lato, secondo un nuovo rapporto di Bloomberg, Apple sta rivedendo le trattative con OpenAI per integrare l'IA dell'azienda nell'aggiornamento iOS 18 del prossimo iPhone. Questa notizia arriva poco prima dell'evento WWDC di giugno, dove Apple dovrebbe rilasciare importanti annunci sull'IA. Inoltre, Apple sta considerando un accordo di licenza anche con Google per Gemini, collaborando così con entrambe le compagnie di IA.

Ritornando in Europa, la startup francese di IA, Mistral, ha recentemente lanciato un potente nuovo modello di linguaggio chiamato Mixtral 8x22B. È stato rilasciato discretamente come file da 281GB disponibile per il download su X. Questo nuovo LLM di frontiera vanta una finestra di contesto di 65.000 token e 176 miliardi di parametri, superando le capacità del suo predecessore. Mixtral 8x22B utilizza un approccio sparse mixture of experts (SMoE), che ottimizza prestazioni e costi combinando modelli specializzati per compiti specifici. 

Menzione speciale ai modelli Minerva, addestrati interamente da zero per la lingua italiana dall'Università Sapienza, in collaborazione con CINECA, usando il supercomputer Leonardo e parte dell'iniziativa strategica PNRR FAIR. I modelli Minerva sono stati preaddestrati da zero usando testi liberamente accessibili, a differenza dei modelli italiani precedenti che erano solo un perfezionamento di altri modelli. I modelli sono disponibili su Hugging Face Hub. 

Infine, la tech firm cinese SenseTime ha lanciato SenseNova 5.0, un importante aggiornamento del suo LLM — con capacità che superano GPT-4 Turbo in quasi tutti i benchmark chiave, o almeno così dicono, dato che il modello non è stato testato pubblicamente. 

Chiudiamo questo lungo Top of The Month con l'ascesa e la caduta di gpt2-chatbox. Ha mostrato capacità avanzate, portando alla speculazione che potesse essere stato un test segreto anticipato di GPT 4.5 da parte di OpenAI. Comunque, ora non è più disponibile, ma di sicuro avremo altre novità.

News from Microsoft

Microsoft mantiene il suo ruolo fondamentale nell'IA. Ho il privilegio di interagire con alcuni componenti dei vari team di IA a Redmond e stanno facendo un lavoro incredibile sia nella ricerca a scopo benefico, sia nell'integrazione dell'IA nei prodotti Microsoft. 

Ecco i rilasci notevoli di questo mese: 

- WizardLM-2 Open Source LLM family: Questa famiglia di LLM open-source sfrutta dati sintetici potenziati dall'IA per raggiungere capacità che competono con i migliori modelli nei benchmark di prestazione. WizardLM-2 è composto da tre modelli all'avanguardia: WizardLM-2 8x22B, WizardLM-2 70B, e WizardLM-2 7B, ognuno adattato a specifiche esigenze e requisiti di prestazione. Il modello 70B è attualmente al 29° posto nella classifica LMSys. 

- Phi-3 (vedi Introducing Phi-3: Redefining what's possible with SLMs | Microsoft Azure Blog): sta portando gli SLM a un nuovo livello, come ho riportato il mese scorso, almeno secondo Microsoft, quando parliamo di SLM "Textbooks are all you need". Phi-3 Mini ha appreso dai dati educativi e sintetici di elevata qualità, così come dalle fiabe, seguendo il modo in cui si sviluppano i bambini. L'attenzione era sulla qualità dei dati, piuttosto che sulla quantità. Di conseguenza, Phi-3 Mini ha superato Llama 3 e si è avvicinato a GPT 3.5 nella comprensione del linguaggio naturale e nel ragionamento, eccellendo nel ragionamento aritmetico. Phi-3 Mini è stato sviluppato in conformità con gli 'Standard di IA Responsabile' di Microsoft ed è disponibile su Microsoft Azure AI Studio, la piattaforma di modelli ML Hugging Face, e il framework Ollama.

- VASA-1: un nuovo modello capace di generare video di “teste parlanti” sorprendentemente realistici. VASA-1 è in grado di creare video realistici di un soggetto utilizzando solo una foto e un file audio di un discorso. I video presentano movimenti sincronizzati della bocca e animazioni emotive, inclusi espressioni, movimenti naturali della testa e persino esibizioni canore realistiche. Gli utenti possono controllare vari aspetti del video generato, come la direzione dello sguardo, la distanza della testa e il tono emotivo, usando cursori di input. È così potente che Microsoft non lo rilascerà al pubblico fino a quando tutte le implicazioni etiche e legali non saranno pienamente comprese e affrontate.

Mentre scrivo di Microsoft non posso tralasciare ciò che avviene in OpenAI, dato che sappiamo tutti che tutto ciò che viene rilasciato sarà presto disponibile in Azure OpenAI. Il BatchAPI, che consente agli utenti di inviare un file con molte richieste e ottenere le risposte entro 24 ore con un costo ridotto del 50% rispetto ai prezzi normali dell'API è una grande soluzione per le necessità che non richiedono tempi rapidi. Inoltre, è stato rilasciato un nuovo modello GPT4-v che migliora la scrittura, la matematica, il ragionamento logico e la generazione di codice di ChatGPT. Aiuta anche ChatGPT a comprendere prompt più lunghi e a fornire risposte più conversazionali. È stato addestrato su informazioni fino a dicembre 2023. Si può facilmente presumere che verranno presto integrati in Azure OpenAI.

New Trends

Non è una nuova tendenza, ma sicuramente una conferma: le agentic architectures e il supporto allo sviluppo del codice sono in grande evoluzione.  I ricercatori di NLP di Princeton hanno creato un sistema open-source chiamato SWE-agent, che trasforma GPT-4 in un agente di ingegneria del software capace di risolvere autonomamente problemi nei repository GitHub. L'accuratezza di SWE-agent è paragonabile a quella del recentemente popolare agente AI Devin, con la capacità di risolvere il 12,29% dei problemi autonomamente. Con l'emergere di agenti di codifica autonomi come Devin e SWE-agent, l'industria sta vivendo una grande disruption. Anche se ancora nelle prime fasi, questi agent possono essere utilizzati per creare app o lavorare a fianco degli sviluppatori, risultando in significativi guadagni di produttività. Chi non adotta questa tecnologia si espone al rischio di essere superato.

La creazione di avatar a partire da persone reali, ivi compreso il cloning della voce, è uno dei temi emergenti che voglio evidenziare questo mese. META ha rilasciato Audiobox, un modello di ricerca di base per la generazione audio che eccelle nel clonaggio vocale. Synthesia, una startup di AI, ha recentemente introdotto una nuova generazione di "Avatar Espressivi" capaci di trasmettere una vasta gamma di emozioni umane, risultando in output video iperrealistici. Questi avatar utilizzano un modello EXPRESS-1 personalizzato per analizzare il sentimento emotivo e adeguare il loro tono, le espressioni facciali e il linguaggio corporeo contestualmente.

Questo progresso crea nuove opportunità per contenuti emotivi, come video pubblicitari, assistenza clienti e contenuti sanitari. L'azienda ha detto anche che questi 'attori digitali' potranno presto agire nello spazio 3D e interagire con altri avatar. E tutti sappiamo che Microsoft ha due modelli in anteprima privata per il clonaggio vocale e avatar realistici.

E non dimenticare, "corpus" è un termine chiave quando si tratta di LLMs.

Market News

Secondo Cathie Wood e Charles Roberts della società di investimento ARK (Big Ideas 2024 | ARK Invest (ark-invest.com), noti per le loro previsioni tecnologiche ottimistiche, i costi di addestramento dell'AI stanno diminuendo del 75% annualmente. Questo significa che un modello di base, che costa $100M addestrare quest'anno, potrebbe costare solo $25M l'anno prossimo. Inoltre, affermano che i costi di inferenza per casi d'uso su scala aziendale stanno diminuendo ancora più velocemente, a un tasso di circa l’86% all'anno. Sebbene l'accuratezza di queste previsioni resti da vedere, è chiaro che con gli avanzamenti nei semiconduttori e negli algoritmi, i costi di addestramento e inferenza stanno diminuendo rapidamente, beneficiando gli sviluppatori di applicazioni e accelerando la crescita dei flussi di lavoro agentic dell'AI.

La divisione di ricerca di mercato del MIT Technology Review ha esplorato come l'AI viene utilizzata nella progettazione, negli acquisti e nella produzione dalle aziende manifatturiere. Lo studio ha raccolto le opinioni di 300 manager di produttori di diversi settori, tra cui aerospaziale, automobilistico, chimico, elettronico e macchinari pesanti. Tutti questi produttori erano già coinvolti nell'uso dell'AI nella progettazione dei prodotti o nelle operazioni di fabbrica, o erano intenzionati a farlo. Tra le applicazioni più comuni dell'AI nella produzione sono state rilevate la progettazione dei prodotti, la generazione di documentazione tecnica e lo sviluppo di chatbot, mentre la gestione della conoscenza e il controllo della qualità sono gli usi più diffusi nelle fasi iniziali. Il 35% dei produttori intervistati aveva già adottato l'AI nella produzione, con un ulteriore 37% che la testava e il 27% che faceva ricerche preliminari. Le industrie elettroniche e automobilistiche presentano la percentuale più alta di rispondenti che avevano adottato l'AI nella produzione - rispettivamente con il 45% e il 39%.

L'uso dell'AI è più diffuso nelle aziende più grandi, con il 77% delle aziende che fatturano oltre $10 miliardi, contro solo il 4% delle aziende che fatturano meno di $500 milioni. Queste aziende più grandi sono anche più propense a prevedere incrementi nelle spese per l'AI nei prossimi due anni.

Quando è stato chiesto quali fossero le maggiori sfide nell'espansione dell'uso dell'AI, la risposta più comune è stata la carenza di competenze e talenti. In termini di sfide relative ai dati, i rispondenti hanno citato il mantenimento della qualità dei dati, l'integrazione dei dati da diverse parti dell'organizzazione e la governance dei dati come ostacoli più significativi.

A parte la tendenza evidente, credo che il punto più critico sia che le piccole imprese sono in ritardo nell'adozione e negli investimenti in AI, il che potrebbe causare una maggiore concentrazione del mercato da un lato e una minore diffusione capillare dell'AI dall'altro.

La generazione di musica AI continua ad accelerare. Stability AI ha recentemente lanciato una versione aggiornata del loro modello di generazione audio AI, Stable Audio 2.0. Questa nuova versione può produrre canzoni di alta qualità con una struttura coerente fino a tre minuti di lunghezza da un solo prompt di testo. Il modello ora include la generazione audio-audio, permettendo agli utenti di caricare e trasformare i propri campioni audio. Inoltre, Stable Audio 2.0 ha espanso le sue capacità di generazione di effetti sonori e di trasferimento di stile, dando agli artisti e ai musicisti un maggiore controllo creativo. Il modello è stato addestrato su un dataset concesso in licenza da AudioSparx, con le richieste di opt-out onorate per garantire una giusta compensazione per i creatori.

Nella sua lettera annuale agli azionisti, il CEO di JPMorgan Chase, Jamie Dimon, ha parlato dell'intelligenza artificiale — prospettando che la tecnologia porterà cambiamenti profondi sia nel business che nella società in generale. Dimon ha paragonato l'impatto dell'AI a innovazioni storiche come la stampa, l'elettricità, le macchine a vapore e i computer. Crede che l'AI possa migliorare praticamente ogni ruolo in azienda. La banca ha già ampliato il suo team di talenti AI a oltre 2.000 esperti e scienziati dei dati, con più di 400 applicazioni AI/ML operative.

 

Nel frattempo, la concorrenza tra GPU continua. AMD ha recentemente lanciato i suoi nuovi processori mobili Ryzen PRO 8040 e i processori desktop 8000, che sono progettati per fornire prestazioni migliorate e capacità AI. Il rilascio dell'8000 è stato acclamato da AMD come il primo "processore desktop abilitato per l'AI" per gli utenti aziendali. Questi processori sono pronti a competere con rilasci simili da Nvidia e Intel. Inoltre, anche NVIDIA ha introdotto le proprie GPU focalizzate sull'AI, la RTX A400 e la RTX A1000, che offrono capacità AI avanzate a una vasta gamma di computer.

Legal & Compliance

L'alleanza di Microsoft con OpenAI, che vale diversi miliardi di euro, non sarà oggetto di una verifica ufficiale da parte delle autorità europee della concorrenza, che si erano mostrate preoccupate per le collaborazioni tra le grandi società tecnologiche e le intelligenze artificiali e le loro conseguenze sulla competizione.

I chatbot LLM rivolti al pubblico stanno vivendo attacchi sempre più sofisticati. I ricercatori di Anthropic hanno scoperto una nuova tecnica di "jailbreaking" chiamata "jailbreaking many-shot" che può evitare le barriere di sicurezza dei Large Language Models (LLM) sfruttando finestre di contesto espanse. I ricercatori di Microsoft hanno descritto un attacco di jailbreak. È una tecnica sofisticata, multi-turn, progettata per aggirare gli allineamenti etici e di sicurezza dei Large Language Models (LLM). Coinvolge una conversazione apparentemente benigna con l'LLM, che gradualmente intensifica il dialogo facendo riferimento alle risposte precedenti del modello, portando infine a un jailbreak riuscito. Questo rende sempre più importante adottare le barriere appropriate sia nei prompt sia nelle completions, specialmente per i chatbot rivolti al pubblico.

Scientific

L'Università di Stanford ha pubblicato il suo rapporto AI Index 2023 che traccia le tendenze mondiali nell'AI — rivelando che l'AI ha superato le prestazioni umane nella maggior parte dei benchmark significativi. Il rapporto è degno di lettura e sono sorprendenti le conclusioni a cui giunge considerando che si riferisce ai dati del 2023, non tenendo conto delle evoluzioni del 2024. Secondo il rapporto, l'AI ha compiuto notevoli progressi negli ultimi anni, superando le prestazioni umane in compiti come la classificazione delle immagini, la comprensione della lettura e il ragionamento visivo. Di conseguenza, molti benchmark sono diventati obsoleti, e i ricercatori stanno lavorando allo sviluppo di nuovi test per misurare le capacità dell'AI. Attualmente, i modelli closed source continuano a guidare, con l'industria dell'AI dominata dai major players a causa dell'alto costo dell'addestramento. Inoltre, gli LLM stanno diventando più accurati e meno inclini a produrre "allucinazioni".

Various

Non ho ancora menzionato Google questo mese. Ma state tranquilli, stanno lavorando sodo. Alphabet X, una divisione di Google, sta collaborando con la Guardia Nazionale degli Stati Uniti per sviluppare tecnologia AI capace di analizzare rapidamente immagini di aree colpite da disastri. Questo consentirà risposte più rapide a disastri naturali come incendi boschivi e inondazioni. Lo strumento AI può analizzare fotografie aeree, incrociarle con immagini satellitari e individuare automaticamente posizioni, strade, edifici e infrastrutture. Compiti che precedentemente richiedevano ore o giorni per essere completati da analisti umani ora possono essere fatti in secondi. La Guardia Nazionale, responsabile di coordinare le risposte militari ai disastri domestici, prevede di utilizzare questa tecnologia durante la prossima stagione degli incendi boschivi.

Rimanendo su Google, secondo il Standford AI Index Report, per addestrare Gemini Ultra Google ha speso $191M solo per la parte di calcolo. In confronto, GPT-4 di OpenAI ha utilizzato potenzia di calcolo per un valore stimato di $78.

OpenAI ha esteso la disponibilità della sua funzione di memoria ChatGPT a più utenti Free e Plus, consentendo a ChatGPT di conservare informazioni dalle conversazioni precedenti. Con la memoria attivata, ChatGPT può ricordare dettagli e preferenze condivise dagli utenti nelle chat passate. Gli utenti possono richiedere a ChatGPT di ricordare informazioni specifiche e possono visualizzare i ricordi conservati. Questa funzione ha il potenziale per eliminare la necessità di conversazioni ripetitive, ma come con tutte le nuove uscite, la sua utilità può variare da utente ad utente.

GitHub ha introdotto un nuovo strumento alimentato dall'AI chiamato Copilot Workspace, che consente agli sviluppatori di effettuare brainstorming, pianificare e avviare progetti usando il linguaggio naturale direttamente dalle loro librerie di codice. Lo strumento è integrato nei repository GitHub, permettendo agli sviluppatori di specificare i loro obiettivi usando il linguaggio naturale piuttosto che iniziare con il codice. L'AI può generare piani passo dopo passo e codice preliminare basato sul codice esistente nel repository. Gli sviluppatori possono modificare, affinare ed eseguire il codice suggerito in Workspace prima di procedere allo sviluppo completo. Copilot Workspace è il passo successivo nell'evoluzione del famoso assistente alla codifica AI, che ci porta più vicino agli agenti AI completi, in grado di aiutare gli sviluppatori dalla fase di ideazione a quella di realizzazione, invece di rilevare solo gli errori nel codice già scritto.

 

Daniele Grandini

Daniele Grandini

Ha più di 30 anni di esperienza nel campo delle applicazioni e dei sistemi distribuiti, con competenze in sviluppo software, architetture di monitoring, progettazione di servizi gestiti e soluzioni cloud ibride.
È Microsoft MVP dal 2009 e speaker in diverse conferenze nazionali.
In qualità di Chief Innovation Officer, coordina le iniziative per i servizi gestiti e data analytics e AI in 4wardPRO.