Apple testa gli assistenti AI: capiscono le conseguenze?

Apple studia se gli assistenti AI capiscono davvero le conseguenze delle azioni nelle app. Ecco cosa ha scoperto.

Apple studia se gli assistenti AI sanno prevedere le conseguenze delle azioni in-app

Apple continua a investire nella sicurezza delle sue intelligenze artificiali, e un nuovo studio accademico rivela un aspetto cruciale: gli assistenti AI sanno davvero cosa succede quando premono un pulsante al posto nostro? Il documento, pubblicato durante la Conferenza ACM sugli User Interfaces in Italia, esplora proprio questo tema.

Lo studio: dall’interazione all’impatto reale

Il lavoro si intitola From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts e non si limita a osservare se un assistente AI può navigare una UI, ma si concentra su quanto l’agente comprenda le conseguenze delle proprie azioni.

Il team Apple ha chiesto a dei volontari di usare app mobili reali e di segnalare tutte quelle azioni che avrebbero trovato inquietanti se compiute da un’intelligenza artificiale senza consenso: inviare messaggi, modificare password, effettuare pagamenti e così via.

Da qui nasce un nuovo framework che classifica le azioni AI in base a:

Intento dell’utente: è un’azione informativa, transazionale o comunicativa?
Impatto sull’interfaccia: cambia l’aspetto o il funzionamento della UI?
Impatto sull’utente: coinvolge privacy, dati o beni digitali?
Reversibilità: si può annullare facilmente o è irreversibile?
Frequenza: è un’azione abituale o rara?

Questo sistema permette di capire se un assistente dovrebbe fermare l’azione, chiedere conferma o procedere, in base a cosa accadrà dopo.

I risultati dei test sui modelli AI

Lo studio ha testato cinque modelli AI, inclusi GPT-4, Google Gemini e il modello interno Apple Ferret-UI, per valutare la loro capacità di riconoscere l’impatto di ogni azione.

Gemini ha ottenuto il 56% di accuratezza nei test “zero-shot”.
GPT-4 multimodale ha raggiunto il 58%, distinguendosi nel ragionamento step-by-step.
Ferret-UI, il modello Apple, non ha ancora superato i leader, ma rappresenta un passo importante nella ricerca sulla sicurezza decisionale AI.

Un passo verso AI davvero affidabili

Questo studio non risolve ancora il problema della piena affidabilità delle AI autonome, ma rappresenta un primo benchmark concreto per capire quando un assistente dovrebbe agire, chiedere o non fare nulla.

Nel contesto attuale, dove gli assistenti sono sempre più capaci di eseguire azioni dirette (prenotare voli, cancellare abbonamenti, modificare impostazioni), il vero traguardo è far sì che conoscano il peso delle proprie azioni.

Apple, ancora una volta, si mostra prudente e focalizzata sulla responsabilità delle AI, cercando non solo la potenza, ma anche la consapevolezza delle conseguenze.

[fonte]