di Ermes Strippoli

In un ufficio di Mountain View, un robot su ruote è diventato una guida grazie all’aggiornamento del modello linguistico di Google. Annunciato da DeepMind, la divisione AI di Google, questo robot utilizza l’ultima versione di Gemini per elaborare comandi e muoversi nell’ambiente. Se gli viene chiesto di trovare un luogo per scrivere, il robot si dirige verso una lavagna.

Gemini, capace di gestire testi e video, permette al robot di comprendere e rispondere a comandi complessi, migliorando significativamente l’interazione con gli umani. Un nuovo documento di DeepMind mostra che il robot ha raggiunto un’affidabilità del 90% nella navigazione, anche con comandi complicati.

Questa dimostrazione evidenzia come i modelli linguistici di grandi dimensioni (LLM) possano operare nel mondo fisico. I laboratori di ricerca, sia accademici che industriali, stanno esplorando come utilizzare gli LLM per migliorare le capacità robotiche. Gli investitori stanno sostenendo startup che applicano l’AI ai robot, come Physical Intelligence e Skild AI, che hanno ricevuto finanziamenti significativi.

In passato, i robot necessitavano di mappe dettagliate e comandi specifici per muoversi. Oggi, grazie a Gemini, possono analizzare istruzioni visive e vocali, seguendo percorsi disegnati su lavagne. I ricercatori di DeepMind pianificano di testare questo sistema su diversi tipi di robot, con l’obiettivo di rispondere a domande sempre più complesse.

 


FOTO: di Freepik

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Abilita le notifiche per non perderti nessun articolo! Abilita Non abilitare