Ir directamente al contenido

Tecnología para abogados, asesorías y gestorías

V-JEPA 2: la nueva IA de Meta que enseña a los robots a pensar antes de actuar

13 jun., 2025 22
V-JEPA 2: la nueva IA de Meta que enseña a los robots a pensar antes de actuar

Meta ha presentado V-JEPA 2, un modelo de inteligencia artificial de código abierto diseñado para que robots y otros sistemas automatizados comprendan el entorno físico e interactúen con los objetos de manera similar a como lo hacen los seres humanos. Esta nueva tecnología representa un avance significativo en el desarrollo de lo que Meta denomina "modelos del mundo", sistemas que permiten a las máquinas entender, predecir y planificar acciones en el mundo real. [Europa Press]

Comprensión, predicción y planificación: las tres capacidades clave

El desarrollo de V-JEPA 2 se basa en la capacidad natural de los seres humanos para anticipar cambios en su entorno físico. Como ejemplo, Meta señala la habilidad que tenemos las personas para caminar en una zona concurrida, esquivando a otros peatones y obstáculos de forma intuitiva. El modelo busca replicar esta inteligencia mediante tres capacidades fundamentales: comprensión, predicción y planificación.[20 minutos]

En términos prácticos, esto significa que un robot equipado con V-JEPA 2 puede predecir que una pelota que rueda sobre una mesa probablemente caerá al suelo, o planificar la secuencia de movimientos necesaria para alcanzar, recoger y colocar objetos en nuevas ubicaciones. [Diario de Cádiz]

Características técnicas y funcionamiento

V-JEPA 2 es la segunda generación del modelo V-JEPA original, que Meta presentó en febrero del año pasado. Esta nueva versión cuenta con 1.200 millones de parámetros y ha sido entrenada exclusivamente con vídeos, sin necesidad de anotaciones humanas adicionales. El proceso de entrenamiento consta de dos fases: un preentrenamiento inicial sin acciones específicas y un entrenamiento posterior condicionado por acciones concretas. Para ello, Meta ha utilizado la base de datos de código abierto DROID, lo que permite que el modelo pueda ser implementado directamente en robots físicos.

Aplicaciones prácticas y limitaciones actuales

Yann LeCun, científico jefe de inteligencia artificial en Meta, destaca en un vídeo publicado por la compañía que este "modelo del mundo" puede resultar especialmente útil para asistir a personas con problemas de visión. Además, considera que esta tecnología es fundamental para el desarrollo de sistemas autónomos como los vehículos de conducción automática.

No obstante, V-JEPA 2 presenta limitaciones importantes en su versión actual. El modelo aprende y realiza predicciones en una única escala temporal, lo que significa que no puede ejecutar tareas complejas que requieran múltiples pasos secuenciales, como seguir una receta de cocina completa. Meta reconoce estas limitaciones y ha expresado su intención de mejorar las capacidades del sistema en múltiples escalas temporales y espaciales, así como incorporar funcionalidades multimodales que amplíen la predicción más allá del sentido de la vista.

Un paso hacia la inteligencia de máquinas avanzada

El objetivo final de Meta es desarrollar agentes útiles que puedan actuar de forma autónoma en el mundo real. Para ello, el modelo V-JEPA 2 busca imitar cómo las personas aprenden del entorno: observando, prediciendo, planificando y adaptándose a lo inesperado. Aunque aún tiene limitaciones —como funcionar en una única escala temporal, lo que le impide realizar tareas complejas en varios pasos, como cocinar—, Meta ya trabaja en mejorar sus capacidades multiescala y en incorporar la multimodalidad, es decir, realizar predicciones utilizando diversos sentidos, como la vista, el oído y el tacto. Descarga el modelo aquí