Ir directamente al contenido

Tecnología para abogados, asesorías y gestorías

Meta lanza Llama 4: el modelo de IA que supera a GPT-4o en razonamiento, código e imágenes

07 abr., 2025 8
Meta lanza Llama 4: el modelo de IA que supera a GPT-4o en razonamiento, código e imágenes

Meta Platforms ha presentado oficialmente Llama 4, su nueva generación de modelos de lenguaje de código abierto. Esta familia, diseñada para entornos multimodales y tareas complejas, ha conseguido superar a GPT-4o de OpenAI en benchmarks clave de razonamiento, codificación e interpretación de imágenes. Con esta apuesta, Meta se consolida como uno de los actores más ambiciosos en la carrera global por el liderazgo en inteligencia artificial (IA).

Tres modelos: Scout, Maverick y Behemoth

Llama 4 no es un único modelo, sino una línea completa de arquitecturas inteligentes. Meta ha lanzado de forma inicial dos modelos operativos —Scout y Maverick— y ha anunciado el desarrollo avanzado de una tercera versión experimental, Behemoth, actualmente en fase docente. [Meta]

- Llama 4 Scout: diseñado para ser rápido y accesible, este modelo puede ejecutarse con una sola GPU NVIDIA H100. Ofrece una ventana de contexto de hasta 10 millones de tokens, lo que lo convierte en una herramienta ideal para tareas de análisis de gran volumen, como bases de datos jurídicas, contratos o papers académicos extensos. Según pruebas publicadas en la web de Meta, Scout supera en eficiencia y velocidad a Gemma 3 de Google y Mistral 3.1.

- Llama 4 Maverick: esta versión intermedia destaca en tareas complejas de razonamiento lógico, codificación y comprensión de imágenes, compitiendo directamente con GPT-4o y DeepSeek-V3. Aunque utiliza menos parámetros activos que sus rivales, consigue resultados superiores en pruebas STEM y de codificación, con mejor rendimiento por coste computacional.

- Llama 4 Behemoth (en fase de entrenamiento): el modelo más ambicioso de Meta, con 2 billones de parámetros en su estructura total y 288.000 millones activos por inferencia. Está optimizado para tareas de ingeniería, investigación científica y formación de agentes docentes, con especial énfasis en modelos de IA especializados.

¿Qué hace a Llama 4 diferente?

Llama 4 no solo compite por volumen de datos, sino por diseño arquitectónico:

- Arquitectura Mixture of Experts (MoE): esta técnica activa solo una parte del modelo para cada tarea, lo que reduce significativamente el coste computacional sin sacrificar precisión

- Multimodalidad nativa: a diferencia de versiones anteriores, Llama 4 ha sido entrenado desde su concepción para interpretar texto, imágenes, código y audio, lo que le permite comprender contextos híbridos como documentos con imágenes técnicas o código embebido en texto legal.

- Código abierto y accesibilidad: los modelos están disponibles para descarga libre a través de llama.com/4 y en Hugging Face, permitiendo a startups, universidades y centros tecnológicos como el nuestro experimentar, ajustar e implementar aplicaciones personalizadas.

¿Dónde se está usando ya Llama 4?

- WhatsApp, Messenger e Instagram Direct: el nuevo Meta AI impulsado por Llama 4 permite responder preguntas, generar imágenes y automatizar conversaciones en tiempo real.

- Ray-Ban Meta Glasses: estas gafas inteligentes han integrado capacidades de Llama 4, ofreciendo una experiencia de realidad aumentada potenciada con IA generativa contextual.

- Meta AI Web: disponible para usuarios globales a través de la web, el modelo permite acceso a capacidades avanzadas sin necesidad de descarga ni integración local.

Comparativa técnica con GPT-4o y Gemini 2.0

Según los últimos benchmarkings independientes, Llama 4:

- Supera a GPT-4o en tareas de razonamiento matemático avanzado (STEM).

- Iguala a Gemini 2.0 en análisis de imágenes, con una tasa de interpretación de objetos del 96,8% frente al 95,3% de Gemini.

- Tiene un coste computacional un 22% inferior al de GPT-4o, gracias a su estructura MoE.

- En pruebas de codificación, resuelve algoritmos complejos un 18% más rápido que GPT-4o, y con menor tasa de error semántico.

¿Qué implicaciones tiene para el sector legal y profesional en España?

- Análisis documental automático: Scout permite cargar documentos extensos (como escrituras, balances, informes jurídicos) y resumirlos o analizarlos en segundos.

- Desarrollo de asistentes personalizados: gracias al código abierto, las firmas pueden entrenar versiones específicas de Llama 4 adaptadas a su sector (fiscal, jurídico, laboral…).

- Reducción de costes en IA: la arquitectura MoE reduce la dependencia de servidores masivos, permitiendo una mayor implantación en pymes.