La inteligencia artificial local continúa evolucionando y Gemma 4 12B acerca capacidades avanzadas a equipos convencionales. Google presentó este nuevo modelo con procesamiento multimodal nativo, razonamiento mejorado y un diseño optimizado para ejecutarse directamente en laptops, sin depender de grandes centros de datos.
La compañía posiciona este modelo entre Gemma E4B y la versión 26B Mixture of Experts (MoE), con un equilibrio entre rendimiento y consumo de memoria. Además, incorpora por primera vez soporte nativo para entradas de audio en un modelo de tamaño medio de la familia Gemma.
Gemma 4 12B incorpora procesamiento multimodal sin encoders
Una de las principales novedades es su arquitectura unificada, que elimina los tradicionales encoders independientes para imágenes y audio. En su lugar, el modelo integra directamente el contenido visual y las señales de audio en el modelo de lenguaje, lo que reduce la latencia y disminuye el consumo de memoria.
Asimismo, Google afirma que el sistema alcanza un rendimiento cercano al modelo Gemma 26B en pruebas de razonamiento, aunque requiere menos de la mitad de memoria. Los desarrolladores pueden ejecutarlo localmente en computadoras con apenas 16 GB de memoria unificada o VRAM, lo que facilita la creación de agentes inteligentes sin infraestructura especializada.
Google amplía el acceso al desarrollo de inteligencia artificial
Google liberó el modelo bajo la licencia Apache 2.0 y garantiza su compatibilidad con herramientas ampliamente utilizadas por la comunidad de desarrolladores, como Hugging Face Transformers, llama.cpp, MLX, Ollama, LM Studio y vLLM. Además, incorpora la tecnología Multi-Token Prediction para reducir la latencia durante la generación de respuestas.
Google informó que la familia Gemma ya superó los 150 millones de descargas y que desarrolladores de todo el mundo la utilizan para crear proyectos que van desde brazos robóticos de asistencia hasta soluciones empresariales de ciberseguridad. Con Gemma 4 12B, la compañía busca ampliar el acceso a la inteligencia artificial multimodal ejecutada directamente en dispositivos personales.



















