
Gemma 3 es un modelo de lenguaje multimodal que incorpora funciones como comprensión visual, atención intercalada y capacidad para manejar contextos más extensos. Puede analizar imágenes de 896×896 pixeles y convertirlas en 'soft tokens' para procesarlas con menor coste computacional. El modelo de 1B puede manejar hasta 32.000 tokens, mientras que los modelos mayores alcanzan los 128.000 tokens. Gemma 3 también ofrece mejor soporte para idiomas y puede funcionar en dispositivos móviles o con recursos limitados.