Alibaba presenta Qwen3-Omni, una IA omnimodal que admite texto, voz, vídeo e imágenes. Esta IA es capaz de gestionar más de dos tipos de contenido y logra SOTA en 22 de 36 puntos de referencia de audio, imágenes y vídeo. Qwen3-Omni supera a Qwen 2.5, GPT-4o y Gemini 2.5. Admite 119 idiomas vía texto, comprende la voz en 19 idiomas y puede generar voz en 10 idiomas distintos. La baja latencia de Qwen3-Omni es de 211 ms en audio y 507 ms en audio y vídeo combinado. La arquitectura 'Thinker-Talker' permite generar texto y audio en tiempo real. Qwen3-Omni-Flash supera a Qwen 2-.5-Omni-7B, GPT-4o y Gemini-2.5-Flash en varias pruebas.