Alibaba ha lanzado Qwen3-Omni, un modelo de inteligencia artificial de código abierto que procesa texto, imágenes, audio y vídeo simultáneamente. Es el primer modelo que unifica estas cuatro modalidades de forma nativa y es gratuito. Puede procesar texto en 119 idiomas, reconocer voz en 19 lenguas y hablar en 10 idiomas diferentes. Su arquitectura 'Pensador-Hablador' separa el razonamiento de la generación de audio, prometiendo respuestas en tiempo real con latencias de 234 milisegundos para audio y 547 milisegundos para vídeo. En 36 pruebas de referencia, Qwen3-Omni supera a modelos de código abierto en 32 de ellas y establece nuevos récords generales en 22. Alibaba está ejecutando una estrategia para democratizar la IA multimodal y ganar cuota de mercado. Esto podría cambiar las reglas del juego en la industria de la IA, ya que las grandes tecnológicas estadounidenses han apostado por modelos propietarios que generan ingresos directos. Qwen3-Omni es parte de la estrategia de China para mantenerse relevante en la carrera de la IA.