Samsung ha presentado TRUEBench, su propio benchmark para medir la inteligencia artificial en situaciones reales. TRUEBench incluye diálogos de varios turnos y condiciones multilingües, con un banco de 2.485 conjuntos de prueba organizados en 10 categorías y 46 subcategorías, repartidos en 12 idiomas. El foco está en tareas de productividad como generación de contenido, análisis de datos, resúmenes y traducción. TRUEBench combina un sistema de evaluación automática con revisión humana y permite probar hasta cinco modelos a la vez y compararlos. Samsung busca auditar sus propios modelos y demostrar avances cada seis meses, y TRUEBench puede convertirse en referencia para medir productividad con IA. La empresa ha hecho disponible las muestras de datos y las tablas de clasificación en Hugging Face.