Un número creciente de startups de IA está invirtiendo en la generación y curación manual de datos propios, entendiendo que la calidad de estos insumos es determinante para lograr modelos más precisos, fiables y competitivos. Turing, una empresa centrada en modelos de visión artificial, recolecta vídeos directamente de personas realizando tareas cotidianas y oficios manuales. Esto les permite obtener datos con una riqueza y variedad que sería muy difícil de replicar con enfoques tradicionales. Fyxer, otra startup, desarrolla modelos para gestión inteligente del correo electrónico, utilizando varios modelos pequeños entrenados con conjuntos de datos específicos y curados con mucho cuidado. La ventaja competitiva se basa en la calidad de los datos, ya que quien tiene acceso a un corpus de datos de alta calidad puede construir soluciones que sean difíciles de replicar por sus competidores. La era de entrenar modelos solo con datos masivos y desestructurados parece haber tocado techo, y ahora la tendencia es construir inteligencias más ajustadas al contexto, que comprendan mejor las necesidades humanas porque han sido alimentadas con ejemplos cuidadosamente seleccionados. Entre un 75% y un 80% del total de los datos de Turing son sintéticos, pero todos derivan de un núcleo inicial de grabaciones reales cuidadosamente producidas.