Google ha presentado la versión 1.0 de Magika, su sistema de detección de tipos de archivo potenciado por inteligencia artificial. Esta versión incluye un rediseño completo de su motor, ahora escrito en Rust, lo que permite identificar cientos de archivos por segundo en un solo núcleo y escalar sin problemas a miles de archivos en sistemas con procesadores multinúcleo. Magika 1.0 puede identificar más de 200 tipos de archivos, duplicando la cantidad respecto a su lanzamiento inicial. Ofrece soporte para archivos típicos en ciencia de datos y aprendizaje automático, como Jupyter Notebooks, archivos Numpy, modelos de PyTorch y formatos como ONNX y Parquet. La herramienta también reconoce lenguajes modernos como Kotlin, Dart, Swift o Solidity, y incorpora detección de archivos de infraestructura como código. El equipo de Google construyó un dataset de entrenamiento que supera los 3 TB sin comprimir y utilizó la IA generativa para crear conjuntos de entrenamiento sintéticos de alta calidad. Magika ofrece una detección robusta incluso en situaciones donde los ejemplos reales son escasos o no están disponibles públicamente.