DeepSeek hace lo mismo que los modelos más avanzados de OpenAI con mucho menos recursos. La clave: "reinforcement learning"
La clave es el uso de reinforcement learning
La clave es el uso de reinforcement learning

DeepSeek V3 y DeepSeek-R1 son modelos de IA que logran resultados similares a GPT-4 y GPT-3.5 de OpenAI, pero con menos recursos. Utilizan técnicas como DeepSeekMoE, DeepSeekMLA, Auxiliary-Loss-Free Load Balancing, Multi-token Prediction Training Objective, FP8 Mixed Precision Training y Cross-Node All-to-All Communication. El entrenamiento se realizó con 14,8 billones de tokens y se utilizó aprendizaje por refuerzo y destilación de modelos. Los precios de la API de DeepSeek son hasta 35 veces inferiores a los de OpenAI.

fuente www.xataka.com
28-01-2025 15:31

Tecnología
Resumir link
Últimos artículos Ciencia Compras Corazón Cultura Curiosidades Deportes Economía Entretenimiento Política Salud Tecnología Últimos artículos Resumir link
La GeForce RTX 5080 no alcanza el rendimiento de la GeForce RTX 4090, lo que genera dudas sobre el rendimiento de la GeForce RTX 5070. La GeForce RTX 5070 tiene 12 GB de memoria gráfica, la mitad que la GeForce RTX 4090. Sin DLSS, la GeForce RTX 5070 podría ser similar a una GeForce RTX 4070 Ti, lo que sería un salto generacional pequeño.
Un equipo de la Universidad de Waterloo liderado por el profesor Martin Karsten identificó ineficiencias en el procesamiento del tráfico de red en aplicaciones de servidores y desarrolló un cambio en el kernel de Linux con solo 30 líneas de código, lo que permite aumentar el rendimiento en hasta un 45% sin comprometer la latencia, lo que podría reducir el consumo de energía de los centros de datos en un 30%
Los usuarios de Amazon Fire TV experimentaban problemas con la aplicación de YouTube, como no poder identificarse o ser expulsados de la app. Google ha solucionado el problema con una actualización que se aplica reiniciando el dispositivo. La actualización ya está disponible y los usuarios pueden disfrutar de YouTube sin problemas.
Alibaba lanza Qwen 2.5, una IA que supera a GPT-4o, DeepSeek-V3 y Llama-3.1 en varios aspectos. El ecosistema de IA en China evoluciona rápidamente, con empresas como DeepSeek y ByteDance innovando y mejorando sus tecnologías. La competencia en el sector de IA es intensa, con empresas chinas buscando ganar relevancia en el ámbito internacional. Qwen 2.5 se destaca por su eficiencia y rapidez, y se espera que siga mejorando en el futuro.
Un conductor de tren del metro se siente desmotivado porque la inteligencia artificial realiza la mayoría de las tareas, dejándolo solo con funciones de control y supervisión. Esto refleja un debate sobre la IA en el podcast del sindicato de guionistas, donde algunos traductores ahora trabajan editando a los sistemas automáticos. La expectativa es que la IA aumentará la productividad, dejando a los humanos con tareas creativas y de valor agregado. Un aumento del 44% en los descubrimientos científicos coincide con una reducción en la satisfacción laboral de los científicos de materiales que utilizan la IA. La industria tecnológica seguirá valorando la IA para automatizar tareas y empleos de cuello blanco.
Mark Zuckerberg invertirá 62.000 millones en inteligencia artificial, priorizando la contratación de ingenieros y la apertura de nuevas granjas de servidores, después de que Apple Vision Pro cambiara la visión de Meta sobre sus Quest, que ahora se enfocan en videojuegos, con un aumento del 40% en ventas en 2024, y Meta Orion, un prototipo de gafas de realidad aumentada, mientras que el Metaverso, que ha generado pérdidas importantes, ya no es una prioridad para la empresa, que busca cerrar centros de datos con más de 2 gigavatios y un millón y medio de procesadores gráficos este mismo año
Siguiente>
Share on Whatsapp Share on X Share on LinkedIn Share by Mail Copiar enlace