Los nuevos modelos de OpenAI son más inteligentes… pero también se inventan más cosas

Los modelos o3 y o4-mini de OpenAI alucinan en un 33% y 48% de los casos, respectivamente

Los modelos o3 y o4-mini de OpenAI alucinan en un 33% y 48% de los casos, respectivamente

Los nuevos modelos de OpenAI, o3 y o4-mini, son más avanzados en tareas como la programación y las matemáticas, pero cometen más errores al inventarse información, un fenómeno conocido como alucinaciones en IA. En un benchmark llamado PersonQA, el modelo o3 alucinó en el 33% de los casos, mientras que el modelo o4-mini alcanzó un 48% de alucinaciones. La causa de esto no está clara, pero se cree que el tipo de aprendizaje por refuerzo utilizado en estos modelos podría estar amplificando ciertos errores. La industria está trabajando en soluciones, como integrar los modelos con capacidades de búsqueda web, para mejorar la precisión y reducir las alucinaciones.

Crítica:El artículo es como un adolescente brillante que aún tiene mucho que aprender: promete mucho, pero a veces se inventa cosas. Aunque es interesante ver cómo los nuevos modelos de OpenAI están avanzando en tareas complejas, es preocupante ver cómo también están aumentando las alucinaciones. Esperemos que la industria pueda encontrar soluciones para mejorar la precisión y reducir las alucinaciones, porque de lo contrario, podríamos tener un problema en nuestras manos... o en nuestras máquinas.
fuente wwwhatsnew.com
21-04-2025 14:00

Tecnología
Resumir link
Últimos artículos Ciencia Compras Corazón Cultura Curiosidades Deportes Economía Entretenimiento Política Salud Tecnología Últimos artículos Resumir link
Los modelos de OpenAI alucinan más a pesar de ser más avanzados.

La paradoja de que los nuevos modelos de OpenAI alucinen más que sus antecesores mientras son capaces de hacer cosas increíbles

Los nuevos modelos de OpenAI, como o3 y o4-mini, han demostrado capacidades avanzadas en razonamiento y resolución de problemas complejos, pero también presentan una tasa de alucinaciones significativamente más alta que sus predecesores. Por ejemplo, o3 falló el 33% de las veces en una prueba de conocimientos personales (PersonQA), lo que supone el doble que modelos anteriores como o1 o o3-mini. A pesar de esto, estos modelos pueden realizar tareas increíbles, como crear un negocio para la venta de quesos por correspondencia en menos de dos minutos, incluyendo la invención de eslóganes, desarrollo de un plan financiero, análisis de la competencia, generación de un logotipo y construcción de un sitio web.
...plantea una crítica mordaz sobre la situación actual de la IA, donde los avances en capacidades de razonamiento vienen acompañados de un aumento en las alucinaciones, lo que pone en riesgo su adopción en sectores críticos. La ironía de hacer a los modelos más 'inteligentes' pero también más propensos a equivocarse de forma sofisticada es un punto destacado. Sin embargo, el artículo podría profundizar más en las posibles soluciones a este problema.
www.genbeta.com Informática
La versión pública del modelo o3 no es la misma que se usó para los tests internos

OpenAI o3: ¿Qué significa que su IA no cumpliera con los resultados prometidos?

OpenAI presentó su modelo de lenguaje o3, asegurando que había superado el test FrontierMath con un 25% de aciertos. Sin embargo, la versión pública del modelo mostró un rendimiento inferior, con solo un 10% de aciertos. La discrepancia se debe a que la versión pública no es la misma que se usó para los tests internos, que tenía una mayor potencia de procesamiento. El equipo de ARC Prize explicó que el modelo o3 que se lanzó al público no es exactamente el mismo que se usó para los tests internos, lo que generó confusión y debate en redes sociales.
...nos muestra cómo las empresas de tecnología pueden crear expectativas infladas y luego decepcionar a sus usuarios. La historia de OpenAI y su modelo o3 es un ejemplo perfecto de cómo la transparencia es fundamental en el desarrollo de la inteligencia artificial. ¿Quién necesita un modelo que puede superar un test matemático si no se puede replicar en la vida real? La moraleja de la historia es que debemos ser escépticos con los anuncios grandiosos y exigir más transparencia en la industria tecnológica.
wwwhatsnew.com Tecnología
DeepSeek R2 tendrá 1,2 billones de parámetros y costos de inferencia de $0,07 por cada millón de tokens de entrada

DeepSeek R2: El nuevo contendiente en el mundo de la inteligencia artificial

DeepSeek presentó DeepSeek R1, un modelo de razonamiento en inteligencia artificial que se equiparó a ChatGPT-4 utilizando menos recursos y hardware menos potente. Ahora, se rumorea que DeepSeek R2 está a la vuelta de la esquina, con 1,2 billones de parámetros, utilizando solo 78 mil millones de parámetros por token gracias a su arquitectura Mixture-of-Experts (MoE). El entrenamiento de R2 habría sido un 97,3% más barato que GPT-4, con costos de inferencia de $0,07 por cada millón de tokens de entrada y $0,27 por cada millón de tokens de salida. DeepSeek R2 tendrá capacidades multimodales avanzadas, procesando texto e imágenes de alta calidad.
...promete mucho, pero ¿podrá DeepSeek R2 cumplir con las expectativas? La verdad es que, después de leerlo, todavía tengo más preguntas que respuestas. ¿Será capaz de revolucionar la inteligencia artificial? Solo el tiempo lo dirá. Mientras tanto, me quedo con la duda de si este 'nuevo contendiente' será el que finalmente nos haga decir adiós a nuestros empleos y hello a la automatización total. ¡Esperemos que no!
wwwhatsnew.com Tecnología
El MSI G2422C está disponible por 99€

Rebaja record en el monitor curvo gaming de MSI: Amazon lo deja a menos de 100 €

El monitor MSI G2422C, de 23,6 pulgadas y Full HD, tiene una rebaja del 41% en Amazon, pasando de 169€ a 99€. Cuenta con una frecuencia de actualización de 165 Hz, tiempo de respuesta de 1 ms y tecnología AMD FreeSync. Tiene un diseño elegante y es compatible con soportes VESA.
...promete una rebaja record, pero en realidad solo es un descuento del 41%. Aun así, 99€ por un monitor curvo gaming es un buen precio. La pregunta es, ¿qué hay detrás de esta 'rebaja record'? ¿Es un truco publicitario o realmente es una ganga? En cualquier caso, si estás buscando un monitor gaming asequible, este podría ser un buen opción. Pero no te dejes llevar por el título sensacionalista, lee las especificaciones y compara precios antes de hacer la compra.
es.gizmodo.com Informática
La 'bomba ZIP' es un archivo comprimido que se expande hasta 10 GB de memoria

Este programador se cansó de los bots que acosaban (y saqueaban) su web. Ha terminado usando un ingenioso malware contra ellos

Ibrahim Diallo, un programador experto en desarrollo web, ha creado una trampa digital llamada 'bomba ZIP' para proteger su servidor de bots automáticos que consumen recursos y ponen en riesgo la estabilidad del servidor. La 'bomba ZIP' es un archivo comprimido que se expande masivamente al ser descomprimido, llegando a ocupar hasta 10 GB de memoria, lo que puede colapsar o desconectar al bot. Diallo utiliza la compresión GZIP para crear la 'bomba ZIP', que es enviada al bot cuando se detecta actividad maliciosa. La técnica ha generado debate en la comunidad de desarrolladores, con algunos considerándola efectiva y otros cuestionando su ética.
...es una mezcla de ingenio y desesperación, como cuando un programador decide tomar el toro por los cuernos y crear una trampa para los bots que lo acosan. La 'bomba ZIP' es una solución creativa, pero también un recordatorio de que la guerra contra los bots es un juego de gato y ratón. ¿Quién sabe qué arma secreta desarrollarán los bots para contrarrestar la 'bomba ZIP'? La batalla por la supremacía en la web sigue siendo un tema candente.
www.genbeta.com Informática
El 22 de junio de 2014

Pensábamos que Instagram había copiado sus Stories de Snapchat. Ahora sabemos el momento exacto en que Mark Zuckerberg pidió hacerlo

Mark Zuckerberg ordenó empezar a trabajar en las Stories de Instagram el 22 de junio de 2014, después de ver el éxito de Snapchat, que tenía 50-100 millones de usuarios activos diarios y mil millones de historias vistas diariamente. Zuckerberg identificó el potencial de la efimeralidad y consideró que era fácil de implementar en Instagram. El objetivo era incentivar que los usuarios compartieran más momentos cotidianos y responder al éxito de Snapchat. Finalmente, Instagram incorporó las Stories en 2016 y se convirtió en una de sus funciones estrella.
...es como un juego de '¿quién fue el primero?' en el que Instagram y Snapchat se disputan el título de inventor de las Stories. Pero al final, lo que importa es que Mark Zuckerberg se dio cuenta de que la efimeralidad era el futuro y se lanzó a por ella. Ahora, las Stories son una parte integral de nuestra vida digital, y podemos gracias a Zuckerberg por darnos la oportunidad de compartir nuestros momentos más banales con el mundo. ¡Qué alegría!
www.genbeta.com Tecnología
La contraseña predeterminada '1234' no fue actualizada

En Seattle, los semáforos hacen chistes de millonarios con la voz de Elon Musk. Todo por culpa de una contraseña absurdamente fácil

En Seattle, los semáforos han sido hackeados para emitir mensajes con voces falsas de multimillonarios como Elon Musk, Jeff Bezos y Mark Zuckerberg. El hackeo se debió a que los botones de 'Espere verde' tenían una contraseña predeterminada de '1234' que no fue actualizada. La aplicación oficial de configuración de Polara permitió a los hackers conectarse a los dispositivos mediante Bluetooth y personalizar los mensajes de audio. El Departamento de Transporte de Seattle está trabajando para revertir los cambios y reforzar la seguridad.
...es una mezcla de tecnología y humor, pero la verdadera pregunta es: ¿quién necesita una contraseña más segura que '1234'? Parece que los hackers han demostrado que la seguridad no es tan segura como pensamos. ¡Esperemos que los semáforos no se vuelvan demasiado 'inteligentes' y comiencen a cobrarnos peajes en Bitcoin!
www.genbeta.com Tecnología
La IA ha mejorado el rendimiento en un 60% y la eficiencia energética en un 38% en el diseño de chips

La nueva era del diseño de chips: cómo la IA está transformando la ingeniería del silicio

Empresas como Cadence y Synopsys han incorporado funciones basadas en IA a sus herramientas de EDA, cambiando radicalmente la forma en que se crean los chips. La automatización de tareas tediosas ha mejorado el rendimiento en un 60% y la eficiencia energética en un 38%. Más del 50% de los diseños avanzados ahora cuentan con ayuda de la inteligencia artificial. Esto ha permitido que ingenieros menos experimentados puedan abordar proyectos complejos y ha impulsado a gigantes como Nvidia, AMD y Qualcomm a adoptar masivamente estas tecnologías.
...promete una 'nueva era' en el diseño de chips, pero en realidad solo nos muestra que la IA es útil para hacer cosas más rápido y eficientemente. ¡Qué novedad! Sin embargo, es interesante ver cómo la industria está adoptando la IA de manera masiva, incluso si es solo para mantener el ritmo de la competencia. En resumen, el artículo es como un chip de computadora: útil, pero no exactly emocionante.
wwwhatsnew.com Tecnología
El G1 puede desarmar a un oponente con un palo mediante movimientos rápidos y sincronizados

El robot que domina el kung fu: el video de la impactante demostración de G1 que dejó sin palabras a todos

El G1, un robot humanoide de 1,30 metros de altura y 35 kilos de peso, desarrollado por la empresa china Unitree Robotics, ha demostrado dominar técnicas de combate como el kung fu. El robot puede anticiparse a las acciones de sus contrincantes y adaptarse a situaciones dinámicas en tiempo real gracias a su avanzado sistema de control de movimiento y sensores LiDAR 3D y cámaras de profundidad. El G1 se enfrenta a un oponente armado con un palo y logra desarmarlo mediante movimientos rápidos y sincronizados. El robot tiene un precio base de 16.000 dólares, lo que lo hace más asequible para empresas o entusiastas de la robótica.
...nos presenta un futuro donde los robots pueden dominar el kung fu, pero no nos explica cómo vamos a defender ourselves contra ellos cuando nos ataquen con palos. En serio, el G1 es un logro impresionante en la robótica, pero esperemos que no se vuelva contra nosotros. La pregunta del millón es: ¿podrá el G1 hacer un buen golpe de kung fu en un oponente que no esté armado con un palo?
es.gizmodo.com Tecnología
La técnica de dispersión gaussiana permite entrenar el software en condiciones límite

El coche que imagina accidentes antes de que ocurran: así funciona la nueva revolución de seguridad vial

Volvo Cars, en colaboración con Zenseact y NVIDIA, está desarrollando una tecnología de seguridad vial que utiliza inteligencia artificial y entornos virtuales para entrenar los sistemas de seguridad de los vehículos. La técnica de dispersión gaussiana permite recrear escenarios tridimensionales a partir de imágenes reales, lo que permite entrenar el software en condiciones límite y validar algoritmos ADAS en múltiples escenarios simultáneos. El objetivo es acelerar el desarrollo de software avanzado de asistencia a la conducción y crear vehículos que no solo respondan a lo inesperado, sino que lo anticipen. La plataforma de supercomputación DGX de NVIDIA impulsa el procesamiento masivo de datos generados por los vehículos, lo que permite analizar millones de variables en paralelo y alimentar redes neuronales que anticipan posibles riesgos.
...promete una revolución en la seguridad vial, pero ¿no es solo un caso de 'inteligencia artificial' como solución mágica para todos los problemas? Aun así, la colaboración entre Volvo, Zenseact y NVIDIA es un paso interesante hacia la creación de vehículos más seguros y conscientes. Ahora solo falta que los conductores no se distraigan con sus teléfonos móviles y listos.
www.muyinteresante.com Tecnología
La tecnología de fotolitografía 18A promete un rendimiento un 25% más alto y un consumo de energía un 36% más bajo

Intel atraviesa la mayor crisis de su historia. Y se ha jugado su futuro a una sola carta: la fotolitografía 18A

Intel atraviesa una crisis y su futuro depende de la tecnología de fotolitografía 18A, que promete un rendimiento un 25% más alto y un consumo de energía un 36% más bajo. La empresa ha confirmado que el nodo 18A entrará en producción en 2025, después de desestimar el nodo 20A. La tecnología 18A se basa en transistores RibbonFET Gate-All-Around (GAA) y la tecnología de entrega de energía PowerVia, que separa físicamente las líneas de alimentación y señal de los transistores. Intel ha anunciado que la litografía 18A entregará un rendimiento un 18% más alto y un consumo un 38% más bajo al reducir el voltaje de 1,1 voltios a 0,75 voltios.
...es un ejemplo perfecto de cómo una empresa puede apostar todo a una sola carta y esperar que no se les vuelva en contra. La crisis de Intel es un tema serio, pero la solución parece ser un juego de azar con la tecnología de fotolitografía 18A. ¿Qué pasará si no funciona? ¿Se convertirá Intel en el nuevo Nokia? Solo el tiempo lo dirá, pero por ahora, la empresa parece estar bailando con los dioses de la tecnología, esperando que no la dejen caer.
www.xataka.com Tecnología
Su gusto por el diseño y la interfaz de usuario

Bill Gates explicó lo que envidiaba de Steve Jobs y qué le hacía único. Una rivalidad de décadas no fue suficiente para empañarlo

Bill Gates y Steve Jobs fueron rivales en la industria tecnológica, pero Gates admite que envidiaba el gusto de Jobs por el diseño y la interfaz de usuario. Jobs no tenía conocimientos de programación, pero su sensibilidad estética y carisma lo convirtieron en un líder inspirador. Gates reconoce que no ha vuelto a conocer a nadie como Jobs y que se arrepiente de haber vendido las acciones de Apple obtenidas en un acuerdo en el que Microsoft ayudó a Apple con una inversión clave. La relación entre ambos fue intensa y marcada por diferencias, pero también hubo momentos de crítica y sarcasmo.
...es un viaje nostálgico por la historia de la tecnología, pero también es un recordatorio de que, a veces, lo que nos hace únicos es lo que nos hace envidiar a los demás. La rivalidad entre Bill Gates y Steve Jobs es un ejemplo perfecto de cómo la competencia puede impulsar la innovación, pero también puede llevar a la envidia y la admiración. En resumen, el artículo es un tributo a la genialidad de Steve Jobs y un reconocimiento de que, a veces, lo que nos hace grandes es lo que nos hace diferentes.
www.genbeta.com Tecnología
Share on Whatsapp Share on X Share on LinkedIn Share by Mail Copiar enlace