Deportes
¿Los modelos de AI hacen trampa? El estudio sugiere que lo hacen al perder

Los sistemas O1 previa y R1 AI son algunos de los primeros en emplear aprendizaje de refuerzo a gran escala, una técnica que enseña a la IA a resolver problemas a través de pruebas y errores, no solo imitando el lenguaje humano.
Esto ha resultado en grandes avances en las capacidades de IA, rompiendo puntos de referencia anteriores en matemáticas y codificación por computadora.
Sin embargo, Jeffrey Ladish de Investigación de Palisada Advierte a medida que estos sistemas aprenden a resolver problemas, a veces encuentran atajos cuestionables y soluciones no intencionadas que sus creadores nunca habían anticipado.