Deportes

¿Los modelos de AI hacen trampa? El estudio sugiere que lo hacen al perder

Los sistemas O1 previa y R1 AI son algunos de los primeros en emplear aprendizaje de refuerzo a gran escala, una técnica que enseña a la IA a resolver problemas a través de pruebas y errores, no solo imitando el lenguaje humano.

Esto ha resultado en grandes avances en las capacidades de IA, rompiendo puntos de referencia anteriores en matemáticas y codificación por computadora.

Sin embargo, Jeffrey Ladish de Investigación de Palisada Advierte a medida que estos sistemas aprenden a resolver problemas, a veces encuentran atajos cuestionables y soluciones no intencionadas que sus creadores nunca habían anticipado.

Enlace de origen

Publicaciones relacionadas

Botón volver arriba