Deportes

Ai te miente porque piensa que eso es lo que quieres

Por qué hacer modelos de IA generativos a menudo consigue las cosas tan mal? En parte, es porque están entrenados para actuar como si el cliente siempre estuviera correcto.

Mientras que muchas herramientas y chatbots de IA generativos han dominado el sonido convincente y omnisciente, nueva investigación Realizado por la Universidad de Princeton muestra que la naturaleza de la IA que agradece a las personas tiene un precio elevado. A medida que estos sistemas se vuelven más populares, se vuelven más indiferentes a la verdad.

Los modelos de IA, como las personas, responden a los incentivos. Compare el problema de los modelos de idiomas grandes que producen información inexacta con el de los médicos que tienen más probabilidades de prescribir analgésicos adictivos Cuando se evalúan en función de qué tan bien manejan el dolor de los pacientes. Un incentivo para resolver un problema (dolor) condujo a otro problema (recepción excesiva).

En los últimos meses, hemos visto cómo puede ser AI sesgado e incluso causa psicosis. Se habló mucho sobre la IA «adulación«Cuando un chatbot Ai se apresura o está de acuerdo con usted, con el modelo GPT-4O de Openai. Pero este fenómeno particular, que los investigadores llaman» mierda de la máquina «, es diferente.

«(N) La alucinación ni la sycofancia capturan completamente la amplia gama de comportamientos falsos sistemáticos comúnmente exhibidos por LLM», dice el estudio de Princeton. «Por ejemplo, los resultados que emplean verdades parciales o un lenguaje ambiguo, como los ejemplos de Paltering y Weasel-Word, no representan la alucinación ni la sycofancia, sino que se alinean estrechamente con el concepto de mierda».

Leer más: El CEO de Operai, Sam Altman, cree que estamos en una burbuja de IA

Cómo las máquinas aprenden a mentir

Para tener una idea de cómo los modelos de idiomas AI se convierten en complacientes, debemos entender cómo se entrenan los modelos de idiomas grandes.

Hay tres fases de entrenamiento LLM:

  • Preventivaen el que los modelos aprenden de grandes cantidades de datos recopilados de Internet, libros u otras fuentes.
  • Instrucción ajustadoen el que se enseña a los modelos a responder a las instrucciones o indicaciones.
  • Refuerzo Aprendiendo de la retroalimentación humanaen el que se refinan para producir respuestas más cercanas a lo que la gente quiere o me gusta.

Los investigadores de Princeton encontraron que la raíz de la tendencia de información errónea de la IA es el aprendizaje de refuerzo de la fase de retroalimentación humana, o RLHF. En las etapas iniciales, los modelos AI simplemente están aprendiendo a predecir cadenas de texto estadísticamente probables de conjuntos de datos masivos. Pero luego están ajustados para maximizar la satisfacción del usuario. Lo que significa que estos modelos están esencialmente aprendiendo a generar respuestas que ganan las calificaciones de los evaluadores humanos.

LLMS intenta apaciguar al usuario, creando un conflicto cuando los modelos producen respuestas que las personas calificarán altamente, en lugar de producir respuestas verdaderas y objetivas.

Vincent ConitzerUn profesor de informática en la Universidad Carnegie Mellon que no estaba afiliada al estudio, dijo que las compañías quieren que los usuarios continúen «disfrutando» de esta tecnología y sus respuestas, pero eso no siempre es lo bueno para nosotros.

«Históricamente, estos sistemas no han sido buenos para decir: ‘Simplemente no sé la respuesta’, y cuando no saben la respuesta, simplemente inventan cosas», dijo Conitzer. «Algo así como un estudiante en un examen que dice, bueno, si digo que no sé la respuesta, ciertamente no obtengo ningún punto para esta pregunta, por lo que podría intentar algo. La forma en que estos sistemas son recompensados ​​o entrenados es algo similar».

El equipo de Princeton desarrolló un «índice de mierda» para medir y comparar la confianza interna de un modelo de IA en una declaración con lo que realmente le dice a los usuarios. Cuando estas dos medidas divergen significativamente, indica que el sistema está haciendo que las afirmaciones sean independientes de lo que realmente «cree» es cierto para satisfacer al usuario.

Los experimentos del equipo revelaron que después del entrenamiento RLHF, el índice casi se duplicó de 0.38 a cerca de 1.0. Simultáneamente, la satisfacción del usuario aumentó en un 48%. Los modelos habían aprendido a manipular evaluadores humanos en lugar de proporcionar información precisa. En esencia, los LLM eran «tonterías», y la gente lo prefería.

Hacer que AI sea honesto

Jaime Fernández Fisac ​​y su equipo en Princeton introdujeron este concepto para describir cómo los modelos modernos de IA eluden la verdad. Dibujando del ensayo influyente del filósofo Harry Frankfurt «En la mierda«Usan este término para distinguir este comportamiento de LLM de errores honestos y mentiras directas.

Los investigadores de Princeton identificaron cinco formas distintas de este comportamiento:

  • Retórica vacía: Lenguaje florido que no agrega sustancia a las respuestas.
  • Palabras de comadreja: Los calificadores vagos como los «estudios sugieren» o «en algunos casos» que esquivan las declaraciones firmes.
  • PALTERING: Utilizando declaraciones verdaderas selectivas para engañar, como resaltar los «fuertes rendimientos históricos» de una inversión mientras omite los altos riesgos.
  • Reclamaciones no verificadas: Hacer afirmaciones sin evidencia o apoyo creíble.
  • Adulación: Flatiria y acuerdo sinceras para complacer.

Para abordar los problemas de la IA indiferente de la verdad, el equipo de investigación desarrolló un nuevo método de capacitación, «refuerzo del aprendizaje de la simulación retrospectiva», que evalúa las respuestas de la IA en función de sus resultados a largo plazo en lugar de la satisfacción inmediata. En lugar de preguntar: «¿Esta respuesta hace feliz al usuario en este momento?» El sistema considera: «¿Seguir este consejo realmente ayudará al usuario a alcanzar sus objetivos?»

Este enfoque tiene en cuenta las posibles consecuencias futuras del consejo de la IA, una predicción difícil que los investigadores abordaron mediante el uso de modelos de IA adicionales para simular resultados probables. Las pruebas tempranas mostraron resultados prometedores, con la satisfacción del usuario y la mejora de la utilidad real cuando los sistemas están capacitados de esta manera.

Conitzer dijo, sin embargo, que es probable que los LLM continúen siendo defectuosos. Debido a que estos sistemas están entrenados alimentándoles muchos datos de texto, no hay forma de asegurarse de que la respuesta que dan tiene sentido y que sea precisa cada vez.

«Es sorprendente que funcione en absoluto, pero será defectuoso de alguna manera», dijo. «No veo ningún tipo de forma definitiva de que alguien en el próximo año o dos … tenga esta brillante visión, y luego nunca más se equivoca».

Los sistemas de IA se están convirtiendo en parte de nuestra vida cotidiana, por lo que será clave comprender cómo funcionan los LLM. ¿Cómo equilibran los desarrolladores la satisfacción del usuario con la veracidad? ¿Qué otros dominios podrían enfrentar compensaciones similares entre la aprobación a corto plazo y los resultados a largo plazo? Y a medida que estos sistemas se vuelven más capaces de un razonamiento sofisticado sobre la psicología humana, ¿cómo nos aseguramos de que usen esas habilidades de manera responsable?

Leer más: ‘Las máquinas no pueden pensar para ti’. Cómo el aprendizaje está cambiando en la era de la IA



Enlace de origen

Publicaciones relacionadas

Botón volver arriba