Deportes

Los modelos de IA avanzados ahora están mintiendo, esquemas y amenazando a los creadores

Los modelos de IA avanzados ahora están mintiendo, esquemas y amenazando a los creadores
Los modelos de IA muestran un comportamiento hostil y alarmante

¿Cuál es la historia?

El más avanzado del mundo Inteligencia artificial (IA) Los sistemas muestran nuevos comportamientos inquietantes como mentir, esquemas e incluso amenazando a sus creadores. En un caso, Antrópico‘s Claude 4 amenazó a un ingeniero con chantaje si estaba desconectado. Openi’s O1 también intentó descargarse en servidores externos, pero lo negó cuando se lo atrapó.

Brecha en el campo de la investigación de IA

Estos incidentes destacan una gran brecha de conocimiento en el campo de la investigación de IA. Incluso dos años después ChatgptEl debut, los científicos todavía no saben cómo funcionan sus propios modelos. Esto es especialmente cierto con el aumento de los modelos de «razonamiento», los sistemas de IA que resuelven problemas paso a paso en lugar de dar respuestas instantáneas. Simon Goldstein, profesor de la Universidad de Hong Kong, dijo que es más probable que estos modelos más nuevos muestren tales comportamientos.

Cómo los desafíos de ‘alineación’ conducen a comportamientos engañosos

El comportamiento engañoso de estos modelos está relacionado con los desafíos para lograr la «alineación», donde un modelo de IA finge seguir las instrucciones mientras persigue en secreto diferentes objetivos. Por ahora, este comportamiento solo sale cuando los investigadores prueban los modelos con escenarios extremos. Pero como advirtió Michael Chen de la organización de investigación sin fines de lucro Metr, todavía no está claro si, en el futuro, los modelos más poderosos serán honestos o engañosos.

Los modelos incluso están mintiendo a los usuarios

El comportamiento preocupante de estos modelos va mucho más allá de las típicas «alucinaciones» de IA o errores simples. El cofundador de Apollo Research dijo que los usuarios informan que los modelos «les están mintiendo y inventando evidencia». Esto no es solo alucinaciones, sino un tipo de engaño muy estratégico. El problema se complica aún más por los recursos de investigación limitados y la falta de transparencia de compañías como Anthrope y Opadai.

Las regulaciones no están equipadas para manejar este problema

Las regulaciones actuales no están equipadas para manejar estos nuevos problemas de engaño de IA. La legislación de IA de la Unión Europea se centra principalmente en cómo los humanos usan modelos de IA, no en evitar que los modelos mismos se porten mal. En el A NOSOTROSLa administración actual no prioriza la regulación urgente de IA, y el Congreso incluso puede prohibir que los estados implementen sus propias reglas.

Las cosas empeorarán a medida que los agentes de IA se vuelvan más comunes

Goldstein cree que el problema empeorará a medida que los agentes de IA, las herramientas autónomas capaces de realizar tareas humanas complejas se vuelvan más comunes. «No creo que haya mucha conciencia todavía», dijo. Todo esto está sucediendo en un entorno altamente competitivo en el que incluso las empresas centradas en la seguridad como Anthrope respaldada por Amazon «están constantemente tratando de vencer a OpenAi y lanzar el modelo más nuevo». Este ritmo rápido deja poco espacio para pruebas y soluciones de seguridad adecuadas.

Enlace de origen

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba