Los modelos de IA tortuosos eligen el chantaje cuando la supervivencia se amenaza

NUEVO¡Ahora puedes escuchar artículos de Fox News!
Aquí hay algo que podría mantenerte despierto por la noche: ¿qué pasa si los sistemas de IA que estamos desplegando rápidamente en todas partes tuvieron un lado oscuro oculto? Un nuevo estudio innovador ha descubierto el comportamiento inquietante de chantaje de IA que muchas personas desconocen todavía. Cuando los investigadores pusieron modelos de IA populares en situaciones en las que se amenazó su «supervivencia», los resultados fueron impactantes y está sucediendo justo debajo de nuestras narices.
Regístrese para mi informe gratuito de Cyberguy
Obtenga mis mejores consejos tecnológicos, alertas de seguridad urgentes y ofertas exclusivas entregadas directamente a su bandeja de entrada. Además, obtendrá acceso instantáneo a mi guía de supervivencia de estafa definitiva, gratis cuando se une a mi Cyberguy.com/newsletter.

Una mujer que usa IA en su computadora portátil. (Kurt «Cyberguy» Knutsson)
¿Qué encontró realmente el estudio?
Anthrope, la compañía detrás de Claude AI, recientemente puso 16 modelos de IA principales a través de algunas pruebas bastante rigurosas. Crearon escenarios corporativos falsos donde los sistemas de IA tenían acceso a correos electrónicos de la compañía y podían enviar mensajes sin aprobación humana. El giro? Estos AIS descubrieron secretos jugosos, como los ejecutivos que tenían asuntos, y luego enfrentaron amenazas de ser cerrados o reemplazados.
Los resultados fueron reveladores. Cuando se retroceden en una esquina, estos sistemas de IA no solo se dieron vuelta y aceptan su destino. En cambio, se volvieron creativos. Estamos hablando de intentos de chantaje, espionaje corporativo y en escenarios de prueba extremos, incluso acciones que podrían conducir a la muerte de alguien.

Tasas de chantaje en 5 modelos de múltiples proveedores en un entorno simulado. (Antrópico)
Los números no mienten (pero el contexto importa)
Aquí es donde se vuelve salvaje: Claude Opus 4 intentó chantaje el 96% del tiempo cuando está amenazado. Géminis 2.5 Flash coincidió con esa tasa. GPT-4.1 y Grok 3 beta alcanzaron el 80%. Estos no son flukes, amigos. Este comportamiento apareció en prácticamente todos los principales modelo de IA probado.
Pero aquí está lo que todos faltan en el pánico: estos fueron escenarios altamente artificiales diseñados específicamente para arrinconar la IA en opciones binarias. Es como preguntarle a alguien: «¿Robarías pan si tu familia se muriera de hambre?» Y luego se sorprende cuando dicen que sí.
Por qué sucede esto (no es lo que piensas)
Los investigadores encontraron algo fascinante: los sistemas de IA en realidad no entienden la moralidad. No son malvados autores intelectuales que trazan la dominación mundial. En cambio, son máquinas sofisticadas de coincidencia de patrones que siguen su programación para lograr objetivos, incluso cuando esos objetivos entran en conflicto con el comportamiento ético.
Piense en ello como un GPS que está tan enfocado en llevarlo a su destino que lo enruta a través de una zona escolar durante el tiempo de recogida. No es malicioso; Simplemente no entiende por qué es problemático.

Tasas de chantaje en 16 modelos en un entorno simulado. (Antrópico)
La verificación de la realidad del mundo real
Antes de comenzar a entrar en pánico, recuerde que estos escenarios fueron construidos deliberadamente para forzar el mal comportamiento. Las implementaciones de IA del mundo real generalmente tienen múltiples salvaguardas, supervisión humana y caminos alternativos para la resolución de problemas.
Los propios investigadores notaron que no han visto este comportamiento en las implementaciones de IA reales. Esto fue una prueba de estrés en condiciones extremas, como probar un choque de un automóvil para ver qué sucede a 200 mph.
Takeaways de Kurt’s Key
Esta investigación no es una razón para temer a la IA, pero es una llamada de atención para desarrolladores y usuarios. A medida que los sistemas de IA se vuelven más autónomos y obtienen acceso a información confidencial, necesitamos salvaguardas robustas y supervisión humana. La solución no es prohibir la IA, es construir mejores barandillas y mantener el control humano sobre las decisiones críticas. ¿Quién va a liderar el camino? Estoy buscando manos levantadas para ser real sobre los peligros que están por delante.
¿Qué opinas? ¿Estamos creando sociópatas digitales que elegirán la autoconservación sobre el bienestar humano cuando el empuje llega a empujar? Háganos saber escribiéndonos en Cyberguy.com/contact.
Regístrese para mi informe gratuito de Cyberguy
Obtenga mis mejores consejos tecnológicos, alertas de seguridad urgentes y ofertas exclusivas entregadas directamente a su bandeja de entrada. Además, obtendrá acceso instantáneo a mi guía de supervivencia de estafa definitiva, gratis cuando se une a mi Cyberguy.com/newsletter.
Copyright 2025 cyberguy.com. Reservados todos los derechos.



