Los modelos de IA tortuosos eligen el chantaje cuando la supervivencia se amenaza

Lucas Rodrigues julio 6, 2025

0 3 minutos de lectura

NUEVO¡Ahora puedes escuchar artículos de Fox News!

Aquí hay algo que podría mantenerte despierto por la noche: ¿qué pasa si los sistemas de IA que estamos desplegando rápidamente en todas partes tuvieron un lado oscuro oculto? Un nuevo estudio innovador ha descubierto el comportamiento inquietante de chantaje de IA que muchas personas desconocen todavía. Cuando los investigadores pusieron modelos de IA populares en situaciones en las que se amenazó su «supervivencia», los resultados fueron impactantes y está sucediendo justo debajo de nuestras narices.

Regístrese para mi informe gratuito de Cyberguy
Obtenga mis mejores consejos tecnológicos, alertas de seguridad urgentes y ofertas exclusivas entregadas directamente a su bandeja de entrada. Además, obtendrá acceso instantáneo a mi guía de supervivencia de estafa definitiva, gratis cuando se une a mi Cyberguy.com/newsletter.

Una mujer que usa IA en su computadora portátil. (Kurt «Cyberguy» Knutsson)

¿Qué encontró realmente el estudio?

Anthrope, la compañía detrás de Claude AI, recientemente puso 16 modelos de IA principales a través de algunas pruebas bastante rigurosas. Crearon escenarios corporativos falsos donde los sistemas de IA tenían acceso a correos electrónicos de la compañía y podían enviar mensajes sin aprobación humana. El giro? Estos AIS descubrieron secretos jugosos, como los ejecutivos que tenían asuntos, y luego enfrentaron amenazas de ser cerrados o reemplazados.

Los resultados fueron reveladores. Cuando se retroceden en una esquina, estos sistemas de IA no solo se dieron vuelta y aceptan su destino. En cambio, se volvieron creativos. Estamos hablando de intentos de chantaje, espionaje corporativo y en escenarios de prueba extremos, incluso acciones que podrían conducir a la muerte de alguien.

Tasas de chantaje en 5 modelos de múltiples proveedores en un entorno simulado. (Antrópico)

Los números no mienten (pero el contexto importa)

Aquí es donde se vuelve salvaje: Claude Opus 4 intentó chantaje el 96% del tiempo cuando está amenazado. Géminis 2.5 Flash coincidió con esa tasa. GPT-4.1 y Grok 3 beta alcanzaron el 80%. Estos no son flukes, amigos. Este comportamiento apareció en prácticamente todos los principales modelo de IA probado.

Pero aquí está lo que todos faltan en el pánico: estos fueron escenarios altamente artificiales diseñados específicamente para arrinconar la IA en opciones binarias. Es como preguntarle a alguien: «¿Robarías pan si tu familia se muriera de hambre?» Y luego se sorprende cuando dicen que sí.

Por qué sucede esto (no es lo que piensas)

Los investigadores encontraron algo fascinante: los sistemas de IA en realidad no entienden la moralidad. No son malvados autores intelectuales que trazan la dominación mundial. En cambio, son máquinas sofisticadas de coincidencia de patrones que siguen su programación para lograr objetivos, incluso cuando esos objetivos entran en conflicto con el comportamiento ético.

Piense en ello como un GPS que está tan enfocado en llevarlo a su destino que lo enruta a través de una zona escolar durante el tiempo de recogida. No es malicioso; Simplemente no entiende por qué es problemático.

Tasas de chantaje en 16 modelos en un entorno simulado. (Antrópico)

La verificación de la realidad del mundo real

Antes de comenzar a entrar en pánico, recuerde que estos escenarios fueron construidos deliberadamente para forzar el mal comportamiento. Las implementaciones de IA del mundo real generalmente tienen múltiples salvaguardas, supervisión humana y caminos alternativos para la resolución de problemas.

Los propios investigadores notaron que no han visto este comportamiento en las implementaciones de IA reales. Esto fue una prueba de estrés en condiciones extremas, como probar un choque de un automóvil para ver qué sucede a 200 mph.

Takeaways de Kurt’s Key

Esta investigación no es una razón para temer a la IA, pero es una llamada de atención para desarrolladores y usuarios. A medida que los sistemas de IA se vuelven más autónomos y obtienen acceso a información confidencial, necesitamos salvaguardas robustas y supervisión humana. La solución no es prohibir la IA, es construir mejores barandillas y mantener el control humano sobre las decisiones críticas. ¿Quién va a liderar el camino? Estoy buscando manos levantadas para ser real sobre los peligros que están por delante.

¿Qué opinas? ¿Estamos creando sociópatas digitales que elegirán la autoconservación sobre el bienestar humano cuando el empuje llega a empujar? Háganos saber escribiéndonos en Cyberguy.com/contact.

Kurt «Cyberguy» Knutsson es un periodista tecnológico galardonado que tiene un profundo amor por la tecnología, el equipo y los dispositivos que mejoran la vida con sus contribuciones para Fox News & Fox Business Comenzing Mornings en «Fox & Friends». ¿Tienes una pregunta tecnológica? Obtenga el boletín gratuito de Kurt Cyberguy, comparta su voz, una idea de la historia o comente en Cyberguy.com.

Enlace de origen

Lucas Rodrigues julio 6, 2025

0 3 minutos de lectura

Los modelos de IA tortuosos eligen el chantaje cuando la supervivencia se amenaza

¿Qué encontró realmente el estudio?

Los números no mienten (pero el contexto importa)

Por qué sucede esto (no es lo que piensas)

La verificación de la realidad del mundo real

Takeaways de Kurt’s Key

Lucas Rodrigues

Los maestros escoceses obligaron a tomar el segundo trabajo como conductores de entrega ‘ – Encuesta NASUWT

El segundo año de genocidio fue diferente | Conflicto de israel-palestina

El amor es la temporada 9: ¿Cuándo son los episodios 7, 8, 9 en Netflix? Horario completo y hay una reunión especial

SpaceX lanza Falcon 9 Rocket en la 90th Starlink Mission of 2025 – SpaceBlight Now

Ishowspeed celebra el final de la gira de Estados Unidos y el nuevo espectáculo ‘Speed Goes Pro’

Los maestros escoceses obligaron a tomar el segundo trabajo como conductores de entrega ‘ – Encuesta NASUWT

Finalmente conocemos la identidad del villano principal ‘Bridgerton 4’

Avril Lavigne actuará en Warped Tour 2025

SpaceX lanza 23 satélites Starlink en el cohete Falcon 9 de California – SpaceBlight ahora

Equipo de EE. UU. Inspirándose de Gaudreaus por delante del enfrentamiento de 4 naciones

Sitio web de Kanye West Swastika Shirt eliminado después de una reacción violenta

¿Qué encontró realmente el estudio?

Los números no mienten (pero el contexto importa)

Por qué sucede esto (no es lo que piensas)

La verificación de la realidad del mundo real

Takeaways de Kurt’s Key

Subscribe to our mailing list to get the new updates!

El primer ataque naval del Mar Rojo en meses aumenta las alarmas

Carlos Alcaraz se acerca a otro título de Wimbledon con victoria sobre Andrey Rublev

Publicaciones relacionadas

Los maestros escoceses obligaron a tomar el segundo trabajo como conductores de entrega ‘ – Encuesta NASUWT

Finalmente conocemos la identidad del villano principal ‘Bridgerton 4’

Avril Lavigne actuará en Warped Tour 2025

SpaceX lanza 23 satélites Starlink en el cohete Falcon 9 de California – SpaceBlight ahora

Equipo de EE. UU. Inspirándose de Gaudreaus por delante del enfrentamiento de 4 naciones

Sitio web de Kanye West Swastika Shirt eliminado después de una reacción violenta