El CEO de Anthrope dice que AI alucina menos que los humanos ahora, pero hay una trampa

En dos eventos recientes de alto perfil, Vivatech 2025 en París y el Código inaugural de Anthrope con el Día del Desarrollador de Claude, el CEO Anthrope Dario Amodei hizo una afirmación audaz y estimulante: los modelos de inteligencia artificial ahora pueden alucinar con menos frecuencia que los humanos, al menos en entornos de hecho bien definidos.
La declaración, repetida en ambos eventos, desafía las preocupaciones de larga data sobre la tendencia de la IA de «alucinar», un término utilizado para describir cuándo modelos como Claude, GPT o Gemini producen respuestas inexactas o fabricadas. Según AModei, sin embargo, las pruebas internas recientes muestran que modelos avanzados como Claude 3.5 han superado a los humanos en cuestionarios objetivos estructurados.
«Si define la alucinación como diciendo con confianza algo que está mal, los humanos lo hacen mucho», dijo Amodei en Vivatech. Citó estudios en los que los modelos Claude entregaron constantemente respuestas más precisas que los participantes humanos al responder a preguntas verificables.
En Code With Claude, que también vio el lanzamiento de los modelos New Claude Opus 4 y Claude Sonnet 4, Amodei reiteró su creencia. Según TechCrunch, respondió a una pregunta diciendo: «Realmente depende de cómo lo midas, pero sospecho que los modelos de IA probablemente alucinan menos que los humanos, pero alucinan de manera más sorprendente».
Los modelos Claude 4 actualizados marcan un hito significativo en el impulso de Anthrope hacia la inteligencia general artificial (AGI), con mejoras en la memoria, la generación de códigos, el uso de la herramienta y la calidad de la escritura. Claude Sonnet 4, en particular, obtuvo un 72.7% en el punto de referencia SWE-Bench, estableciendo una nueva barra en el rendimiento de ingeniería de software para sistemas de IA.
A pesar del progreso, AmoDei se apresuró a aclarar que las alucinaciones no se han eliminado por completo. En contextos abiertos o libremente estructurados, los modelos de IA todavía son propensos a los errores. Hizo hincapié en que el contexto, el fraseo rápido y el caso de uso influyen críticamente en la confiabilidad de un modelo, especialmente en escenarios de alto riesgo como asesoramiento legal o médico.
Sus comentarios se producen a raíz de un incidente de la corte donde Claude Chatbot de Anthrope produjo una cita falsa en una presentación legal durante una demanda que involucra a los editores de música. El equipo legal de la compañía luego tuvo que disculparse por el error, subrayando los desafíos persistentes en torno a la consistencia objetiva.
AModei también enfatizó la necesidad de métricas más claras en toda la industria. Sin definición estándar o punto de referencia para lo que constituye una alucinación, medir y, en última instancia, reducir estos errores sigue siendo difícil. «No puedes arreglar lo que no mides con precisión», advirtió.
Mientras que los modelos de IA están avanzando en precisión de hecho, los comentarios de Amodei sirven como un recordatorio de que tanto la inteligencia humana como la máquina tienen sus defectos, y que la comprensión, la medición y la mitigación de esos defectos es la próxima frontera en el desarrollo de la IA.