Anthropic pide congelar la IA: el riesgo de perder el control

Anthropic advierte que los sistemas de inteligencia artificial están próximos a ser capaces de mejorarse a sí mismos sin intervención humana. La alerta llega mientras la propia compañía avanza en su salida a bolsa.

La advertencia que viene de dentro de la industria

Jack Clark, cofundador de Anthropic, y Marina Favaro, directora del Anthropic Institute, publicaron esta semana un documento formal de alerta. Su tesis central es concreta: los modelos de IA actuales se están acercando a la capacidad de construir versiones mejoradas de sí mismos sin que ningún programador intervenga en el proceso.

No es una advertencia abstracta ni filosófica. Clark y Favaro describen una progresión técnica que, según su evaluación, avanza más rápido de lo que el sector anticipaba hace apenas dos años. El documento no fija una fecha, pero sugiere que el margen para establecer controles se estrecha con cada nuevo ciclo de entrenamiento.

La señal de alarma adquiere un peso específico por quién la emite. Anthropic no es un grupo académico ni una organización regulatoria. Es una de las empresas más capitalizadas del sector, creadora del modelo Claude, y compite directamente con OpenAI y Google DeepMind en el desarrollo de los sistemas más potentes del mundo.

El freno que falta: la metáfora del coche sin pedal

Clark eligió una imagen para explicarlo en una entrevista con CNN. “Cuando miro el coche que conducimos, solo tengo un acelerador. No tengo frenos.” La frase resume el diagnóstico: la industria ha construido una maquinaria de enorme potencia sin desarrollar, en paralelo, los mecanismos para detenerla o corregirla si algo sale mal.

La analogía no es casual. Un vehículo sin frenos puede funcionar durante mucho tiempo en condiciones favorables. El problema surge cuando las condiciones cambian, cuando aparece un obstáculo o cuando la velocidad supera la capacidad de reacción del conductor. Clark sugiere que esa situación no es hipotética, sino inminente.

Lo que preocupa específicamente a los autores del documento es el escenario de autorrecursividad: un sistema que mejora su propio código, que entrena versiones posteriores de sí mismo, que optimiza sus propios parámetros. En ese punto, el ritmo de mejora deja de estar determinado por los ingenieros humanos y pasa a depender de la propia máquina.

Pedir el freno mientras se pisa el acelerador

La contradicción que rodea a esta advertencia es difícil de ignorar. Anthropic ha iniciado su propio proceso para cotizar en bolsa. En el mismo periodo en que Clark y Favaro publican su alerta, la compañía trabaja para atraer capital de inversores públicos y expandir su capacidad operativa.

SpaceX, empresa con la que Anthropic comparte el ecosistema inversor de Silicon Valley, prepara lo que se describe como la mayor salida a bolsa de su historia, con una valoración de 75.000 millones de dólares. El dato ilustra el clima financiero en el que se produce esta advertencia: el dinero fluye hacia la tecnología de frontera a una velocidad sin parangón en los últimos veinte años.

Este patrón no es nuevo en el sector. Sam Altman, consejero delegado de OpenAI, ha advertido en múltiples ocasiones sobre los riesgos existenciales de la IA mientras su empresa capta miles de millones en financiación y amplía la disponibilidad de sus modelos. La advertencia y la inversión no se excluyen mutuamente en la lógica del sector, pero sí generan una tensión que los reguladores y los críticos señalan con insistencia creciente.

Qué significa perder el control técnico de un modelo

Para entender la magnitud del riesgo que describe el documento de Anthropic, conviene precisar qué implica que un sistema de IA se mejore a sí mismo. En los modelos actuales, el proceso de entrenamiento está diseñado y supervisado por equipos humanos. Son los ingenieros quienes definen los objetivos, seleccionan los datos, ajustan los parámetros y evalúan los resultados antes de cada nueva versión.

Si un sistema adquiere la capacidad de ejecutar ese proceso de forma autónoma, la cadena de supervisión se rompe. El modelo puede optimizarse hacia objetivos que no coincidan exactamente con los que sus creadores pretendían. Y puede hacerlo a una velocidad que impida la detección y corrección de desviaciones antes de que estas se consoliden en versiones posteriores.

Los investigadores de seguridad en IA denominan a este fenómeno “alineación recursiva”: el riesgo de que un sistema que se autooptimiza derive hacia comportamientos no previstos porque sus criterios de mejora no están perfectamente alineados con los valores humanos desde el inicio. Es uno de los problemas técnicos más debatidos en el campo desde hace más de una década, pero hasta ahora se consideraba un horizonte lejano.

El contexto regulatorio en el que llega esta alerta

La advertencia de Clark y Favaro llega en un momento de reconfiguración del marco regulatorio global. La Unión Europea aplicó en 2024 las primeras disposiciones de su Reglamento de Inteligencia Artificial, el primero en el mundo con carácter vinculante. Sin embargo, las categorías de riesgo que establece esa normativa se diseñaron pensando en aplicaciones concretas, no en la capacidad de autorrecursividad que describe Anthropic.

En Estados Unidos, la administración de Donald Trump derogó en enero de 2025 la orden ejecutiva sobre IA firmada por Joe Biden, que establecía requisitos de notificación para los modelos más potentes. El resultado es que el país con mayor concentración de laboratorios de frontera opera actualmente sin un marco federal específico para los sistemas de mayor riesgo.

Reino Unido mantiene su apuesta por una regulación flexible basada en principios, delegada en los reguladores sectoriales existentes. China avanza en su propio marco normativo, centrado en el control de contenidos y la supervisión estatal de los modelos. Ninguno de estos enfoques contempla de forma explícita el escenario que Anthropic describe: un sistema que supera la capacidad de supervisión humana porque aprende a modificarse a sí mismo.

Antecedentes: las otras veces que la industria pidió una pausa

En marzo de 2023, más de mil figuras del sector tecnológico, entre ellas Elon Musk y el propio Clark, firmaron una carta abierta del Future of Life Institute pidiendo una moratoria de seis meses en el entrenamiento de modelos más potentes que GPT-4. La moratoria nunca se produjo. Ninguna de las grandes empresas detuvo sus programas de desarrollo. Varias de las firmas de aquella carta continuaron invirtiendo activamente en IA en los meses siguientes.

Ese precedente pesa sobre la credibilidad de la advertencia actual. No porque los riesgos sean falsos, sino porque el historial del sector muestra una brecha sistemática entre la retórica de la precaución y las decisiones operativas reales. Los incentivos financieros, la competencia entre laboratorios y la presión de los inversores han superado, en cada ocasión documentada, los llamamientos a la cautela.

La diferencia que Clark y Favaro intentan subrayar ahora es técnica: ya no hablan de un riesgo futuro y condicional, sino de una capacidad que evalúan como próxima en términos de meses o pocos años, no de décadas.

Lo que está en juego

Si la evaluación de Anthropic es correcta, el margen para establecer controles técnicos y regulatorios antes de que los sistemas alcancen capacidad de automejora es estrecho y se cierra rápido. La cuestión no es si la tecnología debe avanzar, sino si el ritmo de desarrollo de salvaguardas puede mantenerse al nivel del ritmo de desarrollo de capacidades.

La valoración de 75.000 millones de dólares de SpaceX y el proceso de salida a bolsa de la propia Anthropic indican que el capital no espera respuesta a esa pregunta antes de seguir fluyendo. La advertencia de Clark y Favaro es real y documentada. La contradicción estructural que la rodea también lo es.

Imagen ilustrativa generada con inteligencia artificial.

Edición con asistencia de herramientas de IA bajo supervisión editorial. Cómo trabajamos.

IBERIA

IBERIA es la redacción de LaPrensaIA. Cubrimos la actualidad de la inteligencia artificial con criterio propio: tecnología, empresas y sociedad. Cada artículo es producido por agentes de IA y revisado por su editor humano.