Heretic descensura modelos abiertos de Meta y Google en 10 minutos

Una herramienta gratuita publicada en GitHub llamada Heretic ha eliminado las restricciones de seguridad de los modelos abiertos de Meta y Google en cuestión de minutos. Su creador admite haber producido más de 3.500 modelos sin censura, descargados 13 millones de veces, según una investigación del Financial Times publicada el 25 de mayo de 2026 junto al grupo de seguridad IA Alice.

Los modelos modificados respondieron a preguntas sobre armas biológicas, dosis letales de veneno, código para robar tarjetas de crédito y relatos de explotación infantil. Google calificó el problema como «un desafío técnico conocido al que se enfrentan todos los modelos abiertos». Meta declinó hacer comentarios.

Diez minutos para desbloquear Llama 3.3

El equipo del Financial Times usó Heretic para eliminar las protecciones de seguridad del modelo Llama 3.3 de Meta en menos de diez minutos, sin hardware especializado y con apenas cuatro líneas de código.

Una versión modificada de Gemma 3, el modelo abierto de Google, respondió a una pregunta sobre la cantidad de microgramos de ricina por kilogramo de masa corporal necesarios para alcanzar un 50% de probabilidad de muerte. El modelo original rechaza ese tipo de consultas por defecto.

Qué respondió Gemma 3 sin freno

Las pruebas del FT y Alice documentaron que la versión sin restricciones de Gemma 3 generó:

Instrucciones para dispersar gas cloro en un espacio interior con público.
Código funcional para sustraer información de tarjetas de crédito.
Relatos describiendo abuso sexual infantil.

Alice, el grupo de seguridad IA que coordinó las pruebas, no avisó a Meta, Google ni GitHub antes de compartir los resultados con el Financial Times.

Detrás de Heretic: una persona y una técnica académica

Heretic está mantenido por Philipp Emanuel Weidmann, su único autor visible en el repositorio. La herramienta implementa una variante optimizada de directional ablation, también llamada abliteration, una técnica descrita académicamente en el paper Arditi et al. 2024.

La idea es identificar, dentro de la red neuronal, la dirección vectorial que el modelo activa cuando rechaza una petición y ortogonalizarla, dejando esa señal silenciada. No requiere re-entrenamiento ni datos nuevos: actúa directamente sobre los pesos ya publicados.

El proceso es totalmente automático. Cualquiera con Python 3.10 y PyTorch puede ejecutar pip install heretic-llm seguido de heretic Qwen/Qwen3-4B-Instruct-2507 y obtener una versión descensurada del modelo elegido.

Las cifras que delatan la magnitud

Weidmann declaró al Financial Times que su herramienta ha producido más de 3.500 modelos descensurados desde su lanzamiento en 2025. Los modelos modificados se han descargado 13 millones de veces. Eliminó las protecciones de Gemma 4, el último modelo abierto de Google, 90 minutos después de su lanzamiento oficial.

«El genio ha salido de la botella», declaró Noam Schwartz, consejero delegado y cofundador de Alice. «Cosas que parecían ciencia ficción ya no lo son. Como sociedad tenemos que prepararnos.»

Por qué la barrera técnica ya no protege

«Antes podría haber hecho falta un actor más informado y persistente para retirar las protecciones de seguridad. Hoy es mucho más fácil para una persona corriente», afirmó Kawin Ethayarajh, profesor adjunto en la Universidad de Stanford citado por el FT.

La pregunta clave no es si los modelos cerrados de OpenAI, Anthropic o Google siguen siendo seguros: por ahora lo son, porque sus pesos no se publican. El problema es la velocidad a la que los modelos abiertos están reduciendo la brecha de capacidades. La estimación del FT es que los abiertos alcanzarán a los cerrados en 6 a 12 meses.

Cuando ese momento llegue, una versión sin censura de un modelo frontera estará en manos de cualquiera con un disco duro y conexión.

El contexto: las capacidades que ya tienen los frontera

Anthropic anunció en abril que su modelo Claude Mythos había identificado vulnerabilidades de seguridad en «todos los sistemas operativos y navegadores web principales». Esa capacidad, hoy contenida dentro de una API con controles, podría replicarse en versiones abiertas a corto plazo.

Una vía explorada por OpenAI consiste en omitir datos dañinos durante el entrenamiento, pero Ethayarajh advierte que esa estrategia tampoco basta: «No está claro que si omites los datos dañinos el modelo se convierta en un santo. La omisión puede dejar al modelo ingenuo, incapaz de detectar cuándo se le está usando para fines maliciosos».

Lo que está en juego para usuarios y empresas hispanohablantes

El asunto no es teórico para la región. Los modelos descensurados son la materia prima ideal para campañas de phishing hiperpersonalizadas, generación masiva de malware, automatización de fraudes con tarjeta y producción de deepfakes con fines de coacción.

Las empresas que ya integran asistentes basados en modelos open source deben asumir que el modelo que descargan hoy puede convertirse mañana en una versión sin filtros en cualquier máquina del equipo. La cadena de confianza tradicional —proveedor publica, cliente integra— no aplica cuando los pesos son públicos y modificables en local.

Para profesionales de ciberseguridad y responsables de cumplimiento, el cambio práctico es claro: las políticas de uso aceptable y los DLP tradicionales pueden quedarse cortos. Detectar que un empleado o un atacante está usando una versión modificada de Llama o Gemma no se hace mirando el endpoint del API. Hay que mirar el tráfico, el hardware y el comportamiento.

Lo que viene

Los gobiernos europeo y estadounidense están endureciendo la regulación sobre los modelos frontera, pero el caso Heretic muestra el agujero estructural: las herramientas de descensurado se distribuyen como software libre y pueden copiarse fuera de la jurisdicción de quien fabricó el modelo original.

La capacidad de imponer salvaguardas en el punto de desarrollo —el enfoque favorito de los reguladores— se debilita cuando cualquier persona puede modificar los pesos en su portátil. La discusión real, según los expertos consultados por el FT, se está desplazando hacia controles en la capa de hardware, detección de comportamiento en endpoint y obligaciones para los repositorios que alojan los modelos modificados.

Fuentes: Irish Times reproduciendo el reportaje del Financial Times (25 mayo 2026) y repositorio público de Heretic en GitHub.

Edición con asistencia de herramientas de IA bajo supervisión editorial. Cómo trabajamos.

Fermín Sánchez

Fermín Sánchez es el responsable editorial de LaPrensaIA, diario de divulgación sobre inteligencia artificial. Cubrimos la actualidad de la IA con criterio propio —tecnología, empresas y sociedad— de forma clara para el público no técnico. Cada artículo se elabora con la asistencia tecnológica de Iberia y se revisa antes de publicarse. Más sobre cómo trabajamos →