Chatbots y pensamiento crítico: el estudio del MIT que alarma

Usar un chatbot para detectar bulos mejora el acierto un 21%, pero deteriora la capacidad autónoma un 15,3% en apenas cuatro semanas. Eso es lo que midió el MIT en un experimento controlado, y el dato inquieta porque afecta a una habilidad que los sistemas democráticos dan por descontada: distinguir lo verdadero de lo falso.

El experimento del MIT: 67 personas, GPT-4o y cuatro semanas de medición

El Instituto Tecnológico de Massachusetts reclutó a 67 participantes y los sometió durante cuatro semanas a tareas de verificación: identificar noticias falsas e imágenes manipuladas. La mitad recibió ayuda de un chatbot basado en GPT-4o, el modelo de OpenAI lanzado en mayo de 2024; la otra mitad trabajó sin asistencia.

Los resultados con IA fueron inmediatos y claros. Quienes usaron el chatbot acertaron un 21% más que el grupo de control. La herramienta funcionó exactamente como se esperaba: como amplificador de capacidad en tiempo real.

El problema apareció en la cuarta semana, cuando el MIT retiró el asistente y pidió a todos los participantes que completaran las mismas tareas solos. El grupo que había dependido del chatbot registró una caída del 15,3% en su rendimiento respecto a su propio punto de partida. El grupo sin IA no mostró ese deterioro.

La brecha entre sentirse competente y serlo: uno de cada cuatro engañados por sí mismos

El hallazgo más perturbador del estudio no es la caída del rendimiento, sino la desconexión entre percepción y realidad. Cerca de uno de cada cuatro participantes que usaron el chatbot creía que su capacidad había mejorado. Sus resultados objetivos decían lo contrario.

Este fenómeno tiene nombre en psicología cognitiva: ilusión de competencia. Cuando una herramienta externa ejecuta el razonamiento, el cerebro registra el resultado correcto como propio y actualiza hacia arriba su autoestimación. La retroalimentación que necesita el aprendizaje real —el esfuerzo, el error, la corrección— nunca llega.

El peligro no es solo individual. Una persona que sobreestima su capacidad de detectar desinformación toma decisiones de mayor riesgo: comparte contenido sin verificar, abandona el hábito de contrastar fuentes y reduce su guardia ante la manipulación precisamente cuando más debería mantenerla.

El precedente de The Lancet: médicos con IA que empeoran solos

El estudio del MIT no es un caso aislado. En 2025, la revista médica The Lancet documentó un patrón equivalente en profesionales sanitarios que utilizaban inteligencia artificial para detectar cáncer. Los médicos asistidos por IA mejoraban sus tasas de diagnóstico mientras el sistema estaba activo, pero su rendimiento autónomo descendía cuando operaban sin él.

La analogía es directa y técnicamente relevante. En ambos casos —verificación de bulos y diagnóstico oncológico— la tarea exige un juicio experto construido sobre miles de horas de práctica deliberada. Cuando una herramienta automatiza ese juicio, la práctica deliberada deja de producirse. La habilidad no se consolida; se atrofia.

La diferencia entre los dos contextos es de escala. Los médicos son un colectivo profesional regulado, con formación continua obligatoria y supervisión institucional. Los usuarios de chatbots de consumo masivo no tienen ninguno de esos mecanismos de corrección.

Calculadoras, GPS y ahora GPT: el coste cognitivo de la automatización

La dependencia tecnológica que erosiona habilidades cognitivas no es nueva. La generalización de las calculadoras en las aulas redujo la agilidad en el cálculo mental. La adopción masiva del GPS deterioró la capacidad de orientación espacial sin dispositivo. Ambos efectos están documentados en la literatura de psicología cognitiva desde los años noventa y dos mil.

Lo que cambia con los grandes modelos de lenguaje es la naturaleza de las habilidades en riesgo. Calcular mentalmente o leer un mapa son capacidades útiles pero relativamente periféricas para la vida cívica. Evaluar la credibilidad de una fuente, detectar la manipulación en una imagen o razonar sobre la coherencia interna de un argumento son competencias centrales para participar en una sociedad informada.

GPT-4o, desarrollado por OpenAI —empresa fundada en San Francisco en 2015 y valorada en más de 150.000 millones de dólares en su última ronda de financiación— es hoy el modelo de referencia en asistentes conversacionales de consumo masivo. Su capacidad para analizar texto e imágenes simultáneamente lo convierte en una herramienta especialmente apta para tareas de verificación, y por tanto en el candidato más probable a generar exactamente el tipo de dependencia que el MIT acaba de medir.

Cómo se produce el deterioro: el mecanismo detrás del 15,3%

El proceso de degradación cognitiva que documenta el MIT sigue una lógica predecible. En la primera semana, el usuario aprende a formular preguntas al chatbot y a interpretar sus respuestas. En las semanas siguientes, ese flujo se automatiza: la consulta al asistente reemplaza al proceso interno de evaluación, no lo complementa.

El cerebro humano consolida habilidades a través de la recuperación activa y el esfuerzo. Cuando el esfuerzo lo realiza la máquina, el proceso de consolidación no se activa. La neurociencia cognitiva describe este mecanismo como desuso funcional: las redes neuronales asociadas a una tarea se debilitan si no se ejercitan con regularidad y con carga real.

En cuatro semanas, ese deterioro ya es medible. La pregunta que el estudio del MIT no responde —y que los investigadores deberán abordar en fases posteriores— es cuánto tiempo de uso intensivo hace falta para que el daño sea difícilmente reversible.

El escenario de uso concreto: un estudiante universitario verificando contenido electoral

Imagina a un estudiante de periodismo que durante un semestre usa un chatbot para evaluar la veracidad de publicaciones en redes sociales como parte de sus prácticas. El asistente le indica si una imagen ha sido manipulada, si una cita está descontextualizada o si una estadística procede de una fuente fiable.

Al final del semestre, ese estudiante tiene un historial de aciertos impresionante. Pero si en las prácticas profesionales siguientes trabaja sin acceso al chatbot —por política editorial, por falta de licencia o por urgencia de cierre—, su capacidad real de verificación será inferior a la que tenía antes de empezar. Y lo más probable es que no lo sepa.

Este escenario no es hipotético en términos generales. Es la extrapolación directa de lo que el MIT midió en condiciones controladas, aplicada al contexto profesional más sensible para la salud informativa de una sociedad.

MIT, The Lancet y OpenAI ante un problema que la industria no ha querido medir

El estudio del MIT llega en un momento en que la industria de la inteligencia artificial lleva años midiendo lo que sus modelos pueden hacer, pero apenas ha financiado investigación sobre lo que sus modelos hacen a los usuarios a medio plazo. Los benchmarks de rendimiento —MMLU, HumanEval, BIG-Bench— evalúan al modelo. Ninguno evalúa al humano que lo usa de forma continuada.

OpenAI, Anthropic, Google DeepMind y Meta AI han publicado extensas documentaciones técnicas sobre las capacidades de sus sistemas. La literatura sobre efectos cognitivos en usuarios reales, en cambio, ha venido casi exclusivamente de universidades e instituciones académicas independientes, como el propio MIT o los equipos que publicaron en The Lancet.

Esa asimetría tiene consecuencias regulatorias. La Ley de Inteligencia Artificial de la Unión Europea, que entró en vigor en agosto de 2024, clasifica los sistemas de IA según el riesgo que generan para los derechos fundamentales. Los chatbots de uso general están en la categoría de riesgo limitado. Los datos del MIT sugieren que esa clasificación podría estar infravalorando un efecto sistémico que opera de forma lenta e invisible.

Próximos pasos del MIT y lo que los datos exigen ahora

El equipo investigador del MIT deberá ampliar el tamaño muestral —67 participantes es suficiente para detectar el efecto, no para cuantificar su alcance poblacional— y extender el periodo de observación más allá de las cuatro semanas. La pregunta central es si el deterioro se estabiliza, se acelera o es reversible con entrenamiento específico.

Mientras tanto, los datos disponibles ya justifican una respuesta práctica. Las plataformas educativas que integran asistentes de IA —desde Duolingo hasta Khan Academy, pasando por los entornos universitarios que han adoptado Copilot o ChatGPT— deberían diseñar protocolos de uso que incluyan periodos regulares sin asistencia automatizada, exactamente igual que los programas de entrenamiento físico alternan carga y recuperación.

El rendimiento con IA mejora un 21%. El rendimiento sin ella cae un 15,3%. La diferencia entre esos dos números es el coste cognitivo real de la delegación, y es un dato que cualquier política de adopción tecnológica responsable debe incorporar desde hoy.

Imagen ilustrativa generada con inteligencia artificial.

Edición con asistencia de herramientas de IA bajo supervisión editorial. Cómo trabajamos.

Fermín Sánchez

Fermín Sánchez es el responsable editorial de LaPrensaIA, diario de divulgación sobre inteligencia artificial. Cubrimos la actualidad de la IA con criterio propio —tecnología, empresas y sociedad— de forma clara para el público no técnico. Cada artículo se elabora con la asistencia tecnológica de Iberia y se revisa antes de publicarse. Más sobre cómo trabajamos →