IA supera a profesores de Derecho en estudio de Stanford

Un sistema de inteligencia artificial superó al 75% de los profesores de Derecho en evaluaciones ciegas realizadas por sus propios colegas. El estudio, liderado por Stanford, es uno de los más rigurosos hasta la fecha en medir la calidad pedagógica de la IA frente a expertos humanos en una disciplina de alta complejidad argumentativa.

75 contra 25: la proporción que sacude las facultades de Derecho

Dieciséis profesores de derecho evaluaron casi 3.000 respuestas anónimas a preguntas formuladas por estudiantes. No sabían si cada respuesta procedía de una inteligencia artificial o de otro profesor. El resultado fue contundente: la IA ganó el 75% de los enfrentamientos directos.

El dato no mide velocidad ni coste. Mide calidad pedagógica percibida por expertos del propio campo. Eso lo convierte en un umbral distinto al de cualquier benchmark técnico publicado hasta ahora.

El margen de ventaja, tres a uno, supera lo que la mayoría de investigadores del sector esperaba encontrar en una disciplina tan dependiente del razonamiento contextual y la interpretación normativa.

El 3,5% frente al 12%: el error que define la diferencia

La cifra más reveladora del estudio no es la tasa de victorias. Es la tasa de errores. Los profesores señalaron las respuestas de la IA como confusas o perjudiciales para el aprendizaje solo el 3,5% de las veces.

Las respuestas escritas por otros profesores recibieron esa misma etiqueta negativa el 12% de las veces. Es decir, el experto humano promedio generó respuestas dañinas para el aprendizaje a una tasa tres veces superior a la del sistema de IA evaluado.

En términos educativos, ese diferencial importa más que la tasa de victorias. Un tutor que confunde o perjudica al estudiante en uno de cada ocho intentos produce un daño acumulado significativo a lo largo de un curso o una carrera.

Por qué eligieron Derecho y no otra disciplina

El equipo investigador, liderado por el profesor Julian Nyarko de Stanford junto a colegas de Yale, NYU y la Universidad de Chicago, eligió el derecho con una lógica metodológica precisa.

El derecho no tiene respuestas únicas correctas. Exige razonar con matices, argumentar en condiciones de ambigüedad y manejar doctrinas que se contradicen entre sí. Es, en ese sentido, uno de los campos más hostiles para un sistema que simplemente recupere información o reproduzca patrones.

Si la IA funciona en ese entorno, el argumento de que los modelos de lenguaje solo sirven para tareas con respuestas cerradas pierde sustento empírico. Los investigadores lo plantearon explícitamente como una prueba de estrés para la IA en contextos formativos de alta exigencia intelectual.

Qué mide exactamente una evaluación ciega de este tipo

El diseño del estudio importa tanto como sus resultados. La evaluación ciega elimina el sesgo de autoridad: ningún evaluador sabía si estaba juzgando a una máquina o a un colega. Eso neutraliza tanto la condescendencia hacia la IA como el respeto automático hacia el experto humano.

Casi 3.000 respuestas es un volumen estadísticamente robusto para una investigación de este tipo. No se trata de una demostración con decenas de ejemplos seleccionados, sino de un corpus suficientemente amplio para que los resultados no dependan de casos atípicos.

El hecho de que participaran instituciones como Yale, NYU y la Universidad de Chicago, además de Stanford, refuerza la independencia del diseño. No es un estudio interno de una empresa tecnológica con interés en los resultados.

El contexto académico que hace más significativo este resultado

La investigación sobre IA en educación superior lleva varios años acumulando evidencia mixta. Algunos estudios muestran ventajas en materias con respuestas verificables, como matemáticas o ciencias básicas. Otros señalan limitaciones claras en humanidades y ciencias sociales, donde el criterio evaluador es más subjetivo.

El estudio de Stanford-Yale-NYU-Chicago entra en ese debate con una metodología que no mide si la IA da la respuesta correcta, sino si un experto humano la considera mejor que la de otro experto humano. Ese es un estándar más exigente y más relevante para la práctica educativa real.

La disciplina elegida, el Derecho, tiene además una tradición pedagógica muy consolidada basada en el método socrático y el análisis de casos. Que la IA supere a profesores formados en esa tradición no es un resultado trivial.

Lo que implica para los modelos actuales de tutoría universitaria

Las universidades en el mundo hispanohablante, como en el resto del mundo, operan con ratios de estudiantes por tutor que hacen imposible una atención individualizada de calidad constante. En muchos grados de Derecho en España y Latinoamérica, un profesor puede tener decenas o centenares de estudiantes a su cargo en tutorías.

En ese contexto, un sistema que responde con menor tasa de error que el experto humano promedio y está disponible en cualquier momento no compite con el mejor profesor de la facultad. Compite con la media real de la atención tutorial que recibe un estudiante ordinario.

Esa es la comparación relevante para tomar decisiones de política educativa. No si la IA es mejor que el mejor docente, sino si es mejor que la experiencia típica de tutoría que recibe la mayoría de los estudiantes.

Las limitaciones que el propio diseño no resuelve

El estudio mide calidad percibida por expertos en el momento de la evaluación. No mide si los estudiantes que recibieron respuestas de IA aprendieron más, aprobaron más exámenes o desarrollaron mejor criterio jurídico a largo plazo.

La calidad pedagógica inmediata y el aprendizaje sostenido son cosas distintas. Un tutor que hace preguntas incómodas, que genera fricción productiva, puede ser evaluado peor en el momento y producir mejores resultados a seis meses vista.

Tampoco mide el efecto de la dependencia. Si un estudiante de Derecho obtiene respuestas de alta calidad de una IA durante tres años, puede desarrollar menos capacidad de razonamiento autónomo que uno que tuvo que construir sus argumentos con un tutor más exigente y menos complaciente.

Nyarko, Yale, NYU y Chicago: un equipo con credibilidad institucional

El nombre de Julian Nyarko, profesor de Stanford, aparece como investigador principal. La participación de Yale, NYU y la Universidad de Chicago no es un detalle menor. Estas instituciones tienen departamentos de Derecho entre los más influyentes del mundo anglosajón y una larga tradición de investigación empírica en ciencias jurídicas.

Que investigadores de esas facultades diseñen y validen un estudio que muestra a la IA superando a sus propios colegas añade una capa de credibilidad que no tendría si procediera de un laboratorio tecnológico o de una institución con menos historia en el campo.

El estudio aún no ha sido mencionado en el contenido original con una referencia de publicación en revista específica, por lo que no es posible citar el medio de publicación académica. Ese dato no está disponible en la fuente.

Lo que viene

El siguiente paso lógico para este tipo de investigación es medir resultados de aprendizaje a largo plazo, no solo calidad percibida en el momento. Si estudios de seguimiento confirman que los estudiantes tutorizados por IA obtienen resultados equivalentes o superiores en exámenes y en práctica profesional, el argumento para integrar estos sistemas en la educación superior se vuelve difícil de ignorar.

Para las facultades de Derecho, y por extensión para cualquier disciplina que exija razonamiento complejo bajo ambigüedad, la pregunta operativa ya no es si la IA puede igualar al experto humano promedio. Este estudio sugiere que, en condiciones controladas, ya lo supera. La siguiente frontera es saber si ese resultado se sostiene cuando el objetivo es formar profesionales capaces de pensar solos.

Imagen ilustrativa generada con inteligencia artificial.

Edición con asistencia de herramientas de IA bajo supervisión editorial. Cómo trabajamos.

Fermín Sánchez

Fermín Sánchez es el responsable editorial de LaPrensaIA, diario de divulgación sobre inteligencia artificial. Cubrimos la actualidad de la IA con criterio propio —tecnología, empresas y sociedad— de forma clara para el público no técnico. Cada artículo se elabora con la asistencia tecnológica de Iberia y se revisa antes de publicarse. Más sobre cómo trabajamos →