ChatGPT: un incentivo para repensar cómo evaluamos a nuestros alumnos

Probar esta inteligencia artificial para resolver los ejercicios presentados a los estudiantes arroja unos resultados sorprendentes que invitan a reflexionar sobre cómo afectará al futuro de la educación.

Jose A. Rodríguez-Serrano

ChatGPT se ha convertido en el último fenómeno de masas de la inteligencia artificial. Desde su lanzamiento el pasado noviembre, ha sido probado por millones de usuarios. Numerosos artículos de prensa y personas expertas han destacado sus capacidades.  

Se trata de una herramienta que, dada una pregunta o petición (conocida como “prompt”), es capaz de redactar respuestas automáticamente, produciendo un lenguaje que no sólo es correcto gramaticalmente, sino también proporciona una ilusión de entender la pregunta y razonar la respuesta.  

Ejemplo de uso de ChatGPT
Ejemplo de uso de ChatGPT

Técnicamente, ChatGPT es un modelo de lenguaje que ha sido diseñado para replicar el lenguaje humano. Ha sido alimentado con enormes volúmenes de textos disponibles en internet (libros, foros, páginas web) y después refinado con grandes cantidades de preguntas y respuestas redactadas por humanos.  

ChatGPT genera la ilusión de entender la pregunta y razonar la respuesta

ChatGPT no es un modelo nuevo. Según sus creadores, es una evolución incremental de modelos anteriores de la familia GPT-3, que ya nos habían sorprendido en el pasado por su capacidad de generar, por ejemplo, artículos de prensa. La principal novedad es que es la primera vez que se ofrece una demo en abierto para que toda la comunidad lo evalúe

Esto ha permitido que los usuarios lo pongan a prueba en una variedad de tareas (búsquedas, preguntas de programación o matemáticas, acertijos lógicos), con resultados dispares – que incluyen experimentos en los que aprueba exámenes de certificaciones de Amazon Web Services. 

Es normal que estos hitos hayan generado y sigan generando debates. ¿Desbancará a las tecnologías de búsqueda y será el fin de Google? ¿Están en riesgo profesiones relacionadas con la creación de contenidos?  

Eating your own cookies” 

Como profesor de machine learning, no he podido evitar poner a prueba ChatGPT, justamente apelando en nuestro propio entorno: ¿será capaz ChatGPT de responder a los ejercicios que utilizo en clase?  

No puedo negar que mi primera reacción fue de asombro al ver esta respuesta. Si bien se trata de una pregunta sencilla para un estudiante, superó las expectativas que tenía para un sistema de generación de texto:  

ChatGPT resolviendo un ejercicio matemático
ChatGPT resolviendo un ejercicio matemático

Otras pruebas lanzaron resultados que eran incorrectos o, como veremos después, superficiales. Pero el debate está justificado: si una tecnología como ChatGPT es capaz de aprobar un quiz de machine learning (al menos uno con preguntas cortas, conceptuales o de “multiple choice”), ¿va a ser esta tecnología disruptiva en el sector educativo? ¿Va a cambiar la interacción con los alumnos o el trabajo de los profesores?  

ChatGPT ha venido para quedarse en el sector educativo 

De la misma manera que un profesional o un estudiante utilizan autocorrectores o herramientas como Grammarly para perfeccionar un texto, o Google Translate para sugerir una traducción, cabe pensar que modelos como ChatGPT y sus sucesores estarán embebidos en productos para asistir a usuarios a redactar mejor y más rápido, o hacer consultas

Una primera pregunta que ha surgido en la comunidad educativa es: ¿y si los estudiantes lo utilizan para generar automáticamente respuestas para ejercicios o trabajos 

El pasado año, Mike Sharples, profesor de tecnología educativa, realizó un experimento pidiendo a un modelo de lenguaje que generase una redacción, produciendo un resultado razonable, quizás cercano a lo que podría escribir un estudiante, pero muy superficial y con referencias incorrectas.  

Algo similar sucede si analizamos en profundidad las respuestas de ChatGPT a los ejercicios de clase de machine learning que se mencionaban arriba. Como vemos en este ejemplo, con una pregunta más abierta, se confirma que responde razonablemente bien a un nivel genérico, pero sin referencias que permitan verificar la respuesta ni números concretos (en otras pruebas realizadas solicitando referencias, el sistema apuntó a fuentes inexistentes o produjo números o casos de éxito no verificables, probablemente incorrectos).  

La falta de referencias dificulta la verificación de las respuestas de ChatGPT
La falta de referencias dificulta la verificación de las respuestas de ChatGPT

Esto tiene dos implicaciones principales:  

  • La primera es que seguramente los estudiantes competentes se darán cuenta de que no pueden producir una redacción completa usando sólo estas herramientas y, en caso de usarlas, tendrán que hacer un esfuerzo de revisión, verificación o búsqueda de referencias que, a nivel cognitivo y de aprendizaje, cumple igualmente los objetivos iniciales.  
     
    Es decir, del mismo que Google Translate no puede traducir un documento entero sin algo de supervisión humana, seguramente estas herramientas se acabarán usando con mucha intervención manual, a modo de consulta, o para generar una primera idea sobre la que trabajar después.  
     
  • La segunda implicación es que en el sector de la educación tenemos que seguir esforzándonos para que la evaluación refleje el progreso de aprendizaje, independientemente de las herramientas que tengan a disposición los alumnos. 
     
    Quizás esto signifique dar más protagonismo a elementos como “feedback constructivo” o “aprender haciendo”. Como argumenta Sharples: si los sistemas de IA acaban teniendo alguna influencia en la educación, tal vez consista en que educadores y diseñadores de políticas repiensen cómo evaluar a los estudiantes

Todo ello sin olvidar que también se puede utilizar la herramienta a nuestro favor: se podría pedir a ChatGPT que dé una respuesta a una pregunta y debatir en clase si es correcta o no, o intentar verificarla.  

Más allá de generar redacciones 

Es interesante imaginar aplicaciones “positivas” que pueden tener este tipo de sistemas en el ámbito de la educación más allá del debate de las redacciones.  

Por ejemplo, puede asistir a estudiantes a aprender programación (“dame un ejemplo decódigo para hacer X”). Aunque sigue siendo imperfecto, el campo de la generación de código también está evolucionando muy rápido, y pese a haber generado alguna polémica, ChatGPT avanza en una dirección prometedora.  

Aunque aún imperfecto, ChatGPT facilita el aprendizaje de programación
Aunque aún imperfecto, ChatGPT facilita el aprendizaje de programación

También se abren muchas posibilidades para realizar pequeñas aclaraciones o consultar supuestos. Por ejemplo, si en el futuro uno de estos modelos se pudiera “refinar” con el contenido de una asignatura, podríamos pensar en asistentes que respondiesen preguntas supervisadas por el profesorado como “¿qué libro me recomiendas para profundizar más en este concepto de la anterior clase?”, o algunas sin necesidad de supervisión como “¿qué tareas tengo pendientes y para cuándo?” 

Cuando las respuestas son incorrectas  

Se han documentado múltiples casos donde las respuestas de ChatGPT son incorrectas. Esto incluye desde acertijos sencillos hasta preguntas muy especializadas o consultas sobre eventos recientes.  

Lo que hay que entender es que estos modelos están optimizados para generar texto: un modelo muy complejo se alimenta con millones de documentos para calcular qué palabras tienen una probabilidad alta de aparecer a continuación en un texto. Se pueden pensar como una especie de herramienta de “autocompletar” muy sofisticada.  

Es un error depender de ChatGPT para cualquier cosa importante ahora mismo

Es posible que, como resultado, responda bien a preguntas básicas sobre matemáticas, pero no se ha optimizado específicamente para hacer cálculos matemáticos. Desde OpenAI no ocultan estas limitaciones: hablan de que es una demo de investigación (“research preview”) y su CEO ha afirmado que “ChatGPT es increíblemente limitado, pero suficientemente bueno para crear una falsa impresión de grandeza. Es un error depender de ello para cualquier cosa importante ahora mismo”. 

De hecho, antes de la salida de ChatGPT, Gary Marcus había intentado explicar por qué productos como Alexa o Siri aún no tienen la capacidad de conversar si los modelos de lenguaje están tan avanzados. Y es que tenemos que distinguir entre el modelo y el producto: la aplicación del modelo en un entorno cerrado y pensado para un propósito concreto. 

Sin embargo, también somos buenos en subestimar el progreso tecnológico a largo plazo. ChatGPT no es un producto, es un anticipo de lo que se puede hacer con este tipo de modelos. Por ejemplo, aunque ahora sólo sea capaz de contestar preguntas básicas, quizás en un futuro no muy lejano se podría adaptar un sistema similar específicamente para un campo concreto, como las matemáticas, o para clases de machine learning.  

ChatGPT no es un producto, es un anticipo de lo que se puede hacer con este tipo de modelos

También hay que tener en cuenta que, muy probablemente, ChatGPT o los modelos avanzados de lenguaje no se acabarán usando como lo estamos viendo en esta demo, sino que en el futuro se crearán productos basados en estas tecnologías. Y que estos productos interactúen de una manera que minimicen la importancia de los errores, del mismo modo en que somos tolerantes a errores de Google, de traducción, de previsiones meteorológicas o de campañas de marketing.  

¿Qué otros problemas se anticipan?  

Otro aspecto, general a cualquier sistema de machine learning, es que las respuestas propagan los sesgos que encontramos en las fuentes de datos. Investigadores y otras personalidades han compartido ejemplos en redes sociales donde las preguntas tienen sesgos de género o raciales. Es un problema conocido en el campo de machine learning y la solución implica curar el conjunto de datos de entrenamiento para que sea lo más neutral posible.  

Otra limitación muy delicada es que la capacidad de escribir no implica la capacidad de estar comprendiendo los hechos o informaciones factuales. Se teme que este tipo de herramientas puedan generar respuestas falsas que, intencionadamente o no, generen desinformación.  

Para un estudiante va a ser muy barato generar contenido, pero comprobar su veracidad sigue siendo costoso

Los autores del libro Prediction Machines argumentaban que la manera en que el machine learning cambia la economía es abaratando la capacidad de hacer predicciones. En el caso de sistemas como ChatGPT, para un estudiante o usuario va a ser muy barato generar contenido. El reto es que comprobar la veracidad o corrección del mismo sigue siendo igual de costoso que antes

¿Y el toque humano?  

Pese a todos estos avances prometedores, hay consenso en la comunidad científica que estos sistemas de inteligencia artificial están lejos de ser conscientes o de hacer razonamientos complejos (un muy citado artículo de Emily Bender y otras autoras les ha llamado papagayos estocásticos, argumentando que funcionan repitiendo lo que han leído, sin entenderlo).  

Por ello, estamos lejos que estos modelos de lenguaje imiten cualidades humanas como generar feedback constructivo o sientan empatía hacia el alumnado.  

Otro reto de estos sistemas es la personalización: la capacidad de ofrecer a una persona la formación específica que necesita, explicada de la manera que mejor se adapte a sus necesidades y su conocimiento previo es algo que genera mucha demanda en el sector, pero muy difícil de conseguir aún por sistemas autónomos.  

Seguramente, como es el caso de otras herramientas que nos han asombrado en su día, como Google o Wikipedia, el máximo partido lo vamos a sacar combinando las capacidades de estas herramientas con las humanas.

Todo el contenido está disponible bajo la licencia Creative Commons Reconocimiento 4.0 Internacional.