Los investigadores describen cómo saber si ChatGPT está confabulando

Comparte esto en:

Aurich Lawson | imágenes falsas

Uno de los secretos peor guardados del mundo es que los grandes modelos lingüísticos dan respuestas descaradamente falsas a las preguntas y lo hacen con una confianza que es indistinguible de cuando hacen las cosas bien. Hay varias razones para esto. La IA podría haber sido entrenada con desinformación; la respuesta podría requerir alguna extrapolación de hechos de la que el LLM no es capaz; o algún aspecto de la formación LLM puede haber fomentado una falsedad.

Pero quizás la explicación más sencilla es que un LLM no reconoce qué constituye una respuesta correcta, pero está obligado a proporcionarla. Entonces simplemente inventó algo, un hábito que llamó confabulación.

Descubrir cuándo un LLM está inventando algo obviamente tendría un valor tremendo, dada la rapidez con la que la gente comenzó a confiar en él para todo, desde ensayos universitarios hasta solicitudes de empleo. Ahora, investigadores de la Universidad de Oxford dicen que han encontrado una forma relativamente sencilla de determinar cuándo los LLM parecen estar confabulando, que funciona en todos los modelos populares y en una amplia gama de temas. Y al hacerlo, desarrollan evidencia de que la mayoría de los hechos alternativos proporcionados por LLM son producto de una fabulación.

Lea además: Ashton Kutcher, Effie Epstein y Guy Oseary llegarán a Disrupt 2024

Atrapando confabulación

La nueva investigación trata estrictamente de confabulaciones, no de casos como el entrenamiento con información falsa. Como las define el equipo de Oxford en su artículo que describe el trabajo, las confabulaciones son situaciones en las que «los LLM hacen declaraciones erróneas y arbitrarias, con lo que queremos decir que la respuesta es sensible a detalles irrelevantes, como semillas aleatorias».

Lea además: Ni siquiera la 'madrina de la IA' tiene idea de qué es AGI

El razonamiento detrás de su trabajo es bastante simple. Los LLM no están capacitados para ser precisos; simplemente se les entrena con grandes cantidades de texto y aprenden a producir oraciones con sonido humano a través de esto. Si suficientes ejemplos de texto en su capacitación presentan constantemente algo como un hecho, entonces el LLM probablemente lo presentará como un hecho. Pero si los ejemplos de su formación son pocos o inconsistentes en sus hechos, entonces los LLM sintetizan una respuesta que parece plausible y probablemente incorrecta.

Pero LLM también puede enfrentar una situación similar cuando tiene múltiples opciones para formular la respuesta correcta. Para usar un ejemplo del artículo de los investigadores, «París», «Está en París» y «Capital de Francia, París» son respuestas válidas a «¿Dónde está la Torre Eiffel?» Por lo tanto, la incertidumbre estadística, llamada entropía en este contexto, puede surgir cuando el LLM no está seguro de cómo formular la respuesta correcta o cuando no puede identificar la respuesta correcta.

Lea además: Helene devastó la planta de Carolina del Norte que produce el 60% del suministro de líquidos intravenosos del país.

Esto significa que no es una buena idea simplemente forzar a LLM a responder “No sé” cuando se enfrentan varias respuestas aproximadamente equivalentes. Probablemente bloquearíamos muchas respuestas correctas al hacer esto.

En cambio, los investigadores se centran en lo que llaman entropía semántica. Esto evalúa todas las respuestas estadísticamente probables evaluadas por LLM y determina cuántas de ellas son semánticamente equivalentes. Si un número grande tiene el mismo significado, entonces el LLM probablemente no estará seguro de la redacción, pero tendrá la respuesta correcta. De lo contrario, presumiblemente se encuentra en una situación en la que sería propenso a la confabulación y se le debería impedir hacerlo.