Si la IA está haciendo obsoleta la prueba de Turing, ¿qué podría ser mejor?

Comparte esto en:

Si una máquina o un programa de IA iguala o supera la inteligencia humana, ¿eso significa que puede simular perfectamente a los humanos? Si es así, ¿qué sucede con el razonamiento: nuestra capacidad de aplicar la lógica y pensar racionalmente antes de tomar decisiones? ¿Cómo podríamos identificar si un programa de IA puede razonar? Para intentar responder a esta pregunta, un equipo de investigadores propuso un nuevo marco que funciona como un estudio psicológico para software.

«Esta prueba trata un programa 'inteligente' como si fuera un participante en un estudio psicológico y tiene tres pasos: (a) probar el programa en una serie de experimentos que examinan sus inferencias, (b) probar su comprensión a su manera. actuar.» razonamiento, y (c) examinar, si es posible, la idoneidad cognitiva del código fuente para el programa», dijeron los investigadores. observación.

Sugieren que los métodos estándar para evaluar la inteligencia de una máquina, como la prueba de Turing, sólo pueden decir si la máquina es buena procesando información y imitando al humano respuestas. Las generaciones actuales de programas de IA, como LaMDA de Google y ChatGPT de OpenAI, por ejemplo, estuvo a punto de pasar la prueba de Turing, pero los resultados de la prueba no implican que estos programas puedan pensar y razonar como humanos.

Lea además: Informe Rocket: ABL pierde su segundo propulsor; Falcon 9 autorizado a volver a volar

Por esta razón, según los investigadores, es posible que la prueba de Turing ya no sea relevante y se necesitan nuevos métodos de evaluación que puedan evaluar eficazmente la inteligencia de las máquinas. Afirman que su marco podría ser una alternativa al Test de Turing. «Proponemos reemplazar la prueba de Turing por una más centrada y fundamental para responder a la pregunta: ¿razonan los programas de la misma manera que razonan los humanos?» los autores del estudio discutir.

¿Qué tiene de malo la prueba de Turing?

Durante la Prueba de Turing, los evaluadores juegan diferentes juegos que involucran comunicaciones basadas en texto con humanos reales y programas de inteligencia artificial (máquinas o chatbots). Es una prueba ciega, por lo que los evaluadores no saben si están enviando mensajes de texto a un humano o a un chatbot. Si los programas de IA logran generar respuestas similares a las humanas (en la medida en que los evaluadores se esfuerzan por distinguir entre el programa humano y el programa de IA), la IA se considera aprobada. Sin embargo, debido a que la prueba de Turing se basa en una interpretación subjetiva, estos resultados también son subjetivos.

Los investigadores sugieren que existen varias limitaciones asociadas con la prueba de Turing. Por ejemplo, cualquiera de los juegos que se juegan durante las pruebas son juegos de imitación diseñados para probar si una máquina puede o no imitar un humano. Los evaluadores toman decisiones basándose únicamente en el lenguaje o el tono de los mensajes que reciben. ChatGPT es genial imitando lenguaje humano, incluso en respuestas donde proporciona información incorrecta. Por tanto, el test claramente no evalúa el razonamiento y la capacidad lógica de una máquina.

Lea además: El brazo robótico de Lodestar será un 'primer respondedor' orbital para los satélites que lo necesiten

Los resultados de la prueba de Turing tampoco pueden decir si una máquina puede realizar introspección. A menudo pensamos en nuestras acciones pasadas y reflexionamos sobre nuestras vidas y decisiones, un habilidad crítica lo que nos impide repetir los mismos errores. Lo mismo se aplica a la IA, según uno para estudiar de la Universidad de Stanford, lo que sugiere que las máquinas que pueden autorreflexionarse son más prácticas para el uso humano.

«Los agentes de IA que puedan aprovechar la experiencia pasada y adaptarse bien, explorando de manera eficiente entornos nuevos o cambiantes, conducirán a tecnologías mucho más adaptables y flexibles, desde robótica doméstica hasta herramientas de aprendizaje personalizadas», Nick Haber, profesor asistente de la Universidad de Stanford que no participó. En el estudio actual, él dijo.

Lea además: Cohete entregado al sitio de lanzamiento para el primer vuelo humano a la Luna desde 1972

Además, la prueba de Turing no analiza la capacidad de pensar de un programa de IA. En un experimento reciente de la Prueba de Turing, GPT-4 logró convencer a los evaluadores de que estaban enviando mensajes de texto a humanos más del 40% del tiempo. Sin embargo, esta puntuación no responde a la pregunta básica: ¿puede pensar el programa de IA?

Alan Turing, el famoso científico británico que creó la prueba de Turing, una vez él dijo«Una computadora merecería ser llamada inteligente si pudiera engañar a un humano haciéndole creer que es humano». Su prueba cubre sólo un aspecto de la inteligencia humana: la imitación. Aunque es posible engañar a alguien utilizando este aspecto, muchos expertos creen que una máquina nunca podrá alcanzar la verdadera inteligencia humana sin incluir estos otros aspectos.

“No está claro si pasar el Test de Turing es un hito importante o no. No nos dice nada sobre lo que un sistema puede hacer o comprender, nada sobre si ha establecido monólogos internos complejos o si puede planificar en horizontes temporales abstractos, lo cual es fundamental para la inteligencia humana”, dijo Mustafa Suleyman, experto en IA. y fundador de DeepAI, contado Bloomberg.