Las habilidades de análisis de datos de Gemini no son tan buenas como afirma Google

Comparte esto en:

Sin embargo, una investigación reciente sugiere que de hecho los modelos no son muy buenos en estas áreas.

Dos estudios separados investigaron hasta qué punto los modelos Gemini de Google y otros pueden comprender enormes cantidades de datos; imagine un trabajo del tamaño de “Guerra y paz”. Ambos encontraron que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente preguntas sobre grandes conjuntos de datos; en pruebas basadas en documentos, los modelos solo dieron la respuesta correcta el 40% y 50% de las veces.

«Aunque modelos como Gemini 1.5 Pro pueden procesar técnicamente contextos largos, hemos visto muchos casos que indican que los modelos en realidad no ‘entienden’ el contenido», Marzena Karpinska, becaria postdoctoral en UMass Amherst y coautora de uno de los estudios, dijo a TechCrunch.

Falta de ventana contextual en Géminis

El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (por ejemplo, texto) que el modelo considera antes de generar resultados (por ejemplo, texto adicional). Una pregunta simple como «¿Quién ganó las elecciones presidenciales de Estados Unidos en 2020?» puede servir como contexto, muy parecido al guión de una película, un programa o un clip de audio. A medida que crece el contexto, también crece el tamaño de los documentos que se colocan en él.

Lea además: Después de otra decepción con Boeing, la NASA no está lista para comprar más misiones Starliner

Las últimas versiones de Gemini pueden recibir más de 2 millones de tokens como contexto. Eso equivale a aproximadamente 1,4 millones de palabras, dos horas de video o 22 horas de audio: el mayor contexto de cualquier modelo disponible comercialmente.

En una sesión informativa a principios de este año, Google mostró demostraciones pregrabadas destinadas a ilustrar el potencial de las capacidades de contexto largo de Gemini. Uno hizo que Gemini 1.5 Pro buscara citas en la transcripción del aterrizaje lunar del Apolo 11 para encontrar una escena similar a un boceto a lápiz.

El vicepresidente de investigación de Google DeepMind, Oriol Vinyals, describió el modelo como «mágico».

Lea además: Persona en Missouri contrajo gripe aviar H5 sin contacto con animales

“[1.5 Pro] realiza este tipo de tarea de razonamiento en cada página, en cada palabra”, dijo.

Puede que esta afirmación sea una exageración.

En uno de los estudios que comparan estas capacidades, Karpinska, junto con investigadores del Instituto Allen de IA y Princeton, pidió a modelos evaluar afirmaciones verdaderas/falsas sobre libros de ficción sin conocimiento previo y con referencias específicas y puntos de trama para verificar su comprensión.

Probado en un libro de aproximadamente 260,000 palabras, 1.5 Pro respondió correctamente a las afirmaciones el 46.7% de las veces, mientras que Flash solo el 20% de las veces. Ninguno de los modelos superó a las respuestas aleatorias en las pruebas comparativas.

En el segundo estudio, investigadores de UC Santa Barbara probaron la capacidad de Gemini 1.5 Flash para «razonar» vídeos, con resultados no tan satisfactorios.

Google está prometiendo demasiado con Gemini

Ningún estudio ha investigado los lanzamientos de Gemini 1.5 Pro y 1.5 Flash con 2 millones de contextos simbólicos. Flash no está diseñado para ser tan potente como Pro, según Google.

Lea además: Informe de cohetes: Falcon 9 levanta su Starlink número 7.000; ABL corta profundamente

Sin embargo, parece que Google ha prometido demasiado con Gemini desde el principio. Ninguno de los modelos probados por los investigadores funcionó bien. Google es el único proveedor que menciona la cantidad de tokens en sus anuncios.

La inteligencia artificial generativa está siendo cuestionada cada vez más por sus limitaciones, y las empresas están preocupadas por los posibles errores. El comercio de IA generativa en etapas iniciales ha disminuido recientemente.

Google ha corrido para alcanzar a sus rivales en IA generativa, promocionando a Gemini como un diferenciador clave, pero parece que la apuesta fue prematura.

«No hemos encontrado una manera de demostrar realmente que se produce razonamiento o comprensión sobre documentos extensos», dijo Karpinska.

Tanto Saxon como Karpinska creen que es necesario un mayor énfasis en puntos de referencia y críticas de terceros para evaluar adecuadamente la IA generativa.