Publicidad
Comparte esto en:

OpenAI quiere trabajar con organizaciones para crear nuevos conjuntos de datos de entrenamiento de IA

Cuerpo de la imagen tender estar centrado en Estados Unidos y Occidente, en parte porque las imágenes occidentales dominaban Internet cuando se compilaron los conjuntos de datos. Y, como destacó recientemente un estudio del Instituto Allen de IA, los datos utilizados para entrenar modelos de lenguaje grandes como Meta’s Llama 2 contienen lenguaje tóxico y sesgos.

Publicidad

Los modelos amplifican estos defectos de forma perjudicial. Ahora, OpenAI dice que quiere combatirlos asociándose con instituciones externas para crear conjuntos de datos nuevos y, con suerte, mejorados.

OpenAI anunció hoy Data Partnerships, un esfuerzo para colaborar con organizaciones de terceros para crear conjuntos de datos públicos y privados para entrenar modelos de IA. En un entrada en el blogOpenAI afirma que las asociaciones de datos tienen como objetivo «permitir que más organizaciones ayuden a guiar el futuro de la IA» y «beneficiarse de modelos que son más útiles».

Publicidad

“Para finalmente hacer [AI] Para que sean seguros y beneficiosos para toda la humanidad, nos gustaría que los modelos de IA comprendan profundamente todos los temas, industrias, culturas e idiomas, lo que requiere un conjunto de datos de entrenamiento lo más amplio posible”, escribe OpenAI. «Incluir su contenido puede hacer que los modelos de IA le resulten más útiles al aumentar su comprensión de su dominio».

Como parte del programa Data Partnerships, OpenAI dice que recopilará conjuntos de datos “a gran escala” que “reflejan la sociedad humana” y a los que no se puede acceder fácilmente en línea hoy en día. Si bien la empresa planea trabajar con una amplia gama de modalidades, incluidas imágenes, audio y video, busca particularmente datos que “expresen la intención humana” (por ejemplo, escrituras largas o conversaciones) en diferentes idiomas, temas y formatos.

OpenAI dice que trabajará con organizaciones para digitalizar los datos de capacitación si es necesario, utilizando una combinación de reconocimiento óptico de caracteres y herramientas de reconocimiento automático de voz, y eliminando información confidencial o personal si es necesario.

Al principio, OpenAI busca crear dos tipos de conjuntos de datos: un conjunto de datos de código abierto que sería público para que cualquiera lo use en el entrenamiento de modelos de IA, y un conjunto de conjuntos de datos privados para entrenar modelos de IA propietarios. Los grupos privados están destinados a organizaciones que desean mantener la privacidad de sus datos pero quieren que los modelos OpenAI comprendan mejor su dominio, dice OpenAI; Hasta ahora, OpenAI ha trabajado con el gobierno islandés y Miðeind ehf para mejorar la capacidad de GPT-4 para hablar islandés, y con Free Law Project para mejorar la comprensión de los documentos legales por parte de sus modelos.

«En general, buscamos socios que quieran ayudarnos a enseñar a la IA a comprender nuestro mundo para que podamos ser de máxima utilidad para todos», escribe OpenAI.

Entonces, ¿puede OpenAI funcionar mejor que los muchos esfuerzos de creación de conjuntos de datos que le precedieron? No estoy tan seguro: minimizar el sesgo del conjunto de datos es un problema Esto dejó perplejos a muchos expertos en el mundo.. Como mínimo, espero que la empresa sea transparente sobre el proceso y sobre los desafíos que inevitablemente encuentra al crear estos conjuntos de datos.

Publicidad

A pesar del lenguaje grandilocuente de la publicación del blog, también parece haber una clara motivación comercial para mejorar el rendimiento de los modelos de OpenAI a expensas de otros – y sin compensación para los propietarios de los datos. Supongo que esto está dentro de los derechos de OpenAI. Pero parece un poco sordo a la luz de las cartas abiertas y las demandas de creativos que alegan que OpenAI entrenó a muchos de sus modelos en su trabajo sin su permiso o pago.


Comparte esto en:
Publicidad

Publicaciones Similares

Deja un comentario