Los científicos hicieron una mente

Los investigadores están comenzando a desentrañar uno de los mayores misterios detrás de los modelos de lenguaje de IA que impulsan las herramientas de generación de texto e imágenes como DALL-E y ChatGPT.

Desde hace un tiempo, los expertos en aprendizaje automático y los científicos han notado algo extraño en los modelos de lenguaje grande (LLM) como GPT-3 de OpenAI y LaMDA de Google: son inexplicablemente buenos para realizar tareas para las que no han sido entrenados específicamente. Es una pregunta desconcertante, y solo un ejemplo de cómo puede ser difícil, si no imposible en la mayoría de los casos, explicar cómo un modelo de IA llega a sus resultados con gran detalle.

En un próximo estudio publicado en el servidor de preimpresión arXiv, los investigadores del Instituto de Tecnología de Massachusetts, la Universidad de Stanford y Google exploran este fenómeno "aparentemente misterioso", que se denomina "aprendizaje en contexto". Normalmente, para realizar una nueva tarea, la mayoría de los modelos de aprendizaje automático deben volver a entrenarse con nuevos datos, un proceso que normalmente puede requerir que los investigadores ingresen miles de puntos de datos para obtener el resultado que desean, un esfuerzo tedioso y lento.

Pero con el aprendizaje en contexto, el sistema puede aprender a realizar nuevas tareas de manera confiable a partir de solo unos pocos ejemplos, esencialmente adquiriendo nuevas habilidades sobre la marcha. Una vez que se le da una indicación, un modelo de lenguaje puede tomar una lista de entradas y salidas y crear predicciones nuevas, a menudo correctas, sobre una tarea para la que no ha sido entrenado explícitamente. Este tipo de comportamiento es un buen augurio para la investigación del aprendizaje automático, y desentrañar cómo y por qué ocurre podría generar conocimientos invaluables sobre cómo los modelos de lenguaje aprenden y almacenan información.

Pero, ¿cuál es la diferencia en un modelo que aprende y no simplemente memoriza?

"El aprendizaje está entrelazado con el conocimiento [existente]", dijo a Motherboard Ekin Akyürek, autor principal del estudio y estudiante de doctorado en el MIT. "Demostramos que es posible que estos modelos aprendan de los ejemplos sobre la marcha sin ninguna actualización de parámetros que apliquemos al modelo".

Esto significa que el modelo no solo copia datos de entrenamiento, sino que probablemente se basa en conocimientos previos, tal como lo harían los humanos y los animales. Los investigadores no probaron su teoría con ChatGPT ni con ninguna otra de las populares herramientas de aprendizaje automático de las que el público se ha enamorado tanto últimamente. En cambio, el equipo de Akyürek trabajó con modelos más pequeños y tareas más sencillas. Pero debido a que son el mismo tipo de modelo, su trabajo ofrece una idea de los aspectos prácticos de otros sistemas más conocidos.

Los investigadores llevaron a cabo su experimento dando al modelo datos sintéticos o indicaciones que el programa nunca podría haber visto antes. A pesar de esto, el modelo de lenguaje pudo generalizar y luego extrapolar el conocimiento de ellos, dijo Akyürek. Esto llevó al equipo a plantear la hipótesis de que los modelos de IA que exhiben aprendizaje en contexto en realidad crean modelos más pequeños dentro de sí mismos para lograr nuevas tareas. Los investigadores pudieron probar su teoría analizando un transformador, un modelo de red neuronal que aplica un concepto llamado "autoatención" para rastrear relaciones en datos secuenciales, como palabras en una oración.

Al observarlo en acción, los investigadores descubrieron que su transformador podía escribir su propio modelo de aprendizaje automático en sus estados ocultos, o el espacio entre las capas de entrada y salida. Esto sugiere que es posible tanto teórica como empíricamente que los modelos de lenguaje aparentemente inventen, por sí mismos, "algoritmos de aprendizaje bien conocidos y ampliamente estudiados", dijo Akyürek.

En otras palabras, estos modelos más grandes funcionan creando y entrenando internamente modelos de lenguaje más pequeños y simples. El concepto es más fácil de entender si lo imaginas como un escenario de computadora dentro de una computadora al estilo Matryoshka.

Sobre los resultados del equipo, el científico de Facebook AI Research, Mark Lewis, dijo en un comunicado que el estudio es un "trampolín para comprender cómo los modelos pueden aprender tareas más complejas y ayudará a los investigadores a diseñar mejores métodos de entrenamiento para que los modelos de lenguaje mejoren aún más su desempeño". "

Si bien Akyürek está de acuerdo en que los modelos de lenguaje como GPT-3 abrirán nuevas posibilidades para la ciencia, dice que ya han cambiado la forma en que los humanos recuperan y procesan la información. Mientras que antes escribir un mensaje en Google solo recuperaba información y nosotros, los humanos, éramos responsables de elegir (leer: hacer clic) qué información funcionaba para responder mejor a esa consulta, "Ahora, GPT puede recuperar la información de la web pero también procesarla por usted". ", le dijo a Motherboard. "Por eso es muy importante aprender a generar estos modelos para los casos de datos que desea resolver".

Por supuesto, dejar el procesamiento de la información a los sistemas automatizados conlleva todo tipo de problemas nuevos. Los investigadores de ética de IA han demostrado repetidamente cómo sistemas como ChatGPT reproducen sesgos sexistas y racistas que son difíciles de mitigar e imposibles de eliminar por completo. Muchos han argumentado que simplemente no es posible prevenir este daño cuando los modelos de IA se acercan al tamaño y la complejidad de algo como GPT-3.

Aunque todavía hay mucha incertidumbre sobre lo que los modelos de aprendizaje futuros podrán lograr e incluso sobre lo que los modelos actuales pueden hacer hoy, el estudio concluye que el aprendizaje en contexto podría eventualmente usarse para resolver muchos de los problemas que los investigadores de aprendizaje automático sin duda resolverán. cara al camino.

Al registrarse, acepta los Términos de uso y la Política de privacidad y recibe comunicaciones electrónicas de Vice Media Group, que pueden incluir promociones de marketing, anuncios y contenido patrocinado.

Noticias