Literatura artificial: un modelo chino de IA de código abierto ya puede crear una novela completa

viernes, 23 de agosto de 2024

Literatura artificial: un modelo chino de IA de código abierto ya puede crear una novela completa

Los modelos de Inteligencia Artificial suelen tener problemas para ofrecer respuestas de más de 1.000 palabras, pero unos investigadores y programadores chinos han logrado superar largamente esa limitación.

Los chatbots de IA han mejorado notablemente en los últimos tiempos. ChatGPT, Claude o Gemini ahora pueden mantener el contexto en conversaciones más largas y complejas. También tienen la capacidad de procesar entradas de texto cada vez más grandes. Sin embargo, cuando se trata de ofrecer respuestas, estas aplicaciones tienen una importante limitación: suelen tener dificultadas con salidas que exceden las 1.000 palabras.

Esta realidad impide, por ejemplo, que los mencionados chatbots puedan crear una historia plausible de miles de palabras en una única respuesta. Muchos usuarios llevan meses debatiendo sobre este asunto y preguntándose a qué se debe esta limitación. Unos investigadores de la Universidad de Tsinghua, en Pekín, creen haber encontrado la respuesta, y han publicado sus hallazgos para que cualquiera pueda analizarlos.

Un equipo dirigido por Yushi Bai ha presentado dos "modelos de lenguaje grande" (LLM) basados en modelos existentes que son capaces generar salidas coherentes de más de 10.000 palabras. Para hacernos una idea, la novela corta "La metamorfosis", de Franz Kafka, tiene unas 11.000 palabras. Por lo que este chatbot, llamado acertadamente LongWriter, sería capaz de elaborar un libro de mediana longitud y presentarlo en una sola respuesta. Ciertamente, se trata de una proeza.

Estos expertos dicen que la limitación de salida de los LLM está directamente relacionada a la longitud de los textos utilizados durante el llamado "ajuste fino supervisado" (SFT). Bajo esta premisa desarrollaron un sistema llamado AgentWrite para descomponer tareas de generación y permitir a LLM generar salidas coherentes extensas. "Nuestro trabajo demuestra que el LLM de contexto largo existente ya posee el potencial de una ventana de salida más grande", declaró Bai.

El equipo tomó como punto de partida un modelo de código abierto desarrollado por su propia universidad llamado GLM-4 9B entrenado con 10 billones de tokens en 26 idiomas para crear LongWriter-glm4-9b. También utilizó la versión 8B de los modelos de código abierto Llama 3.1 para crear LongWriter-llama3.1-8b.

Ambas propuestas, aseguran en su página web, son capaces de ofrecer respuestas "coherentes" que superan las 10.000 palabras.

Los investigadores le pidieron a un chatbot basado en GLM-4 9B que creara una historia de 5.000 palabras. ¿El resultado? Un máximo de 1.896 palabras. LongWriter-glm4-9b, en cambio, respondió a la misma petición con un total de 7.872. Un punto a tener en cuenta es que el modelo mejorado parece tener una tendencia -que en algunos casos podría considerarse un potencial defecto o "vicio"- a crear respuestas extensas aunque se le indique un límite.

La buena noticia es que cualquier persona puede analizar e implementar estos avances. Estamos frente a una de las ventajas de la filosofía de código abierto que muchos impulsan en el desarrollo de la IA.

Una universidad en China, como en este caso, puede hacer un aporte que es bien recibido en un proyecto que se desarrolla en otra parte del planeta. Los modelos cerrados -también llamados "propietarios"-, por su parte, dejan todos sus avances bajo la órbita de las compañías que los desarrollan.

(Fuente: Xataka)