Wikipedia se está llenando de contenido generado por IA, y ya tiene un equipo dedicado a encontrarlo

miércoles, 16 de octubre de 2024

Wikipedia se está llenando de contenido generado por IA, y ya tiene un equipo dedicado a encontrarlo

WikiProject AI Cleanup está compuesto por un grupo de voluntarios que buscan y editan o directamente eliminan el contenido generado por IA en Wikipedia. No es una labor sencilla.

(Fuente: FreePik).

El contenido generado por inteligencia artificial ha llegado a todos los rincones. Ha llegado a Amazon, donde han aparecido libros escritos por ChatGPT, lo ha hecho a algunos medios de comunicación, a artículos científicos, a los vídeos, a la música, a las imágenes, a la fotografía, a todo. La IA generativa ha llegado a todos lados. A la Wikipedia también, por supuesto.

Eso es un problema, y uno que la plataforma ya está solucionando a través de un grupo de colaboradores dedicado a la búsqueda y eliminación de este contenido. Su nombre: WikiProject AI Cleanup.

Cómo funciona la Wikipedia

Es importante saber que la Wikipedia es abierta y que cualquier persona puede escribir y editar artículos de la misma. Eso tiene un punto positivo: si tenemos información de algo o somos expertos en alguna materia, podemos enriquecer la enciclopedia con nuestros aportes, ya sea agregando cosas nuevas, matizando cosas ya existentes o editando cosas erróneas. El punto negativo es que cualquier persona puede editar la Wikipedia e inventar lo que quiera. Si a eso le sumamos una herramienta como ChatGPT, el problema está más que claro.

La IA lo inunda todo

Según explica Ilyas Lebleu, fundador de la iniciativa WikiProject AI Cleanup, todo comenzó cuando empezaron a notar "la prevalencia de una escritura poco natural que mostraba claros signos de haber sido generada por IA". Usando ChatGPT consiguieron replicar estilos similares, por lo que confirmaron esa suposición.

Hay un ejemplo buenísimo, entre muchos otros: el fuerte otomano Amberlisihar, una construcción levantada en el año 1466. En su página de Wikipedia, una con 2.000 palabras, se detalla su historia, su construcción, los materiales y todo lo que se podría esperar. La cosa es que ese fuerte no existe. Es falso, es fruto de una alucinación de la IA. Ese artículo se publicó en enero de 2023 y no se detectó hasta diciembre.

Lo mismo con las fotos. En un artículo se publicó la imagen que sigue a este párrafo que, a priori, podría pasar como una imagen de la antigüedad. Sin embargo, basta con fijarse en las manos (y realmente, en prestar un mínimo de atención al detalle) para descubrir que ha sido generada con IA. Fue eliminada porque, según Wikipedia, "aporta poco al artículo, podría confundirse con una obra de arte contemporánea y es anatómicamente incorrecta". Cabe destacar que no se eliminan todas las imágenes generadas por IA, sólo aquellas que son inadecuadas.

Imagen que fue dada de baja en Wikipedia: pueden apreciarse claramente las pistas que indican que ha sido generada por IA en las manos, el libro y los pies, por ejemplo (Foto: Wikimedia).

WikiProject AI Cleanup es, según declaran, una "colaboración para combatir el creciente problema del contenido generado por IA sin fuentes y mal escrito en Wikipedia". Cualquiera puede apuntarse y participar. El objetivo no es restringir o eliminar el uso de la IA, sino "verificar que su resultado es aceptable y constructivo, y arreglarlo o eliminarlo en caso contrario".

No es una tarea fácil. Porque si en algo son buenos los generadores de IA es en ser capaces de hacer pasar sus creaciones por textos legítimos. Sin embargo, pueden dejar algunas pistas. Frases como "como modelo de lenguaje de IA", descripciones ultragenéricas ("pueblo conocido por su fértiles tierras") o un tono excesivamente promocional o positivo son indicativos de que hay una IA detrás.

Por otro lado, podría pensarse que detectar este tipo de contenido sería tan simple como ver si tiene o no referencias, pero la IA también es capaz de alucinarlas. Así lo explica el grupo en su página de Wikipedia, donde afirma que la IA puede inventarse fuentes o citar fuentes existentes, pero totalmente fuera de contexto.

Por ejemplo, un artículo de la Historiografía Leninista fue escrito en su totalidad por una IA y citaba fuentes en ruso y húngaro que parecían reales, pero no existían: fue eliminado. Otro artículo sobre el escarabajo Estola Albosignata citaba fuentes francesas y alemanas reales que en ningún momento hablaban de dicho escarabajo: el artículo fue editado.

El reto de la IA

El uso de la IA no es malo en sí mismo, pero sí plantea un desafío si hablamos de credibilidad. Si la Wikipedia dejase el contenido generado por IA sin control, el sitio dejaría de ser fiable. Las IAs alucinan, inventan información. Aunque parezca que todo tiene mucho sentido gracias a un uso correcto del lenguaje, es posible que los datos, las fechas, los nombres o los sucesos explicados no sean precisos.

Y esto no es sólo cosa de la Wikipedia, sino que se corre el riesgo de que esa información falsa, inexacta o inventada se expanda por todo Internet. Y si hay información falsa en la Wikipedia, una de las grandes fuentes de datos de acceso libre, es posible que los programas de IA se entrenen con información imprecisa que provoque resultados más imprecisos, y así ad infinitum. De ahí que la labor de estos voluntarios sea tan importante.

(Fuente: Xataka)