La IA y la batalla sobre datos personales y derechos de autor

Los sistemas de inteligencia artificial de vanguardia pueden ayudarte a eludir una multa por estar mal estacionado, escribir un ensayo académico o engañarte haciéndote creer que el papa Francisco es un fashionista. Sin embargo, las bibliotecas virtuales que hay detrás de esta impresionante tecnología son inmensas y existe cierta preocupación de que estén funcionando infringiendo las leyes sobre datos personales y derechos de autor.

Es probable que los enormes conjuntos de datos utilizados para entrenar la última generación de estos sistemas de inteligencia artificial, como aquellos que sustentan a ChatGPT y Stable Diffusion, contengan miles de millones de imágenes extraídas de internet, millones de libros electrónicos piratas, las actas completas de 16 años del Parlamento Europeo y toda la versión en inglés de Wikipedia.

Sin embargo, el voraz apetito de la industria por los macrodatos está empezando a causar problemas, a medida que los organismos reguladores y los tribunales de todo el mundo toman medidas enérgicas contra los investigadores que recopilan contenidos sin consentimiento ni previo aviso. En respuesta, los laboratorios de inteligencia artificial están luchando para mantener sus conjuntos de datos en secreto, o incluso desafiando a los reguladores para que presionen al respecto.

En Italia, se prohibió la actividad de ChatGPT después de que el organismo regulador de la protección de datos del país señalara que no existía ninguna base legal que justificara la recopilación y el “almacenamiento masivo” de datos personales para entrenar la inteligencia artificial de GPT. El martes, el comisionado de privacidad de Canadá hizo lo mismo e inició una investigación sobre la empresa en respuesta a una denuncia que alegaba “la recopilación, el uso y la divulgación de información personal sin consentimiento”.

No te pierdas:Las afirmaciones de ChatGPT pueden influir en juicios morales: estudio

El organismo de control de datos del Reino Unido expresó sus propias preocupaciones. “La ley de protección de datos sigue siendo válida cuando la información personal que se procesa procede de fuentes de acceso público”, señaló Stephen Almond, director de tecnología e innovación de la Oficina del Comisario de Información (ICO).

Michael Wooldridge, profesor de informática de la Universidad de Oxford, comenta que los “grandes modelos de lenguaje” (LLM por sus siglas en inglés), como aquellos que sustentan a ChatGPT de OpenAI y a Bard de Google, acumulan cantidades colosales de datos.

“Esto incluye toda la World Wide Web: todo. Se consulta cada enlace de cada página, y se consulta cada enlace de esas páginas… En esa cantidad inimaginable de datos probablemente hay muchos datos sobre ti y sobre mí”, explica, y añade que los comentarios sobre una persona y su trabajo también podrían ser recopilados por un LLM. “Y no están almacenados en una gran base de datos en alguna parte: no podemos buscar para ver exactamente qué tipo de información tienen sobre mí. Todo está enterrado en enormes y oscuras redes neuronales”.

Wooldridge comenta que los derechos de autor son una “tormenta que se avecina” para las empresas de inteligencia artificial. Es probable que los LLM hayan accedido a material protegido por derechos de autor, como artículos de prensa. De hecho, el chatbot asistido por GPT-4 del motor de búsqueda Bing de Microsoft cita páginas web de noticias en sus respuestas.

“No le di permiso explícito para que mis trabajos fueran utilizados como datos de entrenamiento, pero es casi seguro que lo fueron, y ahora contribuyen a lo que estos modelos saben”, señala.

“A muchos artistas les preocupa seriamente que sus sustentos estén en peligro a causa de la inteligencia artificial generativa. Prepárense para ver batallas legales”, añade.

Ya se han presentado demandas, y la empresa de fotografías de archivo Getty Images demandó a la startup británica Stability AI –la empresa detrás del generador de imágenes por inteligencia artificial Stable Diffusion– después de alegar que la empresa de generación de imágenes violó los derechos de autor al utilizar millones de fotos de Getty sin autorización para entrenar su sistema.

En Estados Unidos, un grupo de artistas interpuso una demanda contra Midjourney y Stability AI alegando que estas “violaron los derechos de millones de artistas” al desarrollar sus productos utilizando el trabajo de los artistas sin su permiso.

2907 — Un boceto dibujado por Kris Kashtanova que la artista introdujo en el programa de inteligencia artificial Stable Diffusion y que este transformó en la imagen resultante mediante instrucciones de texto. Foto: Kris Kashtanova/Reuters

Incómodamente para Stability, Stable Diffusion en ocasiones arrojará imágenes con la marca de agua de Getty Images intacta, de las que la agencia de fotografía incluyó algunos ejemplos en su demanda. En enero, los investigadores de Google incluso lograron que el sistema Stable Diffusion recreara casi a la perfección una de las imágenes sin licencia con las que había sido entrenado, un retrato de la evangelista estadounidense Anne Graham Lotz.

Las demandas por derechos de autor y las acciones emprendidas por los reguladores contra OpenAI se ven obstaculizadas por el absoluto secretismo que mantiene la empresa sobre sus datos de entrenamiento.

En respuesta a la prohibición italiana, Sam Altman, el director ejecutivo de OpenAI, la cual desarrolló ChatGPT, señaló: “Creemos que cumplimos todas las leyes de privacidad”. No obstante, la empresa se niega a facilitar información sobre los datos usados para entrenar GPT-4, la última versión del sistema subyacente que hace funcionar ChatGPT.

Incluso en su “informe técnico”, que describe la inteligencia artificial, la empresa únicamente indica que fue entrenado “utilizando datos disponibles públicamente (como datos de internet) y datos autorizados de terceros proveedores”.

Se oculta cualquier otra información, explica, debido “tanto al panorama competitivo como a las implicaciones para la seguridad que conllevan los modelos a gran escala como GPT-4".

No te pierdas:Aumentan las estafas con inteligencia artificial desde el lanzamiento de ChatGPT

Otros opinan lo contrario. EleutherAI se describe a sí mismo como un “laboratorio de investigación de inteligencia artificial sin fines de lucro” y fue fundado en 2020 con el objetivo de recrear GPT-3 y ponerlo a disposición del público. Con ese objetivo, el grupo creó The Pile, una colección de 825 gigabytes de conjuntos de datos recopilados de todos los rincones de internet. Incluye 100 GB de libros electrónicos extraídos de la página pirata bibliotik, otros 100 GB de código informático extraído del sitio Github y una colección de 228 GB de páginas web recopiladas en todo internet desde 2008, todo ello, admite el grupo, sin el consentimiento de los autores involucrados.

Eleuther argumenta que todos los conjuntos de datos de The Pile han sido compartidos de forma tan generalizada en el pasado que su recopilación “no supone un perjuicio significativamente mayor”. Sin embargo, el grupo no asume el riesgo legal que supone alojar directamente los datos, sino que recurre a un grupo de “entusiastas de los datos” anónimo llamado Eye, cuya política de eliminación de derechos de autor consiste en un video de un coro de mujeres vestidas que fingen masturbarse sus penes imaginarios mientras cantan.

Parte de la información que producen los chatbots también es falsa. ChatGPT acusó falsamente a un profesor de Derecho estadounidense, Jonathan Turley, que trabaja en la Universidad George Washington, de acosar sexualmente a una de sus alumnas, citando un artículo de prensa que no existía.

El regulador italiano también hizo referencia al hecho de que las respuestas de ChatGPT “no siempre coinciden con las circunstancias reales” y “se procesan datos personales inexactos”.

No te pierdas:El primer stand up de Tom Brady con inteligencia artificial

Un informe anual sobre los avances de la inteligencia artificial reveló que los agentes comerciales estaban dominando el sector, superando a las instituciones académicas y los gobiernos.

Según el informe AI Index Report 2023, elaborado por la Universidad de Stanford, con sede en California, el año pasado se registraron 32 modelos significativos de aprendizaje automático creados por la industria, en comparación con los tres modelos creados por el mundo académico.

Hasta 2014, la mayoría de los modelos significativos procedían del ámbito académico, no obstante, desde entonces aumentó el costo del desarrollo de modelos de inteligencia artificial, incluyendo el personal y la capacidad de procesamiento.

“En general, los grandes modelos de lenguaje y multimodales son cada vez más grandes y costosos”, señaló el informe. Una primera iteración del LLM que sustenta a ChatGPT, conocida como GPT-2, tenía 1.5 millones de parámetros, comparables a las neuronas de un cerebro humano, y se calcula que su entrenamiento costó unos 50 mil dólares (unos 900 mil pesos). En comparación, PaLM de Google tenía 540 mil millones de parámetros y un costo estimado de 8 millones de dólares (unos 100 millones de pesos).

Esta situación suscita la preocupación de que las entidades corporativas vayan a adoptar un enfoque menos moderado respecto al riesgo en comparación con los proyectos académicos o respaldados por los gobiernos.

No te pierdas:Kuwait muestra conductora de TV creada con inteligencia artificial

La semana pasada, una carta entre cuyos firmantes figuraban Elon Musk y el cofundador de Apple Steve Wozniak pidió que se suspendiera de inmediato la creación de “experimentos gigantes de inteligencia artificial” durante al menos seis meses. La carta señaló que existía la preocupación de que las empresas tecnológicas estuvieran creando “mentes digitales cada vez más poderosas” que nadie podría “entender, predecir o controlar de forma confiable”.

El Dr. Andrew Rogoyski, del Institute for People-Centred AI de la Universidad de Surrey, en Inglaterra, comentó: “Las grandes inteligencias artificiales significan que están siendo creadas exclusivamente por grandes empresas con fines lucrativos, lo cual, por desgracia, significa que nuestros intereses como seres humanos no necesariamente están bien representados”.

Y añadió: “Tenemos que concentrar nuestros esfuerzos en hacer que la inteligencia artificial sea más pequeña, más eficiente, que requiera menos datos, menos electricidad, para que podamos democratizar el acceso a la inteligencia artificial”.

inteligencia artificial

La IA y la batalla sobre datos personales y derechos de autor

Las bibliotecas virtuales que hay detrás de la inteligencia artificial son inmensas y existe cierta preocupación de que estén infringiendo las leyes sobre datos personales y derechos de autor.