La demanda del New York Times podría decidir el destino de la IA generativa

Tras un año de bombo y platillo en torno a la promesa de las herramientas de IA generativa, han comenzado las esperadas grandes luchas legales.

¿Qué hay en la demanda?

Para entender mejor de qué se trata, echemos primero un vistazo más de cerca a la tecnología subyacente implicada y a la demanda en sí. Los chatbots de IA generativa, como Copilot y ChatGPT, se entrenan con grandes modelos lingüísticos (LLM), que incluyen enormes cantidades de datos, para ser eficaces y útiles. Cuantos más datos, mejor. E igual de importante es la calidad de los datos. Cuanto mejor sea la calidad de los datos, mejores serán los resultados de la IA generativa.

Microsoft y OpenAI utilizan el contenido disponible en internet para entrenar sus herramientas, independientemente de si ese contenido es información de dominio público, datos de código abierto o material protegido por derechos de autor; todo es ingerido por las grandes y hambrientas fauces de la IA generativa. Eso significa que millones y millones de artículos del Times y de otras muchas publicaciones se utilizan para el entrenamiento.

Microsoft y OpenAI sostienen que esos artículos y el resto del material protegido por derechos de autor están amparados por la doctrina del uso justo. El uso justo es un concepto jurídico sumamente complicado y confuso, y hay un sinfín de pleitos que determinan qué es uso legítimo y qué no lo es. Está muy abierto a la interpretación.

Por eso la demanda del Times es tan importante. Determinará si todas las herramientas de IA generativa, no sólo las que pertenecen a Microsoft y OpenAI, pueden seguir entrenándose con material protegido por derechos de autor. (El contenido protegido por derechos de autor es muy valioso porque suele ser el más amplio y preciso. Y hay mucho).

El uso justo de material protegido por derechos de autor suele dividirse en dos categorías: comentario y parodia. En otras palabras, el uso del material debe ser "transformativo"; no puede limitarse a copiar el material protegido por derechos de autor. Tiene que transformarlo de alguna manera.

Así, por ejemplo, si alguien escribe la reseña de una novela, puede citar varias líneas para exponer su punto de vista. En un reportaje periodístico, el uso justo permite resumir un artículo sobre un informe de investigación médica y citarlo brevemente.

Microsoft y OpenAI afirman que su uso de material protegido por derechos de autor es transformativo. Sostienen que los resultados de los chatbots transforman el contenido original en algo diferente. La demanda del Times afirma que no hay transformación real, que lo que Microsoft y OpenAI están haciendo es un robo descarado. Afirma que las empresas no sólo están robando el contenido del Times, sino también su audiencia, y ganando miles de millones de dólares con ello. La gente no tendrá necesidad de leer el Times, ni en línea ni en papel, si en su lugar puede obtener toda la información del periódico de forma gratuita a través de un chatbot, alega la demanda.

Este párrafo resume los argumentos del Times: "No hay nada 'transformador' en utilizar el contenido de The Times sin pagar para crear productos que sustituyen a The Times y le roban audiencia. Dado que los resultados de los modelos de IA generativa de los demandados compiten con los datos utilizados para entrenarlos y los imitan fielmente, copiar obras del Times con ese fin no es un uso legítimo".

La demanda ofrece numerosas pruebas de sus afirmaciones. Los ejemplos más atroces son los numerosos casos en los que ChatGPT plagia artículos, incluida una investigación de cinco partes y 18 meses de duración, ganadora de un Premio Pulitzer, sobre las prácticas de préstamos abusivos en el sector del taxi de Nueva York. Según la demanda: "OpenAI no participó en la creación de este contenido y, sin embargo, con mínimas indicaciones, recita grandes partes del mismo al pie de la letra".

Por su parte, OpenAI acusó el lunes al Times de manipular intencionadamente los prompts para que ChatGPT regurgitara su contenido. "Incluso cuando se utilizan estos prompts, nuestros modelos no se comportan normalmente de la manera que insinúa The New York Times, lo que sugiere que o bien dieron instrucciones al modelo para que regurgitara o bien escogieron sus ejemplos de entre muchos intentos", dijo la compañía en un blog.

El problema no es sólo el plagio. El Times señala que gasta una enorme cantidad de dinero y esfuerzo en su organización de noticias, y que si la gente puede obtener sus noticias de última hora de forma gratuita -incluso si es parafraseado por un chatbot- no tendrán necesidad de leer el periódico.

Además, el medio descubrió que los chatbots de Microsoft y OpenAI toman información del sitio de reseñas de productos Wirecutter del periódico, la publican y eliminan los enlaces de referencia a los productos, de los que el Times obtiene ingresos.

"Los demandados no sólo han copiado el contenido del Times, sino que también han alterado el contenido eliminando los enlaces a los productos, privando así al Times de la oportunidad de recibir ingresos por referencias y apropiándose de esa oportunidad para los demandados", argumenta la demanda.

Entonces, ¿quién tiene razón?

No es una decisión difícil. La respuesta es sencilla. El Times tiene razón. Microsoft y OpenAI se equivocan. Microsoft y OpenAI están obteniendo un paseo gratis para utilizar material protegido por derechos de autor cuya creación requiere una enorme cantidad de tiempo y dinero, y utilizan ese material para obtener grandes beneficios. Si el tribunal falla en contra del Times, los titulares de derechos de autor de todo el mundo -desde gigantes como el Times hasta escritores, artistas, fotógrafos y otros- lucharán por sobrevivir mientras Microsoft, OpenAI y otros creadores de IA engordan sus beneficios.

Una de las grandes ironías de esta demanda es que un joven Bill Gates se quejó mucho cuando el primer producto de Microsoft, una versión de BASIC para el ordenador personal Altair 8800, estaba siendo pirateado por la gente en lugar de pagar por él.

Esto ocurría en 1975, cuando la idea de pagar dinero por el software era un anatema para la mayoría de los usuarios de los primeros ordenadores personales. Reinaba un espíritu idealista de compartir, especialmente entre los miembros del influyente Home Brew Computer Club.

Así que un enfadado Gates envió su "Carta abierta a los aficionados" al Home Brew Computer Club y a publicaciones relacionadas con la informática. Escribió, en parte:

"La cantidad de royalties que hemos recibido por las ventas a aficionados hace que el tiempo invertido en Altair BASIC valga menos de 2 dólares la hora. Como la mayoría de los aficionados deben saber, la mayoría de ustedes roban su software... ¿A quién le importa si la gente que trabaja en él cobra?".

"¿Quién puede permitirse hacer un trabajo profesional a cambio de nada? ¿Qué aficionado puede dedicar [tres] años-hombre a programar, encontrar todos los fallos, documentar su producto y distribuirlo gratis? Más directamente, lo que hacéis es un robo".

No hay mucha diferencia entre de lo que se quejaba Gates y lo que hace Microsoft ahora. Gates tenía razón entonces. Microsoft y OpenAI se equivocan ahora. Deberían llegar a un acuerdo con el Times y otros titulares de derechos de autor o volver a entrenar su IA de forma que no viole las leyes de derechos de autor. Y lo mismo vale para todos los demás creadores de IA.

Imprimir Subir