Meta reconoce que utiliza contenido pirateado para entrenar modelos de IA

Soramir Torres

, INTERNET

El uso de la inteligencia artificial (IA) es cada vez más frecuente en las Big Tech, que utilizan cantidades masivas de datos para entrenar sus modelos. Sin embargo, muchos de esos datos están protegidos por derechos de autor y a las empresas como Meta, parece no importarles.

Recientemente, Meta reconoció haber utilizado partes del conjunto de datos de Books3, pero argumenta que su uso de obras protegidas por derechos de autor para formar a los grandes modelos lingüísticos (LLM) requería ‘consentimiento, crédito o compensación’. 

De acuerdo con el sitio web GizChina, varios autores denunciaron que sus libros fueron incluidos en el conjunto de datos de Books3 sin su permiso y desaprobaron que su trabajo se utilice para el entrenamiento de IA, y algunos incluso han amenazado con emprender acciones legales contra los responsables.

TE PUEDE INTERESAR: Así Será La Prueba De Las Vision Pro En Las Tiendas De Apple

La respuesta de Meta

  • Meta admitió haber utilizado Books3, pero niega cualquier infracción intencionada de los derechos de autor de los libros. 
  • La empresa afirma que su uso del conjunto de datos de Books3 entra dentro del ámbito del uso justo. 
  • Meta también dijo que el uso de estos libros no requiere permiso, atribución o compensación. 
  • La compañía impugna la legalidad de la demanda colectiva y se niega a proporcionar cualquier forma de ‘compensación’ financiera a los escritores que presentaron la demanda u otros involucrados en la controversia de Books3.

Qué es Books3 

  • Books3 es un conjunto de datos de texto que contiene 195.000 libros con una capacidad total de casi 37 GB. 
  • Fue creado por el investigador de IA Shawn Presser en 2020 para proporcionar una mejor fuente de datos para mejorar los algoritmos de aprendizaje automático. 
  • El conjunto de datos de Books3 es una colección de libros electrónicos pirateados, la mayoría de los cuales se publicaron en los últimos 20 años.
  • Formaba parte de un proyecto más amplio llamado The Pile, cuyo objetivo era proporcionar datos de código abierto para modelos de lenguaje. 
  • El conjunto de datos se puso a disposición del público y fue utilizado por varias empresas.

Foto: Mariia Shalabaieva, vía Unsplash.

Deja una respuesta