Harvard publica datos gratuitos para entrenar IA financiados por OpenAI y Microsoft
La Universidad de Harvard anunció la publicación de un conjunto de datos de alta calidad de casi un millón de libros de dominio público; datos que cualquier persona podría utilizar para entrenar grandes modelos de lenguaje (LLM) y otras herramientas de inteligencia artificial. El conjunto de datos fue creado por la recién formada Iniciativa de Datos Institucionales (IDI) de Harvard con financiamiento de Microsoft y OpenAI. Contiene libros escaneados como parte del proyecto Google Books que ya no están protegidos por derechos de autor.
La base de datos de la IDI abarca géneros, décadas e idiomas: clásicos de Shakespeare, Charles Dickens y Dante, junto a oscuros manuales de matemáticas checos y diccionarios de bolsillo galeses. Greg Leppert, director ejecutivo de la iniciativa, afirma que el proyecto es un intento de «nivelar el terreno de juego» dando al público en general, incluidos los pequeños actores de la industria de la IA y los investigadores individuales, acceso al tipo de repositorios que normalmente solo las Big Tech tenían recursos para reunir: «Ha pasado por una revisión rigurosa», agrega.
Datos adicionales para los chatbots
Leppert cree que la nueva base de datos de dominio público podría utilizarse junto con otros materiales bajo licencia para construir modelos de IA: «Es parecido al modo en que Linux se ha convertido en un sistema operativo fundamental para gran parte del mundo». Señala que las empresas seguirán necesitando datos de entrenamiento adicionales para diferenciar sus modelos de sus rivales.
Burton Davis, vicepresidente y Consejero General Adjunto de Propiedad Intelectual de Microsoft, subrayó que el apoyo de la empresa al proyecto concuerda con sus convicciones más amplias de crear «grupos de datos accesibles» para que las empresas de IA los utilicen y sean «gestionados en interés del público». En otras palabras, Microsoft no tiene previsto sustituir todos los datos de entrenamiento de IA por alternativas de dominio público, como libros de la nueva base de Harvard: «Utilizamos datos de dominio público para entrenar nuestros modelos». Por su parte, Tom Rubin, jefe de propiedad intelectual y contenidos de OpenAI, mencionó en un comunicado que la compañía estaba «encantada» de apoyar el proyecto.
A medida que decenas de demandas interpuestas por el uso de datos protegidos por derechos de autor para el entrenamiento de la IA se abren camino en los tribunales, el futuro de cómo se construyen las herramientas de inteligencia artificial pende de un hilo. Si las empresas de IA ganan sus casos, podrán seguir recopilando información de internet sin necesidad de firmar acuerdos de licencia. Pero si pierden, serían obligadas a una revisión de cómo se crean sus modelos. Una oleada de proyectos como la base de datos de Harvard siguen adelante con el supuesto de que, pase lo que pase, habrá apetito por los conjuntos de datos de dominio público.
Además del tesoro de libros, la Iniciativa de Datos Institucionales también está trabajando con la Biblioteca Pública de Boston para escanear millones de artículos de diferentes periódicos que ahora son de dominio público, y sugiere estar abierta a formar colaboraciones similares más adelante. El modo exacto en que se hará público el conjunto de datos sobre libros aún no está decidido. En un comunicado, Kent Walker, presidente de Asuntos Globales de Google subrayó que la empresa estaba «orgullosa de apoyar».
Una larga lista de apoyo a los bancos de datos IA
Independientemente de cómo se publique el conjunto de datos de la IDI, se unirá a una serie de proyectos, nuevas empresas e iniciativas similares que prometen dar a compañías y startups acceso a materiales de formación en IA sustanciales y de alta calidad sin el riesgo de encontrarse con problemas de derechos de autor. Corporaciones como Calliope Networks y ProRata apoyan la concesión de licencias y la gestión de planes de compensación para que los creadores y titulares de obras reciban una remuneración por proporcionar datos para nutrir modelos de inteligencia artificial.
También hay otros nuevos proyectos de dominio público. La primavera pasada, la empresa francesa de IA Pleias lanzó su propio conjunto de datos, Common Corpus, que contiene entre 3 y 4 millones de libros y colecciones de publicaciones periódicas, según informa el coordinador del proyecto, Pierre-Carl Langlais. El plan, respaldado por el Ministerio de Cultura francés, se ha descargado más de 60,000 veces solo en este mes en la plataforma de IA de código abierto Hugging Face. La semana pasada, Pleias anunció la publicación de su primer conjunto de LLM entrenados con este banco de datos. Langlais declaró a WIRED este es un paso adelante para la constitución de «los primeros modelos entrenados exclusivamente con datos abiertos y conforme a la Ley de la Unión Europea sobre IA».
Share this content:
Publicar comentario