Precio del dólar HOY 6 de mayo

¿Qué libros puede leer una IA?, por Ragi Burhum

"ChatGPT no puede comentar o incorporar información sobre noticias si no las lee, por ejemplo, del estado de una guerra".

Para entrenar un LLM (como ChatGPT) una organización necesita recolectar y ordenar muchos datos. Imagina una persona en sus primeros años de vida que empieza a aprender sobre el mundo. ¿Qué información puede utilizar legalmente para aprender? Esta pregunta puede sonar algo absurda, pero en el contexto de Inteligencia Artificial choca directamente con nuestra interpretación actual de qué son derechos de autor y fair use (“uso justo” en inglés).

El New York Times decidió enjuiciar a OpenAI y Microsoft por utilizar artículos del periódico para entrenar sus modelos de IA. Eso se venía y era inevitable por la cantidad de dinero de por medio.

ChatGPT no puede comentar o incorporar información sobre noticias si no las lee, por ejemplo, del estado de una guerra. Crear la mejor información sobre uno de estos eventos implica gastos económicos como contratar periodistas y enviarlos a distintas partes del mundo. Gastos que no son compartidos por los dueños de ChatGPT, a pesar que sí están monetizando parte de esa información indirectamente.

En el 2006 ocurrió algo similar entre “Field vs. Google” donde la pregunta principal era si Google podía indexar el contenido de internet. Como muchos saben, Google tiene varios programas que van constantemente por todo internet, graban copias de pedazos importantes en su base de datos local (un “caché”) y crean un índice gigante de todo lo que encuentra. Cuando utilizamos un buscador, ese índice, devuelve los resultados instantáneamente.

Si Google hubiera perdido este caso, donde se definió indexar contenido de todo internet –incluyendo material con derechos de autor–, viviríamos en otro mundo, uno sin Google. En ese juicio se llegó a la conclusión que indexar todo sí era válido, “fair use”, y por lo tanto no se tenía que remunerar a nadie. También fue la base para definir otras reglas de juego, como por ejemplo, cómo pedirle a Google que borre contenido de su caché.

El caso del NYT vs. OpenAI/Microsoft va a ser igual de importante porque va a definir qué documentos, redes sociales, o cualquier tipo de publicaciones vamos a poder utilizar para entrenar una IA y los resultados van a ser radicalmente distintos.

Ragi Burhum

Científico en Computación (California State University) y emprendedor en serie de dos startups en Silicon Valley. 20+ años creando sistemas de información geográfica en compañías como ESRI (ArcGIS), Microsoft(MS Flight Simulator), NVIDIA y AmigoCloud. Creyente (casi fanático) del poder de Open Data (datos abiertos) y Open Source (código libre).