PAGAR, AI BOT: Ese es el mensaje de una empresa clave en cómo funciona Internet

Las compañías de IA pueden encontrar más difícil acceder a toda la web para capacitar sus grandes modelos de idiomas después de que el proveedor de infraestructura de Internet Cloudflare dijo esta semana. bloquearía los rastreadores de datos de IA por defecto.
Es el último frente que se abre en una lucha continua entre los creadores de contenido y los desarrolladores de IA que usan ese contenido para entrenar modelos de IA generativos. En la corte, los autores y los creadores de contenido están demandando a las principales compañías de IA por compensación, diciendo que se usó contenido con derechos de autor sin permiso. (Divulgación: Ziff Davis, la empresa matriz de CNET, en abril presentó una demanda contra OpenAi, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

Mientras que los proveedores de contenido buscan una compensación por la información que se utilizó para entrenar modelos en el pasado, el movimiento de Cloudflare marca una nueva medida defensiva contra los esfuerzos futuros para entrenar modelos.
Pero no se trata solo de bloquear los rastreadores: Cloudflare dice que quiere crear un mercado Donde las empresas de IA pueden pagar para gatear y raspar un sitio, lo que significa que se paga al proveedor de esa información, y el desarrollador de IA obtiene permiso.
«Ese contenido es el combustible que impulsa los motores AI, por lo que es justo que los creadores de contenido sean compensados directamente por ello», dijo el CEO de Cloudflare, Matthew Prince en un blog.
Por qué los sitios web quieren bloquear los rastreadores de IA
Los rastreadores, bots que visitan y copian la información de un sitio web, son un componente vital de Internet conectado. Es cómo los motores de búsqueda como Google saben lo que hay en diferentes sitios web y cómo pueden servirle la información más reciente de lugares como CNET.
Los rastreadores de IA plantean desafíos distintos para los sitios web. Por un lado, pueden ser agresivos, generando niveles insostenibles de tráfico para sitios más pequeños. También ofrecen poca recompensa por su raspado: si Google rastrea un sitio para los resultados de los motores de búsqueda, es probable que devuelva el tráfico a ese sitio al incluirlo en los resultados de búsqueda. Estar rastreado para los datos de capacitación puede significar que no hay tráfico adicional o incluso menos, si las personas dejan de visitar el sitio y confían solo en el modelo de IA.
Leer más: AI Essentials: 29 formas de hacer que la Gen AI funcione para usted, según nuestros expertos
Es por eso que los ejecutivos de los principales sitios web como Pinterest, Reddit y varias editoriales importantes (incluida Ziff Davis, que posee CNET) vitorearon las noticias de Cloudflare en declaraciones.
«Todo el ecosistema de creadores, plataformas, usuarios web y rastreadores será mejor cuando el rastreo sea más transparente y controlado, y los esfuerzos de Cloudflare son un paso en la dirección correcta para todos», dijo el CEO de Reddit, Steve Huffman, en un comunicado.
Cuando se le preguntó sobre el anuncio de Cloudflare, OpenAI dijo que su modelo CHATGPT está destinado a ayudar a conectar a sus usuarios al contenido en la web, de manera similar a los motores de búsqueda, y que ha integrado la búsqueda en sus funciones de chat. La compañía también dijo que utiliza un modelo separado de lo que Cloudflare ha propuesto permitir que los editores indiquen cómo deberían comportarse los rastreadores de IA, conocidos como robots.txt. Operai dijo que el modelo robots.txt ya funciona y los cambios de Cloudflare son innecesarios.
El tira de la guerra de datos de entrenamiento
Los modelos de IA requieren una tonelada de datos para entrenar. Así es como pueden proporcionar respuestas detalladas a las preguntas y hacer un trabajo decente (aunque imperfecto) de proporcionar una amplia gama de información. Estos modelos se alimentan con una increíble cantidad de información y hacen conexiones entre palabras y conceptos basados en lo que ven en esos datos de capacitación.
El problema es cómo los desarrolladores han obtenido esos datos. Ahora hay docenas de demandas entre creadores de contenido y empresas de IA. Dos vieron decisiones importantes la semana pasada.
En un casoUn juez federal dictaminó que Anthrope siguió la ley cuando usaba libros protegidos por derechos de autor para capacitar a su modelo Claude, a través de un concepto llamado Uso Justo. Al mismo tiempo, el juez dijo que la creación de la compañía de una biblioteca permanente de los libros no era, y ordenó un nuevo juicio sobre esas acusaciones de piratería.
En un caso separado, un juez dictaminó a favor de meta en una disputa entre la compañía y un grupo de 13 autores. Pero el juez Vince Chhabria dijo que el fallo en este caso no significa casos futuros contra Meta u otras compañías de IA irá de la misma manera, esencialmente que «estos demandantes hicieron los argumentos equivocados y no lograron desarrollar un registro en apoyo de la correcta».
La idea de cobrar a los rastreadores para visitar un sitio no es del todo nueva. Otras compañías, como PeajeOfrezca servicios que permitan a los propietarios de sitios web cobrar a las compañías de IA por el rastreo. Will Allen, jefe de productos de control de IA, privacidad y medios de comunicación en Tollbit, dijo que el entorno en torno a esta tecnología aún se está desarrollando. «Creemos que es muy temprano para que se forme un mercado de contenido, y estamos comenzando a experimentar aquí», dijo a CNET. «Estamos emocionados de ver florecer muchos modelos diferentes».
Imad Khan de CNET contribuyó a este informe.