Una organización sin ánimo de lucro de 150 empleados custodia desde hace 30 años la historia de un billón de páginas web: por qué Internet Archive teme desaparecer entre demandas y la amenaza de la IA
Más de 200 medios han limitado o bloqueado uno de sus rastreadores.
Durante años, Internet Archive ha funcionado como una especie de memoria colectiva de la red, convirtiéndose en el lugar al que acudimos cuando una página desaparece, un artículo cambia o una declaración se esfuma de internet sin dejar rastro. Pero la organización que lleva tres décadas guardando la historia digital del mundo atraviesa ahora uno de sus momentos más delicados, atrapada entre las demandas y la fiebre de la inteligencia artificial.
Esta inmensa biblioteca digital es en realidad una ONG con 150 trabajadores repartidos por el mundo que asegura haber archivado ya un billón de páginas web. Desde su creación en 1996, lleva 30 años trabajando sin parar a través de su Wayback Machine, una de las mayores infraestructuras públicas de conocimiento de la red. Ahora, Internet Archive se ha convertido en el centro de una nueva batalla tecnológica.
En las últimas semanas, decenas de medios han pasado de considerar la Wayback Machine una aliada a verla como un riesgo. Según recoge Euronews, aproximadamente 245 medios de comunicación de nueve países han limitado o bloqueado al menos uno de sus rastreadores, entre los que figuran grandes nombres como The New York Times, CNN, USA Today y The Guardian. Una tensión que amenaza con dejar agujeros en la memoria de internet justo cuando más depende el mundo de ella.
¿Por qué tanta demanda?
La razón es clara: el contenido archivado es texto estructurado, fechado y atribuido, justo el tipo de material que resulta especialmente valioso para entrenar modelos de inteligencia artificial. Varios periódicos ya están en batalla judicial contra OpenAI y Perplexity por el uso presuntamente no autorizado de sus contenidos, y Reuters ha informado además de acciones o amenazas legales en otros casos recientes relacionados con el scraping de contenido periodístico para IA.
En ese contexto, Internet Archive se ha convertido para muchos editores en una posible vía para alimentar modelos de lenguaje sin permiso ni compensación, aunque la ONG lo niega. El director de Wayback Machine, Mark Graham, sostiene que la organización está siendo un “daño colateral” de un conflicto que en realidad enfrenta a los medios con las compañías de IA. Ante esta situación, insiste en que ya aplica medidas para frenar usos abusivos, como límites a descargas masivas y restricciones a la extracción automatizada de algunos contenidos.
Además, las demandas llegan en un momento delicado para la ONG. En 2024, Internet Archive perdió una apelación frente a grandes editoriales de libros por su sistema de préstamo digital, y también ha afrontado pleitos de discográficas por proyectos de archivo musical. Todo ello alimenta la sensación de que la institución, que se presenta como biblioteca pública de la era digital, está entrando en una zona de desgaste jurídico permanente.
Ante esta situación, la ONG de derechos digitales Fight for the Future ha lanzado una petición, ya firmada por un centenar de periodistas en activo, para denunciar estos bloqueos, en un momento en que los archivos públicos y la historia están siendo cada vez más cuestionados. Porque, más allá de la IA y los derechos de autor, el debate ya afecta directamente a la conservación de la memoria digital de internet.