El archivo de las nubes

0
579

Un reportaje reciente de The New Yorker nos sumerge en el cuartel general de Internet Archive (archive.org), una base de datos que recoge de la red una inmensa cantidad de datos al día. Las bibliotecas nacionales se debaten entre la legislación del nuevo depósito legal y las limitaciones de los derechos de propiedad. Brewster Kahle, fundador de Internet Archive, afirma: “La historia de nuestro tiempo está aquí”.

 

El pasado jueves, nada más conocerse la implicación del copiloto Andreas Lubitz en la tragedia del avión de Germanwings, desapareció su perfil de Facebook. Horas después se convirtió en una cuenta conmemorativa –el estado al que pasan las páginas si lo piden los familiares o amigos– y a última hora del día la red social notificó que la página no estaba disponible. Mientras tanto, habían surgido otros perfiles bajo el mismo nombre con diferentes biografías imaginarias e incluso con reivindicaciones del Estado Islámico, que fueron borrados. ¿Dónde está todo eso?, ¿quién archiva la nube digital?

 

Es la pregunta a la que trata de responder un interesante artículo de The New Yorker publicado a finales de enero: “The Cobweb. Can the Internet be archived?” (La telaraña. ¿Puede archivarse Internet?). Twitter existe hace unos diez años, pero en este tiempo ha cambiado la perspectiva. En 2010 se anunció que la Biblioteca del Congreso de los Estados Unidos había adquirido el archivo completo de los tweets, lo que Andy Borowitz, creador de una web satírica, bautizó como “el museo de la mierda”. Poco después abandonó su cuenta y si hoy se busca, aparece el mensaje siguiente: “Lo sentimos, la página no existe”. La mierda tendrá que esperar: el Twitter Archive todavía no ha sido abierto. El primer ministro británico, David Cameron, declaró en 2006 que Google había democratizado el mundo porque ofrecía “más información a más gente”. Siete años después, el partido conservador borró de su página web los discursos más antiguos, incluido el de Cameron.

 

La vida media de una página web es de alrededor de cien días. Muchas desaparecen de muerte natural, no tienen que ser borradas deliberadamente como la de Lubitz, simplemente se abandonan y la información –y no sólo la banal– se pierde para siempre. Según un estudio reciente al que hace referencia la revista neoyorquina, después de analizar tres millones y medio de artículos en páginas especializadas de ciencia, tecnología y medicina entre 1997 y 2012, se concluyó que uno de cada cinco links no llevaba a ninguna parte. Es probable que la nota al pie, el recurso en el que se fundamenta la investigación, desaparezca en pocos años.

 

El problema es crucial para la memoria y, por tanto, para los bibliotecarios y archiveros. Vivimos tiempos explosivos donde todo tiene una solución grandilocuente, desmesurada y –lamento utilizar el término– viral. En este caso es Internet Archive (archive.org), organización sin ánimo de lucro creada en 1996 en cuya sede de San Francisco se adentra The New Yorker. Como no podía ser menos, pretenden erigir una segunda biblioteca de Alejandría, ciudad en la que han depositado parte de su backup. El archivo de las páginas web lo realiza Wayback Machine, un robot que almacena una información que resulta incontable en gigabytes o en terabytes, hay que recurrir a petabytes (un millón de gigabytes). En Internet Archive se obsequia a las visitas con una pegatina que dice: “10,000,000,000,000,000 Bytes Archived”, no sin añadir que la cifra es obsoleta, de 2006, y que hoy se ha duplicado.

 

Las grandes bibliotecas perdieron la batalla con Google Books para la digitalización de contenidos. Su afán de ofrecer contenidos de calidad y seleccionados chocó con el nuevo gigante, que digitalizaba exhaustivamente. Es probable que estén a punto de perder la de la preservación de contenidos web ante Internet Archive y por eso buena parte de ellas se han aliado con su enemigo, sobre todo se han aliado con su potente tecnología. En España hay tres organismos encargados de preservar la memoria digital: PADICAT (Patrimonio Digital de Catalunya), que ha acumulado 17,5 terabytes de información desde su creación en 2005, fundamentalmente del dominio .cat; Ondarenet, que puso en marcha el Gobierno Vasco en 2007 para capturar sus contenidos (está implantándose el dominio .eus), y la Biblioteca Nacional de España, que creó en 2009 el Archivo de la web española.

 

La Biblioteca Nacional ha suscrito dos contratos sucesivos con Internet Archive mediante los que se han realizado ocho recolecciones masivas del dominio .es y dos recolecciones selectivas, una sobre humanidades y otra sobre las elecciones generales de 2011. Para la última recolección selectiva, a propósito del accidente de tren de Santiago de Compostela en julio de 2013, se pidió ayuda a los trabajadores de la casa. Acumula un total de unos 111 terabytes de información, pero mientras las páginas catalana y vasca permiten recuperar contenidos, la de la Biblioteca Nacional todavía no. A finales de 2014 llegaron de San Francisco los discos y a mediados de febrero se desplazó un técnico para estudiar su integración en la red de la Biblioteca Nacional e instalar una Wayback Machine a medida.

 

Mientras que Google e Internet Archive crecen a un ritmo vertiginoso, las grandes bibliotecas luchan contra sus limitaciones burocráticas, culturales y presupuestarias. Tradicionalmente las bibliotecas se han surtido del depósito legal, que obligaba a los impresores a entregar un número de ejemplares impresos, pero ¿qué ocurre no ya con las páginas web sino con una publicación nacida digital? Una nueva ley de depósito legal para las publicaciones en línea fue aprobada en España en 2011, pero el decreto que desarrolla los procedimientos todavía no ha visto la luz. fronterad ha intentado registrar sus e-books y ha obtenido la siguiente respuesta: “Indicarle que las publicaciones electrónicas no son objeto de depósito legal” (sic).

 

Serán las bibliotecas las que elijan y recolecten los contenidos del océano de la red y cabe preguntarse si el criterio lo dictará Artur Mas o los trabajadores de la Biblioteca Nacional en un rato libre. Sin hablar de la brecha digital que se abre por la fortaleza de unos medios frente a otros, también para la preservación. La Biblioteca del Congreso de Estados Unidos pide permiso o lo notifica antes de capturar un contenido; Internet Archive, no: usa a diario lo que se denomina “la aspiradora”. La primera tiene 6.000 millones de páginas; la segunda, 130.000 millones. Los problemas crecen, pues ¿qué ocurre cuando un contenido está protegido por una clave? En ese caso, se dice, se solicitará autorización y no se podrá colgar en la red sino que será de consulta exclusiva en las bibliotecas, como los ejemplares en papel con derechos de autor. Lejos de estos dilemas, el mundo futurista de Internet Archive en el que nos sumerge The New Yorker sigue acumulando páginas y recibe doscientas consultas por segundo. No es ni pretende ser una biblioteca o tal vez sea la biblioteca a la que estamos abocados. Brewster Kahle, fundador de Internet Archive e inventor de Wayback Machine, declara señalando su máquina: “La historia de nuestro tiempo está aquí”.

 

Sólo cabe, en una disquisición condenada al olvido como esta, recomendar a los lectores que adquieran un ejemplar impreso de la Antolojía de fronterad, que contiene una amplia selección (cerca de 400 páginas) de los mejores artículos publicados en la revista durante sus cinco años de existencia –virtual– (puede solicitarse aquí). Un trocito de la nube al alcance de la mano por el módico precio de 20 euros.

 

Carlos García Santa Cecilia (Madrid, 1957) es doctor en Periodismo por la Universidad Complutense de Madrid. Ha trabajado como redactor y ha sido subjefe de la Sección de Cultura de El País (de 1982 a 1990), ha sido redactor jefe del Área de Cultura de Diario 16 y escribió una sección diaria durante un año en El Mundo (1998). Actualmente colabora con Abc Cultural, entre otras publicaciones. Impartió clases de historia del Periodismo durante cinco años en la Universidad San Pablo-CEU, es autor de una decena de libros y ha comisariado varias exposiciones, entre ellas 'Joyce en España' y 'Corresponsales extranjeros en la Guerra Civil española'. Ha sido director de Comunicación de ‘Madrid, Capital Europea de la Cultura, 1992’ y de la Biblioteca Nacional. En la actualidad es responsable de la editorial del grupo, 'Los libros de fronterad', y coordina varios proyectos como las jornadas anuales que dedica Ámbito Cultural de El Corte Inglés al Hotel Florida.   El mundo de los libros impresos y el de las bibliotecas (entendidas como grandes centros dinámicos depositarios del saber) se diluye ante el empuje de las nuevas tecnologías, como se derrumbaron en la Edad Media los scriptoria de los monasterios con la expansión de la imprenta. Tal vez a uno de esos desnortados monjes se le ocurrió recoger la pulsión de la atmósfera plácida, culta y decadente que había conocido con el ánimo del ángel psicopompo. Y hablar De libros raros, perdidos y olvidados.