Muerte y resurrección de las páginas web
¿Qué será de las páginas web? ¿Y qué será de esta entrevista que he hecho a Ian Milligan? Este historiador canadiense acaba de publicar un libro sobre cómo la web va a transformar la investigación histórica. Si parte de nuestro conocimiento se vuelca en la red más que en los libros, tenemos que saber qué buscar y cómo indagar tanto en las páginas web como en las redes sociales. Por diferentes motivos, las web desaparecen en menos de diez años, aunque a veces duran solo unos días. Lea estas líneas antes de que la entrevista sucumba a una muerte digital...
ANDRÉS LOMEÑA: Uno de los mitos más extendidos de la red es que en Internet está todo. Me resulta paradójico, sobre todo si tenemos en cuenta que, según la periodista Catherine Nixey, el 99% de la literatura latina se perdió para siempre. No todo está online. ¿Cuánta información o conocimiento cree que podemos encontrar realmente en Internet?
IAN MILLIGAN: A veces nos topamos con el mito de que Internet lo contiene todo… y suponemos que todo lo que escribimos en Internet se conseguirá preservar. La realidad es bien distinta: la información digital puede ser mucho más frágil que la información impresa. Imagina un libro colocado en una estantería durante veinte o treinta años; salvo por alguna calamidad o porque lo tires, puedes coger el libro y leerlo como si nada. Con una página web, si no renuevas el dominio, si alguien olvida pagarlo, o lo que es más frecuente, si el servicio de alojamiento web cierra (¡piensa en la música que se perdió recientemente en MySpace!), la información se pierde.
Por eso es tan importante archivar las páginas web. Desde 1996, con Internet Archive y otras bibliotecas nacionales de todo el mundo, los archivistas web han empezado a conservar grandes partes de la World Wide Web. No pueden retenerlo todo, pero se han conservado cada vez más páginas web, tanto aleatorias como populares. Puedes echar un vistazo a su buscador de recuperación de archivos: https://archive.org/web/. Es complicado saber cuánto guarda, pero es un porcentaje de contenido nada desdeñable.
A.L.: El programador Tim Bray sugiere que Google sufre una pérdida de memoria deliberada. Sostiene que Duckduckgo lo está haciendo mejor que Google. ¿Es así?
I.M.: La web es un recurso histórico muy tramposo, tal y como explico en mi último libro sobre la web en la investigación histórica. Google o DuckDuckGo son muy buenos encontrando información inmediata; sin embargo, estos buscadores cambian cada milisegundo y no pueden congelarse para que sean usados por los historiadores en un futuro. Tim Bray está en lo cierto: Google no lo hace demasiado bien cuando tratas de buscar contenidos web antiguos. Si Internet ya es poco fiable ahora, será aún peor cuando los historiadores intenten saber en el futuro de qué iba todo esto. Por eso les recuerdo constantemente a mis estudiantes que los historiadores necesitamos lo que siempre hemos utilizado para dar sentido al mundo: el contexto histórico.
A.L.: Ha mencionado MySpace. ¿Supondrá este tipo de pérdidas un daño irreparable para nuestra memoria cultural digital?
I.M.: Lo de MySpace no es nada inusual: forma parte de una larga lista de servicios que han borrado o perdido contenido, desde GeoCities a Friendster. Cada día se pierden grandes cantidades de información en la web. No creo que esto sea demasiado distinto a la forma tradicional de analizar documentos: nuestros archivos y bibliotecas solo son capaces de documentar una pequeñísima parte de la riqueza de la vida que tiene lugar a nuestro alrededor. Nuestro legado cultural siempre ha sido desigual y poco fiable.
De hecho, creo que las cosas incluso podrían estar mejorando gracias a la era digital. MySpace perdió numerosas canciones, pero se han recuperado alrededor de 490.000. Se ha perdido una parte, sí, pero si pensamos en todas las bandas que nunca guardaron nada en ningún archivo, lo que se ha logrado es un paso importante. En los años noventa, y también en años más recientes, se nos alertó de una Edad Oscura Digital. Creo que se ha exagerado: el Internet Archive y otras bibliotecas digitales han estado recopilando petabytes de información cultural, lo que servirá como un buen registro de nuestra época.
A.L.: Las páginas web cambian de sistemas de gestión de contenidos y aparecen algunos fallos de formato. ¿Supone esto un problema para las bases de datos?
I.M.: Mi equipo de investigación se las ve a menudo con este problema cuando trabajamos con páginas web antiguas. Cuando visitas una web de mediados de los noventa, la página probablemente fue diseñada con un monitor de rayos catódicos y con una versión antigua de Internet Explorer o Netscape Navigator; en la actualidad, miro las web en un monitor de alta resolución y uso la versión más reciente del navegador Safari de 2019. El código HTML ha cambiado ligeramente, así como las hojas de estilo… y lo cierto es que no hay nada que pueda reproducir aquella experiencia web original.
Por tanto, tenemos que saber si nos preocupa el contenido o cómo se ve y se experimenta. Si me interesa el contenido, entonces seguiré trabajando con mi navegador moderno y podré hacer mis búsquedas digitales, como extraer un texto para leerlo en otro soporte o formato. Sin embargo, si me interesa la interfaz gráfica del usuario original, tengo que usar una herramienta como “Oldweb.Today”, un proyecto que te permite visitar antiguas páginas web con antiguos navegadores. Es un gran servicio que puedes visitar aquí: http://oldweb.today.
A.L.: ¿Se dan los mismos problemas en redes sociales y web como Instagram, Reddit o Digg?I.M.: No estoy tan familiarizado con ese tipo de servicios. Sé que hay varias bases de datos de Reddit que han usado algunos investigadores. Buena parte de mi equipo se centra en Twitter, en parte porque hay muchas voces, hilos y conversaciones, y en parte porque la API de Twitter es bastante potente, lo cual resulta muy interesante para documentar cuándo se producen ciertos acontecimientos, desde desastres naturales a crisis políticas. Tenemos que pensar en las millones de voces que tenemos y ayudar a proporcionar un contexto histórico.
A.L.: ¿Alguna recomendación final para nuestra pérdida de memoria digital?
I.M.: Tenemos que ser conscientes de lo vulnerables que son los documentos digitales. Una función que me encanta del Internet Archive es la de “Guardar página ahora”. Accedes desde aquí: https://archive.org/web/. Pones una dirección URL en la caja de búsqueda, le das a “guardar página”, y de repente se guarda una copia de esa página en el gran archivo de Internet.
Por otra parte, animo a los lectores a que presten su apoyo a las bibliotecas nacionales por el maravilloso trabajo que están haciendo para proteger el legado cultural, especialmente en Europa. Y cómo no, también les animo a apoyar el Internet Archive, que hace un gran trabajo con un presupuesto muy ajustado.