Em busca da web perdida

^{A Torre dos Tempos: não há só material impresso, mas tudo que é veiculado pelas mídias eletrônicas francesas}

Saiba o que mais foi publicado no Dossiê #03: Alternativas verdes

Leia as outras matérias da edição nº 3 da Revista Samuel

Todo dia útil, às 5 da manhã, uma singela van de cor cinza atravessa uma via restrita, passando por baixo da Biblioteca Nacional da França, em Paris, e chega a um elegante arranha-céu de vidro que se ergue sobre a margem movimentada do rio Sena. Aqui, na Torre dos Tempos (Tour des Temps), a van entrega um pequeno — mas incrivelmente rico — retrato da vida cotidiana nesse país que leva sua herança cultural tão a sério.

A van foi enchida, até o seu limite de carga, com duas cópias de cada um dos 3 mil periódicos recentemente impressos na França e enviados à biblioteca para preservação. Em uma manhã do último mês de novembro, a carga obviamente incluía os diários Le Monde e L’Humanité, mas também o jornal sindical Le Travailleur. Dentre os artefatos gráficos diligentemente transportados do veículo até a torre estavam um livreto de classificados, o flyer de um concerto, vários panfletos religiosos, a revista Busty Beauties e um informativo comunitário da cidade de Bonnes (com uma população de 330 pessoas) anunciando uma rifa de presunto, seis garrafas de vinho e uma máquina de fazer iogurte.

“Nós temos um monte dessas supostas porcarias e estamos felizes por isso”, diz Gildas Illien, um dos arquivistas da biblioteca. “Em cem anos, o que é totalmente irrelevante ou mal visto hoje se tornará item de interesse para os historiadores”, declara.

A Torre dos Tempos, onde Illien trabalha, é um dos quatro edifícios — cada um composto de duas alas perpendiculares, lembrando as páginas de um livro aberto — que compõem a recentemente modernizada Biblioteca Nacional da França. Os arquivistas aqui não estão interessados apenas em material impresso; eles também preservam o que é veiculado através de mídias eletrônicas. Na verdade, a amedrontadora tarefa de Illien consiste em arquivar websites franceses — todos eles, em todo o seu esplendor evanescente, mutante e multimídia.

Apoie a imprensa independente e alternativa. Assine a Revista Samuel.

Depósito legal

Desde que os antigos sumérios compilaram as primeiras coleções de tabuletas de argila com escrita cuneiforme, muitos povos têm tentado preservar documentos, efemeridades e todo o tipo de dejeto de suas marés políticas, econômicas e sociais. Provavelmente, no entanto, nenhuma nação atual leve a tarefa tão a sério quanto a França, um dos únicos países no qual os arquivistas podem copiar e salvar documentos virtuais sem medo de processos. Há cinco séculos, o rei Francisco I ordenou que os editores de livros deveriam doar cópias de seu trabalho que seriam preservadas para a posteridade. A lei do depósito legal, como é conhecida, foi expandida ao longo dos anos para incluir mapas, partituras musicais, periódicos, fotografias, gravações em áudio, pôsteres, filmes, transmissões televisivas, softwares de computador e, finalmente, em 2006, a internet.

Os arquivistas franceses ainda estão lutando com a exigência mais recente. A internet, é claro, é diferente de todas as outras plataformas de publicação — não simplesmente por que é amorfa e incomensuravelmente grande, mas porque seus “documentos” são ilimitados. Hoje em dia, uma “publicação on-line” raramente é reconhecida como uma publicação, no sentido tradicional do termo; ela está perpetuamente se atualizando e não pode ser considerada completa se destituída de seus hyperlinks.

Não é surpreendente que a tarefa de preservar o que é colocado na rede se mostrou monumental. E ela se complica cada vez mais: à medida que a internet expande, os sites se tornam ainda mais dinâmicos e a preocupação quanto à questão da privacidade se torna maior. Cada vez mais, o conteúdo que as pessoas colocam na internet está sendo difundido em redes sociais e distribuído através de aplicativos personalizados em smartphones e em tablets. O website clássico, ao que parece, já está se tornando obsoleto. “Estou convencido de que a internet, como a conhecemos, não existirá mais em poucos anos”, diz Illien. “O que estamos fazendo na biblioteca é tentar preservar seus vestígios”. Mas essa tarefa tem exigido que os engenheiros construam novos softwares automatizados, mais sofisticados, conhecidos como crawlers (“rastreadores”), cuja função é rastrear o vasto e variado conteúdo da rede.

Bazar de linguagens

A internet é regularmente acessada e modificada por pelo menos dois bilhões de pessoas em todos os países do mundo. Ela é um enorme bazar de linguagens de programação, formatos de arquivos, players de mídia, interfaces de busca, bancos de dados ocultos, publicidade em pop-ups, comentários irrastreáveis, broadcasts públicos, conversas privadas e aplicativos que podem ser acessados de inúmeros modos. Encontrar e capturar mesmo uma pequena parcela disso tudo exigiria uma equipe de desenvolvimento e recursos tão grandes quanto os do Google, se não maiores.

Mas o Google, exceto pelo mecanismo que salva em cache páginas previamente indexadas, abandonou a internet do passado — isto é, o conjunto de páginas da web da forma como existiam há um mês, seis meses, um ano e assim por diante, até a origem do site em questão. Dessa forma, o trabalho de preservá-las cabe hoje a organizações sem fins lucrativos e a pequenas e sobrecarregadas equipes de engenheiros e curadores das bibliotecas nacionais. Illien, por exemplo, dirige um grupo de nove pessoas.

Para um arquivo digital, a coleção da Biblioteca Nacional da França de dados da internet é incrivelmente pequena — apenas 200 terabytes gravados em HDs e em fita magnética no centro de informações da biblioteca. Ela inclui cópias de páginas da web francesas desde 1996. A equipe de Illien completou sua primeira cobertura da totalidade do domínio francês na internet (.fr) no último verão. Outras bibliotecas nacionais, como a da Islândia, têm feito o download dos domínios de seus países periodicamente desde o início dos anos 2000.

Cápsula do tempo

Parte da dificuldade em compilar o conteúdo da web provém do fato de que ninguém sabe exatamente qual a quantidade de informação existente ali. Brewster Kahle, um engenheiro de computação americano que inventou, nos anos 1980, a Wide Area Information Servers, um sistema de publicação de conteúdo anterior à internet, visitou em 1995 os escritórios da AltaVista, em Palo Alto, na Califórnia. Ele ficou chocado ao saber que o então popular serviço de buscas na web havia indexado cerca de 16 milhões de páginas “em um conjunto de computadores mais ou menos do tamanho de duas dessas máquinas de Coca-Cola”, lembra. “Você podia literalmente abraçar a internet”.

A aparente compacidade da web inspirou Kahle a fundar, em 1996, na cidade de San Francisco, a entidade sem fins lucrativos Internet Archive. Preocupada com a possibilidade de infringir as leis de direitos autorais, a AltaVista deletou todas as páginas velhas guardadas em cache. Mas o Internet Archive, encorajado por seu status de serviço gratuito e confiável, quis ser mais explícito. “Temos a oportunidade de superar os gregos”, diz Kahle, referindo-se aos antigos filósofos que coletaram centenas de milhares de rolos de papiro para fundar a Biblioteca de Alexandria. A invenção da internet, segundo ele, possibilitou a criação de um arquivo do conhecimento humano que qualquer um pode acessar em qualquer parte do planeta. E Kahle definitivamente não permitiria que advogados o dissuadissem de sua ideia.

Em março de 1997, ele terminou aquilo que seria provavelmente a primeira verdadeira cápsula do tempo da rede mundial de computadores. Na verdade, uma parte substancial do acervo eletrônico da Biblioteca Nacional da França foi simplesmente comprada do Internet Archive. Um dos maiores sucessos do arquivo é a sua interface de acesso on-line, o Wayback Machine, que permite que qualquer pessoa, conhecendo o antigo endereço de um determinado website, acesse suas versões arquivadas. Hoje, o Internet Archive tem mais de dois petabytes (equivalente a cerca de 524 mil pen drives de 4 GB) de informações da web armazenados em um centro de informações portátil Sun Mycrosystems (agora, Oracle America), montado no interior de um container de navio.

Quando Kahle começou a salvar cópias de documentos da web no fim dos anos 1990, ele utilizava um crawler que havia ajudado a desenvolver para a Alexa Internet, uma empresa de busca virtual fundada por ele em 1996, mesmo ano em que o Internet Archive iniciou suas atividades. Mas três anos mais tarde, Kahle vendeu a Alexa à Amazon.com, junto com os direitos do software. Então, ele contratou um jovem criador de softwares, um auto-intitulado “arauto do código livre” chamado Gordon Mohr, encarregando- o de criar o crawler que preservaria a herança digital do mundo. Em janeiro de 2004, ele lançou a primeira versão pública de seu crawler “de qualidade de arquivamento”, chamado Heritrix, sinônimo arcaico da palavra inglesa “heiress”, que significa “herdeira”.

A maioria das bibliotecas, incluindo a Biblioteca Nacional da França, adotou impetuosamente o Heritrix. Mas o software está longe de ser a solução definitiva. Configurá-lo e guiá-lo através do ciberespaço exige um conhecimento técnico de engenharia nada trivial, além de grande capacidade de inovação. “É mais parecido com jogar… uhm… sabe o jogo Tetris?”, diz Annick Lorthios, que trabalha com Illien na Biblioteca Nacional da França. Parte de suas responsabilidades consiste em monitorar o Heritrix enquanto ele faz o download de documentos do ciberespaço, levando no total dois meses para passar por tudo aquilo que é francês na rede (páginas contidas, principalmente, em endereços do domínio .fr).

Pode parecer divertido, exceto pelo fato de que, nesse jogo, você pode acabar acumulando um monte de lixo virtual, algo como, por exemplo, 5 bilhões de cópias de um anúncio publicitário de cartão de crédito.

Selva tecnológica

A variedade dos formatos da web se tornou um grande problema para o Heritrix, não apenas quando se trata de evitar armadilhas, mas também no que diz respeito à captura de conteúdo. Quando Mohr estruturou o crawler pela primeira vez em 2003, a web consistia principalmente de páginas em texto HTML. “Uma página da web era apenas um documento e tudo estava contido nele”, diz Jérôme Thièvre, engenheiro de software do Instituto Nacional de Audiovisual da França, em Paris, que arquiva a televisão e a rádio francesas, incluindo transmissões via web.

O Heritrix não tinha problemas em encontrar documentos comuns em HTML, afinal, era para isso mesmo que ele havia sido criado. Mas à medida que a internet evoluiu, transformou-se em um “tipo de selva, em termos de tecnologia”, diz Thièvre, e os arquivistas estão particularmente preocupados com a captura da mais nova moda do design informático: a rich media.

A rich media é basicamente todas as coisas que se movem quando você interage com elas. Pode ser uma animação em flash, um videoclipe ou um rotador de imagens que se movimenta quando você desloca o mousesobre ele. As páginas que contêm esse tipo de mídia estão codificadas de tal maneira que as ações do usuário — por exemplo, clicar no ícone “play” de um video player ou digitar um endereço no Google Maps — geram ou ativam conteúdos visuais. Mas o Heritrix não consegue reconhecer os componentes dinâmicos dessas páginas. Por isso, quando ele vasculha sites que contêm muita rich media, ele pode perder cerca de 40% de seu conteúdo total.

Tradução por Henrique Mendes

* Texto publicado originalmente na revista IEEE Spectrum

NULL

NULL

Em busca da web perdida

Relacionado Posts

Newsletter

Mais lidas

YouTube

Facebook

Twitter

Instagram

Google News

RSS

Receba nossas publicações