Как работает Архив Интернета: интересные факты

Как работает Архив Интернета: интересные факты
Архив Интернета (Internet Archive) является некоммерческой организацией, собирающей копии веб-страниц и таким образом сохраняющей доступ к информации, содержавшейся на закрытых по тем или иным причинам сайтах. В мае 2013 года был опубликован видеоролик, рассказывающий о том, как работает этот архив.

Изначально принцип работы Архива Интернета напоминал принцип работы поисковых систем: перейдя на сайт по ссылке, бот сохранял всю информацию с веб-страницы, затем переходил по ссылкам на этой странице на другие страницы и сохранял их и так далее.

Но так как Интернет, по сути, бесконечен, а сайты постоянно изменяются, возникла необходимость расставить приоритеты и убедиться в том, что в архив были сохранены хотя бы несколько основных страниц каждого сайта каждые два месяца.

Так был запущен проект Wayback Machine, на котором можно ввести URL сайта и посмотреть, как выглядел тот или иной веб-ресурс в конкретную дату. Ежедневно им пользуются более 500 тысяч человек. Также на сайте есть доступ к различному контенту (видео, аудио, тексты, ПО), являющемуся общественным достоянием или распространяемому по лицензии Creative Commons.

Серверы архива расположены в здании бывшей церкви в Сан-Франциско. Есть два зеркала — в Амстердаме и Новой Александрийской библиотеке (Египет). По состоянию на октябрь 2012 года объем хранимых на серверах данных превышал 10 петабайт (по этому поводу и был снят видеоролик о функционировании архива, который стал доступен для широкой публики лишь полгода спустя).

Еще один проект Архива Интернета — Open Library, открытая библиотека. Этот общественный проект был запущен в 2005 году. Его задача — оцифровать все книги в мире, чтобы они были доступны любому человеку, по сути — предоставить универсальный доступ ко всем существующим знаниям.

По словам Брюстера Кейла, создателя Архива, библиотеки горят, а цифровые копии помогут уникальным книгам не исчезнуть с лица земли навсегда. Сейчас в библиотеке более 22 млн книг, более миллиона из которых находятся в открытом доступе. Ежедневно сканируется около тысячи книг. С проектом сотрудничают многие крупные библиотеки в различных городах мира.

Многие бумажные книги, которые были отсканированы, были перевезены в специальное хранилище Архива в Калифорнии, где созданы оптимальные условия для длительного хранения книг (температура и влажность воздуха и т. п.).

Брюстер Кейл считает, что в наш цифровой век лучший способ сохранить информацию — сделать ее доступной. Архив собирает копии веб-страниц, изображения, видео- и аудиозаписи, ПО, книги и т. п. и предоставляет широкой публике доступ к своим базам данных.

По словам работников Архива, предоставить доступ к всей информации, созданной и накопленной человечеством, оцифровав весь спектр человеческих знаний, вполне реально, все упирается лишь в деньги и человеческие ресурсы.


Путь

Теги

Архив Интернета, как работает Архив Интернета, Internet Archive, Open Library, Wayback Machine, Брюстер Кейл

Комментировать
  • только что почувствовал себя тупым юзером:(
    Андрюха 11.04.13 15:12 Ответить 0
  • всегда было интересно,где это всё хранится))
    Матроскин 03.04.13 13:19 Ответить 0