Интернет-архив "Wayback Machine", хранитель цифровой памяти, сталкивается с экзистенциальным кризисом. Этот проект, инициированный некоммерческой организацией из Сан-Франциско, на протяжении 30 лет архивировал цифровой контент, сохраняя более 1 миллиарда веб-страниц, и считается незаменимым инструментом для журналистов, исследователей, историков и юристов. Однако в последнее время растущее число крупных медиа-изданий отказывает архиву в доступе к своему контенту, что ставит под угрозу его будущее.
Согласно исследованию Фонда Нимана для журналистики при Гарвардском университете, по меньшей мере 241 новостное издание из девяти стран блокирует веб-краулеры архива. В их числе — британская "Guardian", "New York Times", французская "Le Monde" и крупнейший американский газетный конгломерат USA Today Co. Парадоксально, что сами медиа, которые используют архив для своих расследований, теперь ограничивают к нему доступ, опасаясь несанкционированного использования их контента компаниями искусственного интеллекта (ИИ).
Представитель "New York Times" Грэм Джеймс заявил: "Проблема в том, что контент Times в Интернет-архиве используется компаниями ИИ в нарушение закона об авторском праве для прямой конкуренции с нами". Директор Wayback Machine Марк Грэм подтвердил, что несколько компаний осуществляли массовые запросы к архивам — до десятков тысяч в секунду, что временно перегружало серверы. Архив, придерживающийся принципов открытого интернета, не готов исключать ботов и краулеров, что привело к санкциям со стороны издателей.
Более 100 журналистов подписали петицию в поддержку интернет-архива, отмечая в открытом письме, что "в цифровой медиа-среде, где статьи исчезают из-за корпоративных слияний или сокращения расходов, репортеры часто полагаются на Wayback Machine для восстановления страниц". Марк Грэм ведёт переговоры с медиа-изданиями о восстановлении доступа, но предупреждает: "Нет сомнений, что общая блокировка всё большей части публичного веба влияет на способность общества понимать, что происходит в нашем мире".
Медиа-журналист Мартин Ференсен считает, что archive.org — единственная рабочая цепочка хранения открытого веба, и его неспособность выполнять функции будет иметь серьёзные последствия. Он отметил: "Миллионы сносок в Википедии теряют свои корни, исследования по подотчётности платформ становятся значительно сложнее, цифровые доказательства, приемлемые в суде, перестают существовать". Ференсен предложил два пути решения конфликта: техническое разделение между архивированием и обучением ИИ, а также установление специального правового статуса для веб-архивов в среднесрочной перспективе.
Ранее интернет-архив уже сталкивался с проблемами: в сентябре 2024 года в результате кибератаки были украдены данные 31 миллиона пользовательских аккаунтов, а в судебном споре "Hachette v. Internet Archive" архив проиграл апелляцию в американском суде, что привело к удалению более 500 000 книг из программы бесплатного кредитования электронных книг. Однако текущая угроза, исходящая от медиа-блокад, структурно более серьёзна, поскольку она является результатом множества корпоративных решений, подрывающих основную миссию Wayback Machine — полное архивирование публичного веба.
Source: www.dw.com