Воспрепятствование автоматизированному зеркалированию Веб-узла

1. JavaScript.  Netscape… такую классную штуку придумали. А подлый Microsoft его передрал – а когда пишешь, что MS JavaScript не совместим с оригинальным – отписывают: “У нас, мол, не JavaScript, а JScript.” Почувствуйте разницу.

Итак, как мы обычно описываем ссылки?

<a href='file.html'>Ссылка</a>.

А кто сказал, что это единственный способ их описания? Вот почти тоже самое:

<a href='javascript:document.location =
 "file.html"'>Ссылка</a>

Каюсь, таким образом отсекаются пользователи Lynx’а и некоторых браузеров, не поддерживающих JavaScript. Но если человеку сильно нужно посмотреть сайт, то он запустит-таки Netscape. А в связи с тем, что сайт хотят смироррить, вероятность этого “нужно” довольно высока.

Конечно, можно научить wget брать подобные ссылки. Но можно ведь пойти дальше:

<script> Link = 'file.html' </script>
...
<a href='javascript:document.location = Link'
>Ссылка</a>

Кроме того – а кто сказал, что ссылки необходимо размещать явно в теле документа:

<script> document.write(unescape('%3C') + 'a hr' +
'ef="file.html">' + 'Ссылка' + unescape('%3C') + '/a>')
 </script>

Понятное дело, этим дело далеко не ограничивается, и тут уже приходится писать wget, который занимается интерпретацией JavaScript. Причем не как статический JavaScript, а динамический (где-то в конце документа):

<script> setTimeout
('Link = "file1.html"', 1000) </script>

Пойди догадайся, что и в какой момент будет в переменной Link. Решениеи идти по всем возможным значениям переменных натыкается на такой веселый код:

<script>

function a()
{
  if (confirm('Are you stupid?')) while(1)
   do_nothing();
  location = 'file.html';
}
...
<a href='javascript:a()'>Ссылка</script>

Как думаете, чем будет заниматься такой интеллектуальный wget?

Таким образом, грамотное использование JavaScript практически решает задачу. Задача написания столь высокоинтеллектуального wget’а, на мой взгляд, настолько дорогостоящая, что никто этим заниматься не будет.

2. “Добрые ссылки”. Напишем простенький CGI:

// surprise.c ==> surprise.cgi
#include <stdio.h>
#include <stdlib.h>

main()
{
  int i = 0;

  if (getenv("QUERY_STRING")) i = atoi(getenv(
  "QUERY_STRING"));

  printf("Content-type: text/html");
  printf("\n");
  printf("<a href='surprise.cgi?%d'>%d</a>\n", i, i);
}

При вызове ‘surprise.cgi’ он выдает ссылку на ‘surprise.cgi?1′, тот в свою очередь на ‘surprise.cgi?2′ …. “У попа была собака”. Как думаете, за сколько умный wget выкачает такую ссылку?

Только не говорите, что wget не будет качать CGI. Никаких нет проблем (с помощью аккуратной настройки Apache “ErrorDocument 404″ и nph-CGI) сделать директорию, при обращении к которой последовательно выдаются ссылки на ‘1.html’, ‘2.html’ …

Проблема так-же не решается ограничением глубины поиска для wget’а. Никто не мешает модифицировать предыдущий вариант так, чтоб при обращинии к файлу с любым именем в данной директории выдается HTML содержищий 10 (100) ссылок на файлы с произвольными именами в той-же директории. При глубине скачивания три (что явно недостаточно ) wget’у придется скачать с сайта 100 + 100*100 + 100*100*100 файлов. Не знаю, сколько времени ему, бедолаге, на это потребуется.

Наводните документы ссылками типа

<a href='surptise.cgi'>Don't click this link!!!</a>

или

<a href='/surprise/xmm.html'><img src='1x1.gif'
 border=0 heigth=1 width=1></a>

и wget будет бессилен… где-то в Инете я видел сайт, который генерирует N (задается пользователем через форму) килобайт почти связанного русского текста. Сгенерите такой текст, разбавив его ссылками в ‘/surprise/’ …

Подведу некоторые итоги. Никто не говорит о теоретическом решении этой задачи. Теоретически можно скачать все. Практически же… Теоретически можно поставить друг на дружку 10 яиц. Практически… да хоть одно поставьте! Разве что Наполеон (поправьте меня, если это не он) решил эту задачу надломом яйца :-)) Да, можно яйцо поставить на конец раскрутив его (surprise.cgi, href=’javascript:location=..’), а 10 уже никак не поставишь…. хотя это и возможно теоретически.

Проблема, как мы видим, решается довольно простыми методами. Никто не говорит об абсолютном запрещении мирроринга. Но очень сильно подпортить кровь желающим это сделать можно элементарно, что делает задачу оного мирроринга практически невыполнимой и малорентабельной.

Добавить комментарий

Вам надо войти, чтобы написать комментарий.