November 2019

S M T W T F S
      12
34 5 678 9
10111213141516
17181920212223
24252627282930

Style Credit

Expand Cut Tags

No cut tags
Tuesday, July 19th, 2011 07:13 am

Это мог написать кто угодно, не всем же разбираться в тонкостях работы веба. Но написал _веб-разработчик_. Якобы. С PHP вместо головы. А потом мы удивляемся, откуда берутся ТАКИЕ сайты.

Оригинал этой записи. Комментировать можно тут или там.

Любые материалы из этого блога запрещается использовать на сайте livejournal.ru в любой форме и любом объёме

Tuesday, July 19th, 2011 10:22 am (UTC)
Что-то я не пойму... Как же поисковый робот на них вышел?
Tuesday, July 19th, 2011 10:24 am (UTC)
Точно неизвестно, предполагаются два варианта: яндекс.метрика или яндекс.бар.
Tuesday, July 19th, 2011 02:36 pm (UTC)
По любому тут лопухнулся Мегафон. Если он GET запросами принимал смски, хотя слабо верится, то он 100 процентов виноват. Если POST, то тогда нафига Яндекс себе дублировал их? В любом случае, вывод один "Нельзя на страници связанные с личными данными ставить всякие стороние счетчики."
Кстати, я так думаю, если хорошо поискать на Яндекса, то там могут оказаться не только СМСки, также и пароли :)
Tuesday, July 19th, 2011 03:11 pm (UTC)
Насколько я понимаю, принимал он их всё-таки POSTами (в отличие от пермского МТС, но это отдельная история), но при этом создавал для каждого отправленного сообщения уникальный идентификатор, по которому ПОТОМ можно было получить доступ к статусу сообщения вместе с его текстом и номером получателя. Вот эти-то страницы статуса с уникальными идентификаторами (типа sendsms.megafon.ru/send/status/9B7490D2ACE694AC/) Яндекс и проиндексировал. Для него это были обычные публичные страницы сайта.

Счётчики ставить можно, если а) в урле, который счетчик получит в качестве реферера, нет конфиденциальных данных и б) для доступа к самим данным нужно не только урл знать, а ещё и авторизацию получить.
У Мегафона условие б) было нарушено.

А Мегафон лопухнулся по полной программе. Создавая сами страницы статуса, из которых можно получить информацию, никак не ограничив доступ к этим страницам, и напоследок, не запретив доступ к ним для поисковых систем через robots.txt. Не сделай они всего этого вместе, никто бы ничего и не узнал.
Tuesday, July 19th, 2011 03:23 pm (UTC)
Ну судя по цифре 8 тысяч, дыра была образована относительно недавно.
Tuesday, July 19th, 2011 03:28 pm (UTC)
Ну да, то ли они эти статусы недавно внедрили, то ли метрику недавно поставили, то ли robots.txt недавно протеряли..
Wednesday, July 20th, 2011 01:21 pm (UTC)
А стати, я чё-то не соображу: как быть со ссылками типа "Зайдите на страницу Вашего заказа по этой ссылке", которые в email-ах рассылаются?
По идее, этот адрес легко может утечь и попасть в поисковик. А заставлять людей ещё что-то вручную вбивать - жестоко.
Wednesday, July 20th, 2011 01:35 pm (UTC)
Вообще говоря, да. Поэтому такие ссылки должны дополнительно аутентифицироваться (по куке, скажем).
Или не давать доступа к конфиденциальной информациии (промо-коды, например).
Wednesday, July 20th, 2011 03:53 pm (UTC)
Не, кука не выход - человек с другого компа потом не зайдет.
Есть идея: брать эти данные из GET-запроса, писать в сессию/куку и редиректить на страницу уже без данных в запросе. Вроде так будет всем хорошо...
Wednesday, July 20th, 2011 03:54 pm (UTC)
это не спасёт от поисковых роботов, если они поддерживают куки.
Wednesday, July 20th, 2011 04:11 pm (UTC)
Не знаю про куки, но насколько мне известно, робот не пойдет по 302-му редиректу.
Кроме того, адрес такой страницы может утечь только из письма, т.к. никаких счётчиков на ней быть не может. А если кто не уберег свою почту, это его проблема.
Wednesday, July 20th, 2011 04:12 pm (UTC)
Чего это он вдруг не пойдёт?
Wednesday, July 20th, 2011 04:20 pm (UTC)
Ну вот такие данные есть не просторах интернета, что роботы ходят только по 301-му редиректу.
Но я видимо не прав.... Потому как Яндекс честно предупреждает (http://help.yandex.ru/webmaster/?id=995305):
Так как пользователи не смогут увидеть подобные документы, показывать их в поиске не имеет смысла, и робот их не индексирует. Однако робот обязательно проиндексирует страницу, на которую установлено перенаправление.

Значит остаётся только роботс.тхт писать для закрытия лишних страничек.
Wednesday, July 20th, 2011 04:22 pm (UTC)
вот как раз по 301 у меня яндекс почему-то и не ходит.
Wednesday, July 20th, 2011 04:20 pm (UTC)
вполне себе ходит:
95.108.244.252 - - [18/Jul/2011:10:33:29 +0100] "GET /blog/2010/11/25/yu-ming-is-ainm-dom/tr
ackback/ HTTP/1.0" 302 20 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" "dil.pp.ru"
95.108.244.252 - - [18/Jul/2011:10:33:32 +0100] "GET /blog/2010/11/25/yu-ming-is-ainm-dom/ H
TTP/1.0" 200 4560 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" "dil.pp.ru"

Wednesday, July 20th, 2011 04:21 pm (UTC)
ага, неправ, сорри.