dil: (Default)
dil ([personal profile] dil) wrote2011-07-19 09:17 pm

И ещё про утекшие SMS

А в Гугл тоже Яндекс.Бар и Яндекс.Метрика настучали, да?

Страниц, правда, проиндексировано меньше трёх десятков, и текстов не видно. Но адреса этих страниц со статусом отправки, получается, давно не секретные. И не закрытые в robots.txt…

 

Оригинал этой записи. Комментировать можно тут или там.

Любые материалы из этого блога запрещается использовать на сайте livejournal.ru в любой форме и любом объёме

[identity profile] unbe.livejournal.com 2011-07-19 09:29 pm (UTC)(link)
в гугл настучали ссылки, которые начали появляться в интернете в понедельник.

[identity profile] unbe.livejournal.com 2011-07-19 09:29 pm (UTC)(link)
а дата может быть из last-modified

[identity profile] dil.livejournal.com 2011-07-19 09:46 pm (UTC)(link)
Это было бы странно со стороны поисковой системы. Но даже теоретическая возможность отпадает, поскольку сервер не выдаёт этот заголовок:
$ wget -S http://www.sendsms.megafon.ru/send/status/34B4B89E7D9C5C05/
--2011-07-19 22:44:19--  http://www.sendsms.megafon.ru/send/status/34B4B89E7D9C5C05/
Resolving www.sendsms.megafon.ru... 85.26.148.42
Connecting to www.sendsms.megafon.ru|85.26.148.42|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Server: nginx/0.8.50
  Date: Tue, 19 Jul 2011 22:03:07 GMT
  Content-Type: text/html; charset=utf-8
  Connection: close
  Cache-Control: private, max-age=3600
  Expires: Tue, 19 Jul 2011 22:44:19 GMT
  Content-Language: ru
Length: unspecified [text/html]
Saving to: `index.html'

[identity profile] unbe.livejournal.com 2011-07-19 09:54 pm (UTC)(link)
Это его сейчас нет, там сейчас заглушка. Когда сервис работал - может и был.

[identity profile] dil.livejournal.com 2011-07-19 10:06 pm (UTC)(link)
Может. Но это таки время индексирования.
http://webcache.googleusercontent.com/search?q=cache:sendsms.megafon.ru/robots.txt показывает snapshot of the page as it appeared on 19 Jul 2011 13:54:21 GMT, а last-modified у него вчерашний:
$ wget -S sendsms.megafon.ru/robots.txt
--2011-07-19 23:05:03--  http://sendsms.megafon.ru/robots.txt
Resolving sendsms.megafon.ru... 85.26.148.42
Connecting to sendsms.megafon.ru|85.26.148.42|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Server: nginx/0.8.50
  Date: Tue, 19 Jul 2011 22:23:51 GMT
  Content-Type: text/plain; charset=utf-8
  Connection: close
  Last-Modified: Mon, 18 Jul 2011 09:55:10 GMT
Length: unspecified [text/plain]

[identity profile] unbe.livejournal.com 2011-07-19 10:11 pm (UTC)(link)
да, пожалуй, маловероятно.

[identity profile] dil.livejournal.com 2011-07-19 09:37 pm (UTC)(link)
не-а. гугл для этих ссылок не находит страниц, которые бы на них ссылались.

[identity profile] unbe.livejournal.com 2011-07-19 09:39 pm (UTC)(link)
хм, ну тогда гугл-бар может?

[identity profile] dil.livejournal.com 2011-07-19 09:48 pm (UTC)(link)
Вот это более вероятно. И похоже, уже давно. Но всё равно непонятно, почему результатов так мало. Видимо, robots.txt пропадал достаточно редко.

[identity profile] brasilius.livejournal.com 2011-07-20 12:22 am (UTC)(link)
Да не передает гугл бар пауку ссылки)
http://blogoscoped.com/archive/2006-12-10-n75.html

вы случайно не в яндексе работаете?

[identity profile] dil.livejournal.com 2011-07-20 07:32 am (UTC)(link)
Это 2006 год, с тех пор поведение гуглбара могло измениться.

Случайно нет, это достаточно легко определить по моему журналу.

[identity profile] otnes.livejournal.com 2011-07-19 09:42 pm (UTC)(link)
Супер, "синдром дила" перешел в фазу ремиссии :)

[identity profile] dil.livejournal.com 2011-07-19 09:47 pm (UTC)(link)
А?

[identity profile] evgalt.livejournal.com 2011-07-19 09:51 pm (UTC)(link)
И не закрытые в robots.txt…

Православные одмины еще не считают возбранным выражать свое отношение к поисковикам в .htaccess

[identity profile] dil.livejournal.com 2011-07-19 10:01 pm (UTC)(link)
SetEnvIf в сочетании с deny from env=. Или с mod_rewrite.

[identity profile] unbe.livejournal.com 2011-07-19 10:08 pm (UTC)(link)
http://dil.livejournal.com/1033887.html?thread=8130463#t8130463

[identity profile] evgalt.livejournal.com 2011-07-19 10:04 pm (UTC)(link)
с помощью mod_rewrite, который на сакральных директориях говорит неуполномоченному UA пшелнах 403 тебе, а не 200.

[identity profile] unbe.livejournal.com 2011-07-19 10:08 pm (UTC)(link)
это бессмысленно абсолютно

[identity profile] ksergey9.livejournal.com 2011-07-29 01:10 pm (UTC)(link)
Поддерживаю.
Детский сад какой-то.
Ну да что с них взять - с этих православных админов.

[identity profile] dil.livejournal.com 2011-07-19 10:07 pm (UTC)(link)
Это, в общем, особого смысла не имеет. Приличные поисковики уважают robots.txt, а неприличные всё равно маскируются под браузер.

[identity profile] evgalt.livejournal.com 2011-07-19 10:13 pm (UTC)(link)
Неуважающие robots.txt банятся уже по IP, впрочем, что считать приличными? У меня на портале в свое время Nigma и еще пара каких-то альтернативно одаренных пауков (вродей Baidu) бан заработали за полное наплевательство на robots.txt и пожирание трафика.

Впрочем, кто спорит: что выложено в Интернет уже не может считаться недоступным всем, и на каждый robots.txt или .htacess найдется свой "удачливый" поисковик.

[identity profile] dil.livejournal.com 2011-07-19 10:22 pm (UTC)(link)
Забанить по IP можно только после того, как их удастся вычислить по другим признакам.

А так да, не надо выкладывать конфиденциальную информацию в открытый доступ. А то, помнится, некоторые товарищи умудрились выложить панель управления сервером с "очень секретным" урлом, а потом туда зашёл яндексовский робот и походил по ссылочкам. Включая ту, что гасила сервер :)

[identity profile] ksergey9.livejournal.com 2011-07-29 01:09 pm (UTC)(link)
Это смешно.
Т.к. поисковик - это хотя бы открытый робот, что нашел - то показывает.
А вот закрытый, так скажем, робот - он не обязан подписываться "я робот", равно как и анализировать robots.txt

[identity profile] brasilius.livejournal.com 2011-07-19 10:35 pm (UTC)(link)
Не наговаривайте на гугл)

Проверил 4 ссылки, искал на яндексе, гугле, я-блогах

у 2 нашел первоисточники

FB72D7AE2627D08F
http://octo.mmm-tasty.ru/entries/1608496
http://yandex.ru/yandsearch?text=FB72D7AE2627D08F&lr=213


2B8EE2D98077E91E
http://vkontakte.ru/note11267516_10248677
http://blogs.yandex.ru/search.xml?text=2B8EE2D98077E91E&from=os


у 2-х не нашел

9F67CB016754DF2D
DDC0C194458229

[identity profile] dil.livejournal.com 2011-07-19 10:45 pm (UTC)(link)
У нас, наверное, разные гуглы.
http://www.google.com/search?as_lq=www.sendsms.megafon.ru%2Fsend%2Fstatus%2FFB72D7AE2627D08F%2F :

Your search - link:www.sendsms.megafon.ru/send/status/FB72D7AE2627D08F/ - did not match any documents.

http://www.google.com/search?as_lq=www.sendsms.megafon.ru%2Fsend%2Fstatus%2FFB72D7AE2627D08F%2F :
Your search - link:www.sendsms.megafon.ru/send/status/FB72D7AE2627D08F/ - did not match any documents.

[identity profile] brasilius.livejournal.com 2011-07-19 10:46 pm (UTC)(link)
да вы проще поищите, по id только
FB72D7AE2627D08F

[identity profile] dil.livejournal.com 2011-07-20 07:03 am (UTC)(link)
Это покажет, что такие страницы со ссылками существуют. Я этого и не отрицаю. Но наличие этих страниц совершенно не означает, что гугл взял эти ссылки именно оттуда. Особенно с учётом дат индексирования

[identity profile] dil.livejournal.com 2011-07-19 10:46 pm (UTC)(link)
Ссылки-то на них, возможно, и есть, но во-первых, не на все, и во-вторых, гугл их не показывает. То есть, он про эти страницы узнал каким-то другим способом.

[identity profile] brasilius.livejournal.com 2011-07-19 10:52 pm (UTC)(link)
ну а вы видели http://octo.mmm-tasty.ru/entries/1608496
это по-моему дорвей называется или как-то так
гугл его и забанил, или никогда и не индексировал, просто ссылку взял

факт тот, что в 50% случаев в моей выборке у ссылки существует источник

да и всего ссылок только 26 и даты у них старые

[identity profile] dil.livejournal.com 2011-07-20 07:34 am (UTC)(link)
Даже если для 50% гугл действительно взял адреса с других страниц, что тоже не очевидно, осталось придумать, откуда взялись остальные 50%.

[identity profile] salas.livejournal.com 2011-07-19 11:35 pm (UTC)(link)
Эта импликация неочевидна:
1) Почти наверняка будет именно так, если ссылка была, а теперь нет.
2) Правда ли, что страница X с единственной ссылкой на Y всегда начинает выдаваться раньше самой Y?

[identity profile] dil.livejournal.com 2011-07-20 07:28 am (UTC)(link)
Да, неочевидно, тут всё основывается на предположениях с некоторой долей вероятности.

В данном случае я не смог найти ни одной страницы, которая по мнению гугла ссылается на страницы статуса отправки SMS. Куда же они все пропали? Или почему так и не появились с мая (или даже ещё раньше, я не у всех страниц даты индексирования проверял)?