November 2019

S M T W T F S
      12
34 5 678 9
10111213141516
17181920212223
24252627282930

Style Credit

Expand Cut Tags

No cut tags
Tuesday, July 19th, 2011 09:17 pm

А в Гугл тоже Яндекс.Бар и Яндекс.Метрика настучали, да?

Страниц, правда, проиндексировано меньше трёх десятков, и текстов не видно. Но адреса этих страниц со статусом отправки, получается, давно не секретные. И не закрытые в robots.txt…

 

Оригинал этой записи. Комментировать можно тут или там.

Любые материалы из этого блога запрещается использовать на сайте livejournal.ru в любой форме и любом объёме

Tuesday, July 19th, 2011 09:29 pm (UTC)
в гугл настучали ссылки, которые начали появляться в интернете в понедельник.
Tuesday, July 19th, 2011 09:29 pm (UTC)
а дата может быть из last-modified
Tuesday, July 19th, 2011 09:46 pm (UTC)
Это было бы странно со стороны поисковой системы. Но даже теоретическая возможность отпадает, поскольку сервер не выдаёт этот заголовок:
$ wget -S http://www.sendsms.megafon.ru/send/status/34B4B89E7D9C5C05/
--2011-07-19 22:44:19--  http://www.sendsms.megafon.ru/send/status/34B4B89E7D9C5C05/
Resolving www.sendsms.megafon.ru... 85.26.148.42
Connecting to www.sendsms.megafon.ru|85.26.148.42|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Server: nginx/0.8.50
  Date: Tue, 19 Jul 2011 22:03:07 GMT
  Content-Type: text/html; charset=utf-8
  Connection: close
  Cache-Control: private, max-age=3600
  Expires: Tue, 19 Jul 2011 22:44:19 GMT
  Content-Language: ru
Length: unspecified [text/html]
Saving to: `index.html'
Tuesday, July 19th, 2011 09:54 pm (UTC)
Это его сейчас нет, там сейчас заглушка. Когда сервис работал - может и был.
Tuesday, July 19th, 2011 10:06 pm (UTC)
Может. Но это таки время индексирования.
http://webcache.googleusercontent.com/search?q=cache:sendsms.megafon.ru/robots.txt показывает snapshot of the page as it appeared on 19 Jul 2011 13:54:21 GMT, а last-modified у него вчерашний:
$ wget -S sendsms.megafon.ru/robots.txt
--2011-07-19 23:05:03--  http://sendsms.megafon.ru/robots.txt
Resolving sendsms.megafon.ru... 85.26.148.42
Connecting to sendsms.megafon.ru|85.26.148.42|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Server: nginx/0.8.50
  Date: Tue, 19 Jul 2011 22:23:51 GMT
  Content-Type: text/plain; charset=utf-8
  Connection: close
  Last-Modified: Mon, 18 Jul 2011 09:55:10 GMT
Length: unspecified [text/plain]

Tuesday, July 19th, 2011 10:11 pm (UTC)
да, пожалуй, маловероятно.
Tuesday, July 19th, 2011 09:37 pm (UTC)
не-а. гугл для этих ссылок не находит страниц, которые бы на них ссылались.
Tuesday, July 19th, 2011 09:39 pm (UTC)
хм, ну тогда гугл-бар может?
Tuesday, July 19th, 2011 09:48 pm (UTC)
Вот это более вероятно. И похоже, уже давно. Но всё равно непонятно, почему результатов так мало. Видимо, robots.txt пропадал достаточно редко.
Wednesday, July 20th, 2011 12:22 am (UTC)
Да не передает гугл бар пауку ссылки)
http://blogoscoped.com/archive/2006-12-10-n75.html

вы случайно не в яндексе работаете?
Wednesday, July 20th, 2011 07:32 am (UTC)
Это 2006 год, с тех пор поведение гуглбара могло измениться.

Случайно нет, это достаточно легко определить по моему журналу.
Tuesday, July 19th, 2011 09:42 pm (UTC)
Супер, "синдром дила" перешел в фазу ремиссии :)
Tuesday, July 19th, 2011 09:47 pm (UTC)
А?
Tuesday, July 19th, 2011 09:51 pm (UTC)
И не закрытые в robots.txt…

Православные одмины еще не считают возбранным выражать свое отношение к поисковикам в .htaccess
Tuesday, July 19th, 2011 10:01 pm (UTC)
SetEnvIf в сочетании с deny from env=. Или с mod_rewrite.
Tuesday, July 19th, 2011 10:08 pm (UTC)
http://dil.livejournal.com/1033887.html?thread=8130463#t8130463
Tuesday, July 19th, 2011 10:04 pm (UTC)
с помощью mod_rewrite, который на сакральных директориях говорит неуполномоченному UA пшелнах 403 тебе, а не 200.
Tuesday, July 19th, 2011 10:08 pm (UTC)
это бессмысленно абсолютно
Friday, July 29th, 2011 01:10 pm (UTC)
Поддерживаю.
Детский сад какой-то.
Ну да что с них взять - с этих православных админов.
Tuesday, July 19th, 2011 10:07 pm (UTC)
Это, в общем, особого смысла не имеет. Приличные поисковики уважают robots.txt, а неприличные всё равно маскируются под браузер.
Tuesday, July 19th, 2011 10:13 pm (UTC)
Неуважающие robots.txt банятся уже по IP, впрочем, что считать приличными? У меня на портале в свое время Nigma и еще пара каких-то альтернативно одаренных пауков (вродей Baidu) бан заработали за полное наплевательство на robots.txt и пожирание трафика.

Впрочем, кто спорит: что выложено в Интернет уже не может считаться недоступным всем, и на каждый robots.txt или .htacess найдется свой "удачливый" поисковик.
Tuesday, July 19th, 2011 10:22 pm (UTC)
Забанить по IP можно только после того, как их удастся вычислить по другим признакам.

А так да, не надо выкладывать конфиденциальную информацию в открытый доступ. А то, помнится, некоторые товарищи умудрились выложить панель управления сервером с "очень секретным" урлом, а потом туда зашёл яндексовский робот и походил по ссылочкам. Включая ту, что гасила сервер :)
Friday, July 29th, 2011 01:09 pm (UTC)
Это смешно.
Т.к. поисковик - это хотя бы открытый робот, что нашел - то показывает.
А вот закрытый, так скажем, робот - он не обязан подписываться "я робот", равно как и анализировать robots.txt
Tuesday, July 19th, 2011 10:35 pm (UTC)
Не наговаривайте на гугл)

Проверил 4 ссылки, искал на яндексе, гугле, я-блогах

у 2 нашел первоисточники

FB72D7AE2627D08F
http://octo.mmm-tasty.ru/entries/1608496
http://yandex.ru/yandsearch?text=FB72D7AE2627D08F&lr=213


2B8EE2D98077E91E
http://vkontakte.ru/note11267516_10248677
http://blogs.yandex.ru/search.xml?text=2B8EE2D98077E91E&from=os


у 2-х не нашел

9F67CB016754DF2D
DDC0C194458229
Tuesday, July 19th, 2011 10:45 pm (UTC)
У нас, наверное, разные гуглы.
http://www.google.com/search?as_lq=www.sendsms.megafon.ru%2Fsend%2Fstatus%2FFB72D7AE2627D08F%2F :

Your search - link:www.sendsms.megafon.ru/send/status/FB72D7AE2627D08F/ - did not match any documents.

http://www.google.com/search?as_lq=www.sendsms.megafon.ru%2Fsend%2Fstatus%2FFB72D7AE2627D08F%2F :
Your search - link:www.sendsms.megafon.ru/send/status/FB72D7AE2627D08F/ - did not match any documents.
Tuesday, July 19th, 2011 10:46 pm (UTC)
да вы проще поищите, по id только
FB72D7AE2627D08F
Wednesday, July 20th, 2011 07:03 am (UTC)
Это покажет, что такие страницы со ссылками существуют. Я этого и не отрицаю. Но наличие этих страниц совершенно не означает, что гугл взял эти ссылки именно оттуда. Особенно с учётом дат индексирования
Tuesday, July 19th, 2011 10:46 pm (UTC)
Ссылки-то на них, возможно, и есть, но во-первых, не на все, и во-вторых, гугл их не показывает. То есть, он про эти страницы узнал каким-то другим способом.
Tuesday, July 19th, 2011 10:52 pm (UTC)
ну а вы видели http://octo.mmm-tasty.ru/entries/1608496
это по-моему дорвей называется или как-то так
гугл его и забанил, или никогда и не индексировал, просто ссылку взял

факт тот, что в 50% случаев в моей выборке у ссылки существует источник

да и всего ссылок только 26 и даты у них старые
Wednesday, July 20th, 2011 07:34 am (UTC)
Даже если для 50% гугл действительно взял адреса с других страниц, что тоже не очевидно, осталось придумать, откуда взялись остальные 50%.
Tuesday, July 19th, 2011 11:35 pm (UTC)
Эта импликация неочевидна:
1) Почти наверняка будет именно так, если ссылка была, а теперь нет.
2) Правда ли, что страница X с единственной ссылкой на Y всегда начинает выдаваться раньше самой Y?
Wednesday, July 20th, 2011 07:28 am (UTC)
Да, неочевидно, тут всё основывается на предположениях с некоторой долей вероятности.

В данном случае я не смог найти ни одной страницы, которая по мнению гугла ссылается на страницы статуса отправки SMS. Куда же они все пропали? Или почему так и не появились с мая (или даже ещё раньше, я не у всех страниц даты индексирования проверял)?