Скажи же мне скорей, что это неправда!
"Для Я.ру временем сообщения считалось не время его написания, а время его скачивания в ППБ."
Это ответил мна саппорт на вопрос о том, почему пост в я.ру от 29 января находится в ППБ с датой 12 февраля. Нет-нет, я не могу поверить, что всё НАСТОЛЬКО плохо.
Upd. Хотя если сравнить даты в http://blogs.yandex.ru/search.xml?server=ya.ru&author=kukutz&ft=blog&duration=1&no_group=1 и в http://kukutz.ya.ru/replies.xml?item_no=3246, то начинает казаться, что правда :(
"Для Я.ру временем сообщения считалось не время его написания, а время его скачивания в ППБ."
Это ответил мна саппорт на вопрос о том, почему пост в я.ру от 29 января находится в ППБ с датой 12 февраля. Нет-нет, я не могу поверить, что всё НАСТОЛЬКО плохо.
Upd. Хотя если сравнить даты в http://blogs.yandex.ru/search.xml?server=ya.ru&author=kukutz&ft=blog&duration=1&no_group=1 и в http://kukutz.ya.ru/replies.xml?item_no=3246, то начинает казаться, что правда :(
Tags:
no subject
И этим плохое ЯППБ не исчерпывается.
no subject
no subject
no subject
Пользу от поиска вы, кажется, не отрицаете, поэтому я надеюсь, что здесь разговор будет гораздо более плодотворным и полезным. Если вы знаете проблемы и недоработки в поиске - я буду вам очень благодарен за указание на них.
no subject
Но и без рейтингов есть проблемы с поиском - есть жалобы на индексацию подзамков, во что я не верил до последнего дня, однако факты есть факты - такое всё же случается, редко и рандомально, но случается. Иногда исключаются из поиска ссылки и банятся целые журналы - вероятно это делается для борьбы со спамом и накрутками, но делается вручную, а это снова волюнтаризм и манипуляции. Были случаи, когда оперативно уничтожался кэш записи, вероятно, по просьбе автора, стеревшего запись и каким-то образом имеющего доступ к сотрудникам, управляющим базой.
Но в целом, повторяю, к самому поиску претензий гораздо меньше, и практически все их можно вам простить, понимая сложность и нужность вашей работы. Главное зло - это ваши рейтинги, и именно они более чем наполовину виноваты в общем прокисании блогосферы, политизации и коммерциализации её контента. И тут лично я вам прощать не склонен ничего. А главное, не склонен прощать того, что вы не признаете этой своей вины, - а возможно, даже и не осознаёте её.
no subject
1. есть жалобы на индексацию подзамков
Претензии такого рода правильнее предъявлять СУПу. Мы индексируем только то, что доступно в публичных RSS, и если туда попала подзамочная запись - это резуьтат какой-то ошибки в коде LiveJournal.
Не смотря на это, мы серьёзно относимся к сообщениям об индексации подзамков и стараемся с ними разбираться. К сожалению, все проверки, которые проводил я, показывали, что автор сначала запостил пост публично. Если у вас есть примеры проиндексированных нами постов, автор которых утверждает, что они публичными никогда не были - я буду вам очень благодарен за указание на них и обещаю провести расследование и принять меры.
2. Иногда исключаются из поиска ссылки и банятся целые журналы
Мы не скрываем и никогда не скрывали, что у нас есть как автоматические способы разметки журналов, так и контент-менеджеры, которые этим занимаются вручную (или помогают настраивать автоматику). Если бы всего этого не было, результаты поиска по блогам давно были бы заполнены спамом, новостями и другими неформатными потоками. Если вы знаете примеры ошибочного исключения каких-либо записей или журналов из поиска - пожалуйста, приведите их. Беспредметно говорить очень сложно.
3. Были случаи, когда оперативно уничтожался кэш записи, вероятно, по просьбе автора, стеревшего запись и каким-то образом имеющего доступ к сотрудникам, управляющим базой.
Любой автор дневника может написать в нашу службу поддержки и попросить скрыть пост, который он уже удалил или скрыл у себя. Его попросят подтвердить авторство журнала, после чего запись, вместе с её кэшем, скроют. Никакого специального доступа к сотрудникам для этого иметь не нужно.
no subject
> утверждает, что они публичными никогда не были - я буду вам очень благодарен
> за указание на них и обещаю провести расследование и принять меры.
Вы знаете, я не работник Яндекса и специально не стану изыскивать классифицировать отдельные случаи. Но если они и вправду вам интересны - ваш же поиск по блогам к вашим услугам, ключевые слова вы знаете.
> Если вы знаете примеры ошибочного исключения каких-либо записей или
> журналов из поиска - пожалуйста, приведите их.
См. мой ответ выше.
> Мы не скрываем и никогда не скрывали, что у нас есть как автоматические способы
> разметки журналов, так и контент-менеджеры, которые этим занимаются вручную (или
> помогают настраивать автоматику). Если бы всего этого не было, результаты поиска по
> блогам давно были бы заполнены спамом, новостями и другими неформатными потоками.
Разумеется, это понятно. Непонятно только, где кончается
полиция и начинается Беняавтоматическая разметка и начинается ручная.Совершенно понятно, что если целиком полагаться на автоматику, то накрутка и спам будут забивать выдачу; не менее понятно также, что контент-менеджер тоже человек и, следовательно, действует субъективно, при этом отсутствие ясных, однозначно толкуемых, публичных и, главное, апеллируемых критериев его деятельности рано или поздно приводит к волюнатризму, вкусовщине, "комплексу вахтёра", а то и к сведению личных счетов.
Поэтому ваша задача - пройти по тонкой грани и обеспечить максимально релевантную и полную выдачу и сдвиг на незначащие позиции в ней спама и накруток. Как мне (и не только мне) кажется, вы справляетесь с этой задачей всё хуже и хуже. Ваши действия против спама и накрутки часто портят выдачу и обессмысливают сам смысл поиска. "Клюв вытащил - хвост увяз".
Я понимаю сложность вашей задачи. В условиях, когда сотни и тысячи энергичных придурков занимаются "оптимизацией", очистить выдачу от дерьма очень непросто, верю.
Но вы взялись за эту работу, так делайте же её достойно.
И ещё раз повторю: главная претензия к вам - это не поиск, там проблемы есть, но их немного. Главная претензия - рейтинги. Вот это настоящая мерзость, которая испортила и продолжает портить русскоязычную блогосферу. Уберите с ЯППБ рейтинги - и получится прекрасный сервис.
no subject
3: Ваши действия против спама и накрутки часто портят выдачу и обессмысливают сам смысл поиска. "Клюв вытащил - хвост увяз".
Увы, вы продолжаете говорить метафорами и не приводите конкретных примеров :(
У нас есть собственные способы мониторинга спама, и мы за ними, конечно, внимательно следим.
При этом ни одна из известных мне популярных поисковых систем чётких критериев спама не определяет. Поверьте, внутренний контроль за всем, что делают контент менеджеры, - есть, и весь спам, который они вычищают - довольно очевидный и неоспоримый.
В любом случае - спасибо за ваши замечания, мы учтём их при планировании развития Поиска по блогам.
no subject
Или хотя бы доведите до ума: сделайте его критерии неизменными, ясными, публичными и аудируемыми.
no subject
http://plutovstvo007.livejournal.com/526757.html - свежий пример
no subject
no subject
no subject
Эх, хвост-чешуя. Напозоритесь вы ещё с этим рейтингом..
no subject
no subject
А так - будете регулярно огребать.
no subject
Конкретно про поиск по блогам
Добавление невинного параметра - номера страницы - приводит к сокращению числа найденных записей вдвое:
http://blogs.yandex.ru/search.xml?server=ya.ru&author=test854&ft=blog&duration=1&no_group=1&p=0 : 21 найденная запись.
Это нормально?
Re: Конкретно про поиск по блогам
Re: Конкретно про поиск по блогам
А если перейти на вторую страницу, то их таки 21.
Re: Конкретно про поиск по блогам
Re: Конкретно про поиск по блогам
Я подозреваю, что некоторое время не работал один из индексов, и это осталось в кэше. В течение небольшого времени всё должно исправиться по всем ссылкам и для всех.
Re: Конкретно про поиск по блогам
Вот совершенно свежие скриншоты:
Первая страница выдачи:
Третья страница выдачи:
Первая страница выдачи с показом всех найденных записей, как было предложена на предыдущем скриншоте:
Восьмая страница выдачи по предыдущему запросу, она же седьмая и шестая:
Re: Конкретно про поиск по блогам
Проблема с кодировками
Шестой результат в выдаче содержит в себе какой-то китайский иероглиф 鋏, который в HTML-коде страницы обозначен как 鋏.
При показе кэша (http://blogs.yandex.ru/cachedcopy.xml?f=5e9ce836eb245960736539dc60b5bbfc&i=32&m=http%3A%2F%2Ftest854.ya.ru%2Fpost.xml%3Fitem_no%3D27&r=server%3D%22ya.ru%22%3A%3A2063133498+%3C%3C+%28author%3D%22test854%22%3A%3A2063133498%3A0+%7C+%28feed_id%3D%224507003%22%3A%3A2063133498%3A0+%7C+feed_id%3D%224507117%22%3A%3A2063133498%3A0%29%3A0%29%3A0) и в оригинальном посте http://test854.ya.ru/post.xml?item_no=27&ncrnd=9304 виден другой символ - ᐛ, код которого ᐛ
Re: Проблема с кодировками
Re: Проблема с кодировками
2. Почему этот один символ, на который заменяются все юникодные, есть такой странный китайский иероглиф?
Re: Проблема с кодировками
Re: Проблема с кодировками