November 2019

S M T W T F S
      12
34 5 678 9
10111213141516
17181920212223
24252627282930

Style Credit

Expand Cut Tags

No cut tags
Friday, February 15th, 2008 04:08 pm
Скажи же мне скорей, что это неправда!

"Для Я.ру временем сообщения считалось не время его написания, а время его скачивания в ППБ."

Это ответил мна саппорт на вопрос о том, почему пост в я.ру от 29 января находится в ППБ с датой 12 февраля. Нет-нет, я не могу поверить, что всё НАСТОЛЬКО плохо.

Upd. Хотя если сравнить даты в http://blogs.yandex.ru/search.xml?server=ya.ru&author=kukutz&ft=blog&duration=1&no_group=1 и в http://kukutz.ya.ru/replies.xml?item_no=3246, то начинает казаться, что правда :(
Friday, February 15th, 2008 05:05 pm (UTC)
Расскажите, пожалуйста, что именно плохо *с поиском* на ППБ? Я буду вам искренне благодарен.
Friday, February 15th, 2008 05:19 pm (UTC)
В который раз уже наша беседа заканчивается бесплодно, Антон. Повторим ещё раз?
Friday, February 15th, 2008 07:37 pm (UTC)
Наши беседы заканчивались бесплодно из-за разного взгляда на устройство и саму необходимость рейтингов. Это были, скорее, политические вопросы.

Пользу от поиска вы, кажется, не отрицаете, поэтому я надеюсь, что здесь разговор будет гораздо более плодотворным и полезным. Если вы знаете проблемы и недоработки в поиске - я буду вам очень благодарен за указание на них.
Friday, February 15th, 2008 07:53 pm (UTC)
Если говорить только о поиске и не упоминать рейтинги как часть поискового сервиса, то претензий к вам будет меньше, разумеется. Разногласия по поводу рейтингов же - и политические, и технологические, я там специально подчеркнул, что рейтинги вообще зло, но такие рейтинги как ваш - зло стократное, поскольку он абсолютно непрозрачен, волюнтарен, правится руками, легко накручивается и при этом маскируется под объективный маркетинговый инструмент.

Но и без рейтингов есть проблемы с поиском - есть жалобы на индексацию подзамков, во что я не верил до последнего дня, однако факты есть факты - такое всё же случается, редко и рандомально, но случается. Иногда исключаются из поиска ссылки и банятся целые журналы - вероятно это делается для борьбы со спамом и накрутками, но делается вручную, а это снова волюнтаризм и манипуляции. Были случаи, когда оперативно уничтожался кэш записи, вероятно, по просьбе автора, стеревшего запись и каким-то образом имеющего доступ к сотрудникам, управляющим базой.

Но в целом, повторяю, к самому поиску претензий гораздо меньше, и практически все их можно вам простить, понимая сложность и нужность вашей работы. Главное зло - это ваши рейтинги, и именно они более чем наполовину виноваты в общем прокисании блогосферы, политизации и коммерциализации её контента. И тут лично я вам прощать не склонен ничего. А главное, не склонен прощать того, что вы не признаете этой своей вины, - а возможно, даже и не осознаёте её.
Sunday, February 17th, 2008 07:41 pm (UTC)
Простите, но чтобы снова не уйти в бесплодные споры, я отвечу только на ту часть вашего комментария, что касается поиска.

1. есть жалобы на индексацию подзамков
Претензии такого рода правильнее предъявлять СУПу. Мы индексируем только то, что доступно в публичных RSS, и если туда попала подзамочная запись - это резуьтат какой-то ошибки в коде LiveJournal.

Не смотря на это, мы серьёзно относимся к сообщениям об индексации подзамков и стараемся с ними разбираться. К сожалению, все проверки, которые проводил я, показывали, что автор сначала запостил пост публично. Если у вас есть примеры проиндексированных нами постов, автор которых утверждает, что они публичными никогда не были - я буду вам очень благодарен за указание на них и обещаю провести расследование и принять меры.

2. Иногда исключаются из поиска ссылки и банятся целые журналы
Мы не скрываем и никогда не скрывали, что у нас есть как автоматические способы разметки журналов, так и контент-менеджеры, которые этим занимаются вручную (или помогают настраивать автоматику). Если бы всего этого не было, результаты поиска по блогам давно были бы заполнены спамом, новостями и другими неформатными потоками. Если вы знаете примеры ошибочного исключения каких-либо записей или журналов из поиска - пожалуйста, приведите их. Беспредметно говорить очень сложно.

3. Были случаи, когда оперативно уничтожался кэш записи, вероятно, по просьбе автора, стеревшего запись и каким-то образом имеющего доступ к сотрудникам, управляющим базой.
Любой автор дневника может написать в нашу службу поддержки и попросить скрыть пост, который он уже удалил или скрыл у себя. Его попросят подтвердить авторство журнала, после чего запись, вместе с её кэшем, скроют. Никакого специального доступа к сотрудникам для этого иметь не нужно.
Sunday, February 17th, 2008 08:20 pm (UTC)
> Если у вас есть примеры проиндексированных нами постов, автор которых
> утверждает, что они публичными никогда не были - я буду вам очень благодарен
> за указание на них и обещаю провести расследование и принять меры.


Вы знаете, я не работник Яндекса и специально не стану изыскивать классифицировать отдельные случаи. Но если они и вправду вам интересны - ваш же поиск по блогам к вашим услугам, ключевые слова вы знаете.

> Если вы знаете примеры ошибочного исключения каких-либо записей или
> журналов из поиска - пожалуйста, приведите их.


См. мой ответ выше.

> Мы не скрываем и никогда не скрывали, что у нас есть как автоматические способы
> разметки журналов, так и контент-менеджеры, которые этим занимаются вручную (или
> помогают настраивать автоматику). Если бы всего этого не было, результаты поиска по
> блогам давно были бы заполнены спамом, новостями и другими неформатными потоками.


Разумеется, это понятно. Непонятно только, где кончается полиция и начинается Беня автоматическая разметка и начинается ручная.

Совершенно понятно, что если целиком полагаться на автоматику, то накрутка и спам будут забивать выдачу; не менее понятно также, что контент-менеджер тоже человек и, следовательно, действует субъективно, при этом отсутствие ясных, однозначно толкуемых, публичных и, главное, апеллируемых критериев его деятельности рано или поздно приводит к волюнатризму, вкусовщине, "комплексу вахтёра", а то и к сведению личных счетов.

Поэтому ваша задача - пройти по тонкой грани и обеспечить максимально релевантную и полную выдачу и сдвиг на незначащие позиции в ней спама и накруток. Как мне (и не только мне) кажется, вы справляетесь с этой задачей всё хуже и хуже. Ваши действия против спама и накрутки часто портят выдачу и обессмысливают сам смысл поиска. "Клюв вытащил - хвост увяз".

Я понимаю сложность вашей задачи. В условиях, когда сотни и тысячи энергичных придурков занимаются "оптимизацией", очистить выдачу от дерьма очень непросто, верю.

Но вы взялись за эту работу, так делайте же её достойно.

И ещё раз повторю: главная претензия к вам - это не поиск, там проблемы есть, но их немного. Главная претензия - рейтинги. Вот это настоящая мерзость, которая испортила и продолжает портить русскоязычную блогосферу. Уберите с ЯППБ рейтинги - и получится прекрасный сервис.
Sunday, February 17th, 2008 08:34 pm (UTC)
1,2: Конечно, все случаи, все случаи, находящиеся поиском, я мониторю. Как я уже сказал раньше, ни одного случая индексации изначально-подзамочного поста пока не выявлено.

3: Ваши действия против спама и накрутки часто портят выдачу и обессмысливают сам смысл поиска. "Клюв вытащил - хвост увяз".
Увы, вы продолжаете говорить метафорами и не приводите конкретных примеров :(

У нас есть собственные способы мониторинга спама, и мы за ними, конечно, внимательно следим.

При этом ни одна из известных мне популярных поисковых систем чётких критериев спама не определяет. Поверьте, внутренний контроль за всем, что делают контент менеджеры, - есть, и весь спам, который они вычищают - довольно очевидный и неоспоримый.

В любом случае - спасибо за ваши замечания, мы учтём их при планировании развития Поиска по блогам.
Sunday, February 17th, 2008 08:37 pm (UTC)
Да хрен с ним, с поиском, он всё-таки пока ещё приемлемый, лучше рейтинги уберите.

Или хотя бы доведите до ума: сделайте его критерии неизменными, ясными, публичными и аудируемыми.
Wednesday, February 20th, 2008 06:11 pm (UTC)
А что вы собираетесь делать с рейтингом?

http://plutovstvo007.livejournal.com/526757.html - свежий пример
Sunday, February 24th, 2008 08:16 pm (UTC)
Вот, кстати, ещё вопрос (http://pe3yc.livejournal.com/776314.html).
Sunday, March 2nd, 2008 08:10 pm (UTC)
А зачем сегодня выкинули из топа пост про оргию в музее? Из соображений общественной нравственности?
Sunday, March 2nd, 2008 08:12 pm (UTC)
О, вернули уже, как я вижу.

Эх, хвост-чешуя. Напозоритесь вы ещё с этим рейтингом..
Monday, March 3rd, 2008 12:59 am (UTC)
И не возвращал никто ничего тоже. Рейтинг устроен так, чтобы быстро обновляться. Никакой пост не может долго висеть в топе, если на него не ставят много новых ссылок. И чем дольше он там висит, тем больше новых ссылок должно быть, чтобы он в рейтинге остался на своём месте.
Monday, March 3rd, 2008 07:24 am (UTC)
А вот это всё ваша секретность. Если бы внятно сообщили, какой срок давности, не было бы вопросов.

А так - будете регулярно огребать.
Monday, March 3rd, 2008 12:56 am (UTC)
Никто ничего не выкидывал, она ушла сама из-за давности (оба поста там висели почти два дня). Если на них поставят много новых ссылок - они вернутся.
Monday, February 18th, 2008 10:44 am (UTC)
http://blogs.yandex.ru/search.xml?server=ya.ru&author=test854&ft=blog&duration=1&no_group=1 : 59 найденнных записей.
Добавление невинного параметра - номера страницы - приводит к сокращению числа найденных записей вдвое:
http://blogs.yandex.ru/search.xml?server=ya.ru&author=test854&ft=blog&duration=1&no_group=1&p=0 : 21 найденная запись.

Это нормально?
Monday, February 18th, 2008 10:59 am (UTC)
У меня по обоим ссылкам находится 59 записей.
Monday, February 18th, 2008 11:05 am (UTC)
А у меня первый раз нашлось аж 66, а во второй - 59.
А если перейти на вторую страницу, то их таки 21.
Monday, February 18th, 2008 12:48 pm (UTC)
У меня отображается тоже 59.

Я подозреваю, что некоторое время не работал один из индексов, и это осталось в кэше. В течение небольшого времени всё должно исправиться по всем ссылкам и для всех.
Monday, February 18th, 2008 03:46 pm (UTC)
Не-а. Оно в разные моменты времени выдаёт совершенно необъяснимые [в рамках моего понимания] результаты.
Вот совершенно свежие скриншоты:

Первая страница выдачи:
Image

Третья страница выдачи:
Image

Первая страница выдачи с показом всех найденных записей, как было предложена на предыдущем скриншоте:
Image

Восьмая страница выдачи по предыдущему запросу, она же седьмая и шестая:
Image
Monday, March 3rd, 2008 11:04 pm (UTC)
Таки не исправилось..
Monday, February 18th, 2008 10:57 am (UTC)
http://blogs.yandex.ru/search.xml?server=ya.ru&author=test854&ft=blog&duration=1&no_group=1&p=0
Шестой результат в выдаче содержит в себе какой-то китайский иероглиф 鋏, который в HTML-коде страницы обозначен как 鋏.

При показе кэша (http://blogs.yandex.ru/cachedcopy.xml?f=5e9ce836eb245960736539dc60b5bbfc&i=32&m=http%3A%2F%2Ftest854.ya.ru%2Fpost.xml%3Fitem_no%3D27&r=server%3D%22ya.ru%22%3A%3A2063133498+%3C%3C+%28author%3D%22test854%22%3A%3A2063133498%3A0+%7C+%28feed_id%3D%224507003%22%3A%3A2063133498%3A0+%7C+feed_id%3D%224507117%22%3A%3A2063133498%3A0%29%3A0%29%3A0) и в оригинальном посте http://test854.ya.ru/post.xml?item_no=27&ncrnd=9304 виден другой символ - ᐛ, код которого ᐛ
Monday, February 18th, 2008 11:03 am (UTC)
Яндекс.сервер не обрабатывает юникодных символов (точнее - заменяет их все на один). Если открыть сохранённую копию - там всё будет правильно.
Monday, February 18th, 2008 11:45 am (UTC)
1. Разве Я.ру индексируется локальным Яндекс.сервером (http://company.yandex.ru/technology/products/yandex-server.xml), а не общим для всех блогов индексатором?

2. Почему этот один символ, на который заменяются все юникодные, есть такой странный китайский иероглиф?
Monday, February 18th, 2008 12:51 pm (UTC)
Под Яндекс.Сервером я понимаю поисковую технологию, используемую в Яндексе вообще. К сожалению, поиск по блогам (как и веб-поиск) юникодные символы на данный момент не индексирует.
Monday, February 18th, 2008 03:42 pm (UTC)
Охотно верю. Но откуда взялся китайский иероглиф?