dil: (Default)
dil ([personal profile] dil) wrote2008-12-08 01:27 pm

Как подрались два веб-фильтра

- А не поменялось ли чего в моих настройках? - подумал AdBlock и пошёл на свой сайт проверять.
- А фиг тебе! - сказал dansguardian, - у тебя там столько слов нехороших, аж вес зашкаливает!

2008.12.7 20:14:38 - 127.0.0.1 http://adblockrules.org/download.php?type=all *DENIED* Weighted phrase limit of 50 : 255 ((-gun, control)+( xxx, fuck)+(erotic, xxx)+(erotic, fuck)+(erotic, picture)+(fuck, xxx)+(anonymous, internet)+ erotic+adultfriendfinder.com+erotic+fuck+-hardware+-imdb+-librar+-lyrics+-main+sextracker+-teach+toplist+xxxcounter) GET 11916 255 Pornography, Proxies, Pornography (Italian) 1 403 text/plain -

[identity profile] alexott.livejournal.com 2008-12-08 03:03 pm (UTC)(link)
weighted phrase counting там криво сделан - он считается сразу по всем категориям, а не по каждой из отдельности :-(
да и вообще, байесовский фильтр дает лучшие результаты

[identity profile] dil.livejournal.com 2008-12-08 03:05 pm (UTC)(link)
не, я верю, что он не идеальный, но писать самому мне как-то некогда. байесовский фильтр надо обучать.
а готовое что-нибудь ещё есть из этой области?

[identity profile] alexott.livejournal.com 2008-12-08 03:09 pm (UTC)(link)
все также - свободного не упомню, хотя в принципе, можно прикрутить куски от dspam/etc.

[identity profile] dil.livejournal.com 2008-12-08 03:10 pm (UTC)(link)
ну вот, за неимением гербовой пишем на простой :)

[identity profile] alexott.livejournal.com 2008-12-08 03:24 pm (UTC)(link)
гммм. написать что-ли на чем-то типа Erlang'а (в качестве тренировки)...

[identity profile] dil.livejournal.com 2008-12-08 03:26 pm (UTC)(link)
напиши :) мировое сообщество (как минимум, в моем лице :) скажет тебе спасибо

[identity profile] crypttales.livejournal.com 2008-12-09 02:06 am (UTC)(link)
А оно там так в plain text и передается обновляемому клиенту? Какая прелесть... и какой восторг должно вызывать у контент фильтров: "уж тут-то мы точно не ошибемся" ;)

Вообще как-то не богат у них списочек блокируемых выражений, у меня только user list в AdMuncher поболе будет. Зато как приятно с ним ходить в Интернет, как будто перемещаешься на 20 лет назад - ни баннеров, ни флеша, ни контекстной рекламы - Нет во всем его первозданном великолепии и чистоте ;)

[identity profile] dil.livejournal.com 2008-12-09 08:23 am (UTC)(link)
ну да, вот оно и есть: http://adblockrules.org/download.php?type=all
там вообще список сайтов, а не выражений

[identity profile] crypttales.livejournal.com 2008-12-09 08:46 am (UTC)(link)
Ну там только первые 3-4 строки это сайты, дальше идут выражения, вернее части URLов. Для резалки они скорее всего просто искомые подстроки, как в AdMuncher. У меня в свое время была дискуссия с его разработчиками на тему не всякая подстрока во благо, ну например (на чем я споткнулся):
Правило: для сайта domen.ru фильрацию не применять.
URL: http://search.ru/search.php?string=bla-bla-bla&site=domen.ru

Чуете засаду? AdMuncher находит в URL domen.ru и с чувством выполненного долга не фильтрует реальное обращение к search.ru

Здесь засада того же порядка, вместо того, чтобы gzip'ануть лист перед отправкой клиенту (а это имело бы двойной смысл, будь он, как полагается, раз в *дцать больше), он тупо передается as is.