Gene Office - Kerio Connect

Добро пожаловать в Gene Office !

Почтовый сервер Kerio Connect

Обновлено 04.02.2012 г.

FAQ Kerio Connect : SpamAssassin как основа антиспамерной защиты

В консоли администрирования Kerio Connect среди средств борьбы со спамом есть вкладка с названием SpamAssassin, в которой доступна только одна опция - включить или выключить этот модуль. Поскольку кериоты как всегда скромны в отношении чужих заслуг, но и не могли не упомянуть этого странного слова в своем изделии, то поясним: SpamAssassin - это и есть вся антиспамерная защита Kerio Connect, а не только вкладка с таким названием. Кериоты как всегда не постеснялись взять открытый бесплатный продукт, приделать к нему какую-то свою фичу в виде веб-интерфейса, и гордиться полученным коммерческим результатом.

Реально то, что кериоты назвали SpamAssassin, является ничем иным как фильтром Байеса, т.е. всего лишь одним из множества анализаторов SpamAssassin. Чтобы ясно понять что это и почему так, посмотрим на настоящий "исходный" SpamAssassin, а заодно разберемся что нам оставили кериоты на этой вкладке и что с этим делать.

Общие сведения о программе-анализаторе почтовых сообщений SpamAssassin можно посмотреть здесь и здесь. Из этих сведений отметим, что проект создавался изначально как OpenSource для *ксов, для своей работы требует как минимум трех дополнительных модулей, что он имеет свой собственный веб-интерфейс. Для любителей шпаций и для оценки того, что именно сделали кериоты для нашего удобства, рекомендую посмотреть вот это http://www.opennet.ru/base/net/clamav_setup.txt.html и почитать вот это http://www.samag.ru/archive/article/559.

Если после всего просмотренного и прочитанного вы не сошли с ума, то продолжим именно про SpamAssassin.

SpamAssassin поставляется с большим набором правил, которые определяют, какие письма являются спамом, а какие нет. Большинство правил основано на регулярных выражениях, которые сопоставляются телу или заголовку сообщения, но SpamAssassin также использует и другие методики. В документации SpamAssassin эти правила называются «tests».

Каждый тест имеет некоторую «стоимость». Если сообщение успешно проходит тест, эта «стоимость» добавляется к общему баллу. Стоимость может быть положительной или отрицательной, положительные значения называются «spam», отрицательные «ham». Сообщение проходит через все тесты, подсчитывается общий балл. Чем выше балл, тем больше вероятность, что сообщение является спамом.

У SpamAssassin есть настраиваемый порог, при превышении которого письмо будет классифицировано как спам. Обычно порог таков, что письмо должно подойти по нескольким критериям; срабатывание только одного теста недостаточно для превышения порога. (Ничего не напоминает из вкладок консоли управления керио?).

На одном из форумов мне попалось очень душевное описание порядка работы с SpamAssassin. Чтобы не мусорить словами - приведу его полностью, сохранив орфографию. Мне кажется, что это описание вполне точно соответствует смыслу и составу SpamAssassin, а что касается керио - посмотрим ниже.

Типичная процедура для запуска спам-фильтрации с помощью эвристики (SpamAssassin):

Выбираешь для себя и включаешь средства online фильтрации (DNSBL, ReverseLookup, SPF и т.п.), чем уже отсекаешь процентов 70-90 спама.
Включаешь необученную эвристику (ассассин), говоришь "метить, но пропускать". Порог метки ставишь стандартный =5.0, порог уничтожения поднимаешь "за облака", скажем, 100.0. Если база байеса уже есть, но не нравится как она работает или неизвестно ее происхождение, то нужно просто стереть файлы bayes_seen,bayes_toks, bayes_journal или командой < sa-learn --clear >. ВАЖНО — необходимо отключить авто обучение байеса и авто-белый список, иначе обучение будет корявым, база будет постоянно переполняться и будет происходить вытеснение старых записей (например занесенных только сегодня утром...) — для этого заносим/изменяем строки в файл Local.CF:

bayes_auto_learn 0 use_auto_whitelist 0

Создаешь 2 public IMAP фолдера — один для спама и один для хама. Указываешь на них процессу обучения байеса.
В зависимости от того сам ты будешь заниматься сортировкой или доверишь юзерам создаешь правило в CF для перенаправления копий входящих писем в IMAP фолдеры для спама и хама соответственно или объявляешь юзерам, как они должны складывать письма.
Иногда (зависит от количества почты, типично раз-два в сутки) проверяешь фолдеры, чтобы, не дай бог не ошибиться, сортируешь письма (если ошибочно попали в фолдер) и запускаешь обучение Байеса. ВАЖНО — автоматическое полуночное обучение лучше ОТКЛЮЧИТЬ, т.к. непроверенное письмо может быть скормлено байесу и все на смарку...
Как метка Байеса появятся в письмах в рапорте эвристики — значит Байес запустился, при этом качество работы эвристики резко улучшается до 95-99%. Для запуска байеса нужно скормить ему около 20-200 образцов КАЖДОГО класса (и спама и хама), лучше в равных пропорциях, момент запуска байеса зависит от настроек и версии spamassassin..7. Кормить после этого Байесу нужно письма ТОЛЬКО С ОШИБОЧНОЙ КЛАССИФИКАЦИЕЙ ! Т.е. спам, ошибочно не помеченный ассассином или хам ошибочно помеченный... ВАЖНО — Нет ошибок классификации — ОБУЧАТЬ БАЙЕСА НЕЧЕМУ 8. Через 3-4 недели (если АККУРАТНО все сделано) получаешь ошибку фильтрации <1% (типично 0.01..0.1%).9. Попутно собираешь статистику, дополнительно вносишь IP адреса или PTR'ы особо злостных источников спама в IP/Host screen.10. Можно перевести весь спам на себя (админа) для коррекции обучения, скринов, жалоб Спамкопу и т.п. Если аккуратно все сделано будешь иметь 2-5 штук спам'а в неделю, а юзеры 0...

Следует помнить, что НЕВОЗМОЖНО добится 100% точности фильтрации... она будет приближаться к 100% все ближе и ближе, но никода не достигнет 100...

Как точность станет достаточной для тебя — реши, что ты будешь делать со спамом... Проверять его, уничтожать (можно порог уничтожения в ассассине опустить, скажем до 20.0, НО следует помнить что даже аккуратно обученная эвристика, хоть и редко, но МОЖЕТ ошибаться...), или перенаправишь секретарю — завист от ситуации... CF легко позволяет манипулировать спамом... В письмах помеченных как спам есть заголовок X-Spam-Flag: YES, в хаме таких заголовков нет... удобная зацепка для условия CF..

ВАЖНО: При сортировке спам/хам обязательно нужно занять НЕПРЕДВЗЯТУЮ позицию... Если какой-то Вася будет класть МАХРОВЫЙ СПАМ, для обучения в хам только потому, что ему интересна информация (типа "машину хочу купить, а тут как раз про это..." или "во, а мне как раз курсы английского нужны...") — ИСПОРТИШЬ ВСЕ К ЕДРЕНЕ ФЕНЕ Спам-хам делится по СПОСОБУ ДОСТАВКИ ИНФОРМАЦИИ и ЕЕ ПРЕПОДНЕСЕНИЯ, НО НИКАК НЕ ПО СОДЕРЖАНИЮ ! Юзерам-лопоухим объяснить это ОЧЕНЬ тяжело... знаю по своему опыту... Посему лучше сортировкой заняться самому...

Читать ассассин НЕ УМЕЕТ, СМЫСЛА НЕ ПОНИМАЕТ... Залив МАХРОВЕЙШИЙ СПАМ на обучение в хам — получишь такое чудо....
Если нужно чтобы какая-то конкретная ЛЕГАЛЬНАЯ рассылка проходила (subscribe, ozon и т.п.), то учить ее нужно в СПАМ, т.к. это и есть по сути СПАМ, но потом занести отправителя в WhiteList ассассин'а... Хотя я считаю такие рассылки — НЕ НУЖНЫ... Если юзеру нужно читать — он открывает браузер, идет и читает, иначе оно ему НАФИГ НЕ НУЖНО...

Эта страница расположена в закрытой зоне сайта, доступ к которой ограничен.

Подробности смотреть здесь.

Удачи !