Анализ внедрения автоматического обучения спам фильтров.


Прошло два месяца, как внедрил обучение спамфильров на основе спам ловушек (spamtrap) и исходящей почты.

Сейчас провел мелкий анализ результатов на основании выборки за два месяца до и два месяца после внедрения:

Критерий до (всего/ среднее в день) после (всего/среднее в день)
Ложные определения как спам (ощущение, что что-то не так, очень похоже, что отыграло начало внедрения) 676/16.4878

767/17.8372
без учета первой недели внедрения 391/10.8611

Ложные определения как ham (белое письмо) 2398/49.9583 969/20.1875
Определено как спам 17287/283.393 46918/769.148
Определено как белые письма 57068/935.541 56982/949.7
Всего получено писем 74355/1218,934 103900/1718,848
% ложных срабатываний относительно общего объема писем 1,35% 1,03%
(без учета первой недели 0,63%)
% ложных срабатываний относительно определенных белых писем 1,76% 1,87%
(без учета первой недели 1,14%)
Писем поймано в ловушки (включая нерабочие дни) - 635992/12470.4
Обучено на исходящих писмах - 23019/460.38

Комментарии:

  • Высокое ложное срабатывание как до, так и после, частично объясняется тем, что местами как спам определяются служебные письма от серверов и оргтехники.
  • Возрастание общего количества спама, я думаю, связано с переводом MX записи с провайдерского сервера на свой.
  • Ложные срабатывания определялись на основе перемещение писем пользователями относительно папки спам. Соответственно, нормально показывает только про рабочие дни.

Выводы:

  • Количество определяемого спама возросло на 60% относительно предыдущего периода. Раньше в день не определялось 50 спам писем, теперь 20.
  • Колическто ложных срабатываний если не уменьшилось, то точно не увеличилось.

P.S. И всю эту офигенно интересную картинку частично ломает внедрение в этот же период rspamd. Хотя он дал всего 9% эфективности к общему объему спама, т.е. из 100 пойманых спам писем, только он ловит 9. На ложные срабатывания он может влиять только в худшую сторону.