AI в борьбе со спамом: как работают современные спам-фильтры
Вы отправили рассылку. Текст хороший, дизайн продуманный, оффер сильный. Половина писем ушла в спам. Не потому что вы спамер, а потому что алгоритм так решил. Разберёмся, как именно он принимает это решение - и что с этим делать.
От чёрных списков к нейросетям: краткая история
Первые спам-фильтры появились в конце 1990-х и работали примитивно: список запрещённых слов плюс чёрные списки IP-адресов. Если в письме встречалось слово «Viagra» или отправитель был в DNSBL - письмо блокировалось. Спамеры обходили это за минуты: меняли написание, арендовали новые серверы, добавляли случайный текст.
В 2002 году Пол Грэм опубликовал статью «A Plan for Spam», где предложил применить теорему Байеса. Идея: не искать конкретные слова, а считать вероятности. Если слово «бесплатно» встречается в спаме в 40 раз чаще, чем в обычной почте - это статистический сигнал, а не жёсткое правило. Одно слово ничего не решает, но комбинация из десятков признаков даёт точный результат. SpamAssassin, SpamBayes, встроенные фильтры Thunderbird - все они выросли из этого подхода.
Байесовские фильтры продержались как основной метод около десяти лет. Но спамеры научились обманывать и их: вставляли «чистые» слова из Википедии, маскировали текст в картинках, использовали случайные цитаты из книг. Фильтру подсовывали ложный контекст, и он терял точность.
К середине 2010-х крупные почтовые провайдеры начали переход на машинное обучение и нейронные сети. Google заявил, что их модели блокируют 99.9% спама в Gmail. Microsoft перевёл фильтрацию в Outlook на собственный ML-стек. Mail.ru построил «Антиспам Касперского» на комбинации правил и моделей. Это уже не байесовская статистика - это глубокие нейросети, которые анализируют письмо целиком: текст, вложения, метаданные, поведение получателя.
Как устроен современный спам-фильтр
Современный фильтр - это не один алгоритм, а конвейер из нескольких слоёв. Каждый слой решает свою задачу, и письмо проходит через все по очереди.
Слой 1. Репутация отправителя
Ещё до того, как фильтр прочитает тело письма, он проверяет, кто его отправил. IP-адрес сервера, домен отправителя, записи SPF, DKIM и DMARC. У каждого IP и домена есть накопленная репутация - что-то вроде кредитной истории. Если с этого IP раньше шёл спам, новые письма автоматически получают штраф. Если домен настроен без DMARC - ещё один штраф. На этом этапе отсеивается до 80% входящего спама, потому что большинство спамеров работают с одноразовых серверов и не заморачиваются с DNS-аутентификацией.
Слой 2. Анализ контента
Письмо прошло проверку отправителя - теперь фильтр читает содержимое. Здесь работают нейросети: NLP-модели анализируют текст, находят паттерны, характерные для спама. Но дело не только в словах. Фильтр смотрит на HTML-структуру: соотношение текста и картинок, скрытые элементы, подозрительные ссылки. Проверяет вложения - и тип файла, и содержимое. Анализирует заголовки на предмет поддельных данных.
Gmail, например, использует TensorFlow-модели, обученные на миллиардах писем. Каждое входящее сообщение превращается в вектор признаков: длина темы, количество ссылок, наличие кнопки отписки, язык, кодировка, время отправки, соответствие домена отправителя и обратного адреса. Модель обрабатывает всё это за миллисекунды и выдаёт вероятность: спам или не спам. Не бинарное решение, а число от 0 до 1.
Слой 3. Поведение получателя
Это самый важный и наименее очевидный слой. Фильтр учится на действиях конкретного пользователя и всей базы подписчиков одновременно. Человек открывает ваши письма? Плюс к репутации. Перетаскивает из спама во входящие? Сильный плюс. Удаляет не читая? Минус. Нажимает «Спам»? Серьёзный минус, и не только для этого получателя - жалоба влияет на репутацию домена для всех пользователей провайдера.
Gmail агрегирует эти сигналы. Если из тысячи получателей вашей рассылки десять нажали «Спам» - это 1% complaint rate. Кажется мало. Но для Google порог - 0.3%. Тройное превышение. Следующая рассылка уже пойдёт в спам для большей части получателей, даже для тех, кто раньше открывал ваши письма.
Фильтр не ищет спам в вашем письме. Он ищет признаки того, что получатель не хочет его видеть. Это принципиально другая задача.
Что именно считает Gmail
Google не публикует полный список факторов, но из документации Postmaster Tools, патентов и наблюдений индустрии можно собрать достаточно полную картину.
Аутентификация (SPF, DKIM, DMARC)
Обязательный минимум с февраля 2024. Без DMARC письма от доменов с 5000+ отправок в день отклоняются.
Complaint rate
Порог 0.3%. Выше - рассылки начинают попадать в спам для всех получателей домена.
Bounce rate
Высокий процент отказов сигнализирует о грязной базе. Фильтр снижает доверие.
Engagement
Open rate, клики, перемещение из спама, ответы. Gmail строит профиль вовлечённости для каждого отправителя.
Инфраструктура
Выделенный или shared IP, история IP, PTR-запись, TLS-шифрование при передаче.
Контент
Соотношение текста и изображений, наличие отписки (RFC 8058 - List-Unsubscribe), спамные паттерны в тексте.
Возраст домена и IP
Новый домен без истории получает нейтральную, но осторожную оценку. Нужен прогрев.
Outlook и Yahoo используют похожие принципы, но с другими весами. Outlook сильнее реагирует на жалобы (у них собственная программа SNDS для мониторинга), Yahoo более чувствителен к аутентификации. Mail.ru дополнительно учитывает специфику кириллического контента и локальных паттернов спама.
Нейросети внутри фильтра: что именно они делают
«AI-фильтр» звучит расплывчато. На практике за этим стоят конкретные методы.
Классификация текста. Transformer-модели (те же архитектуры, что в основе ChatGPT, только компактнее и заточенные под одну задачу) читают тело письма и тему. Они улавливают не отдельные слова, а смысловые паттерны: агрессивное давление на получателя, ложная срочность, имитация официальных уведомлений. Спамер может заменить «бесплатно» на «без оплаты» - модель всё равно распознает намерение.
Анализ графа отправителей. Gmail строит граф связей между отправителями и получателями. Если с одного домена внезапно полетели письма на миллион адресов, с которыми раньше не было переписки - это аномалия. Graph neural networks обнаруживают такие всплески быстрее, чем пороговые правила.
Computer vision для вложений и картинок. Спамеры прячут текст в изображениях, чтобы обойти текстовый анализ. Свёрточные сети «читают» картинки: распознают текст (OCR), находят логотипы банков в фишинговых письмах, детектируют QR-коды, ведущие на вредоносные сайты.
Обнаружение аномалий. Unsupervised-модели строят «портрет нормального письма» для каждого отправителя. Если маркетолог обычно шлёт 5000 писем по вторникам, а тут в воскресенье улетело 200 000 - фильтр поднимает флаг. Не потому что содержимое плохое, а потому что поведение нетипичное. Возможно, аккаунт взломали.
Что это значит для маркетолога
Понимание того, как устроены фильтры, меняет подход к рассылкам. Вот конкретные выводы.
Репутация важнее контента. Можно написать идеальное письмо, но если домен испорчен - оно уйдёт в спам. И наоборот: у домена с сильной репутацией письмо с агрессивной темой скорее попадёт в «Промоакции», чем в спам. Репутация - это фундамент. Она складывается из bounce rate, complaint rate, аутентификации и engagement. Всё вместе, всё одновременно.
Engagement - главный фактор. Фильтры 2026 года - это по сути рекомендательные системы. Gmail решает, хочет ли получатель видеть ваше письмо, примерно так же, как YouTube решает, показывать ли ролик в ленте. Если подписчики открывают, кликают, отвечают - вы в инбоксе. Если игнорируют - вы в промоакциях. Если жалуются - в спаме.
Чистая база - не опция, а требование. Каждый невалидный адрес - это bounce. Каждый bounce - удар по репутации. Каждый заброшенный ящик, который провайдер превратил в спам-ловушку - потенциальный чёрный список. Фильтры не прощают грязные базы. Они воспринимают высокий bounce rate как сигнал того, что отправитель не заботится о качестве списка, а значит - вероятно, спамер.
Отписка должна работать. С 2024 года Gmail и Yahoo требуют заголовок List-Unsubscribe с поддержкой one-click отписки (RFC 8058). Отсутствие этого заголовка - фактор, который учитывает фильтр. Но дело не только в техническом требовании: если человеку сложно отписаться, он нажмёт «Спам». А одна жалоба вредит больше, чем сто отписок.
Прогрев - не формальность. Новый домен или IP без истории для фильтра - неизвестная переменная. Резкий рост объёма отправки выглядит как спам-атака. Плавный прогрев: 200-500 писем в день с постепенным увеличением на протяжении 2-4 недель. Отправка самым вовлечённым подписчикам. Их открытия и клики формируют положительную репутацию.
Гонка вооружений: AI против AI
Есть неудобная правда: спамеры тоже используют AI. Генеративные модели пишут тексты, которые не отличить от обычной деловой переписки. Алгоритмы подбирают время отправки, чтобы мимикрировать под настоящего человека. GAN-сети генерируют уникальные шаблоны писем для каждого получателя.
Провайдеры отвечают: модели обучаются в реальном времени, используют federated learning (обучение на данных пользователей без их передачи на сервер), применяют adversarial training - специально учат модель на примерах спама, который пытается её обмануть.
Для маркетолога это означает одно: полагаться на трюки бессмысленно. Тактика «обойти фильтр» устаревает быстрее, чем вы её внедрите. Работает только долгосрочная стратегия: чистая база, аутентификация, вовлечённость получателей, прозрачная отписка. То, что фильтры и так считают сигналами доверия.
Чек-лист: как не попасть под AI-фильтр
Семь пунктов. Ничего нового - но именно этот набор действий удерживает письма в инбоксе в 2026 году.
Настройте SPF, DKIM и DMARC
Минимум - p=quarantine. В идеале - p=reject. Без этого Gmail и Yahoo отклоняют письма от крупных отправителей.
Валидируйте базу перед каждой рассылкой
Удаляйте невалидные адреса, одноразовые ящики, спам-ловушки. Bounce rate выше 2% - уже проблема.
Держите complaint rate ниже 0.3%
Мониторьте через Postmaster Tools. Один плохой сегмент может испортить репутацию всего домена.
Сегментируйте по вовлечённости
Активные подписчики получают всё. Неактивные - реактивацию или удаление. Не шлите всем одно и то же.
Добавьте one-click отписку
Заголовок List-Unsubscribe-Post с mailto или HTTPS-ссылкой. Если человек хочет уйти - пусть уходит без жалобы.
Следите за соотношением текст/картинки
Минимум 60% текста. Письмо из одной картинки - флаг для фильтра. Добавляйте plain-text версию.
Прогревайте новые домены и IP
200-500 писем в день с увеличением. Отправляйте сначала самым лояльным. 2-4 недели до полного объёма.
Валидация как защита от фильтра
Из семи пунктов выше три напрямую связаны с качеством базы: bounce rate, complaint rate (грязная база повышает жалобы), спам-ловушки. Это не совпадение. Фильтры устроены так, что грязная база вредит всему остальному.
Прогоните базу через валидатор. Удалите адреса с высоким риском: несуществующие ящики, одноразовые домены, роботные адреса, совпадения с паттернами спам-ловушек. Результат увидите на первой же рассылке: bounce rate падает, open rate растёт (потому что вы перестали отправлять мёртвым адресам), репутация домена улучшается.
Это не разовая акция. Базы деградируют: по нашим данным, за 12 месяцев без проверки 20-25% адресов становятся невалидными. Люди увольняются, компании закрываются, бесплатные ящики забрасываются. Квартальная валидация - минимум. Для баз с активным притоком - ежемесячная.
Хотите узнать, сколько рискованных адресов в вашей базе?
Загрузите список в uChecker - 30 бесплатных проверок, результат за минуты. Bounce rate, одноразовые адреса, спам-ловушки, скоринг риска для каждого адреса.
