:: urbansheep (urbansheep) wrote,
:: urbansheep
urbansheep

Categories:
  • Music:

[ L ] POPfile: статистический анализ для борьбы со спамом

POPfile

POPfile — это прокси-агент с эвристическим анализом, просматривающий всё, что через него проходит, и в зависимости от этого классифицирующий почту по категориям („buckets“ или „вёдра“, в терминологии POPfile).

Сам агент делает только две вещи:

  1. анализирует почту
  2. вставляет категорию, либо добавляя её идентификатор в тему письма (subject line), либо добавляя служебный заголовок X-Text-Classification с идентификатором категории

В результате, почту можно фильтровать не только с помощью жёстких правил на стороне программы-клиента (Outlook Express, The Bat и др.), но и пользоваться гибким анализатором. Применено очень интересное решение, когда все почтовые настройки делаются только на клиенте, и в POPfile вообще не нужно прописывать все пароли и логины для множества аккаунтов.

Главным достоинством является её фундамент — байезианский алгоритм анализа, позволяющий увеличивать точность отделения (и разделения по категориям) писем по мере роста проанализированной базы.

Другим достоинством является её Open Source — POPfile написана на Perl, и не только совершенно спокойно работает в фоновом режиме на WinXP (и любых других Windows), но существующая версия для „чистого Perl“ вообще не зависит от платформы.

Единственным ограничением на сегодняшний день является возможность работать только по POP3, но пока что этого вполне хватает для разгребания мусорных завалов. Обсуждается вопрос поддержки IMAP. Доступ же к веб-почте, вроде Yahoo-mail или HotMail легко обеспечивается через пакет web2pop, который позволяет работать с этими сервисами через The Bat! или Eudora.

«

What is POPFile?
POPFile is an automatic Naïve Bayesian email classifier created by John Graham-Cumming. Although it is typically used for spam classification, it can also be used for general email sorting. Typically, spam filtering users of POPFile are getting near 98-100% effectiveness with very few false positives.

How does POPFile work?
Magic. Well, that and an old, but powerful mathematical technique known as Bayes Theorem (to be precise, Naïve Bayes). POPFile uses the algorithm to quickly break down messages into words, parse attachments and filter out HTML to automatically sort a message into different “buckets”. Your email client can then transfer the messages into different mailboxes based on the bucket classification. POPFile learns by determining the messages characteristics associated with each bucket. Functionally, it works as an email proxy, sitting between your email client and your email server. Commands generated by your email client are passed through POPFile directly to the server. POPFile works all of its magic as the messages are retrieved.

What separates this project from other Naïve Bayesian email classifiers?
A few things actually... Firstly, POPFile is not tied to a certain brand or type of email client or server (although it currently only works via POP3). POPFile is written in Perl. As Perl is available for a wide array of platforms, POPFile is compatible with a very wide array of computers. It is a highly configurable email classifier, not limited to spam filtering. When used for spam classification, it isn't limited to a simple "spam", "non-spam" classification. POPFile doesn't force users to use heavyhanded approaches like blacklists, which can be problematic when they make a mistake. Just to name a few differences…

Другие возможности:

  • неограниченное количество почтовых аккаунтов (требуется только перенастроить для каждого аккаунта почтовый клиент, не трогая POPfile)
  • „быстрое“ обучение путём скармливания анализатору базы спама или, напротив, нужных рассылок или архивов списка рассылки
  • поддержка „белых списков“ (ключи в теме, адресе получателя или отправителя)
  • настройка через веб-интерфейс:
    • создание, переименование и удаление „вёдер“-категорий
    • просмотр статистики по каждой категории
    • отмена и принудительное указание категории для отдельных писем („обучение“ анализатора)
    • просмотр каждого письма с выводом сведений о том, почему письмо классифицировано именно так
    • создание и удаление записей „белого списка“
    • изменение номеров порта для POP3 и веб-интерфейса
    • включение/выключение добавления идентификатора категории в поле темы и служебные заголовки
    • настройки безопасности (доступ к POP3/HTTP с других компьютеров, пароль к веб-интерфейсу)
  • возможность каскадного встраивания вместе в антивирусами или брандмауэрами
  • поддержка внешних модулей расширения
  • ограничение доступа:
    • по умолчанию закрыт доступ извне к прокси POP3
    • по умолчанию закрыт доступ извне к веб-интерфейсу по HTTP
    • возможно установить пароль для доступа к веб-интерфейсу

POPfile:

Дополнительный пакет для доступа к веб-почте web2pop:

Ссылки по теме:

Ну что, под лжекат, мои маленькие друзья?

Subscribe
  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments