:: urbansheep (urbansheep) wrote,
:: urbansheep
urbansheep

Naive Bayesian для классификации

Мне тут подумалось, что Naive Bayesian алгоритм, применяемый, в частности, в POPfile, о которой я уже писал, можно использовать для эвристической категоризации/классификации текстов. Например, если натравить его на выборку из архива Sigia-l (взять, скажем 5-7 сотых процента всех писем), рассортировать эту выборку, потом прогнать следующую выборку, уже объёмом в процент, посмотреть, как себя поведёт система, и так, постепенно увеличивающимися выборками прошерстить весь архив, растянув его на тематические блоки.

Естественно, будет много мусора, вроде однословных писем „yeah“ или „you suck, peter morville“, но в целом, при работе на достаточно больших текстах можно получить интересный результат.

 
 

Subscribe
  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 21 comments