четверг, 5 марта 2015 г.

Поиск текстов, не соответствующих тематике и нахождение похожих статей @habrahabr



У меня есть сайт со статьями схожей тематики. На сайте было две проблемы: спамерские сообщения и дубликаты статей, причём дубликаты часто являлись не точными копиями.



Данный пост повествует о том, как я решил эти проблемы.



Дано:


  • общее количество статей 140 000;

  • количество спама: примерно 5%;

  • количество не чётких дубликатов: примерно 75%;




Задача: избавиться от спама и дубликатов, а так же не допустить их дальнейшего появления.







Читать дальше →



via Хабрахабр / Интересные / Тематические публикации http://ift.tt/1ERaTcD

Комментариев нет:

Отправить комментарий