МоёМесто.ru :: Ссылка

Определение нечетких дубликатов для коротких документов / Разработка / Хабрахабр

в блог

Определение нечетких дубликатов для коротких документов / Разработка / Хабрахабр

добавил: Денис Быков

27 июня 2009

комментировать

метки: алгоритмы нечеткие дубликаты

сохранили 2 раза

Определение нечетких дубликатов для коротких документов

в блог

Хочу поделиться простым, но эффективным алгоритмом определения нечетких копий документов. Есть много статей об использовании для этой цели алгоритма шинглов. Ходят слухи, что большие поисковые системы используют очень похожий алгоритм у себя. Однако, все признают, что шинглы плохо подходят для коротких (3-5 предложений) документов. А в моей задаче надо было работать именно с такими документами. В качестве решения предлагают закольцовывать текст, чтобы как бы сделать из него длинный, но мне кажет..

добавил: ukko

26 февраля 2009

комментировать

метки: habrahabr алгоритмы нечеткие дубликаты

сохранили 2 раза