Коэффициенты сходства. Мера Жаккара. Коэффициент Танимото

Продолжая серию статей, посвященных обработке текстов, я бы хотел обратить внимание на такую тему как определение меры схожести текстов или отдельных слов.

Каждый день мы пользуемся поисковыми системами, задавая наши запросы на естественном языке. Однако не все из нас одинаково хорошо дружат с орфографией, а некоторые просто делают опечатки. Мы можем этого даже не заметить. Но мы всегда требуем от поисковой машины хороших, релевантных результатов по нашему запросу. В ином случае просто ругаемся, проклиная создателей и разработчиков.

 

Мера Жаккара.

Начиная с этой статьи, мы рассматриваем коэффициенты сходства – как меру сходства слов на основе общих символов, а также редакционные расстояния.

Я делаю запрос и пишу в поисковой строке слово “собака”. Тем временем, мой сосед тоже любит собак и делает тот же поисковый запрос, но оказался менее грамотным, написав слово с ошибкой, например, “cАбака”. Нелегкое дело быть системой поиска! И не поругать, и не укорить! Дать бы молодому исследователю ссылку на покупку букваря, но нет, так нельзя. Система должна как-то интерпретировать не совсем верный запрос. Слова то ведь похожи, а наши запросы так и вовсе скорее всего одинаковы! Теперь надо оценить, измерить эту похожесть, выдав количественную оценку степени этой похожести. Вот здесь нам на помощь приходят те самые коэффициенты сходства.

Мера Жаккара или коэффициент сходства – это мера, основанная на использовании информации о множестве общих символов. Считается она как отношение количества уникальных символов в двух множествах (букв в словах) к общему числу уникальных символов в двух множествах (словах).

мера жаккара

В нашем случае количество уникальных символов в обеих строках – 5 символов (повторяющиеся буквы не учитываются, так же, как и не учитывается частота вхождений тех или иных символов). А число уникальных символов, общих для двух строк – 4 символа. Следовательно, в процентном соотношении мера сходства составляет 80%. Вполне удовлетворительно.

 

Коэффициент Танимото.

Еще один способ определения меры схожести двух множеств. Коэффициент Танимото рассчитывается по следующей формуле:

танимото

где T – сам коэффициент, который принимает значения от 0 до 1(чем ближе к 1, тем больше сходство между множествами)

Na – количество элементов в первом множестве

Nb – количество элементов во втором множестве

Nc – количество общих элементов в обоих множествах

На этом наш небольшой очерк, касающийся методом сравнения строк окончен. Возможно, что данный раздел будет расширен.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *