Исходные фразы
Очистить
Уникальные фразы
Очистить
Копировать
20%
40%
60%
80%
Получить уникальные фразы
Помощь

Инструмент позволяет из списка фраз оставить только максимально непохожие фразы, и отсеять дубли и похожие по смыслу фразы.

Например, это полезно при составлении ТЗ копирайтеру на основании анализа заголовков конкурентов. Сначала вы собираете все заголовки, потом этим инструментом отсеиваете дубли и похожие строки. У вас остаются лишь уникальные пункты, из которых вы уже соберете план.

Что такое максимальный % похожести и каким его выбрать?

Максимальный процент похожести - это насколько максимально могут быть похожи фразы, чтобы считаться разными. Чем меньший процент вы ставите, тем жестче отрабатывает алгоритм, и больше фраз удаляет. И наоборот - повышая процент, алгоритм оставляет больше фраз.

Чем длиннее фразы в вашем списке, тем алгоритму легче отработать. Поэтому на длинных фразах вы можете понижать это число до 10-30%, а на коротких - поднимать до 40-80%. Точных значений нет - экспериментируйте на своих данных.

Как определяется похожесть фраз?

Сначала из фразы удаляются предлоги, союзы и прочие малозначающие части речи - это первичная очистка.

Потом используется алгоритм стеммизации слов. Каждое слово в фразах приводится к некой первоначальной форме (например, слова дерево и дерева приведутся к форме дерев. Таким образом каждая фраза представляется в виде множества стемм. Эти множества и сравниваются между собой на похожесть.

Алгоритм работает не идеально, и в сложных случаях может глючить. Но в 90% случаев он неплохо отрабатывает, и показывает хорошие результаты.

Ограничения

Поиск похожести - ресурсоемкая задача. Поэтому для незарегистрированных пользователей максимальное количество строк, которое можно проверить за один раз - 100 фраз.