Поиск

Лемматизация текста и удаление дублей фраз

Список поисковых запросов (от 1 до 200 штук):
Рейтинг инструмента
(41 оценок)

Самый трудоемкий этап работы с семантическим ядром — чистка от «мусора» (нецелевых ключей) и дублей. Наш онлайн сервис автоматизирует чистку ядра от дублирующих фраз: находит повторяющиеся ключевые слова, словоформы, фразы с перестановкой слов.

Для чего используют лемматизатор?

С точки зрения поисковых систем, запросы [купить квартиру в Москве] и [купить квартиру Москва] означают одно и то же. При индексировании документа они приводятся к начальной словоформе – лемме. Этот процесс называется лемматизация. При формировании семантического ядра, анализа списка запросов, работе с контекстной рекламой важно удалить дубли ключей.

Сервис позволяет отфильтровать и удалить полные дубли (повторяющиеся строки) или условные дубли — фразы с перестановкой слов, словоформы. А также лемматизирует слова — приводит их к начальной форме.

Лемматизация текста онлайн - фото 1

Принцип работы онлайн-инструмента

Удаление дубликатов строк проводится по алгоритму, с учетом выбранных функций:

  • 1

    Программа делит фразы на фрагменты (шинглы).

  • 2

    Преобразует каждый из шинглов в лемму (начальную форму).

  • 3

    Сравнивает получившиеся фразы, удаляет дубли.

Вариативность онлайн-проверки

Инструмент позволяет менять настройки, чтобы эффективно решать задачи пользователя:

Лемматизирует фразы или оставляет запросы в той форме, в которой они введены в сервис.
Позволяет убрать полные или условные дубли.
Удаляет дубли с учётом или без учета словоформы.
Можно ввести список запросов, которые не нужно лемматизировать.

Получение результатов анализа в виде CSV‑файла

Для удобства анализа и работы с выходными данными имеется возможность выгрузить результаты в формате CSV, как перед процессом проверки, так и после неё. Файл с источниками открывается в Excel для дальнейшей работы.

Как пользоваться инструментом

Сервис лемматизирует слова, то есть приводит их к первоначальной словарной форме. Например, существительные — к форме единственного числа именительного падежа, глаголы — к инфинитиву.

Основная функция сервиса — удаление дубликатов:

Полных дублей. Имеются в виду одинаковые повторяющиеся строки.
Фраз с перестановкой слов. Например, [купить самокат в Санкт-Петербурге] [самокат купить в Санкт-Петербурге].
Ключей с учётом лемматизации (без учёта словоформы). Например, [купить самокат в Санкт-Петербурге], [купить самокат Санкт-Петербург].
Условных дубликатов с учётом лемматизации. Имеется в виду комбинация всех этих методов.

Чтобы запустить поиск дубликатов, введите список поисковых запросов (не более 5 000 строк) и отметьте в чекбоксах нужные функции. Если выбрана опция «лемматизировать фразы», введите список исключений. Это могут быть аббревиатуры, бренды, термины.

Лемматизация текста онлайн - фото 2

Поиск и удаление дубликатов занимает несколько секунд.

Лемматизация текста онлайн - фото 3

Удаленные запросы отражены в отдельной таблице.

Лемматизация текста онлайн - фото 4

Сервис находит самые частотные запросы и формирует из них отдельную таблицу. Значение в правой колонке — число вхождений слова в итоговом списке запросов.

Лемматизация текста онлайн - фото 5

За каждую проверку списывается 5 лимитов, независимо от количества строк. Результат можно скачать в виде CSV-файла и пользоваться им как таблицей Excel.

Лемматизация текста онлайн - фото 6

Преимущества сервиса

Быстро и точно приводит слова к лемме.
Работает с большими объемами — до 5 000 строк за одну проверку
Несколько вариантов настроек для решения задач пользователя
С результатом можно работать в сервисе или скачать в виде CSV-файла.

Сервис полезен вебмастерам, семантикам, SEO-специалистам, маркетологам, контекстологам при сборе семантического ядра, аналитике запросов, настройке рекламы.

Дополнительные инструменты

Другие сервисы Пиксель Тулс, которые могут быть вам полезны:

Комплексная оценка запросов. Оценивает интент, степень коммерциализации, показывает ТОП-5 слов, которые задают тематику выдачи.
Анализ запроса. Инструмент проверяет SEO-параметры ключевой фразы: геозависимость, степень локализации, наличие витального ответа, общую и точную частотность, число объявлений в Яндекс.Директ, средний возраст документов.
Подбор семантики для сайта или страницы. Сервис собирает семантическое ядро объемом до 100 000 строк. Работает онлайн, не требует капчи. После чистки от мусора и повторяющихся фраз результат можно использовать как ядро для любого сайта, в том числе интернет-магазина.

Узнайте, как увеличить SEO‑трафик сайта в 3+ раза?

Укажите домен вашего сайта, приоритетные регионы продвижения и получите самый
полный список точек взрывного роста трафика и заявок с вашего сайта

Выберите ваш сайт
 
укажите сайт, регион и близких вам конкурентов
Немного магии поисковой
оптимизации —
мы подготовим для вас не менее 25 персональных рекомендаций
Отслеживайте прогресс
 
и получайте регулярные советы, рост трафика и продаж