Лемматизация текста и удаление дублей фраз
У вас уже есть аккаунт? Авторизоваться.
Самый трудоемкий этап работы с семантическим ядром — чистка от «мусора» (нецелевых ключей) и дублей. Наш онлайн сервис автоматизирует чистку ядра от дублирующих фраз: находит повторяющиеся ключевые слова, словоформы, фразы с перестановкой слов.
С точки зрения поисковых систем, запросы [купить квартиру в Москве] и [купить квартиру Москва] означают одно и то же. При индексировании документа они приводятся к начальной словоформе – лемме. Этот процесс называется лемматизация. При формировании семантического ядра, анализа списка запросов, работе с контекстной рекламой важно удалить дубли ключей.
Сервис позволяет отфильтровать и удалить полные дубли (повторяющиеся строки) или условные дубли — фразы с перестановкой слов, словоформы. А также лемматизирует слова — приводит их к начальной форме.
Удаление дубликатов строк проводится по алгоритму, с учетом выбранных функций:
Программа делит фразы на фрагменты (шинглы).
Преобразует каждый из шинглов в лемму (начальную форму).
Сравнивает получившиеся фразы, удаляет дубли.
Инструмент позволяет менять настройки, чтобы эффективно решать задачи пользователя:
Для удобства анализа и работы с выходными данными имеется возможность выгрузить результаты в формате CSV, как перед процессом проверки, так и после неё. Файл с источниками открывается в Excel для дальнейшей работы.
Сервис лемматизирует слова, то есть приводит их к первоначальной словарной форме. Например, существительные — к форме единственного числа именительного падежа, глаголы — к инфинитиву.
Основная функция сервиса — удаление дубликатов:
Чтобы запустить поиск дубликатов, введите список поисковых запросов (не более 5 000 строк) и отметьте в чекбоксах нужные функции. Если выбрана опция «лемматизировать фразы», введите список исключений. Это могут быть аббревиатуры, бренды, термины.
Поиск и удаление дубликатов занимает несколько секунд.
Удаленные запросы отражены в отдельной таблице.
Сервис находит самые частотные запросы и формирует из них отдельную таблицу. Значение в правой колонке — число вхождений слова в итоговом списке запросов.
За каждую проверку списывается 5 лимитов, независимо от количества строк. Результат можно скачать в виде CSV-файла и пользоваться им как таблицей Excel.
Сервис полезен вебмастерам, семантикам, SEO-специалистам, маркетологам, контекстологам при сборе семантического ядра, аналитике запросов, настройке рекламы.
Другие сервисы Пиксель Тулс, которые могут быть вам полезны:
Укажите домен вашего сайта, приоритетные регионы продвижения и получите самый
полный список точек взрывного роста трафика и заявок с вашего сайта