Содержание:
- Дублированные страницы: о чем речь и как их отличают
- Что будет, если оставить дубли страниц на сайте?
- Как находить дублированные страницы?
- Как решать проблему?
- Выводы
Дублированные страницы: о чем речь и как их отличают
Дубль — страница сайта, содержимое которой на 100% или отчасти совпадает с контентом иной страницы на том же ресурсе. Отличия — только в URL-адресах. Они влияют на продвижение сайтов, поэтому важно оперативно устранять их и не допускать появления. Понятно, что никто не делает это специально. Почему возникают дубли страниц на сайте:
- из-за ошибок CMS. Движок может автоматически генерировать копии страниц;
- из-за ошибок вебмастера. К примеру, специалист может выложить одну и ту же товарную страницу в разных категориях;
- из-за перестановок в структуре: допустим, если присвоили новые URL существующим страницам, а старые не удалили.
Полные и частичные дубли страниц
Вы уже знаете как создавать качественный контент, наполняете сайт, однако дублирование может свести все ваши усилия на нет. К полным дублям, что очевидно, относят страницы с полностью совпадающим контентом и с отличающимися URL. Несколько примерных вариантов полных дублей:
- Ссылки с наличием и отсутствием слеша в конце.
- Версии HTTP и HTTPS.
- Версии с www в адресе и без www.
- Дубли с index.php и другими вариантами.
- Наличие разных регистров.
- Отличающаяся иерархия в урлах.
- Использование меток.
- Ошибки в настройках 404.
В частичных копиях страниц контент в целом совпадает, но есть особенности в деталях. Несколько примеров:
- Дубли товарных и категорийных страниц. Возникают из-за совпадения типовых товарных описаний. Поэтому важно не повторять описания в каталоге, используя уникальный контент.
- Копии сортировочных страниц, поиска — везде, где может попадаться похожий контент и отличаться только порядок его размещения.
- Копии страниц, предназначенных для распечатки: когда контент соответствует содержимому основной страницы.
Проблема частичных дублей в том, что их сложнее находить. Но делать это нужно. Почему — рассмотрим далее.
Что будет, если оставить дубли страниц на сайте?
«Коварство» дублей в том, что они появляются на любом сайте, независимо от количества страниц и возраста ресурса. Они (в большинстве случаев) совершенно не мешают пользователям. Но у поисковых роботов своя логика и из-за дублирования раскрутка сайта в поисковиках может обернуться крахом.
Они «видят» разные URL. Значит, под ними должны быть разные страницы. Но если контент на них повторяется, роботы принимают это за ошибку. Последствия могут быть разными:
- проблемы при индексации. Дубли страниц увеличивают размер сайта. Индексация копий напрасно расходует краулинговый бюджет (объем, который может быть просканирован за одно посещение бота). По итогу действительно ценные страницы могут так и не попасть в выдачу;
- падение важных для продвижения страниц в выдаче. Вполне возможно, что алгоритм Google или Яндекс посчитает дубль страницы более подходящим запросу. Или еще хуже: исключит из выдачи обе страницы;
- снижение ссылочного веса продвигаемых страниц — из-за того, что посетители будут давать ссылки на копии, а не на оригинальные страницы.
Как находить дублированные страницы?
Чтобы решить проблему, нужно ее обнаружить. Приведем несколько вариантов поиска копий.
Специальный софт
Его легко найти в интернете. Чтобы сделать предварительный аудит сайта рекомендуем XENU, Screaming_Frog_SEO_Spider, Netpeak Spider и другие. Суть работы — в сканировании сайта, в результате которого удается обнаружить страницы с дублированным содержимым — не только в блоке , но и в метатегах.
Операторы поисковика
Способ подходит для небольших сайтов. С помощью оператора site: реально проверить проиндексированные страницы и поискать дубли среди них. В Google это делается так: запрос «site:example.com», после чего — просмотр страниц из выдачи. Кстати, способ также позволяет обнаружить страницы, которые не должны находиться в выдаче.
Поисковый оператор дает возможность проанализировать выдачу по фрагменту текстового контента со страницы. Способ подходит для единичных случаев: если есть подозрения, что конкретная страницы продублирована. Для этого нужно скопировать часть текста, взять его в кавычки, и далее после пробела написать оператор site: с указанием сайта. Результаты показали одну страницу? Все отлично. Несколько? Нужно изучить каждую и понять, откуда появились дубли.
В выдаче поисковой сети можно проверять содержимое метатега Title. Чтобы сделать это, применяют оператор intitle:. Запрос выглядит следующим образом:
site:example.com intitle:текст title (можно часть)
С помощью операторов site и inurl легко находить копии, образовавшиеся на сортировочных, поисковых страницах. Примеры запросов:
site:example.com inurl:sort
site:example.com inurl:filter, search
Как решать проблему с дублями страниц на сайте?
Есть несколько методов удаления обнаруженных копий страниц.
1. 301 редирект
Главный способ. С помощью 301 редирект можно автоматически переадресовать страницу сайта на нужную. Этого достаточно, чтобы боты увидели: все в порядке, дублей нет. Особенно это важно, если среди причин появления дублей:
- проблемы при использовании слешей;
- разная иерархия ссылок;
- применение разных регистров.
2. Robots.txt
Дает рекомендацию запретить ботам сканировать ненужные страницы. Это делается с помощью директивы Disallow. Но стоит отметить: бот может не послушаться, и страница все равно появится в выдаче.
3. rel=”canonical”
Подходит, если копию страницы нельзя удалить, и нужно оставить его доступным. Это могут быть сортировочные страницы, с utm-метками и пр. Google воспринимает этот атрибут. Указывая при его употреблении канонический URL, владелец сайта демонстрирует, какая страница более важна для индексации.
Выводы
После поиска и удаления внутренних копий страничек лучше провести повторную проверку. Это позволит оценить, насколько эффективным был выбранный метод чистки дублей. И в целом — лучше регулярно выполнять анализ и проверку, чтобы не допускать дубли страниц на сайте.