Файл robots.txt: что он означает и зачем нужен сайту?

Файл robots.txt, а также карта sitemap.xml – два обязательных файла для любого сайта. Сегодня рассмотрим первый: зачем он нужен, как его настраивать, в чем ценность файла и как он влияет на продвижение сайтов. Забегая наперед: хороших результатов в раскрутке без такого «робота» можно не ждать.

Содержание:

Что такое robots.txt?

Это файл, который еще называют индексным. По сути это текстовый документ (что понятно из расширения), актуальный для протоколов http, https, FTP. Файл заполнен символами UTF-8.

Предназначение файла — это перечень рекомендаций для ботов поисковых систем. В нем указано, какие страницы сайта нужно прочитать, а какие — проигнорировать. По требованиям Google, размер файла не должен превышать 500 Кб.

Стандартное расположение файла — корневой каталог сайта. Пример адреса, по которому доступен этот файл: https://site.com/robots.txt.

Что видит поисковый бот, когда обрабатывает файл robots.txt? Ему доступна одна из этих инструкций:

  • рекомендован частичный доступ, можно просканировать указанные части сайта;
  • разрешено полное сканирование;
  • сканирование полностью запрещено.

При полном и частичном доступе, в процессе сканирования бот поисковика может получить следующие ответы:

  • 2хх — удачное сканирование;
  • 3хх — переход по переадресации, до пяти попыток и регистрация ошибки 404 при отсутствии ответа;
  • 4хх — разрешено полное сканирование (по мнению бота);
  • 5хх — сервер выдает временные ошибки, полное сканирование запрещено. Бот будет делать попытки получить доступ к файлу, пока это не получится.

Зачем сайту файл robots.txt?

Можно смоделировать ситуацию: есть сайт, собирающий и хранящий пользовательскую информацию. Естественно, что ее нельзя сканировать и делать доступной в выдаче. То же самое касается страниц с формами для отправки данных, результатов поиска, сайтов-зеркал и т.п.

Но важно понять: рекомендации, которые содержит файл robots.txt на сайте могут быть проигнорированы. Например, на запрещенную к сканированию страницу будет вести ссылка, есть вероятность, что эта страница будет проиндексирована.

Но в целом — если у сайта нет robots.txt, бот будет сканировать все страницы, и все они теоретически могут попасть в выдачу.  Это приведет ко многим негативным последствиям: от утечки данных до замусоривания выдачи и падения позиций из-за этого. Кстати, ранее мы уже рассказывали, как дубли страниц на сайте могут отразиться на позициях.

Как и в чем написать robots.txt?

Как создать файл robots.txt?

Подойдет любой текстовый редактор: например, Блокнот в Windows или Notepad. В нем нужно прописать инструкции для поисковых роботов: главные и второстепенные. Начнем с главных.

User-agent

Это «визитная карточка» для бота. Рассказывает о том, какие из поисковых роботов должны просмотреть все инструкции, указанные в файле. Сейчас известно более 300 поисковых ботов. Нет смысла упоминать каждый в файле, поэтому обычно пишут так:

User-agent: *

Символ звездочки указывает, что правила в файле актуальны для всех поисковых ботов.

Если указать только конкретное название робота, остальные будут считать, что файл пустой. Например:

User-agent: Googlebot

Говорит о том, что требования файла стоит учитывать боту поисковика Google, остальные же боты будут сканировать сайт по своим директивам, воспринимая robots.txt как пустой.

Disallow

Инструкция с рекомендациями о том, что не нужно сканировать. Например, если прописать:

Disallow:

Это будет означать, что можно сканировать полностью весь сайт. А этот вариант:

Disallow: /

Полностью запрещает сканирование. Его стоит использовать, если сайт в разработке или на реконструкции. Такой вариант:

Disallow: /statya.html

Запрещает сканировать конкретную ссылку.

Allow

По этой инструкции разрешается сканирование конкретной страницы, директивы или файла. Например, если прописать:

Allow: /catalog
Disallow: /

Роботу будет рекомендовано сканировать только те страницы, что начинаются с /catalog.

Host

Инструкция для поискового робота Yandex — обязательная для проектов, которым нужно Яндекс продвижение. Сообщает, какое именно зеркало сайта нужно индексировать. Стоит напомнить, что зеркало — полный или частичный дубль сайта, доступный по другому URL.

Если прописать host, робот не запутается и будет индексировать указанный в файле сайт. Пример употребления:

Host: site.com

или 

Host: https://site.com

Sitemap 

Инструкция нужна, чтобы сообщить роботам: все ссылки сайта, подходящие для индексации, расположены здесь: http://site.com/sitemap.xml. В итоге бот, при каждой проверке будет посещать карту сайта и смотреть, что в ней изменилось. На основе этих данных он будет актуализировать данные в поисковой базе.

Символика robots.txt

Символика robots.txt

Мы уже выяснили, что символ * указывает на любую последовательность. Например, открывает доступ к правилам для всех ботов в инструкции User-agent.

Символ / закрывает (запрещает) действие — например, сканирование при употреблении Disallow.

Символ $ ограничивает действие символа *.

А # предназначен для того, чтобы оставлять комментарии в файле. Роботы не видят текст, оставленный после «решетки».

Файл robots.txt: Пример

Приведем «универсально-идеальный» вариант файла, который подходит для любого сайта:

User-agent: *
Disallow:
Sitemap: http://site.com/sitemap.xml

В файле открыто содержимое сайта для сканирования всеми поисковыми ботами, дана ссылка на карту сайта. Естественно, что напрямую брать и копировать эти команды не нужно: стоит учитывать индивидуальные особенности конкретного сайта.

Как понять, что файл правильный?

У Google есть специальный инструмент. Достаточно указать в форме код файла и дать ссылку на сайт. После проверки система перечислит, какие моменты считает непонятными или ошибочными.

6 ошибок при составлении robots.txt

Что лучше не делать:

  • Путать инструкции.
  • Перечислять в Disallow несколько папок (нужна отдельная инструкция для каждой директории).
  • Экспериментировать с названием файла. Только robots.txt, и не иначе.
  • Не заполнять User-agent.
  • Ставить лишние знаки.
  • Разрешить индексирование лишних страниц.

Заключение

Грамотно составленные инструкции в robots.txt — залог правильного сканирования сайта, отсутствия «мусора» в выдаче. Поисковые роботы обычно прислушиваются к этим инструкциям, что защищает владельца сайта от многих проблем.

Еще новости

Вадим Мельник
Вадим Мельник
05:51 20 Aug 21
спасибо за работу, отлично продвинули сайт, что положительно повлияло на звонки клиентов
Александр Лынка
Александр Лынка
19:11 06 Jun 21
Спасибо команде специалистов за высокое качество работы, профессионализм и отличное отношение к клиентам!
Oleg Omelchenko
Oleg Omelchenko
19:11 06 Jun 21
Лучшее соотношение цены и качества выполненной работы.
Алексей Шевченко
Алексей Шевченко
12:49 18 May 21
Ребята настоящие профессионалы своего дела!
See All Reviews

    ТМ Расткрутка сайтов - продвижение





    Мы проанализируем Ваш сайт и укажем слабые места

    Вверх