Файл robots.txt, а также карта sitemap.xml – два обязательных файла для любого сайта. Сегодня рассмотрим первый: зачем он нужен, как его настраивать, в чем ценность файла и как он влияет на продвижение сайтов. Забегая наперед: хороших результатов в раскрутке без такого «робота» можно не ждать.
Содержание:
- Что такое robots.txt?
- Зачем сайту файл robots.txt?
- Как и в чем написать robots.txt?
- Символика robots.txt
- Пример файла robots.txt
- 6 ошибок при составлении robots.txt
Что такое robots.txt?
Это файл, который еще называют индексным. По сути это текстовый документ (что понятно из расширения), актуальный для протоколов http, https, FTP. Файл заполнен символами UTF-8.
Предназначение файла — это перечень рекомендаций для ботов поисковых систем. В нем указано, какие страницы сайта нужно прочитать, а какие — проигнорировать. По требованиям Google, размер файла не должен превышать 500 Кб.
Стандартное расположение файла — корневой каталог сайта. Пример адреса, по которому доступен этот файл: https://site.com/robots.txt.
Что видит поисковый бот, когда обрабатывает файл robots.txt? Ему доступна одна из этих инструкций:
- рекомендован частичный доступ, можно просканировать указанные части сайта;
- разрешено полное сканирование;
- сканирование полностью запрещено.
При полном и частичном доступе, в процессе сканирования бот поисковика может получить следующие ответы:
- 2хх — удачное сканирование;
- 3хх — переход по переадресации, до пяти попыток и регистрация ошибки 404 при отсутствии ответа;
- 4хх — разрешено полное сканирование (по мнению бота);
- 5хх — сервер выдает временные ошибки, полное сканирование запрещено. Бот будет делать попытки получить доступ к файлу, пока это не получится.
Зачем сайту файл robots.txt?
Можно смоделировать ситуацию: есть сайт, собирающий и хранящий пользовательскую информацию. Естественно, что ее нельзя сканировать и делать доступной в выдаче. То же самое касается страниц с формами для отправки данных, результатов поиска, сайтов-зеркал и т.п.
Но важно понять: рекомендации, которые содержит файл robots.txt на сайте могут быть проигнорированы. Например, на запрещенную к сканированию страницу будет вести ссылка, есть вероятность, что эта страница будет проиндексирована.
Но в целом — если у сайта нет robots.txt, бот будет сканировать все страницы, и все они теоретически могут попасть в выдачу. Это приведет ко многим негативным последствиям: от утечки данных до замусоривания выдачи и падения позиций из-за этого. Кстати, ранее мы уже рассказывали, как дубли страниц на сайте могут отразиться на позициях.
Как и в чем написать robots.txt?
Подойдет любой текстовый редактор: например, Блокнот в Windows или Notepad. В нем нужно прописать инструкции для поисковых роботов: главные и второстепенные. Начнем с главных.
User-agent
Это «визитная карточка» для бота. Рассказывает о том, какие из поисковых роботов должны просмотреть все инструкции, указанные в файле. Сейчас известно более 300 поисковых ботов. Нет смысла упоминать каждый в файле, поэтому обычно пишут так:
User-agent: *
Символ звездочки указывает, что правила в файле актуальны для всех поисковых ботов.
Если указать только конкретное название робота, остальные будут считать, что файл пустой. Например:
User-agent: Googlebot
Говорит о том, что требования файла стоит учитывать боту поисковика Google, остальные же боты будут сканировать сайт по своим директивам, воспринимая robots.txt как пустой.
Disallow
Инструкция с рекомендациями о том, что не нужно сканировать. Например, если прописать:
Disallow:
Это будет означать, что можно сканировать полностью весь сайт. А этот вариант:
Disallow: /
Полностью запрещает сканирование. Его стоит использовать, если сайт в разработке или на реконструкции. Такой вариант:
Disallow: /statya.html
Запрещает сканировать конкретную ссылку.
Allow
По этой инструкции разрешается сканирование конкретной страницы, директивы или файла. Например, если прописать:
Allow: /catalog
Disallow: /
Роботу будет рекомендовано сканировать только те страницы, что начинаются с /catalog.
Host
Инструкция для поискового робота Yandex — обязательная для проектов, которым нужно Яндекс продвижение. Сообщает, какое именно зеркало сайта нужно индексировать. Стоит напомнить, что зеркало — полный или частичный дубль сайта, доступный по другому URL.
Если прописать host, робот не запутается и будет индексировать указанный в файле сайт. Пример употребления:
Host: site.com
или
Host: https://site.com
Sitemap
Инструкция нужна, чтобы сообщить роботам: все ссылки сайта, подходящие для индексации, расположены здесь: http://site.com/sitemap.xml. В итоге бот, при каждой проверке будет посещать карту сайта и смотреть, что в ней изменилось. На основе этих данных он будет актуализировать данные в поисковой базе.
Символика robots.txt
Мы уже выяснили, что символ * указывает на любую последовательность. Например, открывает доступ к правилам для всех ботов в инструкции User-agent.
Символ / закрывает (запрещает) действие — например, сканирование при употреблении Disallow.
Символ $ ограничивает действие символа *.
А # предназначен для того, чтобы оставлять комментарии в файле. Роботы не видят текст, оставленный после «решетки».
Файл robots.txt: Пример
Приведем «универсально-идеальный» вариант файла, который подходит для любого сайта:
User-agent: * Disallow: Sitemap: http://site.com/sitemap.xml
В файле открыто содержимое сайта для сканирования всеми поисковыми ботами, дана ссылка на карту сайта. Естественно, что напрямую брать и копировать эти команды не нужно: стоит учитывать индивидуальные особенности конкретного сайта.
Как понять, что файл правильный?
У Google есть специальный инструмент. Достаточно указать в форме код файла и дать ссылку на сайт. После проверки система перечислит, какие моменты считает непонятными или ошибочными.
6 ошибок при составлении robots.txt
Что лучше не делать:
- Путать инструкции.
- Перечислять в Disallow несколько папок (нужна отдельная инструкция для каждой директории).
- Экспериментировать с названием файла. Только robots.txt, и не иначе.
- Не заполнять User-agent.
- Ставить лишние знаки.
- Разрешить индексирование лишних страниц.
Заключение
Грамотно составленные инструкции в robots.txt — залог правильного сканирования сайта, отсутствия «мусора» в выдаче. Поисковые роботы обычно прислушиваются к этим инструкциям, что защищает владельца сайта от многих проблем.