Файл robots.txt: що він означає і навіщо потрібен сайту?

Файл robots.txt, а також карта sitemap.xml – два обов’язкових файла для будь-якого сайту. У цій статті розглянемо перший: навіщо він потрібен, як його налаштовувати, в чому цінність файлу і як він впливає на просування сайтів. Забігаючи наперед: хороших результатів в розкручуванні без такого «робота» годі й чекати.

Зміст:

Що таке robots.txt?

Це файл, який ще називають індексним. По суті це текстовий документ (що зрозуміло з розширення), актуальний для протоколів http, https, FTP. Файл заповнений символами UTF-8.

Призначення файлу – це перелік рекомендацій для ботів пошукових систем. У ньому зазначено, які сторінки сайту потрібно прочитати, а які – проігнорувати. За вимогами Google, розмір файлу не повинен перевищувати 500 Кб.

Стандартне розташування файлу – кореневий каталог сайту. Приклад адреси, за якою доступний цей файл: https://site.com/robots.txt.

Що бачить пошуковий бот, коли обробляє файл robots.txt? Йому доступна одна з цих інструкцій:

  • рекомендований частковий доступ, можна просканувати зазначені частини сайту;
  • дозволено повне сканування;
  • сканування повністю заборонено.

При повному і частковому доступі, в процесі сканування бот пошукової системи може отримати наступні відповіді:

  • 2хх – вдале сканування;
  • 3хх – перехід по переадресації, до п’яти спроб і реєстрація помилки 404 при відсутності відповіді;
  • 4хх – дозволено повне сканування (на думку бота);
  • 5хх – сервер видає тимчасові помилки, повне сканування заборонено. Бот буде робити спроби отримати доступ до файлу, поки це не вийде.

Можна змоделювати ситуацію: є сайт, який збирає і зберігає для користувача інформацію. Природно, що її не можна сканувати і робити доступною у видачі. Те ж саме стосується сторінок з формами для відправки даних, результатів пошуку, сайтів-дзеркал і т.п.

Але важливо зрозуміти: рекомендації, які містить файл robots.txt на сайті можуть бути проігноровані. Наприклад, якщо на заборонену до сканування сторінку буде вести посилання, є ймовірність, що ця сторінка буде проіндексована.

Але в цілому – якщо у сайту немає robots.txt, бот буде сканувати всі сторінки, і всі вони теоретично можуть потрапити в видачу. Це призведе до багатьох негативних наслідків: від витоку даних до засмічення видачі і падіння позицій через це. До речі, раніше ми вже розповідали, як дублі сторінок на сайті можуть відбитися на позиціях.

Як і в чому написати robots.txt?

Як і в чому написати robots.txt?

Підійде будь-який текстовий редактор: наприклад, Блокнот в Windows або Notepad. У ньому потрібно прописати інструкції для пошукових роботів: головні і другорядні. Почнемо з головних.

User-agent

Це «візитна картка» для бота. Розповідає про те, які з пошукових роботів повинні переглянути всі інструкції, зазначені в файлі. Зараз відомо більше 300 пошукових роботів. Немає сенсу згадувати кожен в файлі, тому зазвичай пишуть так:

User-agent: *

Символ зірочки вказує, що правила в файлі актуальні для всіх пошукових роботів.

Якщо вказати тільки конкретну назву робота, інші будуть вважати, що файл порожній. наприклад:

User-agent: Googlebot

Говорить про те, що вимоги файлу варто враховувати боту пошукача Google, інші ж боти будуть сканувати сайт за своїми директивами, сприймаючи robots.txt як порожній.

Disallow

Інструкція з рекомендаціями про те, що не потрібно сканувати. Наприклад, якщо прописати:

Disallow:

Це буде означати, що можна сканувати повністю весь сайт. А цей варіант:

Disallow: /

Повністю забороняє сканування. Його варто використовувати, якщо сайт в розробці або на реконструкції. Такий варіант:

Disallow: /statya.html

Забороняє сканувати конкретну посилання.

Allow

З цієї інструкції дозволяється сканування конкретної сторінки, директиви або файлу. Наприклад, якщо прописати:

Allow: / catalog
Disallow: /

Роботу буде рекомендовано сканувати тільки ті сторінки, що починаються з /catalog.

Host

Інструкція для пошукового робота Yandex – обов’язкова для проектів, яким потрібно Яндекс просування. Повідомляє, яке саме дзеркало сайту потрібно індексувати. Варто нагадати, що дзеркало – повний або частковий дубль сайту, доступний за іншою URL.

Якщо прописати host, робот не заплутається і буде індексувати вказаний у файлі сайт. Приклад вживання:

Host: site.com

або

Host: https://site.com

Sitemap

Інструкція потрібна, щоб повідомити роботам: всі посилання сайту, які підходять для індексації, розташовані тут: http://site.com/sitemap.xml. В результаті бот при кожній перевірці буде відвідувати карту сайту і дивитися, що в ній змінилося. На основі цих даних він буде актуалізувати дані в пошуковій базі.

Символіка robots.txt

Символика robots.txt

Ми вже з’ясували, що символ * вказує на будь-яку послідовність. Наприклад, відкриває доступ до правил для всіх ботів в інструкції User-agent.

Символ / закриває (забороняє) дію – наприклад, сканування при вживанні Disallow.

Символ $ обмежує дію символу *.

А # призначений для того, щоб залишати коментарі в файлі. Роботи не бачать текст, надісланий після «решітки».

Файл robots.txt: Приклад

Наведемо «універсально-ідеальний» варіант файлу, який підходить для будь-якого сайту:

User-agent: *
Disallow:
Sitemap: http://site.com/sitemap.xml

У файлі відкрито вміст сайту для сканування всіма пошуковими ботами, дано посилання на карту сайту. Природно, що безпосередньо брати і копіювати ці команди не треба: варто враховувати індивідуальні особливості конкретного сайту.

Як зрозуміти, що файл правильний?

У Google є спеціальний інструмент. Досить вказати в формі код файлу і дати посилання на сайт. Після перевірки система перерахує, які моменти вважає незрозумілими або помилковими.

6 помилок при складанні robots.txt

Що краще не робити:

  • Плутати інструкції.
  • Перераховувати в Disallow кілька папок (потрібна окрема інструкція для кожної директорії).
  • Експериментувати з назвою файлу. Тільки robots.txt, і не інакше.
  • Чи не заповнювати User-agent.
  • Ставити зайві знаки.
  • Дозволити індексування зайвих сторінок.

Висновок

Грамотно складені інструкції в robots.txt – запорука правильного сканування сайту, відсутності «сміття» у видачі. Пошукові роботи зазвичай прислухаються до цих інструкцій, що захищає власника сайту від багатьох проблем.

Еще новости

Продвижение сайтов 🥇Raskrutka-saytov.ua
5.0
На основі 4 відгуків
powered by Google
Вадим Мельник
Вадим Мельник
05:51 20 Aug 21
спасибо за работу, отлично продвинули сайт, что положительно повлияло на звонки клиентов
Александр Лынка
Александр Лынка
19:11 06 Jun 21
Спасибо команде специалистов за высокое качество работы, профессионализм и отличное отношение к клиентам!
Oleg Omelchenko
Oleg Omelchenko
19:11 06 Jun 21
Лучшее соотношение цены и качества выполненной работы.
Алексей Шевченко
Алексей Шевченко
12:49 18 May 21
Ребята настоящие профессионалы своего дела!
Переглянути всі відгуки

    ТМ Розкрутка сайтів - просування





    Ми проаналізуємо Ваш сайт і вкажемо слабкі місця

    Вверх