Великий /robots.txt керівництво для SEO

  1. Вступ до /robots.txt
  2. Правила дійсні /robots.txt
  3. Заборонити:
  4. Дозволити:
  5. Затримка сканування:
  6. Sitemap:
  7. Загальні /obots.txt
  8. Дозволити повний доступ
  9. Заблокувати весь доступ
  10. Заборонити певну папку
  11. Заборонити певний файл
  12. Додати мапу сайту
  13. Поширені помилки
  14. Загальні User-агент
  15. Часті питання про /robots.txt
  16. У моїй /robots.txt немає файлу Sitemap, чи слід додати його?
  17. Чи враховуються регістри регістрів?
  18. Чи враховуються регістр / регістр?
  19. Як перевірити зміни до файлів /robots.txt?

Це керівництво "від початківця до просунутого" до /robots.txt. Кожна інструкція містить рекомендації щодо поширених помилок і помилок. Написаний для початку SEO і маркетологів, але повний корисної інформації для людей з усіх рівнів знань.

Вступ до /robots.txt

Стандарт /robots.txt дозволяє власникам веб-сайтів надавати інструкції роботам, які відвідують їхні веб-сайти. Це може бути запит не сканувати певну частину веб-сайту або інструкцію, де можна знайти XML-карту сайту.

Файл /robots.txt - це звичайний текстовий файл з простими інструкціями, які завжди розміщуються на тому ж місці веб-сайту:

Як це працює?

Роботи, наприклад, від Google, перевіряють, чи має веб-сайт файл /robots.txt, перш ніж він спочатку сканує веб-сайт. Він шукає правила, специфічні для користувача-агента (Googlebot). Якщо нічого не знайдено, то він слідує загальним правилам User-agent.

Правила дійсні /robots.txt

User-agent:

У кожного робота є власний агент користувача. Це, по суті, назва для робота, що дозволяє надати певним роботам доступ до файлів, а інші - не.

  • User-agent: * = Будь-який робот
  • User-agent: Google = Пошук Google
  • User-agent: Googlebot-Image = зображення Google
  • User-agent: AhrefsBot = веб-сканер Ahrefs

Важливо : Робот звертає увагу лише на найбільш специфічну групу інструкцій. У наведеному нижче прикладі є дві інструкції користувача-агента. Один для "будь-якого робота" і один для "DuckDuckBot". DuckDuckBot буде тільки дивитися на власні інструкції (і ігнорувати інші правила) і буде виглядати в інших папках, як / api /.

Агент користувача: * Disallow: / cgi-bin / Disallow: / tmp / Disallow: / api / User-agent: DuckDuckBot Disallow: / duckhunt /

Заборонити:

За допомогою правила "Заборонити" ви можете легко блокувати цілі розділи вашого веб-сайту з індексування в пошукових системах. Ви також можете заблокувати доступ до всього сайту для всіх або окремих ботів. Залежно від ваших потреб, це може бути корисним для динамічних, тимчасових або вхідних розділів вашого сайту.

User-agent: * # Блок / cms та будь-які файли в ньому Disallow: / cms # Block / images / resized (/ images все ще дозволено) Disallow: / images / resized /

Щоб полегшити це, можна скористатися шаблоном для блокування складних URL-адрес.

  • * = будь-яка послідовність символів
  • $ = Відповідає закінченню URL-адреси

User-agent: * # Блокувати URL-адреси, що починаються з / photo, як # / photos # / фото / огляд Disallow: / photo # Блокувати URL-адреси, починаючи з / blog / і закінчуючи / stats / Disallow: / blog / * / stats $

(Хеш-символ - це спосіб додати коментарі. Роботи ігноруватимуть ці.)

Важливо: Не блокуйте файли CSS або JavaScript. Пошукові системи потребують цього, щоб належним чином відобразити ваш сайт.

Дозволити:

За допомогою правила "Дозволити" можна розблокувати підкаталог, який заблоковано правилом заборони. Це може бути корисним, якщо ви заборонили частину (або весь сайт), але хочете дозволити певні файли / папки.

User-agent: * # Блокувати доступ до всього в папці адміністратора Disallow: / admin # Крім /admin/css/style.css Дозволити: /admin/css/style.css # І все в папці / admin / js. Подобається: # /admin/js/global.js # /admin/js/ajax/update.js Дозволити: / admin / js /

Інше використання - надання доступу до конкретних роботів.

# Заборонити доступ до всіх роботів User-agent: * Disallow: / # Крім Googlebot User-agent: Googlebot Дозволити: /

Затримка сканування:

Якщо робот використовує занадто багато ресурсів на веб-сайті, ви можете сповільнити їх сканування за допомогою правила затримки сканування.

User-agent: * Crawl-delay: 5

Оскільки це не є офіційною частиною стандарту, то реалізація змінюється залежно від робота. Загалом: чим вища цифра, тим менше обсяг вашого сайту буде скануватися.

  • Google (Googlebot) ігнорує цю команду. Ви можете змінити швидкість сканування в Консоль пошуку .
  • Baidu ігнорує цю команду. Це можна змінювати за допомогою функції "Інструменти для веб-майстрів", але наразі вона недоступна англійською мовою.
  • Bing (BingBot) розглядає це "вікно часу", протягом якого BingBot сканує ваш веб-сайт лише один раз.
  • Яндекс (YandexBot) кількість секунд, що чекає між скануваннями.

Важливо : Якщо Robots.txt містить високу перевірку затримки сканування, щоб переконатися, що ваш сайт індексується вчасно. Оскільки в день є 86400 секунд, Crawl-Delay: 30 - це 2880 сторінок, які скануються на день, що може бути занадто мало для великих сайтів.

Sitemap:

Одним з основних способів використання файлу /robots.txt (для SEO) є оголошення мапи сайту. Це робиться шляхом додавання наступного рядка за повним URL-адресою.

Мапа сайту: https://www.example.com/sitemap.xml Карта сайту: https://www.example.com/blog-sitemap.xml

Якщо у вас є кілька файлів Sitemap, їх можна додати з новим правилом.

Речі, які слід пам'ятати

  • Мапа сайту повинна починатися з капіталу S.
  • Карта сайту не залежить від інструкцій користувача-агента.
  • Посилання має бути повною URL-адресою. Не можна використовувати відносний шлях.

Переконайтеся, що посилання повертає заголовок HTTP 200 OK (без перенаправлень).

Загальні /obots.txt

Це деякі загальні шаблони /robots.txt, які можна використовувати для своїх веб-сайтів.

Дозволити повний доступ

Не блокуйте робота для доступу до вашого сайту, залишивши порожнє правило Disallow.

Користувач - агент: * Disallow:

Заблокувати весь доступ

User-agent: * Disallow: /

Заборонити певну папку

User-agent: * Disallow: / admin /

Заборонити певний файл

Агент користувача: * Disallow: /images/my-embarrassing-photo.png

Додати мапу сайту

Мапа сайту: https://www.example.com/sitemap.xml

Поширені помилки

Налаштування користувацьких правил агента користувача без повторення правил Disallow

Завдяки тому, що /robots.txt працює, якщо ви встановили користувальницький агент для бота, він буде дотримуватися лише тих правил, які ви встановили для нього. Звичайно помилка полягає в тому, щоб мати розширені правила Disallow для шаблону (`*`) і пізніше додати нове правило без повторення цих правил заборони.

# (Змінена версія IMDb /robots.txt) # # Обмеження швидкості сканування ScoutJet # Агент користувача: ScoutJet Crawl-delay: 3 # # # # Усі інші # Агент користувача: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Заборонити: / ads / Disallow: / AlternateVersions Disallow: / AName Disallow: / Нагороди Disallow: / BAgent Disallow: / Вибори / # # Карта сайту: http://www.imdb.com/sitemap_US_index.xml. gz

The /robots.txt для IMDb має широкі правила Disallow, але вони не повторюються для ScoutJet . Надання боту доступу до всіх папок.

Загальні User-агент

Шукаєте конкретного робота? Це найчастіше використовувані агенти користувача /robots.txt.

User-agent # Google [Детальніше] Googlebot Регулярний пошук Google бот Googlebot-Image Google Images робот Bing [Детальніше] Bingbot Регулярний пошуковий бот Bing MSNBot Старий сканер для Bing, але все ще використовується MSNBot-Media Crawler для зображень Bing BingPreview Створення знімка сторінки [Детальніше] Яндекс [Детальніше] YandexBot Регулярний пошуковий бот Yandex YandexImages Гусеничний для Yandex Images Baidu [Детальніше] Baiduspider Головна пошук павука для Baidu Baiduspider-image Гусениця для Baidu Зображення Applebot Crawler для Apple. Використовується для пропозицій Siri і Spotlight. Інструменти для SEO AhrefsBot Webcrawler для Ahrefs MJ12Bot Webcrawler для Majestic rogerbot Webcrawler для Moz Різне DuckDuckBot Webcrawler для DuckDuckGo

Існують дві загальні знаки, які широко підтримуються. Зірочки *, які відповідають будь-якій послідовності символів і $, яка відповідає кінця URL-адреси.

Заблокувати певні типи файлів

User-agent: * # Блокування файлів, що закінчуються на .json # Зірочками дозволяється будь-яке ім'я файлу. Знак долара гарантує, що він відповідає лише кінця URL-адреси, а не незвично форматованого URL-адреси * .json $

Заблокувати будь-яку URL-адресу за допомогою кнопки?

User-agent: * # Блокувати всі URL-адреси, які містять знак запитання Disallow: / *?

Заблокувати сторінки результатів пошуку (але не саму сторінку пошуку)

User-agent: * # Блок результатів пошуку блоків Disallow: /search.php?query=*

Часті питання про /robots.txt

Чи дійсно потрібен файл /robots.txt?

Так. Хоча ви можете отримати файл без /obots.txt, це розумно завжди створювати його. Хороші боти завжди намагатимуться відвідати файл /robots.txt. Якщо у вас немає жодного, ваші журнали серверів будуть заповнені 404 помилками. Якщо ви хочете, ви можете просто створити порожній файл.

У моїй /robots.txt немає файлу Sitemap, чи слід додати його?

Так. Хоча ви, безумовно, маєте подати свою карту сайту за допомогою консолі пошуку Google, це розумна ідея також додати її до вашого файлу robots.txt. Це просто зробити і рятує вас від подання вашої мапи сайту до всіх пошукових систем (Google, Bing, Yandex, Baidu мають свої власні інструменти для веб-майстрів). Це також допомагає іншим (без пошукової системи) сканерам знаходити вашу мапу сайту.

Чи враховуються регістри регістрів?

Як і більшість URL-адрес, правила Disallow і Allow чутливі до регістру. Переконайтеся, що ваші правила є такими ж, як і ваші URL-адреси.

User-agent: * # / користувачі все ще будуть скануватися, оскільки справа не відповідає Disallow: / Users

Чи враховуються регістр / регістр?

Самі інструкції не чутливі до регістру. Ви можете вказати правило як Disallow: або disallow :.

Як перевірити зміни до файлів /robots.txt?

Це керівництво від початківця до просунутого до /robots

Тестер /robots.txt на консолі пошуку Google дозволяє перевірити, чи можна сканувати певну сторінку.

Є кілька безкоштовних парсерів /robots.txt, але найнадійніший - через Консоль пошуку Google . У ньому міститься розширений інструмент, в якому можна ввести URL-адресу та перевірити, чи дозволено Google сканувати її.

Txt немає файлу Sitemap, чи слід додати його?
Чи враховуються регістри регістрів?
Чи враховуються регістр / регістр?
Txt?
User-agent: * # Блокувати всі URL-адреси, які містять знак запитання Disallow: / *?
Php?
Txt?
Txt немає файлу Sitemap, чи слід додати його?
Чи враховуються регістри регістрів?
Txt?