Шырокае кіраўніцтва /robots.txt для аптымізатараў

  1. Ўвядзенне ў /robots.txt
  2. Дапушчальныя правілы /robots.txt
  3. Disallow:
  4. дазволіць:
  5. Crawl затрымкі:
  6. Карта сайта:
  7. агульныя /robots.txt
  8. Дазволіць поўны доступ
  9. заблакаваць доступ
  10. Забараняе пэўную тэчку
  11. Забараняе пэўны файл
  12. Дадаць карту сайта
  13. распаўсюджаныя памылкі
  14. Common User-агент
  15. Часта задаюць пытанні аб /robots.txt
  16. Мой /robots.txt не мае Sitemap, я павінен дадаць адзін?
  17. Існуюць каталогі адчувальныя да рэгістра?
  18. Ёсць поле / інструкцыі адчувальныя да рэгістра?
  19. Як я магу праверыць змены ў /robots.txt файлы?

Гэта «ад пачаткоўца да прасунутага» кіраўніцтва па /robots.txt. Кожная інструкцыя змяшчае рэкамендацыі па распаўсюджаных памылак і падводных камянёў. Напісаны для пачаткоўцаў аптымізатараў і маркетолагаў, але поўна карыснай інфармацыі для людзей усіх узроўняў ведаў.

Ўвядзенне ў /robots.txt

Стандарт /robots.txt дазваляе ўладальнікам вэб-сайтаў, каб даць інструкцыі для робатаў, якія наведваюць іх сайты. Гэта можа быць запыт, каб не поўзаць пэўную частку вэб-сайта або інструкцыю, дзе знайсці XML карты сайта.

/Robots.txt ўяўляе сабой звычайны тэкставы файл з простымі інструкцыямі заўсёды размешчаны на тым жа месцы на сайце:

Як гэта працуе?

А робаты з, напрыклад, Google правярае, ці з'яўляецца вэб-сайт мае /robots.txt файл перад першым вылазіць сайт. Ён шукае правілы, спецыфічныя для іх агента карыстальніка (Googlebot). Калі ніхто не знайшоў, што гэта варта агульных правілах User-Agent.

Дапушчальныя правілы /robots.txt

Агент карыстальніка:

Кожны робат мае ўласны карыстацкі агент. Гэта, па сутнасці імя для робата, які дазваляе вам даць вызначаным ботам доступ да файлаў і іншым няма.

  • Агент карыстальніка: * = Любы робат
  • Агент карыстальніка: Google = пошук Google
  • User-Agent: Googlebot-Image = Google малюнка
  • User-Agent: AhrefsBot = Ahrefs WebCrawler

Важна: Робат будзе звяртаць увагу толькі на найбольш спецыфічную групу інструкцый. У прыведзеным ніжэй прыкладзе ёсць дзве інструкцыі User-Agent. Адзін для «любога робата» і адзін для «DuckDuckBot». DuckDuckBot будзе глядзець толькі на яго ўласнай інструкцыі (і ігнараваць іншыя правілы) і будзе выглядаць у іншых тэчках , як / API /.

User-Agent: * Disallow: / CGI-BIN / Disallow: / TMP / Disallow: / АПА / User-агент: DuckDuckBot Disallow: / duckhunt /

Disallow:

З правілам Disallow вы можаце лёгка заблакаваць усе раздзелы вашага сайта ад індэксацыі ў пошукавых сістэмах. Вы можаце таксама блакаваць доступ да ўсяго сайце для ўсіх ці канкрэтных ботаў. У залежнасці ад вашых патрэбаў, гэта можа быць карысна з дынамічным, часовым або ўвайсці ў абароненыя раздзелы сайта.

User-Agent: * # Block / CMS і любыя файлы ў ёй Disallow: / КМВ # Блокавыя / малюнка / змены памеру (/ малюнкаў па-ранейшаму дазваляецца) Disallow: / малюнкаў / змяніць памер /

Для палягчэння гэтай задачы можна выкарыстоўваць шаблон-сопрягая блакаваць складаныя URL.

  • * = Любая паслядоўнасць знакаў
  • $ = Супастаўце канец з URL

User-Agent: * # заблякаваныя URL, якія пачынаюцца з / фота як # / фота # / фота / агляд Disallow: / фота # заблякаваныя URL, якія пачынаюцца з / блог / і заканчваючы / Статыстыка / Disallow: / блог / * / Статыстыка $

(Сімвал Хэш ўяўляе сабой спосаб, каб дадаваць каментары. Робаты будуць ігнараваць іх.)

Важна: Не зачыняйце свой CSS або файлы JavaScript. Пошукавыя сістэмы гэта трэба правільна адлюстроўваўся ваш сайт.

дазволіць:

З дазвалялым правілам вы можаце разблакаваць падкаталог, які блакуецца правіла Disallow. Гэта можа быць карысна, калі вы Недапушчальнае частка (або увесь) сайта, але хочаце, каб пэўныя файлы / тэчкі.

User-Agent: * # Блакаваць доступ да ўсяго, у Disallow тэчку адміністратара: / адмін # Акрамя /admin/css/style.css Allow: /admin/css/style.css # І ўсё ў / адмін / JS тэчку. Як: # /admin/js/global.js # /admin/js/ajax/update.js Allow: / адміністратар / JS /

Іншы спосаб выкарыстання дае доступ да пэўных робатам.

# Забараніць доступ да ўсіх робатам User-Agent: * Disallow: / # Акрамя Googlebot User-Agent: Googlebot Allow: /

Crawl затрымкі:

Калі робат выкарыстоўвае занадта шмат рэсурсаў на вэб-сайце вы можаце запаволіць іх поўзанне з правілам абыходу затрымкі.

User-Agent: * Абыход затрымкі: 5

Бо гэта не з'яўляецца афіцыйнай часткай стандарту рэалізацыі змяняецца ў залежнасці ад робата. У цэлым: чым вышэй лік, тым менш раз ваш сайт будзе атрымліваць папоўз.

  • Google (Googlebot) ігнаруе гэтую каманду. Вы можаце змяніць хуткасць сканавання ў пошук кансолі ,
  • Baidu ігнаруе гэтую каманду. Гэта цалкам магчыма змяніць пры дапамозе маюць свае інструменты для вэб-майстроў, але гэта ў цяперашні час не даступны на англійскай мове.
  • Bing (BingBot) разглядае гэта «часовае акно», на працягу якога BingBot будзе сканаваць ваш вэб-сайт толькі адзін раз.
  • Яндэкс (YandexBot) колькасць секунд чакання паміж абыходамі.

Важна: Калі Robots.txt ўтрымлівае высокую праверку Crawl затрымкі , каб пераканацца , што ваш сайт індэксуецца своечасова. Так як ёсць 86400 секунд у дзень Crawl-Delay: 30 2880 старонкі папаўзлі у дзень , які можа быць занадта мала для вялікіх сайтаў.

Карта сайта:

Адным з асноўных відаў выкарыстання /robots.txt файла (для аптымізатараў) дэкларуюць карты сайта (ов). Гэта робіцца шляхам дадання наступнага радка з наступнай поўнай URL.

Карта сайта: карта сайта https://www.example.com/sitemap.xml: https://www.example.com/blog-sitemap.xml

Калі ў вас ёсць некалькі сайтмепов вы можаце дадаць іх з новым правілам.

Што трэба мець на ўвазе ,

  • Карта сайта павінна пачынацца з загалоўнай літары S.
  • Карта сайта не залежыць ад інструкцый карыстальніка агента.
  • Спасылка павінна быць поўны URL. Вы не можаце выкарыстоўваць адносны шлях.

Пераканайцеся, што спасылка вяртае HTTP 200 OK загалоўка (не перанакіроўвае).

агульныя /robots.txt

Такія некаторыя агульныя /robots.txt шаблоны, якія можна выкарыстоўваць для вашых сайтаў.

Дазволіць поўны доступ

Не блакаваць робатаў для доступу да вэб-сайт, пакідаючы пустое правіла Disallow.

Карыстальнік - агент: * Disallow:

заблакаваць доступ

User-Agent: * Disallow: /

Забараняе пэўную тэчку

User-Agent: * Disallow: / адміністратар /

Забараняе пэўны файл

User-Agent: * Disallow: /images/my-embarrassing-photo.png

Дадаць карту сайта

Карта сайта: https://www.example.com/sitemap.xml

распаўсюджаныя памылкі

Налада карыстацкіх правілаў User-Agent без паўтарэння правілаў Disallow

З-за спосабу /robots.txt працаваць, калі вы ўсталюеце карыстацкі User-Agent для бота ён будзе толькі прытрымлівацца правілах, зададзеных для яго. Шырока зроблена памылка складаецца ў тым, каб вылучалі правілы Disallow для падстаноўкі ( `` *), а затым дадаць новае правіла, без паўтарэння гэтых правілаў Disallow.

# (Адрэдагаваць версіі IMDb /robots.txt) хуткасць сканавання # User-агента # # Абмежаваць ScoutJet у: ScoutJet Crawl Затрымка: 3 # # # # # Усе астатнія User-Agent: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Disallow: / рэклама / Disallow: / AlternateVersions Disallow: / AName Disallow: / Узнагароды Disallow: / Баджент Disallow: / Бюлетэні / # # Карта сайта: http://www.imdb.com/sitemap_US_index.xml. GZ

/robots.txt для IMDb мае шырокія правілы Disallow , але яны не паўтараюцца для ScoutJet. Прадастаўленне, што доступ бот да ўсіх тэчках.

Common User-агент

У пошуках канкрэтнага робата? Гэта найбольш часта выкарыстоўваецца /robots.txt User-агенты.

Агент карыстальніка # Google [Падрабязней] Googlebot Regular Google пошук бот Googlebot-Image Google Images робат Bing [Падрабязней] Bingbot Звычайнага пошук Bing бот MSNBot Старыя гусенічны для Bing, але ўсё яшчэ ў выкарыстанні MSNbot-Media Crawler для Bing Images BingPreview Page Snapshot стваральніка [Падрабязней] Яндэкс [Падрабязней] YandexBot Regular Яндэкс пошук бот YandexImages Гусенічны для Яндэкса малюнкаў Baidu [Падрабязней] Baiduspider Галоўны пошук павук для Crawler Baidu Baiduspider-малюнкі для Baidu малюнка Applebot Crawler для Apple. Выкарыстоўваецца для Siri і Spotlight Прапановы. Інструменты SEO AhrefsBot Webcrawler для Ahrefs MJ12Bot Webcrawler для Мажестик rogerbot Webcrawler для Мос Рознае DuckDuckBot Webcrawler для DuckDuckGo

Ёсць два падстаноўныя шырока падтрымліваюцца. Зорачкі *, каб адпавядаць любой паслядоўнасці знакаў і $, які адпавядае канца з URL.

Блок канкрэтных тыпаў файлаў

User-Agent: * # Блакаваць файлы, якія сканчаюцца на .json # зорачкамі дазваляе любое імя файла # Знак даляра гарантуе, што адпавядае толькі канец з URL, а не дзіўна адфарматаваны URL (напрыклад, /locations.json.html) Disallow: / * .json $

Блок любы URL з мікрасхемай?

User-Agent: * # Блакаваць усе адрасы, якія ўтрымліваюць знак пытання Disallow: / *?

Вынік пошуку блокаў старонкі (але не пошук старонка сам па сабе)

User-Agent: * # Блок старонка вынікаў пошуку Disallow: /search.php?query=*

Часта задаюць пытанні аб /robots.txt

Я сапраўды патрэбен файл /robots.txt ці што?

Так. У той час як вы можаце атрымаць без файла /robots.txt гэта разумна, каб заўсёды ствараць. Добрыя боты заўсёды будуць спрабаваць наведаць ваш файл /robots.txt. Калі вы не адзін логі сервера запоўніцца 404 памылак. Калі вы хочаце, вы можаце проста стварыць пусты файл.

Мой /robots.txt не мае Sitemap, я павінен дадаць адзін?

Так. У той час як вы вызначана павінны прадставіць вашу карту сайта з дапамогай Google Search Console, гэта добрая ідэя, каб дадаць яго ў файл robots.txt. Гэта проста зрабіць , і пазбавіць вас ад прадстаўлення вашага сайта ў пошукавых сістэмах без дарослых (Google, Bing, Yandex, Baidu ўсе яны маюць свае ўласныя інструменты для вэб - майстроў). Яна таксама дапамагае іншым (не ў пошукавых сістэмах) Сканеры ад знаходжання вашага сайта.

Існуюць каталогі адчувальныя да рэгістра?

Як і большасць URL-адрасоў, Disallow і Allow правілы адчувальныя да рэгістра. Пераканайцеся, што вашыя правілы такі ж выпадак, як вашыя URL.

User-Agent: * # / карыстальнікі будуць па-ранейшаму паўзлі, бо справа не адпавядае Disallow: / Users

Ёсць поле / інструкцыі адчувальныя да рэгістра?

Самі інструкцыі не адчувальныя да рэгістра. Вы можаце задаць правіла, як Disallow: ці забараніць:.

Як я магу праверыць змены ў /robots.txt файлы?

Гэта «ад пачаткоўца да прасунутага» кіраўніцтва па /robots

/Robots.txt тэстар на Google Search Console дазваляе праверыць, ці з'яўляецца канкрэтная старонка сканіравацца.

Ёсць некалькі бясплатных /robots.txt парсераў ў Інтэрнэце, але самы надзейны шлях праз Google Search Console , Гэта ўтрымлівае прасунуты інструмент, дзе вы можаце ўвесці URL і праверыць, калі Google дазволена сканаваць яго.

Txt не мае Sitemap, я павінен дадаць адзін?
Існуюць каталогі адчувальныя да рэгістра?
Ёсць поле / інструкцыі адчувальныя да рэгістра?
Txt файлы?
User-Agent: * # Блакаваць усе адрасы, якія ўтрымліваюць знак пытання Disallow: / *?
Php?
Txt ці што?
Txt не мае Sitemap, я павінен дадаць адзін?
Існуюць каталогі адчувальныя да рэгістра?
Txt файлы?