Шырокае кіраўніцтва /robots.txt для аптымізатараў

Ўвядзенне ў /robots.txt
Дапушчальныя правілы /robots.txt
Disallow:
дазволіць:
Crawl затрымкі:
Карта сайта:
агульныя /robots.txt
Дазволіць поўны доступ
заблакаваць доступ
Забараняе пэўную тэчку
Забараняе пэўны файл
Дадаць карту сайта
распаўсюджаныя памылкі
Common User-агент
Часта задаюць пытанні аб /robots.txt
Мой /robots.txt не мае Sitemap, я павінен дадаць адзін?
Існуюць каталогі адчувальныя да рэгістра?
Ёсць поле / інструкцыі адчувальныя да рэгістра?
Як я магу праверыць змены ў /robots.txt файлы?

Гэта «ад пачаткоўца да прасунутага» кіраўніцтва па /robots.txt. Кожная інструкцыя змяшчае рэкамендацыі па распаўсюджаных памылак і падводных камянёў. Напісаны для пачаткоўцаў аптымізатараў і маркетолагаў, але поўна карыснай інфармацыі для людзей усіх узроўняў ведаў.

Ўвядзенне ў /robots.txt

Стандарт /robots.txt дазваляе ўладальнікам вэб-сайтаў, каб даць інструкцыі для робатаў, якія наведваюць іх сайты. Гэта можа быць запыт, каб не поўзаць пэўную частку вэб-сайта або інструкцыю, дзе знайсці XML карты сайта.

/Robots.txt ўяўляе сабой звычайны тэкставы файл з простымі інструкцыямі заўсёды размешчаны на тым жа месцы на сайце:

Як гэта працуе?

А робаты з, напрыклад, Google правярае, ці з'яўляецца вэб-сайт мае /robots.txt файл перад першым вылазіць сайт. Ён шукае правілы, спецыфічныя для іх агента карыстальніка (Googlebot). Калі ніхто не знайшоў, што гэта варта агульных правілах User-Agent.

Дапушчальныя правілы /robots.txt

Агент карыстальніка:

Кожны робат мае ўласны карыстацкі агент. Гэта, па сутнасці імя для робата, які дазваляе вам даць вызначаным ботам доступ да файлаў і іншым няма.

Агент карыстальніка: * = Любы робат
Агент карыстальніка: Google = пошук Google
User-Agent: Googlebot-Image = Google малюнка
User-Agent: AhrefsBot = Ahrefs WebCrawler

Важна: Робат будзе звяртаць увагу толькі на найбольш спецыфічную групу інструкцый. У прыведзеным ніжэй прыкладзе ёсць дзве інструкцыі User-Agent. Адзін для «любога робата» і адзін для «DuckDuckBot». DuckDuckBot будзе глядзець толькі на яго ўласнай інструкцыі (і ігнараваць іншыя правілы) і будзе выглядаць у іншых тэчках , як / API /.

User-Agent: * Disallow: / CGI-BIN / Disallow: / TMP / Disallow: / АПА / User-агент: DuckDuckBot Disallow: / duckhunt /

Disallow:

З правілам Disallow вы можаце лёгка заблакаваць усе раздзелы вашага сайта ад індэксацыі ў пошукавых сістэмах. Вы можаце таксама блакаваць доступ да ўсяго сайце для ўсіх ці канкрэтных ботаў. У залежнасці ад вашых патрэбаў, гэта можа быць карысна з дынамічным, часовым або ўвайсці ў абароненыя раздзелы сайта.

User-Agent: * # Block / CMS і любыя файлы ў ёй Disallow: / КМВ # Блокавыя / малюнка / змены памеру (/ малюнкаў па-ранейшаму дазваляецца) Disallow: / малюнкаў / змяніць памер /

Для палягчэння гэтай задачы можна выкарыстоўваць шаблон-сопрягая блакаваць складаныя URL.

* = Любая паслядоўнасць знакаў
$ = Супастаўце канец з URL

User-Agent: * # заблякаваныя URL, якія пачынаюцца з / фота як # / фота # / фота / агляд Disallow: / фота # заблякаваныя URL, якія пачынаюцца з / блог / і заканчваючы / Статыстыка / Disallow: / блог / * / Статыстыка $

(Сімвал Хэш ўяўляе сабой спосаб, каб дадаваць каментары. Робаты будуць ігнараваць іх.)

Важна: Не зачыняйце свой CSS або файлы JavaScript. Пошукавыя сістэмы гэта трэба правільна адлюстроўваўся ваш сайт.

дазволіць:

З дазвалялым правілам вы можаце разблакаваць падкаталог, які блакуецца правіла Disallow. Гэта можа быць карысна, калі вы Недапушчальнае частка (або увесь) сайта, але хочаце, каб пэўныя файлы / тэчкі.

User-Agent: * # Блакаваць доступ да ўсяго, у Disallow тэчку адміністратара: / адмін # Акрамя /admin/css/style.css Allow: /admin/css/style.css # І ўсё ў / адмін / JS тэчку. Як: # /admin/js/global.js # /admin/js/ajax/update.js Allow: / адміністратар / JS /

Іншы спосаб выкарыстання дае доступ да пэўных робатам.

# Забараніць доступ да ўсіх робатам User-Agent: * Disallow: / # Акрамя Googlebot User-Agent: Googlebot Allow: /

Crawl затрымкі:

Калі робат выкарыстоўвае занадта шмат рэсурсаў на вэб-сайце вы можаце запаволіць іх поўзанне з правілам абыходу затрымкі.

User-Agent: * Абыход затрымкі: 5

Бо гэта не з'яўляецца афіцыйнай часткай стандарту рэалізацыі змяняецца ў залежнасці ад робата. У цэлым: чым вышэй лік, тым менш раз ваш сайт будзе атрымліваць папоўз.

Google (Googlebot) ігнаруе гэтую каманду. Вы можаце змяніць хуткасць сканавання ў пошук кансолі ,
Baidu ігнаруе гэтую каманду. Гэта цалкам магчыма змяніць пры дапамозе маюць свае інструменты для вэб-майстроў, але гэта ў цяперашні час не даступны на англійскай мове.
Bing (BingBot) разглядае гэта «часовае акно», на працягу якога BingBot будзе сканаваць ваш вэб-сайт толькі адзін раз.
Яндэкс (YandexBot) колькасць секунд чакання паміж абыходамі.

Важна: Калі Robots.txt ўтрымлівае высокую праверку Crawl затрымкі , каб пераканацца , што ваш сайт індэксуецца своечасова. Так як ёсць 86400 секунд у дзень Crawl-Delay: 30 2880 старонкі папаўзлі у дзень , які можа быць занадта мала для вялікіх сайтаў.

Карта сайта:

Адным з асноўных відаў выкарыстання /robots.txt файла (для аптымізатараў) дэкларуюць карты сайта (ов). Гэта робіцца шляхам дадання наступнага радка з наступнай поўнай URL.

Карта сайта: карта сайта https://www.example.com/sitemap.xml: https://www.example.com/blog-sitemap.xml

Калі ў вас ёсць некалькі сайтмепов вы можаце дадаць іх з новым правілам.

Што трэба мець на ўвазе ,

Карта сайта павінна пачынацца з загалоўнай літары S.
Карта сайта не залежыць ад інструкцый карыстальніка агента.
Спасылка павінна быць поўны URL. Вы не можаце выкарыстоўваць адносны шлях.

Пераканайцеся, што спасылка вяртае HTTP 200 OK загалоўка (не перанакіроўвае).

агульныя /robots.txt

Такія некаторыя агульныя /robots.txt шаблоны, якія можна выкарыстоўваць для вашых сайтаў.

Дазволіць поўны доступ

Не блакаваць робатаў для доступу да вэб-сайт, пакідаючы пустое правіла Disallow.

Карыстальнік - агент: * Disallow:

заблакаваць доступ

User-Agent: * Disallow: /

Забараняе пэўную тэчку

User-Agent: * Disallow: / адміністратар /

Забараняе пэўны файл

User-Agent: * Disallow: /images/my-embarrassing-photo.png

Дадаць карту сайта

Карта сайта: https://www.example.com/sitemap.xml

распаўсюджаныя памылкі

Налада карыстацкіх правілаў User-Agent без паўтарэння правілаў Disallow

З-за спосабу /robots.txt працаваць, калі вы ўсталюеце карыстацкі User-Agent для бота ён будзе толькі прытрымлівацца правілах, зададзеных для яго. Шырока зроблена памылка складаецца ў тым, каб вылучалі правілы Disallow для падстаноўкі ( `` *), а затым дадаць новае правіла, без паўтарэння гэтых правілаў Disallow.

# (Адрэдагаваць версіі IMDb /robots.txt) хуткасць сканавання # User-агента # # Абмежаваць ScoutJet у: ScoutJet Crawl Затрымка: 3 # # # # # Усе астатнія User-Agent: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Disallow: / рэклама / Disallow: / AlternateVersions Disallow: / AName Disallow: / Узнагароды Disallow: / Баджент Disallow: / Бюлетэні / # # Карта сайта: http://www.imdb.com/sitemap_US_index.xml. GZ

/robots.txt для IMDb мае шырокія правілы Disallow , але яны не паўтараюцца для ScoutJet. Прадастаўленне, што доступ бот да ўсіх тэчках.

Common User-агент

У пошуках канкрэтнага робата? Гэта найбольш часта выкарыстоўваецца /robots.txt User-агенты.

Агент карыстальніка # Google [Падрабязней] Googlebot Regular Google пошук бот Googlebot-Image Google Images робат Bing [Падрабязней] Bingbot Звычайнага пошук Bing бот MSNBot Старыя гусенічны для Bing, але ўсё яшчэ ў выкарыстанні MSNbot-Media Crawler для Bing Images BingPreview Page Snapshot стваральніка [Падрабязней] Яндэкс [Падрабязней] YandexBot Regular Яндэкс пошук бот YandexImages Гусенічны для Яндэкса малюнкаў Baidu [Падрабязней] Baiduspider Галоўны пошук павук для Crawler Baidu Baiduspider-малюнкі для Baidu малюнка Applebot Crawler для Apple. Выкарыстоўваецца для Siri і Spotlight Прапановы. Інструменты SEO AhrefsBot Webcrawler для Ahrefs MJ12Bot Webcrawler для Мажестик rogerbot Webcrawler для Мос Рознае DuckDuckBot Webcrawler для DuckDuckGo

Ёсць два падстаноўныя шырока падтрымліваюцца. Зорачкі *, каб адпавядаць любой паслядоўнасці знакаў і $, які адпавядае канца з URL.

Блок канкрэтных тыпаў файлаў

User-Agent: * # Блакаваць файлы, якія сканчаюцца на .json # зорачкамі дазваляе любое імя файла # Знак даляра гарантуе, што адпавядае толькі канец з URL, а не дзіўна адфарматаваны URL (напрыклад, /locations.json.html) Disallow: / * .json $

Блок любы URL з мікрасхемай?

User-Agent: * # Блакаваць усе адрасы, якія ўтрымліваюць знак пытання Disallow: / *?

Вынік пошуку блокаў старонкі (але не пошук старонка сам па сабе)

User-Agent: * # Блок старонка вынікаў пошуку Disallow: /search.php?query=*

Часта задаюць пытанні аб /robots.txt

Я сапраўды патрэбен файл /robots.txt ці што?

Так. У той час як вы можаце атрымаць без файла /robots.txt гэта разумна, каб заўсёды ствараць. Добрыя боты заўсёды будуць спрабаваць наведаць ваш файл /robots.txt. Калі вы не адзін логі сервера запоўніцца 404 памылак. Калі вы хочаце, вы можаце проста стварыць пусты файл.

Мой /robots.txt не мае Sitemap, я павінен дадаць адзін?

Так. У той час як вы вызначана павінны прадставіць вашу карту сайта з дапамогай Google Search Console, гэта добрая ідэя, каб дадаць яго ў файл robots.txt. Гэта проста зрабіць , і пазбавіць вас ад прадстаўлення вашага сайта ў пошукавых сістэмах без дарослых (Google, Bing, Yandex, Baidu ўсе яны маюць свае ўласныя інструменты для вэб - майстроў). Яна таксама дапамагае іншым (не ў пошукавых сістэмах) Сканеры ад знаходжання вашага сайта.

Існуюць каталогі адчувальныя да рэгістра?

Як і большасць URL-адрасоў, Disallow і Allow правілы адчувальныя да рэгістра. Пераканайцеся, што вашыя правілы такі ж выпадак, як вашыя URL.

User-Agent: * # / карыстальнікі будуць па-ранейшаму паўзлі, бо справа не адпавядае Disallow: / Users

Ёсць поле / інструкцыі адчувальныя да рэгістра?

Самі інструкцыі не адчувальныя да рэгістра. Вы можаце задаць правіла, як Disallow: ці забараніць:.

Як я магу праверыць змены ў /robots.txt файлы?

Гэта «ад пачаткоўца да прасунутага» кіраўніцтва па /robots

/Robots.txt тэстар на Google Search Console дазваляе праверыць, ці з'яўляецца канкрэтная старонка сканіравацца.

Ёсць некалькі бясплатных /robots.txt парсераў ў Інтэрнэце, але самы надзейны шлях праз Google Search Console , Гэта ўтрымлівае прасунуты інструмент, дзе вы можаце ўвесці URL і праверыць, калі Google дазволена сканаваць яго.

Txt не мае Sitemap, я павінен дадаць адзін?
Існуюць каталогі адчувальныя да рэгістра?
Ёсць поле / інструкцыі адчувальныя да рэгістра?
Txt файлы?
User-Agent: * # Блакаваць усе адрасы, якія ўтрымліваюць знак пытання Disallow: / *?
Php?
Txt ці што?
Txt не мае Sitemap, я павінен дадаць адзін?
Існуюць каталогі адчувальныя да рэгістра?
Txt файлы?

Категории

Новости