- Ўвядзенне ў /robots.txt
- Дапушчальныя правілы /robots.txt
- Disallow:
- дазволіць:
- Crawl затрымкі:
- Карта сайта:
- агульныя /robots.txt
- Дазволіць поўны доступ
- заблакаваць доступ
- Забараняе пэўную тэчку
- Забараняе пэўны файл
- Дадаць карту сайта
- распаўсюджаныя памылкі
- Common User-агент
- Часта задаюць пытанні аб /robots.txt
- Мой /robots.txt не мае Sitemap, я павінен дадаць адзін?
- Існуюць каталогі адчувальныя да рэгістра?
- Ёсць поле / інструкцыі адчувальныя да рэгістра?
- Як я магу праверыць змены ў /robots.txt файлы?
Гэта «ад пачаткоўца да прасунутага» кіраўніцтва па /robots.txt. Кожная інструкцыя змяшчае рэкамендацыі па распаўсюджаных памылак і падводных камянёў. Напісаны для пачаткоўцаў аптымізатараў і маркетолагаў, але поўна карыснай інфармацыі для людзей усіх узроўняў ведаў.
Ўвядзенне ў /robots.txt
Стандарт /robots.txt дазваляе ўладальнікам вэб-сайтаў, каб даць інструкцыі для робатаў, якія наведваюць іх сайты. Гэта можа быць запыт, каб не поўзаць пэўную частку вэб-сайта або інструкцыю, дзе знайсці XML карты сайта.
/Robots.txt ўяўляе сабой звычайны тэкставы файл з простымі інструкцыямі заўсёды размешчаны на тым жа месцы на сайце:
Як гэта працуе?
А робаты з, напрыклад, Google правярае, ці з'яўляецца вэб-сайт мае /robots.txt файл перад першым вылазіць сайт. Ён шукае правілы, спецыфічныя для іх агента карыстальніка (Googlebot). Калі ніхто не знайшоў, што гэта варта агульных правілах User-Agent.
Дапушчальныя правілы /robots.txt
Агент карыстальніка:
Кожны робат мае ўласны карыстацкі агент. Гэта, па сутнасці імя для робата, які дазваляе вам даць вызначаным ботам доступ да файлаў і іншым няма.
- Агент карыстальніка: * = Любы робат
- Агент карыстальніка: Google = пошук Google
- User-Agent: Googlebot-Image = Google малюнка
- User-Agent: AhrefsBot = Ahrefs WebCrawler
Важна: Робат будзе звяртаць увагу толькі на найбольш спецыфічную групу інструкцый. У прыведзеным ніжэй прыкладзе ёсць дзве інструкцыі User-Agent. Адзін для «любога робата» і адзін для «DuckDuckBot». DuckDuckBot будзе глядзець толькі на яго ўласнай інструкцыі (і ігнараваць іншыя правілы) і будзе выглядаць у іншых тэчках , як / API /.
User-Agent: * Disallow: / CGI-BIN / Disallow: / TMP / Disallow: / АПА / User-агент: DuckDuckBot Disallow: / duckhunt /
Disallow:
З правілам Disallow вы можаце лёгка заблакаваць усе раздзелы вашага сайта ад індэксацыі ў пошукавых сістэмах. Вы можаце таксама блакаваць доступ да ўсяго сайце для ўсіх ці канкрэтных ботаў. У залежнасці ад вашых патрэбаў, гэта можа быць карысна з дынамічным, часовым або ўвайсці ў абароненыя раздзелы сайта.
User-Agent: * # Block / CMS і любыя файлы ў ёй Disallow: / КМВ # Блокавыя / малюнка / змены памеру (/ малюнкаў па-ранейшаму дазваляецца) Disallow: / малюнкаў / змяніць памер /
Для палягчэння гэтай задачы можна выкарыстоўваць шаблон-сопрягая блакаваць складаныя URL.
- * = Любая паслядоўнасць знакаў
- $ = Супастаўце канец з URL
User-Agent: * # заблякаваныя URL, якія пачынаюцца з / фота як # / фота # / фота / агляд Disallow: / фота # заблякаваныя URL, якія пачынаюцца з / блог / і заканчваючы / Статыстыка / Disallow: / блог / * / Статыстыка $
(Сімвал Хэш ўяўляе сабой спосаб, каб дадаваць каментары. Робаты будуць ігнараваць іх.)
Важна: Не зачыняйце свой CSS або файлы JavaScript. Пошукавыя сістэмы гэта трэба правільна адлюстроўваўся ваш сайт.
дазволіць:
З дазвалялым правілам вы можаце разблакаваць падкаталог, які блакуецца правіла Disallow. Гэта можа быць карысна, калі вы Недапушчальнае частка (або увесь) сайта, але хочаце, каб пэўныя файлы / тэчкі.
User-Agent: * # Блакаваць доступ да ўсяго, у Disallow тэчку адміністратара: / адмін # Акрамя /admin/css/style.css Allow: /admin/css/style.css # І ўсё ў / адмін / JS тэчку. Як: # /admin/js/global.js # /admin/js/ajax/update.js Allow: / адміністратар / JS /
Іншы спосаб выкарыстання дае доступ да пэўных робатам.
# Забараніць доступ да ўсіх робатам User-Agent: * Disallow: / # Акрамя Googlebot User-Agent: Googlebot Allow: /
Crawl затрымкі:
Калі робат выкарыстоўвае занадта шмат рэсурсаў на вэб-сайце вы можаце запаволіць іх поўзанне з правілам абыходу затрымкі.
User-Agent: * Абыход затрымкі: 5
Бо гэта не з'яўляецца афіцыйнай часткай стандарту рэалізацыі змяняецца ў залежнасці ад робата. У цэлым: чым вышэй лік, тым менш раз ваш сайт будзе атрымліваць папоўз.
- Google (Googlebot) ігнаруе гэтую каманду. Вы можаце змяніць хуткасць сканавання ў пошук кансолі ,
- Baidu ігнаруе гэтую каманду. Гэта цалкам магчыма змяніць пры дапамозе маюць свае інструменты для вэб-майстроў, але гэта ў цяперашні час не даступны на англійскай мове.
- Bing (BingBot) разглядае гэта «часовае акно», на працягу якога BingBot будзе сканаваць ваш вэб-сайт толькі адзін раз.
- Яндэкс (YandexBot) колькасць секунд чакання паміж абыходамі.
Важна: Калі Robots.txt ўтрымлівае высокую праверку Crawl затрымкі , каб пераканацца , што ваш сайт індэксуецца своечасова. Так як ёсць 86400 секунд у дзень Crawl-Delay: 30 2880 старонкі папаўзлі у дзень , які можа быць занадта мала для вялікіх сайтаў.
Карта сайта:
Адным з асноўных відаў выкарыстання /robots.txt файла (для аптымізатараў) дэкларуюць карты сайта (ов). Гэта робіцца шляхам дадання наступнага радка з наступнай поўнай URL.
Карта сайта: карта сайта https://www.example.com/sitemap.xml: https://www.example.com/blog-sitemap.xml
Калі ў вас ёсць некалькі сайтмепов вы можаце дадаць іх з новым правілам.
Што трэба мець на ўвазе ,
- Карта сайта павінна пачынацца з загалоўнай літары S.
- Карта сайта не залежыць ад інструкцый карыстальніка агента.
- Спасылка павінна быць поўны URL. Вы не можаце выкарыстоўваць адносны шлях.
Пераканайцеся, што спасылка вяртае HTTP 200 OK загалоўка (не перанакіроўвае).
агульныя /robots.txt
Такія некаторыя агульныя /robots.txt шаблоны, якія можна выкарыстоўваць для вашых сайтаў.
Дазволіць поўны доступ
Не блакаваць робатаў для доступу да вэб-сайт, пакідаючы пустое правіла Disallow.
Карыстальнік - агент: * Disallow:
заблакаваць доступ
User-Agent: * Disallow: /
Забараняе пэўную тэчку
User-Agent: * Disallow: / адміністратар /
Забараняе пэўны файл
User-Agent: * Disallow: /images/my-embarrassing-photo.png
Дадаць карту сайта
Карта сайта: https://www.example.com/sitemap.xml
распаўсюджаныя памылкі
Налада карыстацкіх правілаў User-Agent без паўтарэння правілаў Disallow
З-за спосабу /robots.txt працаваць, калі вы ўсталюеце карыстацкі User-Agent для бота ён будзе толькі прытрымлівацца правілах, зададзеных для яго. Шырока зроблена памылка складаецца ў тым, каб вылучалі правілы Disallow для падстаноўкі ( `` *), а затым дадаць новае правіла, без паўтарэння гэтых правілаў Disallow.
# (Адрэдагаваць версіі IMDb /robots.txt) хуткасць сканавання # User-агента # # Абмежаваць ScoutJet у: ScoutJet Crawl Затрымка: 3 # # # # # Усе астатнія User-Agent: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Disallow: / рэклама / Disallow: / AlternateVersions Disallow: / AName Disallow: / Узнагароды Disallow: / Баджент Disallow: / Бюлетэні / # # Карта сайта: http://www.imdb.com/sitemap_US_index.xml. GZ
/robots.txt для IMDb мае шырокія правілы Disallow , але яны не паўтараюцца для ScoutJet. Прадастаўленне, што доступ бот да ўсіх тэчках.
Common User-агент
У пошуках канкрэтнага робата? Гэта найбольш часта выкарыстоўваецца /robots.txt User-агенты.
Агент карыстальніка # Google [Падрабязней] Googlebot Regular Google пошук бот Googlebot-Image Google Images робат Bing [Падрабязней] Bingbot Звычайнага пошук Bing бот MSNBot Старыя гусенічны для Bing, але ўсё яшчэ ў выкарыстанні MSNbot-Media Crawler для Bing Images BingPreview Page Snapshot стваральніка [Падрабязней] Яндэкс [Падрабязней] YandexBot Regular Яндэкс пошук бот YandexImages Гусенічны для Яндэкса малюнкаў Baidu [Падрабязней] Baiduspider Галоўны пошук павук для Crawler Baidu Baiduspider-малюнкі для Baidu малюнка Applebot Crawler для Apple. Выкарыстоўваецца для Siri і Spotlight Прапановы. Інструменты SEO AhrefsBot Webcrawler для Ahrefs MJ12Bot Webcrawler для Мажестик rogerbot Webcrawler для Мос Рознае DuckDuckBot Webcrawler для DuckDuckGo
Ёсць два падстаноўныя шырока падтрымліваюцца. Зорачкі *, каб адпавядаць любой паслядоўнасці знакаў і $, які адпавядае канца з URL.
Блок канкрэтных тыпаў файлаў
User-Agent: * # Блакаваць файлы, якія сканчаюцца на .json # зорачкамі дазваляе любое імя файла # Знак даляра гарантуе, што адпавядае толькі канец з URL, а не дзіўна адфарматаваны URL (напрыклад, /locations.json.html) Disallow: / * .json $
Блок любы URL з мікрасхемай?
User-Agent: * # Блакаваць усе адрасы, якія ўтрымліваюць знак пытання Disallow: / *?
Вынік пошуку блокаў старонкі (але не пошук старонка сам па сабе)
User-Agent: * # Блок старонка вынікаў пошуку Disallow: /search.php?query=*
Часта задаюць пытанні аб /robots.txt
Я сапраўды патрэбен файл /robots.txt ці што?
Так. У той час як вы можаце атрымаць без файла /robots.txt гэта разумна, каб заўсёды ствараць. Добрыя боты заўсёды будуць спрабаваць наведаць ваш файл /robots.txt. Калі вы не адзін логі сервера запоўніцца 404 памылак. Калі вы хочаце, вы можаце проста стварыць пусты файл.
Мой /robots.txt не мае Sitemap, я павінен дадаць адзін?
Так. У той час як вы вызначана павінны прадставіць вашу карту сайта з дапамогай Google Search Console, гэта добрая ідэя, каб дадаць яго ў файл robots.txt. Гэта проста зрабіць , і пазбавіць вас ад прадстаўлення вашага сайта ў пошукавых сістэмах без дарослых (Google, Bing, Yandex, Baidu ўсе яны маюць свае ўласныя інструменты для вэб - майстроў). Яна таксама дапамагае іншым (не ў пошукавых сістэмах) Сканеры ад знаходжання вашага сайта.
Існуюць каталогі адчувальныя да рэгістра?
Як і большасць URL-адрасоў, Disallow і Allow правілы адчувальныя да рэгістра. Пераканайцеся, што вашыя правілы такі ж выпадак, як вашыя URL.
User-Agent: * # / карыстальнікі будуць па-ранейшаму паўзлі, бо справа не адпавядае Disallow: / Users
Ёсць поле / інструкцыі адчувальныя да рэгістра?
Самі інструкцыі не адчувальныя да рэгістра. Вы можаце задаць правіла, як Disallow: ці забараніць:.
Як я магу праверыць змены ў /robots.txt файлы?
![Гэта «ад пачаткоўца да прасунутага» кіраўніцтва па /robots](/wp-content/uploads/2019/12/be-syrokae-kiraunictva-robotstxt-dla-aptymizatarau-1.png)
/Robots.txt тэстар на Google Search Console дазваляе праверыць, ці з'яўляецца канкрэтная старонка сканіравацца.
Ёсць некалькі бясплатных /robots.txt парсераў ў Інтэрнэце, але самы надзейны шлях праз Google Search Console , Гэта ўтрымлівае прасунуты інструмент, дзе вы можаце ўвесці URL і праверыць, калі Google дазволена сканаваць яго.
Txt не мае Sitemap, я павінен дадаць адзін?Існуюць каталогі адчувальныя да рэгістра?
Ёсць поле / інструкцыі адчувальныя да рэгістра?
Txt файлы?
User-Agent: * # Блакаваць усе адрасы, якія ўтрымліваюць знак пытання Disallow: / *?
Php?
Txt ці што?
Txt не мае Sitemap, я павінен дадаць адзін?
Існуюць каталогі адчувальныя да рэгістра?
Txt файлы?