Obszerny przewodnik /robots.txt dla SEO

  1. Wprowadzenie do /robots.txt
  2. Poprawne reguły /robots.txt
  3. Zakazać:
  4. Dopuszczać:
  5. Opóźnienie indeksowania:
  6. Mapa witryny:
  7. Wspólne /robots.txt
  8. Zezwól na pełny dostęp
  9. Zablokuj cały dostęp
  10. Zabroń określonego folderu
  11. Nie zezwalaj na określony plik
  12. Dodaj mapę witryny
  13. Częste błędy
  14. Typowe aplikacje użytkownika
  15. Często zadawane pytania dotyczące /robots.txt
  16. Mój /robots.txt nie ma mapy witryny, czy powinienem ją dodać?
  17. Czy w katalogach jest rozróżniana wielkość liter?
  18. Czy w polu / instrukcjach jest rozróżniana wielkość liter?
  19. Jak mogę przetestować zmiany w plikach /robots.txt?

To jest przewodnik „od początkującego do zaawansowanego” na stronie /robots.txt. Każda instrukcja zawiera porady dotyczące typowych błędów i pułapek. Napisany dla początkujących SEO i marketerów, ale pełen pomocnych informacji dla ludzi z różnych poziomów wiedzy.

Wprowadzenie do /robots.txt

Standard /robots.txt pozwala właścicielom stron internetowych wydawać instrukcje robotom odwiedzającym ich strony internetowe. Może to być prośba o nie indeksowanie określonej części strony internetowej lub instrukcji, gdzie znaleźć mapę witryny XML.

Plik /robots.txt to zwykły plik tekstowy z prostymi instrukcjami zawsze umieszczonymi w tej samej lokalizacji witryny:

Jak to działa?

Roboty na przykład z Google sprawdzają, czy witryna ma plik /robots.txt, zanim najpierw przeszukuje stronę. Szuka reguł specyficznych dla swojego agenta użytkownika (Googlebot). Jeśli żadna nie zostanie znaleziona, stosuje się do ogólnych reguł User-agent.

Poprawne reguły /robots.txt

Agent użytkownika:

Każdy robot ma własnego agenta użytkownika. Jest to w zasadzie nazwa robota, która pozwala na uzyskanie dostępu do plików dla niektórych botów, a innych nie.

  • User-agent: * = Dowolny robot
  • User-agent: Google = wyszukiwarka Google
  • User-agent: Googlebot-Image = Google images
  • User-agent: AhrefsBot = Ahrefs webcrawler

Ważne : Robot zwróci uwagę na najbardziej konkretną grupę instrukcji. W poniższym przykładzie są dwie instrukcje User-agent. Jeden dla „dowolnego robota” i jeden dla „DuckDuckBot”. DuckDuckBot obejrzy tylko własne instrukcje (i zignoruje inne reguły) i zajrzy do innych folderów, takich jak / api /.

User-agent: * Disallow: / cgi-bin / Disallow: / tmp / Disallow: / api / User-agent: DuckDuckBot Disallow: / duckhunt /

Zakazać:

Dzięki regule Disallow można łatwo zablokować indeksowanie całych sekcji witryny w wyszukiwarkach. Możesz także zablokować dostęp do całej witryny dla wszystkich lub określonych botów. W zależności od potrzeb może to być przydatne w przypadku dynamicznych, tymczasowych lub zabezpieczonych sekcji witryny.

User-agent: * # Blok / cms i wszystkie pliki w nim Disallow: / cms # Block / images / resized (/ obrazy są nadal dozwolone) Disallow: / images / resized /

Aby to ułatwić, możesz użyć dopasowywania wzorców, aby zablokować złożone adresy URL.

  • * = dowolny ciąg znaków
  • $ = Dopasuj koniec adresu URL

User-agent: * # Blokowanie adresów URL zaczynających się od / photo jak # / photos # / photo / overview Disallow: / photo # Blokowanie adresów URL zaczynających się od / blog / i kończących się na / stats / Disallow: / blog / * / stats $

(Symbol skrótu to sposób dodawania komentarzy. Roboty będą je ignorować.)

Ważne: nie blokuj plików CSS lub JavaScript. Wyszukiwarki potrzebują tego do prawidłowego renderowania witryny.

Dopuszczać:

Z regułą Zezwól możesz odblokować podkatalog, który jest blokowany przez regułę zakazu. Może to być przydatne, jeśli zabroniłeś części (lub całej) witryny, ale chcesz zezwolić na określone pliki / foldery.

User-agent: * # Blokuj dostęp do wszystkiego w folderze admin Disallow: / admin # Z wyjątkiem /admin/css/style.css Allow: /admin/css/style.css # I wszystko w folderze / admin / js. Jak: # /admin/js/global.js # /admin/js/ajax/update.js Zezwól: / admin / js /

Innym zastosowaniem jest udostępnienie określonych robotów.

# Odmów dostępu do wszystkich robotów User-agent: * Disallow: / # Z wyjątkiem Googlebota User-agent: Googlebot Zezwól: /

Opóźnienie indeksowania:

Jeśli robot używa zbyt wielu zasobów w witrynie, możesz spowolnić ich indeksowanie za pomocą reguły opóźnienia indeksowania.

User-agent: * Opóźnienie indeksowania: 5

Ponieważ nie jest to oficjalna część standardu, implementacja zmienia się w zależności od robota. Ogólnie: im wyższa liczba, tym mniej razy Twoja witryna zostanie zaindeksowana.

  • Google (Googlebot) ignoruje to polecenie. Możesz modyfikować szybkość indeksowania w Konsola wyszukiwania .
  • Baidu ignoruje to polecenie. Możliwe jest modyfikowanie przy użyciu funkcji Narzędzi dla webmasterów, ale obecnie nie jest dostępna w języku angielskim.
  • Bing (BingBot) traktuje to jako „okno czasowe”, w którym BingBot będzie indeksował Twoją witrynę tylko raz.
  • Yandex (YandexBot) liczba sekund oczekiwania między indeksowaniem.

Ważne : jeśli plik Robots.txt zawiera wysoką kontrolę opóźnienia indeksowania, aby upewnić się, że witryna jest indeksowana w odpowiednim czasie. Ponieważ w ciągu dnia jest 86400 sekund, indeksowanie: 30 to 2880 stron indeksowanych dziennie, co może być zbyt małe dla dużych witryn.

Mapa witryny:

Jednym z głównych zastosowań pliku /robots.txt (dla SEO) jest deklarowanie mapy witryny. Odbywa się to poprzez dodanie następującego wiersza, po którym następuje pełny adres URL.

Mapa witryny: https://www.example.com/sitemap.xml Mapa witryny: https://www.example.com/blog-sitemap.xml

Jeśli masz wiele map witryn, możesz dodać je z nową regułą.

O czym należy pamiętać

  • Mapa witryny musi rozpoczynać się od dużej litery S.
  • Mapa witryny jest niezależna od instrukcji agenta użytkownika.
  • Link musi być pełnym adresem URL. Nie możesz użyć ścieżki względnej.

Upewnij się, że łącze zwraca nagłówek HTTP 200 OK (bez przekierowań).

Wspólne /robots.txt

Oto niektóre popularne szablony /robots.txt, których możesz używać w swoich witrynach.

Zezwól na pełny dostęp

Nie blokuj żadnego robota za dostęp do Twojej witryny, pozostawiając pustą regułę Disallow.

Użytkownik - agent: * Disallow:

Zablokuj cały dostęp

User-agent: * Disallow: /

Zabroń określonego folderu

User-agent: * Disallow: / admin /

Nie zezwalaj na określony plik

User-agent: * Disallow: /images/my-embarrassing-photo.png

Dodaj mapę witryny

Mapa witryny: https://www.example.com/sitemap.xml

Częste błędy

Ustawianie niestandardowych reguł agenta użytkownika bez powtarzania reguł Disallow

Ze względu na sposób działania /robots.txt, jeśli ustawisz niestandardowego agenta użytkownika dla bota, będzie on działał tylko zgodnie z regułami, które dla niego ustawiłeś. Powszechnie popełnianym błędem jest posiadanie zaawansowanych reguł Disallow dla symboli wieloznacznych (`*`), a później dodawanie nowej reguły bez powtarzania tych reguł Disallow.

# (Redacted version of IMDb /robots.txt) # # Ogranicz szybkość indeksowania ScoutJet # User-agent: ScoutJet Opóźnienie indeksowania: 3 # # # # Wszyscy inni # User-agent: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Disallow: / ads / Disallow: / AlternateVersions Disallow: / AName Disallow: / Awards Disallow: / BAgent Disallow: / Ballot / # # Sitemap: http://www.imdb.com/sitemap_US_index.xml. gz

The /robots.txt dla IMDb ma obszerne zasady Disallow, ale nie są one powtarzane dla ScoutJet . Dając temu botowi dostęp do wszystkich folderów.

Typowe aplikacje użytkownika

Szukasz konkretnego robota? Są to najczęściej używane programy użytkownika /robots.txt.

Agent użytkownika # Google [więcej szczegółów] Googlebot Regularne wyszukiwanie Google bot Googlebot-Image Robot Google Images Bing [więcej szczegółów] Bingbot Regular Bing search bot MSNBot Old crawler for Bing, ale nadal używany MSNBot-Media Crawler for Bing Images BingPreview Page Snapshot Creator [więcej szczegółów] Yandex [więcej szczegółów] YandexBot Regular Yandex bot wyszukiwania YandexImages Crawler dla Yandex Images Baidu [więcej szczegółów] Baiduspider Główny pająk wyszukiwania dla Baidu Baiduspider-image Crawler dla Baidu Images Applebot Crawler dla Apple. Używany do sugestii Siri i Spotlight. Narzędzia SEO AhrefsBot Webcrawler dla Ahrefs MJ12Bot Webcrawler dla Majestic rogerbot Webcrawler dla Moz Misc DuckDuckBot Webcrawler dla DuckDuckGo

Istnieją dwa powszechnie stosowane symbole wieloznaczne. Gwiazdki * pasujące do dowolnej sekwencji znaków i $ pasujące do końca adresu URL.

Blokuj określone typy plików

User-agent: * # Zablokuj pliki kończące się na .json # Gwiazdki dopuszczają dowolną nazwę pliku # Znak dolara zapewnia, że ​​pasuje tylko do końca adresu URL, a nie dziwnie sformatowanego adresu URL (np. /Locations.json.html) Disallow: / * .json $

Zablokuj dowolny adres URL za pomocą?

User-agent: * # Zablokuj wszystkie adresy URL zawierające znak zapytania Disallow: / *?

Blokuj strony wyników wyszukiwania (ale nie samą stronę wyszukiwania)

User-agent: * # Zablokuj stronę wyników wyszukiwania Disallow: /search.php?query=*

Często zadawane pytania dotyczące /robots.txt

Czy naprawdę potrzebuję pliku /robots.txt?

Tak. Chociaż można uzyskać bez pliku /robots.txt, zawsze warto go utworzyć. Dobre boty zawsze będą próbowały odwiedzić Twój plik /robots.txt. Jeśli nie masz, dzienniki serwera wypełnią się błędami 404. Jeśli chcesz, możesz po prostu utworzyć pusty plik.

Mój /robots.txt nie ma mapy witryny, czy powinienem ją dodać?

Tak. Podczas gdy zdecydowanie powinieneś przesłać mapę witryny za pomocą Google Search Console, dobrym pomysłem jest również dodanie jej do robots.txt. Jest to proste i oszczędza przed wysyłaniem mapy witryny do wszystkich wyszukiwarek (Google, Bing, Yandex, Baidu mają wszystkie własne narzędzia dla webmasterów). Pomaga także innym robotom indeksującym (innym niż wyszukiwarki) w znalezieniu mapy witryny.

Czy w katalogach jest rozróżniana wielkość liter?

Podobnie jak większość adresów URL, reguły Disallow i Allow uwzględniają wielkość liter. Upewnij się, że reguły są takie same jak adresy URL.

User-agent: * # / użytkownicy będą nadal przeszukiwani, ponieważ sprawa nie pasuje do Disallow: / Users

Czy w polu / instrukcjach jest rozróżniana wielkość liter?

Same instrukcje nie uwzględniają wielkości liter. Możesz określić regułę jako Disallow: lub disallow :.

Jak mogę przetestować zmiany w plikach /robots.txt?

To jest przewodnik „od początkującego do zaawansowanego” na stronie /robots

Tester /robots.txt w Google Search Console umożliwia sprawdzenie, czy dana strona jest indeksowana.

Istnieje kilka darmowych parserów /robots.txt w Internecie, ale najbardziej niezawodny sposób to via Google Search Console . Zawiera zaawansowane narzędzie, w którym możesz wprowadzić adres URL i sprawdzić, czy Google może go indeksować.

Txt nie ma mapy witryny, czy powinienem ją dodać?
Czy w katalogach jest rozróżniana wielkość liter?
Czy w polu / instrukcjach jest rozróżniana wielkość liter?
Txt?
User-agent: * # Zablokuj wszystkie adresy URL zawierające znak zapytania Disallow: / *?
Php?
Txt?
Txt nie ma mapy witryny, czy powinienem ją dodać?
Czy w katalogach jest rozróżniana wielkość liter?
Txt?