Навіщо потрібен файл sitemap.xml (карта сайту для роботів) і як з ним працювати. Міфи і реальність

  1. Що таке sitemap і для чого він призначений?
  2. Міфи про карту сайту
  3. 2. Sitemap обов'язковий для всіх сайтів
  4. 3. Якщо вилучити статтю зі свого sitemap, вона випаде з індексу
  5. 4. Обов'язково потрібно налаштовувати все доп. параметри (пріоритет, частота оновлення)
  6. Як правильно працювати з sitemap?
  7. Оцінка повноти і якості індексу
  8. Пошук сторінок, які не приносять трафік
  9. Як краще дати роботам доступ до карти?
  10. резюме

Останнім часом часто доводиться відповідати на питання, пов'язані з файлами sitemap. Сплеск інтересу до цього далеко не найважливішого аспекту оптимізації сайтів пояснюється виходом нової версії Яндекс.Вебмайстер, який позначає відсутність карти сайту як помилку.

У розділі «Можливі проблеми» показується наступне повідомлення:

Немає використовуваних роботом файлів Sitemap
Робот не використовує жодного файлу Sitemap. Це може негативно позначитися на швидкості індексування нових сторінок сайту. Якщо коректні файли Sitemap вже додані в чергу на обробку, повідомлення автоматично зникне з початком їх використання.
Зверніть увагу на розділ «Файли Sitemap».

Так чи страшно це попередження? Чи обов'язково створювати sitemap і якщо так, то для чого? Розкладемо по поличках.

Що таке sitemap і для чого він призначений?

Це файл, який містить список адрес сторінок сайту, сформований за спеціальним (досить простому) стандарту. Детально про нього можна почитати на www.sitemaps.org.

Найчастіше використовується формат xml, який дозволяє вказувати крім самих URL-адрес також деякі їх характеристики (частоту оновлення та зміни, відносну значимість сторінки). Однак можна використовувати і зовсім просту структуру. Це файл txt, що містить список URL (кожен з нового рядка) - і більше нічого.

Призначення списку - надати пошуковим павукам інформацію про наявні на сайті документах. Це допомагає роботу знайти всі сторінки ресурсу і додати їх в результати пошуку. Додаткові дані з xml - це рекомендація пошуковим павукам частіше або рідше відвідувати ті чи інші сторінки. До речі, не чув нічого про те, як ці рекомендації виконуються. Дуже може бути що вони не враховуються взагалі або є значно слабшим сигналом в порівнянні з іншими факторами.

Міфи про карту сайту

1. Досить зробити sitemap.xml - і про індексацію можна не турбуватися

Це найчастіше оману, стикаюся регулярно. Насправді для великих сайтів (сотні тисяч сторінок) повнота індексу - одна з найбільш важливих проблем і простим розміщенням карти сайту вона не вирішується. Карта дає роботу можливість знайти всі сторінки, але це не означає, що а) індексації не завадить щось інше, наприклад, технічні проблеми і б) пошукова система вважатиме сторінку «гідної» бути в пошуку.

Для індексації всіх сторінок навіть відносно невеликого (30 - 50 тисяч сторінок) сайту нерідко доводиться докладати додаткових зусиль. Див. оглядову статтю на цю тему а також опис автоматизованого підходу до прискорення індексації .

2. Sitemap обов'язковий для всіх сайтів

Маленькі проекти (до тисячі сторінок) з більш-менш адекватною структурою, коли можна в пару кліків перейти на будь-яку сторінку, прекрасно себе почувають і без нього. Це зрозуміло як із загальних міркувань (основний механізм знаходження матеріалів для індексації - це переходи по внутрішнім посиланням), так і з практики. Бачив десятки сайтів без карти, які повністю коректно сприймалися роботом.

Нарешті, про те ж говорить Гугл в своїй довідці:

Якщо сторінки файлу коректно пов'язані один з одним, пошукові роботи можуть виявити більшу частину матеріалів. Проте, за допомогою файлу Sitemap можна оптимізувати сканування сайту, особливо в наступних випадках:

  • Розмір сайту дуже великий. Пошукові роботи Google можуть пропустити недавно створені або змінені сторінки.
  • Сайт містить великий архів сторінок, які не пов'язані один з одним. Щоб вони були успішно просканувати, їх можна перерахувати в файлі Sitemap.
  • Ваш сайт створений недавно, і на нього вказує мало посилань. Робот Googlebot і інші пошукові роботи сканують Інтернет, переходячи по посиланнях з однієї сторінки на іншу. Якщо на ваш сайт вказує мало посилань, його буде складного знайти.
  • На сайті використовується мультимедійний контент, він відображається в Новинах Google або використовує інші анотації, сумісні з файлами Sitemap. З файлів Sitemap може отримувати додаткову інформацію для відображення в результатах пошуку.

3. Якщо вилучити статтю зі свого sitemap, вона випаде з індексу

Аналогічно - міф. Стикався з величезною кількістю сайтів, де sitemap відвалювався через технічні проблем або віддавався роботам в сильно урізаному вигляді. Це могло шкодити потрапляння в пошук нових сторінок, але зі старими все було в порядку.

Навпаки, нерідко використовується прийом «видалимо з карти все проіндексувати щоб зосередити увагу робота на нових сторінках». Він дає певний ефект в плані оптимізації краулінга (сканування) сайту. Однак для більшості випадків я не рекомендую його використовувати, про причини див. Нижче.

4. Обов'язково потрібно налаштовувати все доп. параметри (пріоритет, частота оновлення)

Ні. Як уже згадувалося, можна без проблем використовувати звичайний txt-файл зі списком url. Зрозуміло, гірше від вказівки максимуму інформації в карті не буде. Однак:

  1. Немає достовірних даних про те, що пошукові системи дійсно враховують ці інструкції. Взагалі-то Яндекс часто ігнорує навіть куди більш жорстку рекомендацію - заголовок сервера Last-Modified і If-Modified-Since (див. Детальніше ).
  2. Навіть якщо сигнали враховуються строго за заявами пошукових систем - тобто як рекомендація - то виграш в ефективності сканування буде найчастіше дуже незначний. Виняток - по-справжньому великі проекти , Де повнота індексу критична.
  3. Вказівка ​​всіх даних вимагає від SEO-аналітика додаткової кропіткої роботи по підбору їх значень.
  4. Аналогічно, настройка генерації файлу з усіма параметрами - це додаткові витрати на розробку.
  5. Пункти 3 і 4 ще серйозніше, ніж здаються. Адже сайт змінюється, повинні змінюватися і розширені дані, інакше рекомендації стануть неактуальними.

Думаю, на цьому вистачить про міфи, перейдемо до справжніх рекомендацій.

Як правильно працювати з sitemap?

Велика частина необхідних відомостей про створення файлів і надання роботам доступу до них міститься в довідці пошукових систем. Див. допомога Google і Яндекса . Я ж розповім про декілька неочевидних моментах.

По-перше, файл зі списком url сайту, до якого легко отримати доступ, може стати в нагоді не тільки пошуковим роботам. Він вкрай зручний для ряду задач SEO-аналітики.

Пара прикладів.

Оцінка повноти і якості індексу

Раз ми точно знаємо кількість доступних для пошукових систем сторінок (число посилань в карті порахувати нескладно) - значить, можемо швидко оцінити, наскільки повно він проіндексований. Робимо грубу оцінку через оператор «site:" (краще з деякими хитрощами, см. про перевірку індексації в Google ).

Якщо кількість сторінок у видачі менше, ніж в карті - знаходимо ті, що випали з поля роботів і заганяємо їх в пошук - правкою структури, Твіттером ( інструкція ) і т.д.

Якщо більше - то в пошук могли потрапити випадково згенеровані, «сміттєві» сторінки. Їх потрібно знайти і або довести до розуму, або закрити за допомогою robots.txt, canonical, мета-тегів. Знову ж таки, для пошуку зайвого знадобиться список потрібного, ніж та є sitemap.

Пошук сторінок, які не приносять трафік

Якщо сторінка є на сайті, але не приносить нам відвідувачів протягом довгого часу, з нею щось не так. Подібні url потрібно знайти і розібратися в причинах - найчастіше це допомагає здорово підняти трафік.

Як це зробити? Хоч би так:

Будуємо в Метриці звіт по сторінках входу з пошуку за квартал:
Будуємо в Метриці звіт по сторінках входу з пошуку за квартал:

Фільтруємо за джерелом - по одній з пошукових систем, під яку працюємо: Фільтруємо за джерелом - по одній з пошукових систем, під яку працюємо:

І вивантажуємо список сторінок (дані таблиці) в excel.

Тепер нам залишилося:

а) перегнати xml-карту в excel (для цього є море онлайн-конвертерів).

б) використовуючи функції excel знаходимо url, які є в стовпці з карти, але немає в стовпці з Метрики.

Алгоритм виглядає досить громіздко, але нічого складного в ньому немає. А для ледачих цінують свій час (таких як я) є автоматизація процесу. Один зі звітів мого сервісу аналізу сайта як раз перевіряє списки з sitemap за різними параметрами . Наприклад, вчора вийшло оновлення , Де на основі sitemap працює пошук потенційно небезпечних сторінок, які заганяються в індекс посилальним спамом від конкурентів, охочих нашкодити сайту.

Подібних прикладів можна навести ще багато. Суть не в них, а в тому, що мати під рукою актуальний перелік сторінок сайту дуже корисно. До нього можна швидко отримати доступ за допомогою різних сервісів і софта (на крайній випадок - використовуючи excel) і використовувати в процесі оптимізації сайту.

Так що там говорити, навіть стандартний технічний аудит з застосуванням парсеров начебто Screaming Frog робити зручніше, якщо подати на вхід не url головної сторінки, як зазвичай, а sitemap. Процес робиться більш керованим: можна заздалегідь відібрати для аналізу частина сторінок (наприклад, по самому проблемному розділу) і не чекати, поки будуть оброблені інші.

Це був перший не надто очевидний момент.

Як краще дати роботам доступ до карти?

У деяких випадках краще не вказувати посилання на stiemap в robots.txt, а відправляти вручну через Google Search Console і Яндекс.Вебмайстер. Справа в тому, що в robots.txt її може побачити будь-хто. Наприклад, який-небудь злодій, який шукає де Спарс контент. Не варто полегшувати йому завдання.

Якщо дати SEO-параної розгулятися ще сильніше - то приходить думка не використовувати стандартне ім'я (sitemap.xml), а назвати файл як-небудь інакше, щоб її не знайшли, ввівши традиційна назва.

Не скажу, що це особливо критичний рада, але чому б не підстелити соломки, якщо це нескладно?

резюме

  1. Файл sitemap допомагає сайту в плані індексації, але аж ніяк не є панацеєю. Якщо є проблеми з повнотою індексу - їх потрібно вирішувати комплексно.
  2. Використовувати необов'язково, але бажано для великих сайтів і деяких специфічних завдань (див. Вище цитату з довідки Google).
  3. Попередній пункт справедливий по відношенню до завдання «полегшити життя пошуковим роботам». Однак для задач аналізу сайту і прийняття рішень в процесі оптимізації мати під рукою карту зручно практично для всіх сайтів (крім зовсім маленьких).
  4. Найважливіша вимога до sitemap (крім відповідності стандартам) - це повнота і актуальність. Для завдань SEO-аналітики карта виступає як еталон, з яким порівнюють інші списки url-адрес (ті, що в індексі; на які є вхідні посилання; на які є переходи з пошуку і так далі). Тому при створенні потрібно відразу подбати про її регулярне оновлення.
  5. Якщо є необхідність керувати індексацією шляхом видалення вже проіндексованих сторінок з sitemap, то можна мати 2 різних файлу - один віддавати роботам, а іншою тримати для власних потреб з аналізу.

Уф, начебто просте предмет, а стаття майже на 1500 слів. Вітаю себе з її написанням і вас - з прочитанням. Ми обидва небувало посидючіші для епохи соціальних мереж і безперервного відволікання !

Що таке sitemap і для чого він призначений?
Так чи страшно це попередження?
Чи обов'язково створювати sitemap і якщо так, то для чого?
Що таке sitemap і для чого він призначений?
Як правильно працювати з sitemap?
Як це зробити?
Як краще дати роботам доступ до карти?
Не скажу, що це особливо критичний рада, але чому б не підстелити соломки, якщо це нескладно?