- Урл адреси - що це і як вони впливають на індексацію сайту
- URL і URI
- WWW і інші дзеркала сайту, які потрібно склеїти
- Звідки беруться зайві URL-адреси (дублі сторінок) вашого сайту в індексі пошуковиків
- Структура Урл адреси і перекодування в URL-encoded
- Урл адреси у вигляді хеш-посилань, які відкривають сторінку в потрібному місці
Привіт, шановні читачі блогу KtoNaNovenkogo.ru. Сьогодні хочу торкнутися теми формування унікальних URL адрес в інтернеті і розповісти про принципи створення відносних і абсолютних посилань.
Звичайно ж, тема формування урлов або їх більш розширеної версії URI (урі) досить складна, якщо копати глибоко і намагатися дістатися до істини.
Але нам цього і не потрібно, бо досить розуміти структуру URL в її прикладному застосуванні.
Ну і також, я думаю, буде корисно розуміти, для чого і як можна створювати відносні посилання для свого ресурсу, а не використовувати для цих цілей абсолютні, коли в цьому немає явної необхідності.
Урл адреси - що це і як вони впливають на індексацію сайту
Отже, давайте подивимося що таке URL, навіщо він потрібен і з яких частин складається. Як ви знаєте, пошукові системи виробляють індексацію сайтів ні як єдиного цілого, а як сукупність окремих сторінок. Вони потім будуть брати участь в ранжируванні по різних пошукових запитах (читайте докладніше про підбір ключових слів в вордстат на основі статистики запитів Яндекса .
URL і URI
Ну так от, будь-який документ (вебсторінка) в мережі інтернет має свою унікальну адресу URL, який розшифровується як Uniform Resource Locator (визначник місцезнаходження ресурсу). Він, так само як і протокол HTTP, а ще й як мова Html з валідатором W3C , Був розроблений і створений одним і тим же людиною - Тімом Бернерс-Лі (батьком засновником проекту Всесвітня павутина WWW - World Wide Web ).
За великим рахунком URL є окремим випадком іншого ідентифікатора під назвою URI (Uniform Resource Identifier - уніфікований ідентифікатор ресурсу), але нам з вами всі ці тонкощі, швидше за все, будуть не потрібні (зайві) при роботі зі своїм сайтом. Давайте спробуємо в загальних рисах розібратися з тим, що це таке і з яких частин він складається, а потім перейдемо до відносним і абсолютним посиланням.
URL адреса - це спосіб однозначно вказати на щось в інтернеті. Він використовується не тільки для роботи з сайтами ( що це? ) По протоколу http (ще й по ftp), але нас, звичайно ж, буде цікавити саме застосування цього ідентифікатора до Web (протоколи http і https). Урл в цьому випадку буде виглядати приблизно так (трохи нижче я наведу загальну блок-схему його побудови, але поки що хотілося б почати з простого частого прикладу):
https://ktonanovenkogo.ru/papka/fail.html
У цьому прикладі адреси частина з «http» позначає протокол передачі даних або ж, якщо слідувати термінології специфікації, схему (бо той же mailto не є протоколом передачі даних, на відміну від http або ftp, але теж використовується в Урл адресах). Далі в наведеному прикладі слід «ktonanovenkogo.ru» (або ж це може бути «www.ktonanovenkogo.ru») - це так зване доменне ім'я або ж ім'я вузла (хоста) .
WWW і інші дзеркала сайту, які потрібно склеїти
У Web-е є специфіка позначення доменного імені в URL адресі сайту, яке може бути з WWW або без WWW. Для того, щоб успішно можна було розкрутити свій сайт , Дуже важливо склеїти ці два дзеркала вашого сайту з WWW або без нього через 301 редирект . Найчастіше, склейку дзеркал за вас може виконати хостер, але це обов'язково потрібно буде перевірити.
Тобто для пошукових систем сайти з WWW або без оного є абсолютно різними і без їх склеювання, посилальна маса буде ділитися між ними в невідомої вам пропорції. WWW в адресі за своєю суттю - це якийсь атавізм, який робить ваше доменне ім'я другого рівня доменом третього.
Теж справедливо і при переїзді сайту на захищений протокол https з http - для пошукових систем це буде вже інший сайт.
Нічого поганого у використанні WWW в URL сайту немає, але потрібно чітко визначити головне дзеркало (через Яндекс Вебмайстер і через Гугл Вебмастер , А також через прописування директиви Host в файл robots.txt вашого сайту), яке буде індексуватися пошуковими системами і яке буде брати участь в ранжируванні.
У мене, наприклад, головне дзеркало - це «ktonanovenkogo.ru», тобто «Без атавізму», і якщо ви додасте до будь-якого мого УРЛу цю чудо-приставку, то відбудеться автоматичне перенаправлення на адресу «без WWW».
https://www.ktonanovenkogo.ru/papka/fail.html
Склеїти можна не тільки описані вище дзеркала, а й будь-які інші доменні імена, що належать вам. Наприклад, якщо можливе різне написання латинськими літерами будь-якого відомого бренду, то купуються всі можливі домени (варіанти написання з помилками, в різних доменних зонах і т.п.) і склеюються між собою. Тоді, при зверненні до сайту за допомогою одного з можливих URL адрес, буде відкриватися головне дзеркало.
Наприклад, на Рег.ру можна подивитися вільні для реєстрації потенційні дзеркала або звільняються домени (Можете вводити передбачуване ім'я домену прямо в наведену нижче форму):
Звідки беруться зайві URL-адреси (дублі сторінок) вашого сайту в індексі пошуковиків
Але повернемося до наших баранів. Та частина URL, яка розташована за третім слешем (/) - в нашому прикладі це «papka / fail.html» - називається шляхом до конкретного об'єкта (документа або файлу). У нашому випадку це документ «fail.html», який лежить в каталозі «papka», який в свою чергу лежить в кореневій папці (корінь в урле завжди відповідає третьому слешу зліва).
Але це ще не все, що може бути записано в адресі. За допомогою URL різні CMS (системи управління контентом) передають так звані GET параметри, які додаються в самий його кінець після проставляння знака питання, наприклад, так:
https://www.ktonanovenkogo.ru/papka/fail.html?print=yes
Вся біда в тому, що для пошукових систем два таких URL адреси (з і без Get параметрів) є абсолютно різними веб документами і кожен з них буде проіндексований пошуковими системами.
До одного і того ж УРЛу може додаватися вашої Cms скільки завгодно багато різних Get параметрів і все це буде проіндексовано Яндексом і Гуглом, якщо ви не створите відповідні заборони в файлі robots.txt, посилання на статтю про який наведено трохи вище. В іншому випадку пошуковики вас можуть пессімізіровать за велику кількість дубльованого контенту (одного і того ж вмісту, доступного за різними адресами).
Також, наприклад, до головній сторінці мого ресурсу можна звернутися за двома різними Урлам:
https://ktonanovenkogo.ru https://ktonanovenkogo.ru/index.php
(Навіть за трьома - ще й https://ktonanovenkogo.ru/) і в будь-якому випадку відкриється головна сторінка. Це досить погано, тому що пошуковики знайдуть у мене три різних сторінки (що мають з їх точки зору різні URL адреси), але з однаковим змістом, що їм, ох як не подобається.
Тому у мене зроблено так, що при введенні будь-якого з наведених трохи вище урлов буде виконано перенаправлення на URL виду «https://ktonanovenkogo.ru/». Робиться це, як правило, за допомогою 301 редіректу в файлі .htaccess, або безпосередньо в налаштуваннях сервера вами самими, або вашим хостером.
Набагато більше інформації про дзеркала сайту і їх склейку читайте в наведеній по посиланню публікації.
Структура Урл адреси і перекодування в URL-encoded
Взагалі, повну блок-схему URL адреси можна змалювати таку картину:
У реальності, як правило, не використовують логін, пароль і порт, хоча для доступу на платні сайти може знадобитися їх вказівку:
http: // login: [email protected]/platniy-dostup.html
Також досить часто встановлюють паролі для входу на Ftp сервер, де так само може використовувати не стандартний порт, а відмінний від використовуваного за замовчуванням для цього протоколу. Тоді для доступу до ресурсів такого Ftp сервера потрібно вводити подібний URL:
ftp: // login: [email protected]: 6789 / samoe-nujnoe / cimus
Про GET параметри, які можуть прописуватися в цю адресу після знаку питання, ми вже говорили і згадували, що слід обов'язково забороняти до індексації сторінки, в Урлах яких є подібні параметри (вище наведене посилання на статтю про Роботс, де все це детально розписано).
Урл адреси у вигляді хеш-посилань, які відкривають сторінку в потрібному місці
Але крім всіх цих речей, які можуть входити до складу URL, на наведеній трохи вище блок-схемі ви можете бачити так званий якір, який додається в самому кінці після розділяє символу решітки «#» (урли, що містять якоря, зазвичай називають хеш посиланнями) .
Якоря заздалегідь проставляються всередині Html коду документа (сторінки) за допомогою додавання атрибута ID = "мітка" в потрібний Html тег (абзацу, заголовка або інший відповідний), а потім, додавши назву цього якоря до URL адресою сторінки через символ решітки «# Â
О це?Html?