Як зі списку URL адрес вичленувати домени і прибрати їх повтори за допомогою Notepad ++ (готуємо список для Disavow links)

  1. Як завантажити в Disavow links список всіх посилань на сайт
  2. Як в Notepad ++ видалити http: // і символи після певного знака
  3. Як в Notepad ++ видалити дублюються рядки і додати символи в початок всіх рядків

Привіт, шановні читачі блогу KtoNaNovenkogo.ru. Суть завдання яка? У мене є список URL адрес (зворотні посилання зі сторінок, що посилаються на https://ktonanovenkogo.ru), яких більше 60 000. Якщо ви в курсі, то в пошуковій системі Гугл зараз лютує злий Пінгвін (читайте статтю про те, як вийти з під фільтра Гугл Пінгвін ).

Є такий інструмент відхилення посилань в Google, як Disavow links . Коли я писав ту статтю, то одні з читачів прислав мені вивантаження з Сео сервісу Ahrefs з усіма Урламі сторінок, які посилаються на мій блог. Величезне йому за це спасибі.

Як завантажити в Disavow links список всіх посилань на сайт

Я витратив тиждень на перегляд цих посилань і складання списку для додавання в інструмент Гугла Disavow links. Вийшло близько тисячі доменів. Але через пару місяців Пінгвін мене клюнув ще сильніше (ще половина трафіку з Google пішла в небуття).

Тому зараз зважився на крайні заходи - додати в цей список взагалі все зворотні посилання. Зробити це безпосередньо не виходить, бо подібний список в форматі txt важить близько десяти мегабайт, а сервіс Disavow links дозволяє завантажувати файли розміром не більше двох.

Вихід я побачив в тому, щоб виділити з усього списку тільки доменні імена сайтів, які на мене посилаються, і додати в бан-лист саме їх (близько трьох тисяч доменів).

Дане завдання розбивається на кілька етапів. Виділити і залишити в списку з усіх Урл адрес тільки ту частину, де прописано доменне ім'я. Якщо пам'ятаєте, то в статті про URL адреси, а так само відносні і абсолютні посилання , Я розповідав про їх пристрій. Наприклад, посилання на цю сторінку (її Урл - універсальний ідентифікатор ресурсу) виглядає так:

https://ktonanovenkogo.ru/voprosy-i-otvety/kak-iz-spiska-url-adresov-vychlenit-domeny-i-ubrat-ix-povtory-s-pomoshhyu-notepad-gotovim-spisok-dlya-disavow- links.html

У моєму випадку це був подібний список:

У моєму випадку це був подібний список:

Мені ж потрібно залишити від цього URL адреси тільки домен:

ktonanovenkogo.ru

Оскільки в списку багато посилань з одного і того ж домена, то потім потрібно буде видалити всі дублюючі рядки. Ну і в рядку з кожним доменом, в самому її початку, потрібно додати «domain:», щоб вийшло так:

domain: ktonanovenkogo.ru

Список для Disavow links вийшов в такому вигляді:

Список для Disavow links вийшов в такому вигляді:

Для тих хто дружить з Excel завдання вирішується за допомогою написання відповідних формул. Особисто я добре знаю тільки Ворд, а ось на вивчення Ексель свого часу терпіння вже не вистачило, та й не було тоді в цьому особливої ​​потреби.

Тому я вирішував це завдання виключно за допомогою можливостей текстового редактора Notepad ++ з його найбагатшим функціоналом і купою корисних плагінів.

Як в Notepad ++ видалити http: // і символи після певного знака

Отже, спочатку я виділив стовпець з Урламі донорів в файлі Excel і скопіював їх в буфер обміну (До речі, на копіювання пішли хвилини, а не секунди, бо обсяг був дуже великий). Після чого вставив його на нову сторінку в Notepad ++.

Спочатку я позбувся http: // і https: // у всіх рядках. Для цього відкриваєте в Нотепаде з верхнього меню пункти «Правка» - «Замінити» (можна просто натиснути на Ctrl + H). У верхнє поле вставляєте http: //, а нижня залишаєте порожнім.

У верхнє поле вставляєте http: //, а нижня залишаєте порожнім

Тиснете на кнопку «Замінити все». Потім в верхнє поле замість http: // вставляєте https: // і знову тиснете на цю ж кнопку. Вийшло приблизно так:

Вийшло приблизно так:

Наступною нашою завданням буде видалити в Notepad ++ після певного символу (першого слеша (/)) все, що там буде стояти. Для цього знову ж тиснете на Ctrl + H. Переходимо в режим «Регулярні вирази» (внизу вікна), вставляємо в перше поле (/.+)$ (якщо вам потрібно буде після другого символу все видалити, то вставте його замість слеша), друге поле «Замінити на» залиште порожнім і жмакайте на кнопочку «Замінити все».

+)$ (якщо вам потрібно буде після другого символу все видалити, то вставте його замість слеша), друге поле «Замінити на» залиште порожнім і жмакайте на кнопочку «Замінити все»

В результаті наш список урлов (а зараз вже доменів) прийме такий вигляд:

В результаті наш список урлов (а зараз вже доменів) прийме такий вигляд:

Подекуди в кінці залишилися слеші, тому знову клацнете по Ctrl + H, перейдіть в звичайний режим і вставте у верхнє поле слеш, а в нижні - нічого. Ну і на кнопочку «Замінити все» натисніть.

Тепер нам потрібно видалити дублюються рядки в Notepad ++ (однакові домени залишилися після їх виокремлення з URL адрес). Для цього потрібно скористатися плагіном для Нотепада під назвою Text FX Caracters.

Як в Notepad ++ видалити дублюються рядки і додати символи в початок всіх рядків

Якщо він у вас ще не встановлений, то виберіть з верхнього меню текстового редактора «Модулі» - «Plagin Manager» - «Show Plagin Manager».

У вікні, знайдіть Text FX Caracters, поставте навпроти нього галочку і натисніть на розташовану внизу кнопку «Install».

Тепер всі рядки в нашому документі потрібно буде виділити з допомогою CTRL + A, після чого вибрати з верхнього меню «TextFX» - «TextFX Tools» і поставити галочку в полі «+ Sort outputs only UNIQUE (at column) lines». Після чого знову зайти в «TextFX» - «TextFX Tools» і вибрати пункт «Sort Lines case sensitive (at column)».

В результаті все дублі рядків у відкритому вікні Notepad ++ зникнуть і залишаться одні лише унікальні домени.

Але в синтаксисі файлу Disavow links для доменів необхідно спочатку вказувати «domain:». Значить перед нами стоїть чергове завдання: додати символи на початку рядка в Notepad ++. Вирішується вона досить просто.

Знову ж жмакаете по клавішах Ctrl + H і переходите в режим «Регулярні вирази». У верхньому рядку пишіть «\ n» (так позначається символ перекладу рядка), а в нижній - «\ ndomain:»:

У верхньому рядку пишіть «\ n» (так позначається символ перекладу рядка), а в нижній - «\ ndomain:»:

Тиснете на кнопку «Замінити все» і отримуєте те, що нам і було потрібно - готовий список, який сміливо можна буде завантажувати в Disavow links.

Тиснете на кнопку «Замінити все» і отримуєте те, що нам і було потрібно - готовий список, який сміливо можна буде завантажувати в Disavow links

Все, спасибі за увагу.

Удачі вам! До швидких зустрічей на сторінках блогу KtoNaNovenkogo.ru

Збірки по темі

Використовую для заробітку

Суть завдання яка?