Як подивитися robots.txt сайту

20.04.2020

297

Від автора: хочете скласти для свого проекту файл з вказівками для робота, але не знаєте як? Сьогодні розберемося, як подивитися robots.txt сайту і змінити його під свої потреби.

В інтернеті кожен день з’являються готові рішення по тій чи іншій проблемі. Немає грошей на дизайнера? Використовуйте один з тисячі безкоштовних шаблонів. Не хочете наймати сео-спеціаліста? Скористайтесь послугами якого-небудь відомого безкоштовного сервісу, почитайте самі пару статей.

Вже давно немає необхідності самому з нуля писати той самий robots.txt. До речі, це спеціальний файл, який є практично на будь-якому сайті, і в ньому містяться вказівки для пошукових роботів. Синтаксис команд дуже простий, але все одно на складання власного файлу піде час. Краще подивитися в іншого сайту. Тут є кілька застережень:

Сайт повинен бути на тому ж движку, що і ваш. В принципі, сьогодні в інтернеті купа сервісів, де можна дізнатися назву cms практично будь-якого веб-ресурсу.

Це повинен бути більш менш успішний сайт, у якого все в порядку з пошуковим трафіком. Це говорить про те, що robots.txt складено нормально.

Отже, щоб подивитися цей файл потрібно в адресному рядку набрати: доменное-имя.зона/robots.txt

Всі неверятно просто, правда? Якщо адреса не буде знайдений, значить такого файлу на сайті немає, або до нього закритий доступ. Але в більшості випадків ви побачите перед собою вміст файлу:

В принципі, навіть людина не особливо розбирається в коді швидко зрозуміє, що тут написати. Команда allow дозволяє що індексувати, а disallow – забороняє. User-agent – це вказівка пошукових роботів, до яких звернені інструкції. Це необхідно в тому випадку, коли потрібно вказати команди для окремого пошуковика.

Що робити далі?

Скопіювати все і змінити під свій сайт. Як змінювати? Я вже говорив, що движки сайтів повинні збігатися, інакше змінювати що-небудь безглуздо – треба переписувати абсолютно все.

Отже, вам необхідно буде пройтися по рядках і визначити, які розділи із зазначених присутні на вашому сайті, а які – ні. На скріншоті вище ви бачите приклад robots.txt для wordpress сайту, причому в окремому каталозі є форум. Висновок? Якщо у вас немає форуму, усі ці рядки потрібно видалити, так як подібних розділів і сторінок у вас просто не існує, навіщо тоді їх закривати?

Найпростіший robots.txt може виглядати так:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads/

Всі ви напевно знаєте стандартну структуру папок в wordpress, якщо хоча б 1 раз встановлювали цей движок. Це папки wp-admin, wp-content й wp-includes. Зазвичай всі 3 закривають від індексації, тому що вони містять суто технічні файли, необхідні для роботи движка, плагінів і шаблонів.

Каталог uploads відкривають, тому що в ньому містяться картинки, а їх обыно індексують.

Загалом, вам потрібно пройтися по скопіювати robots.txt і побачити, що з написаного дійсно є на вашому сайті, а чого немає. Звичайно, самому визначити важко. Я можу лише сказати, що якщо ви не видалите, то нічого страшного, просто зайва рядок буде, яка ніяк не шкодить (бо розділу немає).

Так важлива налаштування robots.txt?

Звичайно, необхідно мати цей файл і хоча б основні каталоги через нього закрити. Але критично важливо його складання? Як показує практика, немає. Я особисто бачу сайти на одних движках з абсолютно різним robots.txt які однаково успішно просуваються в пошукових системах.

Я не сперечаюся, що можна зробити якусь помилку. Наприклад, закрити зображення або залишити відкритим непотрібний каталог, але чогось супер страшного не станеться. По-перше, тому що пошукові системи сьогодні розумнішими і можуть ігнорувати якісь вказівка з файлу. По-друге, написані сотні статей про налаштування robots.txt і вже що-то можна зрозуміти з них.

Я бачив файли, в яких було 6-7 рядків, що забороняють індексувати кілька каталогів. Також я бачив файли з сотнею-другий рядків коду, де було закрито все, що тільки можна. Обидва сайту при цьому нормально просувалися.

У wordpress є так звані дублі. Це погано. Багато боряться з цим з допомогою закриття подібних дублів так:

Disallow: /wp-feed
Disallow: */trackback
Disallow: */feed
Disallow: /tag/
Disallow: /archive/

Це лише деякі з дублів, створюваних wordpress. Можу сказати, що так можна робити, але захисту на 100% не варто очікувати. Я б навіть сказав, що взагалі не потрібно її чекати і проблема якраз в тому, про що я вже говорив раніше:
Пошукові системи все одно можуть забрати в індекс такі речі.

Тут уже треба боротися по-іншому. Наприклад, з допомогою редиректів або плагінів, які будуть знищувати дублі. Втім, це вже тема для окремої статті.

Де знаходиться robots.txt?

Цей файл завжди знаходиться в корені сайту, тому ми і можемо звернутися до нього, прописавши адресу сайту і назва файлу через слеш. По-моєму, тут все максимально просто.

Загалом, сьогодні ми розглянули питання, як переглянути вміст файлу robots.txt, скопіювати його і змінити під свої потреби. Про налаштуванні я також напишу ще 1-2 статті найближчим часом, тому що в цій статті ми розглянули не всі. До речі, також багато інформації по просуванню сайтів-блогів ви можете знайти в нашому курсі. А я на цьому поки прощаюся з вами.