Як створити robots.txt для сайту

313

Від автора: пошукові роботи можуть стати вашими друзями або ворогами. Все залежить від того, які ви їм дасте команди. Сьогодні розберемося, як правильно створити robots.txt для сайту.

Створення самого файлу

Robots.txt – це файл з інструкціями для пошукових роботів. Він створюється в корені сайту. Ви можете прямо зараз створити його на своєму робочому столі за допомогою блокнота, як створюється будь-який текстовий файл.

Для цього тиснемо правою кнопкою миші по порожньому простору, вибираємо Створити Текстовий документ microsoft Word). Він відкриється з допомогою звичайного блокнота. Назвіть його robots, розширення у нього і так вже правильне – txt. Це все, що стосується створення самого файлу.

Як створити robots.txt для сайту

Як скласти robots.txt

Тепер залишається заповнити файл потрібними інструкціями. Власне, у команд для роботів простий синтаксис, набагато простіше, ніж у будь-якій мові програмування. Взагалі заповнити файл можна двома способами:

Подивитися в іншого сайту, скопіювати і змінити під структуру свого проекту.

Написати самому

Про першому способі я вже писав у попередній статті. Він підходить, якщо у сайтів однакові движки і немає суттєвої різниці у функціоналі. Наприклад, всі сайти на wordpress мають однакову структуру, однак можуть бути різні розширення, начебто форуму, інтернет-магазину і безлічі додаткових каталогів. Якщо ви хочете знати, як змінити robots.txt читайте цю статтю, можна також ознайомитися з попередньою, але і в цьому буде сказано досить багато.

Наприклад, у вас на сайті є каталог /source, де зберігаються вихідні коди до тих статей, що ви пишете на блог, а в іншого веб-майстра немає такої директорії. І ви, приміром, хочете закрити папку source від індексації. Якщо ви скопіюєте robots.txt у іншого ресурсу, то там такої команди не буде. Вам доведеться дописувати свої інструкції, видаляти непотрібне і т. д.

Так що в будь-якому випадку корисно знати основи синтаксису інструкцій для роботів, який ви зараз і розглянемо.

Як писати свої інструкції роботам?

Як створити robots.txt для сайту

Перше, з чого починається файл, це зазначення того, до яких саме пошуковим машинам звернені інструкції. Це робиться так:

User-agent: Yandex
Або
User-agent: Googlebot

Ніяких точок з комою в кінці рядка ставити не треба, це вам не програмування). Загалом, тут зрозуміло, що в першому випадку інструкції буде читати тільки бот Яндекса, у другому – тільки Гугла. Якщо команди мають бути виконані всіма роботами, пишуть так: User-agent:

Команди

Відмінно. Із зверненням до роботам ми розібралися. Це нескладно. Ви можете уявити це на простому прикладі. У вас є троє молодших братів, Вася, Діма і Петя, а ви головний. Батьки пішли і сказали вам, щоб ви стежили за ними.

Всі троє чогось просять у вас. Уяви, що треба дати їм відповідь так, як ніби пишеш інструкції пошуковим роботам. Це буде виглядати приблизно так:

User-agent: Vasya
Allow: піти на футбол
User-agent: Dima
Disallow: піти на футбол (Діма минулого разу розбив скло сусідам, він покараний)
User-agent: Petya
Allow: сходити в кіно (Петі вже 16 і він взагалі в шоці, що повинен у тебе ще й дозволу питати, ну да ладно, нехай іде).

Таким чином, Вася радісно зашнуровывает кросівки, Діма з опущеною головою дивиться у вікно на брата, який вже думає, скільки голів заб’є сьогодні (Діма отримав команду disallow, тобто заборона). Ну а Петя відправляється в своє кіно.

З цього прикладу нескладно зрозуміти, що Allow – це дозвіл, а Disallow – заборона. Але в robots.txt ми не роздаємо людям команди, а роботам, тому замість конкретних справ там прописуються адреси сторінок і каталогів, які потрібно дозволити або заборонити індексувати.

Наприклад, у мене є сайт site.ru. Він на движку wordpress. Починаю писати інструкції:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Allow: /wp-content/uploads/
Disallow: /source/
Ну і т. д.

По-перше, я звернувся до всіх роботам. По-друге, поставив заборона на індексацію папок самого движка, але при цьому відкрив роботу доступ до папки з завантаженнями. Там зазвичай зберігаються всі картинки, а їх зазвичай не закривають від індексації, якщо планується отримувати трафік з пошуку по картинках.

Ну і пам’ятайте, що я раніше в статті говорив про те, що у вас можуть бути додаткові каталоги? Ви можете створити самостійно для різних цілей. Наприклад, на одному з моїх сайтів є папка flash, куди я кидаю флеш-ігри, щоб потім їх запустити на сайті. Або source – у цій папці можуть зберігається файли, доступні користувачам для завантаження.

Загалом, абсолютно неважливо, як називається папка. Якщо її потрібно закрити, вказуємо шлях до неї і команду Disallow.

Команда Allow потрібна якраз для того, щоб вже в закритих розділах відкрити якісь частини. Адже за замовчуванням, якщо у вас не буде файлу robots.txt весь сайт буде доступний до індексування. Це і добре (вже точно щось важливе не закриєте помилково), і в той же час погано (будуть відкриті файли і папки, яких не повинно бути у видачі).

Щоб краще зрозуміти цей момент, пропоную ще раз переглянути цей шматок:

Disallow: /wp-content/
Allow: /wp-content/uploads/

Як бачите, спочатку ми ставимо заборона на індексацію каталогу wp-content. У ньому зберігаються всі ваші шаблони, плагіни, але там же є і картинки. Очевидно, що їх можна і відкрити. Для цього нам і потрібна команда Allow.

Додаткові параметри

Перераховані команди – не єдине, що можна вказати у файлі. Також є такі: Host – вказує головне дзеркало сайту. Хто не знав, у будь-якого сайту за замовчуванням є два варіанти написання його доменного імені: domain.com і www.domain.com.

Щоб не виникло проблем, необхідно вказати в якості головного дзеркала якийсь один варіант. Це можна зробити як в інструментах для веб-майстрів, як і у файлі Robots.txt. Для цього пишемо: Host: domain.com

Що це дає? Якщо хтось спробує потрапити на ваш сайт: www.domain.com – його автоматично перекине на варіант без www, тому що він буде визнаний головним дзеркалом.

Друга директива – sitemap. Я думаю ви вже зрозуміли, що в ній задається шлях до карти сайту в xml-форматі. Приклад: http://domain.com/sitemap.xml

Знову ж таки, завантажити карту ви можете і в Яндекс.Вебмастере, також її можна вказати в robots.txt робот прочитав цю позицію і чітко зрозумів, де йому шукати карту сайту. Для робота карта сайту так само важлива, як для Васі – м’яч, з яким він піде на футбол. Це все одно, що він запитує у тебе (як у старшого брата) де м’яч. А ти йому:

User-agent: Vasya
Sitemap: подивися в залі за диваном

Тепер ви знаєте, як правильно налаштувати та змінити robots.txt для яндекса і взагалі будь-якого іншого пошукача під свої потреби.

Що дає налаштування файлу?

Про це я вже говорив раніше, але скажу ще раз. Завдяки чітко налагодженому файлу з командами для роботів ви зможете спати спокійніше, знаючи, що робот не залізе в непотрібний розділ і не візьме в індекс непотрібні сторінки.

Я також говорив, що налаштування robots.txt не рятує від усього. Зокрема, вона не рятує від дублів, що виникає з-за того, що механізми недосконалі. Прям як люди. Ви дозволили Васі йти на футбол, але не факт, що він там не накоїть того ж, що і Діма. Ось так і з дублями: дати команду можна, але точно не можна бути упевненим, що щось зайве не пролізе в індекс, зіпсувавши позиції.

Дублів теж не треба боятися як вогню. Наприклад, той же Яндекс більш менш нормально відноситься до сайтів, у яких серйозні технічні косяки. Інша справа, що якщо запустити справу, то й справді можна позбутися серйозного відсотка трафіку до себе. Втім, скоро в нашому розділі, присвяченому SEO, буде стаття про дублях, тоді і будемо з ними воювати.

Як мені отримати нормальний robots.txt якщо я сам нічого не розумію?

Зрештою, створення robots.txt — це не створення сайту. Якось простіше, тому ви цілком можете банально скопіювати вміст файлу у будь-якого більш-менш успішного блогера. Звичайно, якщо у вас сайт на WordPress. Якщо він на іншому двигуні, то вам і сайти потрібно шукати на цих же cms. Як переглянути вміст файлу на чужому сайті я вже говорив: Domain.com/robots.txt

Підсумок

Я думаю, тут більше нема про що говорити, тому що не треба робити складання інструкцій для роботів вашою метою на рік. Це те завдання, яке під силу навіть новачку за 30-60 хвилин, а професіонала взагалі всього за пару хвилин. Все у вас вийде і можете в цьому не сумніватися.

А щоб дізнатися інші корисні і важливі фішки для просування і розкрутки блогу, можете подивитися наш унікальний курс по розкрутці та монетизації сайту. Якщо ви застосуєте звідти 50-100% рекомендацій, то зможете в майбутньому успішно просувати будь-які сайти.