Від автора: пошукові роботи можуть стати вашими друзями або ворогами. Все залежить від того, які ви їм дасте команди. Сьогодні розберемося, як правильно створити robots.txt для сайту.
Створення самого файлу
Robots.txt – це файл з інструкціями для пошукових роботів. Він створюється в корені сайту. Ви можете прямо зараз створити його на своєму робочому столі за допомогою блокнота, як створюється будь-який текстовий файл.
Для цього тиснемо правою кнопкою миші по порожньому простору, вибираємо Створити Текстовий документ microsoft Word). Він відкриється з допомогою звичайного блокнота. Назвіть його robots, розширення у нього і так вже правильне – txt. Це все, що стосується створення самого файлу.
Як скласти robots.txt
Тепер залишається заповнити файл потрібними інструкціями. Власне, у команд для роботів простий синтаксис, набагато простіше, ніж у будь-якій мові програмування. Взагалі заповнити файл можна двома способами:
Подивитися в іншого сайту, скопіювати і змінити під структуру свого проекту.
Написати самому
Про першому способі я вже писав у попередній статті. Він підходить, якщо у сайтів однакові движки і немає суттєвої різниці у функціоналі. Наприклад, всі сайти на wordpress мають однакову структуру, однак можуть бути різні розширення, начебто форуму, інтернет-магазину і безлічі додаткових каталогів. Якщо ви хочете знати, як змінити robots.txt читайте цю статтю, можна також ознайомитися з попередньою, але і в цьому буде сказано досить багато.
Наприклад, у вас на сайті є каталог /source, де зберігаються вихідні коди до тих статей, що ви пишете на блог, а в іншого веб-майстра немає такої директорії. І ви, приміром, хочете закрити папку source від індексації. Якщо ви скопіюєте robots.txt у іншого ресурсу, то там такої команди не буде. Вам доведеться дописувати свої інструкції, видаляти непотрібне і т. д.
Так що в будь-якому випадку корисно знати основи синтаксису інструкцій для роботів, який ви зараз і розглянемо.
Як писати свої інструкції роботам?
Перше, з чого починається файл, це зазначення того, до яких саме пошуковим машинам звернені інструкції. Це робиться так:
User-agent: Yandex
Або
User-agent: Googlebot
Ніяких точок з комою в кінці рядка ставити не треба, це вам не програмування). Загалом, тут зрозуміло, що в першому випадку інструкції буде читати тільки бот Яндекса, у другому – тільки Гугла. Якщо команди мають бути виконані всіма роботами, пишуть так: User-agent:
Команди
Відмінно. Із зверненням до роботам ми розібралися. Це нескладно. Ви можете уявити це на простому прикладі. У вас є троє молодших братів, Вася, Діма і Петя, а ви головний. Батьки пішли і сказали вам, щоб ви стежили за ними.
Всі троє чогось просять у вас. Уяви, що треба дати їм відповідь так, як ніби пишеш інструкції пошуковим роботам. Це буде виглядати приблизно так:
User-agent: Vasya
Allow: піти на футбол
User-agent: Dima
Disallow: піти на футбол (Діма минулого разу розбив скло сусідам, він покараний)
User-agent: Petya
Allow: сходити в кіно (Петі вже 16 і він взагалі в шоці, що повинен у тебе ще й дозволу питати, ну да ладно, нехай іде).
Таким чином, Вася радісно зашнуровывает кросівки, Діма з опущеною головою дивиться у вікно на брата, який вже думає, скільки голів заб’є сьогодні (Діма отримав команду disallow, тобто заборона). Ну а Петя відправляється в своє кіно.
З цього прикладу нескладно зрозуміти, що Allow – це дозвіл, а Disallow – заборона. Але в robots.txt ми не роздаємо людям команди, а роботам, тому замість конкретних справ там прописуються адреси сторінок і каталогів, які потрібно дозволити або заборонити індексувати.
Наприклад, у мене є сайт site.ru. Він на движку wordpress. Починаю писати інструкції:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Allow: /wp-content/uploads/
Disallow: /source/
Ну і т. д.
По-перше, я звернувся до всіх роботам. По-друге, поставив заборона на індексацію папок самого движка, але при цьому відкрив роботу доступ до папки з завантаженнями. Там зазвичай зберігаються всі картинки, а їх зазвичай не закривають від індексації, якщо планується отримувати трафік з пошуку по картинках.
Ну і пам’ятайте, що я раніше в статті говорив про те, що у вас можуть бути додаткові каталоги? Ви можете створити самостійно для різних цілей. Наприклад, на одному з моїх сайтів є папка flash, куди я кидаю флеш-ігри, щоб потім їх запустити на сайті. Або source – у цій папці можуть зберігається файли, доступні користувачам для завантаження.
Загалом, абсолютно неважливо, як називається папка. Якщо її потрібно закрити, вказуємо шлях до неї і команду Disallow.
Команда Allow потрібна якраз для того, щоб вже в закритих розділах відкрити якісь частини. Адже за замовчуванням, якщо у вас не буде файлу robots.txt весь сайт буде доступний до індексування. Це і добре (вже точно щось важливе не закриєте помилково), і в той же час погано (будуть відкриті файли і папки, яких не повинно бути у видачі).
Щоб краще зрозуміти цей момент, пропоную ще раз переглянути цей шматок:
Disallow: /wp-content/
Allow: /wp-content/uploads/
Як бачите, спочатку ми ставимо заборона на індексацію каталогу wp-content. У ньому зберігаються всі ваші шаблони, плагіни, але там же є і картинки. Очевидно, що їх можна і відкрити. Для цього нам і потрібна команда Allow.
Додаткові параметри
Перераховані команди – не єдине, що можна вказати у файлі. Також є такі: Host – вказує головне дзеркало сайту. Хто не знав, у будь-якого сайту за замовчуванням є два варіанти написання його доменного імені: domain.com і www.domain.com.
Щоб не виникло проблем, необхідно вказати в якості головного дзеркала якийсь один варіант. Це можна зробити як в інструментах для веб-майстрів, як і у файлі Robots.txt. Для цього пишемо: Host: domain.com
Що це дає? Якщо хтось спробує потрапити на ваш сайт: www.domain.com – його автоматично перекине на варіант без www, тому що він буде визнаний головним дзеркалом.
Друга директива – sitemap. Я думаю ви вже зрозуміли, що в ній задається шлях до карти сайту в xml-форматі. Приклад: http://domain.com/sitemap.xml
Знову ж таки, завантажити карту ви можете і в Яндекс.Вебмастере, також її можна вказати в robots.txt робот прочитав цю позицію і чітко зрозумів, де йому шукати карту сайту. Для робота карта сайту так само важлива, як для Васі – м’яч, з яким він піде на футбол. Це все одно, що він запитує у тебе (як у старшого брата) де м’яч. А ти йому:
User-agent: Vasya
Sitemap: подивися в залі за диваном
Тепер ви знаєте, як правильно налаштувати та змінити robots.txt для яндекса і взагалі будь-якого іншого пошукача під свої потреби.
Що дає налаштування файлу?
Про це я вже говорив раніше, але скажу ще раз. Завдяки чітко налагодженому файлу з командами для роботів ви зможете спати спокійніше, знаючи, що робот не залізе в непотрібний розділ і не візьме в індекс непотрібні сторінки.
Я також говорив, що налаштування robots.txt не рятує від усього. Зокрема, вона не рятує від дублів, що виникає з-за того, що механізми недосконалі. Прям як люди. Ви дозволили Васі йти на футбол, але не факт, що він там не накоїть того ж, що і Діма. Ось так і з дублями: дати команду можна, але точно не можна бути упевненим, що щось зайве не пролізе в індекс, зіпсувавши позиції.
Дублів теж не треба боятися як вогню. Наприклад, той же Яндекс більш менш нормально відноситься до сайтів, у яких серйозні технічні косяки. Інша справа, що якщо запустити справу, то й справді можна позбутися серйозного відсотка трафіку до себе. Втім, скоро в нашому розділі, присвяченому SEO, буде стаття про дублях, тоді і будемо з ними воювати.
Як мені отримати нормальний robots.txt якщо я сам нічого не розумію?
Зрештою, створення robots.txt — це не створення сайту. Якось простіше, тому ви цілком можете банально скопіювати вміст файлу у будь-якого більш-менш успішного блогера. Звичайно, якщо у вас сайт на WordPress. Якщо він на іншому двигуні, то вам і сайти потрібно шукати на цих же cms. Як переглянути вміст файлу на чужому сайті я вже говорив: Domain.com/robots.txt
Підсумок
Я думаю, тут більше нема про що говорити, тому що не треба робити складання інструкцій для роботів вашою метою на рік. Це те завдання, яке під силу навіть новачку за 30-60 хвилин, а професіонала взагалі всього за пару хвилин. Все у вас вийде і можете в цьому не сумніватися.
А щоб дізнатися інші корисні і важливі фішки для просування і розкрутки блогу, можете подивитися наш унікальний курс по розкрутці та монетизації сайту. Якщо ви застосуєте звідти 50-100% рекомендацій, то зможете в майбутньому успішно просувати будь-які сайти.