SEO настройки для robots.txt

Очень часто, при создании сайта настройкам файла robots.txt, не уделяется должного внимания. Это происходит потому, что большинство современных CMS формируют его автоматически, а владельцы сайтов и даже многие программисты доверяют этим настройкам, считая их на 100% правильными.
Безусловно, если вы создаете статейный (информационный) сайт или небольшой сайт компании, на котором не будут продаваться товары, не будут приниматься заказы и не будет зарегистрированных пользователей, то автоматическая настройка robots.txt будет правильной.
Совсем другое дело если вы создаете интернет магазин, интерактивный проект, онлайн сервис по поиску туров, развлечений, услуг или объектов недвижимости, доску объявлений, форум, городской или развлекательный портал. Во всех этих и многих других случаях от того, насколько правильно вы прописали robots.txt будет зависеть то, как будет индексироваться ваш ресурс и на сколько хорошо он будет продвигаться.
Именно поэтому, про настройки этого файла, чаще всего вспоминают тогда, когда, начинают SEO продвижение ресурса. Но, далеко не каждый владелец сайта, начинает продвигать свои ресурс сразу после его созданий, а между тем поисковые робот боты начинают его индексировать, основываясь на тех правилах, которые указаны в вашем robots.txt и к тому моменту, когда для продвижения будет привлечен сео специалист сайт может получить низкий уровень индексирования из-за ранжирования второстепенных (не самых важных) страниц.
Говоря о важности robots.txt с точки зрения правильности его SEO настройки, необходимо понимать алгоритм ранжирования сайтов.
Дело в том, что поисковые боты — это прежде всего роботы, которые видят ваш сайт по-своему, а не так, как его видите вы, и оценивают они его тоже по-своему.
Безусловно робот-боты проиндексируют категории вашего интернет магазина и те страницы, на которых у вас размещен интересный и уникальный контент, но кроме этого, они проиндексируют результаты внутреннего поиска по сайту, дублирующийся страницы категорий, страницы корзины и личные кабинеты зарегистрированных пользователей вашего сайта, а также много других страниц которые необходимы для функционирования интернет магазина или портала, но не содержащих полезной информации с точки зрения поисковых систем.
И вот когда все эти страницы будут проиндексированы в силу вступит простой математический алгоритм, который выдаст соотношения полезных и неполезных страниц сайта. И если неполезных (с точки зрения поисковых систем) страниц будет в десятки раз больше, то сайт будет плохо ранжироваться и постоянно понижаться в поисковой выдаче. И все это произойдет только потому что файл robots.txt, прописан неправильно.
Поговорив о важности правильной настройки этого файла, который дает поисковым ботам инструкцию, и устанавливает правила индексации страниц сайта перейдем к практике.
Файл robots.txt всегда должен располагаться в корневой папке вашего сайта, и иметь адрес
https://ваш домен/robots.txt
Если ваш портал или интернет-магазин имеет поддомены, то для каждого из них robots.txt создается индивидуально.
Если вы создаете этот файл вручную необходимо помнить о том, что его имя должно полностью состоять только из маленьких букв на латинице и ни как по-другому.

Директивы для robots.txt

Директивы в robots.txt – это команды и правила которые вы создаете специально для робот-ботов поисковых систем.
Давайте рассмотрим какие директивы существуют и для чего они необходимы.
1 Директива «User-agent» — указывает для какого именно поискового робота написаны эти правила.
Используя эту директиву, вы можете прописать:
User-agent: * – в этом случае указанные правила будут предназначены для робот-ботов всех поисковых систем
User-agent: Googlebot – в этом случае указанные правила будут предназначены только для робот-ботов поисковой системы Google
User-agent: Yahoo – в этом случае указанные правила будут предназначены только для робот-ботов поисковой системы Yahoo.
Мы рекомендуем не прописывать отдельно правила для каждой поисковой системы если в этом нет крайней необходимости и указывать единые правила для всех робот-ботов.
2 Директива «Disallow» — запрещает робот-ботам индексацию определённых категорий, файлов или страниц. В частности, данная директория даёт возможность, благодаря указанию символа «*», закрыть все дублирующие страницы, а также страницы сортировки товаров, с формой регистрация, восстановления пароля, или результатов поиска по сайту.
Используя эту директиву, вы можете прописать:
Disallow: /*search – исключив из индексации все страницы с результатами поиска на сайте.
Disallow: /*pdf$ — исключив из индексации файлы определенного вида.
Disallow: /papka/ — исключив из индексации папки в базе данных.
Disallow: /privat.html — исключив из индексации отдельную страницы.
Disallow: /wp-admin/ — исключив из индексации раздел администрирования сайта.
Прописывая директиву «Disallow»- также необходимо помнить, что:
Disallow: / – закрывает полностью весь сайт от индексации.
Disallow: – открывает полностью весь сайт для индексации.
3 Директива «Allow» — разрешает индексировать определённые страницы сайта. Она используется, как указание на исключение из правил и чаще всего прописывается в сочетании с директивой «Disallow», при этом «Allow» всегда должна быть прописана выше исключающей директивы.
Используя эту директиву, вы можете прописать:
Allow: /user/search
Disallow: *search
В этом случае вы запретите робот-боту индексировать страницы «внутреннего поиска по сайту», за исключением страниц «поиска зарегистрированных пользователей».
Allow: /catalog
Disallow: /
В этом случае вы запретите робот-боту индексировать все страницы сайта кроме тех которые содержат в своем адресе /catalog. То есть фактически закрываются конечные страницы товаров, а индексируются только категории.
Allow: /telefon
Disallow: *nokia
В этом случае вы запретите робот-боту индексировать страницы с определенными товарами (скажем с телефонами nokia, если у вас их нет на складе), но при этом разрешите индексировать все остальные страницы с товарами входящими в эту категорию.
4 Директива «sitemap»
Директива, которая указывает робот-ботам путь к карте сайта sitemap.xml, при этом путь к этому файлу должен быть указан полностью:
Sitemap: https://ваш домен/sitemap.xml
5 Директива «Host»
Директива, которая даёт возможность указать главное зеркало вашего сайта. В этой директиве главное зеркало сайта должно быть указанно в виде:
Host: www.ваш домен
или
Host: ваш домен
Проверить правильно ли прописан ваш robots.txt вы сможете при регистрации сайта в центрах вебмастеров поисковых систем, каждая из которых дает такую возможность. В частности, в Google, такую проверку можно сделать через robots.txt Tester в панели инструментов веб-мастеров.