Robots.txt и .htaccess – настройка и решение проблем.

Пиком
Пиком
В этой статье мы рассмотрим особенности файлов robots.txt и .htaccess как инструменты для корпоративного сайта.
Данные файлы необходимо создать(если они не были заблаговременно созданы вручную или же при помощи CMS) и разместить в корневой директории сайта – http://site.ru/.

Robots.txt

Что такое robots.txt: раскрытие основных элементов

Robots – это файл с расширением .txt(можно создать во встроенном блокноте), который указывает поисковым системам то, на что им не стоит обращать внимания, т.е. не индексировать, а также сообщает о наличии карты сайта(sitemap) и главного зеркала сайта.

Настройка robots.txt

Для начала указываем поисковые системы, которым вы хотите открыть/закрыть доступ к сайту. Так как для корпоративного сайта нам подойдут все поисковые системы, рекомендую писать код файла robots.txt для всех поисковых систем сразу. Выглядеть это будет так:
User-agent: *
Теперь перейдём к списку страниц, к которому у поисковых роботов будет открыт или закрыт доступ к сайту: директивы Disallow и Allow Рекомендую использовать директиву Disallow для запрета индексации лишних или мусорных страниц сайта, например:
Disallow: /adm
Таким образом мы запретили индексацию административного раздела сайта и упростили работу для роботов поисковых систем. Если же вы не хотите закрывать никакие разделы для индексации, то можно применить директиву Allow, тогда наш код для robots.txt будет выглядеть следующим образом:
User-agent: * Allow: /
Теперь осталось лишь прописать «главное зеркало» сайта и указать расположение карты сайта, если она создана. Главное зеркало сайта – это тот адрес, по которому ваш сайт будет показываться в результатах выдачи поисковой системы (с www или без www). Для этого используется директива Host. Например, Вы хотите, чтобы Ваш сайт показывался в результатах поиска с www, в этом случае наш код будет выглядеть так:
User-agent: * Allow: / Host: www.vashsite.ru
Если без www, то, соответственно:
User-agent: * Allow: / Host: vashsite.ru
Если у вас создана карта сайта, то её также можно указать в файле robots.txt, указав её полный адрес. Если она располагается в корневой директории сайта, то код приобретёт следующий вид:
User-agent: * Allow: / Host: www.vashsite.ru Sitemap: http://www.vashsite.ru/sitemap.xml
Остаётся лишь сохранить этот файл и поместить в корневую директорию сайта.

Файл .htaccess

Для чего используется файл .htaccess

Файл .htaccess предназначен для управления настройками сервера Apache. В нём много различных настроек и возможностей, но мы рассмотрим лишь самую животрепещущую проблему, перед которой сталкиваются владельцы корпоративных сайтов – переезд со старого на новый сайт.

Настройка .htaccess

Здесь я приведу строчки кода, которые необходимо вставить в начало файла .htaccess для выполнения определённой задачи. Вопрос 1: «Был у компании старый сайт(условно oldsite.ru), заказали новый(условно newsite.ru). Новый сайт сделали и разместили на другом домене, а в поисковой выдаче находится до сих пор старый сайт, а новый никак не индексируется. Что делать?» Ответ: Необходимо в директиве Host(в файле robots.txt) и старого и нового сайтов указать адрес нового сайта, а затем в файл .htaccess внести: 301 редирект со старого домена на новый
Options +FollowSymLinks RewriteEngine on RewriteCond %{HTTP_HOST} ^oldsite.ru$ RewriteRule ^(.*)$ http://newsite.ru/$1 [R=301,L]
*где oldsite.ru и newsite.ru заменить на адреса Ваших сайтов Вопрос 2: «Как сделать так, чтобы сайт отображался лишь по одному адрес www или без www и все внешние ссылки для сайта учитывались поисковыми системами? 301 редирект с зеркала с www на зеркало без www:
Options +FollowSymLinks RewriteEngine On RewriteCond %{HTTP_HOST} ^www.site\.ru$ [NC] RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]
301 редирект с зеркала без www на зеркало с www
Options +FollowSymLinks RewriteEngine On RewriteCond %{HTTP_HOST} ^site\.ru$ [NC] RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]
*в этой статье приведены лишь основные тезисы настройки файлов robots.txt и .htaccess.