Robots.txt
Что такое robots.txt: раскрытие основных элементов
Robots – это файл с расширением .txt(можно создать во встроенном блокноте), который указывает поисковым системам то, на что им не стоит обращать внимания, т.е. не индексировать, а также сообщает о наличии карты сайта(sitemap) и главного зеркала сайта.Настройка robots.txt
Для начала указываем поисковые системы, которым вы хотите открыть/закрыть доступ к сайту. Так как для корпоративного сайта нам подойдут все поисковые системы, рекомендую писать код файла robots.txt для всех поисковых систем сразу. Выглядеть это будет так:User-agent: *Теперь перейдём к списку страниц, к которому у поисковых роботов будет открыт или закрыт доступ к сайту: директивы Disallow и Allow Рекомендую использовать директиву Disallow для запрета индексации лишних или мусорных страниц сайта, например:
Disallow: /admТаким образом мы запретили индексацию административного раздела сайта и упростили работу для роботов поисковых систем. Если же вы не хотите закрывать никакие разделы для индексации, то можно применить директиву Allow, тогда наш код для robots.txt будет выглядеть следующим образом:
User-agent: * Allow: /Теперь осталось лишь прописать «главное зеркало» сайта и указать расположение карты сайта, если она создана. Главное зеркало сайта – это тот адрес, по которому ваш сайт будет показываться в результатах выдачи поисковой системы (с www или без www). Для этого используется директива Host. Например, Вы хотите, чтобы Ваш сайт показывался в результатах поиска с www, в этом случае наш код будет выглядеть так:
User-agent: * Allow: / Host: www.vashsite.ruЕсли без www, то, соответственно:
User-agent: * Allow: / Host: vashsite.ruЕсли у вас создана карта сайта, то её также можно указать в файле robots.txt, указав её полный адрес. Если она располагается в корневой директории сайта, то код приобретёт следующий вид:
User-agent: * Allow: / Host: www.vashsite.ru Sitemap: http://www.vashsite.ru/sitemap.xmlОстаётся лишь сохранить этот файл и поместить в корневую директорию сайта.
Файл .htaccess
Для чего используется файл .htaccess
Файл .htaccess предназначен для управления настройками сервера Apache. В нём много различных настроек и возможностей, но мы рассмотрим лишь самую животрепещущую проблему, перед которой сталкиваются владельцы корпоративных сайтов – переезд со старого на новый сайт.Настройка .htaccess
Здесь я приведу строчки кода, которые необходимо вставить в начало файла .htaccess для выполнения определённой задачи. Вопрос 1: «Был у компании старый сайт(условно oldsite.ru), заказали новый(условно newsite.ru). Новый сайт сделали и разместили на другом домене, а в поисковой выдаче находится до сих пор старый сайт, а новый никак не индексируется. Что делать?» Ответ: Необходимо в директиве Host(в файле robots.txt) и старого и нового сайтов указать адрес нового сайта, а затем в файл .htaccess внести: 301 редирект со старого домена на новый.Options +FollowSymLinks RewriteEngine on RewriteCond %{HTTP_HOST} ^oldsite.ru$ RewriteRule ^(.*)$ http://newsite.ru/$1 [R=301,L]*где oldsite.ru и newsite.ru заменить на адреса Ваших сайтов Вопрос 2: «Как сделать так, чтобы сайт отображался лишь по одному адрес www или без www и все внешние ссылки для сайта учитывались поисковыми системами? 301 редирект с зеркала с www на зеркало без www:
Options +FollowSymLinks RewriteEngine On RewriteCond %{HTTP_HOST} ^www.site\.ru$ [NC] RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]301 редирект с зеркала без www на зеркало с www
Options +FollowSymLinks RewriteEngine On RewriteCond %{HTTP_HOST} ^site\.ru$ [NC] RewriteRule ^(.*)$ http://www.site.ru/$1 [R=301,L]*в этой статье приведены лишь основные тезисы настройки файлов robots.txt и .htaccess.