Highload-блог о программировании и интернет-бизнесе. Highload-блог о программировании и интернет-бизнесе Инструменты SEO специалиста

Битрикс является одной из самых распространенных систем администрирования в российском сегменте интернета. С учетом того, что на этой CMS, с одной стороны, нередко делают интернет-магазины и в достаточной степени нагруженные сайты, а с другой стороны, битрикс оказывается не самой быстрой системой, составление правильного файла robots.txt становится еще более актуальной задачей. Если поисковый робот индексирует только то, что нужно для продвижения, это помогает убрать лишнюю нагрузку на сайт. Как и в случае истории с , в интернете почти в каждой статье присутствуют ошибки. Такие случае я укажу в самом конце статьи, чтобы было понимание, почему такие команды прописывать не нужно.

Более подробно о составлении robots.txt и значении всех его директив я писал . Ниже я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо.

Правильный Robots.txt для Bitrix

Код для Robots, который прописан ниже, является базовым, универсальным для любого сайта на битриксе. В то же время, нужно понимать, что у вашего сайта могут быть свои индивидуальные особенности, и этот файл потребуется скорректировать в вашем конкретном случае.

User-agent: * # правила для всех роботов Disallow: /cgi-bin # папка на хостинге Disallow: /bitrix/ # папка с системными файлами битрикса Disallow: *bitrix_*= # GET-запросы битрикса Disallow: /local/ # папка с системными файлами битрикса Disallow: /*index.php$ # дубли страниц index.php Disallow: /auth/ # авторизация Disallow: *auth= # авторизация Disallow: /personal/ # личный кабинет Disallow: *register= # регистрация Disallow: *forgot_password= # забыли пароль Disallow: *change_password= # изменить пароль Disallow: *login= # логин Disallow: *logout= # выход Disallow: */search/ # поиск Disallow: *action= # действия Disallow: *print= # печать Disallow: *?new=Y # новая страница Disallow: *?edit= # редактирование Disallow: *?preview= # предпросмотр Disallow: *backurl= # трекбеки Disallow: *back_url= # трекбеки Disallow: *back_url_admin= # трекбеки Disallow: *captcha # каптча Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров Disallow: *?ei= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *B_ORDER= Disallow: *BRAND= Disallow: *CLEAR_CACHE= Disallow: *ELEMENT_ID= Disallow: *price_from= Disallow: *price_to= Disallow: *PROPERTY_TYPE= Disallow: *PROPERTY_WIDTH= Disallow: *PROPERTY_HEIGHT= Disallow: *PROPERTY_DIA= Disallow: *PROPERTY_OPENING_COUNT= Disallow: *PROPERTY_SELL_TYPE= Disallow: *PROPERTY_MAIN_TYPE= Disallow: *PROPERTY_PRICE[*]= Disallow: *S_LAST= Disallow: *SECTION_ID= Disallow: *SECTION[*]= Disallow: *SHOWALL= Disallow: *SHOW_ALL= Disallow: *SHOWBY= Disallow: *SORT= Disallow: *SPHRASE_ID= Disallow: *TYPE= Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Disallow: *from= # ссылки с метками from Allow: */upload/ # открываем папку с файлами uploads Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты Allow: /bitrix/*.css Allow: /local/*.js Allow: /local/*.css Allow: /local/*.jpg Allow: /local/*.jpeg Allow: /local/*.png Allow: /local/*.gif # Укажите один или несколько файлов Sitemap Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru

Закрывать от индексации страницы пагинации
Правило Disallow: *?PAGEN_1= является ошибкой. Страницы пагинации должны индексироваться. Но на таких страницах обязательно должен быть прописан .
Закрывать файлы изображений и файлов для скачивания (DOC, DOCX, XLS, XLSX, PDF, PPT, PPTS и др.)
Это делать не нужно. Если у вас есть правило Disallow: /upload/ , удалите его.
Закрывать страницы тегов и категорий
Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика.
Прописать Crawl-Delay
Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.

Время чтения: 7 минут(ы)

Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Зачем нужна настройка robots.txt?

Robots.txt - это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt - важная часть в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:

Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет - это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:

Синтаксис robots.txt

Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:

Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

User-agent

User-agent - определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:

С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.

Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.

Host - зеркало сайта

Зеркало сайта - это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host - одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.

Sitemap - карта сайта

Карта сайта - это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.

Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».

Проверка работоспособности после настройки robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

Проверка Яндекса:

Перейдите по ссылке .
Выберите: Настройка индексирования - Анализ robots.txt.

Проверка Google:

Перейдите по ссылке .
Выберите: Сканирование - Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.

Содержимое файла необходимо писать прописными буквами.
В директиве Disallow нужно указывать только один файл или директорию.
Строка «User-agent» не должна быть пустой.
User-agent всегда должна идти перед Disallow.
Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.

Успехов вам!

Видеообзор 3 методов создания и настройки файла Robots.txt

Сдача готового сайта на «Битриксе» - полбеды. Как правило, всё самое интересное начинается после его первой индексации поисковыми роботами Google и Яндекс, когда в поисковую выдачу может попасть много ненужной для пользователей информации: от «технического мусора» до той фотографии с новогоднего корпоратива.

Держись неизвестный SEO-шник, держись горе-программист, а ведь нужно-то было всего лишь составить правильный robots.txt для Битрикса .

Для справки : robots.txt – это файл, расположенный в корне сайта и ограничивающий поисковых роботов в доступе к его определённым разделам и страницам.

Robots.txt для корпоративных сайтов и сайтов-визиток

Любимая фраза начинающих копирайтеров «каждый проект индивидуален» лучше всего подходит для нашей ситуации. Исключение составляют лишь стандартные директивы для robots.txt: User-agent; Disallow, Host и Sitemap. Если хотите – это обязательный минимум.

Всё остальное в вопросах закрытия и перекрытия – на Ваше усмотрение. Несмотря на то, что «Битрикс» - это коробочное решение, директивы сделанных на нём проектов могут сильно отличаться друг от друга. Вопрос в структуре и функционале отдельно взятого сайта.

Представим, что у вас есть корпоративный сайт на «Битриксе» со стандартным набором разделов: «О компании», «Услуги», «Проекты», «Контакты», «Новости». Если контент на таком сайте уникальный, то нужно работать над закрытием технической части проекта.

1. Закрыть от индексации папку /bitrix и /cgi-bin . Чисто техническая информация (CSS, шаблоны, капчи), которая никому не нужна, кроме ругающегося в панели веб-мастеров GoogleBot’a. Можете смело закрывать её. Алгоритм действий следующий: Disallow: /example/

2. Папка /search также не интересна ни поисковикам, ни пользователям. Закрыв её, вы обезопасите себя в выдаче от дублей страниц, повторяющихся тегов и тайтлов.

3. При составлении robots.txt на «Битриксе» иногда забывают о закрытии форм авторизации и PHP-аутентификации на сайте. Речь идёт о

/auth/
/auth.php

4. Если на вашем сайте есть возможность распечатки каких-либо материалов: будь то карты местности или счёта на оплату, не забудьте закрыть в файле robots.txt следующие директории:

/*?print=
/*&print=

5. «Битрикс» бережно хранит всю историю Вашего сайта: успешные регистрации пользователей, записи об успешной смене и восстановлении паролей. Правда, сомневаемся, что это будет интересно поисковым роботам.

/*register=yes
/*forgot_password=yes
/*change_password=yes
/*login=yes
/*logout=yes
/*auth=yes

6. Представьте, вы просматриваете на сайте фотоальбом, открываете одну, вторую, третью фотографии, но на четвёртой решаете вернуться на шаг назад. В адресной строке появится вот что-то типа такого ругательства: ?back_url_ =%2Fbitrix%2F%2F. Убирается оно опять же изменением файла robots.txt в корне CMS «1С-Bitrix».

/*BACKURL=*
/*back_url=*
/*BACK_URL=*
/*back_url_admin=*

Таким образом, мы страхуем открытую часть (видна пользователям) и закрытую (видна администраторам CMS Битрикс).

7. Папка /upload. В ней «Битрикс» хранит картинки и видео с сайта. Если контент уникальный, то закрывать папку не нужно. Ведь проиндексированные картинки и видео – дополнительный источник трафика. Другое дело, когда в /upload хранится конфиденциальная информация или неуникальный контент.

Robots.txt на Битрикс для интернет-магазинов

Основа та же, что и для корпоративных сайтов, но с несколькими поправками.

1. В отличие от небольшого сайта компании, в интернет-магазине, как правило, не менее ста страниц. Страницы паджинации, отвечающие за переход пользователя с одной карточки товара на другую, засоряют поисковые системы. Чем больше страниц, тем больше «мусора».

/*?PAGEN

2. Запрет индексации действий пользователей и администраторов сайта. Следы фильтрации, сравнения товаров, добавления товаров в корзину также должны быть скрыты от глаз поискового робота.

/*?count
/*?action
/*?set_filter=*

3. Наконец, UTM-метки. Закрыть к ним доступ можно следующим образом:

/*openstat=
/*utm_source=

Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.

Что такое robots.txt и для чего он нужен?

Robots.txt - это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем (информация Яндекса).
В основном он нужен чтобы закрыть от индексации страницы и файлы, которые поисковикам индексировать и, следовательно, добавлять в поисковую выдачу не нужно.

Обычно это технические файлы и страницы, панели администрирования, кабинеты пользователя и дублирующаяся информация, например поиск вашего сайта и др.

Создание базового robots.txt для Битрикс

Частая ошибка начинающих кроется в ручном составлении этого файла. Это делать не нужно.
В Битриксе уже есть модуль, отвечающий за файл robots.txt. Его можно найти на странице «Маркетинг -> Поисковая оптимизация -> Настройка robots.txt» .
На этой странице есть кнопка для создания базового набора правил под систему Битрикс. Воспользуйтесь ей, чтобы создать все стандартные правила:

После генерации карты сайта путь к ней автоматически добавится в robots.txt.

После этого у вас уже будет хороший базовый набор правил. А дальше уже следует исходить из рекомендаций SEO-специалиста и закрывать (кнопкой «Запретить файл/папку») необходимые страницы. Обычно это страницы поиска, личные кабинеты и другие.

И не забывайте, что вы можете обратиться к нам за