Роботы поисковых систем - основные виды и методы их управления

Поисковый робот (паук) – это специальная программа, которая входит в состав поисковой системы. Основной целью робота является перебор документов интернета для занесения информации о них в поисковую базу данных. Паук занимается анализом веб-страницы и её сохранением в особом виде на сервер поисковика.

Каждый поисковый робот при индексации сайта ищет на нём так называемый файл robots.txt. Для чего он нужен? Robots.txt представляет собой текстовый файл, имеющий расширение txt, который можно открыть обычным блокнотом. Размещается в корневой директории веб-ресурса. В нём записываются специальные команды для пауков, позволяющие запрещать индексирование определённых разделов или страниц на сайте, управлять процессом склеивания доменов и задавать ещё некоторые интересные инструкции, о которых мы дальше подробней поговорим.

Нередко владельцу сайта или оптимизатору необходимо скрыть ненужную информацию от индексации на нём. Необязательно, если Вы используете нечестные методы продвижения, которые robotx.txt всё равно не поможет скрыть. Например, у Вас на сайте, скорее всего, есть папка с админской панелью, папка с шаблоном веб-ресурса, папка со скриптами и т.д., совсем не нужные для индексирования. Если их не скрыть, то поисковый робот может очень долго или не до конца проиндексировать сайт. Кроме того у Вас может иметься просто страничка «об авторе», которую Вам бы хотелось, чтобы робот не выводил в выдачу.

Давайте теперь перейдём к самому редактированию данного файла и посмотрим, что с ним можно сделать. Найдите его у себя в корневой папке на сервере и откройте. Если же у Вас пока нет сайта или самого robots.txt, то просто создаете файл блокнота с таким именем.

Файл robots.txt состоит не меньше чем из одного блока с 2-мя инструкциями – User-agent и Disallow (англ.- запрещать), который не даёт индексировать указанные разделы или файлы на сайте. Число данных инструкций может быть безграничным. Для того, чтобы Disallow что-то запрещал, путь который в нём указан должен начинаться со слэша «/», то есть вот так: «Disallow: /». Просто же «Disallow:» не запрещает индексацию. Регулярные выражения в данном файле не применяются.

Символ звёздочки – «*» применяется в инструкции User-Agent в значении «все роботы». Также в robots.txt могут использоваться комментарии, игнорирующиеся поисковиками: текст, заключённый от символа решётка «#» до конца строчки считается комментарием. Инструкции для различных User-agent разделяются пустой строкой.

Если Вы например хотите запретить на сайте индексацию документов предназначенной для распечатки на принтере, имеющих в конце названия «print» то можно создать в robots.txt маску - / * ? print.

У поисковых роботов есть ещё мета-теги, которые также могут управлять ими. Размещаются на каждой странице отдельного документа, например такого вида: meta name=”robots” content=”noindex, nofollow, noarchive”, где noindex – запрет на индексацию веб-страницы; nofollow – запрет на переход по ссылкам и передачу по ним статического веса; noarchive – запрет на хранение прямого индекса, точнее сохранённую копию.

У поисковых систем есть следующие четыре основных вида роботов:

1. Главный индексирующий робот;

2. Индексатор изображений;

3. Робот, который определяет зеркала веб-ресурсов;

4. Робот-«постукивалка», определяющий, доступен ли в данный момент сайт или отдельная его веб-страница или нет.

У пауков, существует ещё стандарт исключений, описывающий общие принципы написания файла robots.txt. Однако есть один интересный момент, заключающийся в том, что роботы современных поисковых систем придерживаются его далеко не полностью или вообще порой игнорируют. Поэтому важно знать некоторые нюансы, при составлении robots.txt, чтобы достичь нужного результата. Иначе можно попытаться скрыть одну страницу, а в итоге получится, что скрыл от индексации все документы на сайте, из-за чего его потом поисковик забанит. Или при неправильном написании этого файла, Яндекс или Google его просто проигнорируют и проиндексируют запрещённую страницу.

Поисковый робот Яндекса

Чтобы у Вас не возникло трудностей с зеркалами веб-ресурса и его возможного склеивания, требуется применять директиву «hots» (хост). Она будет указывать яндексовскому роботу на основное зеркало нужного сайта. Вид файла может быть следующий:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.yoursite.ru

или

User-agent: Yandex
Disallow: /cgi-bin
Host: yoursite.ru

В некоторых случаях сайт может показываться в поиске не под тем именем, которым бы Вам хотелось. В основном это связано с тем, что сайт имеет пару зеркал, а робот просто выбрал на своё усмотрение какое-то из них.

Зеркало сайта – это точная копия другого сайта. Нередко зеркала веб-ресурсов применяют для предоставления различных источников одинаковой информации. В большинстве случаев используются для увеличения скорости скачивания и загрузки документов сайта. Кстати, чтобы Вы не написали в директиву host склейка сайта будет осуществлена в пользу веб-ресурса с коротким доменом.

В частности для решения проблемы с ненужным именем сайта можно просто удалить зеркала веб-ресурса и оставить только одну его копию. Если же зеркала необходимы, то можно поступить так:

• На всех копиях сайта, кроме главной, создать robots.txt, с помощью которого запретить индексацию веб-ресурса;

• На вторичных зеркалах в главных страницах можно вставить тег meta name= “robots” contenc=”noindex, nofollow», которые запретят индексацию и переход по ссылкам;

• На главных страницах вторичных зеркал сделать ссылки на основную копию сайта.

Кроме того Яндекс поддерживает тег noindex, запрещающий индексировать заданные участки программного кода или текста в документе. Требуется всего лишь нужный кусочек заключить в открывающий тег noindex и закрывающий тег /noindex, чтобы Яндекс их пропускал. Очень полезная штука, которая помогает убирать из индексации на веб-странице лишние программные коды, которые затрудняют её процесс (индексации).

Данный тег также поддерживает Рамблер, у которого собственно говоря Яндекс его и позаимствовал :). Google не поддерживает noindex, но для его робота можно по-другому скрыть не нужную информацию.

Робот Google

Для удаления содержания всего сайта из индексации для всех поисковых систем, достаточно будет создать robots.txt следующего содержания:

User-agent: *
Disallow: /

Если хотите запретить индексацию только для робота Google, то содержимое файла будет выглядеть так:

User-agent: Googlebot
Disallow: /

Теперь давайте посмотрим, как можно для робота Google запретить индексировать часть сайта. Для этого используется знак «*», который означает любую последовательность символов, а $ означает конец имени. Например, Вы хотите запретить роботу Google индексировать папку admin, то нужно сделать так:

User-agent: Googlebot
Disallow: /admin

Если хотите запретить индексацию изображений, скажем расширения jpg, то это делает следующим образом:

User-agent: Googlebot
Disallow: /*.jpg$

Если требуется убрать из индекса динамически создаваемые документы, то записать это можно таким образом:

User-agent: Googlebot
Disallow: /*?

Другим вариантом запрета индексации для робота Google может быть использование мета-тегов. Скажем, Вы хотите запретить индексировать одну определённую страницу всем роботам, то в неё можно добавить такой мета-тег:

Meta name=”robots” content=”noindex, nofollow”

Если хотите запретить индексировать страницу только роботам Google, а другим разрешить, то нужно сделать так:

Meta name=”Googlebot” content=”noindex, nofollow”

В случае, когда необходимо разрешить всем поисковым роботам индексировать документ, но необходимо не дать им возможности переходить по внешним ссылкам, требуется написать в файле:

Meta name=”robots” content=”nofollow”

Если же требуется разрешить только Google индексировать документ, но запретить ему переходить по внешним ссылкам, указывается следующее:

Meta name=”Googlebot” content=”nofollow

Для запрещения всем поисковиками выводить ссылку «сохранено в кэше» пишется:

Meta name=”robots” content=”noarchive”

Для запрещения выводить ссылку «сохранено в кэше» только роботу Google:

Meta name=”Googlebot” content=”noarchive”

Чтобы запретить индексировать Google определённую картинку на Вашем сайте, следует в robots.txt указать до неё путь. Например, если изображение «my-foto» находится по адресу – http://yoursite.ru/images/my-foto.jpg, то наш файл будет выглядеть так:

User-agent: Googlebot-Image
Disallow: /images/my-foto.jpg

Если Вам нужно убрать из индекса Google все изображения на веб-ресурсе, то делается это следующим образом:

User-agent: Googlebot-Image
Disallow: /

Когда требуется запретить индексацию картинок гугловским роботом только расширения gif, а jpg оставить, требуется записать:

User-agent: Googlebot-Image
Disallow: /*.gif$

Робот Рамблера

Для запрета индексации всех страниц веб-ресурса Рамблеру, необходимо написать так:

User-agent: StackRambler
Disallow:

Также как и Яндекс, Рамблер поддерживает тег noindex, позволяющий скрывать куски кода или текста в документе от индексации.

Ошибки при создании файла robots.txt

Большинство людей при создании robots.txt часто допускают одни и те же ошибки. Некоторые из них безобидны и не принесут никакого эффекта. В других случаях можно случайно запретить индексацию всего сайта для всех поисковых систем, после чего не видать ему будет посетителей как своих ушей :).

1. Перепутанные команды.

Неправильно:

User-agent: /
Disallow: Yandex

Правильно:

User-agent: Yandex
Disallow: /

2. Несколько каталогов в Disallow.

Неправильно:

Disallow: /admin/ /images/ /scripts/

Правильно:

Disallow: /admin/
Disallow: /images/
Disallow: /scripts/

3. Неправильное написание файла robots.txt.

Неправильно:

robot.txt, robat.txt, robats.txt и т.д.

Правильно:

robots.txt

4. Написание robots.txt ЗАГЛАВНЫМИ буквами.

Неправильно:

ROBOTS.TXT или Robots.txt

Правильно:

robots.txt

5. Не указание расширения, путём слития названия файла и расширения.

Неправильно:

robotstxt

Правильно:

robots.txt

6. Указание неверного расширения:

Неправильно:

robots.doc (документ MWord)

Правильно:

robots.txt (расширение должно быть только .txt !!!)

7. Не заполненная строка в User-agent.

Не правильно:

User-agent:
Disallow:

Правильно:

User-agent: *
Disallow:

8. Неверное написание урл в директиве host.

Не правильно:

User-agent: Yandex
Disallow: /admin/
Host: http://www.yoursite.ru/

Правильно:

User-agent: Yandex
Disallow: /admin/
Host: www.yoursite.ru

9. Применение в Disallow знаков подстановки, например для указания всех файлов – page1.html, page2.html, page3.html и т.д.

Нельзя делать:

User-agent: *
Disallow: page*.html

10. Размещение комментариев в одной строке с инструкциями.

Disallow: /admin/ #не даём индексировать поисковым роботам админскую панель

11. Написание инструкций и директив в robots.txt ЗАГЛАВНЫМИ буквами.

Не правильно:

USER-AGENT: *
DISALLOW: /ADMIN/

Правильно:

User-agent: *
Disallow: /admin/

12. Перечисление каждого файла из директории для закрытия от индексации.

Не правильно:

User-agent: *
Disallow: /admin/backups
Disallow: /admin/cache
Disallow: /admin/components

Правильно:

User-agent: *
Disallow: /admin/ (скрываем директорию целиком)

13. Применение отдельных директив в секции *. Дело в том, что Яндекс и Google могут не совсем правильно на это отреагировать, поэтому лучше делать специальные секции для дополнительных директив, например Host.

Не правильно:

User-agent: *
Disallow: /admin/
Host: www.yoursite.ru

Правильно:

User-agent: *
Disallow: /admin/

User-agent: Yandex
Disallow: /admin/
Host: www.yoursite.ru

14. Отсутствие Disallow в robots.txt. Даже если Вы ничего не хотите запрещать от индексации, пустой Disallow требуется всё равно указать.

Не правильно:

User-agent: *

Правильно:

User-agent: *
Disallow:

15. Отсутствие слешей в директориях.


Неправильно:

User-agent: *
Disallow: admin

Правильно:

User-agent: *
Disallow: /admin/

Нюансы, связанные с robots.txt

Каждый поисковый робот руководствуется своими критериями для выбора той или иной веб-страницы при индексации в интернете. Но в ряде случаев, они начинают индексировать веб-страницы с авторитетных сайтов. Именно по этой причине важно в начале раскрутки сайта получить хотя бы несколько жирных ссылок с популярного веб-ресурса.

Хотя конечно можно добавить свой сайт вручную, скажем в Яндекс (http://webmaster.yandex.ru/) и ждать начала индексации. Но тогда возможно придётся ждать достаточно долго прихода робота.

После нахождения Вашей веб-страницы, паук начинает её потихоньку разбирать: читать title, искать ключевые слова, учитывать их плотность, частоту и выделения тегами акцентирования (strong и другие). В некоторых случаях робот может захватить сразу весь документ, в зависимости от разметки html-кода в документе.

Узнать о том, заходил к Вам робот или нет можно через логи, специальные скрипты или софт. К примеру, что-то подобное можно найти на http://www.netpromoter.ru. Хотя это не обязательно знать, так как на скорость посещения сайта пауком подобная информация никак не повлияет.

У некоторых людей могут возникнуть опасения насчёт того, что при неправильном указании директорий в Disallow, они могут запретить что-то не. Если Вы к ним относитесь, то рекомендую создать отдельную папку на сервере, в неё вложить все файлы или другие папки, которые не должны индексироваться, а затем запретить всю данную директорию для индексации.

Правда этот вариант не во всех случаев может подойти: при перенесении папки админ, сайт в частности на движке может не корректно или вообще перестать работать. Поэтому если данная тема слишком сложна для Вашего понимания, лучше просто создайте пустой файл robots.txt такого вида:

User-agent: *
Disallow: /

И ничего в нём больше не трогайте! Если такой файл у Вас уже существует, то оставьте в нём всё без изменений. В случае же когда Вам все-таки необходимо настроить robots.txt не разбираясь во всех тонкостях, заплатите деньги специалисту на фрилансерском сайте. Работа не долгая, разовая и стоить должна дёшево.

Подводим итоги по управлению роботами

Наконец мы с Вами разобрали тему, посвящённый управлению поисковыми роботами. Тема довольно сложная для понимания, но знать, как именно составлять файл robots.txt необходимо. Если что-то непонятно, перечитайте внимательно ещё раз.

Узнать стоимость

NS-studio