Блог фрилансера - сайты под ключ

Корректируем robots.txt

Просмотров: 11752Комментарии: 2
СЕОПоисковики

составляем правильный robots.txt

Поисковые системы последнее время стали очень жёстко относится к дублям страниц сайтов и к страницам не имеющим контента как такового. А таких страниц, в зависимости от применяемого движка, может быть очень много. В лучшем случае эти страницы после индексации просто напросто будут игнорироваться поисковиком, но чаще всего происходит более неприятная вещь - санкции поисковиков ко всему сайту в виде уменьшения количества страниц в индексе, причём хороших со всех точек зрения, а то и включение какого нибудь фильтра. По крайней мере Гугл ещё весной обьявил что будет вообще игнорировать сайты имеющие большой процент никому не нужных страниц.

Нанести вред сайту могут и те страницы на которых выводится информация с других сайтов методом граббинга или выдираемая из RSS фидов. А уж к страницам которые содержат копи-пасте контент отношение тем более будет сильно отрицательное. И хотя в результатах поска мы до сих пор видим кучи сайтов с подобным контентом, многие уже почувствовали на собственых проектах результаты таких изменений в алгоритмах. Хотя часто происходит всё с точностью до наоборот - те кто ворует контент спокойно себя чувствуют в топах, а те у кого этот контент своровали, упали в выдаче ниже плинтуса.

И тем не менее, несмотря на то что поисковики не всегда адекватно оценивают ситуацию, особенно этим страдает Яндекс, для хорошего поискового здоровья сайта нужно немного поработать ручками что бы не давать индексировать поисковикам то что они не любят. А сделать это можно используя то что для этих целей предназначено - файл robots.txt И главное здесь - не ошибится, а то невзначай запретите индексировать весь сайт или большую его часть. А потом будете чесать репу и писать тому же Платону - почему сайта нет в индексе?

Итак, для выяснения проблем с сайтом нужно посмотреть что явно нужно закрыть от поисковиков. В первую очередь страницы которые не несут какой либо полезной информации. Например страницу контакты на которой обычно расположена лиш форма отправки сообщения, страницы профилей юзеров в форуме, страницы ошибок (если они Ваши собственные), файлы для скачивания... Пройдите по своему сайту и Вы навеняка найдёте то что не нужно скармливать поисковым роботам. Так же рекомендуется закрыть от индексации страницы генерируемые для распечатки, ведь это полностью дублированный контент той страницы которую кто нибудь захочет распечатать.

Для сайтов на которых установлен форум будет полезно указать в robots.txt что индексировать страницы на которые ведут ссылки с динамическими параметрами (например идентификаторы сессий, пользователей, рефереров и т.д.) не нужно. Иначе робот проглотит тысячи страниц с абсолютно индентичным содержанием. Ну а что бы грамотно настроить robots.txt воспользуйтесь инструкциями самих поисковых систем. Например для Яши инструкции найдутся здесь - http://help.yandex.ru/webmaster/?id=996567 Там же можно проверить правильно ли Вы составили список директив и не закрыли ли случайно от индексации то что должно индексироваться.

Здесь я при всём своём желании не могу привести примеры решения, так как они совершенно разные для разных движков, и даже в пределах одного движка файл robots.txt может быть разный. Ведь могут быть разные модификации - с форумом или без (а ещё в какой именно папке лежит форум), с тем ми или иными дополнениями и модулями (плагинами или компонентами). В кажом конкретном случае нужно плясать от родного robots.txt который должен находиться в корневой папке движка. Кроме того, не стоит забывать и о том что запрет индексации работает не только в файле robots.txt но и в заголовке страницы - тег <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> закроет от индексаци любую страницу. Правда данный метод применим в очень редких случаях, так как практически все движки не умеют по умолчанию менять этот тег для выборочных страниц.

Если Вы всё сделаете грамотно, без ошибок, то даже если Ваш сайт уже стал выпадать из индекса, он намного быстрее вернётся обратно. И ещё, не стоит игнорировать все те возможности которые нам дают сами поисковики. Я имею ввиду тот же Яндекс Вебмастер и его аналог в гугле. Там можно увидеть реальное положение дел с Вашим сайтом с точки зрения поисковика.

Комментариев: 2 RSS

1 aleksandr 16-12-2010 19:54

индексируется RSS feed хотя есть запрет в robots.tht не могу понять что делать

2 Blogger 17-12-2010 12:31

Проверь в Яндекс вебмастере - есть раздел где проверяется корректность robots.txt

Если выдаст что ссылка на RSS запрещена к индексации то возможно что эта ссылка была проиндексирована раньше чем поправлен файл robots.txt и нужно ждать пока она удалится из индекса. Можно ещё к ссылке добавить теги

Оставьте комментарий!

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake excaim question


Комментарий будет опубликован после проверки

     

  

(обязательно)