Эффективно используйте robots.txt
Файл "robots.txt" сообщает поисковым системам о том, какие части вашего сайта открыты для их доступа и индексации. Этот файл, обычно озаглавливаемый "robots.txt", помещается в корневую директорию вашего сайта.
Адрес нашего файла robots.txt
![]()
Всем поисковым роботам (обозначается символом *) запрещен доступ к директории /images/ или любому URL, начинающемуся с /search
Вы можете запретить доступ поисковых роботов к тем частям вашего сайта, которые сочтете неинтересными для пользователей поисковых систем. Если вы хотите запретить поисковым системам доступ к страницам вашего сайта, то можете воспользоваться удобным генератором файлов robots.txt из Инструментов для Вебмастеров Google.
Учтите, что в случае, если ваш сайт содержит поддомены, и вы хотите запретить сканирование страниц на них, то вам придется создать отдельный robots.txt для этого поддомена. Больше информации об использовании файла robots.txt можно найти в Справочном Центре для Вебмастеров.
Также есть некоторые другие способы запретить индексацию частей вашего сайта, например с помощью аттрибута "NOINDEX" в метатеге robots, закрытия частей сайта паролем через файл .htaccess и удаления уже проиндексированного контента через Инструменты для Вебмастеров. Инженер Google Мэтт Каттс объясняет тонкости блокировки отдельных URL в этом видео.
Правильное использование robots.txt
Используйте более надежные методы скрытия конфиденциальной информации. Не стоит полагаться на robots.txt при блокировании конфиденциальной или секретной информации.
Во-первых, поисковые системы все еще могут помещать ссылку на заблокированные вами страницы, не указывая заголовок или сниппеты, если где-то в сети есть ссылки на этот материал (например в логах реферреров). Во-вторых, нестандартные поисковые системы или поисковые системы, не поддерживающие стандарты доступа для роботов, могут игнорировать инструкции из robots.txt. И, наконец, любопытный пользователь может заглянуть в ваш сайт roobots.txt и увидеть, какие директории вы хотите скрыть. Шифровка контента и установка паролей через файл .htaccess - гораздо более надежные способы.
Не советуем:
- разрешать индексацию страниц поиска и им подобных (пользователи не любят с одной страницы поиска переходить на другую без особой полезной информации),
- позволять индексацию большого количества одинаковых или почти одинаковых страниц. Нужны ли в индексе 10 000 практически одинаковых страниц?
- разрешать индексацию страниц, сгенерированных прокси-сервером.