Яndex индексирует страницы
по их истинным адресам.
Это значит, что, если на
странице стоит redirect, робот
воспримет его как ссылку
на новый адрес и внесет ее
в очередь на
индексирование (если она
удовлетворяет описанным
выше правилам). То же самое
произойдет, если в одном
из фреймов будет стоять
ссылка на другой сервер. В
частности, если эта ссылка
находится вне доменов,
разрешенных по умолчанию,
страница НЕ будет
проиндексирована. Робот Яndex
хранит дату последнего
обхода каждой страницы,
дату ее изменения (присланную
Web-сервером) и дату
внесения последних
изменений в базу поиска (дату
индексации). Он
оптимизирует обход Сети
таким образом, чтобы чаще
посещать наиболее
изменяемые сервера.
Яndex индексирует документ
полностью: текст,
заголовок, подписи к
картинкам, описание (description),
ключевые слова и
некоторую другую
информацию.
Как запретить
индексацию определенных
страниц?
Разрешения и запрещения
на индексацию берутся
всеми поисковыми
системами из файла robots.txt.
Запрет на индексацию ряда
страниц может появиться,
например, из соображений
секретности или из
желания не индексировать
одинаковые документы в
разных кодировках. Чем
меньше Ваш сервер, тем
быстрее робот его обойдет.
Поэтому запретите в файле
robots.txt все документы,
которые не имеет смысла
индексировать (например,
файлы статистики или
списки файлов в
директориях). Обратите
особое внимание на CGI или
ISAPI скрипты - наш робот
индексирует их наравне с
другими документами.
В простейшем виде (разрешено
все, кроме директории
скриптов) файл robots.txt
выглядит следующим
образом:
User-Agent: *
Disallow: /cgi-bin/
Детальное описание
спецификации файла можно
прочитать на странице: "Стандарт
исключений для роботов".
Как выяснить, что Yandex
проиндексировал на моем
сервере?
Если в Расширенном
поиске, в разделе "Сайт/вершина",
в поле "Искать только на
данном сайте" Вы
укажете свой URL и нажмете
кнопку "Найти", то в
результате поиска Вы
увидите все страницы
Вашего сервера,
проиндексированные Яndex'ом.
Источник: http://www.yandex.ru/
|