23:53 Стандарт виключень для роботів | |
Стандарт виключень для роботів (robots.txt файл обмеження доступу до вмісту роботам на http-сервері. Файл повинен знаходитися в корені сайту (тобто мати шлях щодо імені сайту /robots.txt). При наявності декількох піддоменів файл повинен розташовуватися в кореневому каталозі кожного з них. Даний файл доповнює стандарт Sitemaps. Використання файлу добровільно. Стандарт був прийнятий консорціумом W3C 30 січня 1994 року в списку розсилки robots-request@nexor.co.uk і з тих пір використовується більшістю відомих пошукових машин. Файл robots.txt використовується для часткового управління індексування вашого сайту пошуковими роботами. Цей файл складається з набору інструкцій для пошукових машин, за допомогою яких можна задати файли, сторінки або каталоги сайту, які не мають індексуватися. Файл robots.txt може використовуватися для вказівки розташування файлу і може показати, що саме потрібно, в першу чергу, проіндексувати пошуковому роботу. Файл складається з записів. Записи відокремлюються однією або більше порожніх рядків (ознака кінця рядка: символи CR, CR+LF, LF). Кожен запис містить непорожній рядок наступного виду: <поле>:<необов'язковий пробіл><значення><необов'язковий пробіл> де поле — це або User-agent, або Disallow. Порівняння проводиться методом простого пошуку підрядка. Наприклад, запис Disallow: /about заборонить доступ як до розділу http://example.com/about/, так і до файлу http://example.com/about.php, а запис Disallow: /about/ — тільки до розділу http://example.com/about/. Заборона доступу всіх роботів до всьому сайту: User-agent: * Disallow: / Заборона доступу певного робота до каталогу /private/: User-agent: googlebot Disallow: /private/ Crawl-delay: встановлює час, що робот повинен витримувати між завантаженням сторінок. Якщо робот буде завантажувати сторінки занадто часто, це може створити зайве навантаження на сервер. Втім, сучасні пошукові машини за замовчуванням задають достатню затримку в 1-2 секунди. User-agent: * Crawl-delay: 10 Allow: має дію, зворотне директиві Disallow — дозволяє доступ до певної частини ресурсу. Підтримується всіма основними пошуковими системами. У наступному прикладі дозволяється доступ до файлу photo.html а доступ до пошукачів всій решті інформації в каталозі /album1/ забороняється. Allow: /album1/photo.html Disallow: /album1/ | |
|
Всего комментариев: 0 | |