Преимущества индексации страниц с mod_rewrite

Модуль mod_rewrite.so в первую очередь предназначен для имитации файлов и папок на серверах типа Apache. Т.е. папки или файлы не обязательно должны существовать на сервере, их может заменять один или несколько серверных исполняемых скриптов с расширениями .php, .asp или любые другие исполняемые на стороне сервера программы..
Многие сайты, которые поисковые роботы и некоторые люди считают статическими (действительно состоящими из файлов и папок), на самом деле являются динамическими (их содержание генерируется в зависимости от того, какой URL был передан скрипту). Людей ввести в заблуждение куда проще, чем поисковых роботов, т.к. они помимо url смотрят еще и на все заголовки, возвращаемые сервером в ответ на запрос кокой либо страницы или файла, и в зависимости от этого решают к какому типу относится сайт и как его индексировать.

Так как же динамические сайты обманывают поисковиков, и главное, зачем им это нужно? Ответ на этот вопрос прост, они отсылают им такие заголовки (header), что бы поисковики поверили в то, что это действительно физически существующие файлы. Ну а нужно это многим сайтам, и в первую очередь для экономии трафика. Ведь если сайт является популярным и при этом очень большим (больше 100 Mb чистого контента), то поисковые системы могут индексировать его почти каждый день, что с точки зрения расчетов 100×30;3 Гигабайта, и это при условии что сайт индексирует всего один поисковый робот. А при симуляции реальных файлов, и отправке правильных заголовков поисковики не будут «скачивать» все уже проиндексированные страницы, при условии, что их размер и дата не будут меняться с течением времени.

Для работы с mod_rewrite вам необходимо в корневой папке сайта создать (если нет) или дописать в уже существующий .htaccess, строку:

RewriteEngine on

После этого, если mod_rewrite был установлен на вашем сервере, он должен начать работать. О том, как использовать все возможности mod_rewrite и вообще, что это такое, вы можете почитать в других моих статьях: Псевдостатика (mod_rewrite). Часть 1, Часть 2.

После то как mod_rewrite был настроен и сайт был приспособлен для работы с ним, т.е. все динамические URL были преобразованы в статические, можно приступать к исправлению отсылаемых заголовков. Основная масса поисковых роботов при индексации запрашивает только дату последней модификации и размер документа, но есть и более привередливые, и чтобы удовлетворить всех мне пришлось изрядно повозиться с их документацией. И вот небольшая таблица, в которой описаны основные заголовки, которые запрашивают поисковики для определения типа страницы:

If-Modified-Since Заголовок, который отправляет скрипту поисковый робот, в нем содержится дата (в формате GMT) последнего изменения файла, хранящегося у поискового робота. В ответ на него нужно отсылать header(«HTTP/1.1 304 Not Modified»), если дата изменения этого файла не была изменена.

Content-Length Размер файла, этот заголовок должен отправлять скрипт, причем он должен соответствовать реальности и всегда быть одинаковым.

Last-Modified Дата (в формате GMT) текущего изменения, должна равняться той дате, что указанна в If-Modified-Since, если вы не хотите, что бы страница была еще раз скачана роботом.

Expires Дата (в формате GMT) действительности файла/документа, по идее после истечения этой даты поисковики должны перестать выдавать данный файл/документ в результатах поиска.

Content-Type Содержание (тип) файла, необходим поисковику для принятия решения, скачивать файл или нет. К примеру, если файл имеет расширение .exe или .dll то его содержание, наверное, никому не понадобится, по этой причине некоторые файлы даже не скачиваются поисковыми роботами.

http_range Нужен для поддержки докачки файлов. Данный заголовок отправляется поисковым роботом и содержит размер уже загруженных данных (используется поисковиками крайне редко).

accept-ranges Размер всего файла при использовании докачки данных (используется поисковиками крайне редко).

content-range Позиция, с которой идет загрузка файла данных (используется поисковиками крайне редко).

В таблицу я не стал вносить заголовки состояний страницы (200, 303, 302, 301, 404), которые ваш сервер в любом случае должен отсылать сам, но если вам хочется, то вы их тоже можете изменять. Более подробную информацию ищите в статье ПРОТОКОЛ ПЕРЕДАЧИ ГИПЕРТЕКСТА — HTTP / 1.1 и Коды ответов сервера.

Из этой статьи вы должны были усвоить, что для больших и посещаемых сайтов использование mod_rewrite + header() жизненно необходимо. Даже если вам придется полностью менять движок сайта или его переделывать (для правильного отображения всех URL), то это экономически обоснованно, т.к. тратить свой трафик на поисковых роботов не целеобразно. Ведь приблизительная цена гигабайта трафика составляет 1-2$, и из расчетов выше видно, что на одного поискового робота будет приходиться по 3-6$ в месяц, а таких ботов обычно не менее пяти, в итоге получится очень значительная сумма даже для очень богатого и крупного интернет-проекта. Поэтому большие динамические сайты лучше сразу создавать изначально ориентированные на работу с mod_rewrite + правильный header(), и тогда индексация сайта множеством поисковиков для вас не будет проблемой.

Об отправке заголовков советую почитать статью Harry Fuecks (Перевод: Муллин Сергей, Кузьма Феськов) «Кэширование в PHP».

Поделиться в соц. сетях

mailru Преимущества индексации страниц с mod rewrite
facebook Преимущества индексации страниц с mod rewrite
odnoklassniki Преимущества индексации страниц с mod rewrite
livejournal Преимущества индексации страниц с mod rewrite
googlebuzz Преимущества индексации страниц с mod rewrite

Также рекомендуем:

  1. Вышли релизы PHP 5.1.2 и 4.4.2 В новом релизе PHP 5.1.2 исправлено более 80 ошибок, в том числе устранена проблема безопасности класса «Format string» в расширении mysqli. . Из новшеств может отметить: Помещение в состав поставки PHP расширений «hash» и XMLWriter. В интерфейс к библиотеке GD добавлена возможность генерации PNG в сжатом виде. SQLite библиотека обновлена с версии 2.8.17 до 3.2.8. [...]...
  2. Оптимизация Apache + PHP + PostgreSQL После ввода в строй динамического веб-сервера на базе apach + php + postgresql (да и на базе других систем тоже, если честно), вебмастер часто обнаруживает, что производительность системы начинает с большей или меньшей активностью стремиться к нулю, порой его достигая при наплывах посетителей. Стандартными действиями вебмастера при этом являются лихорадочное чтение документации, поиск в Интернете [...]...
  3. Реалистичный огонь Создайте новое изображение 200×200 пикселей. Заполните его белым цветом. Примените Filter > Render > Difference clouds два-три раза. Затем подгоните контрастность изображения примерно так как на нижерасположенном рисунке.. Теперь примените Filter > Render > Lighting effects с такимим параметрами: Применим фильтр Filter > Brush strokes> Accented edges с параметрами: Получившийся слой можно накладывать на ваши [...]...
  4. Ловушка для спам-бота Многие спам-боты, чтобы скрыть свои реальные имена (названия), которые легко отследить по записи user_agent, изменяют эту запись, меняя её на записи разных браузеров (например: «mozilla/4.0 (compatible; msie 5.5; windows nt 5.0)» и так далее). Также эти боты игнорируют стандарты записей для файла robots.txt (описание стандарта Вы можете прочесть здесь http://www.robotstxt.org/wc/exclusion.html robots.txt standard).. Можно, конечно, пойти [...]...
  5. Второй раз повторяю: я человек! CAPTCHA 1. Краткий обзор Интернет-роботы или как их чаще называют боты, это программы созданные для автоматизированного выполнения некоторых функций в сети. В зависимости от их предназначения, цель работы таких программ тоже разная. Но объединяет роботов одно – избавить человека от выполнения однообразной рутинной работы. Казалось бы, в этом нет ничего зазорного. Бизнесмен, получающий на электронную почту [...]...
  6. Сколько платить за раскрутку сайта Даже при беглом знакомстве с предложениями по раскрутке сайта становится ясно, что цены отличаются в несколько раз. Означает ли это, что одни – труженики, делающие дело за реальную стоимость, а другие – рвачи и перекупщики? Не будем отрицать такую возможность, рвачи есть везде. Тем более, что задача каждого менеджера – не допустить перерасхода средств, в [...]...
  7. Правила хорошего поведения при обмене ссылками Обмен ссылками – один из самых распространенных способов привлечения посетителей на новый сайт.. Некоторые менеджеры сайта, самостоятельно занимающиеся раскруткой и продвижением сайтов, игнорируют данный способ раскрутки, мотивируя это тем, что подобный вид продвижения не принесет на сайт большое количество посетителей, и затраты времени на обмен ссылками с сайтами не принесут ожидаемой качественной и количественной отдачи, [...]...
  8. Кодировки web-документов История возникновения Кодировка представляет собой таблицу символов, где каждой букве алфавита (а также цифрам и специальным знакам) присвоен свой уникальный номер – код символа.. Стандартизирована только половина таблицы, т.н. ascii-код – первые 128 символов, которые включают в себя буквы латинского алфавита. И с ними никогда не бывает проблем. Вторая же половина таблицы (а всего в [...]...
  9. Несколько советов по созданию эффективного сайта! Для чего нужен вам сайт и его основные задачи. . Вы сначала должны определиться, для чего нужен вам сайт и на какую тематику он будет.Образно говоря сайты делятся на некоторые категории, к примеру – не коммерческие сайты и коммерческие. Не коммерческий сайт. Такой сайт может быть посвящен чему угодно. Вашему хобби или же он будет [...]...
  10. SEO-копирайтинг в вопросах и ответах Предлагаем вам ответы на наиболее часто встречающиеся вопросы о SEO-копирайтинге. Ответы эти взяты из практики и будут интересны прежде всего конечным владельцам сайтов.. Что такое SEO-копирайтинг? Какая цель у SEO-копирайтинга? Чем занимается SEO-копирайтер? Я ничего не понимаю в ключевых словах, поможет ли SEO-копирайтинг? Почему на страницах так мало текста? Чем еще может помочь SEO-копирайтинг в [...]...
  11. Ruby on Rails vs. PHP stats Интересную статистику выложили недавно на phpinside.ru под душераздирающим заголовком “PHP съест Ruby on Rails на завтрак.” Только вот выводы из неё сделали несколько странные. Я же выводов делать не буду, а просто покажу два графика. Любой с каплей здравого смысла в голове, сам сделает вывод.....
  12. Лист бумаги Часть первая. 1. Создаем новый документ, называем Paper. 2. Выбираем Rectangular Marquee Tool (М) 3.Выделим весь лист. 4. Выделенное заполняем белым. 5. Заходим Layer>Layer Style>Drop Shadow-Opacity 20%-Distance 2-Spread 0 -Size 1 6. Нажимаем на Stroke.-Size 1px -Outside -Opacity 5% (Внимание! Для каждого размера листа, свои опции!) 7. Выбираем Elliptical Marquee Tool (M) 8. Зажимаем Shift [...]...
  13. Владимир Липка: веб-дизайн Все очень просто. Хороший веб-дизайн – это когда сайт не вызывает вопросов. Если на сайте невозможно отыскать нужную информацию, не ясна цель создания сайта, а внешний вид раздражает – это плохой веб-дизайн.. Дизайн – не искусство Задача искусства не давать ответы, его задача, скорее, в обратном – ставить вопросы. В отличие от искусства – дизайн [...]...
  14. Работа с SQLite Введение SQLite – это реляционная база данных, запросы к которой можно осуществлять при помощи языка запросов SQL. База данных не поддерживает все особенности SQL и уступает в функциональности другим развитым СУБД, но вполне подходит для хранения и извлечения информации.. Отличие SQLite от MySQL и аналогичных СУБД Классические СУБД, такие как MySQL (а так же MS [...]...
  15. Как нарисовать резьбу. Когда речь заходит о рисовании реалистичной резьбы для иллюстрации или технического чертежа, многие просто не знают, с какой формы начать и как должна выглядеть тень. В этом уроке я расскажу вам о базовой технике создания резьбы вокруг любого цилиндрического объекта.. 1. Для создания одного витка спирали вам нужно будет объединить три базовых примитива – прямоугольник [...]...

Комментарии запрещены.