Правильная настройка robots.txt и .htaccess на DLE

Правильная настройка robots.txt

Правильная настройка robots.txt

CMS DLE (DataLife Engine) нынче является весьма популярной среди web-разработчиков. Лично я давно выбрал ее в качестве основной системы управления как для приличных сайтов, сервисов, так и для варезников, сателлитов и т.п.). DLE имеет множество преимуществ перед альтернативными CMS, но как и любой продукт нуждается в тонкой настройке (оптимизации).

Это первый пост про DLE. В планах серия постов, в которых я буду описывать методы, прибегнув к которым можно будет добиться максимально правильной настройки CMS DataLife Engine.

Сегодня мы рассмотрим вопрос правильной настройки файлов robots.txt и .htaccess на DLE.

Настройка Robots.txt для DLE.

Файл robots.txt находится (должен находится) в корневом каталоге сайта. В нем необходимо установить запреты на индексацию не имеющих смысловой нагрузки страниц, страниц с дублями контента и прочих страниц, далеко не способствующих продвижению сайта. Так же в «роботсе» указываем адрес XML карты сайта и основной домен (с www или без).

Правильный файл robots.txt должен иметь примерно следующее содержание:
User-agent: *
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /newposts/
Disallow: /favorites/
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?do=lastcomments
Disallow: /index.php?subaction=newposts
Disallow: /statistics.html
Disallow: /addnews.html
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

Данный вариант не запрещает индексацию страниц, которые создают дубли внутри сайта (теги, даты, страницы внутренней навигации). Не все хотят убирать их из индекса ПС, например сателлито-мейкеры, т.к. для них важно большое количество страниц в индексе для продажи ссылок. Хотя я бы не советовал оставлять эти страницы даже на сателлитах.

Если вы решили избавиться от внутренних дублей, то добавьте в robots.txt следующие строки:

Не забудьте заменить site.ru на адрес своего сайта.

Первый шаг по оптимизации DLE сайта сделан.

2. Настройка .htaccess для DLE.
Файл .htaccess так же находится в корне сайта и является файлом для дополнительной настройки web-сервера. C помощью нехитрых «манипуляций» мы подправим алгоритмы формирования некоторых URL, а точнее установим редиректы.

Открываем файл, находим 2 верхних строки:

DirectoryIndex index.php

RewriteEngine On

и заменяем их на следующий код:
RewriteEngine On
Options +Indexes
Options +FollowSymLinks

# Редирект для категорий (чтобы в конце URL был /)
RewriteBase /
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !-f
RewriteCond %{REQUEST_URI} !/$
RewriteCond %{REQUEST_URI} !.html$
RewriteCond %{REQUEST_URI} !.xml$
RewriteRule (.+) $1/ [R=301,L]

# Редирект c www на без www
RewriteCond %{HTTP_HOST} ^www.site.ru
RewriteRule ^(.*)$ http://site.ru/$1 [R=permanent,L]

# Редирект для главной (с /index.php,html на /)
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.html\ HTTP/
RewriteRule ^index\.html$ / [R=301,L]
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
RewriteRule ^index\.php$ / [R=301,L]

Не забудьте заменить site.ru на адрес вашего сайта.

Данный код применяет следующие редиректы:

Редирект для категорий. Теперь все URL категорий будут иметь знак слеш (/) в конце. Аналогично урлы категорий должны быть прописаны и в шаблоне. Необходимая мера для удаления из индекса одинаковых страниц-категорий с разными URL. Редирект с www.site.ru на site.ru. Четко дает понять ПС о том, что все страницы вашего сайта должны быть проиндексированы без www. Если в индексе уже есть страницы с www и без, то при добавлении данной части кода ПС уберет ненужные страницы, создающие дубли.

Редирект для главной страницы. Как известно, site.ru, site.ru/index.php, www.site.ru и www.site.ru/index.php — это 4 разных страницы в глазах ПС. Предыдущая часть кода устраняет проблему с двумя последними, а последняя часть перенаправляет с site.ru/index.php на site.ru.
Во всех случаях используется 301 редирект с параметром permanent, который дает ПС понять о том, что страницы перенесены на новый адрес на постоянной основе.

Таким образом с помощью данной модификации файла .htaccess можно не только избежать «негативных последствий», но и исправить положение уже проиндексированного, не настроенного за ранее сайта.


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *