1. Приветствуем Вас на неофициальном форуме технической поддержки XenForo на русском языке. XenForo - коммерческий форумный движок от бывших создателей vBulletin, написанный на PHP.

Составляем правильный robots.txt

Тема в разделе "Оптимизация XenForo", создана пользователем Pavel, 13.10.2010.

Загрузка
  1. vadimon

    vadimon Местный

    Регистрация:
    30.07.11
    Сообщения:
    123
    Симпатии:
    11
    Версия XF:
    1.5.0
    Хм, а как же буть с такой ситуацией? На главной странице в разделе в блоке "Последнее:" ссылка имеет вид блаблабла.ru/posts/39, а мы ее от индексации закрываем... Давайте разберемся.
     

    Вложения:

    • bbb.jpg
      bbb.jpg
      Размер файла:
      15,9 КБ
      Просмотров:
      131
  2. Romchik®

    Romchik® The Power of Dreams Команда форума

    Регистрация:
    26.09.10
    Сообщения:
    5 746
    Симпатии:
    5 311
    Версия XF:
    1.5.18
    Тема будет так и так проиндексирована, просто с нормальным URL.
     
  3. vadimon

    vadimon Местный

    Регистрация:
    30.07.11
    Сообщения:
    123
    Симпатии:
    11
    Версия XF:
    1.5.0
    А в чем ненормальность ЧПУ, приведенного выше?
     
  4. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Скрипт форума не расчитан на то, что его будут пользовать в России, как и булка. Поэтому у скрипта нет инфы о "наших" роботах. Надо найти в файлах строку где перечисляются роботы, в том числе google, и добавить туда яндекс.
     
  5. Hkr

    Hkr Местный

    Регистрация:
    15.08.11
    Сообщения:
    22
    Симпатии:
    0
    а куда этот файл нужно копировать?
     
  6. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Я поясню суть доработки, поскольку у меня только самая первая версия этого форума и файлы могут отличаться.
    Дело в том что у роботов-поисковиков нет куков и им не нужны сессии, которые есть у каждого пользователя. Как результат этих сессий одна и таже страничка форума отображается под разными адресами. Грамотные разработчики форумов отключают сессии у роботов, что бы не было повторных индексаций. Для этого делается скриптик, уверена, он есть в файлах этого форума. Его можно найти в файлах поиском в редакторе, набрав слово Google. Вот, в ту строчку, где Google найдёте, надо дописать Yandex, Rambler и прочих роботов, что к Вам ходят на форум. Приблизительно код в файле должен выглядеть так
    Код:
    superglobal_size['_COOKIE'] == 0 AND preg_match("#(google|msnbot|yahoo! slurp)#si", $_SERVER['HTTP_USER_AGENT']));
    Кроме указанного варианта сессии у роботов можно запретить файлом .htaccess
     
    Hkr нравится это.
  7. CyberAP

    CyberAP Местный

    Регистрация:
    05.10.10
    Сообщения:
    2 604
    Симпатии:
    1 660
    Версия XF:
    1.5.10
    Не представляю о чём вы вообще. Скорость индексации форума зависит от самих поисковиков и у некоторых её можно настроить в инструментах для вебмастера.
     
  8. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    О форуме :)
     
  9. Pepelac

    Pepelac Продам луц в бутылках

    Регистрация:
    28.09.10
    Сообщения:
    1 794
    Симпатии:
    1 361
    Можно отсюда подробнее?
     
  10. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Ну, если сложно на своём форуме добавить "наших" роботов, то можно просто в файл .htaccess дописать следующее.
    Код:
    php_flag session.use_trans_sid Off
    php_flag session.use_only_cookie On
    php_flag session.auto_start On
     
  11. Pepelac

    Pepelac Продам луц в бутылках

    Регистрация:
    28.09.10
    Сообщения:
    1 794
    Симпатии:
    1 361
    Чтобы что-то дописывать, нужно во-первых знать, что дописывать, а во-вторых – зачем дописывать.

    Я хотел узнать, что вы имеете в виду говоря это:
     
  12. CyberAP

    CyberAP Местный

    Регистрация:
    05.10.10
    Сообщения:
    2 604
    Симпатии:
    1 660
    Версия XF:
    1.5.10
    Я говорил о
    Там такого нет ;)
     
  13. Pepelac

    Pepelac Продам луц в бутылках

    Регистрация:
    28.09.10
    Сообщения:
    1 794
    Симпатии:
    1 361
    Да, кстати. Яндекс упоминается в списке известных ботов (класс XenForo_Session)
    PHP:
    public static $knownRobots = array
        (
            
    'avsearch',
            
    'baiduspider',
            
    'bingbot',
            
    'crawler',
            
    'facebookexternalhit',
            
    'feedfetcher-google',
            
    'feedzirra',
            
    'googlebot',
            
    'kscrawler',
            
    'magpie-crawler',
            
    'nutch',
            
    'php/',
            
    'scooter',
            
    'scoutjet',
            
    'sogou web spider',
            
    'twitterbot',
            
    'xenforo signature generator',
            
    'yahoo! slurp',
            
    'yandexbot',
            
    'zend_http_client',
        );
     
    Yoskaldyr нравится это.
  14. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Похоже, это список ботов для сведений о посещении ими сайта, потому что, если для них написано, то у ботов есть имена (HTTP_USER_AGENT), Google, Yandex, Yahoo! slurp, .... Иначе, приведённый Вами список для сайта, а не для ботов.
    В общем, если в инете найдёте странички с сайта с разными адресами или длинющими адресами, то, значит, у роботов есть сессия на форуме а написАть robots.txt, что бы роботы не обращали внимание на такие адреса, скорее всего, не получится.
    В третьей линейке булки код находится в файле includes/init.php
     
  15. Pepelac

    Pepelac Продам луц в бутылках

    Регистрация:
    28.09.10
    Сообщения:
    1 794
    Симпатии:
    1 361
    Эм. А это тогда по-вашему что?

    PHP:
    /**
        * Checks whether or not the user agent is a known robot.
        *
        * @param string $userAgent
        *
        * @return string|boolean
        */
        
    public static function isRobot($userAgent)
        {
            if (
    preg_match('#(' implode('|'array_map('preg_quote'self::$knownRobots)) . ')#i'strtolower($userAgent), $match))
            {
                return 
    $match[1];
            }

            return 
    false;
        }
    Уже черт знает сколько времени не встречал сайтов, у который идентификатор сессии PHP передавался бы через get.
     
  16. Romchik®

    Romchik® The Power of Dreams Команда форума

    Регистрация:
    26.09.10
    Сообщения:
    5 746
    Симпатии:
    5 311
    Версия XF:
    1.5.18
    лиса, это как раз в булке можно было встретить ссылки с сессиями в индексе, а здесь я их не видел.
    Ни в чем. Если вам нужно в выдаче иметь два разных URL'а, ведущих по сути на одну страницу - не пишите эту строчку в robots.txt.

    Вот это 2 одинаковых URL. Но в выдаче у нас будет проиндексирован только один - второй.
    http://www.xf-russia.ru/forum/posts/18635/
    http://www.xf-russia.ru/forum/threads/Составляем-правильный-robots-txt.167/
     
    лиса нравится это.
  17. vadimon

    vadimon Местный

    Регистрация:
    30.07.11
    Сообщения:
    123
    Симпатии:
    11
    Версия XF:
    1.5.0
    Значит в robots.txt строчку Disallow: /posts/ мне лучше убрать? Уже три выдаче в яше прошло, не индексируется никак...
     
  18. Romchik®

    Romchik® The Power of Dreams Команда форума

    Регистрация:
    26.09.10
    Сообщения:
    5 746
    Симпатии:
    5 311
    Версия XF:
    1.5.18
    У вас проблема в этих двух строчках:
    Код:
    Disallow: /*/?direction
    Disallow: /*/?order
    Должно быть так:
    Код:
    Disallow: /forums/*/?direction
    Disallow: /forums/*/?order
    Потому форум и не индексируется.

    Кстати, я недавно похожую ошибку с параметрами допустил. Спасибо доброму человеку Grom'у - обратил внимание.
     
  19. vadimon

    vadimon Местный

    Регистрация:
    30.07.11
    Сообщения:
    123
    Симпатии:
    11
    Версия XF:
    1.5.0
    Хм... Ну что ж, попробую, спасибо.
     
  20. vadimon

    vadimon Местный

    Регистрация:
    30.07.11
    Сообщения:
    123
    Симпатии:
    11
    Версия XF:
    1.5.0
    Вот мой robots.txt

    User-agent: *
    Disallow: /images/
    Disallow: /account/
    Disallow: /admin.php
    Disallow: /conversations/
    Disallow: /forums/*/?direction
    Disallow: /forums/*/?order
    Disallow: /js/
    Disallow: /login/
    Disallow: /login.php
    Disallow: /logout/
    Disallow: /lost-password/
    Disallow: /forum/register
    Disallow: /register
    Disallow: /members/
    Disallow: /moderation-queue/
    Disallow: /misc/
    Disallow: /online/
    Disallow: /posts/
    Disallow: /threads/*/poll
    Disallow: /threads/*/reply
    Disallow: /search/
    Disallow: /search.php
    Disallow: /watched/
    Host: webatlon.ru

    что тут не хватает, что неправильного и что лишнее?
     
    Lex нравится это.

Поделиться этой страницей