1. Приветствуем Вас на неофициальном форуме технической поддержки XenForo на русском языке. XenForo - коммерческий форумный движок от бывших создателей vBulletin, написанный на PHP.

Об индексации сайта и его конфигурации

Тема в разделе "OFF-топик", создана пользователем лиса, 13.05.2012.

Загрузка
  1. infis

    infis Местный

    Регистрация:
    27.06.11
    Сообщения:
    5 966
    Симпатии:
    3 548
    Версия XF:
    1.5.9
    Не сравнивайте клиентский браузер и движок браузера бота. Это разные вещи. А вообще складывается ощущение, что Вы кроме себя никого не слышите. Вам хочется доказать свою правоту и все. Я Вам уже говорил о том, что бот видит сайт не внешне, а внутренне. Ему не особо важно, где и что размещено. Ему важен контент и ссылки. Многие теги попросту игнорируются. И визуальное представление может сильно отличаться порядком представления от того, что внутри страницы. Плюс есть различные ифреймы и генерация контента яваскриптами, которые ботами вообще игнорируются.
    Если бот видит одинаковый контент с небольшими изменениями, то он считает, что при определенном уровне совпадения это одно и то же. Именно потому, что часть страницы в общем слегка изменяется по разным причинам. И т.д. и т.п.
    Я рассматриваю все это с программной точки зрения. И дизайн тут вообще не причем. Кстати, метатеги в подавляющем большинстве также игнорируются. Это на заре интернета они имели огромное значение. Сейчас боты предпочитают сами извлекать контент и генерировать список встречающихся слов и фраз. В общем там все достаточно сложно работает, используя одновременно различные алгоритмы обработки. Огромная часть контента фильтруется, отсекая стоп-слова и стоп-фразы. Языковые различия страниц учитываются также самыми различными способами. Точных алгоритмов ни один поисковый движок не раскрывает, так как это позволит быстро научиться сеошникам выводить в топ сайты с любым контентом, чего, естественно, никому, кроме сеошников, не надо.
    Но общие рекомендации Вам даны и самим поисковиком и уже несколькими пользователями этого сайта, включая меня :)

    Дальше либо следуйте рекомендациям, либо недоумевайте дальше...
     
    Romchik® нравится это.
  2. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Специфика моих сайтов такова, что одинаковые с моим сайтом странички могут появится на многих других сайтах, не моих. Просто юэеры ходят по интернету и задают одни и теже вопросы на разных сайтах. Тем не менее, роботы не считают такие странички одинаковыми.
    Потом у Вас только "ощущения" а на моих сайтах реальные события. Мне нужно решить задачу в которой роботы смотрели бы свои страницы, поскольку, как оказалось, они не обучены этому. Сейчас я согнала чужих роботов со страниц стилей. Мобильным роботам - мобильный стиль. Остальным роботам дефолтный стиль. Мне без разницы, что будет дублироваться текст сообщений. Главное, что бы не было бессмысленного тирражирования одинаковых страниц. Пусть будет четыре одинаковых страницы в разных стилях и с разным языком, но не больше. Вот сделаю и посмотрим, как заценят это поисковики. А так о чём спор? Вы же сами констатируете, что никто не знает то, по какому алгоритму работает поисковик.
     
  3. infis

    infis Местный

    Регистрация:
    27.06.11
    Сообщения:
    5 966
    Симпатии:
    3 548
    Версия XF:
    1.5.9
    Удачи в выяснении алгоритмов :)
     
    Romchik® нравится это.
  4. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Ну, вот, называются помощники. Кроме как не делай этого ничем не помогли. Конечно, если ничего не делать, то и проблем не будет.
     
  5. infis

    infis Местный

    Регистрация:
    27.06.11
    Сообщения:
    5 966
    Симпатии:
    3 548
    Версия XF:
    1.5.9
    Вообще-то я не говорил, чтобы ничего не делали. Я лишь указал на то, что давать возможность ботам скачивать страницы с разными стили и языками, но с одним контентом - не лучшая идея. Выводы и реализацию Вы делаете сами.
    Если не считаете это помощью (подсказкой) - не пользуйтесь ей.
     
  6. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Откуда, выводы о том что это плохо - от сеошников? Так у них свои цели, им некогда заниматься каждым сайтом. Им нужно универсальное решение всех проблем, что бы получить пусть минимальный но положительный результат.
     
  7. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Гугль не понял, что это за инструкция в robots.txt. :(
    Для исключения двойного сканирования страниц с дефолтным стилем и страниц форума с ID языка, установленного по умолчанию robots.txt будет такой
    Код:
    User-agent: *
    Disallow: /*.php?*styleid=1$
    Disallow: /*.php?*langid=2$
    Где
    styleid=1 - это стиль с ID=1 (дефолтный)
    langid=2 - это язык с ID=2 (русский)
    Двойное сканирование получается от того, что робот просканировал страницу, в которой стиль и язык установлены по умолчанию
    http://mysite/forum.php
    Затем робот подключая теже ID сканирует ту же страницу но по другим адресам
    http://mysite/forum.php?styleid=1
    http://mysite/forum.php?langid=2
    В результате чего получается, как минимум, три одинаковые страницы по разным адресам.
     
  8. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Вот поисковик от гугля
    Код:
    crawl-66-249-66-60.googlebot.com
    SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0
    Configuration/CLDC-1.1 UP.
    Browser/6.2.3.3.c.1.101 (GUI) MMP/2
    
    Есть в этом поисковике браузер, да и вообще он, похоже, не отличается от обычного мобильника. В гугле написано, что для мобильника его боты качают страницы двух типов в HTML и ....., а как же HTML читать без заголовка.
    .
     
  9. infis

    infis Местный

    Регистрация:
    27.06.11
    Сообщения:
    5 966
    Симпатии:
    3 548
    Версия XF:
    1.5.9
    HTML - это всего лишь версия более универсального XML. А DOCTYPE - это схема, которая указывает браузеру, как обрабатывать теги HTML. Все!
    Разница в тегах HTML 4.1 и HTML 5 есть, но не такая огромная. В общем в HTML 5 просто добавлены некоторые теги, а некоторые старые объявлены устаревшими и должны быть заменены на новые. В любом случае и 4.1 и 5 будут распарсены в общем корректно. Для валидаторов это сильно влияет, для клиентских браузеров это в общем как рекомендация, но в некоторых случаях может влиять на отображение, а для работов это вообще "по барабану". Хотя поисковые роботы с удовольствием принимают некоторые теги и выделяют контент внутри них. При этом указание доктайпа поисковыми ботами (почти уверен в этом) не учитывается, так как влияет только на отображение, но не на содержание.
     
    лиса нравится это.
  10. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Вопрос Яндексу:
    Все страницы сайта имеют мобильную версию. Что бы попасть на мобильную
    версию достаточно добавить к адресу страницы styleid=2 Например.........
    Ответ:
    У нас и те и другие страницы будет скачивать основной индексирующий робот. Для того, чтобы различать мобильные и обычные страницы можно добавить специальный doctype (
    http://help.yandex.ru/webmaster/?id=1121707 ). Сам факт наличия мобильных версий негативным образом на индексировании сказаться не должен.
    С уважением, Платон Щукин

    Вот так, реально роботы умеют отличать мобильные странички по заголовку. :p
     
  11. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Есть информация от Google. Она касается языковых стилей сайта. Теперь при введении в окно поиска Google название домена, при показе результатов поиска под самим окном появилась строчка с предложением показать результат поиска на английском "Search for English results only"
     
  12. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Вот, гугль заценил сайт (Google Page Rank: 1/10 при 500 с лишним тем на форуме).
    Как этот результат в свете обсуждаемой темы - хороший или плохой. Есть у кого опыт в анализе результата от гугля? Индексация началась в январе и сайт сразу получил Google Page Rank: 0/10.
     
  13. CyberAP

    CyberAP Местный

    Регистрация:
    05.10.10
    Сообщения:
    2 604
    Симпатии:
    1 660
    Версия XF:
    1.5.10
    Ниже 3 - плохой. Чтобы повысить ранк ускоряйте загрузку сайта, убирайте все ошибки, увеличивайте внешние ссылки с других сайтов.
     
    лиса нравится это.
  14. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Я знаю сайты, которые работают больше четырёх лет и имеют PR=2. Размещены они на ВДС, за ними числятся десятки тысяч ссылок. Насчёт ошибок на тех сайтах не знаю.
    Значит, равнятся на эти сайты не буду :)
    Ошибки на моих сайтах уже все убраны. Осенью перееду на свой сервер. Наверное, тогда можно будет оценить влияние на индексацию сайта с теми же страницами но с другим языком и в другом стиле.
     
  15. CyberAP

    CyberAP Местный

    Регистрация:
    05.10.10
    Сообщения:
    2 604
    Симпатии:
    1 660
    Версия XF:
    1.5.10
    Если на сайт ссылаются тысячи других не левых сайтов то PR никак не может быть таким низким, если сайт до сих пор обновляется. Я получал PR 4 на очень мелком проекте.
     
    лиса нравится это.
  16. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Конечно, обновляется. Это форум с посещаемостью 400 гостей в час. Я то было обрадовалась, что у моего начинающего проекта PR близко к древнему сайту. Оказалось, что те показатели плохие.

    На моих сайтах прошла реорганизация. Темы перехали на другие сайты. Что касается тем, то на них поставила 301 редирект. Поставила редирект и на метки, но они редиректились, когда по ним переходишь. Роботы посчитали, что им достаточно найти тему, а этого было недостаточно для получения информации о переносе метки на другой сайт. Писала об этой проблеме в гугль на яндекс, результат нулевой. Пришлось все страницы с метками удалить с сайтов, а их было больше половины от всех страниц. Это было в апреле и вот только сейчас удалённые страницы ушли из ошибок сайта. Наверное это обстоятельство отразилось на PR.
     
  17. лиса

    лиса Заблокирован

    Регистрация:
    05.10.10
    Сообщения:
    395
    Симпатии:
    84
    Наш спор по поводу отдачи роботу страниц сайта, разрешился в мою пользу. У Гугля в Инструментах для веб-мастеров появились две вкладки
    1. Таргетинг по странам и языкам
    2. Удобство просмотра на мобильных устройствах
    Вот здесь мне и пригодились стили по языкам и мобильный стиль сайта. Более того, сайт был уже готов к такой индексации на 100%
    https://developers.google.com/speed...n=wmx_otherlinks&url=http://www.vizantium.net
     

Поделиться этой страницей