1. Приглашаем вступить в нашу группу ВКонтакте.
  2. Присоединяйтесь к нашему чату по ссылке: http://t.me/mediawiki_ru

Запрет индексации некторых страниц через robots.txt

Тема в разделе 'Оптимизация и продвижение Media Wiki', создана пользователем Wikijournal, 7 мар 2015.

  1. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    В общем заметил, что после обновления на версию 1.22.13 поисковики начали индексировать и добавлять страница в результаты поиска совсем ненужные страницы, такие как:
    index.php/MediaWiki:Aboutpage
    index.php/MediaWiki:Categorytree-collapse-bullet
    index.php/MediaWiki:Confirmemail_invalid
    и таких очень много! Вот хотелось бы их исключить посредством robots.txt
    Правильно ли я прописал
    Код:
    Disallow: /api.php
    Disallow: /?
    Disallow: /*?
    Disallow: /Special
    Disallow: /MediaWiki
    Disallow: /MediaWiki_talk
    Особенно интересует блокировка страниц начинающихся c "MediaWiki:", правильно ли я прописал в robots.txt? или правильнее будет "Disallow: /index/MediaWiki"
    Спасибо за помощь
  2. UksusoFF
    Оффлайн

    UksusoFF Moderator Команда форума

    Дата регистрации:
    13 май 2013
    Сообщения:
    1.522
    Симпатии:
    193
    Пол:
    Мужской
    Адрес:
    Самара
  3. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    Спасибо ) Стало быть в моём случае нужно:
    Код:
    User-agent: *
    Disallow: /index.php/MediaWiki:
    Да? )
  4. UksusoFF
    Оффлайн

    UksusoFF Moderator Команда форума

    Дата регистрации:
    13 май 2013
    Сообщения:
    1.522
    Симпатии:
    193
    Пол:
    Мужской
    Адрес:
    Самара
  5. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    Да, я проверил ))), просто чего спрашивал - боюсь, чтобы на статьи правило не распространялись ))), они тоже у меня все начинаются с /index.php/Название_статьи )
  6. UksusoFF
    Оффлайн

    UksusoFF Moderator Команда форума

    Дата регистрации:
    13 май 2013
    Сообщения:
    1.522
    Симпатии:
    193
    Пол:
    Мужской
    Адрес:
    Самара
    ну их можно там же и проверить
  7. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    э-э-э а там же, это где? там вижу только проверить robots.txt и всё такое ))) а где отдельно страницу проверить - не вижу )
  8. UksusoFF
    Оффлайн

    UksusoFF Moderator Команда форума

    Дата регистрации:
    13 май 2013
    Сообщения:
    1.522
    Симпатии:
    193
    Пол:
    Мужской
    Адрес:
    Самара
    Анализ robots.txt → Список URL → добавить → Проверить
  9. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    Хех ))) столько там лазил а эту фичу не видел ))) спасибо ))) тему можно закрывать )
  10. aka_sektor
    Оффлайн

    aka_sektor Осваивается

    Дата регистрации:
    21 дек 2015
    Сообщения:
    238
    Симпатии:
    13
    Пол:
    Мужской
    Тоже задался этим вопросом.
    В итоге, если используется короткий url, работает такой код директивы запрета пространств имен:
    Код:
    Disallow: /MediaWiki:*
    Обнаружил примеры тут: https://www.bonusbits.com/wiki/Reference:Mediawiki_Robots.txt_Example
  11. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    Привет всем! Помогите разобраться в составлении robots.txt
    В общем закрыл от индекса все страницы по адресу:
    Disallow: /w-wiki/index.php?*
    но так получилось что генерируется файл карты сайта в директории /w-wiki/sitemap-ru.xml
    далее пишу: Allow: /w-wiki/sitemap-ru.xml
    Но гугл жалуется: Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.
    что у меня не так?
  12. UksusoFF
    Оффлайн

    UksusoFF Moderator Команда форума

    Дата регистрации:
    13 май 2013
    Сообщения:
    1.522
    Симпатии:
    193
    Пол:
    Мужской
    Адрес:
    Самара
    Скорее всего он жалуется на
    Код:
    Disallow: /wiki/*?
    
    По моему под это правило попадает почти все что есть в сайтмапе
  13. aka_sektor
    Оффлайн

    aka_sektor Осваивается

    Дата регистрации:
    21 дек 2015
    Сообщения:
    238
    Симпатии:
    13
    Пол:
    Мужской
    У тебя короткого URL нету что ли?

    В LocalSettings.php указано:
    Код:
    $wgArticlePath = '/w-wiki/$1';
    ?

    Тогда именно что, ты этим закрыл от индексации всю вики.
  14. UksusoFF
    Оффлайн

    UksusoFF Moderator Команда форума

    Дата регистрации:
    13 май 2013
    Сообщения:
    1.522
    Симпатии:
    193
    Пол:
    Мужской
    Адрес:
    Самара
    Даже если он есть, то страницы редактирования и еще некоторые один фиг доступны через index.php
    Таки нет.
  15. Wikijournal
    Оффлайн

    Wikijournal Прижился

    Дата регистрации:
    24 сен 2013
    Сообщения:
    556
    Симпатии:
    34
    Пол:
    Мужской
    Я разобрался таки ... надеюсь )
    В общем все страницы редактирования они идут по ссылке: /w-wiki/index.php?title=...
    Статьи, да, имеют короткие URL /wiki/Article_name
    UksusoFF прав скорее всего, убрал из robots - ранее у меня было немного другое распределение и поэтому так вышло - в общем всё поправил ... посмотрим как гугл теперь отнесётся

    Всем спасибо!