Запрет индексации некторых страниц через robots.txt

Wikijournal · 07.03.2015

В общем заметил, что после обновления на версию 1.22.13 поисковики начали индексировать и добавлять страница в результаты поиска совсем ненужные страницы, такие как:
index.php/MediaWiki:Aboutpage
[URL='http://www.wikijournal.ru/index.php/MediaWiki:Categorytree-collapse-bullet']index.php/MediaWiki:Categorytree-collapse-bullet[/URL]
[URL='http://www.wikijournal.ru/index.php/MediaWiki:Categorytree-collapse-bullet'][URL='http://www.wikijournal.ru/index.php/MediaWiki:Confirmemail_invalid']index.php/MediaWiki:Confirmemail_invalid[/URL][/URL]
и таких очень много! Вот хотелось бы их исключить посредством robots.txt
Правильно ли я прописал

Код:

Disallow: /api.php
Disallow: /?
Disallow: /*?
Disallow: /Special
Disallow: /MediaWiki
Disallow: /MediaWiki_talk

Особенно интересует блокировка страниц начинающихся c "MediaWiki:", правильно ли я прописал в robots.txt? или правильнее будет "Disallow: /index/MediaWiki"
Спасибо за помощь

UksusoFF · 07.03.2015

http://www.mediawiki.org/wiki/Manual:Robots.txt ну вот так вроде все описано

Wikijournal · 07.03.2015

UksusoFF сказал(а):
http://www.mediawiki.org/wiki/Manual:Robots.txt ну вот так вроде все описано

Спасибо ) Стало быть в моём случае нужно:

Код:

User-agent: *
Disallow: /index.php/MediaWiki:

Да? )

UksusoFF · 08.03.2015

Ну да что-то типа того, можно проверить вот тут: https://webmaster.yandex.ru/sites/

Wikijournal · 08.03.2015

UksusoFF сказал(а):
Ну да что-то типа того, можно проверить вот тут: https://webmaster.yandex.ru/sites/

Да, я проверил ))), просто чего спрашивал - боюсь, чтобы на статьи правило не распространялись ))), они тоже у меня все начинаются с /index.php/Название_статьи )

UksusoFF · 08.03.2015

ну их можно там же и проверить

Wikijournal · 08.03.2015

UksusoFF сказал(а):
ну их можно там же и проверить

э-э-э а там же, это где? там вижу только проверить robots.txt и всё такое ))) а где отдельно страницу проверить - не вижу )

UksusoFF · 08.03.2015

Анализ robots.txt → Список URL → добавить → Проверить

Wikijournal · 08.03.2015

UksusoFF сказал(а):
Анализ robots.txt → Список URL → добавить → Проверить

Хех ))) столько там лазил а эту фичу не видел ))) спасибо ))) тему можно закрывать )

aka_sektor · 22.11.2016

Wikijournal сказал(а):
Вот хотелось бы их исключить посредством robots.txt
Правильно ли я прописал

Тоже задался этим вопросом.
В итоге, если используется короткий url, работает такой код директивы запрета пространств имен:

Код:

Disallow: /MediaWiki:*

Обнаружил примеры тут: https://www.bonusbits.com/wiki/Reference:Mediawiki_Robots.txt_Example

Wikijournal · 29.08.2017

Привет всем! Помогите разобраться в составлении robots.txt
В общем закрыл от индекса все страницы по адресу:
Disallow: /w-wiki/index.php?*
но так получилось что генерируется файл карты сайта в директории /w-wiki/sitemap-ru.xml
далее пишу: Allow: /w-wiki/sitemap-ru.xml
Но гугл жалуется: Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.
что у меня не так?

UksusoFF · 29.08.2017

Скорее всего он жалуется на

Код:

Disallow: /wiki/*?

По моему под это правило попадает почти все что есть в сайтмапе

aka_sektor · 29.08.2017

Wikijournal сказал(а):
Disallow: /w-wiki/index.php?*

У тебя короткого URL нету что ли?

В LocalSettings.php указано:

Код:

$wgArticlePath = '/w-wiki/$1';

?

Тогда именно что, ты этим закрыл от индексации всю вики.

UksusoFF · 29.08.2017

aka_sektor сказал(а):
У тебя короткого URL нету что ли?

Даже если он есть, то страницы редактирования и еще некоторые один фиг доступны через index.php

aka_sektor сказал(а):
Тогда именно что, ты этим закрыл от индексации всю вики.

Таки нет.

Wikijournal · 30.08.2017

aka_sektor сказал(а):
У тебя короткого URL нету что ли?

В LocalSettings.php указано:

Код:

$wgArticlePath = '/w-wiki/$1';

?

Тогда именно что, ты этим закрыл от индексации всю вики.

Я разобрался таки ... надеюсь )
В общем все страницы редактирования они идут по ссылке: /w-wiki/index.php?title=...
Статьи, да, имеют короткие URL /wiki/Article_name

UksusoFF сказал(а):
Скорее всего он жалуется на

Код:

Disallow: /wiki/*?

По моему под это правило попадает почти все что есть в сайтмапе

UksusoFF прав скорее всего, убрал из robots - ранее у меня было немного другое распределение и поэтому так вышло - в общем всё поправил ... посмотрим как гугл теперь отнесётся

Всем спасибо!http://mediawiki.ru/forum/members/uksusoff.71/

Запрет индексации некторых страниц через robots.txt

Wikijournal

Гуру MediaWiki

UksusoFF

Moderator

Wikijournal

Гуру MediaWiki

UksusoFF

Moderator

Wikijournal

Гуру MediaWiki

UksusoFF

Moderator

Wikijournal

Гуру MediaWiki

UksusoFF

Moderator

Wikijournal

Гуру MediaWiki

aka_sektor

Гуру MediaWiki

Wikijournal

Гуру MediaWiki

UksusoFF

Moderator

aka_sektor

Гуру MediaWiki

UksusoFF

Moderator

Wikijournal

Гуру MediaWiki